Leibniz-Institute for Natural Product Research and Infection Biology Hans-Knoell-Institute Jena, Germany R. Guthke: Zur Bedeutung der Bioinformatik im Kontext der -omics -Technologien
Gliederung 1. -omics -Technologien 2. Bioinformatik 3. Systembiologie 4. Anwendungen (Beispiele aus der Infektionsforschung und personalisierten Medizin)
-omics? Deutsch: -omik,englisch: -omics Dieses Suffix macht Teilgebiete der modernen Biologie kenntlich, die sich mit der Analyse von Gesamtheiten ähnlicher Einzelelemente (Gene [DNA], Transkripte [mrna], mirna, Epigentik (DNA-Methylierung), Proteine, Metabolite in einer lebenden Zelle beschäftigen. Die jeweilige Gesamtheit wird dann mit dem Suffix -om (dt.) oder -ome (engl.) gekennzeichnet.
Die wichtigsten mol.biol. Gesamtheiten ( -omes ) Ome -Name Beschreibung PubMed* Google* 1. Jahr Genome DNA, gesamte genetische Information im Organismus 732.686 63.000.000 1920 Transcriptome alle mrna-spezies 58.408 5.520.000 1997 Proteome alle Proteine 17.065 29.300.000 1995 Metabolome alle kleinen Moleküle 1.291 103.000 1998 Interactome Secretome alle Interaktionen zwischen Makromolekülen alle aus der Zelle ausgeschiedenen Genprodukte 642 114.000 1999 399 43.600 2000 Glycome alle Kohlenhydratmoleküle 143 39.100 1999 Phenome Physiome Fluxome qualitative Beschreibung aller Funktionen von Genen Qualitative Beschreibung aller physiol. Funktionen alle Enzyme gewichtet mit ihren Umsatzraten 139? 457.000? 1995 97 37.300 1997 29 8.190 1999 Toponome Protein-Epitop-Ligand-Kartographie 15 30.800 2003 * 1. November 2010; nur Einträge mit #PubMed>10 berücksichtigt
Die -omics -Technologien Gene Genom Transkriptom Transkript Proteom Protein Metabolome Metabolit
Die wichtigsten genomweiten Messtechniken Ome -Name Genome Transcriptome Proteome Technik Sequenzierung nach Gilbert, Sanger, Pyrosequenzierung, Hybridisierung, Massively parallel (Next Generation, High Throughput) Sequencing Microarray, RNA-Seq 2D-Gelelektorphorese, Massenspektroskopie (MS, MALDI, SELDI, TOF/TOF) Metabolome GC-MS, LC-MS, HPLC-MS,...
Massiv-parallele Sequenzier-Technologien für Genomik und Transcriptomik Platform Company Sequencing Chemistry Amplification Approach Read Length 3730xl DNA Analyzer (ABI) Sanger dye-terminator based sequencing PCR Up to 900 bp Genome Sequencer FLX System 454/Roche pyro-sequencing emulsion PCR 400 bp (Titanium upgrade) Genome Analyzer IIx Illumina polymerase-based sequencing by synthesis bridge PCR 35,75 and 100 bp SOLiD System ABI ligation-based emulsion PCR 50 bp Heliscope SMS Helicos polymerase-based none (singlemolecule sequencing) 30 35 bp
Transkriptomics mit DNA-Mikrorrays Grundprinzip ist die Hybridisierung der mrna aus einer Probe ( cdna, Target) mit der cdna (Sonde), die auf einem Träger fixiert ist (wie beim Northern blot) Basieren auf zwei Schlüsseltechnologien Immobilisierung von Hunderttausenden Oligonukleotiden konfokaler Fluoreszenz-Laser-Scanner
Transkriptomics z.b. mit Affymetrix s GeneChip Probe Array DNA Oligonukleotid Microarrays Single stranded, labeled RNA target 25 mer Oligonucleotide probe Hybridized Probe Cell *** * * * 24µm 1.28cm Affymetrix U133 PLUS 2.0 array 1.3 Mio verschiedene Oligos (=Sonden= Probes ) 54.000 Probesets 47.000 Transkripte (incl. 38.500 hum. Gene) Datenanalyse z.b. mit BioConductor R-Package: affy u.a.
Transkriptomics z.b. mit Illumina s BeadChips 50mer Oligonuklotide BioConductor R-Package: Lumi (Du et al.)
Gliederung 1. Was sind omics -Technologien? 2. Bedeutung der Bioinformatik 3. Systembiologie 4. Anwendungen (Beispiele aus der Infektionsforschung und personalisierten Medizin)
Was ist Bioinformatik? - Lösen von biologischen Problemen mit Hilfe von Computern. - Interdiszipliäre Wissenschaft, die Biologie, Informatik und Mathematik umfasst. Computeranwendungen für 1) die Gewinnung, das Management, die Analyse biologischer Experimental-Daten und (molekular-)biologischer Informationen: - DNA-(Basen-) und Protein-(Aminosäure-)Sequencen, Proteinstruktur- und Domain-Daten - Transkriptom-, Proteome-, Metabolom- u.a. -ome- Daten - Bilder (Images) und Bildsequenzen - Texte aus Literatur und Literatur-Datenbanken 2) Modellfindung und Modellanalyse ( Prozessoptimierung, Prognose,...)
Die Bedeutung der Bioinformatik 1) Neue molekularbiologische Technologien, die sogenannten -omics -Technologien, erzeugen große Mengen von Daten und nach der Datenverarbeitung große Mengen an Information. Es ist unmöglich diese Datenmengen manuell zu verarbeiten und zu analysieren. 2) Die Struktur und das Verhalten vieler biologischer Systeme ist so komplex, dass sie nur mit Hilfe mathematischer Modelle beschrieben werden können. Dazu sind Computer unerlässlich. Diese müssen mit geeigneter Software ausgestattet werden. Die Software zu entwickeln und anzuwenden ist Aufgabe der Bioinformatik. Software-Beispiele
Eine Software für Affymetrix-Datenanalyse:EXPANDER
Software-Projekt für -omics : Bioconductor ein Open Source Softwareprojekt aufbauend auf R - zur Erstellung von Werkzeugen - zur Analyse und Interpretation genomischer ( -omics ) Daten www.bioconductor.org
Bioconductor-Report 2002 bis 2010 212 aktive Software-Entwickler weltweit 325 Software-Pakete Jahr 2002... 2009 Version: 1.0 2.4 #Packages: 15... 320
Bioconductor: Nicht nur Software, auch Daten und Infos http://www.bioconductor.org/packages/biocviews Software Experiment Data AnnotationData
Bioconductor: AssayTechnologies Microarray MicrotitrePlateAssay MassSpectrometry SAGE FlowCytometry Sequencing HighThroughputSequencing
Gliederung 1. omics -Technologien 2. Bioinformatik 3. Systembiologie 4. Anwendungen (Beispiele aus der Infektionsforschung und personalisierten Medizin)
-omics Systembiologie Statt Suffix -omics sind auch Adjektive in Gebrauch: Genom-weit, large-scale, holistisch, ganzheitlich Das Ganze ist mehr als die Summe seiner Teile. Aristoteles 384-322 v. Chr. Systembiologie Kitano H (2002): Systems Biology: a brief overview. Science, 295 北 野 宏 明 Hiroaki Kitano * 1961
Systembiologie (SB) SB = Bio + Math + Inf + Ing Ganzheitliches Verständnis biologischer Prozesse - genomweite Analyse und Modellierung - Struktur und Dynamik
Zyklus: Experiment Modell Experiment Hypothese und Experiment Merkmalsselektion Datenvorbehandlung Modellvalidierung Literatur und Datenbanken Modelloptimierung
Gliederung 1. omics -Technologien? 2. Bioinformatik 3. Systembiologie 4. Anwendungen (Beispiele aus der Infektionsforschung und personalisierten Medizin)
Identifikation von genregulatorischen Netzwerken
Identifikation von genregulatorischen Netzwerken Bioinformatische Daten-Analyse, Modellierung, Versuchsplanung:
Identifikation von genregulatorischen Netzwerken Die Daten- und Model-basiert vorhergesagte Regulation der Lipoate synthase coding gene (lipa ) durch den pyruvate-sensing pyruvate dehydrogenase repressor (PdhR) wurde experimentell bestätigt.
Identifikation von genregulatorischen Netzwerken Stressantwort von humanen Blutzellen (PBMCs peripheral blood mononuclear cells) auf Infektion durch pathogene Escherichia coli (Wirt-Pathogen-Interaktion) Daten: Boldrick, PNAS, 2002 Netzwerkmodell: Guthke et al., Bioinformatics, 2005 494 Gene 269 Gene 97 Gene 67 Gene 137 Gene 188 Gene Clusteranalyse (Genexpressionsprofile MW + Std) Netzwerkmodell Repräs. Genexpressionsprofile (Messwerte und Modellsimulation)
Identifikation von genregulatorischen Netzwerken Stressantwort des humanpathogenen Pilzes Aspergillus fumigatus auf einen Temperatursprung (Wirt-Pathogen-Interaktion) Daten: Nierman et al., Nature, 2005 Netzwerkmodell: Guthke et al., Lecture Notes in Bioinformatics, 2007 Clusteranalyse (Genexpressionsprofile MW + Std) Netzwerkmodell Repräs. Genexpressionsprofile (Messwerte und Modellsimulation)
Identifikation von genregulatorischen Netzwerken Daten: 19 Patienten mit rheumatoider Arthritis Therapie: Anti-TNF-alpha therapy (Etanercept, Enbrel ) Proben: Peripheral Blood Mononuclear Cells (PBMC) vor und 3 Tage nach der ersten Injektion Transkriptom-Analyse: Affymetrix Chip U133A
Identifikation von genregulatorischen Netzwerken von Transkriptomdaten aus Blutproben von RA-Patienten vor und nach anti-tnf-alpha Therapy TFBS (Trans kriptionsfaktorbindestellen aus der DNA- Sequenz und Datenbanken (UCSC-DB build hg18, Biobase Transfac)
Identifikation von genregulatorischen Netzwerken von Transkriptomdaten aus Blutproben von RA-Patienten vor und nach anti-tnf-alpha Therapy
Zusammenfassung Bedeutung der Bioinformatik für omics -Technologien: (1) Integration von omics -Daten und Vorwissen (2) Von omics - Daten zum molekularbiologischen Wissen (3) Bioinformatik für die Individualisierte Medizin
Bioinformatik für omics -Technologien (1) Integration von Daten und Vorwissen Hecker M, Lambeck S, Toepfer S, van Someren E, Guthke R (2009): Gene Regulatory Network Inference - Data Integration in Dynamic Models BioSystems, 96:86-103
Bioinformatik für omics -Technologien (2) Von genom-weiten Daten zum molekularbiologischen Wissen Verständnis Steuerung Optimierung Vorhersage biomedizinischer Prozesse: Theragnostik von Infektionsprozessen Biosynthese von Sekundärmetaboliten Optimale Versuchsplanung
Bioinformatik für omics -Technologien (3) Bioinformatik für die Individualisierte Medizin Bsp: Anti-TNF-alpha Therapie der Rheumatoiden Arthritis?anti-IL6receptor, B-cell depletion;...? cellular and molecular analysis Koczan et al. (2008): Arthritis Research & Therapy 10: R50.
Danke! HKI, AG Systembiologie / Bioinformatik www.sysbio.hki-jena.de
Die Vorgeschichte der omics -Technolgien Transmission genetics & cytology Restriction analysis & recombination Genetic code Amplification 1869 1900 1950 1960 1970 1980 1990 DNA isolated DNA structure (double helix) Hybridization Sequencing Affymetrix Microarray
1. Aufgabe: Bioprozess-Datenanalyse Analyse von zeitaufgelösten Transkriptom- und Proteomdaten sowie mikrobiologischen und klinischen Daten künftig auch Metabolomdaten Data Warehouse Analyse und Modellierung Hypothesen und Wissen
Software Qlucore Omics Explorer Analysiert -omics -Datensätze wie Gene expression: microarrays, real-time PCR MicroRNA: microarrays, real-time PCR DNA methylation: microarrays Protein expression: microarrays, antibody arrays, 2-D gels weitere multivariate Daten der Größe bis zu 1.000 x 100.000
Identifikation von genregulatorischen Netzwerken Experimentelle Daten von der Many Microbe Microarrays Database (M 3D, Faith et al., 2008)
Bioconductor: Software für die Mikroarray-Analyse http://bioconductor.org/packages/1.9/qualitycontrol.html