Bioinformatik II: Phylogenetik
phylogenetisch Phylai: griechische Klans phylum: der Stamm phylogenetisch: die Stammesgeschichte von Lebewesen betreffend Hierarchien der Klassifikation: Domäne: Eukaryonten Reich: Gewebetiere Stamm: Wirbeltiere Klasse: Säugetiere Ordnung: Primaten Familie: Menschenaffen Gattung: Menschen Art: Homo Sapiens
Phylogenetische Vergleiche
Stammbäume Charles Darwin (1859): The Origin of Species by Means of Natural Selection
Baum des Lebens Doolittle, W. F. (1999): Science 284, 2124-2128
Busch des Lebens Doolittle, W. F. (1999): Science 284, 2124-2128
Orthologe und Paraloge gemeinsamer Vorläufer Genduplikation Organismus -evolution Sequenzevolution Orthologes Gen (Protein hat gleiche Funktion) Paraloges Gen (Protein hat verwandte, aber andere Funktion) Pseudogen (funktionsloses Gen, kein Protein)
Die COG-Datenbank COG: cluster of orthologous groups The current method to classify orthologous sequences from different genomes is the construction of COGs Roman Tatusov Eugene Koonin David Lipman
Voraussetzung: komplette Genome reverse forward RNA Arcanobacterium haemolyticum GC-content GC-skew
III: Sequenzvergleiche alles mit allem
II: Ermitteln aller best hits (BeTs) Gene aus Genom 1 BeTs in genome 2 BeTs in genome 1 Genes aus Genom 2
III: Bestimmung aller minimaler COGs
IV: Zusammenführen aller minimaler COGs
V: Trennen von COGs mit Genfusionen Cluster aus Proteinsequenzen Cluster aus Proteindomänen
Cluster of orthologous Groups (COG) Proteinsequenzen kategorisiert nach ihrer Funktion
Beispiel eines typischen COGs
Vorhersage funktioneller Verbindungen I: Genfusionen rosetta stone sequence
Vorhersage funktioneller Verbindungen II: Genetische Umgebung
Vorhersage funktioneller Verbindungen II: Genetische Umgebung
Multifunktionales Enzym: Tryptophan Synthase
Vorhersage funktioneller Verbindungen II: Genetische Umgebung
Vorhersage funktioneller Verbindungen II: Genetische Umgebung
Vorhersage funktioneller Verbindungen III: Physikalische Interaktion
Proteine, die mit ras interagieren
Yeast two hybrid screen
Reaktion der β-galaktosidase
Vorhersage funktioneller Verbindungen III: Vorkommen yes yes yes yes yes yes yes yes yes no no yes yes yes no yes no yes no yes no yes no no yes yes yes yes yes yes no no no yes no no
Phylogenetisches Muster: Tryptophan Biosynthese
Phylogenetisches Muster: Thermophile
Phylogenetisches Muster: thermophilenspezifische Proteine Anzahl der mesophilen Organismen im COG (von 53) Anzahl der thermophilen Organismen im COG (von 13) 13 12 11 10 9 0 1 2 3 4 5 COG1980 COG1581 COG1350 COG1888 COG1909 COG1110 COG1318 COG1630 COG2250 COG1618 COG3635 COG1355 COG1371 COG2078 COG1144 COG1730 COG1503 COG1820 COG1867 Einzige Zelle, die ohne Ausnahmen analysiert würde
Phylogenetisches Muster: COG ranking
Phylogenetisches Muster: COG ranking Zuordnung der Organismen entweder zur Gruppe A (A) oder zur gruppe B (B) oder oder zu keiner Gruppe (I) Für jedes COG wird durch die Software ein Spezifitätsindex berechnet. Dies ist ein Maß für die Eigenschaft eines COGs, ausschließlich Proteine aus Organismen der Gruppe A zu enthalten. Alle COGs werden gemäß ihrer Spezifitätsindices gerankt
Der Spezifitätsindex wird für jeden COG wie folgt berechnet: Addieren einer Konstanten A für jedes Protein aus einem Organismus der Gruppe A (Belohnung) und Subtraktion einer Konstanten B für jedes Protein aus einem Organismus der Gruppe B (Strafe) wobei A = B = A ges B ges B ges A ges A tot : Anzahl aller Organismen in Gruppe A B tot : Anzahl aller Organismen in Gruppe B Danach werden alle S-Werte auf Werte zwischen 0 und 1 Normalisiert
Beispiel I: Archaeae-spezifische COGs
Beispiel I: Ergebnis
Beispiel II: Atmungskette Komplex I Untereinheit 1
Ergebnis: Atmungskettenproteine
Beispiel III: Thermophilenspezifisch
Ergebnis: Thermophilenspezifische Proteine (THEPs)
Vorhersage funktioneller Verbindungen V: Koexpression Expression: Northern Blot
Vorhersage funktioneller Verbindungen V: Koexpression
Microarray I: printing
Microarray III: Auswertung
Vorhersage funktioneller Verbindungen V: Koexpression