Bioinformatik für Lebenswissenschaftler

Transkript

1 Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS Hiden Markov Models & Phylogenien Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen

2 Übersicht Hidden Markov Model (HMM) Allgemeines Konzept Profile HMM Anwendung Phylogenie Evolutionsmodelle Konstruktion von Stammbäumen Darstellung 2

3 Hidden Markov Models (HMM) HMM sind ein stochastisches Modell, das eine System (z.b. Alignment) als eine Kette von Zufallsprozessen darstellt Sie werden häufig in der Bioinformatik verwendet Identifizierung von kodierenden Regionen oder CpG Sequenz Suche (Profil HMM) Sekundär-Struktur-Vorhersage

4 HMM - Definition Ein HMM besitzt sogenannte Zustände (S x ) und Übergänge (t(s x,s y )) Jeder Zustand hat eine bestimmte Anzahl von Beobachtungen (E a emission) mit den jeweiligen Wahrscheinlichkeiten p(e a ) Jedem Übergang (t transition) zwischen Zuständen ist eine Wahrscheinlichkeit zugeordnet t(s 1,S 3 ) p(e a )=1 S x t(s x,s y )=1 S x t(s 1,S 2 ) t(s 2,S 3 ) S 1 S 2 S 3 t(s 2,S 1 ) E 1 E 2 E 3 E 4

5 Profil HMM - Definition Es gibt Zusätzlich ein Anfangs- und Endzustand Jeder Pfad durch das Model vom Anfangs- bis zum Endzustand ergibt eine Sequenz Die Beobachtungen (Emissionen) sind in diesem Falle eine As einer Sequenz MSA können als sogenannte Profil HMM dargestellt werden

6 Profil HMM - Architektur Jede Spalte im Alignment lässt sich durch 3 Zustände darstellen Match (M) Deletion (D) Insertion (I) D i D i+1 M i M i+1 I i Ii+1

7 Profil HMM - Beispiel Start Stop E E 2 A C D E F G H I K L M N P Q R S T V W Y E E 4 A C D E F G H I K L M N P Q R S T V W Y A C D E F G H I K L M N P Q R S T V W Y A C D E F G H I K L M N P Q R S T V W Y PATH ist die wahrscheinlichste Sequenz, aber auch PETS ist möglich

8 Profil HMM lokale Alignments Insertionen vor und nach HMM werden erlaubt Auch teilweise Alignments sind möglich Start Start Still Still

9 Profil HMM Repeats Das HMM darf mehrmals vorkommen Start Start Still Still

10 HMM aus MSA generieren Die einzelnen Spalten im Alignment müssen den Zuständen zugeordnet werden Match: Spalten ohne gaps Insertion: Spalten mit "vielen" gaps Somit lassen sich die Sequenzen als Pfad im HMM verfolgen Die Gesamtwahrscheinlichkeit ist das Produkt der Wahrscheinlichkeiten für Übergängen und den Beobachtungen

11 Profil HMM - Anwendungen HMMER3 ist eine frei verfügbare Implementation BLASTP / PSI-BLAST ähnliche Suche (phmmer, jackhmmer) Ein HMM aus einem MSA erzeugen (hmmbuild) Consensus oder eine Anzahl von Sequenzen aus einem HMM erzeugen (hmmemit) HMM Suche gegen eine Sequenzdatenbank (hmmsearch) Ein MSA aus Sequenzen erzeugen mit Hilfe eines HMM (hmmalign) Sequenzsuche gegen eine Profil HMM Datenbank (SMART, PFAM, hmmscan) HMM gegen HMM Datenbank (HHPred Söding et al.)

12 Profil HMM vs PSSM Genauso wie PSSMs sind Profil HMM stark abhängig von der Qualität des MSA HMM enthalten Wahrscheinlichkeiten für Insertionen und Deletionen, PSSM (PSI-BLAST) nicht HMM sind deutlich sensitiver, aber auch Rechenzeit Intensiver

13 Vergleich von Suchmethoden

14 Taxonomie Evolution Phylogenie Carl von Linné schlägt um 1735 eine hierarchische Systematik zur Gliederung der Arten vor

15 Taxonomie Evolution Phylogenie Charles Darwins Evolutionstheorie gibt ca. 120 Jahre später eine Erklärung für die Entstehung neuer Arten, die zu baumartigen Hierarchien führt

16

17 Taxonomie Evolution - Phylogenie Phylogenie oder Phylogenese beschreibt die evolutionäre Entstehung der Arten Diese Entwicklung kann in Form eines phylogenetischen Baums dargestellt werden Zur Rekonstruktion phylogenetischer Bäume lassen sich verschiedene Methoden heranziehen Morphologischer oder anatomischer Vergleich rezenter Lebewesen Morphologischer oder anatomischer Vergleich fossiler Lebewesen Sequenzanalyse Verwendung der Sequenzanalyse basiert dabei auf der Annahme einer molekularen Uhr

18 Die Molekulare Uhr

19 Die Molekulare Uhr Mutationsraten schwanken stark von Art zu Art, von Gen zu Gen, von Lokus zu Lokus Starker Unterschied zwischen kodierenden und nicht kodierenden Regionen Mitochondriale DNA hat höhere Mutationsraten (Fehlende Korrekturmechanismen)

20 Graphen und Bäume Graphen sind ein wichtiges Konzept in der Informatik Mit Graphen lassen sich viele Alltagsprobleme anschaulich darstellen Man hat umfangreiche mathematische Werkzeuge um abstrakt damit zu arbeiten Kante Ein Graph besteht aus Knoten Kanten (die Knoten miteinander verbinden) Knoten

21 Graphen und Bäume Graphen sind ein wichtiges Konzept in der Informatik Mit Graphen lassen sich viele Alltagsprobleme anschaulich darstellen Man hat umfangreiche mathematische Werkzeuge um abstrakt damit zu arbeiten Ein Graph besteht aus Knoten Kanten (die Knoten miteinander verbinden) Dieser einfache Graph drückt Nachbarschaftsbeziehungen in Europa aus. Zwei Knoten sind durch eine Kante verbunden, wenn die entsprechenden Länder aneinander grenzen.

22 Graphen und Bäume Graphen sind ein wichtiges Konzept in der Informatik Mit Graphen lassen sich viele Alltagsprobleme anschaulich darstellen Man hat umfangreiche mathematische Werkzeuge um abstrakt damit zu arbeiten Ein Graph besteht aus Knoten Kanten (die Knoten miteinander verbinden) H H H C C Dieser Graph stellt die Struktur von Pyridin dar. Knoten stehen für Atome und sind mit dem Elementsymbol beschriftet. zwei Knoten sind durch eine Kante verbunden, wenn die Atome eine Bindung teilen. C N C C H H

23 Graphen und Bäume Es gibt verschiedene Arten von Graphen, die unterschiedliche Eigenschaften haben Graphen können z.b. Zyklen besitzen, d.h. man kann entlang der Kanten von einem Knoten zu sich selbst wandern, ohne eine Kante zweimal zu nutzen

24 Graphen und Bäume Es gibt verschiedene Arten von Graphen, die unterschiedliche Eigenschaften haben Graphen können z.b. Zyklen besitzen, d.h. man kann entlang der Kanten von einem Knoten zu sich selbst wandern, ohne eine Kante zweimal zu nutzen Graphen ohne Zyklen (azyklische Graphen), werden auch Bäume genannt Zyklischer Graph Azyklischer Graph (Baum)

25 Bäume Einfache evolutionäre Beziehungen lassen sich mit Hilfe von Bäumen darstellen Dabei stehen Knoten für bestimmte Taxa Kanten für eine direkte evolutionäre Verwandtschaft zwischen den beiden Knoten müssen nicht immer explizit gezeichnet werden

26 Gewurzelte und entwurzelte Bäume

27 Gewurzelte Bäume Man kann phylogenetische Bäume gewurzelt oder ungewurzelt darstellen Ein gewurzelter Baum besitzt einen Wurzelknoten, der den jüngsten gemeinsamen Vorfahr aller untersuchten Taxa darstellt Innere Knoten des Baums repräsentieren entsprechend (hypothetische) jüngste gemeinsame Vorfahren der Taxa im Zweig darunter Die Blätter des Baums entsprechen den betrachteten Taxa Der Weg von der Wurzel zu einem Blatt (Pfad) spiegelt die Evolutionsgeschichte des Taxons wieder Innerer Knoten Wurzel Ast, Zweig A B C D Blätter

28 Ungewurzelte Bäume Ungewurzelte Bäume drücken zwar die Verwandtschaft der Taxa untereinander aus, besagen aber noch nicht, wo der gemeinsame Vorfahr aller Taxa lag Gewurzelte Bäume enthalten also zusätzliche Information Einem ungewurzelten Baum entsprechen auch mithin mehrere unterschiedliche gewurzelte Bäume A C B D

29 Umwandlung

30 Wahl der Wurzel Die Umwandlung eines ungewurzelten Baums in einen gewurzelten erfordert die Auswahl einer Kante, an der die Wurzel eingefügt wird Hinzufügen eines oder mehrerer Taxa, die phylogenetisch stark unterschiedlich sind (outgroup) Vergleicht man z.b. Säugersequenzen (B1-B3), kann man entsprechende Sequenzen aus einem Fisch (A) hinzufügen Der gemeinsame Vorfahr von B1-B3 und A liegt evolutionär vor dem gemeinsamen Vorfahr von B1-B3 ) Wurzel B2 A B2 B3 B1 B3 B1 A

31 Anzahl Bäume ist exponentiell Anzahl Taxa Anzahl möglicher Bäume , , ,027, ,459, ,729, ,749,310, ,234,143, ,905,853,580,625

32 Cladogramme und Phylogramme Ein Cladogramm enthält die Information über phylogenetische Ereignisse (Verzweigungen) der dargestellten Spezies, nicht aber die Zeitinformation Phylogramme stellen an einer Achse die Zeit (oder äquivalente Größen) dar Die Lage der Knoten entspricht der (postulierten) Zeit des phylogenetischen Ereignisses B2 B2 B3 B1 A B3 B1 A T 1 T 2 T 3

33 Widersprüche in Bäumen Bestimmt man phylogenetische Bäume mit Hilfe unterschiedlicher Gene, erhält man oft unterschiedliche Bäume Gründe Unterschiedliche Mutationsraten Genduplikationen, orthologe vs. paraloge Gene Heuristiken zur Konstruktion der Bäume Horizontaler Gentransfer (nicht baumartige Evolution!) A B C D E A B C D E A B C D E 1 2 3

34 Konsensusbäume Es gibt verschiedene Arten differierende Bäume zusammenzufassen Analog zum Konsensus von Sequenzalignments, kann man auch Konsensusbäume konstruieren Oft divergieren die Bäume nur an bestimmten Stellen Diese Konsensusbäume drücken aus, welche Information in allen oder der Mehrheit der Bäume enthalten ist A B C D E A B C D E A B C D E 1 2 3

35 Strikter Konsensus Beim strikten Konsensus werden nur Verwandtschaftsbeziehungen berücksichtigt, die in allen Bäumen enthalten sind A B C D E A B C D E A B C D E A B C D E Konsensus In allen Bäumen ist der grüne Knoten Vorfahr von A, B und C B wird daher an den grünen Knoten angehängt

36 Mehrheitskonsensus Beim Mehrheitskonsensus werden alle Beziehungen übernommen, die in mehr als 50% der ursprünglichen Bäume vorkommen A B C D E A B C D E A B C D E A B C D E 67% 100% 67% Konsensus Innere Knoten, die in der Mehrzahl der Bäume auftreten werden in den Konsensusbaum übernommen

37 Reticulate Evolution Reticulate = netzartig Evolution verläuft leider nicht so geradlinig wie bisher skizziert Horizontaler Gentransfer sorgt z.b. dafür, dass eine Spezies mehrere direkte Vorfahren hat Die entstehenden Bäume sind keine Bäume mehr, sondern allgemeine Graphen, Netzwerke Entsprechend komplexer ist die phylogenetische Analyse dieser Vorgänge Mount, Bioinformatics, S. 244

38 Literatur + Links Zvelebil & Baum, Understanding Bioinformatics Mount, Bioinformatics, Kapitel 6 T-Coffee: A Novel Method for Fast and Accurate Multiple Sequence Alignment, J. Mol. Biol. (2000), 302, T-COFFEE-Webserver