Genomforschung und Sequenzanalyse inführung in Methoden der ioinformatik Molekulare Phylogenie II ernhard Lieb & Tom Hankeln WS 26/27 1 Verwirrung? rleuchtung 2 1
Was bisher geschah... aten lignment istanzmatrix lustalx, ialign volutionsmodell JTT, PM, LOSUM... Stammbaum 3 Korrektur der istanzen % tatsächlicher bstand = nzahl der Mutationen Korrektur beobachteter bstand t 4 2
volutions modelle 5 volutionsmodelle Globuläre Proteine Transmembran-Proteine 6 3
Variationen der Substitutionsraten shape-parameter α Häufigkeit α=,5 α=2 α=5 α=1 α=5 Kategorien Substitutionsrate 7 ModelTest, ProtTest, FindModel 8 4
istanzmatrix erechnen des paarweisen bstands Sequenz 1,,236,621,72 1,51 Sequenz 2,,599,672 1,482 Sequenz 3,,112 1,561 Sequenz 4, 1,425 Sequenz 5, usgedrückt i.d.r. als Mutationen pro Position bstand kann > 1 werden! sp. Jukes-antor: 3 4 K = ln 1 p p =.6 => K = 1.21 4 3 9 Stammbaumerstellung Wie kommen wir von einer istanzmatrix zu einem Stammbaum? => lgorithmus berechnet aus den istanzen den besten Stammbaum Sequenzen selbst werden nicht mehr berücksichtigt 1 5
UPGM Unweighted Pair-Group Method with rithmetric Means 6 1 1 18 18 12 12 2 2 19 19 =3 3 3 d + d 2 d + d 2 / / / / 11 11 19 19 19 19 =5,5 2.5.5 5.5 / 11 UPGM Unweighted Pair-Group Method with rithmetric Means // Sequenz // 19 19 Sequenz 4 3 2.5 3 5.5 nimmt konstante volutionsraten an ußengruppe wird automatisch bestimmt 9.5 12 6
UPGM Unweighted Pair-Group Method with rithmetric Means dditive oder "lustering" lustering"-methode: s werden durch sequenzielles lustern nach absteigender Ähnlichkeit gruppiert. 13 UPGM Unweighted Pair-Group Method with rithmetric Means usgangsmatrix 6 1 1 18 18 12 12 2 2 19 19 rekonstruierte Matrix 6 11 11 19 19 11 11 19 19 19 19 4 3 2.5 3 5.5 9.5 UPGM setzt absolute molekulare Uhr voraus, aber in Realität müssen volutionsraten berücksichtigt werden 14 7
Fitch-Margoliash lgorithmus Ähnlicher lgorithmus wie UPGM Sukzessives Gruppieren der Taxa ohne Verlust eines stlängenunterschiedes Keine molekulare Uhr zur estimmung der stlängen: 15 Fitch-Margoliash lgorithmus 3 Taxa (1) b a (3) c c (2) istanzen bekannt, aber stlängen nicht klar => 2 Unbekannte (a, b); 1 Konstante (c) => z.. aus der ifferenz von (3) und (2) => Unterschied der Äste errechenbar => uflösen nach b => insetzen in (1) 22 22 39 39 inzelabstände (1) = a+b = 22 (2) = a+c = 39 (3) - (2) (3) = b+c = a-b = 39 = -2 -b = -2-a b= 2+a a+a+2 = 22 2a = 22-2 a= 1 16 8
Fitch-Margoliash lgorithmus 3 Taxa 22 22 39 39 (a): 1 (b): 12 (c): 29 b=12 c=29 a=1 17 Fitch-Margoliash lgorithmus 5 Taxa 22 22 39 39 39 39 b 43 43 c f 18 18 2 2 a g 1 1 d und geringste istanz urschnittswert aus bilden 3.Taxon erechung der stlängen und Neue Matrix e :2 / / 22 22 39 39 4 4 42 42 19 19 / / usw 18 9
Fitch-Margoliash lgorithmus wenn die einzelnen volutionsraten (stärker) variieren, dann doch lieber Neighbor-joining 19 Neighbor-joining (NJ) Saitou und Nai, 1987 Ähnlicher lgorithmus wie UPGM bzw. FM Sukzessives Gruppieren der Taxa ohne Verlust eines stlängenunterschiedes unrooted tree oder ungewurzelter aum (radial) Keine molekulare Uhr esonders sinnvoll, wenn volutionsraten der verschiedenen Linien unterschiedlich sind Minimierung der Gesamt-stlängen des aums => Stammbaum wird aufgelöst 2 1
a b e Neighbor-joining (NJ) Star-tree S = ( d ji )/N-1 i j d c S = Summe aller stlängen d = istanzen zwischen allen s S =78,5 S =a+b+c+d+e 22 39 39 22 39 39 43 43 18 2 18 2 1 1 a Paare werden kombiniert ber: Welche Paare werden kombiniert? Ziel N=nzahl NJ der => s Minimierung der Summe aller stlängen modified Star-tree S mn = [( d im +d in )/2(N-2)]+d mn /2+ d ij /N-2 i und j alle Sequenzen ausser m und n, wobei i<j S =67,7 S =81 S =76 S =7 b f e d c 21 Neighbor-joining (NJ) Star tree -> aumlänge modified Star-tree Grouping -> aumlängen stlängen -> FM b c f Neues taxon () -> neue Matrix a d e Grouping -> aumlängen stlängen -> FM Neues taxon -> neue Matrix Neues taxon (XY) -> neue Matrix Grouping stlängen Neues taxon -> aumlängen -> FM -> neue Matrix 22 11
Neighbor-joining (NJ) rrechnen der Summe aller istanzen, durchschnittlicher istanzen einer Gruppe und z.. (S +S )/N-2 Summe Summe 22 22 39 39 39 39 1 1 43 43 147 147 18 18 2 2 118 118 1 1 18 18 114 114 errechnen der istanzunterschiede ( rate corrected distance ) z.. =d (S +S )/N-2 Summe Summe 22 22 39 39 39 39 1 1-74 -74 43 43 147 147-47,3-47,3-47 -47 18 18 2 2 118 118-46 -46-44 -44-57,3-57,3 1 1 18 18-44 -44-44 -44-57,3-57,3-6,6-6,6 114 114 Grouping 23 Neighbor-joining (NJ) rrechnen der stlängen durch FM b=12 X a=1 24 12
usgangsmatrix Neighbor-joining (NJ) Summe Summe 22 22 39 39 39 39 1 1 43 43 147 147 18 18 2 2 118 118 1 1 18 18 114 114 rstellen einer reduzierten atenmatrix liminierung der istanzen d X = (d d X + d d X )/2 <=> (39 1 + 12)/2 = 29 Summe Summe 29 29 29 29 31 31 89 89-49 -49 18 18 2 2 67 67-44 -44-44 -44 1 1 57 57-44 -44-44 -44-49 -49 61 61 erechnen der stlängen nach FM Und so weiter.. 12 X 1 25 Neighbor-joining (NJ) final tree b=12 c=9 c f=2 a=1 g=5 22 22 39 39 39 39 43 43 18 18 2 2 1 1 e=6 d=4 26 13
Neighbor-joining (NJ) Sequenzen Neighbor-joining Multiples lignment volutionsmodell istanzberechnung Stammbaumberechnung UPGM rgebnisüberprüfung 27 Neighbor-joining (NJ) UPGM setzt absolute molekulare Uhr voraus, aber in Realität müssen volutionsraten berücksichtigt werden Salamander Zebrafisch Lachs Zebrafisch Salamander Lachs nte UPGM vs NJ nte Gans Gans Huhn!bootstrap Taube? Taube Huhn Krokodil Krokodil lligator lligator Schildkröte Schildkröte Wal Wal Mensch Mensch.5 -> long branch attraction.2 28 14
Weitere istanzmethoden Least-squares-Methode Fehler (bweichung) mit der n Sequenzen auf einen aum gepasst werden K ij korrigierte Wert der istanz e (istanzmatrixwert) zwischen i und j P ij Länge des stes, der i und j verbindet = 1 i, j i < j < n ( Kij Pij ) 2 Minimum volution aum aus n Sequenzen besitzt 2n-3 Zweige Jeder Zweig z hat Länge l Summe dieser Zweiglängen ist die Länge des aumes = minimal Nach der LS-Formel wird dann die bweichung der stlängen von den istanzen minimiert L = 2n 3 lz z = 1 29 Was bisher geschah... aten lignment istanzmatrix Stammbaum lustalx, ialign volutionsmodell JTT, PM, LOSUM... lgorithmus z. UPGM; NJ NJ FM LS M UPGM 3 15
Stammbaumerstellung 1. Matrix-orientierte Methoden 2. harakter-orientierte Methoden Maximum Parsimony Maximum Likelihood 31 harakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) rbeiten direkt mit dem lignment xtrahieren mehr Information als Matrix-orientierte Methoden 32 16
Was sind haraktere? kontinuierliche oder diskontinuierliche igenschaften. 1,2,3,4... = kontinuierliche haraktere,t,g, = diskontinuierliche haraktere Nukleotide und minosäuren können als diskrete, diskontinuierliche haraktere behandelt werden. er phylogenetische Stammbaum wird anhand des Musters der Änderungen der haraktere berechnet 33 Maximum Parsimony (MP) Methode des "maximalen Geizes" bzw. der "maximalen Sparsamkeit" ntwickelt für morphologische haraktere 195 Grundzüge einer Theorie der phylogenetischen Systematik Willi Hennig 1913-1976 1976 34 17
Maximum Parsimony William of Ockham (1285-1349) nnahme: volution ging den kürzesten Weg Ockham's razor : "Pluralitas non est ponenda sine neccesitate" ("Ohne Notwendigkeit soll keine Vielfältigkeit hinzugefügt werden") =>minimalistische Ökonomieprinzipien kürzester Stammbaum wird berechnet, d.h. der die wenigsten evolutiven Schritten benötigt Schritte = Änderungen von harakteren 35 Maximum Parsimony rklärung mit morphologischen harakteren Gleiche Prinzipien sind für Sequenzen (asenpaare, minosäuren) gültig 36 18
Maximum Parsimony pomorphie: bgeleiteter harakter. Synapomorpie: bgeleiteter harakter, welcher mehreren Taxa gemeinsam ist. Plesiomorphie: Primitiver harakter. Symplesiomorphie:Primitiver harakter, welcher mehreren Taxa gemeinsam ist. Synapomorphie Symplesiomorphie Nur Synapomorphien sind in MP zu verwerten! 37 Synapomorphie eispiel Haare: Haare sind in der volution nur einmal entstanden..h., der esitz von Haaren ist ein synapomorphes Merkmal der Säugetiere. idechse Mensch Haare Frosch Änderung Hund fehlt vorhanden Synapomorphie = "richtige" Information 38 19
Homoplasie Unabhängige volution Homoplasie ist Übereinstimmung ohne Homologie (d.h., keine gemeinsame bstammung) Homoplasie resultiert aus unabhängiger volution (Konvergenz, Reversion) Homoplasie ist falsche Information, die zu falschen Stammbäumen führen kann MP ist anfällig für Homoplasie 39 Homoplasie-Konvergenz eispiel Schwanz: Schwanz ging unabhängig in den Fröschen und beim Menschen verloren. idechse Frosch Mensch Hund Schwanz fehlt vorhanden 4 2
Homoplasie Konvergenz eispiel Schwanz: Wenn Homoplasie unberücksichtigt bleibt, wird ein falscher Stammbaum abgeleitet. idechse Mensch Schwanz Hund Frosch fehlt vorhanden Maß für Homoplasie:.I. = onsistancy Index; I=m/s m: kleinste mögliche theoretische Schrittzahl s: tatsächliche Schrittzahl homoplastisch I<1 nwendung auf Sequenzen Nukleotide und minosäuren sind diskrete, diskontinuierliche haraktere 4 (Nukleotide) bzw. 2 (minosäuren) haraktere Lücken ("gaps") können als 5. bzw. 21. harakter behandelt werden 42 21
Maximum Parsimony eispiel: Position Sequenz 1 2 3 4 5 6 7 8 9 G G T G G G T G G G T T G G T G 3 mögliche Stammbäume ((,),(,)) ((,),(,)) ((,),(,)) 43 Maximum Parsimony Welche Positionen sind informativ, bevorzugen also eine bestimmte Topologie? Position Sequenz 1 2 3 4 5 6 7 8 9 G G T G G G T G G G T T G G T G 3 Positionen invariabel => nicht informativ 44 22
Maximum Parsimony Position Sequenz 1 2 3 4 5 6 7 8 9 G G T G G G T G G G T T G G T G 6 Positionen sind variabel => aber auch informativ? 45 Maximum Parsimony Position Sequenz 1 2 3 4 5 6 7 8 9 G G T G G G T G G G T T G G T G 3 Positionen sind zwar variabel, aber nicht informativ 46 23
Maximum Parsimony Welche Positionen sind aber nun informativ? Position Sequenz 1 2 3 4 5 6 7 8 9 1 11 G G T G - G G T G G - G G T T G G G T G G * * * * => nur 3 von 9 Positionen sind informativ, d.h., favorisieren eine best. Topologie. => Indels sind haraktere! 47 Maximum Parsimony Position Sequenz 1 2 3 4 5 6 7 8 9 G G T G G G T G G G T T G G T G - + + ((,),(,)) ((,),(,)) ((,),(,)) Position 3: G G G? Position 5: Position 9: G G G G G G G G G G G G G G 48 24
Maximum Parsimony Position Sequenz 1 2 3 4 5 6 7 8 9 G G T G G G T G G G T T G G T G * * * 3 mögliche Stammbäume 1 Mutationen 15 Mutationen 14 Mutationen 49 Maximum Parsimony ber: Ort der Mutation nicht immer eindeutig definiert => Parsimony kann keine stlängen berechnen. 1 Mutationen Position Sequenz 1 2 3 4 5 6 7 8 9 G G T G G G T G G G T T G G T G = = =... 1 Mutationen 1 Mutationen 5 25
Maximum Parsimony Proteinparsimony: 1. Modell (z.. PUP): lle Substitutionen sind gleich wahrscheinlich (1 Schritt). eispiel Ile -> Trp Ile -> Met Ile -> la... 2. Modell: liegt genetischen ode zugrunde, wobei "silent site mutations" ignoriert werden (PROTPRS-Modell in PHYLIP). eispiel: Ile -> Met: T//T -> TG: ein Schritt Ile -> la: T//T -> GN: zwei Schritte Ile -> Trp: T//T -> TGG: drei Schritte 51 Maximum Parsimony xhaustive = lle Stammbäume werden untersucht, der beste Stammbaum wird erhalten (garantiert). ranch-and-ound = inige Stammbäume werden berechnet, bester Stammbaum garantiert. Heuristic = inige Stammbäume werden berechnet, bester Stammbaum nicht garantiert. 52 26
Maximum Parsimony xhaustive = lle Stammbäume werden untersucht, der beste Stammbaum wird erhalten (garantiert). xhaustive search: rschöpfung garantiert 53 Maximum Parsimony: xhaustive Search "ranch addition (1) Start: 3 beliebige Taxa + 4. Taxon () in jeder möglichen Position -> 3 äume (2a) (2b) (2c) + 5. Taxon () in jeder der fünf möglichen Positionen => 15 Stammbäume etc. 54 27
Maximum Parsimony: xhaustive Search Problem: nzahl der möglichen Stammbäume Number of s Number of rooted trees Number of unrooted trees 2 1 1 3 3 1 4 15 3 5 15 15 6 954 15 7 1395 954 8 135135 1395 9 22725 135135 1 34459425 22725 => bei > ~1 Sequenzen ausführliche Suche aller Stammbäume de facto unmöglich 55 Maximum Parsimony 1. Lösung "ranch and bound": Stammbaum wird mit schneller Methode (z.. NJ) berechnet, die nzahl der notwendigen Schritte (L) wird berechnet. => verwirft Gruppen von äumen, die nicht kürzer werden können als L. Kann für Problemlösungen mit < ~ 2 Taxa verwendet werden. 56 28
Maximum Parsimony abzweigen und beenden branch and bound 57 Maximum Parsimony 2. Lösung: Heuristische Verfahren: stepwise addition drei Taxa aum schrittweise ddition auf allen nächsten benen (großes Problem: lokale Maxima) star decomposition : star tree schrittweiser bbau von Taxa bzw. Zusammenführung und valuation (großes Problem: lokale Maxima) Kombination mit anderen lgorithmen branch swapping (Zweige vertauschen): Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TR) 58 29
Maximum Parsimony Nearest neighbor interchange (NNI) Nachbarschaftstausch F G F G F G 59 Maximum Parsimony Subtree pruning and regrafting (SPR) stverpflanzung F G F G 6 3
Maximum Parsimony Tree bisection and reconnection (TR) aumschnittwiederverknüpfung (effektiv) F G G F F G Gutes urchmischen, aber PU aufwendig 61 Maximum Parsimony Problem: Lokale Maxima?! stepwise addition" star decomposition auminsel 62 31
Parsimony Ratchet urch zwischenzeitliche inführung einer veränderten Matrix wird man aus einem lokalen Maximum herauskatapultiert Programme wie: NON, TNT, PRP Weitere Parsimony -Verfahren: Wagner (binäre haraktere), ollo (gewichtet) und Fitch (unordered multistate characters, N) 63 Maximum Parsimony Vorteile: einfach ohne konkretes volutionsmodell rrechnung ancestraler Positionen funktioniert gut mit konsistenten atensätzen Nachteile: empfindlich gegen Homoplasien (Konvergenz) empfindlich gegen "Long ranch ttraction" stlängen werden unterschätzt kein volutionsmodell möglich! 64 32
harakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) 65 Maximum Likelihood The explanation that makes the observed outcome the most likely L = P( H) Wahrscheinlichkeit der aten, gegeben eine Hypothese iehypotheeisteineaumtopologie,dessen stlängen und ein volutionsmodell unter dessen Präsenz die aten evolvierten Zum ersten mal von avalli-sforza and dwards (1967) für gene frequency data benutzt, später (1981) von Felsenstein für N Sequenzen 66 33
Probability and likelihood ie Wahrscheinlichkeit liegt immer zwischen NI () und SIHR (1). ie bedingte Wahrscheinlichkeit ist die Wahrscheinlichkeit eines reignisses, gegeben das reignis : P( )....if probability allows us to predict unknown outcomes based on known parameters P(H ), then likelihood allows us to determine unknown parameters based on known outcomes P( H). 67 Likelihood Hypothese reignisse sind unabhängig lle Kopfwürfe besitzen gleiche UNKNNT Kopfwahrscheinlichkeit p aten: KKZKZKKZZZ L = P(aten Hypothese ) => Likelihood L( H) = pp(1-p)(1-p)p(1-p)pp(1-p)(1-p)(1-p) Keine Verteilung, Plot der selben aten (KKZKZKKZZZ) gegen verschiedene Werte von p (Hypothese) => Mit welcher Kopfwahrscheinlichkeit p bekomme ich am ehesten diese aten? Likelihood,,2,4,6,8 1, [p] 68 34
Maximum Likelihood L = P(data hypothesis) Wahrscheinlichkeit der beobachteten aten (Sequenzen!) im Lichte der Hypothese (Stammbaum). d.h, es wird der Stammbaum errechnet, der die beobachteten aten (also die alignierten Sequenzen) am besten (unter der nnahme des Modells) erklärt. volutionsmodell in aum wird generiert und man prüft dann ob die gegebenen aten den aum generieren könnenk 69 Maximum Likelihood benötigt ein explizites volutionsmodell Parameter werden aus aten + Modell errechnet. xplizite Verbindung aten + Modell + Stammbaum. aber: schlechtes Modell => schlechter Stammbaum lternative Stammbäume lassen sich testen => keine Methode extrahiert mehr Information aus den aten; aber: sehr rechenintensiv 7 35
Maximum Likelihood volutionsmodelle Für N-Sequenzen: => J, K2P, F81, HKY, RV Für Protein-Sequenzen: => PM, LOSUM, JTT, WG... 71 Maximum Likelihood Seq1 GG Seq2 GG Seq3 GTT Seq4 GGTG 1 2 3 4 Frage: Wie hoch ist die Wahrscheinlichkeit, dass der Stammbaum für die aten (Sequenzen) unter dem gegebenen Modell verantwortlich ist? 72 36
Maximum Likelihood 1 GG 2 GG 3 GTT 4 GGT j GT?? GT 4 x 4 Möglichkeiten ie Wahrscheinlichkeit für eine best. Position j ist die Summe der inzelwahrscheinlichkeiten aller möglichen ancestralen Nukleotide unter dem gegebenen Modell. 73 ML eispiel (vereinfacht): aten: Modell (nicht realistisch): 1 2 3 4 T G 1,1,1,1 T 1,1,1 1,1 G 1 74 37
ML - eispiel: Stammbaum : X,Y =, T, G, oder X Y ML: Summe der 4 x 4 inzelwahrscheinlichkeiten 75 ML - eispiel: 1. Topologie, immer gleich für unterschiedliche Knoten! Stammbaum 1: Stammbaum 2: T 1 x 1 x,1 x 1 x 1 =,1 1 x 1 x,1 x,1 x,1 =,1 usw... Summe aus 16 möglichen Stammbäumen! 76 38
ML - eispiel: 2. Topologie (andere Topologie)! ber immer gleich für unterschiedliche Knoten! Stammbaum 1: Stammbaum 2: T,1 x,1 x 1 x,1 x 1 =,1 1 x,1 x,1 x,1 x,1 =,1 usw... usw..usw Summe aus 16 möglichen Stammbäumen! 77 ML - eispiel: Summe der Wahrscheinlichkeiten der inzelbäume => Likelihood Stammbaum : Stammbaum : Wahrscheinlichkeit": =,12427 => logl = -,9563 Wahrscheinlichkeit": =,232 => logl = -1,6379 78 39
Maximum Likelihood 1 GG 2 GG 3 GTT 4 GGTG i....z Wahrscheinlichkeit des Stammbaums ist das Produkt aller Wahrscheinlichkeiten für jede Position: ML- Stammbaum = Stammbaum mit größter "Likelihood". 1 2 3 4 79 Maximum Likelihood Sequence 1 Sequence 2 Sequence 3 Sequence 4 GG GG GTTT GGTT X,Y =, T, G, oder T G 1,,1,2,4 T 1,,3,6 1,,1 G 1, erechnen Likelihood einer aller Möglichkeiten vorgegebenen Topologie für eine ist das Produkt aller 1x1x1x,1x,1=,1 Topologie und eine Wahrscheinlichkeiten Position jeder Position 8 4
Maximum Likelihood Likelihood für alle anderen Topologien und Vergleich der Likelihoods L = P(data hypothesis) Sequence 1 Sequence 2 Sequence 3 Sequence 4 GG GG GTTT GGTT T G 1,,1,2,4 T 1,,3,6 1,,1 G 1, Für r n=5 Sequenzen gibt es 2,84x1 76 mögliche äume <-> < > tome im Universum: ~1 8 81 Maximum Likelihood - Vorteile Mathematisch gut definiert Funktioniert gut in Simulationsexperimenten rlaubt explizite Verbindung von volutionsmodell und aten (Sequenzen) "Realistische" nnahmen zur volution Verschiedene Modelle und Stammbäume lassen sich testen 82
Maximum Likelihood - Nachteile Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die volution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den aten überein? omputertechnisch nicht zu lösen wenn zu viele Taxa oder Parameter berücksichtigt werden müssen. 83 Maximum Likelihood ei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar für r n=5 Sequenzen gibt es 2,84x1 76 mögliche äume Lösung: "Intelligente lgorithmen" - Quartet puzzling - ayessche Methode + MMM 84 42
85 43