Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik. Bernhard Lieb & Tom Hankeln WS 2007/2008. Verwirrung?

Transkript

1 Genomforschung und Sequenzanalyse Einführung in Methoden der ioinformatik Molekulare Phylogenie II ernhard Lieb & Tom Hankeln WS 2007/ Verwirrung? Erleuchtung 2 1

2 Korrekturmodelle Jukes & antor-modell 3 4 K = ln 1 p 4 3 P = nteil der beobachteten ustausche % t Kimura 2-Parameter-Modell K P = nteil der Transitionen (Ti: <=> G, <=> T) Q = nteil der Transversionen (Tv:,G <=>,T) 3 Variationen der Substitutionsraten eispiel: Rate: r Invariabel 20% Variabel 80% inv < var Sequenzen Multiples lignment Sequenzunterschiede Rate: 4r Invaribel 50% uswahl der Methode lgorithmus Stammbaumberechnung Zeit Ergebnisüberprüfung Sequenz blau evolviert schneller als Sequenz rot, hat aber weniger variable Positionen => Sättigung schneller erreicht. 4 2

3 Variationen der Substitutionsraten Wie kann man solche Variationen der Substitutionsraten einrechnen? Jede Stelle hat prinzipiell eigene Substitutionsraten ( among site variation => ) nnahme: Die Variationen lassen sich über eine Gamma- {Γ}Verteilung beschreiben. Der "shape"-parameter α gibt die relative Verteilung der unterschiedlichen Substitutionsraten wieder α klein => viele Positionen geringe Substitutionsraten viele invariant α GROSS => viele Positionen HOHE Substitutionsraten wenig invariant 5 6 3

4 Variationen der Substitutionsraten nteil der Stellen shape-parameter α α=0,5 α=2 α=5 α= α=100 α=50 Kategorien Substitutionsrate α GROSS => viele Positionen HOHE Substitutionsraten, wenig invariant α klein => viele Positionen geringe Substitutionsraten, viele invariant 7 Variationen der Substitutionsraten 8 4

5 Variationen der Substitutionsraten ytochrome b5 TP synthase Hemocyanin 9 Welches Modell ist das beste? Je komplexer das Modell (mehr nnahmen), desto genauer und realistischer unsere erechnung der Substitutionsrate. ER: Zusätzliche Parameter müssen aus den Daten abgeschätzt werden. Je mehr nnahmen man trifft, desto größer wird der statistische Fehler (Varianz) der erhaltenen Werte! => möglichst gute Daten => möglichst einfaches Modell, das dennoch exakt ist 10 5

6 Welches Modell ist das beste? Wer sagt mir, welches Modell das beste für meine Daten ist? => Wir können und müssen die Modelle testen! Modeltest : erechnet vernünftigen NJ-Tree, und daraus hierarchisch die Parameter. Sequenzen Multiples lignment uswahl der Methode lgorithmus Stammbaumberechnung Ergebnisüberprüfung 11 ModelTest, ProtTest, FindModel 12 6

7 ModelTest, ProtTest, FindModel nalysen für Proteine ausgehend von einem alignment nalyse ausgehend von einer score matrix Modeltest Modelle: Hierarchischer likelihood ratio tests (hlrt), kaike Information riterion (I = -2 lnl + 2K; kaike 1974), Korrigiertes I (Ic = I + 2K(K+1)/(N-K-1); Hurvich and Tsai 1989, Sugiura 1978) or ayesian Information riterion (I = -2lnL + KlogN; Schwarz 1978) [ L = model likelihood, K = number of estimatable parameters, N = sample size]. 13 Welches Modell ist das beste? Modeltest: hierarchischer Vergleich der Likelihood (->hlrt) Sequenzen Multiples lignment uswahl der Methode lgorithmus Stammbaumberechnung Ergebnisüberprüfung 14 7

8 Welches Modell ist das beste? Modeltest: hierarchischer Likelihood ratio test (->hlrt) 15 input #NEXUS [Johan Nylander ] [! ***** MrModeltest block -- Modified from MODELTEST 3.0 *****] [The following command will calculate a NJ tree using the J69 model of evolution] EGIN PUP; Log file= mrmodelfit.log replace; DSet distance=j objective=me base=equal rates=equal pinv=0 subst=all negbrlen=setzero; NJ showtree=no breakties=random; End; [!***** EGIN TESTING 24 MODELS OF EVOLUTION ***** ] EGIN PUP; Default lscores longfmt=yes; [Workaround for the bug in PUP 4b10] Set criterion=like; [!** Model 1 of 24 * alculating J **] lscores 1/ nst=1 base=equal rates=equal pinv=0 scorefile=mrmodel.scores replace; [!** Model 2 of 24 * alculating J+I **] lscores 1/ nst=1 base=equal rates=equal pinv=est scorefile=mrmodel.scores append; 16 8

9 scores Tree -lnl Tree -lnl p-inv Tree -lnl gamma shape Tree -lnl p-inv gamma shape Tree -lnl freq freq freqg freqt Tree -lnl freq freq freqg freqt p-inv Tree -lnl freq freq freqg freqt gamma shape Tree -lnl freq freq freqg freqt p-inv gamma shape output ** Log Likelihood scores ** +I +G +I+G J = F81 = K80 = HKY = SYM = GTR = Run settings Using the standard I (not the Ic) Not using branch lengths as parameters Running all four hierarchies for the hlrt Printed parameter values are from the hlrt1 hierarchy * HIERRHIL LIKELIHOOD RTIO TESTS (hlrts) * Equal base frequencies Null model = J -lnl0 = lternative model = F81 -lnl1 = (lnL1-lnL0) = df = 3 P-value = < Ti=Tv Null model = F81 -lnl0 = lternative model = HKY -lnl1 = (lnL1-lnL0) = df = 1 P-value = < Unequal Tv and unequal Ti Null model = HKY -lnl0 = lternative model = GTR -lnl1 = (lnL1-lnL0) = df = 4 P-value = < Signifikanz der Änderung null model zu alternative model Χ 2 Test 18 9

10 command output PUP* ommands lock: If you want to implement the previous estimates as likelihod settings in PUP*, attach the next block of commands after the data in your PUP file: [!Likelihood settings from best-fit model (GTR+I+G) selected by hlrt in MrModeltest 2.2] EGIN PUP; Lset ase=( ) Nst=6 Rmat=( ) Rates=gamma Shape= Pinvar=0.2910; END; -- Mrayes ommands lock: If you want to implement a "best" model in Mrayes, attach the next block of commands after the data in your NEXUS file: (NOTE: In a ayesian analysis, the Markov chain is integrating over the uncertainty in parameter values. Thus, you usually do NOT want to use the parameter values estimated by the commands in MrModeltest or Modeltest. You rather want to specify the general "form" of the model (such as nst=1 etc.) [!Mrayes settings for the best-fit model (GTR+I+G) selected by hlrt in MrModeltest 2.2] EGIN MRYES; Prset statefreqpr=dirichlet(1,1,1,1); Lset nst=6 rates=invgamma; END; input -> output Input PUP*: Welche Modelle sollen berechnet werden? Output Input Score Matrix Modeltest und hlrt Output efehlszeilen zur aumberechnung 20 10

11 Themen Grundlagen und egriffe der molekularen Phylogenie Evolutionsmodelle für DN Evolutionsmodelle für Proteine erechnung der äume Sequenzen Multiples lignment uswahl der Methode lgorithmus Stammbaumberechnung Prüfung Ergebnisüberprüfung 21 DN und Proteine DN asen Proteine >20 minosäuren 22 11

12 bstandsberechnung - Proteine Modelle für Proteinevolution meist empirisch. Nach Kimura 1983: D = - ln(1 - p 0,2 x p 2 ) eispiel: eobachtete Distanz = 60% => p = 0.6 => D = - ln(1 0,6 0.2 x 0,6 2 ) = 1,11474 => d.h., im Schnitt hat an jeder Position ~ 1,11 S-ustausche stattgefunden 23 ber das Modell ist zu einfach! Jeder minosäureaustausch wird gleich bewertet. ber: 24 12

13 minosäuren Nicht jeder minosäureaustausch ist gleich wahrscheinlich! minosäure-eigenschaften: aromatisch aliphatisch hydrophob I L V S+S M Y F W P G G T SH S N D K E Q H R geladen sehr klein klein positiv polar 25 Deshalb hat Dr. Margaret Oakley Dayhoff ( ) a pioneer in the use of computers in chemistry and biology the first woman in the field of ioinformatics die Komplexizität der Proteinevolution in eine Matrix gefasst

14 PM-Distanzmatrix PM1: Percent accepted mutations, d.h. die relativen Häufigkeiten der ustausche von einer S in jede andere alle Häufigkeiten summieren sich auf 1 Wahrscheinlichkeit einer Substitution bei einer Substitutionsrate über die Zeit Wahrscheinlichkeit einer Substitution, wenn durchschnittlich 1 minosäure pro 100 minosäure-positionen verändert wird PM-Distanzmatrix <->MDM: mutation data matrix Mutationswahrscheinlichkeiten PM1: 0,21% Phe -> Tyr PM1 25 => (nahe verwandte Proteine) da Richtung nicht bekannt => Log odds matrix Phe -> Tyr: 0,15 Dividiert durch die Frequenz im Datensatz => rel. ustauschfrequenz 0,15/0,04=3,75 Log=0,57 x10=5,7 Tyr -> Phe : 0,2 0,2/0,03=6,7 Log=0,83 x10=8,3 Mittelwert (5,7+8,3)/2=7 Zähler: echtes evolutives Ereignis Nenner: Zufall PM250: 15% Phe -> Tyr (entfernt verwandte Proteine ca. 20% Ähnlichkeit) R N D Q E G H I L K M F P S T W Y V Z R N D Q E G H I L K M PF S T W Y V Z F Y 14

15 Evolutionsmodelle Transmembran-Proteine Globuläre Proteine K K R N 29 Evolutionsmodelle OdH-g Hämocyanin nach uff et al JM TP-Synthase Proteinmodelle (a) tud (Vitamin 12 Transporter) mit α-helicalen Transmembranregionen (PD accession code 1L7V) (b) Fec (Ferric itrate Uptake Receptor) β-barrel Transmembranregion (PD accession code 1KMO). (grau: lipid bilayer) nach genomebiology.com/2004/5/4/215/figure/f

16 Sequenzmatrizes Log odds Sequenzen LOSUM => aus löcken, entfernte Proteine PM Gonnet JTT WG T => empirisch, Dayhoff => alignment, gap penalties verfeinert => "moderne" PM => Wahrscheinlichkeitsmodell => Wahrscheinlichkeitsmodell Multiples lignment uswahl der Methode lgorithmus Stammbaumberechnung Ergebnisüberprüfung 31 Stammbaumerstellung 1.Matrix-orientierte Methoden UPGM (Unweighted Pair-Group Method with rithmetric Means) Neighbor-joining Minimal Evolution (least squares) => Sequenzen werden in Distanzmatrix konvertiert ( 1 Information pro Sequenz) 2. harakter-orientierte Methoden Parsimony Maximum Likelihood etc. => jede Position wird als informative Einheit betrachtet 32 16

17 Datentypen Distanzen Sequenz 1 0,000 0,236 0,621 0,702 1,510 Sequenz 2 0,000 0,599 0,672 1,482 Sequenz 3 0,000 0,112 1,561 Sequenz 4 0,000 1,425 Sequenz 5 0,000 haraktere Sequenz 1 TTGTGTGTGTTGT Sequenz 2 TT---TGTGGTTT Sequenz 3 TT---TGTGGGTTTT Sequenz 4 TGTTGGTTGTTGGT Sequenz 5 GTGTTGGGGGGT 33 Matrix-orientierte Methoden Zwei Schritte: 1.erechnen der korrigierten paarweisen bstände zwischen den Sequenzen => Evolutionsmodelle! DN: J, K2P... Protein: PM, LOSUM Erstellen eines Stammbaums anhand dieser bstandsdaten 34 17

18 Distanzmatrix erechnen des paarweisen bstands Sequenz 1 0,000 0,236 0,621 0,702 1,510 Sequenz 2 0,000 0,599 0,672 1,482 Sequenz 3 0,000 0,112 1,561 Sequenz 4 0,000 1,425 Sequenz 5 0,000 usgedrückt i.d.r. als Mutationen pro Position bstand kann > 1 werden! sp. Jukes-antor: p = 0.6 => K = K = ln 1 p Stammbaumerstellung Wie kommen wir von einer Distanzmatrix zu einem Stammbaum? => lgorithmus berechnet aus den Distanzen den besten Stammbaum Sequenzen selbst werden nicht mehr berücksichtigt 36 18

19 UPGM Unweighted Pair-Group Method with rithmetric Means D OTU OTU OTU 0 19 OTU D 0 =3 3 3 d + d 2 d D + d D 2 / D OTU / OTU 0 19 OTU D 0 =5, / 37 UPGM Unweighted Pair-Group Method with rithmetric Means // D Sequenz // 0 19 Sequenz D nimmt konstante Evolutionsraten an ußengruppe wird automatisch bestimmt 9.5 D 38 19

20 UPGM Unweighted Pair-Group Method with rithmetric Means dditive oder "lustering" lustering"-methode: OTUs werden durch sequenzielles lustern nach absteigender Ähnlichkeit gruppiert. 39 UPGM Unweighted Pair-Group Method with rithmetric Means usgangsmatrix D OTU OTU OTU 0 19 OTU D 0 rekonstruierte Matrix D OTU OTU OTU 0 19 OTU D D UPGM setzt absolute molekulare Uhr voraus, aber in Realität müssen Evolutionsraten berücksichtigt werden 40 20

21 Fitch-Margoliash lgorithmus Ähnlicher lgorithmus wie UPGM Sukzessives Gruppieren der Taxa ohne Verlust eines stlängenunterschiedes Keine molekulare Uhr zur estimmung der stlängen: 41 Fitch-Margoliash lgorithmus 3 Taxa D (1) b a D (3) c c D (2) Distanzen bekannt, aber stlängen nicht klar => 2 Unbekannte (a, b); 1 Konstante (c) => z.. aus der Differenz von (3) und (2) => Unterschied der Äste errechenbar => uflösen nach b => Einsetzen in (1) OTU OTU 0 41 OTU 0 OTU D Einzelabstände (1) D = a+b = 22 (2) D = a+c = 39 (3) D = b+c = 41 (3) - (2) a-b = = -2 -b = -2-a b = 2+a a+a+2 = 22 2a = 22-2 a =

22 Fitch-Margoliash lgorithmus 3 Taxa OTU OTU 0 41 OTU 0 OTU D (a): 10 (b): 12 (c): 29 b=12 c=29 a=10 43 Fitch-Margoliash lgorithmus 5 Taxa D E OTU b OTU c f OTU a g OTU D 10 d D OTU E 0 D und E geringste Distanz Durschnittswert aus DE DE bilden 3.Taxon erechung der stlängen D und E Neue Matrix e E :2 D/E OTU OTU OTU 0 19 OTU D/E 0 usw 44 22

23 Fitch-Margoliash lgorithmus wenn die einzelnen Evolutionsraten (stärker) variieren, dann doch lieber Neighbor-joining 45 Neighbor-joining (NJ) Saitou und Nai, 1987 Ähnlicher lgorithmus wie UPGM bzw. FM Sukzessives Gruppieren der Taxa ohne Verlust eines stlängenunterschiedes unrooted tree oder ungewurzelter aum (radial) Keine molekulare Uhr esonders sinnvoll, wenn Evolutionsraten der verschiedenen Linien unterschiedlich sind Minimierung der Gesamt-stlängen des aums => Stammbaum wird aufgelöst 46 23

24 a b e Neighbor-joining (NJ) Star-tree E S 0 = ( d ji )/N-1 i j d c S 0 =Summe aller stlängen d = Distanzen zwischen allen OTUs N =nzahl der OTUs D S 0 =78,5 Paare werden kombiniert S 0 =a+b+c+d+e i und j alle Sequenzen ausser m und n, wobei i<j Ziel NJ => Minimierung der Summe aller stlängen D E OTU OTU OTU OTU D 10 OTU E 0 ber: Welche Paare werden kombiniert? modified Star-tree S mn = [( d im +d in )/2(N-2)]+d mn /2+ d ij /N-2 S =67,7 S =81 S D =76 S DE =70 a b f e E d c D 47 Neighbor-joining (NJ) modified Star-tree b c f a d D e E Star tree -> aumlänge Grouping -> aumlängen stlängen -> FM Neues taxon () -> neue Matrix Grouping -> aumlängen stlängen -> FM Neues taxon -> neue Matrix Neues taxon (XY) -> neue Matrix Grouping stlängen Neues taxon -> aumlängen -> FM -> neue Matrix 48 24

25 Neighbor-joining (NJ) Errechnen der Summe aller Distanzen, durchschnittlicher Distanzen einer Gruppe und z.. (S +S )/N-2 D E Summe OTU OTU OTU OTU D OTU E errechnen der Distanzunterschiede ( rate corrected distance ) z.. D =d (S +S )/N-2 D E Summe OTU OTU OTU -47, OTU D , OTU E ,3-60, Grouping 49 Neighbor-joining (NJ) Errechnen der stlängen durch FM b=12 X a=

26 usgangsmatrix Neighbor-joining (NJ) D E Summe OTU OTU OTU OTU D OTU E Erstellen einer reduzierten Datenmatrix Eliminierung der Distanzen d X = (d d X + d d X )/2 <=> ( )/2 = 29 D E Summe OTU OTU OTU D OTU E erechnen der stlängen nach FM Und so weiter.. 12 X 10 D E 51 Neighbor-joining (NJ) final tree b=12 c=9 c a=10 f=20 g=5 E D E Summe OTU OTU OTU OTU D OTU E e=6 d=4 D 52 26

27 Neighbor-joining (NJ) E Sequenzen D Neighbor-joining Multiples lignment Evolutionsmodell E D Distanzberechnung Stammbaumberechnung UPGM Ergebnisüberprüfung 53 Neighbor-joining (NJ) UPGM setzt absolute molekulare Uhr voraus, aber in Realität müssen Evolutionsraten berücksichtigt werden Salamander Zebrafisch Lachs Ente Gans Huhn Taube Krokodil lligator Schildkröte Wal Mensch Salamander UPGM vs NJ! bootstrap rates Zebrafisch Lachs Ente Gans Taube? Huhn Krokodil lligator Schildkröte Wal Mensch > long branch attraction

28 Weitere Distanzmethoden Least-squares-Methode Fehler (bweichung) mit der n Sequenzen auf einen aum gepasst werden K ij korrigierte Wert der Distanz e (Distanzmatrixwert) zwischen i und j P ij Länge des stes, der i und j verbindet = ( Kij Pij) 1 i, j i < j < n 2 Minimum Evolution aum aus n Sequenzen besitzt 2n-3 Zweige Jeder Zweig z hat Länge l Summe dieser Zweiglängen ist die Länge des aumes = minimal Nach der LS-Formel wird dann die bweichung der stlängen von den Distanzen minimiert L = 2n 3 lz z = 1 55 Was bisher geschah... Daten lignment Distanzmatrix Stammbaum lustalx, Dialign Evolutionsmodell JTT, PM, LOSUM... lgorithmus z. UPGM; NJ NJ FM LS ME UPGM 56 28

29 Stammbaumerstellung 1. Matrix-orientierte Methoden 2. harakter-orientierte Methoden Maximum Parsimony Maximum Likelihood 57 harakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) rbeiten direkt mit dem lignment Extrahieren mehr Information als Matrix-orientierte Methoden 58 29

30 Was sind haraktere? kontinuierliche oder diskontinuierliche Eigenschaften. 1,2,3,4... = kontinuierliche haraktere,t,g, = diskontinuierliche haraktere Nukleotide und minosäuren können als diskrete, diskontinuierliche haraktere behandelt werden. Der phylogenetische Stammbaum wird anhand des Musters der Änderungen der haraktere berechnet 59 Maximum Parsimony (MP) Methode des "maximalen Geizes" bzw. der "maximalen Sparsamkeit" Entwickelt für morphologische haraktere 1950 Grundzüge einer Theorie der phylogenetischen Systematik, Willi Hennig

31 Maximum Parsimony William of Ockham ( ) nnahme: Evolution ging den kürzesten Weg Ockham's razor : "Pluralitas non est ponenda sine neccesitate" ("Ohne Notwendigkeit soll keine Vielfältigkeit hinzugefügt werden") =>minimalistische Ökonomieprinzipien kürzester Stammbaum wird berechnet, d.h. der die wenigsten evolutiven Schritten benötigt Schritte = Änderungen von harakteren 61 Maximum Parsimony Erklärung mit morphologischen harakteren Gleiche Prinzipien sind für Sequenzen (asenpaare, minosäuren) gültig 62 31

32 Maximum Parsimony pomorphie: bgeleiteter harakter. Synapomorpie: bgeleiteter harakter, welcher mehreren Taxa gemeinsam ist. Plesiomorphie: Primitiver harakter. Symplesiomorphie: Primitiver harakter, welcher mehreren Taxa gemeinsam ist. Synapomorphie Symplesiomorphie Nur Synapomorphien sind in MP zu verwerten! 63 Synapomorphie eispiel Haare: Haare sind in der Evolution nur einmal entstanden. D.h., der esitz von Haaren ist ein synapomorphes Merkmal der Säugetiere. Eidechse Mensch Haare Frosch Änderung Hund fehlt vorhanden Synapomorphie = "richtige" Information 64 32

33 Homoplasie Unabhängige Evolution Homoplasie ist Übereinstimmung ohne Homologie (d.h., keine gemeinsame bstammung) Homoplasie resultiert aus unabhängiger Evolution (Konvergenz, Reversion) Homoplasie ist falsche Information, die zu falschen Stammbäumen führen kann MP ist anfällig für Homoplasie 65 Homoplasie-Konvergenz eispiel Schwanz: Schwanz ging unabhängig in den Fröschen und beim Menschen verloren. Eidechse Frosch Mensch Hund Schwanz fehlt vorhanden 66 33

34 Homoplasie Konvergenz eispiel Schwanz: Wenn Homoplasie unberücksichtigt bleibt, wird ein falscher Stammbaum abgeleitet. Eidechse Mensch Schwanz Hund Frosch fehlt vorhanden Maß für Homoplasie:.I. = onsistancy Index; I=m/s m: kleinste mögliche theoretische Schrittzahl s: tatsächliche Schrittzahl homoplastisch I<1 67 nwendung auf Sequenzen Nukleotide und minosäuren sind diskrete, diskontinuierliche haraktere 4 (Nukleotide) bzw. 20 (minosäuren) haraktere Lücken ("gaps") können als 5. bzw. 21. harakter behandelt werden 68 34

35 Maximum Parsimony eispiel: Position Sequenz G G T G G G T G G G T T D G G T G 3 mögliche Stammbäume D D D ((,),(,D)) ((,),(,D)) ((,D),(,)) 69 Maximum Parsimony Welche Positionen sind informativ, bevorzugen also eine bestimmte Topologie? Position Sequenz G G T G G G T G G G T T D G G T G 3 Positionen invariabel => nicht informativ 70 35

36 Maximum Parsimony Position Sequenz G G T G G G T G G G T T D G G T G 6 Positionen sind variabel => aber auch informativ? 71 Maximum Parsimony Position Sequenz G G T G G G T G G G T T D G G T G 3 Positionen sind zwar variabel, aber nicht informativ 72 36

37 Maximum Parsimony Welche Positionen sind aber nun informativ? Position Sequenz G G T G - G G T G G - G G T T G D G G T G G * * * * => nur 3 von 9 Positionen sind informativ, d.h., favorisieren eine best. Topologie. => Indels sind haraktere! 73 Maximum Parsimony Position Sequenz G G T G G G T G G G T T D G G T G ((,),(,D)) ((,),(,D)) ((,D),(,)) Position 3: G G G? Position 5: Position 9: G G G G G G G G G G G G G G 74 37

38 Maximum Parsimony Position Sequenz G G T G G G T G G G T T D G G T G * * * 3 mögliche Stammbäume D D D 10 Mutationen 15 Mutationen 14 Mutationen 75 Maximum Parsimony ber: Ort der Mutation nicht immer eindeutig definiert => Parsimony kann keine stlängen berechnen. D 10 Mutationen Position Sequenz G G T G G G T G G G T T D G G T G = = =... D 10 Mutationen D 10 Mutationen 76 38

39 Maximum Parsimony Proteinparsimony: 1. Modell (z.. PUP): lle Substitutionen sind gleich wahrscheinlich (1 Schritt). eispiel Ile -> Trp Ile -> Met Ile -> la Modell: liegt genetischen ode zugrunde, wobei "silent site mutations" ignoriert werden (PROTPRS-Modell in PHYLIP). eispiel: Ile -> Met: T//T -> TG: ein Schritt Ile -> la: T//T -> GN: zwei Schritte Ile -> Trp: T//T -> TGG: drei Schritte 77 Maximum Parsimony Exhaustive = lle Stammbäume werden untersucht, der beste Stammbaum wird erhalten (garantiert). ranch-and-ound = Einige Stammbäume werden berechnet, bester Stammbaum garantiert. Heuristic = Einige Stammbäume werden berechnet, bester Stammbaum nicht garantiert

40 Maximum Parsimony Exhaustive = lle Stammbäume werden untersucht, der beste Stammbaum wird erhalten (garantiert). Exhaustive search: Erschöpfung garantiert 79 Maximum Parsimony: Exhaustive Search (1) Start: 3 beliebige Taxa "ranch addition + 4. Taxon (D) in jeder möglichen Position -> 3 äume (2a) D D (2b) + 5. Taxon (E) in jeder der fünf möglichen Positionen => 15 Stammbäume etc. E (2c) E E E D E 80 40

41 Maximum Parsimony: Exhaustive Search Problem: nzahl der möglichen Stammbäume Number Number of Number of of OTUs rooted trees unrooted trees => bei > ~10 Sequenzen ausführliche Suche aller Stammbäume de facto unmöglich 81 Maximum Parsimony 1. Lösung "ranch and bound": Stammbaum wird mit schneller Methode (z.. NJ) berechnet, die nzahl der notwendigen Schritte (L) wird berechnet. => verwirft Gruppen von äumen, die nicht kürzer werden können als L. Kann für Problemlösungen mit < ~ 20 Taxa verwendet werden

42 Maximum Parsimony abzweigen und beenden branch and bound 83 Maximum Parsimony 2. Lösung: Heuristische Verfahren: stepwise addition drei Taxa aum schrittweise ddition auf allen nächsten Ebenen (großes Problem: lokale Maxima) star decomposition : star tree schrittweiser bbau von Taxa bzw. Zusammenführung und Evaluation (großes Problem: lokale Maxima) Kombination mit anderen lgorithmen branch swapping (Zweige vertauschen): Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TR) 84 42

43 Maximum Parsimony Nearest neighbor interchange (NNI) Nachbarschaftstausch D E F G D E D E F G F G 85 Maximum Parsimony Subtree pruning and regrafting (SPR) stverpflanzung D E F G E F G D 86 43

44 Maximum Parsimony Tree bisection and reconnection (TR) aumschnittwiederverknüpfung (effektiv) D E F E G G F D F D G Gutes Durchmischen, aber PU aufwendig E 87 Maximum Parsimony Problem: Lokale Maxima?! stepwise addition" star decomposition auminsel 88 44

45 Parsimony Ratchet Durch zwischenzeitliche Einführung einer veränderten Matrix Wird man aus einem lokalen maximum herauskatapultiert Programme wie: NON, TNT, PRP Weitere Parsimony -Verfahren: Wagner (binäre haraktere), Dollo (gewichtet) und Fitch (unordered multistate characters, DN) 89 Maximum Parsimony Vorteile: einfach ohne konkretes Evolutionsmodell Errechnung ancestraler Positionen funktioniert gut mit konsistenten Datensätzen Nachteile: empfindlich gegen Homoplasien (Konvergenz) empfindlich gegen "Long ranch ttraction" stlängen werden unterschätzt kein Evolutionsmodell möglich! 90 45

46 harakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) 91 Maximum Likelihood The explanation that makes the observed outcome the most likely L = P(D H) Wahrscheinlichkeit der Daten, gegeben eine Hypothese Die Hypothee ist eine aumtopologie, dessen stlängen und ein Evolutionsmodell unter dessen Präsenz die Daten evolvierten Zum ersten mal von avalli-sforza and Edwards (1967) für gene frequency data benutzt, später (1981) von Felsenstein für DN Sequenzen 92 46

47 Probability and likelihood Die Wahrscheinlichkeit liegt immer zwischen NIE (0) und SIHER (1). Die bedingte Wahrscheinlichkeit ist die Wahrscheinlichkeit eines Ereignisses, gegeben das Ereignis : P( )....if probability allows us to predict unknown outcomes based on known parameters P(H D), then likelihood allows us to determine unknown parameters based on known outcomes P(D H). 93 Probability and likelihood 0,5 0,5 0,5 0,5 0,5 0,25 0,25 0,5 L(p Z ZZ)=0,25 P(ZZ p Z =0,5)=0,

48 Likelihood Hypothese Ereignisse sind unabhängig lle Kopfwürfe besitzen gleiche unbekannte Kopfwahrscheinlichkeit p Daten: KKZKZKKZZZ L = P(Daten Hypothese ) => Likelihood L(D H) = pp(1-p)(1-p)p(1-p)pp(1-p)(1-p)(1-p) keine Verteilung, Plot der selben Daten (KKZKZKKZZZ) gegen verschiedene Werte von p (Hypothese) alles wird getestet (gerechnet) => Mit welcher Kopfwahrscheinlichkeit p bekomme ich am ehesten diese Daten? Likelihood 0,0 0,2 0,4 0,6 0,8 1,0 [p] 95 Maximum Likelihood L = P(data hypothesis) Wahrscheinlichkeit der beobachteten Daten (Sequenzen!) im Lichte der Hypothese (Stammbaum). d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der nnahme des Modells) erklärt. Evolutionsmodell 96 48

49 Maximum Likelihood benötigt ein explizites Evolutionsmodell Parameter werden aus Daten + Modell errechnet. Explizite Verbindung Daten + Modell + Stammbaum. aber: schlechtes Modell => schlechter Stammbaum lternative Stammbäume lassen sich testen => keine Methode extrahiert mehr Information aus den Daten; aber: sehr rechenintensiv 97 Maximum Likelihood Evolutionsmodelle Für DN-Sequenzen: => J, K2P, F81, HKY, REV Für Protein-Sequenzen: => PM, LOSUM, JTT, WG

50 Maximum Likelihood Seq1 GG Seq2 GG Seq3 GTT Seq4 GGTG Frage: Wie hoch ist die Wahrscheinlichkeit, dass der Stammbaum für die Daten (Sequenzen) unter dem gegebenen Modell verantwortlich ist? Maximum Likelihood OTU 1 GG OTU 2 GG OTU 3 GTT OTU 4 GGT j GT?? GT 4 x 4 Möglichkeiten Die Wahrscheinlichkeit für eine best. Position j ist die Summe der Einzelwahrscheinlichkeiten aller möglichen ancestralen Nukleotide unter dem gegebenen Modell

51 ML eispiel (vereinfacht): Daten: Modell (nicht realistisch): OTU 1 OTU 2 OTU 3 OTU 4 T G 1 0,1 0,1 0,1 T 1 0,1 0,1 1 0,1 G ML - eispiel: Stammbaum : X,Y =, T, G, oder X Y ML: Summe der 4 x 4 Einzelwahrscheinlichkeiten

52 ML - eispiel: 1. Topologie, immer gleich für unterschiedliche Knoten! Stammbaum 1: Stammbaum 2: T 1 x 1 x 0,1 x 1 x 1 = 0,1 1 x 1 x 0,1 x 0,1 x 0,1 = 0,001 usw... Summe aus 16 möglichen Stammbäumen! 103 ML - eispiel: 2. Topologie (andere Topologie)! ber immer gleich für unterschiedliche Knoten! Stammbaum 1: Stammbaum 2: T 0,1 x 0,1 x 1 x 0,1 x 1 = 0,001 1 x 0,1 x 0,1 x 0,1 x 0,1 = 0,0001 usw... usw..usw Summe aus 16 möglichen Stammbäumen!

53 ML - eispiel: Stammbaum : Stammbaum : Gesamt"wahrscheinlichkeit": = 0,12427 => logl = -0,90563 Gesamt"wahrscheinlichkeit": = 0,02302 => logl = -1, Maximum Likelihood 1 GG 2 GG 3 GTT 4 GGTG i....z Wahrscheinlichkeit des Stammbaums ist das Produkt aller Wahrscheinlichkeiten für jede Position: ML- Stammbaum = Stammbaum mit größter "Likelihood"

54 Maximum Likelihood Sequence 1 Sequence 2 Sequence 3 Sequence 4 GG GG GTTT GGTT X,Y =, T, G, oder T G 1,0 0,1 0,2 0,4 T 1,0 0,3 0,6 1,0 0,1 G 1,0 erechnen Likelihood einer aller Möglichkeiten vorgegebenen Topologie für eine ist das Produkt aller 1x1x1x0,1x0,1=0,01 Topologie und eine Wahrscheinlichkeiten Position jeder Position 107 Maximum Likelihood Likelihood für alle anderen Topologien und Vergleich der Likelihoods L = P(data hypothesis) Sequence 1 Sequence 2 Sequence 3 Sequence 4 GG GG GTTT GGTT T G 1,0 0,1 0,2 0,4 T 1,0 0,3 0,6 1,0 0,1 G 1,0 Für n=50 Sequenzen gibt es 2,84x10 76 mögliche äume <-> tome im Universum: ~

55 Maximum Likelihood - Vorteile Mathematisch gut definiert Funktioniert gut in Simulationsexperimenten Erlaubt explizite Verbindung von Evolutionsmodell und Daten (Sequenzen) "Realistische" nnahmen zur Evolution Verschiedene Modelle und Stammbäume lassen sich testen 109 Maximum Likelihood - Nachteile Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den Daten überein?

56 Maximum Likelihood Lokale Maxima auminsel 111 Maximum Likelihood ei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar für n=50 Sequenzen gibt es 2,84x10 76 mögliche äume Lösung: "Intelligente lgorithmen" - Quartet puzzling - ayessche Methode + MMM

57 Was können oder kennen wir!? lignment Evolutionsmodelle Max.Parsimony Distanz matrix Neigbor Joining UPGM Max. Likelihood Stammbaum 113 to be continued