Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz

Transkript

1 Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld Institut für Zoologie Universität Mainz 1

2 Ziel des Kurses Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir dieser? Sequenz 1 Sequenz 1: KIADKNFTYRHHNQLV Sequenz 4 Sequenz 2: KVAEKNMTFRRFNDII Sequenz 3: KIADKDFTYRHW-QLV Sequenz 2 Sequenz 4: KVADKNFSYRHHNNVV Sequenz 3 Sequenz 5: KLADKQFTFRHH-QLV Sequenz 5 2

3 Programm Datenbanken Sequenzalignment Stammbaumerstellung Statistische Auswertung 3

4 Warum Phylogenie? Weshalb ist das Verständnis von phylogenetischen Zusammenhängen wichtig? Organismische Evolution (Systematik) Evolution von Proteinfamilien (Funktion) Medizin (Epidemiologie) Forensik (CSI Miami) => Stammbäume 4

5 Voraussetzungen der Phylogenie Wieso können Phylogenien aus den heute existierenden Daten abgeleitet werden? 5

6 Evolution vollzieht sich durch Veränderungen AAGACTT AAGGCCT AGGACTT AGGGCAT TAGCCCT AGCACTT AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT heute OTU A B C D E 6

7 Gemeinsame Vorfahren Vorfahre Verwandte Spezies stammen von einem gemeinsamen Vorfahren ab. Nachkomme 1 Nachkomme 2 7 Dan Graur

8 Vorfahre (~5 MYA) Einige Organismen haben einen Vorfahren, der erst vor kurzem gelebt hat. Dan Graur 8

9 Vorfahre (~100 MYA) Andere gemeinsame Vorfahren haben früher gelebt. 9 Dan Graur

10 Vorfahre (1.500 MYA) Aber: Alle Organismen haben einen gemeinsamen Vorfahren! Dan Graur 10

11 Hierarchie und Stammbaum AAGACTT AAGGCCT TGGACTT AGGGCAT TAGCCCT AGCACTT AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT A B C D E heute Die Entstehung der Spezies erfolgte durch hierarchische Auftrennung, die durch einen Stammbaum darstellbar ist. 11

12 (1.500 MYA) (100 MYA) (5 MYA) Dan Graur 12

13 Ein korrekter Stammbaum AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT heute A B C D E 13

14 Rekonstruktion Rekonstruktion AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT Daten A B C D E In Merkmalen (Morphologie, Sequenzen) sind die Informationen über die Vergangenheit gespeichert 14

15 Das große Ziel Aus den Daten (Sequenzen u.a.) einen Stammbaum erstellen, der die tatsächlichen historischen Verwandtschaftsverhältnisse widerspiegelt. 15

16 Warum molekulare Phylogenie? Rekonstruktion von Verwandtschaftsverhältnissen A. morphologische Daten (Fossilien, Merkmale, Ontogenie ) B. molekulare Daten (DNA- u. AS-Sequenzen, Gene ) Die Methoden der molekularen Evolution erlauben die Extraktion der in der DNA bzw. den Proteinen gespeicherten Informationen. Vorteil der Sequenzdaten: - leichte Zugänglichkeit - grosse Datenmenge - können aber dennoch zu falschen Ergebnissen führen! 16

17 Molekulare Phylogenie Vorgehensweise zur Stammbaumerstellung: A. Evolution der Proteine Wo liegt der Ursprung eines Proteins oder einer Proteinfamilie? Auswahl ähnlicher Sequenzen aus Datenbanken Sequenzalignment Molekularphylogenetische Analyse Statistische Überprüfung B. Evolution der Organsimen (Tree of Life) Verwandschaft bestimmter Taxa? Auswahl geeigneter Sequenzen Sequenzierung (Datenbanken, Klonierung, PCR) Sequenzalignment usw. (wie oben) 17

18 Datenbanken NCBI GenBank DDBJ - DNA EMBL-EBI SWISS-PROT PIR UniProt pdb 18

19 Datenbanksuche z.b. Ausgangspunkt: eigene ermittelte Sequenz (Query) BLAST (Basic Local Alignment Search Tool) => vergleicht zwei Sequenzen miteinander BLASTN: Vergleicht eine Nukleinsäuresequenz mit Nukleinsäuredatenbank => nahe verwandte Sequenzen BLASTP: Vergleicht eine Aminosäuresequenz mit Proteindatenbank. => entfernt verwandte Sequenzen 19

20 Datenbanksuche. BLASTX: Vergleicht eine Nukleinsäuresequenz translatiert in allen 6 Leserastern mit Proteindatenbank. => Für welches Protein kodiert meine Sequenz? TBLASTN: Vergleicht eine Aminosäuresequenz mit Nukleinsäuredatenbank, die in allen 6 Leserastern translatiert wird. => findet z.b. nicht annotierte Proteine in DNA-Daten TBLASTX: Vergleicht die Translationsprodukte aller 6 Leseraster einer Nukleinsäuresequenz mit den Translationsprodukten aller 6 Leseraster einer Nukleinsäuredatenbank. => z.b. entfernte Verwandtschaft unbekannte DNA-Sequenzen 20

21 BLAST (Basic Local Alignment Search Tool) PRAXIS 1 21

22 Multiples Sequenz- Alignments Gegeben: Gesucht: SeqA N A F L S SeqB N A F S SeqC N A K Y L S SeqD N A Y L S SeqA N A - F L S SeqB N A - F - S SeqC N A K Y L S SeqD N A - Y L S Indel: Insertion/Deletion 22

23 CLUSTALX A B C D Alle Sequenzen werden paarweise miteinander verglichen Berechnung der Distanzen guide tree A B C A - B C D A D B C D - 23

24 CLUSTALX Ähnliche Sequenzen werden zu einem Cluster gruppiert Alignment innerhalb der Cluster A D B C Lücken = "gaps" A D B C 24

25 CLUSTALX Sukzessives globales Alignment A D B C alte Lücken = "gaps" neue Lücken = "gaps" A D B C A D B C 25

26 Alignment Parameter PRAXIS 2 26

27 Was ist ein Stammbaum? Darstellung der Verwandtschaftsverhältnisse A B C D E F Schwestergruppen E A C D F B t t A F auch "operational taxonomic units" (OTUs) Taxon/Taxa 27

28 Phylogenetische Grundbegriffe Innengruppe (ingroup) A B C D E Ast (branch) Dichotomie Polytomie A B C D E Wurzel (root) Knotenpunkt (node) 28

29 Mono-, Para- und Polyphylie A B C D E F Monophyletische Taxa: Alle Nachkommen einer gemeinsamen Stammform Paraphyletische Taxa: Nicht alle Nachkommen einer gemeinsamen Stammform Polyphyletische Taxa: Keine gemeinsame Stammform (unterschiedliche Vorfahren) 29

30 Phylogenetische Grundbegriffe Paraphylum aufgrund von homologen (ursprünglichen) Merkmalen Schildkröten "Reptilien" Eidechsen + Schlangen Krokodile Vögel aber nicht alle Nachkommen werden erfasst 30

31 Phylogenetische Grundbegriffe Polyphylie => verschiedenen Ursprungs Neuwelt- Geier "Geier" Altwelt- Geier Raubvögel Storchenvögel aufgrund von Homoplasien (Konvergenzen) 31

32 Cladogramm und Phylogramm A A A B C D C D B B C D E E E F F F Änderungen metrisch Änderungen & Zeit ultrametrisch Cladogramm Phylogramm 32

33 Stammbaum Ohne Außengruppe: Mit Außengruppe: Neunauge Hai Hai Maus Neunauge Flösselhecht Goldfisch Zebrafisch Stahlenflosser Mensch Flösselhecht Forelle Lungenfisch Molch Forelle Molch Ochsenfrosch Landwirbeltiere Ochsenfrosch Krallenfrosch Zebrafisch Goldfisch Krallenfrosch Maus Lungenfisch Mensch Evolutionsrichtung? Evolutionsrichtung 33

34 Vorgehensweise Sequenzen (Input) Multiples Sequenz Alignment Auswahl der Methode Evolutionsmodell/Algorithmus Stammbaumberechnung Ergebnisüberprüfung (output) 34

35 Stammbaumerstellung 1. Distanz-orientierte Methoden UPGMA (Unweighted Pair-Group Method with Arithmetric Means) Neighbor-joining Minimal Evolution => Sequenzen werden in Distanzmatrix konvertiert Sequenzen Multiples Alignment Auswahl der Methode Evolutionsmodell/Algorithmus 2. Charakter-orientierte Methoden Parsimony Maximum Likelihood => jede Position wird als informative Einheit betrachtet Stammbaumberechnung Ergebnisüberprüfung 35

36 Distanz-orientierte Methoden Aus jedem Datensatz kann eine Distanzmatrix erstellt werden Zwei Schritte: 1.Berechnen der paarweisen Abstände zwischen den Sequenzen 2. Erstellen eines Stammbaums anhand dieser Abstandsdaten Sequenzen Multiples Alignment Auswahl der Methode Evolutionsmodell/Algorithmus Stammbaumberechnung Ergebnisüberprüfung 36

37 Berechnung einer Distanzmatrix Sequenz 1 TATAAGCATGACTAGTAAGC Sequenz 2 TATTAGCATGACTGGTAACC Sequenz 3 TATTGGCATGACTAGCAGGC Sequenz 4 TGTTGCCACGATTAGCTACC Sequenz 5 CGTAGCTATGACCAACGGGC Distanz = durchschnittliche Änderung pro Position hier: 3 von 20 Positionen verändert Sequenz Sequenz Sequenz Sequenz Sequenz

38 Korrektur der Distanzen % tatsächlicher Abstand = Anzahl der Mutationen Korrektur beobachteter Abstand t 38

39 Korrektur der Distanzen Frage: Wie korrigieren wir? Wir wollen die tatsächliche Anzahl der evolutiven Ereignisse rekonstruieren. Wir brauchen also ein Evolutionsmodell, welches Rückmutationen und die Austauschwahrscheinlichkeiten etc. berücksichtigt. 39

40 Korrekturmodelle (Evolutionsmodell) Modelle für Proteinevolution sind meist empirisch 40

41 Evolutionsmodelle Globuläre Proteine Transmembran-Proteine K K R N 41

42 Stammbaumberechnung ClustalX Daten Alignment Protdist neighbor Distanzmatrix Stammbaum Evolutionsmodell z.b. JTT; PAM; BLOSUM... Algorithmus z.b UPGMA; NJ NJ- Tree UPGMA-Tree 42

43 Stammbaumberechnung output PRAXIS 3 43

44 Distanzmatrix und Newick 12 Ente Gans Huhn Taube Krokodil Alligator Schildkrot Wal Mensch Zebrafisch Lachs Salamander (Gans: ,(Taube: ,(Huhn: ,((Krokodil: ,Alligator: ): ,(Schildkrot: ,((Wal: ,Mensch: ): ,((Zebrafi sch: ,lachs: ): ,sala mander: ): ): ): ): ): ): ,Ente: ); 44

45 Der Baum 95 Ente 36 Gans 95 Taube 79 Huhn Krokodil Alligator Schildkrot? 100 Mensch Wal Long branch attraction? Salamander 100 Zebrafisch Lachs 45

46 UPGMA - NJ A B C D A C D B UPGMA Unweighted Pair-Group Method with Arithmetric Means E F Aussengruppe festgelegt konstante Evolutionsrate E F NJ Neighbor Joining Aussengruppe wählbar unterschiedliche Evolutionsraten 46

47 UPGMA Unweighted Pair-Group Method with Arithmetric Means A B C D OTU A OTU B OTU C 0 19 OTU D 0 =3 3 3 A B d AC + d BC 2 d AD + d BD 2 A/B C D OTU A/B OTU C 0 19 OTU D 0 =5, A/B C 47

48 UPGMA Unweighted Pair-Group Method with Arithmetric Means A/B/C D Sequenz A/B/C 0 19 Sequenz D A B 5.5 C 9.5 D nimmt konstante Evolutionsraten an Außengruppe wird automatisch bestimmt 48

49 UPGMA Unweighted Pair-Group Method with Arithmetric Means Ausgangsmatrix A B C D OTU A OTU B OTU C 0 19 OTU D 0 rekonstruierte Matrix A B C D OTU A OTU B OTU C 0 19 OTU D A B 5.5 C D UPGMA setzt absolute molekulare Uhr voraus, aber in Realität müssen Evolutionsraten berücksichtigt werden 49

50 Problem UPGMA A C D B A C D B A B C D OTU A 0 18(21,7) OTU B 0 22(21,7) 25(21,7) OTU C 0 13 OTU D 0 50

51 Neighbor-joining NJ A B Star-tree a b e E d c S 0 = ( d ji )/N-1 i j C D S 0 =78,5 S 0 =a+b+c+d+e A B C S 0 =Summe aller Astlängen d = Distanzen zwischen allen OTUs N =Anzahl der OTUs Ziel NJ => Minimierung der Summe aller Astlängen D E OTU A OTU B OTU C OTU D 10 OTU E 0 Paare werden kombiniert Aber: Welche Paare werden kombiniert? A B modified Star-tree a b S AB =67,7 S BC =81 S CD =76 S DE =70 f e E d c C D 51

52 Neighbor-joining NJ B modified Star-tree C Star tree Grouping Astlängen -> Baumlänge -> Baumlängen -> FM A a b f e E d c D Neues taxon (AB) -> neue Matrix Grouping -> Baumlängen Astlängen -> FM Neues taxon -> neue Matrix C Neues taxon (XY) -> neue Matrix f e d c D Grouping Astlängen Neues taxon -> Baumlängen -> FM -> neue Matrix E 52

53 Neighbor-joining NJ B final tree C b=12 c=9 c A a=10 f=20 g=5 e=6 d=4 D E A B C D E OTU A OTU B OTU C OTU D 0 10 OTU E 0 53

54 Neighbor-joining NJ Ähnlicher Algorithmus wie UPGMA Sukzessives Gruppieren der Taxa ohne Verlust eines Astlängenunterschiedes Minimierung der Gesamt-Astlängen des Baums => Stammbaum wird aufgelöst => berücksichtigt unterschiedliche Evolutionsraten (Rekonstruierte Distanzmatrix=Ausgangsmatrix) 54

55 Was bisher geschah... Daten Alignment ClustalX, Dialign Evolutionsmodell JTT, PAM, BLOSUM... Distanzmatrix Algorithmus Stammbaum z.b UPGMA; NJ NJ FM LS ME UPGMA 55

56 Statistische Auswertung.oder. Wie gut passt mein Stammbaum zu den Daten? häufigste Methode ist Bootstrapping 56

57 Bootstrapping Ziehen MIT Zurücklegen 57

58 Bootstrapping Orginalsequenzen Position Sequence A A A A A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G Pseudosample 1 Position Sequence A A A A A G G G C C B A G G C G G C C C C A G G T A A C C C D A G G G A A C C C Pseudosample 2 Position Sequence A A A A A A T G G G B A A A C C T G G G C A A A T T T C C C D A A A G G T C C C z.b. 100 Wiederholungen A B C D A C D B 100 Stammbäume 58

59 Bootstrapping Majority-rule consensus tree Taxon 1 Taxon 2 Taxon 3 Taxon 8 Taxon 9 Taxon 4 Taxon 5 Taxon 6 Taxon Freq ** ** ** **** ****** ** ****.* ***** ******* **...* **...*

60 Stammbaumberechnung Seqboot Protdist ClustalX Daten Alignment Evolutionsmodell x Distanzmatrix neighbor 100 NJ UPGMA consense 1 NJ UPGMA Bootstrapping 60

61 I II III ATAA AAAA AAAA I II III I II III ATAA AAAA AAAA I II III 1x I II III AAAA AAAA AAAA I II III 99x 61

62 Bootstrapping 62

63 Stammbaumerstellung 1. Matrix-orientierte Methoden 2. Charakter-orientierte Methoden 63

64 Charakter-orientierte Methoden Arbeiten direkt mit dem Alignment indem Nukleotide bzw. Aminosäuren als diskrete Charaktere behandelt werden Der phylogenetische Stammbaum wird anhand des Musters der Änderungen der Charaktere berechnet Extrahieren mehr Information als Matrix-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) 64

65 Maximum Parsimony Maximaler Geiz" Annahme: Evolution ging stets den kürzesten Weg und somit wird der Stammbaum berechnet, der die wenigsten evolutiven Schritte benötigt. Methode: Alle Möglichkeiten analysieren 65

66 Maximum Parsimony Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G 3 mögliche Stammbäume A B C D A C B D A D B C 10 Mutationen 15 Mutationen 14 Mutationen 66

67 Maximum Parsimony Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G Sequenz B C Sequenz D A Sequenz B C Sequenz D A G A = C A G Sequenz A A 2 Mutationen Sequenz C G Sequenz A 2 Mutationen A Sequenz C Ort der Mutation nicht immer eindeutig definiert => Parsimony kann keine Astlängen berechnen. 67

68 Maximum Parsimony Gesamt-Alignment: Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G A C A C A C = = =... B D 10 Mutationen B D 10 Mutationen B D 10 Mutationen 68

69 Maximum Parsimony Proteinparsimony: 1. Modell (z.b. PAUP): Alle Substitutionen sind gleich wahrscheinlich (1 Schritt). Beispiel Ile -> Trp Ile -> Met Ile -> Ala Modell: liegt genetischen Code zugrunde, wobei "silent site mutations" ignoriert werden (PROTPARS-Modell in PHYLIP). Beispiel: Ile -> Met: ATA/C/T -> ATG: ein Schritt Ile -> Ala: ATA/C/T -> GCN: zwei Schritte Ile -> Trp: ATA/C/T -> TGG: drei Schritte 69

70 Maximum Parsimony Vorteile: Nachteile: gesamter Datensatz empfindlich gegenüber stark unterschiedlichen Evolutionsraten Evolutionsmodelle eingeschränkt möglich hoher Rechenaufwand bei >20 Taxa 70

71 Stammbaumberechnung ClustalX Daten Alignment Protpars Evolutionsmodell kürzester Weg Maximum Parsimony Stammbaum 71

72 Stammbaumberechnung PRAXIS 5 72

73 Maximum Likelihood L = P(data hypothesis) Wahrscheinlichkeit der beobachteten Daten im Lichte der Hypothese 73

74 Likelihood Hypothese Ereignisse sind unabhängig Alle Kopfwürfe besitzen gleiche UNBEKANNTE Kopfwahrscheinlichkeit p Daten: KKZKZKKZZZ L = P(Daten Hypothese ) => Likelihood L(D H) = pp(1-p)p(1-p)pp(1-p)(1-p)(1-p) Für jede vorgegebene Kopfwahrscheinlichkeit p ergibt sich eine bestimmte Likelihood => Plot der selben Daten (KKZKZKKZZZ) gegen verschiedene Werte von p (Hypothese) => Mit welcher Kopfwahrscheinlichkeit p bekomme ich am ehesten diese Daten? Likelihood 0,0 0,2 0,4 0,6 0,8 1,0 [p] 74

75 Maximum Likelihood L = P(data hypothesis) Wahrscheinlichkeit die beobachteten Daten (Sequenzen!) unter der angenommenen Hypothese (Stammbaum/Evolutionsmodell) zu erhalten. d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der Annahme des Modells) erklärt. Evolutionsmodell Ein Baum wird generiert und man prüft dann ob die gegebenen Daten den Baum generieren können 75

76 ML - Prinzip Sequence 1 Sequence 2 Sequence 3 Sequence 4 CGAGAA AGCGAA AGATTT GGATAT X,Y = A, T, G, oder C A T C G A 1,0 0,1 0,2 0,4 T 1,0 0,3 0,6 C 1,0 0,1 G 1,0 Berechnen Likelihood einer aller Möglichkeiten vorgegebenen für Topologie eine 1x1x1x0,1x0,1=0,01 Topologie ist das und Produkt eine Position aller Wahrscheinlichkeiten jeder Position 76

77 ML - Beispiel: Stammbaum A: Stammbaum B: Gesamt"wahrscheinlichkeit": = 0,12427 => logl = -0,90563 Gesamt"wahrscheinlichkeit": = 0,02302 => logl = -1,

78 Maximum Likelihood Der Wert für die eingesetzten Wahrscheinlichkeiten p entspricht den vorgegebenen Stammbäumen. Die Hypothese alle Kopfwürfe besitzen die gleiche Wahrscheinlickeit entspricht dem Evolutionsmodell 78

79 Maximum Likelihood Vorteile Mathematisch gut definiert Funktioniert gut in Simulationsexperimenten Erlaubt explizite Verbindung von Evolutionsmodell und Daten (Sequenzen) "Realistische" Annahmen zur Evolution Verschiedene Modelle und Stammbäume lassen sich testen 79

80 Maximum Likelihood Nachteile Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den Daten überein? Computertechnisch nicht zu lösen wenn zu viele Taxa oder Parameter berücksichtigt werden müssen. 80

81 Maximum Likelihood Bei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar Lösung: "Intelligente Algorithmen" - Quartet puzzling - Bayessche Methode + MCMCMC 81

82 Maximum Parsimony Exhaustive = Alle Stammbäume werden untersucht, der beste Stammbaum wird erhalten (garantiert). Exhaustive search: Erschöpfung garantiert 82

83 Maximum Parsimony: Exhaustive Search (1) Start: 3 beliebige Taxa + 4. Taxon (D) in jeder möglichen Position -> 3 Bäume (2a) B D C A B (2b) B D C A A "Branch addition C E B (2c) E C D E E A E + 5. Taxon (E) in jeder der fünf möglichen Positionen => 15 Stammbäume etc. 83

84 Maximum Parsimony: Exhaustive Search Problem: Anzahl der möglichen Stammbäume Number Number of Number of of OTUs rooted trees unrooted trees => bei > ~10 Sequenzen ausführliche Suche aller Stammbäume de facto unmöglich 84

85 Maximum Parsimony 1. Lösung "Branch and bound": Stammbaum wird mit schneller Methode (z.b. NJ) berechnet, die Anzahl der notwendigen Schritte (L) wird berechnet. => verwirft Gruppen von Bäumen, die nicht kürzer werden können als L. Kann für Problemlösungen mit < ~ 20 Taxa verwendet werden. 85

86 Maximum Parsimony abzweigen und beenden branch and bound 86

87 Maximum Parsimony 2. Lösung: Heuristische Verfahren: stepwise addition drei Taxa Baum schrittweise Addition auf allen nächsten Ebenen (großes Problem: lokale Maxima) star decomposition : star tree schrittweiser Abbau von Taxa bzw. Zusammenführung und Evaluation (großes Problem: lokale Maxima) Kombination mit anderen Algorithmen branch swapping (Zweige vertauschen): Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TBR) 87

88 Maximum Parsimony Problem: Lokale Maxima stepwise addition" star decomposition?! Bauminsel 88

89 No go!!! Back up!!! Lokales Maximum Down? Don t go! go go go!!!

90

91 Parsimony Ratchet Durch zwischenzeitliche Einführung einer veränderten Matrix Wird man aus einem lokalen maximum herauskatapultiert Programme wie: NONA, TNT, PRAP Weitere Parsimony -Verfahren: Wagner (binäre Charaktere), Dollo (gewichtet) und Fitch (unordered multistate characters, DNA) 91

92 ML, MP versus NJ und UPGMA ML, MP Stammbaum vorgegeben Analyse aller Möglichkeiten diesen Stammbaum zu erhalten MP: kürzester ML: zutreffenster NJ, UPGMA Sukkzessive Rekonstruktion des Stammbaumes NJ: echte Evolutionsraten UPGMA: gemittelte Evolutionsraten 92

93 Vorgehensweise UPGMA und NJ A B A B C A B Sukzessives Hinzufügen neuer OTUs zum Stammbaum C D 93

94 Vorgehensweise MP und ML Alle möglichen Stammbäume A C D B B A C D Maximum Parsimony Welcher Stammbaum erfordert die wenigsten Mutationen, um den Datensatz zu erhalten? Maximum Likelihood Welcher Stammbaum liefert die höchste Wahrscheinlichkeit den Datensatz zu erhalten? 94

95 Stammbaumberechnung Protdist ClustalX Daten Alignment Evolutionsmodelle neighbor Distanzmatrix proml protpars NJ UPGMA ML MP 95

96 Stammbaumberechnung ClustalX Seqboot Protdist Alignment Evolutionsmodelle x neighbor Distanzmatrix proml protpars 100 NJ UPGMA consense ML MP NJ UPGMA ML MP 1 96

97 Was können oder kennen wir!? Charakter Alignment Matrix Max.Parsimony Max. Likelihood Evolutionsmodelle Distanz matrix Neigbor Joining UPGMA Stammbaum 97

98 Kritik, Anregungen Vorschläge Verbesserungen. oder was auch immer, bitte an Bernd oder Michael 98

99 Merke Alles außer UPGMA ist radial rooting Nur UPGMA gibt Außengruppe vor Alles außer MP zeigt Abstände MP Cladogramm-Darstellung UPGMA, NJ, ML Phylogramm-Darstellung Bootstrapping zeigt Info des Datensatzes 99

100 Matrix orientierte Methoden: UPGMA / NJ HbA.seq DATEN ClustalX Charakter orientierte Methoden: MP HbA.phy alignment HbA_JTT.dst Matrix protdist Evolutionsmodell: JTT HbA_seqboot_ protdist.txt 100 Matrizen 100 aln seqboot HbA_seqboot.txt protpars Evolutionsmodell: parsimony (Geiz) Datenform Programm File name Neighbor (UPGMA / NJ) HbA_UPGMA.tre (.out) HbA_NJ.tre (.out) Tree HbA_seqboot_ protdist_upgma.tre HbA_seqboot_ protdist_nj.tre 100 Trees consense sbmp.tre (.out) 100 Trees HbA_MP.tre (.out) Tree Bootstrap- Werte HbA_seqboot_ protdist_upgma_con.tre HbA_seqboot_ protdist_nj_con.tre bootstrap Tree HbA_seqboot_ MP_con.tre bootstrap Tree Bootstrap- Werte