Verwirrung? Erleuchtung. Molekulare. Phylogenie II. Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik

Ähnliche Dokumente
Grundlagen und Begriffe der molekularen Phylogenie

Molekulare Phylogenie II

Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik. Bernhard Lieb & Tom Hankeln WS 2007/2008. Verwirrung?

Fernstudium "Molekulare Evolution" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz

Einführung in die Bioinformatik

Zusammenfassung des 2. Abends

Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz

Einführung in die Angewandte Bioinformatik: Phylogenetik und Taxonomie

Evolutionary Trees: Distance Based

Algorithmische Bioinformatik

Welche Alignmentmethoden haben Sie bisher kennengelernt?

Molekulare Phylogenie III

Einführung in die evolutionäre Bioinformatik Alignmentalgorithmen, Profile, Phylogenetische Analysen

Molekulare Phylogenie III

Rekonstruktion von Evolutionärer Geschichte

Bioinformatik. Character-basierte Verfahren Maximum Parsimony. Ulf Leser Wissensmanagement in der. Bioinformatik

Charakter-orientierte Methoden. 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML)

Phylogenetik. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)

MBI: Sequenzvergleich ohne Alignment

Molekulare Phylogenie

Evolutionäre Bäume. Madox Sesen. 30. Juni 2014

Evolutionsbiologie 1 Phylogenetik Sebastian Höhna

Einführung in die Angewandte Bioinformatik: Multiples Alignment und Phylogenetik

Phylogenien und Methoden zu ihrer Rekonstruktion. Seminar Bioinformatik: Algorithmische und statistische Verfahren der strukturellen Genomanalyse

Wo waren wir stehen geblieben? Evolutions modelle

Part A: Eine Hypothese der Verwandtschaft von Primaten anhand von morphologischen Merkmalen

Bioinformatik. Einführung in die Phylogenie. Distanzbasierte phylogenetische Algorithmen. (lat.: phylum = Stamm) Ulf Leser Wissensmanagement in der

Allgemeine Aufgabenstellung. Ziele

Phylogenetische Analyse

Bioinformatik für Biochemiker

Bioinformatik. Profilalignment und PSI Blast Center-Star Verfahren Progressives MSA CLUSTAL W. Ulf Leser Wissensmanagement in der.

Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte

Varianzkomponentenschätzung

Ihre Namen: Übung C: Phylogenetik I: Übungsaufgaben

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Discovering Frequent Substructures in Large Unordered Trees Unot

R EKONSTRUKTION DER PHYLOGENESE

Quantifizierung evolutionärer Veränderungen

Standardbasierter, kompetenzorientierter Unterricht ZPG Biologie 2011 Bildungsplan 2004 Baden-Württemberg Sekundarstufe II - Evolution

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

40. Algorithmus der Woche Das Travelling Salesman Problem oder die optimale Tour für den Nikolaus

Forschungsstatistik II

Statistik I für Betriebswirte Vorlesung 13

Darwins Erben - Phylogenie und Bäume

BSc Bioinformatik Wintersemester 2013/2014 Nachklausur zur Statistik I Freie Universität Berlin

8.1 Einleitung. Grundlagen der Künstlichen Intelligenz. 8.1 Einleitung. 8.2 Lokale Suchverfahren. 8.3 Zusammenfassung. Suchprobleme: Überblick

Wichtige Definitionen und Aussagen

Übersicht Datenstrukturen und Algorithmen. Übersicht. Probleme auf kantengewichteten Graphen. Vorlesung 14: Minimale Spannbäume

HEUTE. Datenstrukturen im Computer. Datenstrukturen. Rekursion. Feedback Evaluation. abstrakte Datenstrukturen

Comperative Protein Structure Modelling of Genes and Genomes

Bioinformatik für Biochemiker

Map Matching. Problem: GPS-Punkte der Trajektorie weisen einen relativ großen Abstand zueinander auf.

Grundlagen der Statistik

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Abiturvorbereitung Mathematik Stochastik. Copyright 2013 Ralph Werner

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Struktur in der Bioinformatik

Frequentisten und Bayesianer. Volker Tresp

Statistisches Testen

Physik der sozio-ökonomischen Systeme mit dem Computer. 7. Vorlesung

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Globalübungsaufgabe1 (All Pair Shortest Path):

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

1 Einführung. 2 Grundlagen von Algorithmen. 3 Grundlagen von Datenstrukturen. 4 Grundlagen der Korrektheit von Algorithmen

Prof. Dr. Margarita Esponda

5. Bäume und Minimalgerüste

"Korrelation" bei Nominaldaten: Kontingenz

Johann Wolfgang Goethe-Universität Frankfurt am Main

Übungen zur Vorlesung Algorithmische Bioinformatik

10. Übungsblatt zu Algorithmen I im SoSe 2016

Least Absolute Shrinkage And Seletion Operator (LASSO)

V3 - Multiples Sequenz Alignment und Phylogenie

Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen

WS2016/17 F1-Praktikum- Modul 7A Genomforschung und Sequenzanalyse: Einführung in Methoden der Bioinformatik AG Hankeln.

Maximum Likelihood Modellierung von Zähldaten

Multiple Vergleiche. Werner Brannath. VO Biostatistik im WS 2006/2007

Statistische Methoden

Entscheidungsbäume aus großen Datenbanken: SLIQ

Bayesianische Netzwerke - Lernen und Inferenz

Lineare Algebra - Übungen 1 WS 2017/18

Wahrscheinlichkeitsrechnung und Statistik. 11. Vorlesung /2019

Verbesserung der dotplot Methode

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Sequenzen-Alignierung in der Bioinformatik. VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm Engineering, LS11

Bioinformatik für Lebenswissenschaftler

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

IQPNNI Moving fast through tree space and stopping in time. Unicyclic Networks: Compatibility and Enumeration

Bioinformatik für Lebenswissenschaftler

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

5.4 Hierarchische Verfahren

Bayesianische Modellwahl. Helga Wagner Bayes Statistik WS 2010/11 161

Huffman-Kodierung. Prof. Dr. Margarita Esponda

Matrizen. Stefan Keppeler. 28. November Mathematik I für Biologen, Geowissenschaftler und Geoökologen

Transkript:

Genomforschung und Sequenzanalyse inführung in Methoden der ioinformatik Molekulare Phylogenie II ernhard Lieb & Tom Hankeln WS 26/27 1 Verwirrung? rleuchtung 2 1

Was bisher geschah... aten lignment istanzmatrix lustalx, ialign volutionsmodell JTT, PM, LOSUM... Stammbaum 3 Korrektur der istanzen % tatsächlicher bstand = nzahl der Mutationen Korrektur beobachteter bstand t 4 2

volutions modelle 5 volutionsmodelle Globuläre Proteine Transmembran-Proteine 6 3

Variationen der Substitutionsraten shape-parameter α Häufigkeit α=,5 α=2 α=5 α=1 α=5 Kategorien Substitutionsrate 7 ModelTest, ProtTest, FindModel 8 4

istanzmatrix erechnen des paarweisen bstands Sequenz 1,,236,621,72 1,51 Sequenz 2,,599,672 1,482 Sequenz 3,,112 1,561 Sequenz 4, 1,425 Sequenz 5, usgedrückt i.d.r. als Mutationen pro Position bstand kann > 1 werden! sp. Jukes-antor: 3 4 K = ln 1 p p =.6 => K = 1.21 4 3 9 Stammbaumerstellung Wie kommen wir von einer istanzmatrix zu einem Stammbaum? => lgorithmus berechnet aus den istanzen den besten Stammbaum Sequenzen selbst werden nicht mehr berücksichtigt 1 5

UPGM Unweighted Pair-Group Method with rithmetric Means 6 1 1 18 18 12 12 2 2 19 19 =3 3 3 d + d 2 d + d 2 / / / / 11 11 19 19 19 19 =5,5 2.5.5 5.5 / 11 UPGM Unweighted Pair-Group Method with rithmetric Means // Sequenz // 19 19 Sequenz 4 3 2.5 3 5.5 nimmt konstante volutionsraten an ußengruppe wird automatisch bestimmt 9.5 12 6

UPGM Unweighted Pair-Group Method with rithmetric Means dditive oder "lustering" lustering"-methode: s werden durch sequenzielles lustern nach absteigender Ähnlichkeit gruppiert. 13 UPGM Unweighted Pair-Group Method with rithmetric Means usgangsmatrix 6 1 1 18 18 12 12 2 2 19 19 rekonstruierte Matrix 6 11 11 19 19 11 11 19 19 19 19 4 3 2.5 3 5.5 9.5 UPGM setzt absolute molekulare Uhr voraus, aber in Realität müssen volutionsraten berücksichtigt werden 14 7

Fitch-Margoliash lgorithmus Ähnlicher lgorithmus wie UPGM Sukzessives Gruppieren der Taxa ohne Verlust eines stlängenunterschiedes Keine molekulare Uhr zur estimmung der stlängen: 15 Fitch-Margoliash lgorithmus 3 Taxa (1) b a (3) c c (2) istanzen bekannt, aber stlängen nicht klar => 2 Unbekannte (a, b); 1 Konstante (c) => z.. aus der ifferenz von (3) und (2) => Unterschied der Äste errechenbar => uflösen nach b => insetzen in (1) 22 22 39 39 inzelabstände (1) = a+b = 22 (2) = a+c = 39 (3) - (2) (3) = b+c = a-b = 39 = -2 -b = -2-a b= 2+a a+a+2 = 22 2a = 22-2 a= 1 16 8

Fitch-Margoliash lgorithmus 3 Taxa 22 22 39 39 (a): 1 (b): 12 (c): 29 b=12 c=29 a=1 17 Fitch-Margoliash lgorithmus 5 Taxa 22 22 39 39 39 39 b 43 43 c f 18 18 2 2 a g 1 1 d und geringste istanz urschnittswert aus bilden 3.Taxon erechung der stlängen und Neue Matrix e :2 / / 22 22 39 39 4 4 42 42 19 19 / / usw 18 9

Fitch-Margoliash lgorithmus wenn die einzelnen volutionsraten (stärker) variieren, dann doch lieber Neighbor-joining 19 Neighbor-joining (NJ) Saitou und Nai, 1987 Ähnlicher lgorithmus wie UPGM bzw. FM Sukzessives Gruppieren der Taxa ohne Verlust eines stlängenunterschiedes unrooted tree oder ungewurzelter aum (radial) Keine molekulare Uhr esonders sinnvoll, wenn volutionsraten der verschiedenen Linien unterschiedlich sind Minimierung der Gesamt-stlängen des aums => Stammbaum wird aufgelöst 2 1

a b e Neighbor-joining (NJ) Star-tree S = ( d ji )/N-1 i j d c S = Summe aller stlängen d = istanzen zwischen allen s S =78,5 S =a+b+c+d+e 22 39 39 22 39 39 43 43 18 2 18 2 1 1 a Paare werden kombiniert ber: Welche Paare werden kombiniert? Ziel N=nzahl NJ der => s Minimierung der Summe aller stlängen modified Star-tree S mn = [( d im +d in )/2(N-2)]+d mn /2+ d ij /N-2 i und j alle Sequenzen ausser m und n, wobei i<j S =67,7 S =81 S =76 S =7 b f e d c 21 Neighbor-joining (NJ) Star tree -> aumlänge modified Star-tree Grouping -> aumlängen stlängen -> FM b c f Neues taxon () -> neue Matrix a d e Grouping -> aumlängen stlängen -> FM Neues taxon -> neue Matrix Neues taxon (XY) -> neue Matrix Grouping stlängen Neues taxon -> aumlängen -> FM -> neue Matrix 22 11

Neighbor-joining (NJ) rrechnen der Summe aller istanzen, durchschnittlicher istanzen einer Gruppe und z.. (S +S )/N-2 Summe Summe 22 22 39 39 39 39 1 1 43 43 147 147 18 18 2 2 118 118 1 1 18 18 114 114 errechnen der istanzunterschiede ( rate corrected distance ) z.. =d (S +S )/N-2 Summe Summe 22 22 39 39 39 39 1 1-74 -74 43 43 147 147-47,3-47,3-47 -47 18 18 2 2 118 118-46 -46-44 -44-57,3-57,3 1 1 18 18-44 -44-44 -44-57,3-57,3-6,6-6,6 114 114 Grouping 23 Neighbor-joining (NJ) rrechnen der stlängen durch FM b=12 X a=1 24 12

usgangsmatrix Neighbor-joining (NJ) Summe Summe 22 22 39 39 39 39 1 1 43 43 147 147 18 18 2 2 118 118 1 1 18 18 114 114 rstellen einer reduzierten atenmatrix liminierung der istanzen d X = (d d X + d d X )/2 <=> (39 1 + 12)/2 = 29 Summe Summe 29 29 29 29 31 31 89 89-49 -49 18 18 2 2 67 67-44 -44-44 -44 1 1 57 57-44 -44-44 -44-49 -49 61 61 erechnen der stlängen nach FM Und so weiter.. 12 X 1 25 Neighbor-joining (NJ) final tree b=12 c=9 c f=2 a=1 g=5 22 22 39 39 39 39 43 43 18 18 2 2 1 1 e=6 d=4 26 13

Neighbor-joining (NJ) Sequenzen Neighbor-joining Multiples lignment volutionsmodell istanzberechnung Stammbaumberechnung UPGM rgebnisüberprüfung 27 Neighbor-joining (NJ) UPGM setzt absolute molekulare Uhr voraus, aber in Realität müssen volutionsraten berücksichtigt werden Salamander Zebrafisch Lachs Zebrafisch Salamander Lachs nte UPGM vs NJ nte Gans Gans Huhn!bootstrap Taube? Taube Huhn Krokodil Krokodil lligator lligator Schildkröte Schildkröte Wal Wal Mensch Mensch.5 -> long branch attraction.2 28 14

Weitere istanzmethoden Least-squares-Methode Fehler (bweichung) mit der n Sequenzen auf einen aum gepasst werden K ij korrigierte Wert der istanz e (istanzmatrixwert) zwischen i und j P ij Länge des stes, der i und j verbindet = 1 i, j i < j < n ( Kij Pij ) 2 Minimum volution aum aus n Sequenzen besitzt 2n-3 Zweige Jeder Zweig z hat Länge l Summe dieser Zweiglängen ist die Länge des aumes = minimal Nach der LS-Formel wird dann die bweichung der stlängen von den istanzen minimiert L = 2n 3 lz z = 1 29 Was bisher geschah... aten lignment istanzmatrix Stammbaum lustalx, ialign volutionsmodell JTT, PM, LOSUM... lgorithmus z. UPGM; NJ NJ FM LS M UPGM 3 15

Stammbaumerstellung 1. Matrix-orientierte Methoden 2. harakter-orientierte Methoden Maximum Parsimony Maximum Likelihood 31 harakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) rbeiten direkt mit dem lignment xtrahieren mehr Information als Matrix-orientierte Methoden 32 16

Was sind haraktere? kontinuierliche oder diskontinuierliche igenschaften. 1,2,3,4... = kontinuierliche haraktere,t,g, = diskontinuierliche haraktere Nukleotide und minosäuren können als diskrete, diskontinuierliche haraktere behandelt werden. er phylogenetische Stammbaum wird anhand des Musters der Änderungen der haraktere berechnet 33 Maximum Parsimony (MP) Methode des "maximalen Geizes" bzw. der "maximalen Sparsamkeit" ntwickelt für morphologische haraktere 195 Grundzüge einer Theorie der phylogenetischen Systematik Willi Hennig 1913-1976 1976 34 17

Maximum Parsimony William of Ockham (1285-1349) nnahme: volution ging den kürzesten Weg Ockham's razor : "Pluralitas non est ponenda sine neccesitate" ("Ohne Notwendigkeit soll keine Vielfältigkeit hinzugefügt werden") =>minimalistische Ökonomieprinzipien kürzester Stammbaum wird berechnet, d.h. der die wenigsten evolutiven Schritten benötigt Schritte = Änderungen von harakteren 35 Maximum Parsimony rklärung mit morphologischen harakteren Gleiche Prinzipien sind für Sequenzen (asenpaare, minosäuren) gültig 36 18

Maximum Parsimony pomorphie: bgeleiteter harakter. Synapomorpie: bgeleiteter harakter, welcher mehreren Taxa gemeinsam ist. Plesiomorphie: Primitiver harakter. Symplesiomorphie:Primitiver harakter, welcher mehreren Taxa gemeinsam ist. Synapomorphie Symplesiomorphie Nur Synapomorphien sind in MP zu verwerten! 37 Synapomorphie eispiel Haare: Haare sind in der volution nur einmal entstanden..h., der esitz von Haaren ist ein synapomorphes Merkmal der Säugetiere. idechse Mensch Haare Frosch Änderung Hund fehlt vorhanden Synapomorphie = "richtige" Information 38 19

Homoplasie Unabhängige volution Homoplasie ist Übereinstimmung ohne Homologie (d.h., keine gemeinsame bstammung) Homoplasie resultiert aus unabhängiger volution (Konvergenz, Reversion) Homoplasie ist falsche Information, die zu falschen Stammbäumen führen kann MP ist anfällig für Homoplasie 39 Homoplasie-Konvergenz eispiel Schwanz: Schwanz ging unabhängig in den Fröschen und beim Menschen verloren. idechse Frosch Mensch Hund Schwanz fehlt vorhanden 4 2

Homoplasie Konvergenz eispiel Schwanz: Wenn Homoplasie unberücksichtigt bleibt, wird ein falscher Stammbaum abgeleitet. idechse Mensch Schwanz Hund Frosch fehlt vorhanden Maß für Homoplasie:.I. = onsistancy Index; I=m/s m: kleinste mögliche theoretische Schrittzahl s: tatsächliche Schrittzahl homoplastisch I<1 nwendung auf Sequenzen Nukleotide und minosäuren sind diskrete, diskontinuierliche haraktere 4 (Nukleotide) bzw. 2 (minosäuren) haraktere Lücken ("gaps") können als 5. bzw. 21. harakter behandelt werden 42 21

Maximum Parsimony eispiel: Position Sequenz 1 2 3 4 5 6 7 8 9 G G T G G G T G G G T T G G T G 3 mögliche Stammbäume ((,),(,)) ((,),(,)) ((,),(,)) 43 Maximum Parsimony Welche Positionen sind informativ, bevorzugen also eine bestimmte Topologie? Position Sequenz 1 2 3 4 5 6 7 8 9 G G T G G G T G G G T T G G T G 3 Positionen invariabel => nicht informativ 44 22

Maximum Parsimony Position Sequenz 1 2 3 4 5 6 7 8 9 G G T G G G T G G G T T G G T G 6 Positionen sind variabel => aber auch informativ? 45 Maximum Parsimony Position Sequenz 1 2 3 4 5 6 7 8 9 G G T G G G T G G G T T G G T G 3 Positionen sind zwar variabel, aber nicht informativ 46 23

Maximum Parsimony Welche Positionen sind aber nun informativ? Position Sequenz 1 2 3 4 5 6 7 8 9 1 11 G G T G - G G T G G - G G T T G G G T G G * * * * => nur 3 von 9 Positionen sind informativ, d.h., favorisieren eine best. Topologie. => Indels sind haraktere! 47 Maximum Parsimony Position Sequenz 1 2 3 4 5 6 7 8 9 G G T G G G T G G G T T G G T G - + + ((,),(,)) ((,),(,)) ((,),(,)) Position 3: G G G? Position 5: Position 9: G G G G G G G G G G G G G G 48 24

Maximum Parsimony Position Sequenz 1 2 3 4 5 6 7 8 9 G G T G G G T G G G T T G G T G * * * 3 mögliche Stammbäume 1 Mutationen 15 Mutationen 14 Mutationen 49 Maximum Parsimony ber: Ort der Mutation nicht immer eindeutig definiert => Parsimony kann keine stlängen berechnen. 1 Mutationen Position Sequenz 1 2 3 4 5 6 7 8 9 G G T G G G T G G G T T G G T G = = =... 1 Mutationen 1 Mutationen 5 25

Maximum Parsimony Proteinparsimony: 1. Modell (z.. PUP): lle Substitutionen sind gleich wahrscheinlich (1 Schritt). eispiel Ile -> Trp Ile -> Met Ile -> la... 2. Modell: liegt genetischen ode zugrunde, wobei "silent site mutations" ignoriert werden (PROTPRS-Modell in PHYLIP). eispiel: Ile -> Met: T//T -> TG: ein Schritt Ile -> la: T//T -> GN: zwei Schritte Ile -> Trp: T//T -> TGG: drei Schritte 51 Maximum Parsimony xhaustive = lle Stammbäume werden untersucht, der beste Stammbaum wird erhalten (garantiert). ranch-and-ound = inige Stammbäume werden berechnet, bester Stammbaum garantiert. Heuristic = inige Stammbäume werden berechnet, bester Stammbaum nicht garantiert. 52 26

Maximum Parsimony xhaustive = lle Stammbäume werden untersucht, der beste Stammbaum wird erhalten (garantiert). xhaustive search: rschöpfung garantiert 53 Maximum Parsimony: xhaustive Search "ranch addition (1) Start: 3 beliebige Taxa + 4. Taxon () in jeder möglichen Position -> 3 äume (2a) (2b) (2c) + 5. Taxon () in jeder der fünf möglichen Positionen => 15 Stammbäume etc. 54 27

Maximum Parsimony: xhaustive Search Problem: nzahl der möglichen Stammbäume Number of s Number of rooted trees Number of unrooted trees 2 1 1 3 3 1 4 15 3 5 15 15 6 954 15 7 1395 954 8 135135 1395 9 22725 135135 1 34459425 22725 => bei > ~1 Sequenzen ausführliche Suche aller Stammbäume de facto unmöglich 55 Maximum Parsimony 1. Lösung "ranch and bound": Stammbaum wird mit schneller Methode (z.. NJ) berechnet, die nzahl der notwendigen Schritte (L) wird berechnet. => verwirft Gruppen von äumen, die nicht kürzer werden können als L. Kann für Problemlösungen mit < ~ 2 Taxa verwendet werden. 56 28

Maximum Parsimony abzweigen und beenden branch and bound 57 Maximum Parsimony 2. Lösung: Heuristische Verfahren: stepwise addition drei Taxa aum schrittweise ddition auf allen nächsten benen (großes Problem: lokale Maxima) star decomposition : star tree schrittweiser bbau von Taxa bzw. Zusammenführung und valuation (großes Problem: lokale Maxima) Kombination mit anderen lgorithmen branch swapping (Zweige vertauschen): Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TR) 58 29

Maximum Parsimony Nearest neighbor interchange (NNI) Nachbarschaftstausch F G F G F G 59 Maximum Parsimony Subtree pruning and regrafting (SPR) stverpflanzung F G F G 6 3

Maximum Parsimony Tree bisection and reconnection (TR) aumschnittwiederverknüpfung (effektiv) F G G F F G Gutes urchmischen, aber PU aufwendig 61 Maximum Parsimony Problem: Lokale Maxima?! stepwise addition" star decomposition auminsel 62 31

Parsimony Ratchet urch zwischenzeitliche inführung einer veränderten Matrix wird man aus einem lokalen Maximum herauskatapultiert Programme wie: NON, TNT, PRP Weitere Parsimony -Verfahren: Wagner (binäre haraktere), ollo (gewichtet) und Fitch (unordered multistate characters, N) 63 Maximum Parsimony Vorteile: einfach ohne konkretes volutionsmodell rrechnung ancestraler Positionen funktioniert gut mit konsistenten atensätzen Nachteile: empfindlich gegen Homoplasien (Konvergenz) empfindlich gegen "Long ranch ttraction" stlängen werden unterschätzt kein volutionsmodell möglich! 64 32

harakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) 65 Maximum Likelihood The explanation that makes the observed outcome the most likely L = P( H) Wahrscheinlichkeit der aten, gegeben eine Hypothese iehypotheeisteineaumtopologie,dessen stlängen und ein volutionsmodell unter dessen Präsenz die aten evolvierten Zum ersten mal von avalli-sforza and dwards (1967) für gene frequency data benutzt, später (1981) von Felsenstein für N Sequenzen 66 33

Probability and likelihood ie Wahrscheinlichkeit liegt immer zwischen NI () und SIHR (1). ie bedingte Wahrscheinlichkeit ist die Wahrscheinlichkeit eines reignisses, gegeben das reignis : P( )....if probability allows us to predict unknown outcomes based on known parameters P(H ), then likelihood allows us to determine unknown parameters based on known outcomes P( H). 67 Likelihood Hypothese reignisse sind unabhängig lle Kopfwürfe besitzen gleiche UNKNNT Kopfwahrscheinlichkeit p aten: KKZKZKKZZZ L = P(aten Hypothese ) => Likelihood L( H) = pp(1-p)(1-p)p(1-p)pp(1-p)(1-p)(1-p) Keine Verteilung, Plot der selben aten (KKZKZKKZZZ) gegen verschiedene Werte von p (Hypothese) => Mit welcher Kopfwahrscheinlichkeit p bekomme ich am ehesten diese aten? Likelihood,,2,4,6,8 1, [p] 68 34

Maximum Likelihood L = P(data hypothesis) Wahrscheinlichkeit der beobachteten aten (Sequenzen!) im Lichte der Hypothese (Stammbaum). d.h, es wird der Stammbaum errechnet, der die beobachteten aten (also die alignierten Sequenzen) am besten (unter der nnahme des Modells) erklärt. volutionsmodell in aum wird generiert und man prüft dann ob die gegebenen aten den aum generieren könnenk 69 Maximum Likelihood benötigt ein explizites volutionsmodell Parameter werden aus aten + Modell errechnet. xplizite Verbindung aten + Modell + Stammbaum. aber: schlechtes Modell => schlechter Stammbaum lternative Stammbäume lassen sich testen => keine Methode extrahiert mehr Information aus den aten; aber: sehr rechenintensiv 7 35

Maximum Likelihood volutionsmodelle Für N-Sequenzen: => J, K2P, F81, HKY, RV Für Protein-Sequenzen: => PM, LOSUM, JTT, WG... 71 Maximum Likelihood Seq1 GG Seq2 GG Seq3 GTT Seq4 GGTG 1 2 3 4 Frage: Wie hoch ist die Wahrscheinlichkeit, dass der Stammbaum für die aten (Sequenzen) unter dem gegebenen Modell verantwortlich ist? 72 36

Maximum Likelihood 1 GG 2 GG 3 GTT 4 GGT j GT?? GT 4 x 4 Möglichkeiten ie Wahrscheinlichkeit für eine best. Position j ist die Summe der inzelwahrscheinlichkeiten aller möglichen ancestralen Nukleotide unter dem gegebenen Modell. 73 ML eispiel (vereinfacht): aten: Modell (nicht realistisch): 1 2 3 4 T G 1,1,1,1 T 1,1,1 1,1 G 1 74 37

ML - eispiel: Stammbaum : X,Y =, T, G, oder X Y ML: Summe der 4 x 4 inzelwahrscheinlichkeiten 75 ML - eispiel: 1. Topologie, immer gleich für unterschiedliche Knoten! Stammbaum 1: Stammbaum 2: T 1 x 1 x,1 x 1 x 1 =,1 1 x 1 x,1 x,1 x,1 =,1 usw... Summe aus 16 möglichen Stammbäumen! 76 38

ML - eispiel: 2. Topologie (andere Topologie)! ber immer gleich für unterschiedliche Knoten! Stammbaum 1: Stammbaum 2: T,1 x,1 x 1 x,1 x 1 =,1 1 x,1 x,1 x,1 x,1 =,1 usw... usw..usw Summe aus 16 möglichen Stammbäumen! 77 ML - eispiel: Summe der Wahrscheinlichkeiten der inzelbäume => Likelihood Stammbaum : Stammbaum : Wahrscheinlichkeit": =,12427 => logl = -,9563 Wahrscheinlichkeit": =,232 => logl = -1,6379 78 39

Maximum Likelihood 1 GG 2 GG 3 GTT 4 GGTG i....z Wahrscheinlichkeit des Stammbaums ist das Produkt aller Wahrscheinlichkeiten für jede Position: ML- Stammbaum = Stammbaum mit größter "Likelihood". 1 2 3 4 79 Maximum Likelihood Sequence 1 Sequence 2 Sequence 3 Sequence 4 GG GG GTTT GGTT X,Y =, T, G, oder T G 1,,1,2,4 T 1,,3,6 1,,1 G 1, erechnen Likelihood einer aller Möglichkeiten vorgegebenen Topologie für eine ist das Produkt aller 1x1x1x,1x,1=,1 Topologie und eine Wahrscheinlichkeiten Position jeder Position 8 4

Maximum Likelihood Likelihood für alle anderen Topologien und Vergleich der Likelihoods L = P(data hypothesis) Sequence 1 Sequence 2 Sequence 3 Sequence 4 GG GG GTTT GGTT T G 1,,1,2,4 T 1,,3,6 1,,1 G 1, Für r n=5 Sequenzen gibt es 2,84x1 76 mögliche äume <-> < > tome im Universum: ~1 8 81 Maximum Likelihood - Vorteile Mathematisch gut definiert Funktioniert gut in Simulationsexperimenten rlaubt explizite Verbindung von volutionsmodell und aten (Sequenzen) "Realistische" nnahmen zur volution Verschiedene Modelle und Stammbäume lassen sich testen 82

Maximum Likelihood - Nachteile Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die volution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den aten überein? omputertechnisch nicht zu lösen wenn zu viele Taxa oder Parameter berücksichtigt werden müssen. 83 Maximum Likelihood ei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar für r n=5 Sequenzen gibt es 2,84x1 76 mögliche äume Lösung: "Intelligente lgorithmen" - Quartet puzzling - ayessche Methode + MMM 84 42

85 43