Bayes sche Phylogenierekonstruktion mit molekularen und morphologischen Merkmalen

Ähnliche Dokumente
Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Übungsaufgaben Lösungen

P (A B) P (B) = P ({3}) P ({1, 3, 5}) = 1 3.

Grundlegende Eigenschaften von Punktschätzern

Einführung in die Bayes-Statistik. Helga Wagner. Ludwig-Maximilians-Universität München WS 2010/11. Helga Wagner Bayes Statistik WS 2010/11 1

Grundlagen der Objektmodellierung

Unabhängigkeit KAPITEL 4

Signalverarbeitung 2. Volker Stahl - 1 -

Grundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt

Würfelspiele und Zufall

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

10 Der statistische Test

Das Bayes'sche Prinzip

Einführung in die Theorie der Markov-Ketten. Jens Schomaker

Frequent Itemset Mining + Association Rule Mining

Allgemeine diskrete Wahrscheinlichkeitsräume II. Beispiel II. Beispiel I. Definition 6.3 (Diskreter Wahrscheinlichkeitsraum)

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Markov-Ketten-Monte-Carlo-Verfahren

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Einführung in die Wahrscheinlichkeitsrechnung

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

3. Prozesse mit kontinuierlicher Zeit

Statistik und Wahrscheinlichkeitsrechnung

Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist.

3. Das Reinforcement Lernproblem

Zufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen

Übungsscheinklausur,

2.1 Importance sampling: Metropolis-Algorithmus

1,64 1,96 2,56. Statistik. Cusanus-Gymnasium Wittlich Faustregeln

Für die Wahrscheinlichkeit P A (B) des Eintretens von B unter der Bedingung, dass das Ereignis A eingetreten ist, ist dann gegeben durch P(A B) P(A)

4. Grundzüge der Wahrscheinlichkeitsrechnung

1. Grundlagen der Wahrscheinlichkeitsrechnung

Statistics, Data Analysis, and Simulation SS 2015

Statistik für Ingenieure Vorlesung 2

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Was sind Zusammenhangsmaße?

Multiplizitätskorrektur bei Variablenselektion

Beurteilende Statistik

Inferenzstatistik und Hypothesentests. Hierbei geht es um die Absicherung eines Untersuchungsergebnisses gegen ein Zufallsereignis.

Stochastik - Kapitel 2

Fuzzy Logic und Wahrscheinlichkeit

Zufallsvariablen [random variable]

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit


Clusteranalyse: Gauß sche Mischmodelle

1 Gemischte Lineare Modelle

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Unterrichtsplanung zur Einführung des Binomialkoeffizienten und der Binomialverteilung

Ablaufschema beim Testen

Zusammenfassung Stochastik

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Klausur zur Mathematik für Biologen

Grundlagen der Theoretischen Informatik, SoSe 2008

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Johannes-Kepler-Gymnasium, Chemnitz John-Lennon-Oberschule, Berlin Friedrich-Schiller-Gymnasium, Königs Wusterhausen

Brückenkurs Statistik für Wirtschaftswissenschaften

Kapitel VIII - Tests zum Niveau α

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.

Biomathematik für Mediziner, Klausur SS 2001 Seite 1

Dynamisches Huffman-Verfahren

Statistische Tests (Signifikanztests)

Simulationsmethoden in der Bayes-Statistik

Bayes sche und probabilistische Netze

Statistik für Punktprozesse. Seminar Stochastische Geometrie und ihre Anwendungen WS 2009/2010

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Institut für Stochastik, SoSe K L A U S U R , 13:

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Bayes sches Lernen: Übersicht

Berechnung des LOG-RANK-Tests bei Überlebenskurven

GRUNDPRINZIPIEN statistischen Testens

15.5 Stetige Zufallsvariablen

Mathematik für Biologen

1.4 Der Binomialtest. Die Hypothesen: H 0 : p p 0 gegen. gegen H 1 : p p 0. gegen H 1 : p > p 0

Hypothesentest, ein einfacher Zugang mit Würfeln

Statistik I für Betriebswirte Vorlesung 2

3 Evaluation als Beschreibung von Zuständen

Conjoint Measurement:

Statistik I für Betriebswirte Vorlesung 14

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen

8. Konfidenzintervalle und Hypothesentests

Statistik Einführung // Wahrscheinlichkeitstheorie 3 p.2/58

Binomialverteilung. Statistik für SoziologInnen 1 Diskrete Verteilungsmodelle. Marcus Hudec

Spiel 1: Spielerische Simulation der Hardy-Weinberg-Regel

Satz 16 (Multiplikationssatz)

Der χ 2 -Test (Chiquadrat-Test)

Testen von Hypothesen

Elementare Beweismethoden

Parametrische vs. Non-Parametrische Testverfahren

Die Maximum-Likelihood-Methode

Kapitel ML:IV. IV. Statistische Lernverfahren. Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen

5 Zwei spieltheoretische Aspekte

Klausur Stochastik und Statistik 31. Juli 2012

Wahrscheinlichkeiten

Lügen für Fortgeschrittene Bayesianische Statistik in der Ökonom(etr)ie

Teil III. Komplexitätstheorie

Transkript:

Bayes sche Phylogenierekonstruktion mit molekularen und morphologischen Merkmalen Markus Pfenninger Institut für Ökologie, Evolution & Diversität, JWGoethe-Universität, BioCampus Siesmayerstraße, 60054 Frankfurt am Main Einleitung Wir benutzen Phylogenien, um daraus Schlußfolgerungen über den Prozeß der Evolution zu ziehen, wie zb Verwandtschaftsverhältnisse, Zeitpunkte bestimmter Ereignisse und Merkmalsentwicklungen Allerdings sind die Phylogenien selten mit Sicherheit bekannt; meist sind es aus Daten gewonnene Inferenzen 1 Um dieser phylogenetischen Unsicherheit zu entgehen, wird bei den meisten bisher verwendeten Verfahren die Hoffnung darauf gesetzt, daß der oder die besten Bäume unter einem Optimalitätskriterium wie maximale Sparsamkeit (Maximum Parsimony, MP 2 ), minimale Evolution (Minimum Evolution, ME) oder maximale bedingte Wahrscheinlichkeit (Maximum Likelihood ML 3 ) einen vor dieser Unsicherheit bewahrt Aber selbst der beste Baum unter einem dieser Kriterien muß nicht notwendigerweise der wahre Baum zu sein was man schon daran sieht, daß ein und der selbe Datensatz unter den verschiedenen Kriterien häufig unterschiedliche Topologien liefert Obwohl also die besten Bäume möglicherweise den wahren Baum repräsentieren oder zumindest eine hohe Wahrscheinlichkeit dafür besitzen, gibt es keine Möglichkeit, sich dessen sicher zu sein Mehr noch wir wissen häufig auch nicht, um wieviel der beste Baum besser ist als seine Alternativen: ragt er sozusagen aus dem Baumuniversum heraus, oder ist er nur wenig besser als seine Umgebung Evolutionäre Schlußfolgerungen in nachfolgenden Analysen aus einem oder mehreren besten Bäumen zu ziehen, ist also mit einer hohen Unsicherheit behaftet und kann sehr irreführend sein, häufig ohne daß diese Unsicherheit deutlich gemacht oder gar quantifiziert wird Bootstrapproben der Phylogenie, alle maximal oder fast maximal parsimonischen Bäume oder sonst irgendeine Probe von Phylogenien, die irgendwie die Unsicherheit der phylogenetischen Rekonstruktion widerspiegeln sollen, sind schon ein Schritt in die richtige Richtung, haben aber den Nachteil, daß die statistischen Eigenschaften ihrer Verteilungen unsicher sind Die Bayesianische Inferenz von Phylogenien stellt einen erheblichen Fortschritt dar und zwar aus einer Reihe von Gründen: -Wie ML beruht die Bayes sche Schätzung der Phylogenie auf der Likelihood-Funktion Die Likelihood trägt in beiden Fällen die in den Daten enthaltene pyhlogenetische Information Es konnte gezeigt werden, daß ML Methoden wie von der theoretischen Statistik vorhergesagt unter einer Reihe von Umständen besser sind als andere Methoden Da Bayes sche Methoden (BM) auf den gleichen Grundlagen beruhen, haben sie auch diese netten statistischen Eigenschaften 1 Eine Inferenz ist eine Schlußfolgerung über die Parameter eines statistischen Modells anhand von empirischen Daten 2 Parsimony oder Sparsamkeit ist ein Inferenzprinzip, daß die notwendigen Kosten minimiert In der evolutionären Inferenz bedeutet dies die Minimierung der notwendigen Merkmalswechsel 3 Wahrscheinlichkeit, das ein bestimmtes Modell mit spezifischen Parameterwerten die beobachteten Daten produziert hat Maximum Likelihood (ML) ist ein statistisches Verfahren zum Bestimmen der Parameterwerte, welche die Likelihood maximieren Das es keine adäquate deutsche Entsprechung des Likelihood-Begriffes gibt, wird der englische Ausdruck beibehalten

-Sie sind, wie wir später sehen werden, sehr effizient zu berechnen und eignen sich deswegen auch für sehr große Datensätze Es können damit eine Menge von Merkmalen und Taxa verarbeitet werden, die sich für ML aufgrund der im Allgemeinen verfügbaren Rechenkapazität verbieten -Die Abschätzung der phylogenetischen Unsicherheit ist ein integraler Bestandteil der Methode und muß nicht, wie beim Bootstrap aufwändig hinterher geschoben werden Gleichzeitig wird sowohl die Unsicherheit in der Topologie, den Daten und den verwendeten Modellparametern auf eine natürliche, intuitive Weise integriert -Damit können alte evolutionsbiologische Probleme, wie vergleichende Analysen unter völlig neuer Perspektive betrachtet werden Es gibt zwar auch Einwände, vor Allem philosophische, gegen diese Methode (gegen welche hätte es die in der Systematischen Forschung nicht gegeben?) auf die später eingegangen wird, aber die genannten Vorteile rechtfertigen es auf jeden Fall, sich näher mit der Methode zu beschäftigen Um die statistischen und philosophischen Grundlagen zu begreifen, ist zunächst eine Exkursion zum Bayes scher Ansatz in der Statistik notwendig Thomas Bayes (* ca 1702 in London; 17 April 1761 in Tunbridge Wells) war ein englischer Mathematiker und presbyterianischer Pfarrer Sein berühmtes Bayes sches Theorem wurde erst posthum veröffentlicht Ganz allgemein besagt es, wie mit bedingten Wahrscheinlichkeiten 4 zu rechnen ist Das besondere daran ist, daß man damit eine enorm nützliche Größe berechnen kann, nämlich die Wahrscheinlichkeit verschiedener Hypothesen im Licht der Daten Das bedeutet, daß man im Gegensatz zu dem üblichen frequentistischen Vorgehen keine Nullhypothese aufstellt und dann schaut, ob die Daten stark genug sind, diese abzulehnen, sondern die Wahrscheinlichkeit für alle möglichen Hypothesen berechnet, um zu schauen, welcher wir besonders und wie stark vertrauen sollten Das ist besonders dann sinnvoll, wenn die Zahl der möglichen alternativen Hypothesen groß ist und der Test jeder einzelnen arbeitsintensiv wäre Das Theorem lautet: Daten Hypothese) Hypothese) Hypothese Daten) = Daten) Der Nenner Daten) kann auch wie folgt ausgedrückt werden: 4 Eine bedingte Wahrscheinlichkeit oder auch konditionale Wahrscheinlichkeit ist die Wahrscheinlichkeit des Eintretens eines Ereignisses A unter der Bedingung, dass ein Ereignis B bereits vorher eingetreten ist Es wird geschrieben als A B); der senkrechte Strich ist als "unter der Voraussetzung" oder gegeben B ist eingetreten zu lesen Sie berechnet sich für unabhängige Ereignisse nach A) B) A B) = B) Dabei handelt es sich somit nicht um eine logische, notwendige Bedingung für A sondern schlicht um ein unabhängiges Ereignis von dem wir festgelegt haben, daß es zuvor stattgefunden haben muß Das wird am Besten durch ein Beispiel illustriert: Eine Mutter hat zwei Kinder und wir stellen Überlegungen zu deren Geschlecht an Unsere erste Frage lautet Wenn das erste Kind ein Mädchen ist, wie groß ist die Wahrscheinlichkeit, daß auch das zweite Kind ein Mädchen ist? Ganz klar, die beiden Geburten sind unabhängig voneinander und deswegen ist es egal welches Geschlecht das erste Kind hat; die Wahrscheinlichkeit eine Tochter zu bekommen liegt immer bei ½ Die zweite Frage jedoch lautet Wenn eines der Kinder ein Mädchen ist, mit welcher Wahrscheinlichkeit ist dann auch das zweite Kind ein Mädchen? In diesem Fall sind die beiden Ereignisse zwar unabhängig, aber aufeinander bezogen Es gibt drei Möglichkeiten der Geschlechterreihenfolge, wenn eines davon ein Mädchen sein soll: 1 Junge 2 Mädchen, 1 M 2 J, 1 M 2 M Nur im letzten Fall sind beide Kinder weiblich, deswegen beträgt diese bedingte Wahrscheinlichkeit 1/3

Daten Hypothese) Hypothese) Hypothese Daten) = Daten Hypothese) Hypothese) H was dafür sorgt, daß die Summe der Wahrscheinlichkeiten über alle möglichen Hypothesen gleich 1 ergibt Dieser Ausdruck ist auch der häufiger gebräuchliche In gewisser Weise kann man damit die Frage nach Ursache und Wirkung umkehren 5 Das Theorem folgt direkt aus dem Rechnen mit bedingten Wahrscheinlichkeiten und ist nicht umstritten Nachdem somit das Prinzip (hoffentlich) klar geworden ist, kommt jetzt eine Einführung in die Bayes sche Inferenz von Phylogenien Im Grunde ist dies gar keine so neue Technik, denn basale Ideen dazu wurden bereits in den 1960er Jahren geäußert Wie so häufig mußte die technische Realisierung und Verbreitung jedoch warten, bis die (bezahlbare) Computerleistung ein Niveau erreicht hatte, die einen sinnvollen Gebrauch ermöglichte Auf Phylogenien übertragen bedeutet der Bayes sche Ansatz, daß wir deren posteriore Wahrscheinlichkeitsverteilung bestimmen müssen Wenn wir ein aligniertes Set von Sequenzdaten S haben, besagt das Bayes sche Theorem, daß die posteriore 6 Wahrscheinlichkeit des Baumes T i berechnet wird nach p(s Ti ) p( Ti ) p( Ti S) = ) p(s T ) p( T ) T wobei p(t i S) die Wahrscheinlichkeit des Baumes T i gegeben Sequenzdaten S ist Die Quantität p(s T i ) ist die Wahrscheinlichkeit der Daten durch den Baum T i produziert worden zu sein, also schlicht die Likelihood Um sie zu berechnen, muß man über alle möglichen Astlängenwerte und alle möglichen Parameterwerte des verwendeten Sequenzevolutionsmodells integrieren 7 Wenn t ein Vektor der Astlängen eines Baumes ist und m ein Vektor der Modellparameterwerte darstellt, dann berechnet sich i i 5 Auch hier soll ein Beispiel die Anwendung deutlich machen: Stellen wir uns vor, wir hätten einen Antikörpertest für Vogelgrippe, der laut Angabe des Herstellers in 99% aller Fälle bei einem tatsächlich infizierten, aber symptomfreien Vogel das Vorhandensein des Erregers auch korrekt anzeigt; die Sensitivität liegt also bei Positiver Test Infiziert) = 0,99 Die Wahrscheinlichkeit für einen falsch positiven Test liegt folglich bei Positiver Test Nicht Infiziert) = 0,01 = 1-Sensitivität Nehmen wir weiter an, das zb aus Screening-Studien von toten Zugvögeln bekannt wäre, daß die tatsächliche Infektionsrate in the wild bei 0,002, also 0,2% läge (= Infiziert)) Die Frage lautet jetzt Wie groß ist die Wahrscheinlichkeit, daß ein positiv getesteter Vogel auch tatsächlich infiziert ist?, also uns der Wert Infiziert Positiver Test) interessiert Da uns die Quantität Positiver Test) nicht bekannt ist, müssen wir sie nach der Formel Positiver Test) = Positiver Test Nicht Infiziert) x Nicht Infiziert) + Positiver Test Infiziert) x Infiziert) substituieren, um die Werte in die Formel des Bayes schen Theorems einsetzen zu können Das ergibt eine Wahrscheinlichkeit von 0,17 Es sind also unter den gegebenen Annahmen nur 17% der positiv getesteten Vögel auch tatsächlich infiziert oder umgekehrt 83% der positiv getesteten Vögel nicht infiziert Man kann sich dies auch anders verdeutlichen: Angenommen, wir testen 10000 Vögel Von diesen sind entsprechend der Prävalenz 0,2% (~ 20) tatsächlich infiziert und werden auch mit 99% Wahrscheinlichkeit als solche vom Test erkannt 9980 Vögel sind nicht infiziert, jedoch werden selbst bei einer falsch positiven Fehlerrate von lediglich 1% davon ungefähr 100 als infiziert eingestuft und schon haben wir mit 120 positiv getesteten Vögeln eine veritable Epidemie, die drastische Maßnahmen rechtfertigte, wenn wir nicht unser Vorwissen über die Prävalenz in Betracht ziehen Jedoch ist unser Ergebnis stark von unserem eingebrachten Vorwissen abhängig; die Berechnung der posterioren Wahrscheinlichkeit ist auf jeden Fall gültig fraglich ist nur, ob es der Prior (in diesem Fall der Prävalenzwert) auch ist 6 posterior: nachgelagert, anschließend, im Nachhinein Eben die Wahrscheinlichkeit der Hypothese nach der Analyse durch die Daten 7 Da nicht nur die die Unsicherheit in der Topologie durch eine Bayes sche Analyse erfasst wird, ist es auch möglich, die posteriore Wahrscheinlicheitsverteilung jedes Parameters (zb der Astlängen) zu berechnen, in dem die marginalen Wahrscheinlichkeiten für jeden der möglichen Parameterwerte berechnet Hierzu ein Beispiel: bei einem 4 Taxon-Problem gibt es 3 mögliche Topologien (τ 1, τ 2, τ 3 ), aber unbegrenzt viele Astlängenkombinationen (ν 1, ν 2, ν 3,, ν n ) Die Matrix der Kombinationsmöglichkeiten sieht dann wie folgt aus:

p(s T ) i = p(s Ti t m,t,m) p(t) p(m) d t d m wobei p(t) und p(m) für die jeweilige a priori Wahrscheinlichkeit steht Der Wert p(t i ) ist die a priori Wahrscheinlichkeit des Baumes T i In der Regel nimmt man alle möglichen Bäume zunächst als gleich wahrscheinlich an (uniformer Prior), dazu später mehr Der Nenner des Bruches summiert die Wahrscheinlichkeiten über alle möglichen Bäume Damit hätten wir die posteriore Wahrscheinlichkeit jedes möglichen Baumes definiert In der Praxis ist es aber aufgrund der faktoriell mit der Anzahl der Taxa anwachsenden Anzahl möglicher Bäume unmöglich, diesen Nenner tatsächlich aufzusummieren Dieses Problem teilt die Bayes sche Analyse naturgemäß mit MP und ML Methoden Deswegen können wir die Bayes sche posteriore Wahrscheinlichkeitsverteilung für phylogenetische Bäume idr auch nicht analytisch bestimmen, sondern müssen mit einer Schätzung vorlieb nehmen, die wir mit Hilfe der ν1 ν 2 νn τ1 0,010 0,005 0,005 τ 2 0,007 0,022 0,019 0,012 0,006 0,014 0,038 Σ 0,20 0,48 0,32 1 Jede Zelle dieser Matrix stellt die posteriore Wahrscheinlichkeit der Kombination einer Topologie mit genau einem Astlängenvektor dar Die Reihen- und Spaltensummen jeder möglichen Kombination sind die marginalen Wahrscheinlichkeiten (weil diese in der Darstellung halt am Rand (Margin) liegen) So hat in diesem Beispiel die Topologie 2 (τ2) marginale Wahrscheinlichkeit von p = 0,48 und ist damit die wahrscheinlichste Aufaddiert müssen die marginalen Wahrscheinlichkeiten jedes Parameters wieder eins ergeben (eine der drei möglichen Topologien muß es ja sein) Über diese sog Marginalisierung könne wir also einerseits die posteriore Wahrscheinlichkeitsverteilung jedes Parameters in der Analyse berechnen, aber damit natürlich auch den Einfluß der anderen Parameter herausrechnen, wenn wir zb eben nur an der Topologie interessiert sind τ 3 Σ 0,029 0,033

Monte Carlo Markov Kette 8 (engl: chain; MCMC) gewinnen Es hat sich nämlich gezeigt, daß eine adäquat konstruierte Markov-Kette im stationären Zustand die Bäume entsprechend ihrer posterioren Wahrscheinlichkeit besucht Bei einer solchen Markov Kette sind phylogenetische Bäume die verschiedenen Zustände Man startet mit einem willkürlichen Set an Parameterwerten, Astlängen und einer willkürlichen Topologie In jeder Generation der Kette wird ein neuer Baum untersucht, indem man die Topologie oder die Astlängen oder die Sequenzevolutionsmodellparameterwerte (tolles Wort!) oder alles zusammen ändert Die neuen Topologien bzw Werte werden anhand von bestimmten Algorithmen oder Funktionen vorgeschlagen (siehe Anhang aus MrBayes 31 Manual) und stellen sicher, daß alle möglichen Werte angemessen berücksichtigt werden Es wird bei dieser Methode also nicht nur die Unsicherheit in der Topologie, sondern auch in den Modellparametern und über die Astlängen auch des Datensatzes berücksichtigt Metropolis-Hastings-Algorithmus Ob ein Topologie/Astlängen/Parameterset akzeptiert (dh für die spätere Auswertung gespeichert) oder abgelehnt wird, hängt von seiner Likelihood ab: ist er besser als der vorhergehende Baum, wird er auf jeden Fall gespeichert; ist er schlechter, wird er mit einer Wahrscheinlichkeit proportional zum Verhältnis seiner Likelihood zu der des Vorgängerbaumes beibehalten Die Übergangswahrscheinlichkeit zu einem bestimmten neuen Baum wird also von dem Verhältnis seiner Likelihood zu der seines Vorgängers bestimmt 9 8 Benannt nach Andrei Andrejewitsch Markow (* 14 Juni 1856 in Rjasan; 20 Juli 1922 in Petrograd) Es handelt sich bei einer Markov-Kette um ein Verfahren zur Beschreibung stochastischer Prozesse, also eine zeitliche Folge von Zufallsereignissen Eine Besonderheit der Markow-Ketten ist, daß die Eigenschaften ihres Systems zu einem beliebigen Zeitpunkt tm nur durch die Werte in den Zeitpunkten t m und t m-1 festgelegt und von den früheren Werten unabhängig sind Die aufeinander folgenden Zeitpunkte in einer Markov-Kette werden auch Generationen genannt Eine Markow-Kette ist bestimmt über die Anfangsverteilung, die Übergangswahrscheinlichkeiten und durch ihren Zustandsraum Die Anfangsverteilung (dh der Anfangszustand) wird entweder zufällig oder willkürlich gewählt Eine Übergangswahrscheinlichkeit ist die Wahrscheinlichkeit für den Übergang aus einem bestimmten Zustand a in einen anderen möglichen Zustand b, c etc, also eine bedingte Wahrscheinlichkeit, weil das System sich zunächst im Zustand a befinden muß Ist zb ein Übergang von a nach b nicht möglich, ist p ab = 0 Die Summe der Übergangswahrscheinlichkeiten von einem Zustand aus muß genau eins ergeben, weil irgendein anderer Zustand eintreten muß Der Zustandsraum ist die Menge aller Zustände, die das System annehmen kann Diese Zustände müssen immer unabhängig sein, weil sich das System immer in genau einem Zustand befindet Monte Carlo deswegen, weil der Übergang von einem Systemzustand in den nächsten gewichtet nach den Übergangswahrscheinlichkeiten ausgewürfelt wird, also das Zufallsprinzip wie in der Spielbank herrscht (es müßte also genau genommen Bad Homburg heißen, weil die Spielbank in Bad Homburg die Mutter der in Monte Carlo ist - aber das ist hier jetzt wirklich irrelevant) Man verwendet Markov-Ketten dazu, das langfristige Verhalten von stochastischen Prozessen vorherzusagen Ein wunderschönes Beispiel für eine Markov-Kette ist übrigens das Monopolyspiel Es gibt einen festgelegten Anfangszustand (der Eintritt auf das Spielbrett), diskrete Zustände (eine Spielfigur befindet sich immer auf genau einem Feld), der Zustand (das Feld) auf die Figur sich befindet hängt nur von den Feld ab, auf dem sie einen Spielzug zuvor stand, der Zustandsraum sind alle Felder des Spielbrettes und die Übergangswahrscheinlichkeit zu einem anderen Feld wird bestimmt von der Wahrscheinlichkeit, eine bestimmte Zahl zu würfeln (bei einem fairen Würfel kann man die nächsten 6 Felder mit gleicher Wahrscheinlichkeit erreichen (p=1/6); für alle anderen Felder ist die Übergangswahrscheinlichkeit = 0) Läßt man den Prozess über eine lange Zeit laufen, dh man würfelt sehr of und bewegt die Figur entsprechend, wird man feststellen, daß nicht alle Felder die gleiche Wahrscheinlichkeit haben, sie zu erreichen, sondern es Unterschiede in der Besuchshäufigkeit zwischen Feldern von bis zu 48% gibt 9 Metropolis-Hastings Algorithmus Hier nochmals in tatsächlich algorithmischer Form: 1) Wähle einen Startbaum T i 2) Suche aus den im Baumgraphen benachbarten Bäumen einen aus (T j )

Diese Probennahmemethode wurde Metropolis-Hastings Algorithmus benannt (Metropolis et al 1953; Hastings, 1970) Läßt man eine solche Kette lange genug laufen, dann gerät sie früher oder später in einen stationären Zustand, dh die Likelihood-Werte der aufeinander folgenden Generationen steigen tendenziell über die Zeit nicht mehr an (die Burn-in Phase), sondern fluktuieren irregulär um einen Wert Damit ist sichergestellt, daß eine ordentlich konstruierte MCMC Bäume aus der posterioren Dichteverteilung mit einer Frequenz sammelt, die ihrer Proportion in der tatsächlichen Dichte entsprechen Mit anderen Worten: die relative Häufigkeit, mit der ein Baum von einer angemessen konstruierten Markov-Kette besucht wird, ist eine gültige Annäherung an seine posteriore Wahrscheinlichkeit Im stationären Zustand einer Kette werden also nur aus dem relevanten Teil des Baumuniversums zufällig bessere und schlechtere Bäume gesammelt, im Gegensatz zu einem Optimierungsansatz wie ML, welches nur eine Richtung, nämlich nach oben, kennt Es ist für die Auswertung wichtig nur Bäume, die in der stationären Phase gesammelt wurden, zu berücksichtigen, da nur sie eine adäquate Probe aus der posterioren Wahrscheinlichkeitsverteilung darstellen Dazu später im praktischen Teil mehr Auswertung Die so gesammelten Bäume stellen eine valide statistische Probe der fraglichen Phylogenie dar Sie kann jetzt dafür benutzt werden, die statistische Konfidenz in verschiedene Aspekte der Phylogenie zu ermitteln Eine Möglichkeit ist es, den Baum mit der höchsten posterioren Wahrscheinlichkeit zu präsentieren Ein Standardansatz ist es, die gesammelten Bäume entsprechend ihrer posterioren Wahrscheinlichkeit absteigend anzuordnen, bis eine kumulative Wahrscheinlichkeit von 95% erreicht ist Dieses 95% glaubhaftes Set von Bäumen kann dann als majority-rule Konsensus-Baum dargestellt werden, was vermutlich die aussagekräftigste Darstellungsform ist Die Proportion der Bäume in der MCMC-Probe, in der eine bestimmte monophyletische Gruppe vorkommt, ist eine valide Abschätzung der posterioren Wahrscheinlichkeit, daß diese Gruppe existiert - aber das darf man nie vergessen - gegeben die Daten und das verwendete Evolutionsmodell Mögliche Probleme Sensitivität hinsichtlich der Priors Die stärksten Bedenken gegen die Verwendung bayesianischer Methoden in der Statistik allgemein und in der Phylogenie im Besonderen resultieren aus der Verwendung der a priori Wahrscheinlichkeit der Hypothese (Prior) Bei jeder Bayes schen Analyse ist es notwendig, daß der Forscher Vorwissen oder Annahmen in die Analyse einbringt Die Befürchtung ist, daß damit ein subjektives Element in die Analyse eingeführt wird, das die Ergebnisse beeinflussen könnte Nun ist es auch in jeder frequentistischen Analyse so, daß Vorwissen zb bei der Gestaltung des Versuches oder der Wahl der Außengruppe eingebracht wird, nur geschieht dies im Gegensatz zur bayesianischen Analyse nicht explizit Zudem wird der Einfluß des Priors auf die posteriore Wahrscheinlichkeitsverteilung mit zunehmender Datenmenge 3) Berechne das Verhältnis der Wahrscheinlichkeitsdichtefunktionen aus dem neu vorgeschlagenen und dem f ( T j ) alten Baum R = f ( Ti ) 4) Wenn R 1 wird der vorgeschlagene Baum als der neue Baum akzeptiert und die Kette ist somit eine Generation weiter 5) Wenn R 1, ziehe eine gleichverteilte Zufallszahl zwischen 0-1 Wenn diese Zahl kleiner ist als R, akzeptiere den vorgeschlagenen als neuen Baum 6) Wenn nicht, behalte T i bei und gehe zu Schritt 2

geringer Bei einer durchschnittlichen phylogenetischen Analyse hat der Prior praktisch keinen Einfluß auf das Ergebnis Trotzdem sollte die Wahl des Priors sorgfältig geschehen und auch, zumindest bei ungewöhnlichem Prior, sorgfältig dokumentiert werden Konvergenz und Durchmischung In der Praxis schwerwiegender als dieses eher philosophische Problem ist die Frage, ob unsere Probe valide ist, dh ob unsere Markov-Kette in einen stationären Zustand gelaufen ist (konvergiert hat), bevor wir mit der Probenahme angefangen haben Außerdem wissen wir nicht, ob unsere Kette auf einem lokalen Optimum gefangen ist und von dort nicht oder nur langsam zu Regionen mit höherer oder ähnlicher Likelihood gelangen kann Ein vernünftiger Weg, die Konvergenz zu beobachten besteht darin, die (log)likelihoodwerte gegen die Anzahl der Generationen aufzutragen Nachdem es keinen offensichtlichen Anstieg oder Abfall mehr gibt, sondern die Werte unregelmäßig fluktuieren, kann man sich halbwegs sicher sein, daß die Kette im stationären Zustand angekommen ist Ob man dabei auf einem lokalen Optimum hängen geblieben ist, kann man durch mehrere unabhängige Läufe der Kette von unterschiedlichen Startpunkten überprüfen Sind die erhaltenen Ergebnisse sich sehr ähnlich, hat man einen starken Anhaltspunkt dafür, daß die Kette konvergiert hatte Die meisten Programme versorgen ihre Benutzer auch mit verschiedenen Konvergenzstatistiken, die als Indikatoren für den stationären Zustand dienen können Darüber hinaus werden bei der Konstruktion der MCMC auch Zusatzalgorithmen, wie die Metropolis-Kopplung 10 verwendet, die für bessere Konvergenz und Durchmischung sorgen Verwendbare Daten Obwohl bisher im Wesentlichen von DNA-Sequenzdaten die Rede war, können im Prinzip alle Markertypen, von RFLPs über Aminosäuresequenzen bis hin zu morphologischen Matrizen verwendet werden wenn es denn ein statistisches Modell der Evolution des entsprechenden Markertyps gibt Für DNA-Sequenzen gibt es jede Menge mehr oder weniger angemessene Modelle, unter denen zu Wählen eine Kunst für sich ist, auf die ich hier aber nicht weiter eingehen möchte Für die hier besonders interessierenden diskreten morphologischen Marker gibt es ein Modell, Mk, das von Lewis (2001) eingeführt wurde Genau genommen ist es aber weder ein neues noch ein spezielles Modell, da es sich um eine Erweiterung des guten alten Jukes-Cantor Modells (1969) auf andere Fälle als 4 Kategorien (Basen) handelt Das Modell nimmt an, daß sich eine Linie ständig in einem von k möglichen Zuständen befindet, wobei a priori keiner der Zustände als ursprünglich oder abgeleitet gilt Entlang jedes Astes der Phylogenie kann ein sich ein Merkmalszustand zu jedem Zeitpunkt mit gleicher Wahrscheinlichkeit ändern Die Wechselwahrscheinlichkeit von einem Zustand zu einem anderen ist symmetrisch, also von i nach j gleich von j nach i Die Länge eines Astes unter diesem Modell ist definiert als die erwartete Anzahl von Änderungen entlang dieses Astes, also gleich (k-1)at, wobei a die momentane Rate zwischen allen möglichen Merkmalszuständen ist Die k x k Ratenmatrixfür das Mk Modell ist demnach 10 : Die Idee der Metropolis Kopplung (Geyer 1991) ist es, mehrere Ketten zb 4 gleichzeitig laufen zu lassen Eine Kette beprobt dabei die posteriore Verteilung, die auch die kalte Kette (cold chain) genannt wird Die anderen Ketten werden in unterschiedlichem Maße erhitzt, dh ihre posterioren Wahrscheinlichkeiten werden mit einem Wert 0 < b < 1 potenziert In regelmäßigen Abständen wird nun ein regulärer Metropolis-Schritt von der einen zur anderen Kette versucht Der Effekt dieser Erhitzung besteht darin, die Täler zwischen verschiedenen lokalen Optima weniger tief zu machen, damit die Kette leichter zwischen diesen isolierten Gipfeln hin und her springen kann und so die posteriore Wahrscheinlichkeitsverteilung effektiver beprobt werden kann Das kann die Effektivität sowohl bezüglich der Konvergenz als auch der Durchmischung erheblich steigern, weil die unwahrscheinlichen Zwischenzustände nicht wirklich durchlaufen werden müssen Da Metropolis-coupled auch MC abgekürzt werden kann, heißt die Methode dann MCMCMC oder MC 3 Manchmal sind die Bioinformatiker doch echte Schelme

1 k 1 1 1 1 k 1 Q = a 1 1 1 1 k mit Transitionswahrscheinlichkeiten von 1 k 1 kat Pii ( t) = + e k k 1 1 kat Pij ( t) = + e k k und der stationären Verteilung (relative Frequenz der Zustände) von einem Vektor [1/k, 1/k1/k] der Länge k Mit diesem Modell steht der Verwendung von diskreten Morphologischen Daten sowohl in ML als auch Bayes schen Methoden zumindest von statistischen Standpunkt nichts mehr entgegen Partitionierte Daten Da die Berechnung von kombinierten Likelihoods unproblematisch ist, können auch partitionierte Datensätze, wie zb verschiedene Gene, verschiedene Kodonpositionen, aber auch gemischte Datensätze aus zb DNA und morphologischen Daten problemlos in der selben Analyse mit den jeweils angemessenen Modellen und Parametern verwendet werden Schlußwort Mit den obigen Hinweisen sollte es möglich sein, den Einstieg in die entsprechende Literatur zu finden; die dort auftauchenden Formeln sind meistens nur andere Darstellungen oder Erweiterungen von den hier vorgestellten Vor der Durchführung einer eigenen Analyse zb mit MrBayes kann ich den Ratschlag RTFM (Read the f manual) nicht stark genug betonen Die darin verwendeten Begriffe stellen ja jetzt hoffentlich kein Verständnisproblem mehr dar Empfohlene und verwendete Literatur Das ist eine völlig subjektive Auswahl der relevanten Literatur über Bayes sche Methoden zur Phylogenierekonstruktion: Klassiker, Fallstudien, aktuelle Sachen und alles andere als vollständig Sie kann aber auf jeden als Startpunkt für den tieferen Einstieg dienen Altekar G, Dwarkadas S, Huelsenbeck JP, Ronquist F (2004) Parallel metropolis coupled Markov chain Monte Carlo for Bayesian phylogenetic inference Bioinformatics 20, 407-415 Geyer CJ (1991) Markov chain Monte Carlo maximum likelihood In: Computing science and statistics (ed Keramidas EM), pp 156-163 Interface Foundation, Fairfax Station Glenner H, Hansen AJ, Sorensen MV, et al (2004) Bayesian inference of the metazoan phylogeny: A combined molecular and morphological approach Current Biology 14, 1644-1649 Hastings WK (1970) Monte-Carlo Sampling Methods Using Markov Chains and Their Applications Biometrika 57, 97-& Holder M, Lewis PO (2003) Phylogeny estimation: Traditional and Bayesian approaches Nature Reviews Genetics 4, 275-284 Huelsenbeck JP, Bollback JP (2001) Empirical and hierarchical Bayesian estimation of ancestral states Systematic Biology 50, 351-366 Huelsenbeck JP, Larget B, Miller RE, Ronquist F (2002) Potential applications and pitfalls of Bayesian inference of phylogeny Systematic Biology 51, 673-688

Huelsenbeck JP, Rannala B, Masly JP (2000) Accommodating phylogenetic uncertainty in evolutionary studies Science 288, 2349-2350 Huelsenbeck JP, Ronquist F (2001) MRBAYES: Bayesian inference of phylogenetic trees Bioinformatics 17, 754-755 Huelsenbeck JP, Ronquist F, Nielsen R, Bollback JP (2001) Evolution - Bayesian inference of phylogeny and its impact on evolutionary biology Science 294, 2310-2314 Larget B, Simon DL (1999) Markov chain Monte Carlo algorithms for the Bayesian analysis of phylogenetic trees Molecular Biology and Evolution 16, 750-759 Lewis PO (2001a) A likelihood approach to estimating phylogeny from discrete morphological character data Systematic Biology 50, 913-925 Lewis PO (2001b) Phylogenetic systematics turns over a new leaf Trends in Ecology & Evolution 16, 30-37 Lewis PO, Holder MT, Holsinger KE (2005) Polytomies and Bayesian phylogenetic inference Systematic Biology 54, 241-253 Metropolis N, Rosenbluth AW, Rosenbluth MN, Teller AH, Teller E (1953) Equation of State Calculations by Fast Computing Machines Journal of Chemical Physics 21, 1087-1092 Nylander JAA, Ronquist F, Huelsenbeck JP, Nieves-Aldrey JL (2004) Bayesian phylogenetic analysis of combined data Systematic Biology 53, 47-67 Pagel M, Meade A, Barker D (2004) Bayesian estimation of ancestral character states on phylogenies Systematic Biology 53, 673-684 Rannala B, Yang ZH (1996) Probability distribution of molecular evolutionary trees: A new method of phylogenetic inference Journal of Molecular Evolution 43, 304-311 Ronquist F (2004) Bayesian inference of character evolution Trends in Ecology & Evolution 19, 475-481 Ronquist F, Huelsenbeck JP (2003) MrBayes 3: Bayesian phylogenetic inference under mixed models Bioinformatics 19, 1572-1574 Yang ZH, Rannala B (1997) Bayesian phylogenetic inference using DNA sequences: A Markov Chain Monte Carlo method Molecular Biology and Evolution 14, 717-724