Charakter-orientierte Methoden. 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML)

Größe: px
Ab Seite anzeigen:

Download "Charakter-orientierte Methoden. 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML)"

Transkript

1 Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik Molekulare Phylogenie III Bernhard Lieb & Tom Hankeln WS 2007/ Charakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) 2 1

2 Maximum Likelihood The explanation that makes the observed outcome the most likely L = P(D H) Wahrscheinlichkeit der Daten, gegeben eine Hypothese Die Hypothee ist eine Baumtopologie, dessen Astlängen und ein Evolutionsmodell unter dessen Präsenz die Daten evolvierten Zum ersten mal von Cavalli-Sforza and Edwards (1967) für gene frequency data benutzt, später (1981) von Felsenstein für DNA Sequenzen 3 Probability and likelihood Die Wahrscheinlichkeit liegt immer zwischen NIE (0) und SICHER (1). Die bedingte Wahrscheinlichkeit ist die Wahrscheinlichkeit eines Ereignisses A, gegeben das Ereignis B: P(A B)....if probability allows us to predict unknown outcomes based on known parameters P(H D), then likelihood allows us to determine unknown parameters based on known outcomes P(D H). 4 2

3 Probability and likelihood 0,5 0,5 0,5 0,5 0,5 0,25 0,25 0,5 L(p Z ZZ)=0,25 P(ZZ p Z =0,5)=0,25 5 Likelihood Hypothese Ereignisse sind unabhängig Alle Kopfwürfe besitzen gleiche unbekannte Kopfwahrscheinlichkeit p Daten: KKZKZKKZZZ L = P(Daten Hypothese ) => Likelihood L(D H) = pp(1-p)(1-p)p(1-p)pp(1-p)(1-p)(1-p) keine Verteilung, Plot der selben Daten (KKZKZKKZZZ) gegen verschiedene Werte von p (Hypothese) alles wird getestet (gerechnet) => Mit welcher Kopfwahrscheinlichkeit p bekomme ich am ehesten diese Daten? Likelihood 0,0 0,2 0,4 0,6 0,8 1,0 [p] 6 3

4 Maximum Likelihood L = P(data hypothesis) Wahrscheinlichkeit der beobachteten Daten (Sequenzen!) im Lichte der Hypothese (Stammbaum). d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der Annahme des Modells) erklärt. Evolutionsmodell 7 Maximum Likelihood benötigt ein explizites Evolutionsmodell Parameter werden aus Daten + Modell errechnet. Explizite Verbindung Daten + Modell + Stammbaum. aber: schlechtes Modell => schlechter Stammbaum Alternative Stammbäume lassen sich testen => keine Methode extrahiert mehr Information aus den Daten; aber: sehr rechenintensiv 8 4

5 Maximum Likelihood Evolutionsmodelle Für DNA-Sequenzen: => JC, K2P, F81, HKY, REV Für Protein-Sequenzen: => PAM, BLOSUM, JTT, WAG... 9 Maximum Likelihood Seq1 CGAGAC Seq2 AGCGAC Seq3 AGATTA Seq4 GGATAG Frage: Wie hoch ist die Wahrscheinlichkeit, dass der Stammbaum A für die Daten (Sequenzen) unter dem gegebenen Modell verantwortlich ist? A

6 Maximum Likelihood 1 3 OTU 1 CGAGA C OTU 2 AGCGA C OTU 3 AGATT A OTU 4 GGATA A j 2 4 C A?? ACGT ACGT C A 4 x 4 Möglichkeiten Die Wahrscheinlichkeit für eine best. Position j ist die Summe der Einzelwahrscheinlichkeiten aller möglichen ancestralen Nukleotide unter dem gegebenen Modell. 11 ML Beispiel (vereinfacht): Daten: Modell (nicht realistisch): OTU 1 OTU 2 OTU 3 OTU 4 C C A A A T C G A 1 0,1 0,1 0,1 T 1 0,1 0,1 C 1 0,1 G

7 ML - Beispiel: Stammbaum A: C A X,Y = A, T, G, oder C X Y C A ML: Summe der 4 x 4 Einzelwahrscheinlichkeiten 13 ML - Beispiel: Topologie, immer gleich für unterschiedliche Knoten! Stammbaum A1: 2 4 Stammbaum A2: C A C A C A C T C A C A 1 x 1 x 0,1 x 1 x 1 = 0,1 1 x 1 x 0,1 x 0,1 x 0,1 = 0,001 usw... Summe aus 16 möglichen Stammbäumen! 14 7

8 ML - Beispiel: Topologie (andere Topologie)! Aber immer gleich für unterschiedliche Knoten! Stammbaum B1: C C Stammbaum B2: C C C A C T A A A A 0,1 x 0,1 x 1 x 0,1 x 1 = 0,001 1 x 0,1 x 0,1 x 0,1 x 0,1 = 0,0001 usw... usw..usw Summe aus 16 möglichen Stammbäumen! 15 ML - Beispiel: Stammbaum A: Stammbaum B: C A C C C A A A Gesamt"wahrscheinlichkeit": = 0,12427 => logl = -0,90563 Gesamt"wahrscheinlichkeit": = 0,02302 => logl = -1,

9 Maximum Likelihood 1 CGAGAC 2 AGCGAC 3 AGATTA 4 GGATAG i....z Wahrscheinlichkeit des Stammbaums A ist das Produkt aller Wahrscheinlichkeiten für jede Position: ML- Stammbaum = Stammbaum mit größter "Likelihood" A 4 17 Maximum Likelihood Sequence 1 Sequence 2 Sequence 3 Sequence 4 CGAGAA AGCGAA AGATTT GGATAT X,Y = A, T, G, oder C A T C G A 1,0 0,1 0,2 0,4 T 1,0 0,3 0,6 C 1,0 0,1 G 1,0 Berechnen Likelihood einer aller Möglichkeiten vorgegebenen Topologie für eine ist das Produkt aller 1x1x1x0,1x0,1=0,01 Topologie und eine Wahrscheinlichkeiten Position jeder Position 18 9

10 Maximum Likelihood Likelihood für alle anderen Topologien und Vergleich der Likelihoods L = P(data hypothesis) Sequence 1 Sequence 2 Sequence 3 Sequence 4 CGAGAA AGCGAA AGATTT GGATAT A T C G A 1,0 0,1 0,2 0,4 T 1,0 0,3 0,6 C 1,0 0,1 G 1,0 Für n=50 Sequenzen gibt es 2,84x10 76 mögliche Bäume <-> Atome im Universum: ~ Maximum Likelihood - Vorteile Mathematisch gut definiert Funktioniert gut in Simulationsexperimenten Erlaubt explizite Verbindung von Evolutionsmodell und Daten (Sequenzen) "Realistische" Annahmen zur Evolution Verschiedene Modelle und Stammbäume lassen sich testen 20 10

11 Maximum Likelihood - Nachteile Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den Daten überein? 21 Maximum Likelihood Lokale Maxima Bauminsel 22 11

12 Maximum Likelihood Bei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar für n=50 Sequenzen gibt es 2,84x10 76 mögliche Bäume Lösung: "Intelligente Algorithmen" - Quartet puzzling - Bayessche Methode + MCMCMC 23 Was können oder kennen wir!? Alignment Max.Parsimony Evolutionsmodelle Distanz matrix Neigbor Joining Max. Likelihood UPGMA Stammbaum 24 12

13 Die Machbarkeit!? Viele Methoden sind Computer-technisch nicht zu lösen, insbesondere bei vielen Taxa d.h., nicht alle (möglichen) Stammbäume berechenbar L = P(data hypothesis) =5,5 25 Die Machbarkeit!? Intelligente Algorithmen - Quartet puzzling - Bayes sche Methode + MCMCMC 26 13

14 Quartet puzzling Wie löst man ein großes Problem? => Man zerlegt es in viele kleine Teilprobleme. Wenn es aber zu viele kleine Teilprobleme sind? => Man rechnet von der Lösung einiger Teilprobleme auf die Lösung des Gesamtproblems hoch. Quartet puzzling: Errechnung eines Gesamtstammbaums aus vielen Einzelstammbäumen mit jeweils vier Taxa => Quartetten! Programm: Tree-Puzzle (Strimmer & van Haeseler, 1996) 27 The shell 28 14

15 Treepuzzle Drei Schritte 1.) 2.) 3.) Max Likelihood Quartet-puzzle Majority rule consensus 29 Quartet puzzling 1.) OTU 1 4.) OTU 1 OTU 3 OTU 2 OTU 4 2.) OTU 1 OTU 2 OTU 1 OTU 2 3.) OTU 1 OTU 2 OTU 3 OTU 1 OTU 4 OTU 2 OTU 3 OTU 4 OTU 3 => Quartett ist die minimale Einheit zur Lösung eines phylogenetischen Problems

16 Berechnung der Einzelwahrscheinlichkeiten Berechnung: wie bei ML Summe der Likelihoods (eine Position, alle Möglichkeiten) Produkt aller Likelihoods (alle Positionen) Wahrscheinlichkeit für einen Stammbaum lnl= n i= 1 ln L (i) 31 Berechnung der Einzelwahrscheinlichkeiten OTU 1 OTU 2 OTU 3 OTU 4 L1 Größte Likelihood vote and puzzle OTU 1 OTU 2 L2 OTU 3 OTU 4 OTU 1 OTU 2 L3 OTU 4 OTU

17 Puzzling step (für 5. Taxon) ABCDE, ABCDE, ABCDE, ABCDE ABCDE ML Quartette 33 Puzzling step für 5 Taxa 34 17

18 Puzzling step Hinzufügen der restlichen Sequenzen an den besten Vierer-Baum über Nachbarbeziehungen viele viele viele intermediäre Bäume Schon wieder nicht möglich => häufige Wiederholung der Puzzling steps mit verschiedenen Ausgangstopologien 35 Quartet puzzling Scorpion 95 Vogelspinne Tausendfüsser 66 Doppelfüsser Hummer... "Puzzling" = Basteln eines kompletten Stammbaums Flohkrebs Drosophila Heuschrecke = Wie häufig stehen die OTUs in Quartetten zusammen? Je höher dieser Wert ist, desto besser ist die entsprechende Topologie (alles, was rechts des Knotenpunkts steht) abgesichert (~ "Bootstrap"- Unterstützung)

19 Vorteile: Quartet puzzling Relativ schnelle Methode um ML-Stammbaum zu konstruieren. Phylogenetischer Informationsgehalt der Sequenzen lässt sich einfach bestimmen => "Likelihood mapping". Nachteile: Wenn Anzahl der OTUs groß, werden nicht alle möglichen Quartette berechnet, sondern aus einem Teil der Daten der komplette Stammbaum konstruiert. Quartette nicht immer aufgelöst, d.h. Topologie nicht immer eindeutig Unterstützungswerte wahrscheinlichkeitstheoretisch nicht eindeutig definiert. 37 Maximum Likelihood "Wahrscheinlichkeit" (Likelihood) der Sequenzdaten, gegeben die Topologie des Stammbaums und ein Evolutionsmodell. Sequenz 1 Sequenz 4 Sequenz 2 Sequenz 3 Sequenz 5 + Modell (PAM, BLOSUM...) Seq1 KIADKNFTYRHHNQLV Seq2 KVAEKNMTFRRFNDII Seq3 KIADKDFTYRHW-QLV Seq4 KVADKNFSYRHHNNVV Seq5 KLADKQFTFRHH-QLV Anders formuliert: Welcher Stammbaum (und welches Evolutionsmodell) erklärt am besten meine Sequenzdaten? L = P(data tree) 38 19

20 Wahrscheinlichkeit nach Bayes Reverend Thomas Bayes ( ) (presbyterianischer Pfarrer) Wahrscheinlichkeitsrechnungen nach Bayes erst seit ein paar Jahren in der Statistik akzeptiert. Seit den 90er Jahren auch Anwendung in der molekularen Phylogenie. 39 Wahrscheinlichkeit nach Bayes Die Wahrscheinlichkeit ("posterior propability") beruht auf einem anfänglichen Evolutionsmodell und neuen Erkenntnissen nach einem Experiment. posterior propability P(H D) prior propability P(H) 40 20

21 Bayes Bayes sche Statistik beruht auf dem Satz von Bayes. A ist die Hypothese. B ist das beobachtete Ereignis. P(A) ist die A-Priori-Wahrscheinlichkeit von A. P(B A) ist die bedingte Wahrscheinlichkeit von B, unter der Bedingung dass die Hypothese A wahr ist (als Funktion von A nennt man sie die Likelihood-Funktion): P(B) ist die unbedingte Wahrscheinlichkeit von B. P(A B) ist die A-Posteriori-Wahrscheinlichkeit von A gegeben B. An Essay towards solving a Problem in the Doctrine of Chances. By the late Rev. Mr. Bayes, communicated by Mr. Price, in a letter to John Canton, M. A. and F. R. S. 41 Bayes 42 21

22 Wahrscheinlichkeit nach Bayes Posteriore Wahrscheinlichkeit für ein Ereignis A (tree) unter der Bedingung, dass B (alignment) auftritt. P( tree data) Die Wahrscheinlichkeit für ein Ereignis B (alignment) unter der Bedingung, dass A (tree) auftritt (Likelihood) A-Priori- Wahrscheinlichkeit für ein Ereignis A (tree) P ( data tree) P ( tree) = P ( data) A-Priori-Wahrscheinlichkeit für ein Ereignis B (alignment) Die Wahrscheinlichkeit eines Stammbaums, gegeben die Sequenzdaten, enspricht dem Produkt aus der Wahrscheinlichkeit der Daten gegeben den Stammbaum (likelihood) und der Wahrscheinlichkeit des Stammbaums (prior probability), geteilt durch die Wahrscheinlichkeit der Daten (Randbedingungen). 43 Randbedingungen P ( A B) P ( B A) = P ( B) P ( A) = ( B) P(B A) P(A) P = B P(B A 1 )P(A 1) + P(B A2)P(A2 )... P(B) sind die Randbedingungen der Daten. D.h., es werden ALLE möglichen Werte von B berechnet. Sie geben, ebenso wie P(A), das "Vorabwissen" an, welches man berücksichtigt

23 Bayes 45 Beispiel: Ist mein Würfel gezinkt? 90 ungezinkte Würfel 10 gezinkte Würfel Wurf ungezinkt gezinkt P(A) Wie gross ist die Wahrscheinlichkeit, dass ich einen gezinkten Würfel ziehe (also )? => 1/

24 Beispiel: Ist mein Würfel gezinkt? Nun ziehe ich einen Würfel und würfle damit zweimal. Das Ergebnis ist: Frage: Ist mein Würfel gezinkt? 47 Beispiel: Ist mein Würfel gezinkt? Bayes: P(gezinkt ) = P( -> likelihood -> prior P( gezinkt) 1/10 gezinkt) 1/10 + P( ungezinkt) 9/10 -> alle Möglichkeiten Wurf ungezinkt gezinkt P(gezinkt ) 0,2137 prior posterior 0,1 0,

25 Mehr Daten: Ist mein Würfel gezinkt? Nun ziehe ich einen Würfel und würfle damit 20x. Das Ergebnis ist: Wurf Häufigkeit Bayes: P (gezinkt D) = 0,979 P (ungezinkt D) = 0,021 vorher: P(gezinkt ) 0,2137 prior posterior 0,1 0, Randbedingungen P ( A B) P ( B A) = P ( B) P ( A) = ( B) P(B A) P(A) P = B P(B A 1 )P(A 1) + P(B A2)P(A2 )... P(B) sind die Randbedingungen der Daten. D.h., es werden ALLE möglichen Werte von B berechnet. Sie geben, ebenso wie P(A), das "Vorabwissen" an, welches man berücksichtigt

26 Wahrscheinlichkeit nach Bayes Bayes sucht die Bäume mit den höchsten posterior probabilities. P ( A B) = P ( B A) P ( A) P ( B) = ( B) P(B A) P(A) P = B P(B A 1 )P(A 1) + P(B A2)P(A2 )... Nenner: Summation über alle denkbaren Hypothesen (Bäume) => MCMCMC Metropolis-Coupled Markov Chain Monte Carlo 51 Wahrscheinlichkeit nach Bayes MC 3 - MCMCMC - Metropolis-Coupled Markov Chain Monte Carlo Zufällige Stichprobe aus der posterior probability Verteilung ziehen Stichprobe muss groß (genug) sein Prozentsatz mit dem Clade bei den Bäumen auftritt wird als Wahrscheinlichkeit interpretiert, dass Clade korrekt ist Metropolis-Coupled Markov Chain Monte Carlo 52 26

27 Andrey (Andrei) Andreyevich Markov Russischer Mathematiker ( ) Ein stochastischer Prozess besitzt die sogenannte Markov Eigenschaft, wenn: Die bedingte Wahrscheinlichkeitsverteilung zukünftiger Zustände, bei gegebenen momentanten Status und allen vergangenen Ereignissen NUR von dem momentanen Status abhängt und NICHT von den vergangenen 53 Wahrscheinlichkeit nach Bayes MC 3 - MCMCMC - Metropolis-Coupled Markov Chain Monte Carlo Zufällige Stichprobe aus der posterior probability -Verteilung ziehen Stichprobe muss groß (genug) sein Prozentsatz mit dem eine Gruppierung ( Clade ) bei diesen zufälligen Bäumen auftritt wird als Wahrscheinlichkeit interpretiert, dass Clade korrekt ist Markov Chain Ziel ist es, Wahrscheinlichkeiten für das Eintreten zukünftiger Ereignisse anzugeben Im Falle einer Markow-Kette erster Ordnung wird hierfür sogar nur Kenntnis über den momentanen Zustand benötigt (Gedächtnislosigkeit). Auf lange Sicht pendelt sich Wahrscheinlichkeit auf einen Wert ein => Prozentsatz mit dem Clade in den Bäumen auftritt 54 27

28 Wahrscheinlichkeit nach Bayes MC 3 - MCMCMC - Metropolis-Coupled Markov Chain Monte Carlo Zufällige Stichprobe aus der posterior probability -Verteilung ziehen Stichprobe muss groß (genug) sein Prozentsatz mit dem eine Gruppierung ( Clade ) bei diesen zufälligen Bäumen auftritt wird als Wahrscheinlichkeit interpretiert, dass Clade korrekt ist Markov Chain Monte Carlo Zufallselement - die Bank gewinnt auf lange Sicht immer Die Masse machts - Wahrscheinlichkeit falscher Rückschlüsse sinkt mit zunehmender Generationszahl Kurz gesagt, was bedeutet MCMC? Viele Zufallsproben aus der posterioren Wahrsscheinlichkeitsverteilung (Bäume) 55 nehmen und Rückschlüsse ziehen Wahrscheinlichkeit nach Bayes MC 3 - MCMCMC - Metropolis-Coupled Markov Chain Monte Carlo Q Metropolis-Hastings-Green-Algorithmus Vorgegebener (Zufalls-)Baum T i mit Topologie, Astlängen und Evolutionsmodell posterior probabilities Q 1 Q < 1 Neuer Baum, neue Parameter Akzeptieren oder Verwerfen? = Neuen Baum akzeptieren! P ( B Ti) P ( Ti) P( D) P( B Tj) P ( Tj) P( D) X X P( B Ti) P( Ti) P ( B Tj) P( Tj) Generation einer Zufallszahl (0-1) Z< Q, neuen Baum akzeptieren, sonst alter Baum 56 = 28

29 Wahrscheinlichkeit nach Bayes MC 3 - MCMCMC - Metropolis-Coupled Markov Chain Monte Carlo Metropolis-Hastings-Green-Algorithmus Q posterior probabilities = P( B Ti) P( Ti) P( B Tj) P( Tj) likelihoods priors P( T T ) P( T T ) j i x shape parameter, Astlängen.. i j Änderungsvorschläge Lösung DAS PROBLEM 1 P ( B T ) = P ( B tree, length, substitution, α shape) 57 Wahrscheinlichkeit nach Bayes MC 3 - MCMCMC - Metropolis-Coupled Markov Chain Monte Carlo Metropolis-Hastings-Green-Algorithmus Q Q < 1 1 Neuen Baum akzeptieren! Generation einer Zufallszahl (0-1) Z< Q, neuen Baum akzeptieren, sonst alter Baum Q Q posterior probabilities posterior probabilities = = 0,5 0,1 0,1 0,5 = = 5 0,2 neuen Baum akzeptieren 0,1 behalten neue Zufallszahl 0,3 neuer Baum Im Gegensatz zur Maximum likelihood kann hier likelihood und 58 29

30 MCMC (Markov Chain Monte Carlo) Wahrscheinlichkeitsdichte Problem: Wir erwarten keine diskrete Wahrscheinlichkeit, sondern eine Wahrscheinlichkeitsdichte! Beispiel: Man werfe eine Münze 100x. Es ist unwahrscheinlich, dass genau jeweils 50x "Kopf" und 50x "Zahl" herauskommen. 90 z.b. Ergebnis von 100 x 100 Münzwürfen. Darstellung z.b. für Ergebnis "Zahl". 100x MCMC (Markov Chain Monte Carlo) Problem: Wie ermittelt man die Verteilung der Wahrscheinlichkeiten mit einer endlichen Anzahl von Versuchen? Lösung: Ermittlung der Wahrscheinlichkeitsdichte mittels MCMC (Markov Chain Monte Carlo) Simulation => nur einige Wahrscheinlichkeiten werden wirklich ermittelt, die Verteilung der Wahrscheinlichkeiten wird hochgerechnet

31 Maximum Likelihood Lokale Maxima 61 MCMC (Markov Chain Monte Carlo) 62 31

32 Start, sample and burnin MrBayes Man startet mit einen beliebigen Stammbaum durch "burnin" werden "frühe" Ergebnisse (Stammbäume) verworfen, und über alle anderen gesamplet. => Wie gut stimmen die jeweiligen Bäume überein? Entspricht ~ Bootstrapping (kommt noch). wird verworfen 63 How to get up and get over?? 64 32

33 Wahrscheinlichkeit nach Bayes MC 3 - MCMCMC - Metropolis-Coupled Markov Chain Monte Carlo Zufällige Stichprobe aus der posterior probability -Verteilung ziehen Stichprobe muss groß (genug) sein Prozentsatz mit dem eine Gruppierung ( Clade ) bei diesen zufälligen Bäumen auftritt wird als Wahrscheinlichkeit interpretiert, dass Clade korrekt ist Metropolis-Coupled => mehrere MCMC laufen parallel und kommunizieren 65 MCMCMC (Metropolis coupled Markov Chain Monte Carlo) Landschaft aus Sicht der "cold chain". Landschaft aus Sicht der "heated chains"

34 MCMCMC (Metropolis coupled Markov Chain Monte Carlo) MC 3 läßt mehrere "chains" suchen Die "cold chain" zählt, die anderen sind "heated chains" Landschaft wird für heated chain "geebnet" => Übergang zu einem anderen Optimum ist leichter möglich. 67 Wahrscheinlichkeit nach Bayes Vorteile: Vorabinformation wird berücksichtigt. Sehr schnelle Lösung komplexer phylogenetischer Probleme möglich! Diskrete Wahrscheinlichkeitswerte werden für jeden Ast gegeben. Nachteile: Vorabinformation wird berücksichtigt. Wahrscheinlichkeitstheoretisch umstritten

35 Past and next Molekularphylogenetische Methoden: - Quartet puzzling - Bayesian approach Test von Stammbäumen - Bootstrapping - Likelihood tests 69 Statistische Auswertung.oder. Wie gut ist mein Stammbaum? häufigste Methode ist Bootstrapping 70 35

36 Bayes Faktor Bayes Faktor (nach Kass & Raftery (1995) entspricht LRT) Vergleich zweier Modelle M i und M j : P( D Mi) B ij = P ( D Mj) Kriterien nach Kass and Raftery (1995): B ij < 1, negative (support for M j ) 1 < B ij < 3, barely worth mentioning 3 < B ij < 12, positive 12 < B ij < 150, strong and B ij > 150, very strong. Vorteil: Nested und non-nested data kann verglichen werden 71 Bootstrapping Ziehen MIT Zurücklegen 72 36

37 Bootstrapping Orginalsequenzen Position Sequence A A A A A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G Pseudosample 1 Position Sequence A A A A A G G G C C B A G G C G G C C C C A G G T A A C C C D A G G G A A C C C Pseudosample 2 Position Sequence A A A A A A T G G G B A A A C C T G G G C A A A T T T C C C D A A A G G T C C C z.b. 100 Wiederholungen A B C D A C D B 100 Stammbäume 73 Bootstrapping Majority-rule consensus tree Taxon 1 Taxon 2 Taxon 3 Taxon 8 Taxon 9 Taxon 4 Taxon 5 Taxon 6 Taxon Freq ** ** ** **** ****** ** ****.* ***** ******* **...* **...*

38 Bootstrapping STRICT CONSENSUS -> MAJORITY-RULE CONSENSUS TREE Taxon 8 Taxon 1 Taxon 9 Taxon Taxon 4 Taxon 3 Taxon 5 Taxon 6 Taxon 8 Taxon Taxon 9 ein replicate zwei Topologien 84 Taxon 4 Taxon 8 40/65 Taxon 5 Taxon Taxon 4 Taxon Taxon 5 Taxon 7 Taxon 6 Taxon 7 FWR: FREQUENCY IN REPLICATES (geringere Gewichtung, Einbeziehung aller Bäume) 75 Jackknife Prinzip gleich zu bootstrap allerdings werden zufällig Daten gelöscht Unterstützungswerte ensprechen sich aber nicht Bootstrap-Wert in % entspricht jacknife -Wert bei ca. 40 % gelöschte Daten 76 38

39 Likelhood mapping Berechnung der posterior probability (P i ) aller Bäume P i summiert sich auf 1 (irgendeine Topologie muss sein) 3 Ecken repräsentieren die 3 Topologien Je näher P an einer der Ecke desto stärker wird dieser Baum favorisiert Plaxip Calloc Nuttal Lepitoc 64 Nuttall Lorica Stenos 58 Lepido Lorice 62 Onitho 60 Tonici AfH 61 Notopl 66 Crypto 0.1 NpH 77 Split Tree 78 39

40 Phylogenetic methods Schwarzspitzenhai Evolutionary relationships among unique mtdna haplotypes were reconstructed using the maximum- parsimony (MP) optimality criterion with all mutations weighted equally and indels treated as a fifth state. A two-nucleotide indel at positions 1045 and 1046 was treated as one event by omitting the second nucleotide from analyses. Heuristic tree searches were performed for all MP analyses with 1000 random-addition replications, saving a maximum of 1000 trees per replicate, and tree- bisection reconnection (TBR) branch swapping. Statistical support for nodes was determined via 1000 nonparametric bootstrap replicates (Felsenstein 1985) with 10 random-addition sequences per replicate, saving a maximum of 1000 trees per replicate, and nearest neighbour interchange (NNI) branch swapping. Haplotype trees were initially rooted using blacktip reef shark ( C. melanopterus ) and Australian blacktip shark, C. tilstoni, sequences as outgroups. Although the relationships of species within the genus Carcharhinus are not fully resolved (Lavery 1992; Naylor 1992), C. melanopterus and C. tilstoni were the closest relatives to C. limbatus for which tissue samples were available. C. melanopterus was used as the sole outgroup after C. limbatus was found to 79 be paraphyletic to C. tilstoni in the MP analyses. Methoden im Vergleich maximal support (Raubbeutler) nach: Gene und Stammbäume, Knoop und Müller Allg Trend: support MP/NJ < ML, Bayes 80 40

41 Die "Molekulare Uhr" Relativer Ratentest: Molecular clock-hypothese: XA = XB Außengruppe C als Bezug AC BC ~ 0 AC/BC ~ 1 X A B C = Außengruppe 81 Die "Molekulare Uhr" 343 Vetigastropoda Protobranchia fossil records 220 Decabrachia Octobrachia Tetrabranchiata million years 82 41

42 Bedeutung der molekularen Phylogenie für die Systematik Frühere Vorstellungen zur Evolution und zu den Verwandtschaftsverhältnissen der Organismen beruhten auf morphologischen Kriterien Die molekulare Phylogenie hat viele der früheren Vorstellungen in den letzten ~10 Jahren über den Haufen geworfen, aber die meisten Hypothesen bestätigt. Am interessantesten sind natürlich die "revolutionären" Vorstellungen, z.b.: - Ecdysozoa - Lophotrochozoa - Afrotheria

43 Ecdysozoa - Lophotrochozoa 85 Ecdysozoa - Lophotrochozoa Glenner et al., 2005 Curr Biol 86 43

44 87 Afrotheria Microgale longicaudata Rüssel- springer Elefanten Erdferkel Borstenigel Schliefer Seekühe 88 44

45 Afrotheria Afrotheria vor > 100 Mio Jahren in Afrika entstanden! Auseinanderbrechen des südlichen Gondwana (Kreide) 89 Konvergente Entwicklung!? snail-like? 90 45

46 91 46

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Ringvorlesung Biologie Sommer 07 Burkhard Morgenstern Institut für Mikrobiologie und Genetik Abteilung für Bioinformatik Goldschmidtstr. 1 Online Materialien zur Ringvorlesung:

Mehr

Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz

Fernstudium Molekulare Phylogenie Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld Institut für Zoologie Universität Mainz 1 Ziel des Kurses Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir

Mehr

Welche Alignmentmethoden haben Sie bisher kennengelernt?

Welche Alignmentmethoden haben Sie bisher kennengelernt? Welche Alignmentmethoden haben Sie bisher kennengelernt? Was heißt optimal? Optimal = die wenigsten Mutationen. Sequenzen bestehen aus Elementen (z.b. Aminosäuren oder Nukleotide). Edit Distanzen sind

Mehr

Molekulare Phylogenie

Molekulare Phylogenie Molekulare Phylogenie Grundbegriffe Methoden der Stammbaum-Rekonstruktion Thomas Hankeln, Institut für Molekulargenetik SS 2010 Grundlagen der molekularen Phylogenie Evolution äußert sich durch Veränderungen

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe

Mehr

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren

Mehr

Molekulare Phylogenie II

Molekulare Phylogenie II WS 2016/2017 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Molekulare Phylogenie II 1 Stammbaumerstellung 1. Matrix-orientierte Methoden UPGM (Unweighted

Mehr

Bayesian updating in natural hazard risk assessment

Bayesian updating in natural hazard risk assessment International Forum on Engineering Decision Making, Third IFED Forum, Shoal Bay, Australia, 12-15 15 December 2007 1/23 Bayesian updating in natural hazard risk assessment Mathias Graf, Kazuyoshi Nishijima,

Mehr

Statistics, Data Analysis, and Simulation SS 2015

Statistics, Data Analysis, and Simulation SS 2015 Mainz, June 11, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler

Mehr

Bayes sche Phylogenierekonstruktion mit molekularen und morphologischen Merkmalen

Bayes sche Phylogenierekonstruktion mit molekularen und morphologischen Merkmalen Bayes sche Phylogenierekonstruktion mit molekularen und morphologischen Merkmalen Markus Pfenninger Institut für Ökologie, Evolution & Diversität, JWGoethe-Universität, BioCampus Siesmayerstraße, 60054

Mehr

Beurteilende Statistik

Beurteilende Statistik Beurteilende Statistik Wahrscheinlichkeitsrechnung und Beurteilende Statistik was ist der Unterschied zwischen den beiden Bereichen? In der Wahrscheinlichkeitstheorie werden aus gegebenen Wahrscheinlichkeiten

Mehr

Methoden der Statistik Markov Chain Monte Carlo Methoden

Methoden der Statistik Markov Chain Monte Carlo Methoden Methoden der Statistik Markov Chain Monte Carlo Methoden Humboldt-Universität zu Berlin 08.02.2013 Problemstellung Wie kann eine Zufallsstichprobe am Computer simuliert werden, deren Verteilung aus einem

Mehr

Grundbegriffe der Wahrscheinlichkeitsrechnung

Grundbegriffe der Wahrscheinlichkeitsrechnung Algorithmen und Datenstrukturen 349 A Grundbegriffe der Wahrscheinlichkeitsrechnung Für Entwurf und Analyse randomisierter Algorithmen sind Hilfsmittel aus der Wahrscheinlichkeitsrechnung erforderlich.

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Der Metropolis-Hastings Algorithmus

Der Metropolis-Hastings Algorithmus Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Markov-Chain Monte-Carlo Verfahren Übersicht 1 Einführung

Mehr

Statistics, Data Analysis, and Simulation SS 2015

Statistics, Data Analysis, and Simulation SS 2015 Mainz, May 12, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler

Mehr

Bayesian Networks. Syntax Semantics Parametrized Distributions Inference in Bayesian Networks. Exact Inference. Approximate Inference

Bayesian Networks. Syntax Semantics Parametrized Distributions Inference in Bayesian Networks. Exact Inference. Approximate Inference Syntax Semantics Parametrized Distributions Inference in Exact Inference Approximate Inference enumeration variable elimination stochastic simulation Markov Chain Monte Carlo (MCMC) 1 Includes many slides

Mehr

Population und Stichprobe: Wahrscheinlichkeitstheorie

Population und Stichprobe: Wahrscheinlichkeitstheorie Population und Stichprobe: Wahrscheinlichkeitstheorie SS 2001 4. Sitzung vom 15.05.2001 Wahrscheinlichkeitstheorie in den Sozialwissenschaften: Stichprobenziehung: Aussagen über Stichprobenzusammensetzung

Mehr

Allgemeine Aufgabenstellung. Ziele

Allgemeine Aufgabenstellung. Ziele Allgemeine Aufgabenstellung Sie (s)wollen die Phylogenie der Vertebraten mit Hilfe molekulare Daten ergründen. Insbesondere interessiert Sie die Verwandtschaft der Primaten; aber auch tiefere Verzweigungen

Mehr

BZQ II: Stochastikpraktikum

BZQ II: Stochastikpraktikum BZQ II: Stochastikpraktikum Block 5: Markov-Chain-Monte-Carlo-Verfahren Randolf Altmeyer February 1, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden

Mehr

Stochastik Praktikum Markov Chain Monte Carlo Methoden

Stochastik Praktikum Markov Chain Monte Carlo Methoden Stochastik Praktikum Markov Chain Monte Carlo Methoden Humboldt-Universität zu Berlin 14.10.2010 Problemstellung Wie kann eine Zufallsstichprobe am Computer simuliert werden, deren Verteilung aus einem

Mehr

Bioinformatik für Lebenswissenschaftler

Bioinformatik für Lebenswissenschaftler Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 11. Hiden Markov Models & Phylogenien Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen

Mehr

Übungen mit dem Applet Zentraler Grenzwertsatz

Übungen mit dem Applet Zentraler Grenzwertsatz Zentraler Grenzwertsatz 1 Übungen mit dem Applet Zentraler Grenzwertsatz 1 Statistischer Hintergrund... 1.1 Zentraler Grenzwertsatz... 1. Beispiel Würfeln... 1.3 Wahrscheinlichkeit und relative Häufigkeit...3

Mehr

Einführung in die Bayes-Statistik. Helga Wagner. Ludwig-Maximilians-Universität München WS 2010/11. Helga Wagner Bayes Statistik WS 2010/11 1

Einführung in die Bayes-Statistik. Helga Wagner. Ludwig-Maximilians-Universität München WS 2010/11. Helga Wagner Bayes Statistik WS 2010/11 1 Einführung in die Bayes-Statistik Helga Wagner Ludwig-Maximilians-Universität München WS 2010/11 Helga Wagner Bayes Statistik WS 2010/11 1 Organisatorisches Termine: Montag: 16.00-18.00 AU115 Dienstag:

Mehr

Fernstudium "Molekulare Evolution" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz

Fernstudium Molekulare Evolution Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz Fernstudium "Molekulare Evolution" ernhard Lieb Michael Schaffeld Institut für Zoologie Universität Mainz 1 Ziel des Kurses Wie erhalte ich aus meinen (Sequenz-) aten einen Stammbaum, und was sagt mir

Mehr

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (2) 1 / 23 Gliederung 1 Zusammenhang zwischen Graphenstruktur

Mehr

Einführung in die Angewandte Bioinformatik: Phylogenetik und Taxonomie

Einführung in die Angewandte Bioinformatik: Phylogenetik und Taxonomie Einführung in die Angewandte Bioinformatik: Phylogenetik und Taxonomie 24.06.2010 Prof. Dr. Sven Rahmann 1 Phylogenetik: Berechnung phylogenetischer Bäume Phylogenetik (phylum = Stamm): Rekonstruktion

Mehr

Übungsaufgaben Lösungen

Übungsaufgaben Lösungen Übungsaufgaben Lösungen Stochastische Matrizen, Markov-Prozesse MV5.1 Eine N N-Matrix P heißt stochastisch, wenn ihre Matrixelemente nicht-negativ sind und alle Zeilensummen 1 ergeben. In Formeln: P ij

Mehr

Einführung in die Wahrscheinlichkeitsrechnung

Einführung in die Wahrscheinlichkeitsrechnung Einführung in die Wahrscheinlichkeitsrechnung Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) Wahrscheinlichkeitsrechnung

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Wahrscheinlichkeit und Zufallsvorgänge Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

2.1 Importance sampling: Metropolis-Algorithmus

2.1 Importance sampling: Metropolis-Algorithmus Kapitel 2 Simulationstechniken 2.1 Importance sampling: Metropolis-Algorithmus Eine zentrale Fragestellung in der statistischen Physik ist die Bestimmung von Erwartungswerten einer Observablen O in einem

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr

P(B A j )P(A j ) n. P(A j ) =

P(B A j )P(A j ) n. P(A j ) = Universität Potsdam Institut für Physik und Astronomie VL: Udo Schwarz Ü: Udo Schwarz Scientific Computing, SS 2011 http://www.stat.physik.uni-potsdam.de/cp10 sc@physik.uni-potsdam.de Übungsblatt 8 Abgabe

Mehr

Wahrscheinlichkeitsrechnung und Statistik

Wahrscheinlichkeitsrechnung und Statistik 1. Vorlesung - 7.10.2016 Im Alltag... Laut den meteorologischen Vorhersagen wird es morgen regnen. Ob ich riskiere und die Wette verlieren werde? Ich werde mit Sicherheit gewinnen! Ist das wirklich unmöglich?

Mehr

Primer: Inferenzstatistik 1.0

Primer: Inferenzstatistik 1.0 : 1.0 Dr. Malte Persike persike@uni-mainz.de methodenlehre.com twitter.com/methodenlehre methodenlehre.com/g+ iversity.org/schoolinger Inhalte der nächsten Minuten Die Frage aller Fragen: Ist etwas groß?

Mehr

Algorithmische Bioinformatik II WS2004/05 Ralf Zimmer Part III Probabilistic Modeling IV Bayesian Modeling: Algorithms, EM and MC Methods HMMs

Algorithmische Bioinformatik II WS2004/05 Ralf Zimmer Part III Probabilistic Modeling IV Bayesian Modeling: Algorithms, EM and MC Methods HMMs Algorithmische Bioinformatik II WS2004/05 Ralf Zimmer Part III Probabilistic Modeling IV Bayesian Modeling: Algorithms, EM and MC Methods HMMs Ralf Zimmer, LMU Institut für Informatik, Lehrstuhl für Praktische

Mehr

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg Prof. Markus Schumacher Physikalisches Institut Westbau 2 OG Raum 008 Telefonnummer 07621 203 7612 E-Mail:

Mehr

Mathematik für Biologen

Mathematik für Biologen Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 10. November 2010 1 Bedingte Wahrscheinlichkeit Satz von der totalen Wahrscheinlichkeit Bayessche Formel 2 Grundprinzipien

Mehr

Wahrscheinlichkeitstheorie 2

Wahrscheinlichkeitstheorie 2 Wahrscheinlichkeitstheorie 2 Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 19.05.2011 Caroline Sporleder Wahrscheinlichkeitstheorie 2 (1) Wiederholung (1):

Mehr

Simulationsmethoden in der Bayes-Statistik

Simulationsmethoden in der Bayes-Statistik Simulationsmethoden in der Bayes-Statistik Hansruedi Künsch Seminar für Statistik, ETH Zürich 6. Juni 2012 Inhalt Warum Simulation? Modellspezifikation Markovketten Monte Carlo Simulation im Raum der Sprungfunktionen

Mehr

Evolutionary Trees: Distance Based

Evolutionary Trees: Distance Based Evolutionary Trees: Distance Based 1 Buftea Alexandru Laut der Evolutionstheorie findet in allen Organismen eine langsame Änderung statt (Evolution). Ein evolutionärer Baum, auch phylogenetischer Baum

Mehr

4. Grundzüge der Wahrscheinlichkeitsrechnung

4. Grundzüge der Wahrscheinlichkeitsrechnung 4. Grundzüge der Wahrscheinlichkeitsrechnung Dr. Antje Kiesel Institut für angewandte Mathematik WS 2010/2011 In der beschreibenden Statistik haben wir verschiedene Kennzahlen (Statistiken) für Stichproben

Mehr

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at-

Mehr

Allgemeine diskrete Wahrscheinlichkeitsräume I

Allgemeine diskrete Wahrscheinlichkeitsräume I 6 Diskrete Wahrscheinlichkeitsräume Allgemeine diskrete Wahrscheinlichkeitsräume 6.3 Allgemeine diskrete Wahrscheinlichkeitsräume I Verallgemeinerung von Laplaceschen Wahrscheinlichkeitsräumen: Diskrete

Mehr

Allgemeine diskrete Wahrscheinlichkeitsräume II. Beispiel II. Beispiel I. Definition 6.3 (Diskreter Wahrscheinlichkeitsraum)

Allgemeine diskrete Wahrscheinlichkeitsräume II. Beispiel II. Beispiel I. Definition 6.3 (Diskreter Wahrscheinlichkeitsraum) Allgemeine diskrete Wahrscheinlichkeitsräume I Allgemeine diskrete Wahrscheinlichkeitsräume II Verallgemeinerung von Laplaceschen Wahrscheinlichkeitsräumen: Diskrete Wahrscheinlichkeitsräume Ω endlich

Mehr

Bayessche Statistik-Denken in Wahrscheinlichkeit

Bayessche Statistik-Denken in Wahrscheinlichkeit Bayessche Statistik-Denken in Wahrscheinlichkeit Habe ich Aids? Test fällt bei 98% der Aids kranken positiv aus. P(positiv Aids)=0.98 Test fällt bei 97% der gesunden negativ aus. P(negativ kein Aids)=0.97

Mehr

Wahrscheinlichkeitsrechnung und Statistik

Wahrscheinlichkeitsrechnung und Statistik 1. und 2. Vorlesung - 2017 Im Alltag... Laut den meteorologischen Vorhersagen wird es morgen regnen. Ob ich riskiere und die Wette verlieren werde? Ich werde mit Sicherheit gewinnen! Ist das wirklich unmöglich?

Mehr

Satz von der totalen Wahrscheinlichkeit

Satz von der totalen Wahrscheinlichkeit htw saar 1 Satz von der totalen Wahrscheinlichkeit Sei (Ω, P) ein Wahrscheinlichkeitsraum, und B 1,, B n seien paarweise disjunkte Ereignisse mit B i = Ω. Für jedes Ereignis A gilt dann: P(A) = P(A B 1

Mehr

Mathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1

Mathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1 Mathematische Grundlagen III Informationstheorie 20 Juni 20 / Informationstheorie Ein Gerüst, um über den Informationsgehalt von (linguistischen) Ereignissen nachzudenken Einige Beispiele für Anwendungen:

Mehr

6: Diskrete Wahrscheinlichkeit

6: Diskrete Wahrscheinlichkeit Stefan Lucks Diskrete Strukturen (WS 2009/10) 219 6: Diskrete Wahrscheinlichkeit 6: Diskrete Wahrscheinlichkeit Stefan Lucks Diskrete Strukturen (WS 2009/10) 220 Wahrscheinlichkeitsrechnung Eines der wichtigsten

Mehr

Einführung in die Wahrscheinlichkeitsrechnung

Einführung in die Wahrscheinlichkeitsrechnung Marco Cattaneo Institut für Statistik Ludwig-Maximilians-Universität München Sommersemester 2011 1. Wahrscheinlichkeitsrechnung 2. Diskrete Zufallsvariable 3. Stetige Zufallsvariable 4. Grenzwertsätze

Mehr

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments 73 Hypothesentests 73.1 Motivation Bei Hypothesentests will man eine gewisse Annahme über eine Zufallsvariable darauf hin überprüfen, ob sie korrekt ist. Beispiele: ( Ist eine Münze fair p = 1 )? 2 Sind

Mehr

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse Karlsruher Institut für Technologie Ulrich Husemann Institut für Experimentelle Kernphysik, Karlsruher Institut für Technologie

Mehr

Grundlagen der Bioinformatik Assignment 3: Hierarchical Clustering SS Yvonne Lichtblau/Johannes Starlinger

Grundlagen der Bioinformatik Assignment 3: Hierarchical Clustering SS Yvonne Lichtblau/Johannes Starlinger Grundlagen der Bioinformatik Assignment 3: Hierarchical Clustering SS 2017 Yvonne Lichtblau/Johannes Starlinger Presentations Assignment 2 Yvonne Lichtblau Übungen Grundlagen der Bioinformatik SS 2017

Mehr

Wirtschaftsstatistik I [E1]

Wirtschaftsstatistik I [E1] 040571-1 WMS: Wirtschaftsstatistik 1 :: WiSe07/08 Wirtschaftsstatistik I [E1] Schwab, Harald 1 harald.schwab@univie.ac.at http://homepage.univie.ac.at/harald.schwab October 7, 2007 1 Sprechstunde: MO 17-18h

Mehr

8. Konfidenzintervalle und Hypothesentests

8. Konfidenzintervalle und Hypothesentests 8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Aufgabe 1. Übung Wahrscheinlichkeitsrechnung Markus Kessler Seite 1 von 8. Die Ereignisse A, B und C erfüllen die Bedingungen

Aufgabe 1. Übung Wahrscheinlichkeitsrechnung Markus Kessler Seite 1 von 8. Die Ereignisse A, B und C erfüllen die Bedingungen Ü b u n g 1 Aufgabe 1 Die Ereignisse A, B und C erfüllen die Bedingungen P(A) = 0. 7, P(B) = 0. 6, P(C) = 0. 5 P(A B) = 0. 4, P(A C) = 0. 3, P(B C) = 0. 2, P(A B C) = 0. 1 Bestimmen Sie P(A B), P(A C),

Mehr

Das Bayes'sche Prinzip

Das Bayes'sche Prinzip Das Bayes'sche Prinzip Olivia Gradenwitz Patrik Kneubühler Seminar über Bayes Statistik FS8 26. Februar 28 1 Bayes'sches statistisches Modell 1.1 Statistische Probleme und statistische Modelle In diesem

Mehr

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen Zusammenfassung Mathe II Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen Zufallsexperiment: Ein Vorgang, bei dem mindestens zwei Ereignisse möglich sind

Mehr

Statistik Einführung // Wahrscheinlichkeitstheorie 3 p.2/58

Statistik Einführung // Wahrscheinlichkeitstheorie 3 p.2/58 Statistik Einführung Wahrscheinlichkeitstheorie Kapitel 3 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Leydold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Wahrscheinlichkeitstheorie

Mehr

Wahrscheinlichkeitsrechnung und schließende Statistik

Wahrscheinlichkeitsrechnung und schließende Statistik Karl Mosler Friedrich Schmid Wahrscheinlichkeitsrechnung und schließende Statistik Vierte, verbesserte Auflage Springer Inhaltsverzeichnis 0 Einführung 1 1 Zufalls Vorgänge und Wahrscheinlichkeiten 5 1.1

Mehr

Phylogenetik. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Phylogenetik. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung Phylogenetik Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at- tu-dortmund.de

Mehr

Grundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt

Grundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt Grundbegriffe der Wahrscheinlichkeitstheorie Karin Haenelt 1 Inhalt Wahrscheinlichkeitsraum Bedingte Wahrscheinlichkeit Abhängige und unabhängige Ereignisse Stochastischer Prozess Markow-Kette 2 Wahrscheinlichkeitsraum

Mehr

8.1 Einleitung. Grundlagen der Künstlichen Intelligenz. 8.1 Einleitung. 8.2 Lokale Suchverfahren. 8.3 Zusammenfassung. Suchprobleme: Überblick

8.1 Einleitung. Grundlagen der Künstlichen Intelligenz. 8.1 Einleitung. 8.2 Lokale Suchverfahren. 8.3 Zusammenfassung. Suchprobleme: Überblick Grundlagen der Künstlichen Intelligenz 5. April 0 8. Suchalgorithmen: Lokale Suche Grundlagen der Künstlichen Intelligenz 8. Suchalgorithmen: Lokale Suche 8.1 Einleitung Malte Helmert Universität Basel

Mehr

Wahrscheinlichkeitstheorie

Wahrscheinlichkeitstheorie Kapitel 2 Wahrscheinlichkeitstheorie Josef Leydold c 2006 Mathematische Methoden II Wahrscheinlichkeitstheorie 1 / 24 Lernziele Experimente, Ereignisse und Ereignisraum Wahrscheinlichkeit Rechnen mit Wahrscheinlichkeiten

Mehr

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte) Andrew Torda Björn Hansen Iryna Bondarenko Zentrum für Bioinformatik Übung zur Vorlesung Angewandte Bioinformatik Sommersemester 2014 20./23.06.2014 Übung 4: Revision Beispielfragen zur Klausur im Modul

Mehr

Übungen zur Vorlesung Algorithmische Bioinformatik

Übungen zur Vorlesung Algorithmische Bioinformatik Übungen zur Vorlesung Algorithmische Bioinformatik Freie Universität Berlin, WS 2006/07 Utz J. Pape Johanna Ploog Hannes Luz Martin Vingron Blatt 6 Ausgabe am 27.11.2006 Abgabe am 4.12.2006 vor Beginn

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und

Mehr

Stochastik - Kapitel 2

Stochastik - Kapitel 2 " k " h(a) n = bezeichnet man als die relative Häufigkeit des Ereignisses A bei n Versuchen. n (Anmerkung: für das kleine h wird in der Literatur häufig auch ein r verwendet) k nennt man die absolute Häufigkeit

Mehr

Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze

Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze Erich Schubert 6. Juli 2003 LMU München, Institut für Informatik, Erich Schubert Zitat von R. P. Feynman Richard P. Feynman (Nobelpreisträger

Mehr

Die Maximum-Likelihood-Methode

Die Maximum-Likelihood-Methode Vorlesung: Computergestützte Datenauswertung Die Maximum-Likelihood-Methode Günter Quast Fakultät für Physik Institut für Experimentelle Kernphysik SS '17 KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010

Mehr

Konzept diskreter Zufallsvariablen

Konzept diskreter Zufallsvariablen Statistik 1 für SoziologInnen Konzept diskreter Zufallsvariablen Univ.Prof. Dr. Marcus Hudec Beispiel: Zufallsvariable 3 Münzen werden unabhängig voneinander geworfen. Jede Münze kann entweder Kopf oder

Mehr

Mehrdimensionale Zufallsvariablen

Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,

Mehr

Interaktives Skriptum: Elementare Wahrscheinlichkeitsrechnung

Interaktives Skriptum: Elementare Wahrscheinlichkeitsrechnung Interaktives Skriptum: Elementare Wahrscheinlichkeitsrechnung 1. Grundbegriffe Würfeln, Werfen einer Münze, Messen der Lebensdauer einer Glühbirne Ausfall/Ausgang: Würfeln: Augenzahlen 1, 2, 3, 4, 5, 6

Mehr

SozialwissenschaftlerInnen II

SozialwissenschaftlerInnen II Statistik für SozialwissenschaftlerInnen II Henning Best best@wiso.uni-koeln.de Universität zu Köln Forschungsinstitut für Soziologie Statistik für SozialwissenschaftlerInnen II p.1 Wahrscheinlichkeitsfunktionen

Mehr

STOCHASTISCHE UNABHÄNGIGKEIT. Annika Pohlmann Philipp Oel Wilhelm Dück

STOCHASTISCHE UNABHÄNGIGKEIT. Annika Pohlmann Philipp Oel Wilhelm Dück STOCHASTISCHE UNABHÄNGIGKEIT Annika Pohlmann Philipp Oel Wilhelm Dück 1 GLIEDERUNG 1) Bedingte Wahrscheinlichkeiten 2) Unabhängigkeit für mehr als zwei Ereignisse 3) Unabhängigkeit für Zufallsvariable

Mehr

Wahrscheinlichkeitsverteilungen

Wahrscheinlichkeitsverteilungen Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet

Mehr

Effiziente Methoden Für Die Berechnung Von Aminosäure Ersetzungsraten

Effiziente Methoden Für Die Berechnung Von Aminosäure Ersetzungsraten Seminar - Aktuelle Themen der Bioinformatik Tobias Gontermann Johann Wolfgang Goethe-Universität Frankfurt a. M. 12 Juli 2007 1/46 Worum geht es? Berechung von Ratenmatritzen Q Wofür ist das gut? Modellierung

Mehr

Einführung. Wahrscheinlichkeit. 1 Wahrscheinlichkeit: Definition und Interpretation. 2 Elementare Wahrscheinlichkeitsrechnung, bedingte

Einführung. Wahrscheinlichkeit. 1 Wahrscheinlichkeit: Definition und Interpretation. 2 Elementare Wahrscheinlichkeitsrechnung, bedingte Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2 Elementare Wahrscheinlichkeitsrechnung, bedingte Wahrscheinlichkeit Axiome nach Kolmogorov Gegeben sei ein Zufallsexperiment mit Ergebnisraum

Mehr

Splitting. Impurity. c 1. c 2. c 3. c 4

Splitting. Impurity. c 1. c 2. c 3. c 4 Splitting Impurity Sei D(t) eine Menge von Lernbeispielen, in der X(t) auf die Klassen C = {c 1, c 2, c 3, c 4 } verteilt ist. Illustration von zwei möglichen Splits: c 1 c 2 c 3 c 4 ML: III-29 Decision

Mehr

1. Grundbegri e der Stochastik

1. Grundbegri e der Stochastik Wiederholung von Grundwissen der Stochastik. Grundbegri e der Stochastik Menge der Ereignisse. Die Elemente! der Menge heißen Elementarereignisse und sind unzerlegbare Ereignisse. Das Ereignis A tritt

Mehr

3. Grundbegriffe der Wahrscheinlichkeitstheorie

3. Grundbegriffe der Wahrscheinlichkeitstheorie 03. JULI 2006: BLATT 17 3. Grundbegriffe der Wahrscheinlichkeitstheorie (v.a. nach Manning/Schütze: 40ff und Fahrmeir /Künstler/Pigeot/Tutz: 171ff) Übersicht Um entscheiden zu können, ob eine statistische

Mehr

Stochastic Processes SS 2010 Prof. Anton Wakolbinger. Klausur am 16. Juli 2010

Stochastic Processes SS 2010 Prof. Anton Wakolbinger. Klausur am 16. Juli 2010 Stochastic Processes SS 2010 Prof. Anton Wakolbinger Klausur am 16. Juli 2010 Vor- und Nachname: Matrikelnummer: Studiengang: Tutor(in): In der Klausur können 100 Punkte erreicht werden. Die Gesamtpunktezahl

Mehr

Bayesian Networks. Syntax Semantics Parametrized Distributions Inference in Bayesian Networks. Exact Inference. Approximate Inference

Bayesian Networks. Syntax Semantics Parametrized Distributions Inference in Bayesian Networks. Exact Inference. Approximate Inference Syntax Semantics Parametrized Distributions Inference in Exact Inference Approximate Inference enumeration variable elimination stochastic simulation Markov Chain Monte Carlo (MCMC) 1 Includes many slides

Mehr

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression Übungsklausur Wahrscheinlichkeit und Regression 1. Welche der folgenden Aussagen treffen auf ein Zufallsexperiment zu? a) Ein Zufallsexperiment ist ein empirisches Phänomen, das in stochastischen Modellen

Mehr

Ziegenproblem, Monty-Hall-Problem, Wahrscheinlichkeitsrechnung. Ziegenproblem, Monty-Hall-Problem, Drei-Türen-Problem

Ziegenproblem, Monty-Hall-Problem, Wahrscheinlichkeitsrechnung. Ziegenproblem, Monty-Hall-Problem, Drei-Türen-Problem Ziegenproblem, Monty-Hall-Problem, Drei-Türen-Problem Wahrscheinlichkeitsrechnung Theorie Ziegenproblem, Monty-Hall-Problem, Drei-Türen-Problem Ziegenproblem, Monty-Hall-Problem, Drei-Türen-Problem Ziegenproblem,

Mehr

1. Einführung in die induktive Statistik

1. Einführung in die induktive Statistik Wichtige Begriffe 1. Einführung in die induktive Statistik Grundgesamtheit: Statistische Masse, die zu untersuchen ist, bzw. über die Aussagen getroffen werden soll Stichprobe: Teil einer statistischen

Mehr

Kapitel 5 Stochastische Unabhängigkeit

Kapitel 5 Stochastische Unabhängigkeit Kapitel 5 Stochastische Unabhängigkeit Vorlesung Wahrscheinlichkeitsrechnung I vom SoSe 2009 Lehrstuhl für Angewandte Mathematik 1 FAU 5.1 Das Konzept der stochastischen Unabhängigkeit. 1 Herleitung anhand

Mehr

Vorlesung 8b. Zweistufige Zufallsexperimente. Teil 1

Vorlesung 8b. Zweistufige Zufallsexperimente. Teil 1 Vorlesung 8b Zweistufige Zufallsexperimente Teil 1 1 Stellen wir uns ein zufälliges Paar X = (X 1, X 2 ) vor, das auf zweistufige Weise zustande kommt: es gibt eine Regel, die besagt, wie X 2 verteilt

Mehr

3.3 Bedingte Wahrscheinlichkeit

3.3 Bedingte Wahrscheinlichkeit 28 3.3 Bedingte Wahrscheinlichkeit Oft ist die Wahrscheinlichkeit eines Ereignisses B gesucht unter der Bedingung (bzw. dem Wissen), dass ein Ereignis A bereits eingetreten ist. Man bezeichnet diese Wahrscheinlichkeit

Mehr

Vorhersage von Protein-Funktionen. Patrick Pfeffer

Vorhersage von Protein-Funktionen. Patrick Pfeffer Vorhersage von Protein-Funktionen Patrick Pfeffer Überblick Motivation Einleitung Methode Markov Random Fields Der Gibbs Sampler Parameter-Schätzung Bayes sche Analyse Resultate Pfeffer 2 Motivation Es

Mehr

MBI: Sequenzvergleich ohne Alignment

MBI: Sequenzvergleich ohne Alignment MBI: Sequenzvergleich ohne Alignment Bernhard Haubold 12. November 2013 Wiederholung Exaktes & inexaktes Matching Das exakte Matching Problem Naive Lösung Präprozessierung Muster(Pattern): Z-Algorithmus,

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders

Mehr

Wahrscheinlichkeitsrechnung

Wahrscheinlichkeitsrechnung Teil V Wahrscheinlichkeitsrechnung Inhaltsangabe 6 Einführung in die Wahrscheinlichkeitsrechnung 125 6.1 Kombinatorik......................... 125 6.2 Grundbegri e......................... 129 6.3 Wahrscheinlichkeiten.....................

Mehr