Hidden-Markov-Modelle zur Bestimmung wahrscheinlichster Ereignisse

Ähnliche Dokumente
Zusammenfassung Tutorien der Woche ALDABI

Stochastik - Kapitel 2

Projektgruppe. Text Labeling mit Sequenzmodellen

HMMs und der Viterbi-Algorithmus

Elementare Wahrscheinlichkeitslehre

Zufallsvariable X. 30 e. 40 e = 33,33...% 6

Ereignis E: ist ein oder sind mehrere Ergebnisse zusammen genommen. Bsp. E = {2; 4; 6}

Stochastik Klasse 10 Zufallszahlen

Datenstrukturen & Algorithmen

Beispiel 37. Wir werfen eine Münze so lange, bis zum ersten Mal

Informatik II, SS 2016

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Biostatistik, Winter 2011/12

Mathematik IV: Statistik. für D-UWIS, D-ERDW, D-USYS und D-HEST SS15

Informatik II, SS 2018

Aufgabe 4 Ein fairer Würfel wird 36-mal geworfen. Berechne die Wahrscheinlichkeit dafür, dass die Augenzahl 6 in der erwarteten Anzahl eintritt.

Labour law and Consumer protection principles usage in non-state pension system

Signalverarbeitung 2. Volker Stahl - 1 -

Algorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung

p^db=`oj===pìééçêíáåñçêã~íáçå=

Schriftlicher Test Teilklausur 2

6: Diskrete Wahrscheinlichkeit

Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende

Beispiele: Beim Zahlenlotto sollte jede Sechserserie von Zahlen mit derselben Wahrscheinlichkeit auftreten.

AUSWERTEN. Ein Zufallsexperiment wird ausgewertet, indem man die relativen Häufigkeiten berechnet. Die relative Häufigkeit ist das Verhältnis:

11. Übung Algorithmen I

Hidden-Markov-Modelle

Stochastik und Markovketten

Wahrscheinlichkeitsrechnung

Willkommen zur Vorlesung Statistik (Master)

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014

Informatik II, SS 2014

Übungsblatt 7 zur Vorlesung Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker

Hidden Markov Models

Non users after Cochlear Implantation in Single Sided Deafness

Hidden Markov Modellen

Algorithmische Bioinformatik

Laplace und Gleichverteilung

Der Viterbi Algorithmus

Musterlösung zur 6. Übung

Mitglied der Leibniz-Gemeinschaft

Der Boyer-Moore Algorithmus

Zeitreihenanalyse mit Hidden Markov Modellen

Level 1 German, 2016

Algebraische Statistik ein junges Forschungsgebiet. Dipl.-Math. Marcus Weber

Diskrete Strukturen II

Typenreihe GH Lifting Solenoids

Wahrscheinlichkeitstheorie

Mathematik für Biologen

Map Matching. Problem: GPS-Punkte der Trajektorie weisen einen relativ großen Abstand zueinander auf.

Algorithmen auf Sequenzen

Unabhängigkeit KAPITEL 4

Mathematik für Biologen

Einführung in die Computerlinguistik

Es werden 120 Schüler befragt, ob sie ein Handy besitzen. Das Ergebnis der Umfrage lautet: Von 120 Schülern besitzen 99 ein Handy.

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Die Funktion f X;Y (x; y) := Pr[X = x; Y = y] heit gemeinsame Dichte der Zufallsvariablen X und Y. Aus der gemeinsamen Dichte f X;Y kann man ableiten

Sequenzanalyse mit Markov-Ketten

Informatik II: Algorithmen und Datenstrukturen SS 2013

4 Diskrete Wahrscheinlichkeitsverteilungen

Hidden-Markov-Modelle

Blatt 6: Grundlagen der Wahrscheinlichkeitstheorie MAE 3

Bei 10 dieser Würfe wurde gleichzeitig eine 1 gewürfelt. Bei 25 dieser Würfe wurde gleichzeitig eine Augenzahl größer als 2 gewürfelt.

Elemente der Stochastik (SoSe 2016) 3. Übungsblatt

Statistik Einführung // Wahrscheinlichkeitstheorie 3 p.2/58

Informatik II, SS 2018

Mathematik IV: Statistik

Kapitel I Diskrete Wahrscheinlichkeitsräume

Algorithmen und Datenstrukturen in der Bioinformatik Erstes Übungsblatt WS 05/06 Musterlösung

Mathematik 2 für Naturwissenschaften

Magic Figures. We note that in the example magic square the numbers 1 9 are used. All three rows (columns) have equal sum, called the magic number.

Intransitive Würfel Lösungen

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Der Wahrscheinlichkeitsbegriff - fit für das Abitur

Wahrscheinlichkeiten

Das Problem des Handlungsreisenden

Maximilian Gartner, Walther Unterleitner, Manfred Piok. Einstieg in die Wahrscheinlichkeitsrechnung

3 Wahrscheinlichkeitstheorie

Typenreihe GH Lifting Solenoids

Satz 16 (Multiplikationssatz)

Willkommen zur Vorlesung Statistik (Master)

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung

Wahrscheinlichkeit und Statistik BSc D-INFK

Causal Analysis in Population Studies

Informatik II, SS 2018

Test 1 Musterlösung. Name, Nummer: Datum: 29. März (a) Wie viel verschiedene Zeichen lassen sich mit 5 Strichen und 4 Lücken darstellen?

6. Algorithmen auf Zeichenketten

Big Data Analytics. Fifth Munich Data Protection Day, March 23, Dr. Stefan Krätschmer, Data Privacy Officer, Europe, IBM

Aufgabe 1 Probabilistische Inferenz

Evaluation und Training von HMMs

2.4. Mehrstufige Zufallsexperimente

Dr. Jürgen Senger INDUKTIVE STATISTIK. Wahrscheinlichkeitstheorie, Schätz- und Testverfahren

Der Viterbi-Algorithmus im Part-of-Speech Tagging

Active Hidden Markov Models for Information Extraction

WP FRANZÖSISCH Schuljahr 2017/18 Klassenstufe 7-10

Bildverarbeitung: RANSAC. D. Schlesinger () Bildverarbeitung: RANSAC 1 / 11

Wahrscheinlichkeiten mit Flächenbildern und Baumdiagrammen bestimmen

Mathematik für Biologen

DynaTraffic Modelle und mathematische Prognosen. Simulation der Verteilung des Verkehrs mit Hilfe von Markov-Ketten

Transkript:

zur Bestimmung wahrscheinlichster Ereignisse Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich 07. Mai 2014

Eine Fragestellung aus der Biologie

Beobachtung einer Bakterienkultur Wie verändert sich eine Bakterienkultur über die Zeit? Konkreter Versuchsaufbau: Nährlösung unter sich verändernden Einflüssen (Temperaturanstieg, Hinzugabe von Chemikalien,... ) Wir wollen untersuchen: Wann sind Bakterien krank, wann gesund? Wenn gesund, wird Protein von Bakterium produziert Veränderte Bakterien-DNA (Fluoreszenz-Marker) Beobachte Fluoreszenz-Level über die Zeit

Beobachtung einer Bakterienkultur Further studies are needed to identify and characterize the sources of uctuations in the repressilator and other designed networks. In particular, longer experiments performed under chemostatic conditions should enable more complete statistical characterization of Wir machen folgende Beobachtungen: in) 1,000 1000 Beobachtung e repressilator f three repressor e centre of the ly repressible e right promoter uced by the lasmid (right) mids, transcripthe E. coli rrnb ressilator model dy state is stable ries between the 80 40 20 ZeitTime in Minuten (min) 60 140 250 300 390 450 550 600 a b c 120 Elowitz, Leibler, 2000, Nature 403 100 Fluorescence (arbitrary units) Für das Fluoreszenz-Level beobachten wir 60 Niedrig, Mittel, Mittel, Hoch, Mittel, Hoch, Mittel, Hoch Was folgt nun für den Gesundheitszustand des Bakteriums? 0 0 100 200 300 400 500 600 Time (min)

Das unfaire Kasino Ein fairer Würfel (Alle Resultate mit Wahrscheinlichkeit 1 6 ) Ein unfairer Würfel (Resultat 6 mit Wahrscheinlichkeit 1 2 ) Zu Beginn wird ein Würfel gewählt (Wahrscheinlichkeit 1 2 ) Nach Wurf kann gewechselt werden (Wahrscheinlichkeit 1 20 ) Markov-Modell Zustand: Benutzter Würfel Übergangs-Wahrscheinlichkeit: Wahrscheinlichkeit, den Würfel zu wechseln Emissions-Wahrscheinlichkeit: Wahrscheinlichkeit, eine konkrete Augenzahl zu beobachten; abhängig vom Zustand

Wahrscheinlichkeit einer konkreten Ausgabe Nehmen wir an, wir beobachten die Zahlen 6, 6, 6, 6 Ausserdem vermuten wir, dass zunächst zweimal der unfaire Würfel verwendet wurde, dann zweimal der faire Dies entspricht einem festen Pfad durch unser Markov-Modell Wie gross ist die Wahrscheinlichkeit?

Wahrscheinlichkeit einer konkreten Ausgabe Betrachten wir nur das Werfen der ersten 6 1 Ereignis A = Der unfaire Würfel wird zu Beginn gewählt 2 Ereignis B = Es wird 6 gewürfelt Jetzt können wir einfach die Wahrscheinlichkeiten ausrechnen Wahr (Der unfaire Würfel wird zu Beginn gewählt und 6 gewürfelt) = Wahr (A und B) = Wahr (A) Wahr (B unter der Voraussetzung A) = Wahr (A) Wahr (B A) = 1 2 1 2

Wahrscheinlichkeit einer konkreten Ausgabe Nun führen wir diese Anwendung für 6, 6, 6, 6 fort 1 2 1 2 19 20 1 2 1 20 1 6 19 20 1 6 Wahrscheinlichkeit, dass schliesslich wieder eine 6 geworfen wird

Wahrscheinlichkeit einer konkreten Ausgabe Hidden-Markov-Modell Aber was passiert, wenn wir nur die Ausgaben beobachten? Nehmen wir an, wir beobachten die Zahlen 6, 5, 2, 6, 6 Was ist der wahrscheinlichste Pfad? Für drei Zahlen ist der unfaire Würfel besser Für zwei Zahlen der faire Es ist nicht klar, ob es sich lohnt, den Würfel zu wechseln

Wahrscheinlichkeit einer konkreten Ausgabe Anzahl möglicher Pfade für n Würfe ist 2 n Für 300 Würfe ist dies mehr als 10 90 Aber müssen wir wirklich alle ausprobieren? Nein Dynamische Programmierung

Dynamische Programmierung Prinzip der dynamischen Programmierung Lösung für die gesamte Eingabe zusammensetzen aus Teillösungen für Teilprobleme, beginnend mit den kleinsten Teilproblemen Problem: Finde geeignete Teilprobleme Idee (Viterbi, 1967): Alle wahrscheinlichsten Pfade für Anfangsstücke (Präfixe) der gegebenen Folge von Würfen, die in gegebenem Zustand enden, als Teilprobleme Berechne wahrscheinlichste Pfade für längere Präfixe aus den wahrscheinlichsten Pfaden für kürzere Präfixe

Dynamische Programmierung fair X 1 X 2 X 3 X 4 X 5 X 6 X 7 unfair Nehmen wir an, die schraffierten Felder sind bereits ausgefüllt Wahrscheinlichste Pfade der Länge 3 sind bekannt (z.b. Pfad, der in X 3 endet: unfair, fair, fair) Berechne jetzt solchen Pfad der Länge 4, der in fair endet Verlängere bekannte Pfade und nimm wahrscheinlicheren

Dynamische Programmierung Beobachtete Würfelfolge 6, 5, 2, 6, 6 Erstelle Tabelle (ähnlich wie bei Alignment) Merke, welcher Pfad bislang der beste war 6 5 2 6 6 fair unfair 1 12 1 4 Wahrscheinlichkeit des wahrscheinlichsten Pfades der Länge 2 zu fair Wahrscheinlichkeit, dass 5 in fair ausgegeben wird

Dynamische Programmierung Beobachtete Würfelfolge 6, 5, 2, 6, 6 Erstelle Tabelle (ähnlich wie bei Alignment) Merke, welcher Pfad bislang der beste war 6 5 2 6 6 fair 1 12 19 1440 361 172800 6859 20736000 6859 76800000 unfair 1 4 19 800 361 16000 6859 640000 130321 25600000 Der wahrscheinlichste Pfad ist also der, bei dem nur der unfaire Würfel verwendet wurde

Zurück zur Fragestellung aus der Biologie

to about two periods (Box 1, Fig. 1c, insets). In general, we would like to distinguish such stochastic effects from possible intrinsically complex dynamics (such as intermittence or chaotic behaviour). Further studies are needed to identify and characterize the sources of uctuations in the repressilator and other designed networks. In Wir machen particular, folgende longer experiments Beobachtungen: performed under chemostatic conditions should enable more complete statistical characterization of Beobachtung einer Bakterienkultur in) 1,000 1000 Beobachtung e repressilator f three repressor e centre of the ly repressible e right promoter uced by the lasmid (right) mids, transcripthe E. coli rrnb 80 60 40 20 ZeitTime in Minuten (min) 60 140 250 300 390 450 550 600 a b c 120 Elowitz, Leibler, 2000, Nature 403 100 Fluorescence (arbitrary units)

Beobachtung einer Bakterienkultur Bakterie kann sich in einem von drei Zuständen befinden: 1 Gesund 2 OK 3 Krank DNA wurde so verändert, das Bakterien fluoreszieren, und zwar je mehr desto gesünder sie sind; Fluoreszenz-Level kann beobachtet werden: 1 Hoch 2 Mittel 3 Niedrig

Beobachtung einer Bakterienkultur Further studies are needed to identify and characterize the sources of uctuations in the repressilator and other designed networks. In particular, longer experiments performed under chemostatic conditions should enable more complete statistical characterization of Wir machen folgende Beobachtungen: in) 1,000 1000 Beobachtung e repressilator f three repressor e centre of the ly repressible e right promoter uced by the lasmid (right) mids, transcripthe E. coli rrnb ressilator model dy state is stable ries between the 80 40 20 ZeitTime in Minuten (min) 60 140 250 300 390 450 550 600 a b c 120 Elowitz, Leibler, 2000, Nature 403 100 Fluorescence (arbitrary units) Für das Fluoreszenz-Level beobachten wir 60 Niedrig, Mittel, Mittel, Hoch, Mittel, Hoch, Mittel, Hoch Was folgt nun für den Gesundheitszustand des Bakteriums? 0 0 100 200 300 400 500 600 Time (min)

Beobachtung einer Bakterienkultur Emissions-Wahrscheinlichkeiten (erworben durch empirische Untersuchungen) 1 Gesund Wahr (Hoch) = 0.5 Wahr (Mittel) = 0.3 Wahr (Niedrig) = 0.2 2 OK Wahr (Hoch) = 0.2 Wahr (Mittel) = 0.6 Wahr (Niedrig) = 0.2 3 Krank Wahr (Hoch) = 0.2 Wahr (Mittel) = 0.3 Wahr (Niedrig) = 0.5

Beobachtung einer Bakterienkultur Übergangs-Wahrscheinlichkeiten (ebenfalls erworben durch empirische Untersuchungen) 0.6 0.3 OK Wahr (Hoch) = 0.2 Wahr (Mittel) = 0.6 Wahr (Niedrig) = 0.2 0.2 0.4 Gesund Wahr (Hoch) = 0.5 Wahr (Mittel) = 0.3 Wahr (Niedrig) = 0.2 0.2 0.3 0.4 Krank Wahr (Hoch) = 0.2 Wahr (Mittel) = 0.3 Wahr (Niedrig) = 0.5 0.6

complex dynamics (such as intermittence or chaotic behaviour). Further studies are needed to identify and characterize the sources of uctuations in the repressilator and other designed networks. In particular, longer experiments performed under chemostatic conditions should enable more complete statistical characterization of Beobachtung einer Bakterienkultur in) 1,000 1000 Beobachtung e repressilator f three repressor e centre of the ly repressible e right promoter uced by the lasmid (right) mids, transcripthe E. coli rrnb ressilator model dy state is stable 80 20 ZeitTime in Minuten (min) 60 140 250 300 390 450 550 600 a b c 120 Elowitz, Leibler, 2000, Nature 403 100 Fluorescence (arbitrary units) Wir machen über 60 die Zeit also folgende Beobachtungen: Niedrig, Mittel, 40 Mittel, Hoch, Mittel, Hoch, Mittel, Hoch 0 0 100 200 300 400 500 600 Time (min)

Beobachtung einer Bakterienkultur Wir können nun folgende Tabelle ausfüllen Werte nach 6 Nachkommastellen abgeschnitten Niedrig Mittel Mittel Hoch Mittel Hoch Mittel Hoch Gesund 0.06 0.008 0.0024 0.00144 0.000172 0.000062 0.000005 0.000001 OK 0.06 0.04 0.0144 0.001728 0.000622 0.000074 0.000002 0.000003 Krank 0.16 0.03 0.0054 0.000648 0.000129 0.000024 0.000007 0.000002

Laufzeit-Analyse Dieser Algorithmus ist als Viterbi-Algorithmus bekannt. Anzahl der Zustände: q Länge der beobachteten Sequenz: n Tabelle hat Grösse q n Für jede Zelle müssen q Werte verglichen werden Wir brauchen ca. q q n Vergleiche Die Laufzeit wächst proportional mit q 2 n

Laufzeit-Analyse Hier ist q = 18; sei n = 300: Weniger als 100 000 Vergleiche Naiver Ansatz: Mehr als 10 143 Vergleiche

Laufzeit-Analyse 140000 naiv Viterbi 120000 100000 Anzahl Vergleiche 80000 60000 40000 20000 0 0 2 4 6 8 10 Anzahl Zeichen in Sequenz

CG-Inseln

Kodierende Bereiche der DNA DNA wird aufgefasst als String über den Buchstaben A, C, G, T Teile sind kodierende Bereiche, andere steuernde Bereiche CG-Inseln sind Bereiche im String, in denen die Folge CG häufig vorkommt Sie tauchen in der Nähe von Genen häufig auf, sonst selten Finde CG-Inseln in gegebenen String Analogie zum vorher vorgestellten unfairen Kasino: Die jeweiligen Würfel entsprechen den Situationen, ob man in einer CG-Insel ist Es gibt aber für beide Situationen 4 verschiedene Beobachtungen

Zusammenfassung 1 Wahrscheinlichkeiten modellieren Situationen, wenn nicht alle Grössen bekannt sind 2 Markov-Modelle verknüpfen Zustände miteinander 3 Beispiele Beobachtungen im Labor, CG-Inseln 4 Dynamische Programmierung kann die Berechnungszeit verringern