Hidden Markov Model (HMM)

Ähnliche Dokumente
Maschinelles Lernen in der Bioinformatik

Methoden zur Cluster - Analyse

Grundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt

Hidden Markov Models (HMM) Karin Haenelt

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Hidden Markov Models

Signalverarbeitung 2. Volker Stahl - 1 -

16.3 Rekurrente und transiente Zustände

Statistische Verfahren:

Markov-Prozesse. Markov-Prozesse. Franziskus Diwo. Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes

Einführung in die Theorie der Markov-Ketten. Jens Schomaker

Aufabe 7: Baum-Welch Algorithmus





Hidden Markov Models und DNA-Sequenzen

3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen

Spracherkennung und Sprachsynthese

Algorithmische Bioinformatik

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Part-of-Speech Tagging. Stephanie Schuldes

Reinforcement Learning

DynaTraffic Modelle und mathematische Prognosen. Simulation der Verteilung des Verkehrs mit Hilfe von Markov-Ketten

Algorithmische Anwendungen WS 2005/2006

Die Kopplung von Markovketten und die Irrfahrt auf dem Torus

Bioinformatik I (Einführung)

Genvorhersage & Genom- Annotation

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Informatik IV Theoretische Informatik: Formale Sprachen und Automaten, Berechenbarkeit und NP-Vollständigkeit. Zugangsnummer: 3288

Der Viterbi-Algorithmus.

Theorie der Informatik. Theorie der Informatik. 6.1 Einführung. 6.2 Alphabete und formale Sprachen. 6.3 Grammatiken. 6.4 Chomsky-Hierarchie

Primärstruktur. Wintersemester 2011/12. Peter Güntert

Grundbegriffe der Informatik Tutorium 11

Einführung in die Computerlinguistik

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

Spracherkennung. Gliederung:

Universität Karlsruhe Institut für Theoretische Informatik. Klausur: Informatik III

Sepp und Helmut, zwei alte selbsternannte Fußball-Experten unterhalten sich am Stammtisch.

BACHELORARBEIT. Markov-Ketten und ihre Greensche Funktion. Jasmin Riegler. Wien, Jänner 2013

Johannes-Kepler-Gymnasium, Chemnitz John-Lennon-Oberschule, Berlin Friedrich-Schiller-Gymnasium, Königs Wusterhausen

4.5 Wachstumsfunktionen

Bericht zur Prüfung im Mai 2007 über Stochastische Risikomodellierung und statistische Methoden (Grundwissen)

Unabhängige Zufallsvariablen

Grundbegriffe der Informatik

Seminar Kompressionsalgorithmen Huffman-Codierung, arithmetische Codierung

Grundbegriffe der Informatik

Stochastische Prozesse

Statistische Methoden in der Bioinformatik

Kapitel 9 WAHRSCHEINLICHKEITS-RÄUME

3. Prozesse mit kontinuierlicher Zeit

Einführung in Markoff-Ketten

Kapitel 7: Sequenzen- Alignierung in der Bioinformatik

Exact Sampling: Der Propp-Wilson-Algorithmus

Formale Methoden 1. Gerhard Jäger 23. Januar Uni Bielefeld, WS 2007/2008 1/18

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Schriftlicher Test Teilklausur 2

BLAST. Datenbanksuche mit BLAST. Genomische Datenanalyse 10. Kapitel

Einführung in die Computerlinguistik Formale Grammatiken rechtslineare und kontextfreie Grammatiken Kellerautomaten

Logik für Informatiker

1 A dp = P(A B). (1.3)

Universität Karlsruhe Institut für Theoretische Informatik. Klausur: Informatik III

STOCHASTISCHE UNABHÄNGIGKEIT. Annika Pohlmann Philipp Oel Wilhelm Dück

Einführung in die Computerlinguistik

Exakter Binomialtest als Beispiel

0 für t < für 1 t < für 2 t < für 3 t < für 4 t < 5 1 für t 5

Markov-Ketten und Google s Page-Rank 1 / 70

Algorithmische Bioinformatik

Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende

Genannotation bei Prokaryoten

Die Folgerungsbeziehung

Grundlagen der Theoretischen Informatik

ENTWICKLUNG EINES INSTITUT FÜR INFORMATIK. Werner Hoffmann STOCHASTISCHEN VERFAHRENS ZUR NACHVERFOLGUNG STUDENTISCHER QUIZLEISTUNGEN IN BACKSTAGE

Aufgabentypen die in der Klausur vorkommen

UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1. Übung 2. Spezifikation Schrittweise Verfeinerung

LANGZEITVERHALTEN VON MARKOW-KETTEN

FOR MUW SSM3 (2008) STUDENTS EDUCATIONAL PURPOSE ONLY

Splice-Stellen. Zentrales Dogma. Splicing. Introns & Exons. Genomische Datenanalyse 5. Kapitel

Stochastik. 1. Wahrscheinlichkeitsräume

Theoretische Informatik 1

Modellbildung und Simulation

Stochastische Prozesse. Woche 5

BCDS Seminar. Protein Tools

Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I

Theorie der Informatik

Übungsaufgaben Lösungen

LANGZEITVERHALTEN VON MARKOW-KETTEN

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Testen von Hypothesen

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik

7.5 Erwartungswert, Varianz

Informatikstudien 2010 Martin Polaschek

Was bisher geschah Alphabet, Wort, Sprache

Vorlesung 8b. Bedingte Erwartung, bedingte Varianz, bedingte Verteilung, bedingte Wahrscheinlichkeiten

Diskrete Strukturen Kapitel 1: Einleitung

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister

Exponential Family, Maximum Likelihood, EM Algorithmus und Gaussian Mixture Models

Veranstaltungen, SWS, ECTS, Prüfungsdauer

Transkript:

Hidden Markov Model (HMM) Kapitel 1 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics K1 1/11

1.. stochastisches Modell zur Modellierung eines Systems durch eine Markov-Kette mit unbeobachteten Zuständen Zustände der Markov-Kette sind verborgen jedem Zustand sind beobachtbare Ausgangssymbole (Emissionen) zugeordnet Emissionen treten abhängig vom Zustand mit best. Wahrscheinlichkeit auf anhand der beobachteten Sequenz von Emissionen wahrscheinlichkeitstheoretische Aussagen über verborgene Zustände Einsatzgebiete: Sprach- und Schrifterkennung, Spamfilter, Phsychologie, etc. Machine learning in bioinformatics K1 2/11

Was ist ein HMM? Markov-Kette: Serie von Zuständen, die mit Hilfe von Übergangswahrscheinlichkeiten auftreten (stochast. Prozess) Ziel: Angabe von Wahrscheinlichkeiten zukünftiger Ereignisse anhand bengrenzter Vorgeschichte Prognose bei Kenntnis der gesamten Vorgeschichte Hidden Markov Model:.. endliches Modell, beschreibt Serie von Beobachtungen durch einen versteckten stochastischen Prozess P(s i s i 1) i+1 i P(s s ) s i 1 s i s i+1 P(e i 1 s i 1 ) P(e i 1 s) i P(e i s i) P(e i s i) e i 1 e i e i+1 Machine learning in bioinformatics K1 3/11

Und nun formal: Ein HMM µ = (X, A, Y, B, π) ist gegeben durch: X Menge aller Zustände (Alphabet) A Übergangsmatrix der Zustände aus X Y Menge aller Emissionen (Beobachtungen) B Beobachtungsmatrix, mit b ij = P(y j Y x i X ) π Anfangswahrscheinlichkeitsverteilung, mit π(i) ist Wk, das x i Startzustand ist Ein HMM ist zeitinvariant wenn die Wk aus A und B sich mit der Zeit nicht ändern. Unterliegende Markov-Ketten sind meist 1. Ordnung. Machine learning in bioinformatics K1 4/11

Anwendung - Spracherkennung Zustände: Phoneme Emissionen: Ketten von Lauten lets go tu the part te potty party patty p ar te Jede Soundsequenz kann mit best. Wk von einem Modell generiert werden. Ein Sprachmodell besteht aus Wk für die Lauterzeugung und für Lautübergänge Machine learning in bioinformatics K1 5/11

Anwendung - Bioinformatik Sequenz-Alignment Proteinmodellierung Zustände: Spalten des Alignments Aminosäuren Emissionen: Ancestrale Sequenz Primärstruktur Machine learning in bioinformatics K1 6/11

Anwendung - Bioinformatik Zustände: Emissionen: Sequenz-Alignment Spalten des Alignments Ancestrale Sequenz Consensus Sequenz einer Menge von Sequenzen lässt sich auch mit regulären Ausdrücken beschreiben: A C A - - - A T G T C A A C T A T C A C A C - - A G C A G A - - - A T C A C C G - - A T C RegExpr: [AT][CG][AC][ACTG]*A[TG][GC] keine Aussage über Qualität jeder Ableitbaren Sequenz möglich: z.bsp. TGCCC-AGG (sehr unwahrscheinlich) und ACAC ATC (Consensus) sind beide ableitbar Machine learning in bioinformatics K1 7/11

Ableitung eines HMM vom Sequenzalignment profile HMM Machine learning in bioinformatics K1 8/11

Wahrscheinlichkeiten vs. log-odds Scores P(ACACATC) = 0.8 1 0.8 1 0.8 0.6 0.4 0.6 1 1 0.8 1 0.8 4.7 10 2 Sequenz Wk 100 Log odds Consensus ACAC--ATC 4.7 6.7 Öriginal ACA---ATG 3.3 4.9 andere TCAACTATC 0.0075 3.0.. ACAC--AGC 1.2 5.3.. AGA---ATC 3.3 4.9 exceptional TGCT--AGG 0.0023-0.97 L(S) = log P(S) = log P(S) L log 0.25 0.25L with L... Length(S) log-odds Scores trennen wahrscheinlichere Sequenzen besser von unwahrscheinlichen! Machine learning in bioinformatics K1 9/11

Aufbau eines profile HMM Machine learning in bioinformatics K1 10/11

Anwendungen Suche in Datenbanken Geg. 1 Sequenz, gehört diese zu einer bestimmten Familie? Sequenz Alignments Gibt es bestimmte Regionen in einer Sequenz? Machine learning in bioinformatics K1 11/11