Hidden Markov Model (HMM)

Hidden Markov Model (HMM) Kapitel 1 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics K1 1/11

1.. stochastisches Modell zur Modellierung eines Systems durch eine Markov-Kette mit unbeobachteten Zuständen Zustände der Markov-Kette sind verborgen jedem Zustand sind beobachtbare Ausgangssymbole (Emissionen) zugeordnet Emissionen treten abhängig vom Zustand mit best. Wahrscheinlichkeit auf anhand der beobachteten Sequenz von Emissionen wahrscheinlichkeitstheoretische Aussagen über verborgene Zustände Einsatzgebiete: Sprach- und Schrifterkennung, Spamfilter, Phsychologie, etc. Machine learning in bioinformatics K1 2/11

Was ist ein HMM? Markov-Kette: Serie von Zuständen, die mit Hilfe von Übergangswahrscheinlichkeiten auftreten (stochast. Prozess) Ziel: Angabe von Wahrscheinlichkeiten zukünftiger Ereignisse anhand bengrenzter Vorgeschichte Prognose bei Kenntnis der gesamten Vorgeschichte Hidden Markov Model:.. endliches Modell, beschreibt Serie von Beobachtungen durch einen versteckten stochastischen Prozess P(s i s i 1) i+1 i P(s s ) s i 1 s i s i+1 P(e i 1 s i 1 ) P(e i 1 s) i P(e i s i) P(e i s i) e i 1 e i e i+1 Machine learning in bioinformatics K1 3/11

Und nun formal: Ein HMM µ = (X, A, Y, B, π) ist gegeben durch: X Menge aller Zustände (Alphabet) A Übergangsmatrix der Zustände aus X Y Menge aller Emissionen (Beobachtungen) B Beobachtungsmatrix, mit b ij = P(y j Y x i X ) π Anfangswahrscheinlichkeitsverteilung, mit π(i) ist Wk, das x i Startzustand ist Ein HMM ist zeitinvariant wenn die Wk aus A und B sich mit der Zeit nicht ändern. Unterliegende Markov-Ketten sind meist 1. Ordnung. Machine learning in bioinformatics K1 4/11

Anwendung - Spracherkennung Zustände: Phoneme Emissionen: Ketten von Lauten lets go tu the part te potty party patty p ar te Jede Soundsequenz kann mit best. Wk von einem Modell generiert werden. Ein Sprachmodell besteht aus Wk für die Lauterzeugung und für Lautübergänge Machine learning in bioinformatics K1 5/11

Anwendung - Bioinformatik Sequenz-Alignment Proteinmodellierung Zustände: Spalten des Alignments Aminosäuren Emissionen: Ancestrale Sequenz Primärstruktur Machine learning in bioinformatics K1 6/11

Anwendung - Bioinformatik Zustände: Emissionen: Sequenz-Alignment Spalten des Alignments Ancestrale Sequenz Consensus Sequenz einer Menge von Sequenzen lässt sich auch mit regulären Ausdrücken beschreiben: A C A - - - A T G T C A A C T A T C A C A C - - A G C A G A - - - A T C A C C G - - A T C RegExpr: [AT][CG][AC][ACTG]*A[TG][GC] keine Aussage über Qualität jeder Ableitbaren Sequenz möglich: z.bsp. TGCCC-AGG (sehr unwahrscheinlich) und ACAC ATC (Consensus) sind beide ableitbar Machine learning in bioinformatics K1 7/11

Ableitung eines HMM vom Sequenzalignment profile HMM Machine learning in bioinformatics K1 8/11

Wahrscheinlichkeiten vs. log-odds Scores P(ACACATC) = 0.8 1 0.8 1 0.8 0.6 0.4 0.6 1 1 0.8 1 0.8 4.7 10 2 Sequenz Wk 100 Log odds Consensus ACAC--ATC 4.7 6.7 Öriginal ACA---ATG 3.3 4.9 andere TCAACTATC 0.0075 3.0.. ACAC--AGC 1.2 5.3.. AGA---ATC 3.3 4.9 exceptional TGCT--AGG 0.0023-0.97 L(S) = log P(S) = log P(S) L log 0.25 0.25L with L... Length(S) log-odds Scores trennen wahrscheinlichere Sequenzen besser von unwahrscheinlichen! Machine learning in bioinformatics K1 9/11

Aufbau eines profile HMM Machine learning in bioinformatics K1 10/11

Anwendungen Suche in Datenbanken Geg. 1 Sequenz, gehört diese zu einer bestimmten Familie? Sequenz Alignments Gibt es bestimmte Regionen in einer Sequenz? Machine learning in bioinformatics K1 11/11