Hidden-Markov-Modelle

Ähnliche Dokumente
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Signalverarbeitung 2. Volker Stahl - 1 -

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Clusteranalyse: Gauß sche Mischmodelle

Aufabe 7: Baum-Welch Algorithmus

3. Das Reinforcement Lernproblem

Datenstrukturen & Algorithmen

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

Dynamisches Programmieren - Problemstruktur

Der Viterbi-Algorithmus.

Signalverarbeitung 2. Volker Stahl - 1 -

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Latente Dirichlet-Allokation

11. Woche: Turingmaschinen und Komplexität Rekursive Aufzählbarkeit, Entscheidbarkeit Laufzeit, Klassen DTIME und P

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Bayes sches Lernen: Übersicht

4.4.1 Statisches perfektes Hashing. des Bildbereichs {0, 1,..., n 1} der Hashfunktionen und S U, S = m n, eine Menge von Schlüsseln.

Reguläre Sprachen Endliche Automaten

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Aufgabe 1 Probabilistische Inferenz

16. All Pairs Shortest Path (ASPS)

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

Mächtigkeit von WHILE-Programmen

Schriftlicher Test Teilklausur 2

Übersicht. Datenstrukturen und Algorithmen Vorlesung 5: Rekursionsgleichungen (K4) Übersicht. Binäre Suche. Joost-Pieter Katoen. 20.

Theoretische Informatik 1

kontextfreie Grammatiken Theoretische Informatik kontextfreie Grammatiken kontextfreie Grammatiken Rainer Schrader 14. Juli 2009 Gliederung

13. Der diskrete Logarithmus

Klausur zur Vorlesung,,Algorithmische Mathematik II

4 Statistik der Extremwertverteilungen

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Simulation von Zufallsvariablen und Punktprozessen

Programmierung 2. Dynamische Programmierung. Sebastian Hack. Klaas Boesche. Sommersemester

23. November Betweenness Centrality Closeness Centrality. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 108

Reinforcement Learning

Public-Key-Verschlüsselung und Diskrete Logarithmen

Kapitel 9. Hidden Markov Modelle (HMMs)

Formale Methoden 1. Gerhard Jäger 12. Dezember Uni Bielefeld, WS 2007/2008 1/22

Proseminarvortrag. Markov-Ketten in der Biologie (Anwendungen)

Algorithmen und Datenstrukturen 1 Kapitel 3

Dynamische Programmierung. Problemlösungsstrategie der Informatik

Ü b u n g s b l a t t 13

Programmierkurs Python II

Algorithmen und Datenstrukturen

Vorlesung Maschinelles Lernen

Vorlesung 9b. Bedingte Verteilungen und bedingte Wahrscheinlichkeiten

3: Zahlentheorie / Primzahlen

Einführung: Bayessches Lernen. Dipl.-Inform. Martin Lösch. (0721) Dipl.-Inform. Martin Lösch

Theorie und Praxis geometrischer Algorithmen

1 Part-of-Speech Tagging

NLP Eigenschaften von Text

Part-of-Speech Tagging. Stephanie Schuldes

Übung zu Grundbegriffe der Informatik. Simon Wacker. 15. November 2013

f(x, y) = 0 Anschaulich bedeutet das, dass der im Rechteck I J = {(x, y) x I, y J}

Lösungen ausgewählter Übungsaufgaben zum Buch. Elementare Stochastik (Springer Spektrum, 2012) Teil 3: Aufgaben zu den Kapiteln 5 und 6

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Simulationsmethoden in der Bayes-Statistik

Logik für Informatiker

Algorithmische Bioinformatik 1

Theoretische Informatik. Alphabete, Worte, Sprachen

Javakurs für Anfänger

2 Die Dimension eines Vektorraums

Einführung in die (induktive) Statistik

Algorithmen II Vorlesung am

Die Schreibweise x M bedeutet, dass das Objekt x in der Menge M liegt. Ist dies nicht der Fall, dann schreibt man

5.4 Das Rucksackproblem

Resolutionsalgorithmus

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Spracherkennung. Gliederung:

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Künstliche Intelligenz Maschinelles Lernen

Datenstrukturen & Algorithmen Lösungen zu Blatt 6 FS 14

Minimal spannende Bäume

Sicherer MAC für Nachrichten beliebiger Länge

Algorithmentheorie Randomisierung. Robert Elsässer

Kapitel 6 Martingale

3. Übungsblatt Aufgaben mit Lösungen

Komplexität von Algorithmen

Logik für Informatiker

1 Σ endliches Terminalalphabet, 2 V endliche Menge von Variablen (mit V Σ = ), 3 P (V (Σ ΣV )) {(S, ε)} endliche Menge von Regeln,

κ(k) k K S Algorithmus zur Bestimmung eines spannenden Baumes mit minimalen Kosten (Kruskal, 1965).

Kapitel: Die Chomsky Hierarchie. Die Chomsky Hierarchie 1 / 14

Simulation. Lineare Regression Methode der kleinsten Quadrate (Excel-Matrix-Formel) Verknüpfung des Euler- und Newton-Verfahrens. Das Euler-Verfahren

Pollards Rho-Methode zur Faktorisierung

Kapitel 5: Einfaktorielle Varianzanalyse

Dank. 1 Ableitungsbäume. 2 Umformung von Grammatiken. 3 Normalformen. 4 Pumping-Lemma für kontextfreie Sprachen. 5 Pushdown-Automaten (PDAs)

Grundlagen der Theoretischen Informatik Musterlösungen zu ausgewählten Übungsaufgaben

4 Diskrete Wahrscheinlichkeitsverteilungen

Informatik I WS 07/08 Tutorium 24

LL(k)-Analyse. (y) folgt α = β. (x) = start k. (=l> ist ein Linksableitungsschritt)

Vorlesung 4 BETWEENNESS CENTRALITY

Übung zu Drahtlose Kommunikation. 9. Übung

Maschinelles Lernen Entscheidungsbäume

Übersicht Datenstrukturen und Algorithmen. Literatur. Algorithmus: Wikipedia Definition. Vorlesung 1: Einführung. Prof. Dr.

Probabilistische Primzahltests

Transkript:

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck

Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene Sprache: Part-of-Speech-Tagging, Informationsextraktion. Biologie: Finden von Genen in der DNA. 2

Markov-Prozesse X 1,..., X n : Zufallsvariablen. Allgemein gilt: Zufallsvariablen bilden eine Markovkette, gdw: Jede Variable X i nur von Vorgänger X i-1 abhängig. Markov-Modell: Probabilistischer endlicher Automat, Folge der Zustände ist Markov-Kette. (Andrei Markov, 1856-1922) 3

Markov-Modell Zustände 1,..., N (Folge der Zustände ist Markov-Kette), Transitionswahrscheinlichkeiten a ij ; Startwahrscheinlichkeiten π i. Zustand zur Zeit t: q t. Z.B. Wortartenerkennung ( Part-of-Speech Tagging ) P(Artikel, Nomen, Nomen, Verb)? 4

Hidden-Markov-Modell Folge der Zustände ist nicht sichtbar. Statt dessen: Zustände emittieren Beobachtungen O t (mit Wahrscheinlichkeit b i (O t )). 5

Hidden-Markov-Modell, Definitionen Zustände q t : Zustand zur Zeit t. Übergangswahrscheinlichkeiten Startwahrscheinlichkeiten Beobachtungswahrscheinlichkeiten HMM definiert durch Parameter 6

Markov-Annahmen Markov-Annahme für Zustandsfolgen: Markov-Annahme für Beobachtungen: 7

Drei Basisprobleme Problem 1: Likelihood einer Beobachtungsfolge: Wie gut passt ein Modell zu einer Beobachtungsfolge? Berechne Problem 2: Optimale Zustandskette finden: Welche Zustandskette hat die Beobachtung am wahrscheinlichsten erzeugt? Berechne P(q 1,...,q T O 1,...,O T,λ) Problem 3: Lernproblem Gegeben viele Beobachtungsfolgen, finde die Parameter des HMMs! Berechne argmax λ P({(O 1,...,O T ),...} λ) 8

Wie gut passt ein Modell zur Beobachtungsfolge? # Summanden = N T. Auswertung exponentiell in der Länge der Eingabe. Bei Auswertung werden dieselben Wahrscheinlichkeiten wiederholt berechnet Gesucht: polynomieller Algorithmus. Dynamische Programmierung: Zwischenergebnisse speichern. 9

Trellis Trellis: Array über Zustände x Zeit. Rekursive Hilfsvariablen 10

Forward Wahrscheinlichkeit einer initialen Beboachtungsfolge und eines Zustands: Theorem: Nach Theorem kann α durch dynamische Programmierung berechnet werden: Initialisiere α 1 (i). Für t von 2 bis T: berechne α t (i) unter Verwendung der schon bestimmten α t-1 (i). 11

Forward : Beweis Induktionsverankerung: Induktionsschritt t t+1 12

Forward : Termination Beweis: 13

Problem 1 gelöst Problem 1 ist gelöst, nämlich das Lösen von P(O 1,...,O T λ) kann nun effizient durchgeführt werden. Nächste Folien beschreiben Erweiterungen, die für Problem 3 benötigt werden. 14

Backward Theorem: Nach dem Theorem kann β durch dynamische Programmierung bestimmt werden: Initialisiere β T (i)=1. Für t von T-1 bis 1: bestimme β t (i) unter Verwendung der β t+1 (j). 15

Backward : Beweis Induktionsverankerung: 16

Backward : Beweis Induktionsschritt t+1 t 17

Forward Backward : Wahrscheinlichkeit eines Zustandes P(Zustand i zur Zeit t Beobachtungssequenz) 18

Forward-Backward-Algorithmus (Forward) Initialisiere (alle Zustände i) Für t von 1 bis T-1 Berechne (für alle j) Berechne (Backward) Initialisiere Für t von T-1 bis 1 Berechne (für alle i) Berechne (für alle i) N β i (t) = a ij b j (O t +1 )β t +1 ( j) j=1 19

Forward-Backward-Algorithmus Läuft mit quatratischem Aufwand Berechnet und 20

Welches Modell passt am besten? Bsp: Worterkennung. Ein HMM für jedes Wort, das erkannt werden soll. Gegeben: Sprachsignal (Beobachtungssequenz), gesucht: Welches der Wörter wurde gesagt? Likelihood durch Forward-Algorithmus, A-Priori- Wahrscheinlichkeit durch Abzählen der Worthäufigkeit in der Trainingsmenge. 21

Problem 2: Was ist die optimale Zustandskette? Beispiele: Part-of-Speech-Tagging, ein Zustand pro Part-of- Speech, Gensequenzanalyse, Zustände entsprechen Tags, mit denen das Genom annotiert werden soll. Möglichkeit 1: Welcher einzelne Zustand zur Zeit t passt am besten zur Beobachtungsfolge? Bestimmung durch Forward-Backward-Algorithmus Möglichkeit 2: Welche komplette Zustandsfolge passt am besten zur Beobachtungsfolge? Bestimmen mit Viterbi-Algorithmus 22

Viterbi-Algorithmus, Theorem Theorem: Beweis: Zustand zur Zeit t auf wahrscheinlichstem Pfad: 23

Viterbi-Algorithmus Initialisierung: Initialisierung: Für t von 1 bis T-1 und j von 1 bis N: Termination Für t von T-1 bis 1 Ausgabe der Zustandsfolge 24

Problem 3: Lernproblem Gegeben: Sammlung von Beobachtungsfolgen. Gesucht HMM-Parameter λ. Sichtbare Zustände Z.B. Part-of-Speech-Tagging: Jede Beobachtung ist mit dem zugehörigen Zustand markiert. Schätzen der Parameter durch Zählen der Starthäufigkeiten, Transitionen, Beobachtungen. Unsichtbare Zustände Z.B. Worterkennung: Nur Sprachsignal gegeben, Zustandsfolgen sind unbekannt. Lernen der Parameter durch Baum-Welch- Algorithmus. 25

Sichtbare Zustände Trainingsmenge Schätze = (#Beispielsequenzen k mit )/m Schätze a ij = (#Stellen mit ) / (#Stellen (k mit q ) t = i ) (k Schätze b i (O) = (#Stellen mit q ) t = i,o (k) t = O ) / (k (#Stellen mit q ) 1 = i ) 26

Unsichtbare Zustände Trainingsmenge Zustände unbekannt Forward-Backward kann Zustandswahrscheinlichkeiten berechnen, braucht dafür aber Modell, Können Modell schätzen (letzte Folie), brauchen dafür aber Zustandswahrscheinlichkeiten. 27

Baum-Welch-Algorithmus Wenn die Zustände der Beobachtungen bekannt wären, könnte man die Parameter durch Abzählen der Häufigkeiten in Trainingsmenge schätzen. Instanz des EM-Algorithmus. Beginne mit zufälligen Parametern und iteriere zwei Schritte bis zur Konvergenz Berechne die Zustände durch Forward-Backward- Algorithmus auf Grundlage des aktuellen Modells Schätze die Parameter des Modells auf Grundlage berechneter Zustände. 28

Baum-Welch-Algorithmus Hilfsvariable: Berechnung: 29

Baum-Welch-Algorithmus Trainingsmenge Zustände unbekannt 1. Initialisiere λ zufällig. 2. Wiederhole bis Konvergenz: Für alle k von 1 bis m Berechne die α, β, γ durch Forward-Backward Für i und j von 1 bis N, berechne ξ t (i,j) Schätze Schätze Schätze π i (k ) = γ 1 (i) a ij (k ) = ξ t (i, j) b i (k ) (O) = t t:o t =O γ t (i) γ t (i) 3. Mittle Schätzer für λ über m Beispiele und Wiederhole ab Schritt 2. t t γ t (i) 30

Problem 3 ist gelöst Problem 3 wird vom Baum-Welch Algorithmus gelöst. 31

Skalierung Forward-Backward und Viterbi multiplizieren viele Wahrscheinlichkeiten auf, numerisch kommt dabei schnell 0 heraus. Mit negativen Log-Wahrscheinlichkeiten arbeiten, statt mit Wahrscheinlichkeiten. Forward-Backward- und Viterbi lassen sich entsprechend umformulieren. 32