80 7 MARKOV-KETTEN. 7.1 Definition und Eigenschaften von Markov-Ketten

Ähnliche Dokumente
Proseminarvortrag. Markov-Ketten in der Biologie (Anwendungen)

Simulationsmethoden in der Bayes-Statistik

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

Klausur zur Vorlesung,,Algorithmische Mathematik II

Signalverarbeitung 2. Volker Stahl - 1 -

LANGZEITVERHALTEN VON MARKOW-KETTEN

9.2 Invertierbare Matrizen

Markovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse

4.4. Rang und Inversion einer Matrix

Lineare Gleichungssysteme (Teschl/Teschl 11.1)

Kapitel 6 Martingale

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

4 Lineare Algebra (Teil 2): Quadratische Matrizen

Die Taylorreihe einer Funktion

Lineare Gleichungssysteme

1 Definition. 2 Besondere Typen. 2.1 Vektoren und transponieren A = 2.2 Quadratische Matrix. 2.3 Diagonalmatrix. 2.

Grundlegende Eigenschaften von Punktschätzern

Vertiefung NWI: 13. Vorlesung zur Wahrscheinlichkeitstheorie

Satz 2.8.3: Sei Q eine Intensitätsmatrix. Dann hat die

Matrizen, Determinanten, lineare Gleichungssysteme

Korrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben:

ÜBUNGSBLATT 11 LÖSUNGEN MAT121/MAT131 ANALYSIS II FRÜHJAHRSSEMESTER 2011 PROF. DR. CAMILLO DE LELLIS

5.1 Determinanten der Ordnung 2 und 3. a 11 a 12 a 21 a 22. det(a) =a 11 a 22 a 12 a 21. a 11 a 21

(Man sagt dafür auch, dass die Teilmenge U bezüglich der Gruppenoperationen abgeschlossen sein muss.)

Stochastik und Statistik für Ingenieure Vorlesung 4

Lineare Abhängigkeit

1 Lineare Algebra. 1.1 Matrizen und Vektoren. Slide 3. Matrizen. Eine Matrix ist ein rechteckiges Zahlenschema

Kapitel 2: Matrizen. 2.1 Matrizen 2.2 Determinanten 2.3 Inverse 2.4 Lineare Gleichungssysteme 2.5 Eigenwerte 2.6 Diagonalisierung

MafI I: Logik & Diskrete Mathematik (Autor: Gerrit (-Arthur) Gruben)

Simulation von Zufallsvariablen und Punktprozessen

5 Zwei spieltheoretische Aspekte

Werner Sandmann: Modellierung und Analyse 4 1. Kapitel 4. Markovketten

Bayes sches Lernen: Übersicht

Surjektive, injektive und bijektive Funktionen.

Satz 16 (Multiplikationssatz)

Elemente von S n = Aut([1, n]) heißen Permutationen. Spezielle Permutationen sind Transpositionen und Zyklen. (Vergl. Skript S

Diskrete Verteilungen

Vorbereitungskurs Mathematik zum Sommersemester 2011 Tag 7

Die Varianz (Streuung) Definition

A2.3 Lineare Gleichungssysteme

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.

Freisetzen und Fixieren von Parametern in Strukturgleichungsmodellen

Scheinklausur Stochastik 1 für Studierende des Lehramts und der Diplom-Pädagogik

2. Repräsentationen von Graphen in Computern

Begriffe aus der Informatik Nachrichten

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

Einführung in die Bayes-Statistik. Helga Wagner. Ludwig-Maximilians-Universität München WS 2010/11. Helga Wagner Bayes Statistik WS 2010/11 1

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

Markov-Ketten-Monte-Carlo-Verfahren

Aufgaben zu Kapitel 14

4 Vorlesung: Matrix und Determinante

1 Grundprinzipien statistischer Schlußweisen

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

Kapitel VI - Lage- und Streuungsparameter

Diskrete Wahrscheinlichkeitstheorie - Probeklausur

Lösungen zum 5. Aufgabenblatt

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

8. Konfidenzintervalle und Hypothesentests

Stochastische Prozesse. Woche 5

Thema14 Der Satz über inverse Funktionen und der Satz über implizite Funktionen

Aufabe 7: Baum-Welch Algorithmus

Bestimmung einer ersten

Von englischen und deutschen Postämtern

I. Deskriptive Statistik 1

K8 Stetige Zufallsvariablen Theorie und Praxis

STOCHASTISCHE PROZESSE. Vorlesungsskript

Serie 10: Inverse Matrix und Determinante

Erinnerung/Zusammenfassung zu Abbildungsmatrizen

Definition der Entropie unter Verwendung von supp(p XY )

BONUS MALUS SYSTEME UND MARKOV KETTEN

Jürgen Roth Didaktik der Linearen Algebra & Analytischen Geometrie

3.3 Eigenwerte und Eigenräume, Diagonalisierung

4. Vektorräume und Gleichungssysteme

Mathematik: LehrerInnenteam Arbeitsblatt Semester ARBEITSBLATT 12. Erwartungswert, Varianz und Standardabweichung

Randomisierte Algorithmen

Kapitel 17. Determinanten

13. Klasse TOP 10 Grundwissen 13 Geradengleichungen 01

3.1.3 Newtonsche Interpolationsformel / Dividierte Differenzen

Eine zweidimensionale Stichprobe

Graphen: Einführung. Vorlesung Mathematische Strukturen. Sommersemester 2011

Algorithmen mit konstantem Platzbedarf: Die Klasse REG

00. Einiges zum Vektorraum R n

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Spezialfall: Die Gleichung ax = b mit einer Unbekannten x kann mit Hilfe des Kehrwerts 1 a = a 1 gelöst werden:

Mathematik 1. Inhaltsverzeichnis. Prof. Dr. K. Melzer.

Fragenkatalog Kapitel 1 Fehleranalyse

Dierentialgleichungen 2. Ordnung

1 Vorbemerkungen 1. 2 Zufallsexperimente - grundlegende Begriffe und Eigenschaften 2. 3 Wahrscheinlichkeitsaxiome 4. 4 Laplace-Experimente 6

Die Harmonische Reihe

Kapitel 10. Bayes sche Verfahren Einführung Das Theorem von Bayes

Prof. Dr. G. Wagner Ingenieurmathematik Begleittext Seite 1

Angewandte Stochastik

Lineare Gleichungssysteme

Stetige Funktionen, Binomischer Lehrsatz

Chi-Quadrat-Verteilung

35 Stetige lineare Abbildungen

Q4. Markov-Prozesse in diskreter Zeit

5 Eigenwerte und die Jordansche Normalform

Partitionen II. 1 Geometrische Repräsentation von Partitionen

Lineare Gleichungssysteme

Transkript:

80 7 MARKOV-KETTEN 7 Markov-Ketten 7. Definition und Eigenschaften von Markov-Ketten Sei X = (X 0, X, X 2,...) eine Folge von diskreten Zufallsvariablen, die alle Ausprägungen in einer endlichen bzw. abzählbaren Menge S haben. Dabei heißt S der Zustandsraum und s S ein Zustand. Man nennt X einen stochastischen Prozess. Definition 7. X heißt Markov-Kette, falls für alle n und für alle s, x 0, x,..., x n S gilt: P (X n = s X 0 = x 0, X = x,..., X n = x n ) = P (X n = s X n = x n ) In Worten bedeutet die obige Formel, dass, bedingt auf die gesamte Vergangenheit X 0, X,..., X n des Prozesses X, die Verteilung von X n nur vom letzten Wert X n = x n abhängt. Die Abhängigkeit der Werte lässt sich in einem graphischen Modell gut durch Pfeile darstellen: X 0 X X 2... X n X n Anders ausgedrückt: Bedingt auf die Gegenwart (X n ) ist die Zukunft des Prozesses (X n, X n,...) unabhängig von seiner Vergangenheit (X 0, X,..., X n 2 ). Hier wird implizit der Begriff der bedingten Unabhängigkeit von Zufallsvariablen verwendet: Definition 7.2 (Bedingt unabhängige Zufallsvariablen) Zwei diskrete Zufallsvariablen X und Y heißen bedingt unabhängig gegeben Z, wenn für die entsprechend definierten Wahrscheinlichkeitsfunktionen gilt f X,Y Z (x, y z) = f X Z (x z) f Y Z (y z) für alle x, y und z aus den entsprechenden Trägern. Die Entwicklung einer Markov-Kette X (d.h. die Abfolge der Werte, welche X annimmt) ist gekennzeichnet durch die (Ein-Schritt) Übergangswahrscheinlichkeit von einem Zustand i in den Zustand j P (X n+ = j X n = i) für alle i, j S

7. Definition und Eigenschaften von Markov-Ketten 8 Man nennt eine Markov-Kette homogen, wenn diese Wahrscheinlichkeit nicht von n abhängt und definiert: p ij = P (X n+ = j X n = i) = P (X = j X 0 = i) Die Werte p ij werden in einer S S -Matrix P zusammengefasst, der sogenannten Übergangsmatrix. P ist eine stochastische Matrix, d.h. sie hat folgende Eigenschaften:. p ij 0 für alle i, j S 2. j p ij = für alle i S, d.h. die Zeilen addieren sich zu eins. Beispiel 7. Sei S = {, 2} und P = ( 0.9 0. 0.4 0.6 ) Beispiel 7.2 Der Zustandsraum sind die vier Basen (Adenin, Cytosin, Guanin, Thymin) der DNA, d.h. S = {A, C, G, T }. Die folgende geschätzte Übergangsmatrix kann erhalten werden, wenn man beim Ablaufen der DNA die relativen Häufigkeiten der einzelnen Übergänge zählt. P = 0.00 0.205 0.285 0.20 0.22 0.298 0.078 0.02 0.248 0.246 0.298 0.208 0.77 0.29 0.292 0.292 P beschreibt also die Kurzzeitentwicklung (Ein-Schritt-Übergangswahrscheinlichkeiten) einer homogenen Markov-Kette X. Die Langzeitentwicklung (n- Schritt-Übergangswahrscheinlichkeiten) ist durch die n-schritt-übergangsmatrix P (m, m + n) mit Elementen p ij (m, m + n) = P (X m+n = j X m = i) gekennzeichnet. Für eine homogene Markov-Kette vereinfacht sich diese zu p ij (n) = P (X n = j X 0 = i). Dann gilt offensichtlich P (m, m + ) = P Durbin et al. (998) Biological sequence analysis, p. 50

82 7 MARKOV-KETTEN und wir schreiben P n = P (m, m + n). Wie aber berechnet man P n? Für eine homogene Markov-Kette X gilt: p ij (m, m + n + r) = P (X m+n+r = j X m = i) = P (X m+n+r = j, X m+n = k X m = i) = Markov = = k P (X m+n+r = j X m+n = k, X m = i) P (X m+n = k X m = i) k P (X m+n+r = j X m+n = k) P (X m+n = k X m = i) k p ik (m, m + n)p kj (m + n, m + n + r) k Schreibt man diese Beziehung in Matrizenform so erhält man die Chapman- Kolmogorov-Gleichung: P (m, m + n + r) = P (m, m + n) P (m + n, m + n + r) Nun kann man auch P n berechnen: P n = P (m, m + n) = P (m, m + + (n )) = P (m, m + ) P (m +, m + n) = P P (m +, m + n) =... = P n Hierbei ist P n die n-te Potenz von P. Das heißt die n-schritt-übergangsmatrix P n erhält man durch n-faches Potenzieren der Matrix P. Beispiel 7. (2-Schritt-Übergangsmatrix für Beispiel 7.) Die 2-Schritt-Übergangsmatrix P 2 entspricht der 2-ten Potenz von P : ( ) ( ) ( ) 0.9 0. 0.9 0. 0.85 0.5 P 2 = P 2 = = 0.4 0.6 0.4 0.6 0.6 0.4 Dabei berechnet sich z.b. der Eintrag p 2 (2) in P 2 folgendermaßen: P (X n+2 = X n = 2) = P (X n+ = 2 X n = 2) P (X n+2 = X n+ = 2) + P (X n+ = X n = 2) P (X n+2 = X n+ = ) = 0.6 0.4 + 0.4 0.9 = 0.6

7. Definition und Eigenschaften von Markov-Ketten 8 Sei nun X eine Markov-Kette mit Übergangsmatrix P, welche sich zum Zeitpunkt t im Zustand i S befindet. Die Dauer bis zum nächsten Zustandswechsel T i, d.h. die Dauer bis die Markov-Kette in einen anderen Zustand als i übergeht, ist offensichtlich geometrisch verteilt mit Parameter p ii : T i G( p ii ). Später werden wir diese nützliche Eigenschaft für einen Modellanpassungstest verwenden, bei dem wir die theoretischen Dauern bis zum nächsten Zustandswechsel (berechnet auf der Basis des geschätzten Markov-Modells) mit den beobachteten Dauern vergleicht. Um die Entwicklung einer Markov-Kette vollständig zu spezifizieren, muss neben der Übergangsmatrix P noch die sogenannte Anfangsverteilung für X 0 angegeben werden, in der festgelegt wird, mit welcher Wahrscheinlichkeit die Markov-Kette in dem jeweiligen Zustand startet. Die Wahrscheinlichkeitsfunktion für X 0 bezeichnet man mit dem Zeilenvektor µ (0) mit den Elementen µ (0) i = P (X 0 = i) für i S. Die unbedingte Wahrscheinlichkeitsfunktion von X n fasst man entsprechend in dem Zeilenvektor µ (n) zusammen und es gilt offensichtlich: und somit: µ (m+n) = µ (m) P n µ (n) = µ (0) P n Die gemeinsame Wahrscheinlichkeitsverteilung von X 0,..., X n ist gegeben durch P (X 0 = x 0, X = x,..., X n = x n ) n = P (X 0 = x 0 ) P (X t = x t X t = x t ) = µ (0) x 0 n t= t= p xt,x t Diese ist wichtig für die Schätzung der Übergangsmatrix bei Beobachtung einer Realisation aus einer Markov-Kette. Im Folgenden werden nun drei Beispiele für Markov-Ketten behandelt: Beispiel 7.4 (Inzucht) Inzucht bedeutet hier, dass eine Pflanze, welche einen der drei Genotypen {aa, ab, bb} besitzen kann, mit sich selbst gekreuzt wird. Die Zufallsvariable

84 7 MARKOV-KETTEN X n gibt den Genotyp in der n-ten Generation an. Die Markov-Kette hat damit den Zustandsraum: und die folgende Übergangsmatrix S = {aa, ab, bb} P = 0 0 4 2 4 0 0 Die Übergänge von ab zu den anderen Zuständen lassen sich beispielsweise so berechnen: Man kreuzt ab ab und erhält für die verschiedenen Keimzellkombinationen folgende Genotypen für die Tochtergeneration: a b a aa ab b ab bb Die Nachkommen haben also mit einer Wahrscheinlichkeit von /4 den Genotyp aa /2 den Genotyp ab /4 den Genotyp bb Das entspricht genau den Übergängen in P. Man kann zeigen, dass P n = ( 2 0 0 n+ ( ) n 2) ( 2 2 2 0 0 ) n+ n 0 0 2 0 2 0 0 d.h. letztendlich bleiben nur die Genotypen aa und bb übrig, die sich dann deterministisch reproduzieren. Beispiel 7.5 (Genhäufigkeit in Population konstanter Größe N) Die Zufallsvariable X n = i gibt die Anzahl der Individuen einer Population mit bestimmten Genotyp zum Zeitpunkt n an.

7. Definition und Eigenschaften von Markov-Ketten 85 Ein einfaches Modell nimmt an, dass zu jedem Zeitpunkt ein zufälliges Mitglied der Population stirbt. Das nachrückende Mitglied hat den betrachteten Genotyp mit Wahrscheinlichkeit i N. Damit ergibt sich für die Einträge p ij in P : p ij = i (N i) N N = i(n i) für j = i ± N 2 für j = i 2 i(n i) N 2 0 sonst P hat eine tri-diagonale Struktur, d.h. die Hauptdiagonale und zwei Nebendiagonalen enthalten Werte 0 und sonst enthält die Matrix nur Nullen. Die obige Formulierung beinhaltet auch die beiden Grenzfälle X n = 0 und X n = N. Beispiel 7.6 (Modelle für Epidemien Verzweigungsprozesse) Die Zufallsvariable X n gibt die Anzahl der Infizierten in einer Generation n an. Der Zustandsraum S ist S = {0,,...} Die Idee des Modells beinhaltet, dass jeder Infizierte (unabhängig von den anderen) eine zufällige Anzahl Infizierter in der nächsten Generation erzeugt und zwar mit Erwartungswert λ, z.b. könnte die Anzahl Poissonverteilt sein. Dann ist X n X n P(λ X n ). Ein wichtiger Satz ist das Schwellenwerttheorem, das wir hier nur verkürzt wiedergeben: Für λ < wird jede Epidemie mit Wahrscheinlichkeit irgendwann aussterben, d.h. X n wird für großes n gleich Null sein. Die Wahrscheinlichkeit dass der Prozess explodiert ist also gleich Null. Für λ > hingegen ist die Wahrscheinlichkeit, dass die Epidemie explodiert, echt größer Null.

86 7 MARKOV-KETTEN 7.2 Klassifikation von Zuständen und Markov-Ketten Definition 7. (Rekurrenz) Ein Zustand i S einer Markov-Kette heißt rekurrent oder auch persistent, falls P (X n = i für irgend ein n X 0 = i) = Ansonsten heißt der Zustand transient. Eine Markov-Kette X kehrt also in einen rekurrenten Zustand mit Wahrscheinlichkeit zurück. Genauer definiert man f ij (n) = P (X j, X 2 j,..., X n j, X n = j X 0 = i) und definiert den Zustand i als rekurrent, falls f ii =, wobei f ij = f ij (n) n= Ein Zustand i heißt absorbierend, falls die Markov-Kette sobald sie diesen Zustand eingenommen hat, ihn nicht mehr verlassen kann, d.h. wenn p ij = 0 für alle j i. Beispiel 7.7 Die beiden Zustände der Markov-Kette mit folgender Übergangsmatrix sind rekurrent: ( ) 0.6 0.4 P = 0. 0.7 Dagegen sind die Zustände und 2 bei der Übergangsmatrix der nächsten Markov-Kette rekurrent und die anderen beiden transient, denn falls z.b. die Markov-Kette vom Zustand in den Zustand 2 übergeht, kann sie nicht mehr in den Zustand zurückkehren. P = 0.6 0.4 0 0 0. 0.7 0 0 0 0. 0.5 0.2 0 0 0.9 0. In Beispiel 7.6 (Poisson-Verzweigungsprozess) ist der Zustand 0 rekurrent, ja sogar absorbierend, da X diesen Zustand nie verlässt. Alle anderen Zustände sind transient. Hat man einen Zustand als rekurrent klassifiziert, so interessiert auch noch die Frage, wie lange es dauert, bis die Markov-Kette wieder in diesen Zustand zurückkehrt.

7.2 Klassifikation von Zuständen und Markov-Ketten 87 Definition 7.4 (Erwartete Rekurrenzzeit) Die erwartete Rekurrenzzeit eines Zustands i ist: { µ i = n nf ii(n) falls i rekurrent ist falls i transient ist Ein rekurrenter Zustand i heißt nicht-leer, falls seine erwartete Rekurrenzzeit endlich ist. Ansonsten heißt er leer. Zwischen den Übergangswahrscheinlichkeiten p ij (n) und der Leerheit eines rekurrenten Zustands besteht folgender Zusammenhang: Ein rekurrenter Zustand i ist genau dann leer, wenn Dann gilt sogar p ii (n) 0 für n p ji (n) 0 für n für alle j S Definition 7.5 (Periode) Die Periode ξ eines Zustandes i ist der größte gemeinsame Teiler der Menge {n : p ii (n) > 0} Man nennt den Zustand i periodisch, falls ξ > und aperiodisch falls ξ =. Haben alle Zustände einer Markov-Kette Periode, so heißt sie aperiodisch. Ein Zustand i heißt ergodisch, falls er rekurrent nicht-leer und aperiodisch ist. Sind alle Zustände von X ergodisch, so heißt X ergodisch. Beispiel 7.8 Die drei Zustände der Markov-Kette mit der folgenden Übergangsmatrix haben Periode, da die Markov-Kette nach genau drei Schritten wieder in den ursprünglichen Zustand zurückkehrt. Die Markov-Kette ist damit nicht aperiodisch. 0 0 P = 0 0 0 0 Bei der Markov-Kette mit der nächsten Übergangsmatrix sind beide Zustände aperiodisch und damit ist auch die Markov-Kette aperiodisch. ( ) 0 P = 0. 0.7

88 7 MARKOV-KETTEN Definition 7.6 (Irreduzible Zustände) Zwei Zustände i j einer Markov-Kette X kommunizieren miteinander, falls f ij > 0 und f ji > 0. Schreibweise: i j Ein Zustand i kommuniziert per definitionem immer mit sich selber: i i Eine Menge C S heißt irreduzibel, falls i j für alle i, j C. Eine Menge C S heißt geschlossen, falls p ij = 0 für alle i C und j C. Beispiel 7.9 Folgende Markov-Ketten haben einen reduziblen Zustandsraum: P = 2 2 2 0 2 0 0 0 P 2 = 0 0 In P 2 zum Beispiel kommunizieren nicht alle Zustände miteinander: Die Wahrscheinlichkeit vom Zustand in Zustand 2 oder zu kommen ist 0. Dagegen ist der Zustandsraum S der Markov-Kette P irreduzibel, da die Wahrscheinlichkeit von einem Zustand i irgendwann nach Zustand j zu kommen echt positiv ist für alle i, j S: P = 0 2 Satz 7. (Zerlegungssatz) Der Zustandraum S einer Markov-Kette X lässt sich zerlegen in 2. eine Menge T mit transienten Zuständen und 2. mehrere Mengen C k, die irreduzibel und geschlossen sind. Also S = T C C 2... Ferner gilt folgendes Lemma: Wenn S endlich ist, dann ist mindestens ein Zustand rekurrent, und alle rekurrenten Zustände sind nicht-leer. Beispiel 7.0 Eine Markov-Kette habe den Zustandsraum S = {, 2,, 4, 5, 6} und die

7.2 Klassifikation von Zuständen und Markov-Ketten 89 Übergangsmatrix P = 0.5 0.5 0 0 0 0 0.25 0.75 0 0 0 0 0.25 0.25 0.25 0.25 0 0 0.25 0 0.25 0.25 0 0.25 0 0 0 0 0.5 0.5 0 0 0 0 0.5 0.5 Bestimme nun die Periode jedes Zustands, transiente Zustände und ergodische Zustände, sowie die Zerlegung des Zustandsraumes:. alle Zustände haben die Periode die Markov-Kette ist aperiodisch 2. die Zustände und 4 sind transient und die anderen sind rekurrent. die Zustände,2,5 und 6 sind ergodisch 4. Zerlegung des Zustandsraumes S = T C C 2 mit T = {, 4} C = {, 2} C 2 = {5, 6}

90 7 MARKOV-KETTEN 7. Die stationäre Verteilung und das Grenzwerttheorem Definition 7.7 Eine Wahrscheinlichkeitsverteilung π (Zeilenvektor) mit Einträgen (π j : j S) heißt stationäre Verteilung einer Markov-Kette X mit Übergangsmatrix P, falls gilt: π j = i π i p ij oder in Matrixnotation: π = π P (6) Interpretation der stationären Verteilung: Hat die Markov-Kette X die Verteilung π zu einem gewissen Zeitpunkt n, dann auch im nächsten Zeitpunkt n + und sogar in allen nachfolgenden Zeitpunkten i = n + 2, n +,... Denn es gilt z.b. für i = n + 2: π P 2 = (πp )P (6) = πp (6) = π Oft wählt man für die Anfangsverteilung µ 0 die stationäre Verteilung, d.h. µ 0 = π. Im folgenden betrachten wir ausschließlich irreduzible Markov-Kette (Zustandsraum S ist irreduzibel). Satz 7.2 (Satz über die stationäre Verteilung) Eine irreduzible Markov-Kette hat eine stationäre Verteilung π genau dann, wenn alle Zustände nicht-leer rekurrent sind. In diesem Fall ist π eindeutig und gegeben durch π i = /µ i wobei µ i die erwartete Rekurrenzzeit des Zustands i ist. Bei endlichem Zustandsraum gilt dann: π = (I P + U) wobei I die Einheitsmatrix und ein Zeilenvektor mit Einsen ist und die Matrix U nur Elemente gleich eins hat. Für eine Markov-Kette mit 2 Zuständen lässt sich die stationäre Verteilung leicht durch eine Formel ermitteln: Sei die noch unbekannte stationäre Verteilung gegeben durch π = (π, π 2 ) = (π, π )

7. Die stationäre Verteilung und das Grenzwerttheorem 9 und die Übergangsmatrix ist: ( ) p2 p P = 2 p 2 p 2 Um π zu berechnen wendet man die Formel π = π P an: ( p2 p π = π P (π, π ) = (π, π ) 2 p 2 p 2 In der ersten Spalte der Gleichung ergibt sich für π : ) π = π ( p 2 ) + ( π )p 2 = p 2 + p 2 Damit lässt sich auch π 2 berechnen: = π π p 2 + p 2 π p 2 p 2 π 2 = π = p 2 p 2 + p 2 = p 2 + p 2 Die zweite Spalte ergibt die gleiche Lösung: ( ) p2 p 2 π = (π, π 2 ) =, p 2 + p 2 p 2 + p 2 Beispiel 7. (Berechnung einer stationären Verteilung) Für die Markov-Kette mit folgender Übergangsmatrix ( ) 0.9 0. P = 0.4 0.6 soll die zugehörige stationäre Verteilung berechnet werden. Auf einfachstem Wege lässt sich dieses Ziel erreichen, wenn man die Werte in die eben ausgerechnete Formel (7) einsetzt: ( 0.4 π = (π, π 2 ) = 0.5, 0. ) = (0.8, 0.2) 0.5 Die erwarteten Rekurrenzzeiten sind demnach µ = 5/4 für Zustand und µ 2 = 5 für Zustand 2. Eine weitere Möglichkeit zur Berechnung wurde im Satz 7.2 beschrieben: π = (I P + U) [( ) 0 = (, ) 0 Weitere Rechnung in R: p 2 ( 0.9 0. 0.4 0.6 ) + ( )] (7)

92 7 MARKOV-KETTEN > i <- matrix(c(, 0, 0, ), nrow = 2, ncol = 2, byrow = TRUE) > p <- matrix(c(0.9, 0., 0.4, 0.6), nrow = 2, ncol = 2, byrow = T) > u <- matrix(c(,,, ), nrow = 2, ncol = 2, byrow = TRUE) > m <- i - p + u > m [,] [,2] [,]. 0.9 [2,] 0.6.4 > m_invers <- solve(m) > m_invers [,] [,2] [,].4-0.9 [2,] -0.6. > einser <- c(, ) > stat_vtlg <- crossprod(einser, m_invers) > stat_vtlg [,] [,2] [,] 0.8 0.2 Wie sieht die stationäre Verteilung für die Markov-Kette mit dieser Übergangsmatrix aus: 0 0 P = 0 0 0 0 Alle Zustände sind periodisch mit Periode, die erwartete Rekurrenzzeit beträgt damit jeweils /. Daher ergibt sich für π = (,, ). Reversible Markov-Ketten Sei X = (X 0,..., X N ) eine reguläre Markov-Kette mit Übergangsmatrix P und stationärer Verteilung π, die X auch zu jedem Zeitpunkt n = 0,..., N besitze. Definiere nun Y = (X N,..., X 0 ) mit Y n = X N n. Dann ist Y auch eine Markov-Kette mit den Übergangswahrscheinlichkeiten P (Y n+ = j Y n = i) = (π j /π i )p ji

7. Die stationäre Verteilung und das Grenzwerttheorem 9 Beweis der Markov-Eigenschaft für Y : Sei also Y n = X N n. Dann gilt: P (Y n+ = i n+ Y n = i n,..., Y 0 = i 0 ) = P (Y k = i k, 0 k n + ) P (Y k = i k, 0 k n) = P (X N (n+) = i n+, X N n = i n,..., X n = i 0 ) P (X N n = i n,..., X n = i 0 ) P (X N (n+) = i n+, X N n = i n,..., X n = i 0 ) = P (X N n = i n )P (X N (n ) = i n X N n = i n )... P (X n = i 0 X N = i ) = π i n+ p in+ i n... p i i 0 π in p ini n... p i i 0 = π i n+ π in p in+ i n Y ist Markov-Kette Definition 7.8 Man sagt nun X ist reversibel, falls X und Y identische Übergangswahrscheinlichkeiten haben, d.h. falls i, j S gilt: Man sagt: X ist in local balance. π i p ij = π j p ji Beispiel 7.2 (Reversible Markov-Kette) Sei die Übergangsmatrix der Markov-Kette X gegeben als ( ) 0.9 0. P = 0.4 0.6 von der bereits die stationäre Verteilung bekannt ist: P = π = (0.8, 0.2) Berechnet man die Übergangsmatrix P von der Markov-Kette Y ( 0.8 0.2 0.9 0.4 ) 0.8 0.8 = 0.8 0.2 ( 0.9 0. 0.4 0.6 0.2 0. 0.6 0.2 ) so stellt man fest, dass P und P übereinstimmen. Daher ist die Markov- Kette X reversibel.

94 7 MARKOV-KETTEN Satz 7. Alle irreduziblen Markov-Ketten mit zwei Zuständen sind reversibel. Beweis: z.z. π i p ij = π j p ji i, j {, 2} Wie bereits bewiesen, haben π und π 2 folgende Werte: π = Fall (a) i = j = ist trivial p 2 p 2 + p 2 und π 2 = Fall (b) i = j = 2 ebenfalls trivial Fall (c) i =, j = 2: p 2 π = p 2 Fall (d) i = 2, j = ist analog Fall (c) p 2 p 2 + p 2 p 2 p p 2 +p 2 = p 2 2 p 2 +p 2 = p 2 π 2 Außerdem sind Markov-Ketten mit tri-diagonaler (nur die Haupt- und zwei Nebendiagonalen sind besetzt, alle anderen Werte sind 0) Übergangsmatrix P reversibel, z.b. der random walk auf endlichem Zustandsraum S = {0,,..., b} oder der Prozess aus Beispiel 7.5 (Stichwort: Genhäufigkeit in Population konstanter Größe). Graphen-orientierte Interpretation der Reversibilität: Knoten in einem Netzwerk sind Zustände, Pfeile zwischen Knoten i und j implizieren dass p ij > 0. Jeder Knoten i habe anfänglich Anteil π i eines Materials. Ein Knoten i liefert in einem Zeitschritt den Anteil p ij eines bestimmten Materials nach j. global balance : j π jp ji = π i, da π = πp local balance : π i p ij = π j p ji, d.h. der Anteil der von i nach j transportiert wird ist gleich dem Anteil der von j nach i transportiert wird Es gilt aus local balance folgt global balance. Satz 7.4 Sei X eine irreduzible Markov-Kette mit Übergangsmatrix P. Ferner gebe es eine Verteilung π mit π i p ij = π j p ji für alle i, j S. Dann ist π die stationäre Verteilung und X ist bzgl. π reversibel.

7. Die stationäre Verteilung und das Grenzwerttheorem 95 Beweis: π i p ij = i i π j p ji = π j p ji = π j i Satz 7.5 (Grenzwerttheorem) Eine irreduzible und aperiodische Markov-Kette konvergiert gegen ihre stationäre Verteilung π für n und alle i: p ij (n) π j = µ j bzw. P n = P n π π... π und daher µ (0) P n π für alle µ (0), da gilt: µ (0) P n = (µ,..., µ m )P n (( ) ( ) ) n = µ i π,..., µ i π m = (π,..., π m ) = π i Wichtig ist es zu betonen, dass Satz 7.5 nur für irreduzible und aperiodische Markov-Kette gilt. Denn betrachtet man die folgende Markov-Kette X mit Übergangsmatrix 0 0 P = 0 0 0 0 dann stellt man fest, dass diese Kette periodisch (Periode ) ist und damit die stationäre Verteilung π = (/, /, /) hat. Für n konvergiert P aber nicht gegen π. i

96 7 MARKOV-KETTEN 7.4 Inferenz für Markov-Ketten Mit Hilfe der Inferenz können bei einer Markov-Kette X z.b. die Übergangswahrscheinlichkeiten zwischen den einzelnen Zuständen (Einträge in der S S Übergangsmatrix P ) basierend auf einer (oder mehrerer) Realisationen von X geschätzt werden. Dabei scheint es plausibel zu sein, die Übergangswahrscheinlichkeiten p ij durch die entsprechenden Übergangshäufigkeiten ˆp ij = n ij n i zu schätzen, wobei n ij die Anzahl der beobachteten Übergänge von Zustand i nach j (i, j S) ist und n i = j n ij. Diese intuitiven Schätzer sind auch die ML-Schätzer, was im Folgenden hergeleitet wird. Grundlage ist die Realisation X 0 = x 0, X = x,..., X N = x N von X. Die Likelihood berechnet sich somit als L(P ) = µ (0) x 0 Die Log-Likelihood lautet dann n t= p xt,x t = µ (0) x 0 i,j p n ij ij l(p ) = log(µ (0) x 0 ) + i,j n ij log(p ij ) Es tritt nun das Problem auf, dass mehrere Parameter in θ = P durch Maximierung der Log-Likelihood l(p ) geschätzt werden müssen und noch zusätzlich die Restriktion p ij = j für alle i zu berücksichtigen ist. Daher wird die Lagrangesche Multiplikatorenmethode angewendet: Dabei wird ) l (P ) = log(µ (0) x 0 ) + i,j n ij log(p ij ) i λ i ( j p ij maximiert, indem die partiellen Ableitungen nach p ij dl (P ) p ij = n ij p ij λ i

7.4 Inferenz für Markov-Ketten 97 gebildet werden. Werden diese Ableitungen gleich Null gesetzt, so erhält man Durch Summation über j folgt n ij = λ i p ij λ i = j n ij = n i und schließlich ˆp ij = n ij n i. Damit hat man nun gezeigt, dass die ML-Schätzer der Übergangswahrscheinlichkeiten die relativen Häufigkeiten der Übergänge in der vorliegenden Realisation sind.

98 7 MARKOV-KETTEN 7.5 Hidden Markov Modell In diesem Kapitel werden wir eine Verallgemeinerung von Markov-Ketten, die so genannten Hidden Markov Modelle kennenlernen. Hierbei trennt man die im Modell vorhandenen Zustände und die nach außen sichtbaren Ereignisse voneinander (bei Markov-Ketten waren diese identisch). Anwendungen finden Hidden Markov Modelle in verschiedenen Bereichen wie beispielsweise in der Ökonometrie, der Genetik (DNA-Sequenzierung, Stammbaumanalyse), der Spracherkennung etc. Die latenten Parameter X = (X,..., X N ) folgen einer (homogenen) Markovkette mit diskretem Zustandsraum S mit Übergangsmatrix P mit p ij = P (X t = j X t = i) Anfangsverteilung π mit π i = P (X 0 = i) (oft impliziert durch π = πp ) Die Beobachtungen y t x t = s sind bedingt unabhängig aus einer Verteilung mit Wahrscheinlichkeitsfunktion/Dichte f s (y t ) mit Parametern θ s, welche z.b.: eine diskrete Verteilung mit Missklassifizierungswahrscheinlichkeiten p s sein kann, oder auch eine Poissonverteilung mit Raten λ s Bemerkung: Hidden Markov Modelle liefern eine realistischere Modellierung als eine direkte Modellierung der Beobachtung als homogene Markov-Kette. Beispiel 7. (Verrauschtes binäres Signal) Das empfangene Signal entspricht den zur Verfügung stehenden Daten: y = (2 2 2 2 2 2 2 2 2 2) Die Größe des Zustandsraumes S = 2, da S = {, 2}. Weiter gilt N = 20. Außerdem ist die Matrix mit den Übergangswahrscheinlichkeiten für X gegeben: ( ) 0.75 0.25 P X = 0.25 0.75 Daraus ergibt sich als stationäre Verteilung: π = ( 0.5 0.5 )

7.5 Hidden Markov Modell 99 Weiter ist die Verteilung von Y gegeben X bekannt: f(y t = x t = ) = 0.8 f(y t = x t = 2) = 0.2 (Verrauschung) f(y t = 2 x t = ) = 0.2 (Verrauschung) f(y t = 2 x t = 2) = 0.8 Ziel der statistischen Inferenz ist nun die Restauration der Sequenz X: x = (????????????????????) Bei der Inferenz mit festen Hyperparametern gilt, dass P, π und θ (Verteilung von Y gegeben X) fest sind. Ziel ist es, eine möglichst genaue Schätzung der latenten Zustände x = (x,..., x N ) anzugeben. Die Posteriori-Verteilung f(x y) berechnet sich wie folgt: f(x y) = f(x, y)/f(y) f(x, y) N = π x t=2 p xt x t } {{ } f(x) N f xt (y t ) t= } {{ } f(y x) Das Problem, das sich hierbei ergibt, ist, dass es S N (!) unterschiedliche Sequenzen x gibt. Folgende Methoden liefern einen Posteriori-Modus-Schätzer (MAP-Schätzer): Viterbi-Algorithmus von Viterbi (967): Dies ist ein rekursiver Algorithmus zur Maximierung von f(x, y) bzgl. x, welcher numerisch sehr effizient ist: O( S 2 N) Simulated annealing von Kirkpatrick, Gelatt & Vecchi (98) Beispiel 7.4 (Fortsetzung von Beispiel 7.) Für die Daten y = (2 2 2 2 2 2 2 2 2 2) ergeben sich folgende Schätzer für die ursprüngliche Nachricht x:

00 7 MARKOV-KETTEN Schätzer von x post. Wkeit P (x y) ˆx MAP = (2 2 2 2 2 2 2 2 2) 0.004 ˆx MAP 2 = (2 2 2 2 2 2 2 2 2 2 2) 0.004 ˆx MP M = (2 2 2 2 2 2 2 2 2 2) 0.05 y = (2 2 2 2 2 2 2 2 2 2) 0.0027 Hierbei bezeichnet ˆx MP M den marginalen Posteriori Modus, d.h. jedes x i, i =,..., 20, in ˆx MP M hat marginale Posteriori-Wahrscheinlichkeit P (x i y) > 0.5. Seinen nun bestimmte Hyperparameter θ unbekannt, wie beispielsweise die Übergangsmatrix P oder die Verteilung f(y i x i ). Zum Schätzen der unbekannten Hyperparameter kommen folgende Ansätze zum Tragen: Klassische Likelihood-Ansätze maximieren die (marginale) Likelihood f(y) = f(y θ) bezüglich θ, z.b. mit dem Baum-Welch-Algorithmus (iterativer (EM-)Algorithmus zur Maximierung von f(y θ)) von Baum et al. (970) und Dempster, Laird & Rubin (977). Problematisch ist hierbei die Berechnung von f(y θ) = f(x, y θ), x da die Anzahl der Summanden im Allgemeinen sehr gross ist. Bayesianische Ansätze verwenden zusätzliche priori-verteilungen f(θ) und simulieren aus der Posteriori-Verteilung f(x, θ y) f(x, y θ) f(θ) mit Markov-Ketten Monte Carlo (MCMC) Verfahren Beispiel 7.5 (Fortsetzung von den Beispielen 7. und 7.4) Die Daten waren: y = (2 2 2 2 2 2 2 2 2 2) Bisher war P X bekannt: P X = ( 0.75 0.25 0.25 0.75 ) bekannt Seinen nun die Einträge in P X unbekannt: ( ) p p P X = unbekannt p 2 p 22 Die marginale Likelihood L(p, p 22 ) der Diagonalelemente p und p 22 ist in folgender Graphik dargestellt. Die ML-Schätzungen sind ˆp = 0.85 und ˆp 22 = 0.78.

7.5 Hidden Markov Modell 0 p 22 0.0 0.2 0.4 0.6 0.8.0 0.0 0.2 0.4 0.6 0.8.0 p Abbildung 8: Marginale Likelihood L(p, p 22 ) dargestellt als Contour-Plot.