7 Markov-Ketten. 7.1 Grundlegendes zu Markov-Ketten

Ähnliche Dokumente
9 Schnell mischende Markov-Ketten

Markov-Ketten: Simulation von Gaspartikeln im Raum

16.3 Rekurrente und transiente Zustände

Einführung in Markoff-Ketten

Mustererkennung: Graphentheorie

Ein Zustand i mit f i = 1 heißt rekurrent. DWT 2.5 Stationäre Verteilung 420/476 c Ernst W. Mayr

Der Ergodensatz. Hendrik Hülsbusch

Gambler s Ruin. B ist die Bank ) 4/40

Endliche Markov-Ketten - eine Übersicht

DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 400/467 Ernst W. Mayr

Einführung in die Theorie der Markov-Ketten. Jens Schomaker

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.

H.J. Oberle Differentialgleichungen I WiSe 2012/ Stabilität. Wir betrachten ein allgemeines DGL-System erster Ordnung:

Übungsaufgaben Lösungen

Satz 324 Sei M wie oben. Dann gibt es für ein geeignetes k Konstanten c i > 0 und Permutationsmatrizen P i, i = 1,...

Graphentheorie (Teschl/Teschl 15-17)

Die Abbildung zeigt die Kette aus dem "

Am Dienstag, den 16. Dezember, ist Eulenfest. 1/45

Markov Ketten und Bonus Malus Systeme

Kapitel 4: Irreduzible und aperiodische Markov Ketten 1

1 Umkehrfunktionen und implizite Funktionen

Folie zur Vorlesung Wahrscheinlichkeitsrechnung und Stoch. Prozesse

Kapitel 5: Minimale spannende Bäume Gliederung der Vorlesung

Wiederholung zu Flüssen

Markov-Ketten 1. Definition 2.1

Cauchy-Folgen und Kompaktheit. 1 Cauchy-Folgen und Beschränktheit

2. Entsprechende Listen P i von Vorgängern von i 3. for i := 1 to n do. (ii) S i = Knoten 2 + 1}

Am Dienstag, den 16. Dezember, ist Eulenfest. 1/48

L7 Diagonalisierung einer Matrix: Eigenwerte und Eigenvektoren. Gegeben. Gesucht: Diagonalform: Finde und! Definition: Eigenvektor, Eigenwert

Angewandte Stochastik

Kapitel 5 KONVERGENZ

= n (n 1) 2 dies beruht auf der Auswahl einer zweielementigen Teilmenge aus V = n. Als Folge ergibt sich, dass ein einfacher Graph maximal ( n E = 2

Markov-Prozesse. Markov-Prozesse. Franziskus Diwo. Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes

Das Pagerank-Verfahren (und Markovketten) 16. Dezember 2013

mathematik und informatik

Gleichgewicht in nichtlinearen Systemen

Vorlesung: Nicht-kooperative Spieltheorie. Teil 4: 2-Personen-Nullsummenspiele

Das Briefträgerproblem

Graphentheorie Graphentheorie. Grundlagen Bäume Eigenschaften von Graphen Graphen-Algorithmen Matchings und Netzwerke

Markov-Ketten und Google s Page-Rank 1 / 70

Euklidische und unitäre Vektorräume

Markov-Ketten und Google s Page-Rank 1 / 70

Kapitel 1. Vektoren und Matrizen. 1.1 Vektoren

Vektoren und Matrizen

Freie Bäume und Wälder

Lineare Algebra für D-ITET, D-MATL, RW. Beispiellösung für Serie 10. Aufgabe ETH Zürich D-MATH. Herbstsemester Dr. V. Gradinaru D.

Die Kopplung von Markovketten und die Irrfahrt auf dem Torus

Diskrete Strukturen Kapitel 4: Graphentheorie (Grundlagen)

Grundbegriffe der Informatik

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016

Serie 5. Lineare Algebra D-MATH, HS Prof. Richard Pink. 1. [Aufgabe] Invertieren Sie folgende Matrizen über Q:

, c d. f + e + d. ae + bg a f + bh. ce + dg c f + dh

a 11 a 12 a 1(m 1) a 1m a n1 a n2 a n(m 1) a nm Matrizen Betrachten wir das nachfolgende Rechteckschema:

Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute

5 Zwei spieltheoretische Aspekte

Stochastische Prozesse

Definition 7.1. Der Coxeter Graph zu W ist der ungerichtete gewichtete Graph Γ W = (V, E), mit Eckenmenge V und Kantenmenge E, gegeben durch V = und

Das Prinzip der Suchmaschine Google TM

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

5 Stetigkeit und Differenzierbarkeit

p k (1 p) n k s k = (1 p + ps) n. k p(1 p) k 1 s k ((1 p)s) k 1 =

Bonus Malus Systeme und Markov Ketten

Übersicht Kapitel 9. Vektorräume

Ecken des Zuordnungsproblems

Übungen zur Vorlesung Statistische Methoden Kapitel 1-2

Einheit 11 - Graphen

Bedingt unabhängige Zufallsvariablen

Diskrete Strukturen. Hausaufgabe 1 (5 Punkte) Hausaufgabe 2 (5 Punkte) Wintersemester 2007/08 Lösungsblatt Januar 2008

5. Bäume und Minimalgerüste

5 Lineare Algebra (Teil 3): Skalarprodukt

Lineare Schieberegisterfolgen

Matrix: Eine rechteckige Anordnung reeller Zahlen a ij (i = 1,..., n i ; j = 1,..., m) in Zeilen und Spalten. Die a ij heiÿen Elemente von A.

2. Dezember Lineare Algebra II. Christian Ebert & Fritz Hamm. Skalarprodukt, Norm, Metrik. Matrizen. Lineare Abbildungen

Algorithmen und Datenstrukturen 2-1. Seminar -

Bestimmung einer ersten

51 Numerische Berechnung von Eigenwerten und Eigenvektoren

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Kapitel 6. Irrfahrten und Bernoullischemata

9 Metrische und normierte Räume

Algorithmentheorie Maximale Flüsse

Mathematische Erfrischungen III - Vektoren und Matrizen

Zentralübung zur Vorlesung Diskrete Strukturen (Prof. Esparza)

Graphentheorie. Eulersche Graphen. Eulersche Graphen. Eulersche Graphen. Rainer Schrader. 14. November Gliederung.

$Id: linabb.tex,v /01/09 13:27:34 hk Exp hk $

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016

3. Prozesse mit kontinuierlicher Zeit

2.11 Eigenwerte und Diagonalisierbarkeit

37 Gauß-Algorithmus und lineare Gleichungssysteme

Wiederholung von Linearer Algebra und Differentialrechnung im R n

Graphentheorie. Zusammenhang. Zusammenhang. Zusammenhang. Rainer Schrader. 13. November 2007

Vorlesung Mathematik 2 für Ingenieure (Sommersemester 2016)

Diskrete Wahrscheinlichkeitstheorie

Kapitel 7: Flüsse in Netzwerken und Anwendungen Gliederung der Vorlesung

Aufgaben und Lösungen zur Klausur Lineare Algebra im Frühjahr 2009

a b Q = b a 0 ) existiert ein Element p Q, so dass gilt: q 1 q 2 = 2 b 1 b 2 a 1 b 2 a 2 b 1 a 1 a 2 b 1 b 2 a 1 b 2 a 2 b 1 a b p = 1 det(q) C 2 2,

3.6 Eigenwerte und Eigenvektoren

Suchmaschinen und Markov-Ketten 1 / 42

3 Klassifikation wichtiger Optimierungsprobleme

Mischungsverhältnisse: Nehmen wir an, es stehen zwei Substanzen (zum Beispiel Flüssigkeiten) mit spezifischen Gewicht a = 2 kg/l bzw.

LANGZEITVERHALTEN VON MARKOW-KETTEN

Transkript:

58 7 Markov-Ketten 7. Grundlegendes zu Markov-Ketten Eine Markov-Kette ist ein stochastischer Prozess, der in diskreten Zeitschritten abläuft. Dabei wird jeweils von einem Zustand in einen nächsten übergegangen. In diesem Abschnitt sind nur einige grundlegende Definitionen und Tatsachen (meist ohne Beweise) zusammengestellt. Ausführlicheres findet man zum Beispiel in den Büchern von Behrends [2000] und in dem auch Online unter http://www.dartmouth.edu/~chance/teaching_ aids/books_articles/probability_book/book.html verfügbaren Werk von Grinstead and Snell [997], sowie etwa bei Feller [968] und Kemeny and Snell [976]. 7. Definition. Eine endliche Markov-Kette ist durch ein Paar M = (S, P) festgelegt. Dabei bezeichnet S eine endliche Menge von Zuständen und P eine zeilenstochastische S S-Matrix, die die Übergangswahrscheinlichkeiten enthält. (Für alle i, j S ist also 0 P ij und j P ij =.) Für alle i, j S ist P ij als Wahrscheinlichkeit zu interpretieren, dass M vom Zustand i in den Zustand j übergeht. Diese Wahrscheinlichkeit hängt also nur von i ab, und nicht etwa von vorher durchlaufenen Zuständen oder davon, der wievielte Schritt ausgeführt wird. Im allgemeinen erlaubt man bei Markov-Ketten auch abzählbar unendlich große Zustandsmengen. Dieser Fall ist im Folgenden stets ausgeschlossen. 7.2 Im folgenden bezeichnet X t stets die Zufallsvariable, die den Zustand einer Markov-Kette zum Zeitpunkt t angibt. Es ist also Pr [X t+ = j X t = i] = P ij. Auch der Anfangszustand X 0 ist im allgemeinen nicht deterministisch, sondern gemäß einer Verteilung festgelegt. 7.3 Ist q ein Vektor, der zu einem Zeitpunkt t angibt, mit welcher Wahrscheinlichkeit q i eine Markov- Kette in Zustand i ist, dann ist qp der entsprechende Vektor für Zeitpunkt t +, denn es gilt: Pr [X t+ = j] = i Pr [X t = i] Pr [X t+ = j X t = i] = i q i P ij = (qp) j. Analog ergibt sich qp t für die Verteilung nach t Schritten. Wir schreiben P (t) ij für die Wahrscheinlichkeit, dass die Markov-Kette in t Schritten von Zustand i in Zustand j übergeht. Es ist also P (t) ij = (P t ) ij. 7.4 Definition. Eine nichtleere Teilmenge C S von Zuständen einer endlichen Markov-Kette heißt abgeschlossen, falls für alle i C und alle j S C gilt: P ij = 0. Eine abgeschlossene Teilmenge C heißt irreduzibel, falls keine echte (nichtleere) Teilmenge von C auch abgeschlossen ist. Eine Markov-Kette heiße irreduzibel, falls S als abgeschossene Teilmenge irreduzibel ist.

7. Markov-Ketten 59 Jede Markov-Kette besitzt mindestens eine abgeschlossene Teilmenge, nämlich C = S. 7.5 Definition. Es seien C,..., C r alle irreduziblen Teilmengen einer Markov-Kette S und T = S (C C r ). Die Zustände in T (sofern welche existieren) heißen transient und die Zustände in den C k rekurrent (oder auch persistent). 7.6 Definition. Die Wahrscheinlichkeit, ausgehend von Zustand i nach t Schritten erstmals in Zustand j überzugehen, werde mit f (t) ij = Pr [X t = j s t : X s j X 0 = i] bezeichnet. Die Wahrscheinlichkeit f ij, ausgehend von Zustand i irgendwann Zustand j zu erreichen, ist f ij = t>0 f(t) ij. Der Erwartungswert m ij für die benötigte Anzahl Schritte, um ausgehend von Zustand i irgendwann zum ersten Mal Zustand j zu erreichen, kann definiert werden als { t m ij = t f(t) ij falls f ij = sonst Man beachte, dass auch im Fall f ij = immer noch m ij = sein kann. 7.7 Jedem Random Walk auf einem Graphen G, wie wir ihn im vorangegangenen Kapitel betrachtet haben, entspricht offensichtlich eine endliche Markov-Kette M G, indem man P ij = 0 setzt, falls keine Kante von i nach j existiert, und andernfalls P ij = /d(i), wobei d(i) der Ausgangsgrad des Knotens i ist. Umgekehrt entspricht jeder Markov-Kette M ein Graph G M, dessen Knoten die Zustände i S sind und in dem eine Kante von i nach j genau dann vorhanden ist, wenn P ij > 0 ist. In diesem Fall kann man sich auch noch die Kante mit P ij gewichtet vorstellen. Man kann nun zeigen: 7.8 Lemma. Es sei eine endliche Markov-Kette gegeben. Dann gilt: Ein Zustand i ist genau dann transient, wenn eine der folgenden (äquivalenten) Bedingungen erfüllt ist: f ii <. t 0 P(t) ii <. Ein Random Walk, der in i startet, kehrt mit Wahrscheinlichkeit 0 unendlich oft nach i zurück. Analog ergibt sich: 7.9 Lemma. Es sei eine endliche Markov-Kette gegeben. Dann gilt: Ein Zustand i ist genau dann rekurrent, wenn eine der folgenden (äquivalenten) Bedingungen erfüllt ist: f ii =. t 0 P(t) ii =. Ein Random Walk, der in i startet, kehrt mit Wahrscheinlichkeit unendlich oft nach i zurück. 7.0 Definition. Ein rekurrenter Zustand i einer Markov-Kette heißt positiv persistent, falls m ii < ist, und null-persistent, falls m ii = ist.

7. Markov-Ketten 60 7.2 Irreduzible und ergodische Markov-Ketten 7. Für die Anwendungen in dieser Vorlesung sind vor allem irreduzible Markov-Ketten interessant. In diesem Fall ist die gesamte Kette die einzige irreduzible Teilmenge von Zuständen und es gibt also gar keine transienten Zustände. 7.2 Definition. Die Periode d i eines Zustandes i ist der größte gemeinsame Teiler aller Zahlen der Menge N i = {t P (t) ii > 0 t N0}. Ein Zustand mit Periode heißt auch aperiodisch. Ein Zustand, der aperiodisch und positiv persistent ist, heißt auch ergodisch. 7.3 Definition. Eine Markov-Kette ist aperiodisch, wenn alle ihre Zustände aperiodisch sind. Eine irreduzible und aperiodische Markov-Kette heißt auch ergodisch. Man beachte, dass für aperiodische Zustände nicht gilt, dass für alle t automatisch P (t) ii Man kann aber zeigen: > 0 ist. 7.4 Lemma. Es sei M N eine Menge natürlicher Zahlen mit der Eigenschaft, dass M + M = {k + l k, l M} M und gcd M =. Dann gibt es ein k 0 N mit {k 0, k 0 +, k 0 + 2,... } M, d. h. M enthält ab irgendeinem k 0 alle natürlichen Zahlen. Bei den uns in dieser Vorlesung interessierenden Anwendungen von Markov-Ketten kann man sich mitunter auf aperiodische beschränken. Wir skizzieren im folgenden zunächst, warum. Insofern ist es für den weiteren Verlauf der Vorlesung in Ordnung, wenn man vor allem an aperiodische Markov-Ketten denkt. 7.5 Ist eine Markov-Kette M mit Matrix P nicht aperiodisch, dann kann man daraus wie folgt eine neue, aperiodische Markov-Kette M konstruieren: In M werden alle Wahrscheinlichkeiten mit /2 multipliziert und für jeden Zustand i die Wahrscheinlichkeit P ii um /2 erhöht. Mit anderen Worten ist P = 2 (I + P). (I bezeichne die Einheitsmatrix.) Bei dieser Vorgehensweise bleiben einige Dinge erhalten. Zum Beispiel gilt: Ist wp = w, dann ist auch wp = w und umgekehrt. Allgemeiner haben sogar die beiden Matrizen die gleichen Eigenvektoren. Und aus einem Eigenwert λ von P wird ein Eigenwert /2 + λ/2 von P. Wir werden im Folgenden sehen, warum gerade das interessant ist. 7.6 Satz. Es sei P die Matrix einer ergodischen Markov-Kette. Dann gilt: W = lim t P t existiert. W besteht aus identischen Zeilen w. Alle Einträge von w = (w,..., w n ) sind echt größer 0 und n i= w i =. 7.7 Beweis. Da die Markov-Kette ergodisch ist, folgt aus Lemma 7.4, dass es eine Potenz P k gibt, deren Einträge alle echt größer Null sind. Um die Notation zu vereinfachen nehmen wir im folgenden einfach an, dass schon P diese Eigenschaft habe. Ansonsten müsste man im Folgenden statt dessen immer mit P k arbeiten. Sei nun zunächst y ein beliebiger Vektor.

7. Markov-Ketten 6. Wir zeigen zunächst: Ist d > 0 der kleinste in P vorkommende Eintrag und sind m 0 und M 0 der kleinste resp. der größte Wert eines Vektors y und m und M der kleinste resp. der größte Wert von Py, dann gilt: M m ( 2d)(M 0 m 0 ). Die Einträge jeder Zeile von P addieren sich zu. Für jedes i ist (Py) i = j P ijy j. Offensichtlich ist m = min i j P ijy j dm 0 + ( d)m 0 M = max i j P ijy j dm 0 + ( d)m 0 Also ist m 0 m M M 0. Außerdem ist M m (dm 0 + ( d)m 0 ) (dm 0 + ( d)m 0 ) = ( 2d)(M 0 m 0 ). 2. Durch Induktion ergibt sich hieraus für die kleinsten und größten Einträge m k und M k von P k y: m 0 m m k M k M M 0 und M k m k ( 2d) k (M 0 m 0 ). Die Folgen der m k und der M k sind also beschränkt und monoton, d. h. sie besitzen jeweils einen Grenzwert m = lim k m k bzw. M = lim k M k. 3. O. B. d. A. nehmen wir nun an, dass P mindestens 2 Zeilen und Spalten hat (im Fall ist die zu beweisende Aussage trivialerweise richtig). Folglich ist 0 < d /2 und damit 0 2d <. Dann ist aber lim k M k m k = 0 und daher M = m. 4. Es sei u = M = m. Da alle Einträge in P k y zwischen m k und M k liegen, ist lim k P k y = u, wobei u der konstante Vektor ist, dessen Einträge alle gleich u sind. Wir betrachten nun den Fall, dass y = e j der Einheitsvektor ist, dessen j-te Komponente ist und alle anderen gleich 0. 5. Dann ist P k e j die j-te Spalte von P k. Für jedes j konvergiert also die Folge der j-ten Spalten von P k gegen einen konstanten Vektor. Also existiert lim k P k = W und besteht aus lauter konstanten Spalten, d. h. mit anderen Worten aus lauter gleichen Zeilen w. 6. Um zu zeigen, dass alle Einträge in w echt größer 0 sind, benutzen wir die Voraussetzung, dass P keine Nulleinträge hat. Dann gilt für jedes j: Pe j enthält nur echt positive Werte, d. h. in diesem Fall ist m > 0 und daher auch m > 0. Dieses m ist aber gerade die j-te Komponente von w. 7. Die Tatsache, dass n i= w i = ist, ergibt sich daraus, dass für alle k die Potenzen P k stochastische Matrizen sind, d. h. Zeilensumme haben. Im Folgenden habe w stets die gleiche Bedeutung wie im obigen Beweis. 7.8 Satz. Für jede ergodische Markov-Kette mit Matrix P gilt: 7.9 Beweis.. wp = w. 2. Falls vp = v ist, ist v = ( j v j)w. 3. Es gibt genau eine Verteilung w (i. e. Summe der Einträge gleich ) mit wp = w.. W = lim k P k = lim k P k+ = (lim k P k ) P = WP. Insbesondere gilt also für jede Zeile w von W: wp = w.

7. Markov-Ketten 62 2. Wenn vp = v ist, dann auch vp k = v für jedes k und folglich vw = v. Ist r = j v j die Summe der Komponenten von v, dann ist andererseits vw = rw, also v = rw. 3. Unter allen Vektoren rw gibt es offensichtlich genau einen, für den die Summe aller Einträge gleich ist. 7.20 Definition. Eine Verteilung w heißt stationär, falls w = wp ist. 7.2 Als erstes Beispiel wollen wir die stationäre Verteilung von Markov-Ketten M G berechnen, die durch Graphen induziert werden. Dazu sei G = (V, E) ein endlicher, zusammenhängender, ungerichteter Graphen, der nicht bipartit ist. Dann gehört jeder Knoten in G zu einem Zyklus ungerader Länge; außerdem gehört jeder Knoten zu einem Zyklus der Länge 2 (zu einem Nachbarn und zurück). Also hat in M G jeder Zustand Periode und die Markov-Kette ist aperiodisch. Da der Graph als ungerichtet und zusammenhängend angenommen wurde, ist die Kette auch irreduzibel, also auch ergodisch. In diesem Fall kann man die eindeutige stationäre Verteilung (w,..., w n ) leicht angeben: 7.22 Lemma. Für alle v V ist w v = d(v)/2m. 7.23 Beweis. Da die stationäre Verteilung gegebenenfalls eindeutig ist, genügt es nachzuweisen, dass q mit q v = d(v)/2m eine Verteilung und stationär ist. q v = d(v)/2m = /2m v V v V v V (qp) v = q u P uv = q u P uv = u V (u,v) E d(v) =. (u,v) E d(u) 2m d(u) = (v,u) E 2m = d(v) 2m. 7.24 Wegen der Bemerkung in Punkt 7.5 gilt der dritte Teil der Aussage aus Satz 7.8 für irreduzible Markov-Ketten, auch wenn sie nicht aperiodisch sind: Jede irreduzible Markov-Kette P besitzt genau eine stationäre Verteilung w. Man beachte aber, dass lim t P t für irreduzible Markov-Ketten im allgemeinen nicht existiert! Für P = und alle k ist z. B. P 2k = I und P 2k+ = P. ( ) 0 0 7.25 Für ergodische Markov-Ketten existiert lim t P t = W. Folglich existiert auch der sogenannte Cesàro-Grenzwert lim t A t, wobei A t = t t+ k=0 Pk ist und es ist lim t A t = W. Da jeder Eintrag P (k) ij die Wahrscheinlichkeit angibt, in k Schritten von i nach j zu gelangen, ist jeder Eintrag an Stelle (i, j) von A t der erwartete Anteil von Zeitpunkten zwischen 0 und t, zu denen man in Zustand j ist, wenn man in Zustand i startet. Diese Interpretation ist natürlich immer richtig (nicht nur für ergodische Markov-Ketten). Der interessante Punkt ist, dass man auch für periodische irreduzible Markov-Ketten noch beweisen kann (wir unterlassen das hier): 7.26 Satz. Es sei P die Übergangsmatrix einer irreduziblen Markov-Kette M. Dann gilt:

7. Markov-Ketten 63 lim t A t = W existiert. Alle Zeilen von W sind gleich. Die Zeile w ist die eindeutig bestimmte stationäre Verteilung von M. Mit anderen Worten: Bezeichnet N(j, t) die Anzahl der Besuche von Zustand j während der ersten t Schritte, so ist lim t N(j, t)/t = w j unabhängig vom Anfangszustand. Man mache sich an einem Gegenbeispiel klar, dass bei der folgenden Aussage die Forderung nach Aperiodizität unverzichtbar ist. 7.27 Satz. Für jede ergodische Markov-Kette P und jede Verteilung v gilt: lim t vp t = w. 7.28 Beweis. Es gilt lim k vp k = vw. Da sich die Einträge in v zu summieren und alle Zeilen von W gleich w sind, ist vw = w. 7.29 Satz. Für jede irreduzible Markov-Kette mit stationärer Verteilung w = (w,..., w n ) gilt für alle i: w i = /m ii. 7.30 Beweis. Wir beginnen mit einfachen Überlegungen zu den m ij.. Falls i j ist, ist m ij = P ij + k j P ik (m kj + ) = + k j P ik m kj 2. Falls i = j ist, ist m ii = P ii + k i P ik (m ki + ) = + k i P ik m ki 3. Es bezeichne nun E die Matrix, deren Einträge alle gleich seien, M die Matrix mit M ij = { mij falls i j 0 falls i = j und D die Matrix mit { 0 falls i j D ij = m ii falls i = j Dann lassen sich die eben genannten Gleichungen ausdrücken als Matrixgleichung M + D = E + PM. Dazu äquivalent ist (I P)M = E D. Da wp = w ist, ist w(i P) = 0 und folglich we = wd. Das bedeutet aber ausgeschrieben nichts anderes als (,,..., ) = (w m, w 2 m 22,..., w n m nn )

7. Markov-Ketten 64 7.3 Schnell mischende Markov-Ketten In diesem Abschnitt folgen wir vor allem dem Buch von Ehrhard Behrends Introduction to Markov Chains. Außerdem haben wir von einem Teil eines Vorlesungsskriptes von Angelika Steger über Schnell mischende Markov-Ketten (http://wwwmayr.informatik.tu-muenchen.de/lehre/ 200SS/ra/slides/markov-skript.ps) profitiert. 7.3 Definition. Eine ergodische Markov-Kette heißt (zeit-)reversibel (im Englischen mitunter auch in detailed balance), wenn für die stationäre Verteilung w und alle Zustände i und j gilt: w i P ij = w j P ji. Zur Begründung dieses Namens mache man sich klar, dass w i P ij die Wahrscheinlichkeit ist, dass man bei einer Markov-Kette im stationären Zustand bei einem Schritt gerade einen Übergang von Zustand i nach Zustand j beobachtet, und w j P ji die Wahrscheinlichkeit, dass man bei einem Schritt umgekehrt einen Übergang von Zustand j nach Zustand i. Als Beispiele können die folgenden Ketten dienen: 7.32 Definition. Es sei G = (V, E) ein zusammenhängender ungerichteter Graph und 0 < β eine reelle Zahl. Mit d(i) bezeichnen wir den Grad von Knoten i und es sei d = max i V d(i). Die Übergangswahrscheinlichkeiten P ij der Markov-Kette M G,β sind dann wie folgt definiert: β/d falls i j und (i, j) E P ij = d(i)β/d falls i = j 0 sonst 7.33 Man kann sich überlegen, dass für die so definierten Markov-Ketten die Gleichverteilung die stationäre Verteilung ist. Da der Graph zusammenhängend ist, ist die Kette irreduzibel. Für β < ist sie außerdem aperiodisch und reversibel. 7.34 Lemma. Ist M eine Markov-Kette und q eine Verteilung mit der Eigenschaft, dass für alle Zustände i und j gilt, dass q i P ij = q j P ji ist, dann ist q die (eindeutig bestimmte) stationäre Verteilung von M. 7.35 Beweis. Für alle i ist (qp) i = j q j P ji = j q i P ij = q i P ij = q i. j 7.36 Lemma. Es sei P eine zeilenstochastische Matrix. Dann ist ein Eigenwert von P und für jeden Eigenwert λ von P gilt: λ. 7.37 Beweis. Der erste Teil der Aussage ist wegen P(,..., ) = (,..., ) klar. Sei nun λ C Eigenwert und P(x,..., x n ) = λ(x,..., x n ). Es sei i 0 ein Index mit x i0 = max j x j. Es liegen also alle x j im Kreis um den Ursprung mit Radius x i0. Es gilt: λ x i0 = λ x i0 = P i0 jx j P i0 j x j P i0 j x i0 = x i0 P i0 j = x i0. j j j j Also ist λ.

7. Markov-Ketten 65 7.38 Im folgenden benutzen wir die Abkürzung λ max = max{ λ λ ist Eigenwert von P und λ }. Auf Grund des Vorangegangenen ist klar, dass λ max ist. Für reversible Markov-Ketten kann man die Aussage von Lemma 7.36 verschärfen. 7.39 Lemma. Es sei P die stochastische Matrix einer reversiblen Markov-Kette mit S = N Zuständen und stationärer Verteilung w = (w,..., w N ). Dann gilt: P hat lauter reelle Eigenwerte = λ > λ 2 λ N >. Es gibt eine orthogonale Matrix U, so dass für die Matrizen D = diag(w,..., w N ) und L = diag(λ,..., λ N ) gilt: P = D /2 ULU D /2. 7.40 Falls λ N < 0 ist geht man auf bewährte Weise von P zur Matrix P = 2 (P + I) über. Für deren Eigenwerte gilt dann λ i = 2 (λ i + ), so dass alle Eigenwerte echt größer 0 sind. In diesem Fall ist dann also λ max = λ 2. 7.4 Definition. Für zwei Verteilungen p und q ist die totale Variationsdistanz p q = p j q j. 2 Man kann zeigen, dass p q = max T S p(t) q(t) ist, wobei p(t) zu verstehen ist als j T p j (und analog q(t)). 7.42 Definition. Für eine ergodische Markov-Kette mit Matrix P und stationärer Verteilung w und für alle Verteilungen p sei δ p (t) = pp t w Die Variationsdistanz zum Zeitpunkt t ist (t) = max p δ p (t). Man kann zeigen, dass das Maximum für einen Einheitsvektor e i = (0,..., 0,, 0,..., 0) angenommen wird. Also gilt: (t) = max P t i w i wobei P t i die i-te Zeile von Pt ist. 7.43 Satz. Für jede reversible Markov-Kette mit stationärer Verteilung w und w min = min j w j gilt: (t) λt max w min. Wenn also λ max < ist, dann nähert sich die Markov-Kette in einem gewissen Sinne schnell der stationären Verteilung. Wir präzisieren das noch wie folgt: 7.44 Definition. Es sei M eine ergodische Markov-Kette mit stationärer Verteilung w. Für ε > 0 sei τ(ε) = min{t i S j S : ( ε)w j P t ij ( + ε)w j } die ε-konvergenzzeit der Markov-Kette M. Häufig ist man an einer ganzen Familie von Markov-Ketten M(I) interessiert. Dabei ergibt sich jedes M(I) auf Grund einer Instanz I des eigentlich zu lösenden Problems. Zum Beispiel könnte jedes I ein Graph sein, und die Zustände von M(I) sind gerade die Matchings von I. j

7. Markov-Ketten 66 7.45 Definition. Eine Familie von Markov-Ketten M(I) heißt schnell mischend, falls die ε-konvergenzzeit polynomiell in I und ln /ε ist. 7.46 Eine Rechnung zeigt, dass aus der Bedingung i S j S : ( ε)w j P t ij ( + ε)w j folgt, dass (t) ε/2 ist. Daher ist τ(ε) min{t t t : (t ) ε}. Damit eine reversible Markov-Kette schnell mischend ist, sollte also gelten, dass für ein t, das polynomiell in I und log /ε ist, gilt: λ t max w min ε. Äquivalente Umformungen ergeben λ t max εw min ( ) t λ max εw min t ln ε + ln w min ln λ max Wegen x ln x für 0 < x < ist das jedenfalls dann der Fall, wenn t ln ε + ln w min λ max Schnelles Mischen liegt also jedenfalls dann vor, wenn ln w min und /( λ max ) polynomiell in I sind. Es stellt sich die Frage, woher man (zumindest näherungsweise) Kenntnis von λ max bzw. im Falle von reversiblen Markov-Ketten von λ 2 bekommen kann. Eine Möglichkeit ist der sogenannte Leitwert einer Markov-Kette. Wir werden ihn mit Hilfe gewichteter Graphen einführen, die später selbst noch nützlich sein werden. 7.47 Definition. Für eine reversible Markov-Kette M = (S, P) mit stationärer Verteilung w sei F M der gerichtete gewichtete Graph mit Knotenmenge S und Kantenmenge E F = {(i, j) i j P ij > 0}. Jede Kante (i, j) ist gewichtet mit der reellen Zahl c(i, j) = w i P ij. 7.48 Definition. Für eine reversible Markov-Kette mit Zustandsmenge S und stationärer Verteilung w definieren wir für jede Teilmenge T S Der Leitwert Φ der Markov-Kette ist dann die Kapazität C(T) = i T w i den Fluß F(T) = i T,j/ T w i P ij und Φ(T) = F(T)/C(T) Φ = min max{φ(t), Φ(S T)}. T S

7. Markov-Ketten 67 Eine kurze Überlegung zeigt, dass Φ(T) die bedingte Wahrscheinlichkeit ist, dass man bei der Markov-Kette mit stationärer Verteilung einen Übergang von innerhalb von T nach außerhalb von T beobachtet. Wenn Φ(T) klein ist, dann ist T sozusagen eine Art Falle, aus der die Markov- Kette schlecht heraus kommt. Man kann nun mit einigem technischen Aufwand zeigen: 7.49 Satz. Für jede reversible Markov-Kette gilt: Zusammen mit Punkt 7.46 ergibt sich: 2Φ 2 λ 2 Φ2 2. 7.50 Korollar. Für reversible Markov-Ketten (mit λ 2 = λ max ) ist τ(ε) 2 Φ 2 (ln ε + ln w min ) Man kennt mehrere Methoden, um den Leitwert jedenfalls mancher Markov-Ketten zu berechnen. Die folgende Definition ist eine Art graphentheoretische Version des Leitwertes: 7.5 Definition. Für einen ungerichteten Graphen (V, E) ist die Kantenvervielfachung µ das Minimum der Zahlen {(i, j) i T j / T (i, j) E} T wobei über alle Teilmengen T V minimiert werde mit T V /2. 7.52 Man kann sich überlegen, dass für die Markov-Ketten M G,β aus Definition 7.32 gilt: Φ = βµ/d. Damit ist man bei der Aufgabe gelandet, die Kantenvervielfachung von Graphen zu bestimmen. Das kann man zum Beispiel mit Hilfe der Methode der sogenannten kanonischen Pfade von Sinclair machen. Die Verallgemeinerung für beliebige reversible Markov-Ketten betrachtet Mehrgüterflüsse. 7.53 Definition. Für jedes Paar (i, j) von Knoten in F M soll von einem Gut g ij die Menge w i w j von i nach j transportiert werden. Dazu werden Flüsse f ij : E F R+ gesucht, so dass die folgenden naheliegenden Forderungen erfüllt sind: f ij (i, k) = w i w j Der Gesamtfluss durch eine Kante e sei k für alle l i, j : f ij (k, l) = f ij (l, m) k m f ij (k, j) = w i w j k f(e) = i j f ij (e) und die relative Kantenauslastung ρ(f) = max e E F f(e)/c(e).

7. Markov-Ketten 68 Dann gilt die folgende Aussage, die wir hier nicht beweisen: 7.54 Lemma. Für jede Markov-Kette mit Flüssen f ij gilt: Φ 2ρ(f). Um auf einen großen Leitwert schließen zu können, muss man daher versuchen, Flüsse mit kleiner (i. e. polynomieller) relativer Kantenauslastung zu finden. Wir wollen dies nun auf Random Walks im Hyperwürfel anwenden. 7.55 Beispiel. Dazu sei eine Dimensionalität n beliebig aber fest gewählt und M die Markov-Kette, die sich gemäß Definition 7.32 für β = /2 aus dem n-dimensionalen Hyperwürfel H n als zu Grunde liegenden Graphen ergibt. Das n sei per definitionem die Größe der Probleminstanz. M ist reversibel gemäß Punkt 7.33. Da in H n jeder Knoten Grad d hat, sind die Übergangswahrscheinlichkeiten also P ii = /2 und P ij = /2n für i j. Aus Symmetriegründen ist klar, dass die stationäre Verteilung die Gleichverteilung ist mit w i = /2 n ; damit ist natürlich auch w min = /2 n. Offensichtlich ist ln /w min = n polynomiell in n. Um einzusehen, dass M schnell mischend ist, genügt es folglich wegen Lemma 7.54, Flüsse f ij zu finden, so dass ρ(f) polynomiell (in n) ist. Dazu gehen wir wie folgt vor. Jeder Fluss f ij muss gerade die Menge /2 2n transportieren. Sie wird wie folgt verteilt: Zwischen i und j gibt es d! kürzeste Pfade, wobei d die Hammingdistanz zwischen i und j ist. Auf jedem dieser Pfade transportieren wir den gleichen Anteil der Gesamtmenge. Die Bestimmung der relativen Kantenauslastung wird dadurch erleichtert, dass aus Symmetriegründen auf jeder Kante der gleiche Gesamtfluss vorliegt. Für jedes d gibt es 2 n (n d) Paare (i, j) mit Abstand d. Für ein festes Paar (i, j) haben alle für den Fluss f ij verwendeten Pfade Länge d und es ist folglich e E F f ij (e) = dw i w j. Also ist f(e) = = = = = E F n2 n n2 n 2 2n 2 2n n ( ) n 2 n d w i w j d n ( ) n 2 n d d n n d= n ( ) n 2 n n d 2 2n d= n ( ) n d= d d= n ( ) n d d=0 = 2n 2 2n = 2 2 n 2 2n

7. Markov-Ketten 69 Andererseits ist für alle Kanten c(e) = w i P ij = /(2n 2 n ) und somit ρ(f) = /(2 2n ) /(2n 2 n ) = n. Wegen Korollar 7.50 sind diese Markov-Ketten also schnell mischend. Zusammenfassung. Ergodische Markov-Ketten besitzen eine eindeutig bestimmte stationäre Verteilung. 2. Für reversible Markov-Ketten gibt es Kriterien, um festzustellen, ob sie schnell mischend sind. Literatur Ehrhard Behrends. Introduction to Markov Chains. Advanced Lectures in Mathematics. Vieweg, 2000. W. Feller. An Introduction to Probability Theory and Its Applications, volume I. John Wiley & Sons, third edition, 968. Charles M. Grinstead and J. Laurie Snell. Introduction to Probablity: Second Revised Edition. American Mathematical Society, 997. ISBN 0-828-0749-8. John G. Kemeny and J. Laurie Snell. Finite Markov Chains. Springer-Verlag, 976.