MCMC - Simulation. Seminar für Finanz- und Versicherungsmathematik Wintersemester 2015/16. e

Transkript

1 MCMC - Simulation Seminar für Finanz- und Versicherungsmathematik Wintersemester 2015/16 Betreuer Dr. Stefan Gerhold Autor Christoph Müller e

2 Inhaltsverzeichnis 1 MCMC und die Kryptographie 3 2 Einführung in die Theorie der Markovketten 5 3 MCMC-Simulationen 10 4 Hard disk in a box 13 5 Mathematische Ausführung 15 6 MCMC in der Statistik 17 7 Zusammenfassung und Schlussfolgerung 20 8 Literaturverzeichnis 21 9 Abbildungsverzeichnis 22 1

3 Einleitung Simulationen sind in der Mathematik nicht mehr wegzudenken. Viele komplexe Fragestellungen können nur numerisch berechnet werden. Die folgende Arbeit wird sich mit der MCMC- Simulation beschäftigen. Durch die Einteilung der mathematischen Fragestellung in Zustände, welche mit zufälligen Wahrscheinlichkeiten wechseln, wird versucht das Problem auf Markovketten zu transferieren. Mit Hilfe des Gesetzes der großen Zahlen kann mit zunehmender Stichprobeanzahl ein genaueres Ergebnis erzielt werden. Zunächst werde ich ein Beispiel zur Anwendung dieser Methode geben und anschließend auf die Theorie und das Themengebiet genauere eingehen. 2

4 1 MCMC und die Kryptographie Zuerst gibt es einen kurzen Abstecher in die Kryptographie, um mit der MCMC-Simulation vertraut zu werden. In der Kryptographie ist das Ziel verschlüsselte Texte zu entschlüsseln. Es soll versucht werden dieses Problem mathematisch zu lösen. Hier ein Beispiel. Abbildung 1.1: Verschhlüsselter Text Um folgenden Text zu entschlüsseln benötigt man eine Funktion f mit: f : {coded} {decoded} welche für alle Zeichen im verschlüsselten Text Buchstaben oder Satz- und Sonderzeichen zurückgibt, wobei diese zwei Gruppen fortan als Symbole deklariert werden. Um dieses Problem zu lösen ist zunächst eine Statistik von Nöten. Man nimmt sich ein Standardliteraturwerk und zählt alle Eins-zu-Eins Übergänge von Symbolen. Man startet mit dem ersten Buchstaben des Alphabets und zählt wie oft im Text ein A nachgestellt ist. Dies wird für alle Symbolkombinationen durchgeführt und anschließend eine Matrix erstellt, welche so angeordnet ist, dass die Anzahl von dem Startsymbol in der Zeile aufgeschrieben sind. Es entsteht eine Übergangsmatrix von Eins-zu-Eins Übergängen. Man erhält eine quadratische Matrix A Nn n. In der deutschen Sprache ist die Dimension dieser Matrix sehr groß, da man Groß- und Kleinbuchstaben unterscheiden muss sowie alle Satz- und Sonderzeichen betrachten muss. Dies ist notwendig, da man nicht weiß ob bei der Verschlüsselung Zeichen Groß- und Kleinschreibung vernacchlässigt wurden oder ob die Satz- und Sonderzeichen verschlüsselt wurden. Falls ersichtlich wird, dass Satzzeichen nicht verschlüsselt wurden, könnte das n kleiner gemacht werden. Nun normieren wir die Zeilen der Matrix wie folgt i, j {1,..., n} : b ij = a ij a ij i damit erhalten wir eine stochastische Matrix B R n n, welche die Übergangswahrscheinlichkeit 3

5 der Eins-zu-Eins Übergänge angibt. Die Entschlüsselung erfolgt nach dem Trail-and-Error Prinzip. Deshalb wird eine Möglichkeit benötigt, um festzustellen wie gut eine Entschlüsselung tatsächhlich ist. Da schon eine Übergangsmatrix vorhanden ist, kann diese zur Klassifizierung der Entschlüsselung herangzogen werden. Eine geeignete Funktion wäre W (f) = i B f(si ),f(s i+1 ) wobei s i alle Zeichen des verschlüsselten Textes durchläuft. Nun kann folgender Algorithmus gestartet werden. Wähle ein f Berechne W (f) durch Mischen von Zuordnungen erstelle ein f Berechne W (f ) wenn W (f ) W (f) wähle f = f und starte erneut falls W (f) > W (f ) wirf eine Münze und bei Kopf gehe zu f und bei Zahl bleibe bei f Diese Rückschrittsmöglichkeit ist wichtig, da man damit verhindern kann, dass der Algorithmus nicht in einem lokalen Maximum stecken bleibt sondern das globale Maximum erreichen kann. Der Algorithmus versucht f mittels zufälligen Vertauschungen zu verbessern. Die Laufzeit dieses Algorithmus kann sehr stark schwanken. In den meisten Fällen werden ein paar tausend Durchläufe benötigt, um das globale Maximum zu erreichen. Der in Abbildung 1.1 gezeigte verschlüsselte Text, wird nach Anwendung des Algorithmus entschlüsselt: Abbildung 1.2: Entschlüsselter Text In diesem Fall handelt es sich um ein interessantes Beispiel. Der Text wurde von einem Gefängnisinsassen verschlüsselt und sollte verschickt werden. Die Gefängniswärter konnten den Text abfangen und er wurde nach obriger Methode entschlüsselt. Die Sinnhaftigkeit der Übersetzung kann man leicht erkennen. Der Text ist eine Mischung aus Englisch, Spanisch und einem eigenen Gefängnisjargon. Im folgenden Kapitel wird es eine allgemeine Einführung in die Theorie der Markovketten geben und wichtige Sätze und Definitionen werden formuliert, um das MCMC-Verfahren besser nachvollziehen zu können. 4

6 2 Einführung in die Theorie der Markovketten Definiton 2.1. Sei χ ein endlicher Zustandsraum. Sei (X t ) t N ein zeitdiskreter stochastischer Prozess. Dann ist X t eine Markovkette genau dann, wenn gilt. P (X t+1 = i t+1 X 0 = i 0,..., X t = i t ) = P (X t+1 = i t+1 X t = i t ) Diese Eigenschaft wird als die Markoveigenschaft bezeichnet. Eine wichtige Darstellungsform für Markovketten ist die stochastische Matrix. Definiton 2.2. Sei A R n n. A ist genau dann eine stochastische Matrix, wenn i, j : A ij 0 j : j A ij = 1. Nun lässt sich ein Markovprozess, wie folgt mit einer stochastischen Matrix charakterisieren: Definiton 2.3. Sei χ endlicher Zustandsraum mit χ = n. So beschreibt eine stochastische Matrix A R n n eine Markovkette wobei gilt, dass A ij = P (X t+1 = j X t = i) ist. Einzig eine Startverteilung muss noch angegeben werden, sodass die Markovkette wohldefiniert ist. Um einen wichtigen Satz für die weitere Arbeit einzuführen, braucht man zunächst eine wichtige Eigenschaft. Definiton 2.4. Eine Markovkette X t auf dem Zustandsraum χ heißt irreduzibel genau, dann wenn i, j χ ein s, t N mit s < t existiert, sodass P (X t = j X s = i) > 0. 5

7 Das bedeutet, dass jeder Zustand in endlichen Schritten erreicht werden kann. Ein wichtiger Satz für die Betrachtung der Konvergenz von Markovketten ist der folgende Satz: Satz 2.1. Sei X t eine irreduzible Markovkette auf dem endlichen Zustandsraum χ und A sei die stochastische Matrix welche die Markovkette beschreibt. Dann existiert ein einfacher Eigenwert λ = 1 zur Matrix A. Beweis. Zunächst wird gezeigt, dass Potenzen von stochastischen Matrizen wieder eine stochastische Matrix ist. Wir betrachten nun c ij = (A 2 ) ij = r a ir a rj. Da A eine stochastische Matrix ist sind ihre Einträge nichtnegativ. Daraus folgt auch, dass die Einträge von A 2 nichtnegativ sind. Zu zeigen bleibt noch, dass die Zeilensumme gleich 1 ist. Wir betrachten c ij = a ir a rj = a ir a rj = a ir a rj = 1. j j r r j r j Damit ist gezeigt, dass A 2 stochastisch ist. Analog kann man die Behauptung auch für alle Potenzen von A zeigen. Nach dem Satz von Perron Frobenius weiß man, dass der Spektralradius ein positiver und einfacher Eigenwert ist und er erfüllt die Gleichung ϱ(a) = lim n An 1 n. Wie vorhin gezeigt sind die Potenzen von A stochastisch, damit auch lim n An. Falls für die Matrixnorm nun die Zeilensummennorm gewählt wird ist A n = 1 damit folgt mit dem Satz von Perron Frobenius die Behauptung. Damit folgt, dass ein Eigenvektor zum Eigenwert 1 existiert. Dieser wird im folgenden immer mit π bezeichnet. Für diesen gilt Aπ = π. Zu beachten ist, dass falls man einmal diesen Vektor als Verteilung angibt, verlässt man die Verteilung nicht mehr, da A Aπ = Aπ = π. Dieser Vektor wird als stationäre Verteilung bezeichnet. Eine weitere Eigenschaft, welche die Existenz einer stationären Verteilung impliziert, ist die Detailed-Balance-Eigenschaft. Diese lautet A ij π i = A ji π j. Diese Eigenschaft ist eine Voraussetzung für die Definiton von MCMC-Simuationen. Das wichtigste Resultat das man wir für spätere Konvergenzbetrachtungen benötigen, ist, dass lim n (An ) ij = π j. Dies bedeutet, dass alle Zustände gegen die stationäre Verteilung konvergieren. Das motiviert den folgenden Satz: Satz 2.2. Sei X t eine Markovkette und A die zugehörige Zustandsraum χ endlich. Dann gilt: Übergangsmatrix. Weiters sei der lim n (An ) ij = π j i, j χ. Beweis. Wie zuvor bewiesen, existiert ein Eigenwert λ = 1 und der dazugehörige Eigenvektor π. Der Beweis für die Konvergenz ist das Grundprinzip der Vektoriteration. Bei dieser wird eine beliebige Startverteilung x hergenommen und es wird x 1 = Ax berechnet und iterativ fortgesetzt. Dann konvergiert x t gegen π. Dies ist die Behauptung die zu zeigen ist. Da der Beweis sehr umfangreich ist, wird er in dieser Arbeit nicht behandelt. Er kann im Skriptum Numerische Mathematik A von Lothar Nannen auf Seite 106 nachgeschlagen werden. 6

8 Als nächstes wird die Konvergenz der Markovkette betrachtet. Die Frage ist, wie schnell konvergiert die Markovkette. Dies wird im folgenden Satz behandelt. Für die Norm um die Konvergenz zu betrachten, wird die Norm der Totalen Variation herangezogen. Diese ist wie folgt definiert: A n i π T V = 1 A n ij π j. 2 j Satz 2.3. Sei A Übergangsmatrix und es existiert eine stationäre Verteilung. Dann existieren Eigenvektoren und Eigenwerte, sodass: 4 A n i π 2 T V χ 1 i=0 β 2n i ψ 2 i. Beweis. Wir führen folgendes Skalarprodukt auf dem Raum L 2 (π) ein g, h = x g(x)h(x)π x, wobei L 2 (π) die Menge aller {g : χ R} ist. Dann operiert K auf dem L 2 mit: Ag(x) = y g(y)a xy, nun folgt aus: Ag, h = g(j)a ij, h = i = i = j j j j = g, Ah. g(j)a ij h(i)π i g(j)π j A ij h(i) g(j)π j A ji h(i) i Nun folgt, dass A ein selbstadjungierender Operator ist. Nach dem Spektralsatz folgt nun, dass es eine ONB von Eigenvektoren gibt und es gilt: x χ : Ax = χ 1 i=0 β i x, ψ i ψ i, mit Kψ i = β i ψ i. Nun folgt mit x als das neutrale Element des Vektorraums: weiters sei: A = χ 1 i=0 χ 1 A 2 = π y χ 1 β i ψ i (x)ψ i (y)π(y) = π(y) i=0 i=0 χ 1 β i ψ i (x)ψ i (y)a xy = π y 7 i=0 β i ψ i (x)ψ i (y), β 2 i ψ i (x)ψ i (y),

9 induktiv folgt nun: χ 1 A n (x, y) = π(y) βi n ψ i (x)ψ i (y), i=0 schließlich folgt mit der Cauchy-Schwarz Ungleichung: 4 A n x π 2 T V y (A n xy π y ) 2 χ 1 = βi 2n ψi 2. π y i=0 Man kann nun sehen, dass die Konvergenz von den Eigenwerten und Eigenvektoren abhängt. Falls eine besser Konvergenzrate erreicht werden soll, dann müssen geeignete Manipulationen für die EW und EV gemacht werden. Es ist einfach die Übergangswahrscheinlichkeiten, jedoch die stationäre Verteilung oftmals schwierig zu berechnen. Genau aus diesem Grund wird auf die MCMC-Simulation zurückgegriffen. Die MCMC-Simulation wird im nächsten Kapitel vorgestellt. Zunächst folgt noch eine kurze Einführung in die Theorie der Markovketten auf allgemeinen Zustandsräumen. Bis hierher wurden nur endliche Zustandsräume betrachtet. Um Markovketten zu verallgemeinern, braucht man den Markovkern. Definiton 2.5. Sei Ψ ein beliebiger Raum mit einer σ-algebra F. Ein Kern ist eine Abbildung P : (Ψ, F) [0, 1], welche folgende Eigenschaften erfüllt: P (x, ) ist eine Wahrscheinlichkeit auf (Ψ, F) für alle x Ψ, P (, A) ist eine messbare Funktion für alle A F. Der Markovkern P (x, A) gibt also eine Wahrscheinlichkeit an, mit der man von dem Zustand x zum Ereignis A gelangt. Der Markovkern kann nun wie folgt iteriert werden: P 2 (x, A) = P (z, A)P (x, dz). Diese Gleichung sagt aus, dass man von x nach A in zwei Schritten gelangt, wobei über die Wahrscheinlichkeiten aller möglichen Zwischennzustände z integriert wird. Eine stationäre Verteilung erfüllt dann folgende Gleichung: π(a) = P (x, A)π(dx). Im späteren Verlauf der Arbeit wird diese Verallgemeinerung verwendet, um komplexere Beispiele zu lösen. 8

10 Zur Veranschaulichung sieht man in der nächsten Grafik den Graphen einer Markovkette. Abbildung 2.1: Markovkettengraph Wie man in diesem Graphen sieht, sind die einzelnen Zustände mit einer Übergangswahrscheinlichkeit verbunden. Diese Markovkette ist auch irreduzibel, da es keine getrennte Kommunikationsklasse gibt. Die Übergangsmatrix würde wie folgt lauten: A = Man sieht, dass die Zeilensumme immer 1 beträgt. Da sie irreduzibel ist, existiert die stationäre Verteilung. Die stationäre Verteilung ist π = (0.22, 0.4, 0.38). Im nächsten Kapitel wird der MCMC-Algorithmus eingeführt. 9

11 3 MCMC-Simulationen In diesem Kapitel werden die MCMC-Simulationen eingeführt und Motivation und Beispiele behandelt. MCMC steht für Markov-Chains-Monte-Carlo. Die MCMC-Simulation wird verwendet um eine Markovkette zu erzeugen, welche eine gewünschte Wahrscheinlichkeitsverteilung als stationäre Verteilung hat. Diese erzeugten Markovketten erfüllen alle die Detailed-Balance- Eigenschaft, welche im vorigen Kapitel vorgestellt wurde. Die Eigenschaft impliziert die Existenz einer stationären Verteilung. Wir betrachten nun einen Metropolis-Hastings-Algorithmus: Satz 3.1. Sei χ ein endlicher Zustandsraum und π(x) eine Wahrscheinlichkeit. Sei A xy die Übergangsmatrix einer Markovkette auf χ mit A xy > 0 A yx > 0. Sei B xy := min{1, πyayx π xa xy }. Dann sei { Axy B xy für x y K xy := J xy + A xz (1 B xz ) für x = y. z Dann erfülle K xy folgende Gleichung: π x K xy = π y K yx Beweis. für x = y trivial erfüllt. Für x y sei obda B yx = 1 (ansonsten ist B xy = 1) π x K xy = π x A xy π ya yx π xa xy = π y A yx = π y K yx. Nun sieht man, dass wir Markovkette, die anfangs keine Relation zu der stationären Verteilung hatte, zu einer neuen Markovkette umgewandelt wurde, welche die gewünschte stationäre Verteilung aufweist. Zunächst wird auf die Entstehung und die Motivation des Metropolisalogrithmus und des Metropolis-Hastings-Algorithmus eingegangen. Der Metropolisalogrithmus geht auf Nicholas Metropolis zurück veröffentlichte dieser eine Puplikation, in welcher er Markovketten verwendete um eine Boltzmann-Verteilung zu generieren. Er stellte folgenden Algorithmuus auf: Man startet im Ort x i, wobei dies den Ortsvektor nach dem i-ten Iterationsschritt bezeichnet. Es wird ein neuer Ort y vorgeschlagen welcher folgende Gleichung erfüllt y = x i + rq i wobei r fester Suchradius ist und q ein Zufallsvektor mit q(i) [ 1, 1] i. Nun wird die Energiedifferenz E = E(y) E(x i ) berechnet. Falls die Energiedifferenz E 0 wird y als neuer Ort akzeptiert ( ) und x i+1 = y. ansonsten wird y mit Wahrscheinlichkeit p := min(1, exp E κt ), wobei T die Temperatur des Systems und κ die Boltzmannkonstante ist, akzeptiert. 10

12 Dieser Algorihtmus generiert eine stationäre Verteilung welche der Boltzman-Verteilung entspricht. In der nächsten Grafik sieht man eine Boltzman-Verteilung: Abbildung 3.1: Boltzmann-Verteilung Wie man sieht ist die Boltzmann-Verteilung für niedrigere Temperaturen nach links gestaucht. W. Keith Hastings verallgemeinerte diesen Algorithmus, in dem er die Vorschlagsdichte P (x y) W (y)p (x y) generiert, welche Vorschläge mit Wahrscheinlichkeit p = min(1, W (x)p (y x)) akzeptiert und auch vom nächsten Zustand abhängig ist. Wobei W ( ) eine beliebige Wahrscheinlichkeitsverteilung ist. Nun wird wieder der in Satz 3.1 definierte Algorithmus herangezogen. Es wurde gezeigt, dass die Detailed-Balance-Eigenschaft gilt. Desweitern folgt nun, dass (πk) y = π x K xy = π y K yx = π y K yx = π y, x x x damit folgt, dass π der Linkseigenvektor zu K ist. Damit folgt mit Satz 2.1 und 2.2, dass die durch den Algorithmus erzeugte Markovkette K gegen die stationäre Verteilung konvergiert. Dies angewendet auf das Kryptographiebeispiel im 1. Kapitel ergibt folgenden Algorithmus. Zuvor benötigt man noch ein paar Eigenschaften. Sei χ die Menge aller Eins-zu-Eins Übergänge vom Raum der verschlüsselten Zeichen zum Raum der Symbole. Die stationäre Verteilung hat folgende Form: π(f) = z 1 i B(f(s i ), (f(s i+1 )), wobei z der Normierungsfaktor ist. M ist die Matrix der Einschrittübergänge der Sprache die für das Enschlüsseln verwendet wird. Der Normierungsfaktor lautet wie folgt: z = B(f(s i ), (f(s i+1 )). f i 11

13 Es wird über alle möglichen Enschlüsselungsfunktionen f summiert. Dies macht die Bestimmung von z fast unmöglich. Ein weiteres Problem stellt die Größe des Zustandsraums χ dar. Diese zwei Problematiken versucht man mit der MCMC-Simulation zu umgehen. Sei nun die Mächtigkeit der Menge aller Eins-zu-Eins Übergänge im verschlüsselten Text gleich m und Mächtigkeit der Menge aller Eins-zu-Eins Übergänge der Symbole gleich n mit n m. Dann ist χ = n(n 1)... (n m + 1). Diese Zahl kann sehr groß werden, falls beispielsweise m = n = 50 ist. Für den Algorithmus generiert man J(f, f ) was einen zufälligen Tausch von zwei Symbolen darstellt. Damit folgt: J(f, f ) := { 1 n(n 1)(m n+2)(m n+1) wenn f, f sich in maximal zwei Stellen unterscheiden 0 sonst. Aufgrund von J(f, f ) = J(f, f) folgt für die Akzeptierwahrscheinlichkeit, dass B(f, f ) = ist. π(f ) π(f) 12

14 4 Hard disk in a box In diesem Kapitel wird eine weitere Anwendung für das MCMC-Verfahren gezeigt. Bei Hard disk in a box gibt es folgende Ausgangssituation. Sei n die Anzahl der Scheiben mit Radius r in dem Einheitsquadrat. Es wird nun versucht die Teilchenbewegung mithilfe des MCMC- Algorithmus zu beschreiben. Dies wird wie folgt gemacht: Man startet mit x τ(n, r). Man nehme nun den Mittelpunkt einer Scheibe mit Wahrscheinlichkeit 1 n. Nun wird ein Punkt im Radius h ausgewählt. Verschiebe den Mittelpunkt zu dem Punkt. Falls diese neue Position in τ(n, r) liegt so akzeptiere diese Bewegung. Wobei τ(n, r) die Topologie der möglichen Positionen der Scheiben ist. Das Problem ist das Wählen einer uniform-verteilten Stichporbe von x τ(n, r). Dieser Algorithmus verschiebt zufällig Koordinaten. Falls nun X 1, X 2,... die erfolgreichen Positionen sind so wird, X k für kleine k und r uniform-verteilt sein. Für große k kann man eine Funktion f mit f : τ(n, r) R finden, wobei man τ(n,r) f(x)dx mit 1 k k f(x k ) i=1 approximieren kann. Um dieses f sinnvoll zu bestimmen, muss zunächst die Frage gestellt werden, wie diese aussehen können. Die Motivation für dieses Beispiel kommt von der Betrachtung von Phasendiagrammen. Diese geben den Verlauf der Aggregatzustände im Verhältnis zu Druck und Temperatur an. Ein solches sieht man in folgender Abbildung: Abbildung 4.1: Phasendiagramm 13

15 Diese Phasendiagramme sind bereits in der Forschung intensiv analysiert worden. Es gibt eine Kurve endlicher Länge zwischen dem flüssigen und gasförmigen Zustand, welche im Tripletpunkt startet. An diesem coexistieren alle drei Zuständ. Der Endpunkt dieser Kurve ist der kritische Punkt. Man kann eine gegen Unendlich laufende fest-flüssig Kurve erkennen. Eine interessante Folgerung dieses Phasendiagramms ist, dass egal welche Temperatur vorgegeben wird, man mit dem richtigen Druck eine fest-flüssige Transformation, oder umgekehrt erzeugen kann. Ab einem gewissen Druck sind die starken innermolekularen abstoßenden Kräfte nicht mehr relevant. In der nächsten Grafik sieht man wie die Scheibenverteilung bei gewissen Druck aussieht. Abbildung 4.2: Scheibenverteilung η bezeichnet die dynamische Viskosität. Dies entspricht Druck in einer Zeiteinheit. Je höher diese ist, desto höher ist der Druck. Man sieht nun, dass für höheren Druck die Scheiben eine Gitterform annehmen. Eine sinnvolle Funktion f welche oben gesucht wurde, lässt sich nun aufgrund der Gitterstruktur darstellen. Diese lautet: f(x) = 1 N 1 e 6iθ jk N N, j j=1 k wobei über die Anzahl N summiert wird. N j ist die Anzahl der Nachbarn der j-ten Scheibe. θ jk ist der Winkel zwischem der j-ten und k-ten Scheibe. Werte für diese Funktion können mit Simulationen erzeugt werden. Im nächsten Abschnitt wird dieses Problem mathematisch genauer ausgeführt. 14

16 5 Mathematische Ausführung Zunächst sei Ω R n ein verbundenes offenes Gebiet. p (x) > 0 x Ω und z= Ω p (x)dx <. Dann ist z 1 die Normierungskonstante und p (x) = z 1 p(x). Dieser Normmierungsfaktor ist schwierig zu bestimmen. Deshalb sollte man einen MCMC-Algorithmus finden, bei dem man nicht z berechnen muss. Eine Möglichkeit wäre folgender Algoritmus: Starte in x und wähle y A(h) wobei A eine messbare Menge ist und A Ω wobei Ω ein Lipschitzgebiet ist. Berechne p(y). falls p(y) p(x) dann gehe zu y. falls p(y) < p(x) gehe nach y mit Wahrscheinlichkeit p(y) p(x). andernfalls bleibe in x. Dieser Algoritmus setzt nicht voraus, dass man z direkt bestimmen muss. Da auf allgemeinen Räumen gearbeitet wird, muss ein Markovkern aufgestellt, welcher den Übergang von x 1 zu y darstellt. Dafür müssen einige Dinge beachtet werden. Sei φ(z) = V (A(h)) δ A(h), sodass φ(z)dz = 1. Sei p eine positiv beschränkte Funktion mit p(z)dz = 1. Für h [0, 1] gilt nun, dass: ( ) ( ) x y p(y) K h,p (x, y) = h d φ min h p(x), 1. Nun lässt sich der Markovkern durch folgende Gleichung darstellen: P (x, dy) = m(x)δ x + K h,p (x, y)δ y dy, wobei m(x) = 1 Ω Ω K h,p (x, y)dy. Falls man nun alles einsetzt, so kommt man schließlich auf folgenden Kern: mit P (x, dy) = m(x)δ x + h d V (A(h)) δ A(h) Rd h d m(x) = 1 V (A(h)) δ A(h) ( x y h ( x y h Ω ) ( ) p(y) min p(x), 1 dy ) ( ) p(y) min p(x), 1 dy, wobei h der Radius ist, in welchem y zu x liegt. δ x ist die Dichte am Ort x und V (A(h)) ist das Volumen von A(h). Nun kann der Algorithmus wie folgt dargestellt werden. 15

17 Wähle X 0 = x A(h) wähle X 1 P (X 0, dy) wähle X 2 P (X 1, dy). Damit folgt aus Def. 2.5, dass P (X 2 B) = P (z, B)P (x, dz) R d iterativ folgt dann weiters P (X k B) = P (z, B)P k 1 (x, dz) R d für geeignete h konvergiert nun P (X k B) gegen B p(y)dy. Der Algorithmus hat eine Konvergenzrate die man wie folgt darstellen kann: P (X k B) p(y)dy c 1 e c 2kh 2, B wobei p(x) beschränkt sein muss und B Teilmenge eines Lipschitzgebietes ist. c 1, c 2 sind positive Zahlen. Den Beweis für diese Abschätzung kann man in der Ausarbeitung Geometric Analysis for the Metropolis Algorithm on Lipschitz Domains von Persi Diaconis, Gilles Lebeau und Laurent Michel nachlesen. 16

18 6 MCMC in der Statistik Simulationen sind eine häufig verwendete Methode zur Erzeugung von Zufallszahlen. In der Statistik ist die Manipulation von Stichproben und Betrachtung ihrer Verteilungsfunktionen ein zentrales Thema. Es gibt einige Möglichkeiten solche Zufallszahlen zu erzeugen. Methoden dafür sind die Inversionsmethode, oder das Box-Muller-Verfahren. In diesem Kapitel soll das sogenannte Gibbs-Sampling betrachten werden. Das Gibbs-Sampling geht auf die Mathematiker S. und D. German zurück. Benannt wurde es nach dem amerikanischen Physiker J. W. Gibbs. Nachstehend folgt eine kurze Einführung in die Bayes-Statistik. Definiton 6.1. A-priori Verteilung: Die Verteilung einer sg X f(x; θ) wobei θ Θ. In der Bayes-Statistik wird der Faktor θ nicht als fester unbekannter Parameter betrachtet, sondern als Realisation der sg θ mit der Dichte h(θ). Diese wird als A-priori Dichte bezeichnet und dementsprechend erhält man durch Integration die A-priori Verteilung. Definiton 6.2. Sei X = (X 1, X 2,..., X n ) eine Stichprobe von X f(x; θ) so ist die bedingte Dichte von X θ = θ gleich f(x θ) = f(x i θ). Dann ist die gemeinsame Dichte von X und θ i g(x, θ) = f(x θ)h(θ). Die Randdichte ist dann wie folgt definiert g 1 (x) = g(x, θ)dθ = f(x θ)h(θ)dθ. Definiton 6.3. A-posteriori Verteilung: Sei die Randdichte wie oben, dann ist die A-posteriori Dichte definiert als k(θ x) = f(x θ)h(θ) g 1 (x) f(x θ)h(θ) =. f(x θ)h(θ)dθ Die A-posteriori Verteilung ist also asymptotischverteilt nach der Likelihoodfunktion mal der A-priori Verteilung. Zunächst wird ein kleines Motivationsbeispiel für Gibbs-Sampling gezeigt. Sei X f X (x) und Y f Y (y). Es wird angenommen, dass die Simulation der Beobachtungen von X schwierig ist, jedoch die von Y und X Y=y aber nicht. 17

19 Dann kann man dieses Problem umgehen indem man: Erzeuge Y f Y (y). Erzeuge X f X Y (x Y = y). Das erzeugte X hat die Dichte f X (x). Die Behauptung folgt aus: P (X t) = E(F X Y (t)) = = = = t t t t f X Y (x y)dx f Y (y)dy f X Y (x y)f Y (y)dy dx f X,Y (x, y)dy dx f X (x)dx. Nun kann man den Erwartungswert einer Funktion W = g(x) von X bestimmen. Man erzeugt zunächst Paare (X 1, Y 1 ),..., (X m, Y m ) und es gilt nach dem Gesetz der großen Zahlen: W = 1 m g(x i ) P E(g(X)). m i=1 Das Gibbs-Sampling hat ein ähnliches Prinzip. Für Erzeugung von sg nach f(x,y) werden wechselweise Beobachtungen von f(x y) und f(y x) herangezogen. Nun wird der bivariante Fall des Gibbs-Samplings betrachtet: Erzeugung des Startwerts (x 0, y 0 ) für i=0. Erzeuge X i+1 f(x y i ). Erzeuge Y i+1 f(y x i+1 ). i=i+1 und wiederhole. Die Paare (X 1, Y 1 ),..., (X m, Y m ) bilden eine Markovkette, da P [(X i, Y i ) = (i i, j i ) (X i 1, Y i 1 ) = (i i 1, j i 1 ),..., (X 1, Y 1 ) = (i 1, j 1 )] = P [(X i, Y i ) = (i i, j i ) (X i 1, Y i 1 ) = (i i 1, j i 1 )]. Also ist das Paar (X i, Y i ) nur von dem vorherigen Paar (X i 1, Y i 1 ) abhängig. Für i folgt nun für die Gibbs-Sampler: X i Y i D fx (x), D fy (y). Die Konvergenzgeschwindigkeit für die Kette kann stark varieren. Üblicherweise wird zur Schätzung zunächst die ersten m Elemente nicht verwendet und dann erst die nächsten n-m Paare. Dies wird als Einbrennen der Kette bezeichnet. Der Grund dafür ist, dass diese Paare sich anfangs noch stark von der stationären Verteilung unterscheiden können. Je mehr Schritte der Algorithmus läuft, desto besser wird die stationäre Verteilung erreicht. Deshalb lässt man die ersten m Paare weg, da diese die größte Varianz zur stationären Verteilung besitzen. Demnach ist ein geeigneter Schätzer für den Erwartungswert von X: Ē(X) = 1 n m n X i i=m+1 P E(X). 18

20 Für die Randdicht würde sich dann folgender Schätzer anbieten: f X (x) = 1 n m n i=m+1 f(x y i ). Dieser bivariante Sampler kann einfach auf einen mehrdimensionalen Fall erweitert werden. Die Hauptanwendung für den Gibbs-Sampler in der Bayes-Statistik, ist das sogenannte hierachische Modell. Bei diesem gibt es folgende Problemstellung. Da die A-priori Verteilung einen großen Einfluss auf die Ereignisse hat, versucht man eine sg zu finden, welche die A-priori Verteilung modelliert. Das Modell sieht wie folgt aus: X θ f(x θ), θ γ h(θ γ), γ ψ(γ). Der Hilfsparameter γ wird als Hyperparameter bezeichnet. In diesem Fall sehen die Gibbs- Sampler wie folgt aus: θ i x, γ i 1 g(θ x, γ i 1 ), γ x, θ i g(γ x, θ i ). Für die Grenzwerte dieser Gibbs-Sampler gilt nun: 1 n n i=1 θ i γ i D k(θ x), D g(γ x), u( θ i ) P E(u( θ) x). Nach dem Einbrennen der Markovkette schätzt man dann den Erwartungswert von u( θ) wie folgt ab: 1 n m n u(θ i ), n > m. i=1 19

21 7 Zusammenfassung und Schlussfolgerung Markovketten sind mathematische Modelle, welche für zufallsbedingte Ereigniswechsel eine gute Approximation liefern. Ihre Theorie ist gut erforscht und dadurch ist es leicht diese anzuwenden. Es ist oft eine Erleichterung eine komplexe Fragestellung auf Markovketten transformieren zu können. MCMC-Simulationen nutzen die Theorie der Markovketten aus und versuchen diese zum Lösen von komplexen Aufgabenstellungen zu verwenden. Die Anwendung der MCMC-Simulation ist weit gefächert. In dieser Arbeit wurde bewiesen, dass sie zur Entschlüsselung von Texten verwendet werden können. MCMC kann jedoch auch verwendet werden, um Teichlenbewegung und deren resultierenden Zustände zu beschreiben. Deshalb findet dieses Verfahren auch in der Thermodynamik Verwendung. Man könnte auch andere physikalische Phänomene damit zu beschreiben versuchen,z.b. Ladungsverteilung in elektrischen Bauteilen. Naheliegend ist die Anwendung in der Statistik. Das Gibbs-Sampling ist eine der wichtigsten Methoden zur Erzeugung von Stichproben in der Bayes-Statistik. Die MCMC-Simulation hat wie man sieht eine große Bedeutung in der Mathematik und der Physik. 20

22 8 Literaturverzeichnis [1] Diaconis, Persi; Lebeau, Gilles; Michel, Laurent; Geometric Analysis for the Metropolis Algorithm on Lipschitz Domains. [2] Waldmann, K.-H., 2013; Stochastische Modelle Eine anwendungsorientierte Einführung. [3] Diaconis, Persi, 2009; The Markov Chain Monte Carlo Revolution. [4] Neal, Radford M., 2011; MCMC using Hamiltonian dynamics. [5] Zeuner, Michelle, 2011; Die Monte-Carlo-Methode. [6] Robert, C. P., Casella, G., 2004; Monte Carlo Statistical Methods. [7] Beichl, Isabel, 2000; The Metropolis Algorithm. [8] Schomaker, Jens; Einführung in die Theorie der Markov-Ketten. [9] Spellecchia, Claudia, 2008; MCMC. [10] Gurker, Werner, Version 2015; Angewandte Mathematische Statistik. 21

23 9 Abbildungsverzeichnis Abbildung 1.1: Verschlüsselter Text; Diaconis, Persi; The Markov Chain Monte Carlo Revolution. Abbildung 1.2: Entschlüsselter Text; Diaconis, Persi; The Markov Chain Monte Carlo Revolution. Abbildung 2.1: Markovkettengraph; URL: Abbildung 3.1: Boltzmann-Verteilung; URL: Abbildung 4.1: Phasendiagramm; URL: phasendiagramm.html, Abbildung 4.2: Scheibenverteilung; Diaconis, Persi; The Markov Chain Monte Carlo Revolution. 22