Der Metropolis-Hastings Algorithmus

Ähnliche Dokumente
Satz 2.8.3: Sei Q eine Intensitätsmatrix. Dann hat die

Vertiefung NWI: 13. Vorlesung zur Wahrscheinlichkeitstheorie

Q4. Markov-Prozesse in diskreter Zeit

Markov-Ketten-Monte-Carlo-Verfahren

LANGZEITVERHALTEN VON MARKOW-KETTEN

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Simulation von Zufallsvariablen und Punktprozessen

Proseminarvortrag. Markov-Ketten in der Biologie (Anwendungen)

Kapitel 6 Martingale

Einführung in die Bayes-Statistik. Helga Wagner. Ludwig-Maximilians-Universität München WS 2010/11. Helga Wagner Bayes Statistik WS 2010/11 1

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

Einführung in die Bayessche Bildanalyse

2 Euklidische Vektorräume

Stochastische Prozesse. Woche 5

Werner Sandmann: Modellierung und Analyse 4 1. Kapitel 4. Markovketten

4. Vektorräume und Gleichungssysteme

Bayessche Netzwerke und ihre Anwendungen

Kapitel 2 Wahrscheinlichkeitsrechnung

Diskrete Verteilungen

Signalverarbeitung 2. Volker Stahl - 1 -

ε δ Definition der Stetigkeit.

Grundlagen der Monte Carlo Simulation

Algorithmen mit konstantem Platzbedarf: Die Klasse REG

Mathematik für Wirtschaftswissenschaftler, WS 10/11 Musterlösungen zu Aufgabenblatt 11

Begriffe aus der Informatik Nachrichten

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.

Simulationsmethoden in der Bayes-Statistik

Chi-Quadrat-Verteilung

9 Die Normalverteilung

Spezielle stetige Verteilungen

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

9.2 Invertierbare Matrizen

Übungen zur Vorlesung MATHEMATIK II

Kapitel VI. Euklidische Geometrie

Lösungsvorschläge zum 14. Übungsblatt.

Theorien für die Darstellung von Unsicherheit Ein Vergleich der Wahrscheinlichkeits-, Möglichkeits- und Dempster-Shafer Theorie

Markovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse

Diskrete Wahrscheinlichkeitstheorie - Probeklausur

Zufallsgröße. Würfelwurf mit fairem Würfel. Wahrscheinlichkeitsverteilung einer diskreten

Klausur zur Vorlesung,,Algorithmische Mathematik II

8. Stetige Zufallsvariablen

Kapitel VI - Lage- und Streuungsparameter

5.1 Determinanten der Ordnung 2 und 3. a 11 a 12 a 21 a 22. det(a) =a 11 a 22 a 12 a 21. a 11 a 21

STOCHASTISCHE PROZESSE. Vorlesungsskript

Zufallsvariablen: Die allgemeine Definition

Gewöhnliche Dierentialgleichungen

Formale Methoden 1. Gerhard Jäger 16. Januar Uni Bielefeld, WS 2007/2008 1/19

Mathematik für Biologen

Adaptive Systeme. Sommersemester Prof. Dr. -Ing. Heinz-Georg Fehn. Prof. Dr. rer. nat. Nikolaus Wulff

Matrizen, Determinanten, lineare Gleichungssysteme

+ 2 F2 (u) X 1 F1 (u)) Der Koeffizient der unteren Tail-Abhängigkeit von (X 1,X 2 ) T wird folgendermaßen definiert:

(Lineare) stochastische Optimierung

Bedingte Wahrscheinlichkeiten und Unabhängigkeit

Die Varianz (Streuung) Definition

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion



Seminarvortrag aus Reiner Mathematik Existenz von Primitivwurzeln

Bestimmung einer ersten

Erzeugung von Pseudozufallszahlen mit Computern

entspricht der Länge des Vektorpfeils. Im R 2 : x =

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren Thomas Brox, Fabian Kuhn

Punktprozesse. Andreas Frommknecht Seminar Zufällige Felder Universität Ulm

Würfelspiele und Zufall

Caputo fraktionale Differentialgleichungen. 1 Riemann Liouville fraktionale Differentialgleichungen

(Man sagt dafür auch, dass die Teilmenge U bezüglich der Gruppenoperationen abgeschlossen sein muss.)

Analysis I - Stetige Funktionen

Signifikanz von Alignment Scores und BLAST

Die Lineare Algebra-Methode. Mahir Kilic

Lösungsvorschläge Blatt Z1

Extremwertverteilungen

Google s PageRank. Eine Anwendung von Matrizen und Markovketten. Vortrag im Rahmen der Lehrerfortbildung an der TU Clausthal 23.

Mathematik des Hybriden Monte-Carlo. Marcus Weber. Zuse Institute Berlin

Einführung in die Wahrscheinlichkeitsrechnung und Statistik für Ingenieure

Lineare Gleichungssysteme

Lineare Gleichungssysteme (Teschl/Teschl 11.1)

Übungsblatt 9. f(x) = e x, für 0 x

Zusatztutorium,

Modelle und Methoden der Linearen Optimierung (Die Thesen zur Vorlesung 1_Fallstudie)

8. Konfidenzintervalle und Hypothesentests

Übungsrunde 9, Gruppe 2 LVA , Übungsrunde 8, Gruppe 2, Markus Nemetz, TU Wien, 12/2006

Newton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme

Die Gamma-Funktion, das Produkt von Wallis und die Stirling sche Formel. dt = lim. = lim = Weiters erhalten wir durch partielle Integration, dass

27 Taylor-Formel und Taylor-Entwicklungen

Kapitel III. Stetige Funktionen. 14 Stetigkeit und Rechenregeln für stetige Funktionen. 15 Hauptsätze über stetige Funktionen

1 Elemente der Wahrscheinlichkeitstheorie

BONUS MALUS SYSTEME UND MARKOV KETTEN

Stefan Schmid TU Berlin & T-Labs, Berlin, Germany. Reduktionen in der Berechenbarkeitstheorie

Lineare Abhängigkeit

2. Stetige lineare Funktionale

3.3 Eigenwerte und Eigenräume, Diagonalisierung

Tabelle 11.2 zeigt die gemeinsame Wahrscheinlichkeitsfunktion und die Randverteilungen

Lösungsvorschlag zu den Hausaufgaben der 8. Übung

Mathematik für Wirtschaftswissenschaftler. gehalten von Claus Diem

Ebene algebraische Kurven

Beispiel: Evolution infizierter Individuen

Transkript:

Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006

Markov-Chain Monte-Carlo Verfahren Übersicht 1 Einführung in Markov-Chain Monte-Carlo Verfahren 2 Kurze Wiederholung von Markov-Ketten 3 Der Algorithmus im diskreten Fall 4 Der generelle Algorithmus

Markov-Kette (I) Sei X = (X 0, X 1, X 2,...) eine Folge von diskreten Zufallsvariablen, die alle Ausprägungen in einer abzählbaren Menge S haben S heißt Zustandsraum und s S ein Zustand. Definition einer Markov-Kette X heißt Markov-Kette, falls P(X t = s X 0 = x 0, X 1 = x 1,..., X t 1 = x t 1 ) = für alle t 1 und s, x 0, x 1, x 2,..., x t 1 S. P(X t = s X t 1 = x t 1 ) Hinweis: Die Theorie wird nur für diskrete Zustandsräume betrachtet.

Markov-Kette (II) = P(X t+1 = j X t = i) nennt man auch die ein-schritt Übergangswahrscheinlichkeit p (t) ij Falls keine der ein-schritt Übergangswahrscheinlichkeiten sich mit t ändert, nennt man X homogen und p (t) ij = p ij Die S S Matrix P = [p ij ] wird auch die Übergangsmatrix (oder Transitionsmatrix) genannt

Klassifikation von Zuständen (I) Betrachtet wird die sogenannte Rekurrenzzeit (Rückkehrzeit) eines i S T ii = min(t 1 : X t = i X 0 = i) Ein Zustand i heißt rekurrent, falls die Kette mit Wahrscheinlichkeit 1 wieder in den Zustand zurückkehrt, d.h. P(T ii < ) = 1 Falls die erwartete Rekurrenzzeit endlich ist, E(T ii ) < nennt man den Zustand nicht-leer (sonst leer).

Klassifikation von Zuständen (III) Eine Markov-Kette heißt irreduzibel, falls i, j : m : 1 m < : P(X m = i X 0 = j) > 0 Die Periode eines Zustandes i ist d(i) = g. c. d.{n 1 : P(X n = i X 0 = i) > 0}. Eine Markov-Kette X heißt aperiodisch, falls jeder Zustand von X die Periode 1 hat.

Stationäre Verteilung Jede diskrete Verteilung π = (π 1,..., π S ), sodass πp = π heißt stationäre Verteilung für P. Theorem: Eine irreduzible Markov-Kette X hat eine stationäre Verteilung alle Zustände sind nicht-leer rekurrent Hat eine irreduzible Markov-Kette X eine stationäre Verteilung ist π eindeutig und π i = 1 E(T ii ), i S.

Detailed Balance (I) Es ist oft leichter stationarität einer Dichte mit der sogenannten detailed-balance Bedingung zu zeigen. Angenommen X = {X n : 0 n N} ist eine irreduzible Markov-Kette, sodass X n die stationäre Verteilung π für alle n hat. X heißt reversibel, falls die Übergangsmatrix von X und der Rückwärtskette Y n = X N n gleich sind, d.h. π i p ij = π j p ji, i, j S. Dies nennt man auch die detailed-balance Bedingung.

Detailed Balance (II) Theorem Sei X irreduzibel und angenommen es existiert ein π, dass die detailed-balance Bedingung erfüllt. Dann ist π die stationäre Verteilung der Kette. Beweis:

Das Grenzwerttheorem (I) Eine irreduzible und aperiodische Markov-Kette konvergiert gegen ihre stationäre Verteilung π lim P(X (t+n) = j X (t) = i) = lim P ij(n) = π j n n für alle i, j S. Daher gilt µ (0) P n π für alle µ (0).

Das Grenzwerttheorem (II) Beispiel: 0.1 0.6 0.3 P = 0.8 0.1 0.1 0.5 0.4 0.1 Folgende Formel kann zur Berechnung von π benutzt werden: π = 1 (I P + Q) 1, wobei 1 ein Vektor aus Einsen ist, I die Identitätsmatrix und Q = [1]. Somit π = (0.4375, 0.3750, 0.1875). Sei µ (0) = (1, 0, 0). Z.B. ist µ (10) = (0.4409, 0.3727, 0.1864).

Die Idee von MCMC (grob gesehen) Ziel: Erzeugung von Zufallszahlen aus der diskreten Verteilung π. Voraussetzung: Irreduzible und aperiodische Markov-Kette mit Übergangsmatrix P dessen stationäre Verteilung π ist. Wähle beliebigen Startwert x 0 = i, i S. Simuliere eine Realisationen der Länge n aus der Markov-Kette X mit Übergangsmatrix P, d.h. x 1, x 2,..., x n. Approximativ gilt, dass X i π, für i = m,..., n, wobei m < n der sogenannte Burn-In ist. Achtung: Die Samples sind jetzt abhängig!

Der Algorithmus im diskreten Fall Didaktisches Beispiel Details in der Vorlesung Siehe auch discrete-mh.r.

(I) Eine generelle Formulierung des Algorithmus, die auch stetige und mehrdimensionale Parameterräume abdeckt Man möchte eine Markov-Kette konstruieren, die die (mehrdimensionalen) Dichte/Wahrscheinlichkeitsfunktion π(x) als stationäre Verteilung hat und gegen π konvergiert. Der Algorithmus ist in der Bayes-Inferenz interessant, denn es ist nur notwendig die gewünschte Zieldichte bis hin zur Proportionalität zu kennen.

Notation Angenommen der Zustand zum Zeitpunkt t ist ein m-dimensionaler Vektor X t = x = (x 1,..., x m ) Die Notation x i wird für den Vektor benutzt, der aus allen Komponenten außer i besteht, d.h x i = (x 1,..., x i 1, x i+1,..., x m ). Gegeben x sei q i (y i x) eine bedingte Dichte, die so genannte Proposal-Verteilung für den i ten Komponenten Abkürzung q(y x) = q i (y i x)

(II) Algorithmus 1 : Update-Schritt Input : Markov-Kette mit aktuellem Zustand X t = x = (x 1,..., x m ) und i {1,..., m} die Komponente, in x, die aufdatiert werden soll. 1 (Proposal-Schritt) Vorschlag für den i ten Komponenten: y i q i ( x) Vorschlag für den neuen Zustand: y = (y i, y i ), mit y i = x i. 2 (Akzeptanzschritt) X t+1 = y mit Wahrscheinlichkeit { α(x, y) = min 1, π(y)q(x y) } { = min 1, π(y } i y i )q i (x i y) π(x)q(y x) π(x i x i )q i (y i x) anderenfalls X t+1 = x.

(III) Man unterscheidet insbesondere zwei wichtige Klassen bei der Wahl von q i (y i x): 1 Falls q(y x) nicht von x abhängt. d.h. q(y x) = q(y), nennt man y ein independence proposal. 2 Falls q i (y x) = q i ( x y ) und q i eine Dichte ist, die symmetrisch um 0 ist, dann, nennt man y ein random walk proposal. Hier vereinfacht sich die Akzeptanzw keit zu { α = min 1, π(y) } π(x) Beispiele, wenn x = x ein Skalar: y N (x, σ 2 ), y U(x d, x + d)

(IV) Ein trivialer Spezialfall ergibt sich, wenn q(y x) = π(x), d.h. man schlägt Zufallszahlen aus der Ziel-Verteilung vor. Dann ergibt sich α = 1 und tatsächlich werden alle Zufallszahlen auch akzeptiert. Für multivariate X wird x typisch komponentenweise in einer festen Reihenfolge aufdatiert, z.b. wird zuerst ein Schritt für die 1. Komponente vorgenommen. Dieser Zustand wird dann benutzt um einen MH-Schritt für die 2. Komponente vorzunehmen, usw. Eine Alternative ist es auch i U{1,..., m} zufällig zu wählen. Anstelle von einem x i kann auch eine ganze Gruppe von Komponenten x A = {x i : i A} simultan aufdatiert werden.