Stochastik-Praktikum

Ähnliche Dokumente
BZQ II: Stochastikpraktikum

Stochastik Praktikum Markov Chain Monte Carlo Methoden

Methoden der Statistik Markov Chain Monte Carlo Methoden

Der Metropolis-Hastings Algorithmus

Übersicht. 1 Einführung in Markov-Chain Monte-Carlo Verfahren. 2 Kurze Wiederholung von Markov-Ketten

BZQ II: Stochastikpraktikum

Formelsammlung zur Vorlesung: Einführung in die Bayes-Statistik

Bayesian analysis of spatial point processes in the neighbourhood of Voronoi. networks

Endliche Markov-Ketten - eine Übersicht

Stochastik-Praktikum

Markov Chain Monte Carlo Verfahren. Helga Wagner Bayes Statistik WS 2010/11 407

Statistics, Data Analysis, and Simulation SS 2015

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Randomisierte Algorithmen

Gauß-Prozess-Regression

Simulation von Zufallsvariablen und Punktprozessen

MCMC. Ausarbeitung zum Seminar: The Top 10 Algorithms. Claudia Spellecchia Dübendorf, Schweiz Matrikelnummer

Ljapunov Exponenten. Reiner Lauterbach

Stochastik Praktikum Parametrische Schätztheorie

Kapitel 5 Erneuerungs- und Semi-Markov-Prozesse

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

BZQ II: Stochastikpraktikum

Statistik für Ingenieure Vorlesung 6

Stochastik-Praktikum

Kapitel VII - Funktion und Transformation von Zufallsvariablen

Finanzmathematische Modelle und Simulation

Simulationsmethoden in der Bayes-Statistik

Thema: Totalvariationabstand, Kopplung und Mischzeiten

2 Zufallsvariable, Verteilungen, Erwartungswert

Einführung und Grundlagen

Zulassungsprüfung Stochastik,

Monte Carlo Finite Elemente Methode

Eine Auswahl wichtiger Definitionen und Aussagen zur Vorlesung»Stochastik für Informatiker und Regelschullehrer«

Vorlesung: Statistik II für Wirtschaftswissenschaft

Statistik für Informatiker, SS Verteilungen mit Dichte

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Erneuerungs- und Semi-Markov-Prozesse

UE Statistische Mustererkennung WS 2018 Angaben zur 2ten Aufgabengruppe

Stochastik Wiederholung von Teil 1

Metropolis-Algorithmus

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck

Vorlesung Wissensentdeckung

Aufgaben zu Kapitel 0

7 Zufallszahlen, Simulation

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

Einführung in die Induktive Statistik: Testen von Hypothesen

Hawkes Prozesse Grundlagen

Algebra und Zahlentheorie WS 13/14

Varianzkomponentenschätzung

Numerische Methoden der Bayes-Inferenz. Helga Wagner Bayes Statistik WS 2010/11 338

70 Wichtige kontinuierliche Verteilungen

Seminar in Statistik - FS Nonparametric Bayes. Handout verfasst von. Ivo Francioni und Philippe Muller

Faltung und Approximation von Funktionen

16.3 Rekurrente und transiente Zustände

Klausur Stochastik und Statistik 31. Juli 2012

Unabhängige Zufallsvariablen

3.4 Bayes-Verfahren Begrifflicher Hintergrund. Satz 3.22 (allgemeines Theorem von Bayes)

Extrapolation und Interpolation von räumlichen Mustern

Wirtschaftsmathematik

2 Perfekte Simulation 2.1 Kopplung von Markov-Ketten ( Coupling ) 2.2 Forward Coupling (FC) 2.3 Propp-Wilson: Coupling-From-The-Past (CFTP)

Das empirische VaR bzw. CVaR

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Seminar Stochastische Unternehmensmodelle Varianzreduzierende Techniken

Frequentisten und Bayesianer. Volker Tresp

Wissenswertes über den Metropolis-Algorithmus

Methoden der statistischen Inferenz

3. Markov Ketten in stetiger Zeit, Teil II 3.2. Klassenstruktur

2 Halbgruppen von Übergangswahrscheinlichkeiten. Markov-Prozesse

Bayesianische Modellwahl. Helga Wagner Bayes Statistik WS 2010/11 161

Vorlesung Monte-Carlo-Verfahren

Schriftliche Ausarbeitung zum Seminarvortrag: Einführung in die Perfekte Simulation. Propp-Wilson-Algorithmus

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Stochastische Prozesse Stoffzusammenfassung

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

VERTEILUNGEN VON FUNKTIONEN EINER ZUFALLSVARIABLEN

TU DORTMUND Sommersemester 2018

Der Ergodensatz. Hendrik Hülsbusch

Definition 18 (Die verallgemeinerte Pareto Verteilung (GPD)) Die standard GPD G γ : ) 1/γ. G γ,ν,β = 1 (1 + γ x ν β

Stochastik für Informatiker

Zufällige stabile Prozesse und stabile stochastische Integrale. Stochastikseminar, Dezember 2011

d) Produkte orthogonaler Matrizen sind wieder orthogonal.

W-Rechnung und Statistik für Ingenieure Übung 11

Bem. 6 Die charakterische Funktion existiert.

Perfekte Simulation unter Laufzeitbeschränkung

Seminar stabile Zufallsprozesse

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

Simulation von Zufallszahlen. Grundlage: zufällige Quelle von Zufallszahlen, durch einfachen rekursiven Algorithmus am Computer erzeugt

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

2 Fortsetzung von Prämaßen zu Maßen, Eindeutigkeit

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!!

Statistik für Informatiker, SS Grundlagen aus der Wahrscheinlichkeitstheorie

7 Bedingte Erwartungswerte und Bedingte Verteilungen

Statistik und Wahrscheinlichkeitsrechnung

Statistische Entscheidungstheorie

3.2 Maximum-Likelihood-Schätzung

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Kapitel IX - Mehrdimensionale Zufallsvariablen

Transkript:

Stochastik-Praktikum Markov Chain Monte Carlo Peter Frentrup Humboldt-Universität zu Berlin 16. Januar 2018 (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 1 / 17

Übersicht 1 Problemstellung 2 Markov Chain Monte Carlo (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 2 / 17

Problemstellung Zur Untersuchung einer Verteilung P f mit Dichte f ist es i.a. nötig, (viele) Stichproben X P f zu generieren, um so Kenngrößen von P f, wie Erwarrtungswert E f [X ], Varianz Var f (X ), etc. nach Monte-Carlo-Methode zu approximieren: E f [h(x )] 1 N N i=1 h(x i). Verschiedene Methoden für konkrete f : Inversionsmethode spezielle Methoden (Normalverteilung, diskrete Verteilungen) Verwerfungsmethode (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 3 / 17

Verwerfungsmethode Ziel: Erzeuge X P f mit Wahrscheinlichkeitsdichte f. Gegeben: Kandidatendichte g, sodass Y P g leicht zu simulieren ist, mit f (x)/g(x) M x für eine Konstante M. Algorithmus: Schritt 1: Erzeuge U U [0,1] und Y P g, sodass U Y (unabh.) Schritt 2: Falls U f (Y )/(Mg(Y )), so akzeptiere: X := Y ; sonst: lehne Y ab, kehre zu Schritt 1 zurück. (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 4 / 17

Verwerfungsmethode Eigenschaften Korrektheit: [ P[X x] = P Y x U f (Y ) ] = P[ Y x, U f (Y ) ] Mg(Y ) Mg(Y ) P[U f (Y ) x f (y)/(mg(y)) 0 du g(y) dy = f (y)/(mg(y)) 0 du g(y) dy = [ ] = P f (, x]. 1 x M 1 M Mg(Y ) ] f (y) dy f (y) dy Unabhängig von der Dimension. Akzeptanzwahrscheinlichkeit: P [ U f (Y ) Mg(Y )] = 1/M. Je kleiner M, desto eher wirkt akzeptiert. Problem: g schwierig zu finden. (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 5 / 17

Verwerfungsmethode Eigenschaften Korrektheit: [ P[X x] = P Y x U f (Y ) ] = P[ Y x, U f (Y ) ] Mg(Y ) Mg(Y ) P[U f (Y ) x f (y)/(mg(y)) 0 du g(y) dy = f (y)/(mg(y)) 0 du g(y) dy = [ ] = P f (, x]. 1 x M 1 M Mg(Y ) ] f (y) dy f (y) dy Unabhängig von der Dimension. Akzeptanzwahrscheinlichkeit: P [ U f (Y ) Mg(Y )] = 1/M. Je kleiner M, desto eher wirkt akzeptiert. Problem: g schwierig zu finden. (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 5 / 17

Verwerfungsmethode Beispiel Erzeuge X Beta(4, 3), d.h. f (x) = 1 B(4,3) x 4 1 (1 x) 3 1 = 60x 3 (1 x) 2, x [0, 1] Inversionsmethode nicht analytisch möglich: u = y 0 f (x) dx = 15y 4 24y 5 + 10y 6 nicht analytisch invertierbar. Für Verwerfungsmethode, wähle g(y) = 1, also Y U [0,1]. Konstante M: für x [0, 1], d.h. M 2,1. f (x) Mg(x) = M 60x 3 (1 x) 2 M (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 6 / 17

Ursprüngliches Problem Viele Stichproben X i P f für Monte Carlo generieren: E f [h(x )] 1 N N h(x i ). i=1 Verschiedene Methoden für konkrete f : Inversionsmethode spezielle Methoden Verwerfungsmethode Gemeinsamkeiten obiger Methoden: 1 Erzeugen i.i.d. Samples X i. 2 Basieren auf relativ starken Annahmen an f. (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 7 / 17

Ursprüngliches Problem Viele Stichproben X i P f für Monte Carlo generieren: E f [h(x )] 1 N N h(x i ). i=1 Verschiedene Methoden für konkrete f : Inversionsmethode (i.a. teuer: muss F (x) = x f (z) dz invertieren) spezielle Methoden (nur spezielle f ) Verwerfungsmethode (benötige Dichte g mit f (x)/g(x) konst., für die P g leicht zu samplen ist) Gemeinsamkeiten obiger Methoden: 1 Erzeugen i.i.d. Samples X i. 2 Basieren auf relativ starken Annahmen an f. (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 7 / 17

Ursprüngliches Problem Viele Stichproben X i P f für Monte Carlo generieren: E f [h(x )] 1 N N h(x i ). Verschiedene Methoden für konkrete f : x Inversionsmethode (i.a. teuer: muss F (x) = f (z) dz invertieren) spezielle Methoden (nur spezielle f ) Verwerfungsmethode (benötige Dichte g mit f (x)/g(x) konst., für die P g leicht zu samplen ist) Gemeinsamkeiten obiger Methoden: 1 Erzeugen i.i.d. Samples X i. i=1 2 Basieren auf relativ starken Annahmen an f. Häufig nicht erfüllt! Beispiel: Bayes a posteriori Dichte f θ X = f X θ f θ f X f X θ f θ. (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 7 / 17

Ursprüngliches Problem Viele Stichproben X i P f für Monte Carlo generieren: E f [h(x )] 1 N N h(x i ). Verschiedene Methoden für konkrete f : x Inversionsmethode (i.a. teuer: muss F (x) = f (z) dz invertieren) spezielle Methoden (nur spezielle f ) Verwerfungsmethode (benötige Dichte g mit f (x)/g(x) konst., für die P g leicht zu samplen ist) i=1 Gemeinsamkeiten obiger Methoden: 1 Erzeugen i.i.d. Samples X i. Das ist nicht nötig! 2 Basieren auf relativ starken Annahmen an f. Häufig nicht erfüllt! Beispiel: Bayes a posteriori Dichte f θ X = f X θ f θ f X f X θ f θ. (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 7 / 17

Übersicht 1 Problemstellung 2 Markov Chain Monte Carlo (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 8 / 17

Idee [Christian P. Robert, George Casella Monte Carlo Statistical Methods] Satz (Ergodensatz von Birkhoff) Ist (X n ) n 0 eine Harris-rekurrente Markov-Kette mit invariantem W-Maß P f, so gilt für alle h L 1 (P f ), dass N 1 1 h(x n ) N n=0 h(x)f (x) dx = E f [h(x )], für N. Für große n erzeugt die Markovkette annähernd Samples bezüglich f. Diese Samples sind nicht i.i.d.! (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 9 / 17

Markov-Ketten Definition (Überganskern) Eine Abbildung K : R d B(R d ) R heißt Überganskern, falls 1 K(x, ) für alle x R ein Wahrscheinlichkeitsmaß auf B(R d ) ist und 2 K(, B) für alle B B(R d ) messbar ist. Definition (Markov-Kette) Ein Prozess (X n ) n 0 heißt Markov-Kette (MC), falls P[X n+1 B X 0,..., X n ] = P[X n+1 B X n ] = für n N 0, B B, mit Übergangskern K. Beispiel: AR(1)-Prozess, Random Walk,.... B K(X n, dx) (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 10 / 17

Markov-Ketten Eine Markov-Kette (X n ) n 0 mit Überganskern K heißt Zeit-homogen, falls P[X n+1 B X n ] = P[X 1 B X 0 ]; ν-irreduzibel für ein Maß ν auf B, falls x R d, A B mit ν(a) > 0 n: K n (x, A) > 0; Harris-rekurrent, falls ν : (X n ) ν-irreduzibel und A, ν(a) > 0 x A : P[ n 1 : X n A X 0 = x] = 1 Definition Ein Maß µ heißt zu einem Übergangskern K invariant, falls µk = µ, also µ(dx)k(x, B) = µ(b) B B. Ist µ ein W-Maß, so heißt es auch stationär ((X n ) mit X 0 µ ist stationär). Für Existenz von µ genügt die Detailed Balance Bedingung: µ( dx)k(x, dy) = µ( dy)k(y, dx). (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 11 / 17

Der Metropolis-Hastings-Algorithmus Ziel: Markov-Kette (X n ) n 0 mit invariantem W-Maß P f simulieren. 1 Wähle X 0 zufällig/beliebig, sodass f (X 0 ) > 0. 2 Angenommen, wir haben schon X n erzeugt. Erzeuge Y n P q( x). { Setze r(x n, Y n ) := min 1, f (Y n)q(x n Y n ) } die Akzeptanzwkt. f (X n )q(y n X n ) Setze { Y n mit Wahrscheinlichkeit r(x n, Y n ), X n+1 := X n mit Wahrscheinlichkeit 1 r(x n, Y n ). Spezialfall: Symmetrische Sampling-Dichte q(y x) = q(x y) r(x n, Y n ) = min{1, f (Y n )/f (X n )}. Interpretation: Akzeptiere Y n immer, falls es im Bereich größerer Dichte liegt. Ansonsten vertraue dem Sample weniger und wirf eine Münze. (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 12 / 17

Der Metropolis-Hastings-Algorithmus Ziel: Markov-Kette (X n ) n 0 mit invariantem W-Maß P f simulieren. 1 Wähle X 0 zufällig/beliebig, sodass f (X 0 ) > 0. 2 Angenommen, wir haben schon X n erzeugt. Erzeuge Y n P q( x). { Setze r(x n, Y n ) := min 1, f (Y n)q(x n Y n ) } die Akzeptanzwkt. f (X n )q(y n X n ) Setze { Y n mit Wahrscheinlichkeit r(x n, Y n ), X n+1 := X n mit Wahrscheinlichkeit 1 r(x n, Y n ). Spezialfall: Symmetrische Sampling-Dichte q(y x) = q(x y) r(x n, Y n ) = min{1, f (Y n )/f (X n )}. Interpretation: Akzeptiere Y n immer, falls es im Bereich größerer Dichte liegt. Ansonsten vertraue dem Sample weniger und wirf eine Münze. (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 12 / 17

Eigenschaften der Metropolis-Hastings MC (X n ) Übergangskern der Markov-Kette ist K(x, B) = P[X n+1 B X n = x] (1 ) = r(x, y)q(y x) dy + 1 B (x) r(x, z) q(z x) dz B für Borelmenge B. K erfüllt Detailed Balance: K(x, dy)f (x) dx = K(y, dx)f (y) dy (nachrechnen!) µ = P f ist invariante Verteilung von (X n ), da P[X 1 B X 0 µ] = K(x, B)f (x) dx = 1 B (y)k(x, dy)f (x) dx = 1 B (y)k(y, dx)f (y) dy = f (y)1 B (y) dy = µ(b). (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 13 / 17

Weitere Eigenschaften von (X n ) Falls q(y x) > 0 für alle (x, y) E E, wobei E = supp(f ), so ist (X n ) n 0 irreduzibel (bzgl. Lebesgue-Maß), d.h. jeder Punkt im Support E von f kann in einem Schritt erreicht werden, denn K(x, y) > 0. Man kann zeigen: falls P[X n+1 = X n ] > 0, so ist (X n ) n 0 aperiodisch und somit (da irreduzibel) Harris-rekurrent, d.h. der Ergodenzatz ist anwendbar. Es sollte leicht sein, von q( x) zu samplen. Erzeugte Samples hängen stark von der Konvergenzgeschwindigkeit gegen die stationäre Verteilung P f ab. Samples sind nicht unabhängig; Approximation ist erst nach Burn-in-Phase gut; verwende 1 b+n N n=b+1 h(x n). (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 14 / 17

Anwendungsbeispiel 28. Januar 1986: Explosion der Raumfähre Challenger wegen Materialermüdung en Dichtungsringen Wahrscheinlicher Grund: ungewöhnlich niedrige Außentemperatur von 31 F (ca. 0 C) Probleme 1 1 1 1 0 0 0 0 0 0 0 0 Temperatur 53 57 58 63 66 67 67 67 68 69 70 70 Probleme 1 1 0 0 0 1 0 0 0 0 0 Temperatur 70 70 72 73 75 75 76 76 78 79 81 (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 15 / 17

Anwendungsbeispiel Modelliere Materialprobleme mit logistischer Regression: iid Annahme: Beobachte Y i Bernoulli(p(xi )) X i = Temperatur, Y i = Materialproblem Ja/Nein p(xi ) = P[Y i = 1 X i = x i ] = exp(α + x iβ) für Parameter 1 + exp(α + x i β) α, β R Dies ist ein verallgemeinertes lineares Modell Ziel: Bestimme α, β anhand der Daten und mache Vorhersagen für ungesehene Temperaturen. (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 16 / 17

Anwendungsbeispiel hier: Bayes-Analyse a-priori-dichte: π α (α b) = 1 b eα e eα /b, π β (β) = 1, b = Hyperparameter (für datengetriebene Wahl siehe [Robert & Casella, 2004]) Likelihood-Funktion: Für x = (x i ) 23 i=1, y = (y i) 23 i=1, L(α, β x, y) = 23 i=1 p(x i ) y i (1 p(x i )) 1 y i a-posteriori-dichte: f (α, β) L(α, β x, y)π(α, β) Vorschlagsdichte (unabhängig): q(α, β) = π α (α b)ϕ(β), mit N (0, 1)-Dichte ϕ. Von q lässt sich leicht samplen. Akzeptanzwahrscheinlichkeit von (α, β ): r ( (α, β), (α, β ) ) { = min 1, L(α, β x, y)ϕ(β) } L(α, β x, y)ϕ(β ) (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 17 / 17