Markov Chain Monte Carlo Verfahren. Helga Wagner Bayes Statistik WS 2010/11 407

Transkript

1 Markov Chain Monte Carlo Verfahren Helga Wagner Bayes Statistik WS 2010/11 407

2 Einführung Simulationsbasierte Bayes-Inferenz erfordert Ziehungen aus der Posteriori- Verteilung MCMC-Verfahren ermöglichen es, aus komplizierten, auch hochdimensionalem Verteilungen zu ziehen Idee: Erzeugen einer Markovkette, deren stationäre Verteilung die Posteriori- Verteilung ist: Die generierten Ziehungen ϑ (m),m = 1,...,M sind dann voneinander abhängig. Nach dem Ergodensatz konvergiert das Mittel 1 M M m=1 g(ϑ (m) ) gegen den Posteriori-Erwartungswert E(g(ϑ) y) = g(ϑ)p(ϑ y)dϑ. Helga Wagner Bayes Statistik WS 2010/11 408

3 Markov Chain Monte Carlo Verfahren Wiederholung: Markov-Ketten Helga Wagner Bayes Statistik WS 2010/11 409

4 Markov-Ketten Ein zeitdiskreter stochastischer Prozess Y = {Y t,t N 0 } mit abzählbarem Zustandsraum S heisst Markov-Kette, wenn P(Y t = k Y 0 = j 0,Y 1 = j 1,...,Y t 1 = j t 1 ) = P(Y t = k Y t 1 = j t 1 ). für alle t 0 und für alle k,j 0,...,j t 1 S gilt. Helga Wagner Bayes Statistik WS 2010/11 410

5 Markov-Ketten P(Y t+1 = k Y t = j) heisst einschrittige Übergangswahrscheinlichkeit. DieMarkovketteisthomogen,wenndieÜbergangswahrscheinlichkeitenP(Y t+1 = k Y t = j) nicht von t abhängen p jk = P(Y t+1 = k Y t = j) = P(Y 1 = k Y 0 = j) Die Matrix P = (p jk ) heisst Übergangsmatrix. Helga Wagner Bayes Statistik WS 2010/11 411

6 Irreduzible Markovketten Eine Markov-Kette heisst irreduzibel, falls für alle j, k S eine positive Zahl 1 t < existiert, sodass P(Y t = k Y 0 = j) > j, d.h. Zustand k ist von Zustand j in einer endlichen Zahl von Schritten erreichbar. Die Periode eines Zustands k ist der grösste gemeinsame Teiler der Zeitpunkte n, zu denen eine Rückkehr möglich ist: d(k) = GGT{t 1 : P(Y t = k Y 0 = k) > 0} Falls alle Zustände einer Markov-Kette die Periode 1 haben, nennt man die Markov-Kette aperiodisch. Helga Wagner Bayes Statistik WS 2010/11 412

7 Rückkehrverhalten Die Wahrscheinlichkeit dafür, dass eine in k startende homogene Markov-Kette irgendwann wieder nach k zurückkehrt, d.h. f kk = P(Y t = k;y t 1 k,...,y 1 k Y 0 = k) t=1 heisst Rückkehrwahrscheinlichkeit, und T kk = min(t 1 : Y t = k Y 0 = i) Rückkehrzeit (Rekurrenzzeit) des Zustandes k. Der Zustand k heisst rekurrent, falls f kk = 1 Ein rekurrenter Zustand k ist positiv rekurrent, falls E(T kk ) < bzw. nullrekurrent, falls E(T kk ) nicht exisitiert. Helga Wagner Bayes Statistik WS 2010/11 413

8 Irreduzible Markovketten Eine diskrete Wahrscheinlichkeitsverteilung π heisst invariante Verteilung der homogenen Markovkette Y t bzw. ihrer Übergangsmatrix P, wenn gilt: π = πp. Die invariante Verteilung einer irreduziblen Markovkette ist eindeutig, wenn alle Zustände positiv rekurrent sind. Helga Wagner Bayes Statistik WS 2010/11 414

9 Ergodische Markovketten Eine Markov-Kette heisst ergodisch, wenn die Zustandsverteilung π t von Y t für jede beliebige Startverteilung π 0 gegen dieselbe Wahrscheinlichkeitsverteilung π konvergiert: lim t πt = lim π 0 P t = π. t Die Grenzverteilung einer ergodischen Markov-Kette ist π die invariante Verteilung π = lim t π t = lim t ( π t P ) = ( lim πt) P = πp. t Helga Wagner Bayes Statistik WS 2010/11 415

10 Ergodische Markovketten Eine homogene Markov-Kette mit Übergangsmatrix P ist ergodisch, wenn sie irreduzibel und aperiodisch ist. Die Zustandsverteilung einer irreduziblen und aperiodischen, homogenen Markovkette konvergiert daher gegen die stationäre Verteilung π. Eine ergodische Markov-Kette wird asymptotisch stationär, d.h. der Einfluss der Startverteilung geht verloren. Helga Wagner Bayes Statistik WS 2010/11 416

11 Ergodische Markovketten Sei P die Übergangsmatrix einer irreduziblen, aperiodischen Markovkette und π ihre stationäre Verteilung. Ist Γ die Übergangsmatrix der Markovkette bei Zeitumkehr, d.h. dann gilt die sogenannte detailed Balance. γ kj = P(Y t = j Y t+1 = k), π k γ kj = π j p jk, (47) Umgekehrt folgt aus der detailed Balance-Bedingung(47) dass π die stationäre Verteilung von P ist. Helga Wagner Bayes Statistik WS 2010/11 417

12 Markov Chain Monte-Carlo Methoden Mit der Übergangsmatrix P einer irreduziblen, aperiodischen Markovkette, deren stationäre Verteilung π ist, können Zufallszahlen Y π folgendermaßen erzeugt werden: Wahl eines beliebigen Startwertes y (0) Simulation der Realisierungen einer Markovkette der Länge M mit Übergangsmatrix P, d.h. (y (1),...,y (M) ) Ab einem gewissen Index t geht der Einfluß der Startverteilung verloren und daher gilt approximativ y (m) π, für m = t,...,m Diese Ziehungen sind zwar identisch, aber nicht unabhängig verteilt. (y (1),...y (t) ) ist der sogenannte Burn-In. Helga Wagner Bayes Statistik WS 2010/11 418

13 Allgemeine Markovkette Erweiterung auf Markovketten mit stetigem Zustandsraum: Allgemeine Markovkette Ein zeitdiskreter stochastischer Prozess Y = {Y t,t N 0 } mit Zustandsraum S heisst (allgemeine) Markov-Kette, wenn die Markov-Eigenschaft P(Y t A Y 0 A 0,Y 1 A 1,...,Y t 2 A t 2,Y t 1 = x) = P(Y t A Y t 1 = x) für beliebige y S und beliebige A 0,A 1,...,A t 2,A S gilt Die Markovkette heisst homogen, falls die Wahrscheinlichkeiten P(Y t A Y t 1 = x) nicht vom Zeitpunkt t abhängen. Helga Wagner Bayes Statistik WS 2010/11 419

14 Übergangskern Ist Y eine homogene Markovkette, so ist ihr Übergangskern. P(x,A) = P(Y t A Y t 1 = x) = P(Y 1 A Y 0 = x) Für eine Markovkette mit endlichem Zustandsaum ist P(x, A) durch die Übergangswahrscheinlichkeitenp j,k,d.h.durchdieübergangsmatrixbestimmt. Ist S = R, so ist der Übergangskern durch die Übergangsdichte p(x,y) mit bestimmt. P(x,A) = A p(x, y)dy Helga Wagner Bayes Statistik WS 2010/11 420

15 Grenzverteilung Eine Verteilung Π auf S mit Dichte π(x) heisst invariant für den Übergangskern P(x,A) genau dann wenn für alle A S gilt Π(A) = P(x, A)π(x)dx. Eine allgemeinen Markovkette ist irreduzibel, wenn von beliebigen Startwert x 0 aus jede Menge A mit Π(A) > 0 mit positiver Wahrscheinlichkeit in einer endlichen Zahl von Schritten erreicht werden kann. {E 1,...,E m 1 } bilden einen m-zyklus, wenn P(x,E i+1 mod m ) = 1 für alle x E i S und alle i. Die Periode d der Markovkette ist der größte Wert m, für den ein m-zyklus existiert und die Kette ist aperiodisch, wenn d = 1. Helga Wagner Bayes Statistik WS 2010/11 421

16 Grenzverteilung Ist Y eine irreduzible, aperiodische Markovkette mit Übergangskern P und invarianter Verteilung π, so ist π eindeutig und es gilt mit t wobei P t (x,.) π(.) 0 P t (x,.) π(.) = 2sup A P t (x,a) π(a) Helga Wagner Bayes Statistik WS 2010/11 422

17 Wahl des Übergangskernes Die Anwendung der MCMC Methoden basiert darauf, zur vorgegebenen Verteilung π(ϑ) = p(ϑ y) eine Markovkette mit Übergangskern P und invarianter Verteilung π zu finden. Für eine irreduzible Markovkette mit gegebenem Übergangskern P ist die invariante Verteilung π eindeutig, nicht aber umgekehrt: Zu einer gegebenen Verteilung π gibt es nicht nur einen Übergangskern mit π als invarianter Verteilung Beispiel: Für eine ( homogene Markov-Kette ) mit zwei Zuständen sei die Übergangsmatrix 1 p p P = mit 0 < p < 1 und 0 < q < 1 und π = (π,1 π) die q 1 q stationäre Verteilung. Das Gleichungssystem für p und q ist unterbestimmt und hat daher unendlich viele Lösungen. Helga Wagner Bayes Statistik WS 2010/11 423

18 Wahl des Übergangskernes Es gibt daher viele Möglichkeiten einen Übergangskern P(ϑ old,a) zu konstruieren, der die notwendige Bedingung Π(A) = P(ϑ old,a)π(ϑ old )dϑ old. (48) mit erfüllt. Üblicherweise benutzt werden π(ϑ) = p(ϑ y) Metropolis-Hastings-Algorithmus (Hastings, 1970; Chib and Greenberg, 1995) Gibbs Sampling (Geman and Geman, 1984; Casella and George, 1992) Helga Wagner Bayes Statistik WS 2010/11 424

19 MCMC zur Bayes-Inferenz Mit Ziehungen ϑ (1),...,ϑ (M) aus einer allgemeinen Markovkette mit stationärer Verteilung π(ϑ) = p(ϑ y) = p(y ϑ)p(ϑ) p(y) kann der Posteriori-Erwartungswert E(g(ϑ) y) = g(ϑ)p(ϑ y)dϑ durch den Mittelwert approximiert werden. ĝ(ϑ) = ϑ 1 M M m=1 g(ϑ (m) ) Helga Wagner Bayes Statistik WS 2010/11 425

20 MCMC zur Bayes-Inferenz Aufgrund der Abhängigkeit der Ziehungen ist die Varianz dieses Schätzers nicht wie bei unabhängigen Ziehungen Var(g)/M sondern E((ĝ(ϑ) E(g(ϑ))) 2 ) = 1 M Ω 0(g). (49) Ω 0 (g) ist die Spektraldichte des Prozesses g(ϑ (m) ) und es gilt (Geweke, 1992): τ = Ω 0(g) Var(g) = 1+2 Dabei ist ρ s die Autokorrelation des Prozesses g(ϑ (m) ) zum Lag s. s=1 ρ s. Helga Wagner Bayes Statistik WS 2010/11 426

21 MCMC zur Bayes-Inferenz τ heisst Ineffizienzfaktor. Je grösser der Ineffizienzfaktor τ, desto ineffizienter ist das Verfahren. Da die Ziehungen üblicherweise positiv korreliert sind, ist τ > 1, d.h. MCMC Ziehungen sind weniger effizient als i.i.d. Ziehungen. Die effektive Stichprobengröße M/τ gibt an, wievielen ua. Ziehungen die M Ziehungen aus der Markov-Kette entsprechen. Annähernd ua. Ziehungen erhält man, wenn nur jeder k te Wert der Stichprobe, also ϑ (1),ϑ (k+1),... zur Inferenz benutzt wird (Verdünnung, thinning). Helga Wagner Bayes Statistik WS 2010/11 427

22 Markov Chain Monte Carlo Verfahren Metropolis-Hastings-Algorithmus Helga Wagner Bayes Statistik WS 2010/11 428

23 Metropolis-Hastings-Algorithmus Im Metropolis-Hastings-Algorithmus wird der Übergangskern der Markovkette erzeugt, indem ausgehend von ϑ (m 1) = ϑ old eine Ziehung aus einer Vorschlagsdichte q(ϑ old,ϑ new ) = q(ϑ new ϑ old ) erfolgt. Der Wert ϑ new wird mit Wahrscheinlichkeit ( α(ϑ new ϑ old ) = α(ϑ old,ϑ new ) = min 1, p(ϑnew y)q(ϑ old ϑ new ) ) p(ϑ old y) q(ϑ new ϑ old ) akzeptiert, d.h. ϑ (m) = ϑ new sonst wird ϑ old beibehalten, dh. ϑ (m) = ϑ old. Dieser Algorithmus erzeugt eine homogene Markovkette. Helga Wagner Bayes Statistik WS 2010/11 429

24 Metropolis-Hastings-Algorithmus Ein Übergang von x = ϑ old nach z = ϑ new ϑ old findet statt, wenn ϑ new ausgehend von ϑ old vorgeschlagen wird und ϑ new akzeptiert wird, sonst bleibt die Kette in x = ϑ old. Der Übergangskern der Markovkette ist also P(x,A) = p(x,z)dz +r(x)δ x (A) A mit und p(x,z) = { q(x,z)α(x,z) x z r(x) = 1 0 sonst p(x, z)dz. Helga Wagner Bayes Statistik WS 2010/11 430

25 Die invariante Verteilung Die Posteriori-Verteilung p(ϑ y) ist die invariante Verteilung der Markovkette. Wir zeigen zunächst, dass die detailed balance Bedingung p(x y)p(x, z) = p(z y)p(z, x) gilt: p(x y)p(x, z) = p(x y)q(x, z)α(x, z) = p(x y)q(x, z) min (1, p(z y)q(z,x) ) p(x y)q(x, z) ( ) = min p(x y)q(x, z), p(z y)q(z, x) = = p(z y)q(z, x) min ( p(x y)q(x,z) p(z y)q(z,x),1 ) = = = p(z y)p(z, x) Helga Wagner Bayes Statistik WS 2010/11 431

26 Die invariante Verteilung p(x y) ist die invariante Verteilung: P(x,A)p(x y)dx = = = A = ( A A A ) p(x, z)dz p(x y)dx + ( p(x,z)p(x y)dx) dz + ( p(z,x)p(z y)dx) dz + (1 r(z))p(z y)dz + A p(z y)dz = P(A y) A A A r(x)p(x y)dx = r(x)δ x (A)p(x y)dx = r(x)p(x y)dx = r(x)p(x y)dx = Helga Wagner Bayes Statistik WS 2010/11 432

27 Anwendung des MH-Algorithmus Die Akzeptanzwahrscheinlichkeit kann berechnet werden als α(ϑ new ϑ old ) = min = min ( 1, p(ϑnew y)q(ϑ old ϑ new ) p(ϑ old y) q(ϑ new ϑ old ) = ( 1, p(y ϑnew )p(ϑ new )q(ϑ old ϑ new ) ) p(y ϑ old )p(ϑ old )q(ϑ new ϑ old ) = Die Normierungskonstante p(y) muss also zur Anwendung des MH- Algortihmus nicht bekannt sein. Für die Konvergenz des Algorithmus ist Irreduzibilität und Aperiodizität der Markov-Kette erforderlich. Diese Eigenschaften sind theoretisch schwer zu überprüfen = Analyse der Ziehungen Helga Wagner Bayes Statistik WS 2010/11 433

28 Wahl der Vorschlagsdichte Grundsätzlich liefert praktisch jede Vorschlagsdichte Ziehungen aus der gewünschten Verteilung (Tierney, 1994), allerdings hängt die Effizienz von der gewählten Vorschlagsdichte ab. Die Vorschlagsdichte soll so gewählt werden, dass daraus leicht Zufallszahlen erzeugt werden können die Akzeptanzraten nicht zu klein sind Helga Wagner Bayes Statistik WS 2010/11 434

29 Wahl der Vorschlagsdichte Independence Proposal Die Vorschlagsdichte ist u.a. vom aktuellen Wert, d.h. q(ϑ new ϑ old ) = q(ϑ new ). Die Akzeptanzwahrscheinlichkeit beträgt α(ϑ new ϑ old ) = min ( 1, p(ϑnew y)q(ϑ old ) ) p(ϑ old y) q(ϑ new ) Ein einfacher Spezialfall ergibt sich, wenn die Vorschlagsdichte die Zielverteilung p(ϑ y) ist. Dann wird jeder Vorschlag akzeptiert. Helga Wagner Bayes Statistik WS 2010/11 435

30 Wahl der Vorschlagsdichte Random Walk Proposal Die Vorschlagsdichte ist ein Random Walk d.h. d.h. q(ϑ new ϑ old ) = f(ϑ new ϑ old ). ϑ new = ϑ old +ε, ε f, Für einen symmetrischen Random Walk ist die Akzeptanzwahrscheinlichkeit ( α(ϑ new ϑ old ) = min 1, p(ϑnew y) ) p(ϑ old y) ( = min 1, p(y ϑnew )p(ϑ new ) p(y ϑ old )p(ϑ old ) ) Ein Vorschlag ϑ new mit p(ϑ new y) > p(ϑ old y) wird immer akzeptiert. Helga Wagner Bayes Statistik WS 2010/11 436

31 Normal Random Walk Eine übliche Wahl ist die Vorschlagsdichte ϑ new N ( ) ϑ old,c, mit fester Varianz-Kovarianzmatrix C. kleine Skala = kleine Schritte ϑ new ϑ old mit i.a. hohen Akzeptanzraten, aber hohen Autokorrelationen. Extremfall C 0: Akzeptanzrate von 1, τ große Skala = große Schritte ϑ new ϑ old mit Vorschlägen oft in den Enden der Verteilung und daher kleinen Akzeptanzraten Helga Wagner Bayes Statistik WS 2010/11 437

32 Multivariate Zielverteilung Anwendung des MH-Algorithmus zum Ziehen eines multivariate Parametern ϑ ist ineffizient, wenn Vorschläge für den gesamten Parameter niedrige Akzeptanzraten haben. Eine Alternative besteht darin, Metropolis-Hastings-Schritte für die einzelnen Komponenten durchzuführen, d.h. einen Vorschlag jeweils nur für eine Komponente ϑ j zu machen. Die Komponenten können in einer festen oder in einer zufälligen Reihenfolge aufdatiert werden. Helga Wagner Bayes Statistik WS 2010/11 438

33 Eye Tracking: MH-Algorithmus Modell: y i NegBin(θ,β), d.h. p(y i ;θ,β) = ( θ +y i 1 θ 1 ) ( β ) θ ( 1 ) yi β +1 β +1 Ua. Priori-Verteilungen: θ G(1,1), β G(1,0) Algorithmus: 2- Block Sampler Wähle einen Startwerte für θ (0) und ziehe (a) β (m) aus p(β θ (m 1),y) (b) θ (m) aus p(θ β (m),y). Helga Wagner Bayes Statistik WS 2010/11 439

34 Eye Tracking: MH-Algorithmus Die bedingten Dichten sind gegeben als ( β ) nθ ( 1 ) y i p(β θ,y) p(y θ,β)p(θ,β) β +1 β +1 p(θ β,y) p(y θ,β)p(θ,β) ( ) θ +y i 1 ( β ) nθexp( θ) θ 1 β +1 i Für den transformierten Parameter π = β/(1 + β) hat die bedingte Dichte p(π θ, y) den Kern einer Beta-Verteilung: p(π θ,y) π nθ (1 π) y i 1 (1 π) 2 Vorschlag π B(nθ +1, y i 1) mit Akzeptanzrate 1 möglich Helga Wagner Bayes Statistik WS 2010/11 440

35 Eye Tracking: MH-Algorithmus Log-Normal Random walk Proposal für θ, d.h. logθ new N ( logθ old,c ) : Erzeuge θ new = exp(logθ old + Cε) ε N (0,1). Damit ist q(θ new θ old ) = 1/θ new. Akzeptiere θ new wenn für u U [0,1] gilt log(u) log(α(θ new θ old ) = min(0,h(θ new π,y) h(θ old π,y) mit h(θ π,y) = log(p(θ β,y)θ)+c = = i log(γ(θ+y i )) nlog(γ(θ))+nθlog(π) θ+log(θ) Helga Wagner Bayes Statistik WS 2010/11 441

36 Eye Tracking: MH-Algorithmus Abhängigkeit der Akzeptanzrate von der Varianz der Vorschlagsdichte C Akzeptanzrate Helga Wagner Bayes Statistik WS 2010/11 442

37 Eye Tracking: MH-Algorithmus 2 Posterior Draws for α 2 Posterior Draws for α 2 Posterior Draws for α Abbildung 45: Posteriori-Ziehungen von α für verschiedene Vorschlagsdichten (links C = 2, Mitte: C = 0.02, rechts: C = 0.3) Helga Wagner Bayes Statistik WS 2010/11 443

38 Eye Tracking: MH-Algorithmus Einfluß des Startwertes 2 Posterior Draws for α 0.5 Posterior Draws for β Abbildung 46: Posteriori-Ziehungen von α (links) und β (rechts) für verschiedene Startwerte α (0) and β (0) Helga Wagner Bayes Statistik WS 2010/11 444

39 SFr Wechselkurs-Daten: MH-Algorithmus ( Modell: y i t ) ν µ,σ 2 mit bekanntem ν = 4 Priori-Verteilung: p(µ,σ 2 ν). Algorithmus: Single Move Sampler Wähle einen Startwert für σ 2,(0) und ziehe für m = 1,...,M (a) µ (m) aus p(µ σ 2,(m 1),y): Normal Random Walk Vorschlag (b) σ 2,(m) aus p(σ 2 µ (m),y): Log-Normal Random Walk Vorschlag Die ersten M 0 Ziehungen (Burn-In) werden zur Schätzung nicht verwendet. Helga Wagner Bayes Statistik WS 2010/11 445

40 SFr Wechselkurs-Daten: MH-Algorithmus Die bedingten Dichten sind gegeben als p(µ σ 2,y) p(y µ,σ 2 )p(µ,σ 2 ) p(α β,y) p(y µ,σ 2 )p(µ,σ 2 ) p(y µ,σ 2,ν) ist die Likelihood des Student t-modells. Helga Wagner Bayes Statistik WS 2010/11 446

41 SFr Wechselkurs-Daten: MH-Algorithmus Sampling-Schritte: (a) Der Vorschlag µ new N ( µ (m 1),c 2 µ) wird akzeptiert, wenn wobei u 1 U [0,1] u 1 p(y µnew,σ 2,(m 1),ν)p(µ new,σ 2,(m 1) ν) p(y µ (m 1),σ 2,(m 1),ν)p(µ (m 1),σ 2,(m 1) ν), (b) Vorgeschlagen wird logσ (2,new) N ( logσ 2,(m 1),c 2 s). Der Vorschlag σ (2,new) wird akzeptiert, wenn u 2 p(y µ(m),σ (2,new),ν)p(µ (m),σ (2,new) ν)σ (2,new) p(y µ (m),σ 2,(m 1),ν)p(µ (m),σ 2,(m 1) ν)σ 2,(m 1), wobei u 2 U [0,1] Helga Wagner Bayes Statistik WS 2010/11 447

42 SFr Wechselkurs-Daten: MH-Algorithmus Tuning: Wahl der Standardabweichungen c µ and c s der Vorschlagsdichten Ziehen mit verschiedenen Werten der Standardabweichung von verschiedenen Startwerten Bestimmen von Akzeptanzrate (acc) Ineffizienzfaktor (ineff) Helga Wagner Bayes Statistik WS 2010/11 448

43 SFr Wechselkurs-Daten: MH-Algorithmus 0.6 acc: ineff: σ σ Iteration m acc: Iteration m acc: Lag 1 ineff: Lag 1 ineff: σ Iteration m Lag Abbildung 47: SFr Wechselkurs-Daten, t 4 ( µ,σ 2 ) : je 2 Pfade für Posteriori-Ziehungen von σ 2. Oben: c s = 0.01, Mitte: c s = 0.1, unten: c s = 1 Helga Wagner Bayes Statistik WS 2010/11 449

44 SFr Wechselkurs-Daten: MH-Algorithmus Sowohl zu hohe als auch zu niedrige Akzeptanzraten führen zu einem ineffizienten Sampler: = Wahl c s = 0.1 Für c µ = 0.05 ist die Akzeptanzrate ca. 25%, der Ineffizienzfaktor 6 (geringe Abhängigkeit von der Vorschlagsdichte für σ 2. Burn-In: erste 1000 Werte Aus den letzten 4000 Ziehungen werden Posteriori-Erwartungswert und HPD- Intervalle (approximativ) bestimmt Parameter Posteriori-Erwartungswert 95%-HPD-Intervall µ ; [-0.017, 0.026] σ 2 ν/(ν 2) 0.6 [ 0.56, 0.64] Helga Wagner Bayes Statistik WS 2010/11 450

45 SFr Wechselkurs-Daten: MH-Algorithmus 40 Posterior of µ 20 Posterior of σ 2 ν/(ν 2) µ σ 2 ν/(ν 2) Abbildung 48: SFr Wechselkurs-Daten, t 4 ( µ,σ 2 ), Priori: p(µ,σ 2 ) 1/σ 2 : Posteriori-Dichten für µ und σ 2 ν/(ν 2) Helga Wagner Bayes Statistik WS 2010/11 451

46 MH-Algorithmus für die Parameter der Student-Verteilung ( Modell: y i t ) ν µ,σ 2 Priori-Verteilung: p(µ,σ 2, ν). Algorithmus: Single Move Sampler Wähle einen Startwerte für σ 2,(0) und ν (0) und und ziehe für m = 1,...,M (a) µ (m) aus p(µ σ 2,(m 1),ν (m 1),y): Normal Random Walk Vorschlag (b) σ 2,(m) aus p(σ 2 µ (m),ν (m 1),y): Log-Normal Random Walk Vorschlag (c) ν (m) aus p(ν µ (m),σ 2,(m) y): Log-Normal Random Walk Vorschlag Die ersten M 0 Ziehungen (Burn-In) werden zur Schätzung nicht verwendet. Helga Wagner Bayes Statistik WS 2010/11 452

47 MH-Algorithmus für die Parameter der Student-Verteilung Schritt (a) und (b) sind wie im Fall ν bekannt (c) Vorgeschlagen wird logν new N ( logν (m 1),c 2 ν). Der Vorschlag ν new wird akzeptiert, wenn u 3 p(y µ (m),σ 2,(m),ν new )p(µ (m),σ 2,(m),ν new )ν new p(y µ (m),σ 2,(m),ν (m 1) )p(µ (m),σ 2,(m),ν (m 1) )ν (m 1) wobei u 3 U [0,1]. p(y µ,σ 2,ν) ist die Likelihood des Student-Modells. Helga Wagner Bayes Statistik WS 2010/11 453

48 Ziehen aus einer uneigentlichen Posteriori-Verteilung Was passiert bei Implementierung des MH-Algorithmus mit uneigentlicher Posteriori-Verteilung, z.b. p(ν) = 1/ν? Für die Priori-Verteilung p(ν) = 1/ν hängt die Akzeptenzrate nur von den Werten der Likelihood ab. Diese ist in den Enden der Verteilung jedoch praktisch konstant in ν: Liegen sowohl ν old and der Vorschlag ν new in den Enden = Akzeptanzwahrscheinlichkeit 1 Sampler bleibt in den Enden bis ein Wert aus dem modalen Bereich der Likelihood vorgeschlagen wird Helga Wagner Bayes Statistik WS 2010/11 454

49 Ziehen aus einer uneigentlichen Posteriori-Verteilung Sei ν old ein Wert aus dem modalen Bereich. Die Wahrscheinlichkeit dafür, dass ein Wert aus den Enden der Verteilung vorgeschlagen und akzeptiert wird ist R(ν old ) c N(µ,σ 2 ) p(y ν old,µ,σ 2 ), wobei c N (µ,σ 2 ) die Likelihood unter dem Normalmodell ist (ν ). Je kleiner R(ν old ) desto geringer ist das Risiko, dass der Sampler in den Enden der Verteilung hängen bleibt Helga Wagner Bayes Statistik WS 2010/11 455

50 Ziehen aus einer uneigentlichen Posteriori-Verteilung 4.5 Data Set 1 (ν 0 =1) acc: Posterior of ν ν Iteration m x ν Data Set 1 (ν 0 =1) acc: Posterior of σ σ Iteration m x σ 2 Abbildung 49: Daten 1: 1000 Werte t 3 (0,1). links: MCMC Ziehungen für ν und σ 2 Rechts: Posteriori -Verteilungen p(ν y) und p(σ 2 y) unter den Priori-Verteilungen p(ν) = 1/ν (strichliert) und ν U [0, 200] (voll) Die Posteriori-Verteilung ist uneigentlich für p(ν) = 1/ν! Helga Wagner Bayes Statistik WS 2010/11 456

51 Ziehen aus einer uneigentlichen Posteriori-Verteilung Data Set 2 (ν 0 =1) acc: Data Set 2 (ν 0 = 200) acc: ν 1000 ν Iteration m Iteration m Abbildung 50: Daten 2: 1000 Werte t 10 (0,1). MCMC Ziehungen von ν. Links: Priori p(ν) = 1/ν; rechts: U [0, 200]-Prior jeweils mit Startwert ν (0) = 100, und σ 2,(0) = 10) Helga Wagner Bayes Statistik WS 2010/11 457

52 Ziehen aus einer uneigentlichen Posteriori-Verteilung 10 x Data Set 3 (ν 0 =1) acc: Data Set 3 (ν 0 = 200) acc: ν Iteration m ν Iteration m Abbildung 51: Daten 3: 1000 Werte t 100 (0,1)MCMC Ziehungen von ν. Links: Priori p(ν) = 1/ν; rechts: U [0, 200]-Prior jeweils mit wahrem Wert als Startwert Helga Wagner Bayes Statistik WS 2010/11 458

53 Anwendung: SFr Wechselkurs-Daten Likelihood ν σ Abbildung 52: SFr Wechselkurs-Daten: Likelihood des t ν ( 0,σ 2 ) -Modells mit ν und σ 2 unbekannt Helga Wagner Bayes Statistik WS 2010/11 459

54 Anwendung: SFr Wechselkurs-Daten Log Likelihood ν σ Abbildung 53: SFr Wechselkurs-Daten:Log-likelihood des t ν ( 0,σ 2 ) -Modells mit ν und σ 2 unbekannt Helga Wagner Bayes Statistik WS 2010/11 460

55 Anwendung: SFr Wechselkurs-Daten 4000 log L(y ν, σ 2 fixed) 1 L(y ν, σ 2 fixed) 4500 σ 2 = σ 2 = σ 2 = σ 2 = σ 2 = ν σ 2 = ν Abbildung 54: SFr Wechselkurs-Daten: Likelihood- und Log-Likelihood-Profile für verschiedene Werte von σ 2 Helga Wagner Bayes Statistik WS 2010/11 461

56 Anwendung: SFr Wechselkurs-Daten acc: x acc: ν ν Iteration m Iteration m Abbildung 55: SFr Wechselkurs-Daten: MCMC Ziehungen aus der uneigentlichen Posteriori-Verteilung. Startwerte: ν (0) = 4, verschiedene Startwerte für σ (2,0). Links: σ (2,0) zwischen 1 und 10, rechts: σ (2,0) = 100 Helga Wagner Bayes Statistik WS 2010/11 462

57 Anwendung: SFr Wechselkurs-Daten 1 Posterior of ν ν Abbildung 56: SFr Wechselkurs-Daten: Posteriori-Dichten von ν unter Priori p(ν) = (1/ν) n 0. Voll: eigentliche Posteriori für n 0 = 2, strichliert: uneigentliche Posteriori für n 0 = 0 Helga Wagner Bayes Statistik WS 2010/11 463

58 Anwendung: SFr Wechselkurs-Daten 40 Posterior of µ 25 Posterior of σ 2 ν/(ν 2) µ σ 2 ν/(ν 2) Abbildung 57: SFr Wechselkurs-Daten, Posteriori-Dichten von µ und σ 2 unter Priori p(ν) = (1/ν) n 0. Voll: eigentliche Posteriori für n 0 = 2, strichliert: uneigentliche Posteriori für n 0 = 0. Strichpunkt: ν = 4 fest Helga Wagner Bayes Statistik WS 2010/11 464