Bayes Inferenz Schätzen und Testen von Hypothesen Helga Wagner Bayes Statistik WS 2010/11 301
Bayes Punktschätzung Entscheidungstheoretischer Ansatz: Wahl des Punktschätzers ist eine Aktion, die möglicherweise mit einem Verlust verbunden ist Eine Verlustfunktion l(a, ϑ) quantifiziert den Verlust, der entsteht, wenn ϑ durch a geschätzt wird. Üblicherweise ist der Verlust 0, wenn a = ϑ, d.h. und l(a,ϑ) ist monoton wachsend in ϑ. l(a,a) = 0. Für gegebene Daten y sind ϑ und damit auch l(a, ϑ) Zufallsvariable. Helga Wagner Bayes Statistik WS 2010/11 302
Bayes Punktschätzung Der erwartete Verlust bezüglich der Posteriori-Verteilung ist E(l(a, ϑ) y) = l(a, ϑ)p(ϑ y) dϑ. Eine Aktion a, die den posteriori erwarteten Verlust minimiert, heisst Bayes- Aktion. Ein Bayes-Schätzer ˆϑ(y) von ϑ minimiert den erwarteten Verlust E(l(ˆϑ(y),ϑ) y). Helga Wagner Bayes Statistik WS 2010/11 303
Exkurs: Grundbegriffe der statistischen Entscheidungstheorie Daten y: statistisches Modell mit Stichprobenverteilung p(y ϑ) und ϑ Θ Menge von Aktionen A Verlustfunktion l(a, ϑ) l : A Θ R (a, ϑ) l(a, ϑ) Entscheidungsregel d(y), die den Stichprobenraum Y auf die Menge der Aktionen A abbildet d : Y A y d(y) Helga Wagner Bayes Statistik WS 2010/11 304
Exkurs: Grundbegriffe der statistischen Entscheidungstheorie Die Eigenschaften der Entscheidungsregel werden charakterisiert durch die Risikofunktion R(d,ϑ) = l(d(y), ϑ)p(y ϑ)dy Da die Risikofunktion als Erwartungswert über den Stichprobenraum definiert ist, wird sie auch frequentistisches Risiko genannt. Mit einer apriori-verteilung π(ϑ) auf dem Parameterraum Θ ist das Bayes-Risiko r(d,π) = R(d, ϑ)π(ϑ)dϑ Eine Entscheidungsregel, die das Bayes-Risiko minimiert, heisst Bayes-Regel, d.h. d π = arg inf d D r(d,π) Die (frequentistische) Bayes-Regel bedingt auf Daten y ist die Bayes-Aktion. Helga Wagner Bayes Statistik WS 2010/11 305
Exkurs: Grundbegriffe der statistischen Entscheidungstheorie Einen Schätzer, der das Bayes-Risiko r(d, π) minimiert, erhält man wegen r(d,π) = Y Θ l(d(y), ϑ y)π(ϑ y)dϑ p(y)dy = Y r(d, π y)p(y)dy, wenn für jedes y Y, d(y) so gewählt wird, dass r(d,π y) minimiert wird. Reguläre Bayes-Schätzer sind zulässig, d.h. es gibt keinen weiteren Schätzer d (y) mit folgenden Eigenschaften: R(d,ϑ) R(d,ϑ) für alle ϑ Θ und es existiert mindestens ein ϑ Θ mit R(d,ϑ) < R(d,ϑ). Helga Wagner Bayes Statistik WS 2010/11 306
Quadratische Verlustfunktion Für die quadratische Verlustfunktion l(ˆϑ(y),ϑ) = (ˆϑ(y) ϑ) (ˆϑ(y) ϑ), ist der optimale Schätzer ˆϑ(y) ist der Posteriori Erwartungswert µ = E(ϑ y). Helga Wagner Bayes Statistik WS 2010/11 307
Quadratische Verlustfunktion Beweis: Es ist l(a,ϑ) = (a µ ϑ+µ) (a µ ϑ+µ) = = (a µ) (a µ) 2(ϑ µ) (a µ)+(ϑ µ) (ϑ µ), Der Erwartungswert bezüglich der Posteriori-Dichte ist E(l(a,ϑ) y) = (a µ) (a µ)+e((ϑ µ) (ϑ µ) y). Das Minimum wird an der Stelle a = µ angenommen und das minimale Risiko ist gleich der Spur der Varianz-Kovarianz-Matrix tr(var(ϑ y)). Helga Wagner Bayes Statistik WS 2010/11 308
Lineare Verlustfunktionen Für die asymmetrische Verlustfunktion des Einparameter-Problems l(ˆϑ(y),ϑ) = { c l (ϑ ˆϑ(y)), ˆϑ(y) < ϑ, c r (ˆϑ(y) ϑ), ˆϑ(y) > ϑ, mit postiven Konstanten c l,c r ist der optimale Schätzer das c l /(c r + c l )- Perzentil der Posteriori-Verteilung. Spezialfall c l = c r = 1: Die Verlustfunktion ist die absolute Abweichung l(ˆϑ(y),ϑ) = ˆϑ(y) ϑ und der optimale Punktschätzer ist der Posteriori-Median. Helga Wagner Bayes Statistik WS 2010/11 309
Lineare Verlustfunktionen Beweis: Bezeichne P(ϑ y) die Verteilungsfunktion der Posteriori-Verteilung, dann ist E(l(a, ϑ) y) = a c r (a ϑ)p(ϑ y)dϑ + a c l (ϑ a)p(ϑ y)dϑ = Wegen d dx b(x) a(x) g(x,t)dt = b(x) a(x) dg(x, t) dx dt + g(x,b(x)) db(x) dx g(x,a(x))da(x) dx ergibt Ableiten nach a : d E(l(a, ϑ) y) da a = c r p(ϑ y)dϑ + 0 c l p(ϑ y)dϑ 0 = = c r P(a y) c l (1 P(a y)) = 0. a Helga Wagner Bayes Statistik WS 2010/11 310
Die Null-Eins-Verlustfunktion Der optimale Punktschätzer bezüglich der Null-Eins-Verlustfunktion l(ˆϑ(y),ϑ) = { 0, wenn ˆϑ(y) ϑ ε, 1, wenn ˆϑ(y) ϑ > ε ist für eine unimodale Posteriori-Verteilung im Grenzfall ε 0 der Modus ϑ der Posteriori-Verteilung ( maximum aposteriori estimate = MAP). Beweis: a ε a+ε E(l(a, ϑ) y) = p(ϑ y)dϑ + a+ε p(ϑ y)dϑ = 1 a ε p(ϑ y)dϑ Der erwartete Verlust ist minimal, wenn der Wert des Integrals maximal wird. Dies ist für eine unimodale Posteriori-Verteilung und kleines ε eine ε-umgebung um den Modus der Verteilung. Helga Wagner Bayes Statistik WS 2010/11 311
Die Null-Eins-Verlustfunktion Unter der flachen Priori-Verteilung ist der MAP gleich dem ML-Schätzer. Wegen logp(ϑ y) = c+logp(y ϑ)+logp(ϑ) maximiert der MAP die pönalisierte Likelihood mit Penalty log p(ϑ). Helga Wagner Bayes Statistik WS 2010/11 312
Eigenschaften von Bayes Punktschätzern Bayes Schätzer unter quadratischer Verlustfunktion sind i.a. nicht unverzerrt. Beispiel: Mittelwert der Normalverteilung m n = (1 ω)m 0 +ωȳ Aber: Erwartungstreue bedeutet eine Mittelung über die Stichprobenverteilung Posteriori-Modus und Posteriori-Erwartungswert sind nicht invariant bezüglich streng monotoner Transformation. Helga Wagner Bayes Statistik WS 2010/11 313
HPD-Bereiche 100%(1 α)- HPD-Bereiche haben minimale Länge unter allen 100%(1 α)-kredibilitätsbereiche müssen nicht zusammenhängend, d.h. ein Intervall, sein sind nicht invariant bei streng monotonen Transformationen Gleichendige 100%(1 α)-kredibilitätsintervalle sind invariant bezüglich streng monotoner Transformation. Helga Wagner Bayes Statistik WS 2010/11 314
Testen von Hypothesen: Entscheidungstheoretischer Ansatz Daten y: statistisches Modell mit Stichprobenverteilung p(y ϑ) und ϑ Θ Hypothesen: H 0 : ϑ Θ 0 und H 1 : ϑ Θ 1 Θ 0 und Θ 1 = Θ c 0 bilden eine Zerlegung des Parameterraumes Θ Inferenz über δ = 1 Θ1 (ϑ) Aktionen A = {0,1} Verlustfunktion: Null-Eins-Verlust l(δ,a) = { 0 a = δ 1 a δ Helga Wagner Bayes Statistik WS 2010/11 315
Testen von Hypothesen: Entscheidungstheoretischer Ansatz Posteriori erwarteter Verlust E(l(a,δ)) = a p(ϑ y)dϑ+(1 a) p(ϑ y)dϑ = Θ 0 Θ 1 = ap(ϑ Θ 0 y)+(1 a)p(ϑ Θ 1 y) Minimieren des posteriori erwarteten Verlustes: a = { 1 wenn P(ϑ Θ 1 y) > 0.5 0 sonst Es wird also die Hypothese mit der größeren Wahrscheinlichkeit gewählt. Helga Wagner Bayes Statistik WS 2010/11 316
Testen von Hypothesen: Entscheidungstheoretischer Ansatz Bei unterschiedlichem Verlust der möglichen Fehler, d.h. der Verlustfunktion 0 a = δ l(a,δ) = c 0 a = 1,δ = 0 c 1 a = 0,δ = 1 ist der posteriori erwartete Verlust E(l(a,δ)) = c 0 ap(ϑ Θ 0 y)+(1 a)c 1 P(ϑ Θ 1 y) Er wird minimiert durch a = { 1 wenn P(ϑ Θ1 y) > c 0 c 0 +c 1 = 1 1+c 1 /c 0 0 sonst Helga Wagner Bayes Statistik WS 2010/11 317
Testen von exakten Hypothesen Testen von exakten Hypothesen, z.b.: H 0 : ϑ = ϑ 0 und H 1 : ϑ ϑ 0 ist mit stetigen Priori-Verteilungen nicht möglich = Priori-Verteilung als Mischung eines Dirac Maßes δ ϑ0 (ϑ) auf ϑ 0,und einer stetigen Komponente ξ(ϑ) p(ϑ) = πδ ϑ0 (ϑ)+(1 π)ξ(ϑ) Die Posteriori-Wahrscheinlichkeit für ϑ = ϑ 0 ist P(ϑ = ϑ 0 y) = wobei m 1 (y) = p(y ϑ)ξ(ϑ)dϑ ist. p(y ϑ 0 )π ( p(y ϑ 0 )π +(1 π)m 1 (y) = 1+ 1 π m 1 (y) ) 1 π p(y ϑ 0 ) Helga Wagner Bayes Statistik WS 2010/11 318
Testen von exakten Hypothesen Beispiel: Test von H 0 : µ = 0 für N ( µ,σ 2) Priori-Verteilung: p(µ) = πδ 0 +(1 π)ξ(µ), ξ(µ) = f(µ N ( 0,τ 2) ) Es gilt: m 1 (y) = p(y µ)p(µ) p(µ y) = (2πσ 2 ) n/2 ( M n /τ 2 exp 1 ) 2 ( yi/σ 2 2 m 2 n/m n ) mit M n = (n/σ 2 +1/τ 2 ) 1 und m n = M n nȳ/σ 2 Helga Wagner Bayes Statistik WS 2010/11 319
Testen von exakten Hypothesen und daher m 1 (y) p(y µ = 0) = ( 1 M n /τ 2 exp 2 (m2 n/m n )) = σ 2 ( σ 2 +nτ 2 exp ȳ 2 n 2 τ 2 ) 2σ 2 (σ 2 +nτ 2 ) Für n = 1 gilt P(µ = 0 y) = ( 1+ 1 π σ 2 ( π σ 2 +τ 2 exp y 2 τ 2 2σ 2 (σ 2 +τ 2 ) )) 1 Helga Wagner Bayes Statistik WS 2010/11 320
Testen von exakten Hypothesen Tabelle 16: Einfluß der Priori-Varianz τ 2 : P(µ = 0 y,τ 2 ) für verschiedene Werte von y und τ 2 (π = 0.5, σ 2 = 1) τ 2 0 z 0.75 =0.67 z 0.9 =1.28 z 0.975 = 1.96 z 0.995 =2.58 1 0.586 0.558 0.484 0.351 0.212 10 0.768 0.730 0.612 0.367 0.140 100 0.901 0.889 0.817 0.600 0.274 10 5 0.997 0.996 0.993 0.979 0.920 y Lindley-Paradoxon: lim P(µ = 0 y,τ 2 ) 1 τ 2 Helga Wagner Bayes Statistik WS 2010/11 321
Bayes Inferenz Asymptotik Helga Wagner Bayes Statistik WS 2010/11 322
Diskrete Asymptotik Sei ϑ Θ = {ϑ 1,ϑ 2,...,} mit Priori-Verteilung p(ϑ i ) = P(ϑ = ϑ i ) =: p i ϑ t der wahre Parameter. Die Kullbeck-Leibler-Diskrepanz zwischen p(y ϑ t ) und p(y ϑ i ) ist für alle i t. p(y ϑ t )log p(y ϑ t) p(y ϑ i ) dy = E(logp(y ϑ t) p(y ϑ i ) ) > 0 Wenn y = (y 1,...,y n ) eine Stichprobe aus p(y ϑ t ) ist, gilt lim p(ϑ t y) = 1 n lim p(ϑ i y) = 0 für alle i t n Helga Wagner Bayes Statistik WS 2010/11 323
Diskrete Asymptotik Beweis: für festes n ist p(ϑ i y) = p(y ϑ i)p i p(y) = n p i j=1 i p n i j=1 = exp(log(p i) + S i ) i exp(log(p i) + S i ) p(y j ϑ i ) p(y j ϑ t ) p(y j ϑ i ) p(y j ϑ t ) = mit S i = k j=1 log p(y j ϑ i ) p(y j ϑ t ). Aus dem Gesetz der grossen Zahlen folgt lim n 1 n S i = p(y ϑ t )log p(y ϑ { t) = 0 für i = t p(y ϑ i ) dy < 0 für i t Helga Wagner Bayes Statistik WS 2010/11 324
Diskrete Asymptotik und daher Damit gilt aber lim n S i lim p(ϑ t y) = n { = 0 für j = t für i t. { 1 für i = t 0 für i t Ist ϑ t / Θ dann konvergiert die Posteriori-Verteilung zu jenem ϑ i Θ, das die kleinste Kullback-Leibler-Distanz zum wahren Modell hat. Helga Wagner Bayes Statistik WS 2010/11 325
Stetige Asymptotik 60 40 20 θ true =0.02 θ true =0.25 20 N=25 N=25 10 0 60 40 20 0 60 40 20 0.02 0.04 0.06 0.08 0.1 0 0.2 0.4 0.6 20 N=100 N=100 10 0.02 0.04 0.06 0.08 0.1 0 0.2 0.4 0.6 20 N=400 N=400 10 0 0.02 0.04 0.06 0.08 0.1 0 0.2 0.4 0.6 Abbildung 35: Posteriori-Dichte eines Anteils ϑ bei verschiedenen Stichprobenumfängen unter der flachen Priori-Verteilung (volle Linie) und der B(2, 4)-Priori (strichliert) für zwei verschiedene Werte von ϑ Helga Wagner Bayes Statistik WS 2010/11 326
Stetige Asymptotik 3000 2500 θ true =0.02 θ true =0.25 1000 N=1000000 N=1000000 900 800 2000 1500 700 600 500 400 1000 300 500 0 0.01 0.015 0.02 0.025 0.03 200 100 0 0.2 0.25 0.3 Abbildung 36: Posteriori-Dichte eines Anteils ϑ für eine Stichprobe der Größe n = 10 6 unter der flachen Priori-Verteilung für zwei verschiedene Werte von ϑ Helga Wagner Bayes Statistik WS 2010/11 327
Stetige Asymptotik Für eine i.i.d. Stichprobe y = (y 1,...,y n ) mit Stichprobenverteilung p(y ϑ) ist die logarithmierte Posteriori-Verteilung logp(ϑ y) = logp(ϑ)+logp(y ϑ) Taylor-Reihenentwicklung um Priori-Modus m 0 bzw. ML-Schätzer ˆϑ: logp(ϑ) logp(m 0 ) 1 2 (ϑ m 0) H 0 (ϑ m 0 ) logp(y ϑ) logp(y ˆϑ) 1 2 (ϑ ˆϑ) H(ˆϑ)(ϑ ˆϑ) wobei H 0 und H(ˆϑ) die jeweilige Hesse-Matrix am Modus bzw. an der Stelle des ML-Schätzers ist: H(ϑ) = 1 ( 2 logp(y ˆϑ) ) 2 ϑ i ϑ j Helga Wagner Bayes Statistik WS 2010/11 328
Stetige Asymptotik Bem: H(ˆϑ) ist die beobachtete Fisher-Information Unter Regularitätsbedingungen ist dann asymptotisch p(ϑ y) exp ( 1 2 (ϑ m n) H n (ϑ m n ) ) wobei H n = H 0 +H(ˆϑ) m n = H 1 n (H 0 m 0 +H(ˆϑ)ˆϑ) Für großes n ist also die Posteriori-Verteilung annähernd eine Normalverteilung: ϑ y N ( ) m n,h 1 n Helga Wagner Bayes Statistik WS 2010/11 329
Stetige Asymptotik Für großes n ist die (feste) Priori-Präzision klein im Vergleich zur beobachteten Fisher-Information, daher gilt ϑ y N (ˆϑ,H(ˆϑ) 1 ) Der ML-Schätzer kann also als asymptotischer Bayes-Schätzer interpretiert werden! Helga Wagner Bayes Statistik WS 2010/11 330
Stetige Asymptotik Weitere Approximationen: Die beobachtete Fisher-Information kann durch die erwartete Fisher- Information ersetzt werden: ϑ y N (ˆϑ,nI(ˆϑ) 1 ) Ersetzen des ML-Schätzers durch den Posteriori Modus ϑ : p(ϑ y) N ( ϑ,(n H(ϑ )) 1). Helga Wagner Bayes Statistik WS 2010/11 331
Stetige Asymptotik Bemerkungen: Regularitätsbedingungen: Parameter ϑ true liegt nicht am Rande des Parameterraums - garantiert, dass Informationsmatrix positiv definit ist für kleine Stichproben ist die Priori-Verteilung nicht vernachlässigbar asymptotische Normalverteilung oft erst für sehr große Stichproben Umparameterisierung kann bessere Approximation ergeben Helga Wagner Bayes Statistik WS 2010/11 332
Posteriori Dichte eines Anteils Für einen Anteil ϑ ist die Likelihood und damit p(y ϑ) = ϑ y (1 ϑ) 1 y logp(y ϑ) = ylogϑ+(1 y)log(1 ϑ), d 2 logp(y ϑ) dϑ 2 Die erwartete Fisher-Information ist = y ϑ 2 1 y (1 ϑ) 2. I(ϑ) = E y ( d2 logp(y ϑ) ) = E dϑ 2 y ( Y ϑ + 1 Y 2 (1 ϑ) 2) = 1 ϑ(1 ϑ). Helga Wagner Bayes Statistik WS 2010/11 333
Posteriori Dichte eines Anteils θ true =0.02 θ true =0.25 2 1 N=25 1 N=25 0 0 1 1 0.1 0.2 0.3 0.1 0.2 0.3 0.4 3 N=100 2 N=100 2 1 1 0 0.02 0.04 0.06 0.08 0.1 0 1 0.25 0.3 0.35 0.4 0.45 5 4 3 2 1 N=400 0.01 0.02 0.03 3 N=400 2 1 0 0.22 0.24 0.26 0.28 0.3 0.32 Abbildung 37: Logarithmus der Posteriori-Dichte eines Anteils ϑ (für zwei verschiedene Werte) für verschiedene Stichprobengrößen n bei flacher Prioriverteilung (volle Linie) im Vergleich zur quadrat. Approximation um den Posteriori-Modus (strichliert) Helga Wagner Bayes Statistik WS 2010/11 334
Empirische Bayes-Verfahren Empirische Bayes-Verfahren sind eine Kombination von Bayes und Likelihood- Verfahren, die insbesondere für Random Effects Modelle verwendet werden. Beispiel Eye Tracking: Modell P(Y = y µ) = n P(Y i = y i µ i ), Y i P(µ i ). i=1 mit Priori-Verteilung µ i G(a 0,b 0 ) Empirischer Bayes Ansatz: die Parameter der Heterogenitätsverteilung (Priori- Verteilung) werden nicht fixiert, sondern aus den Daten geschätzt. im Gegensatz dazu: vollständige Bayes-Analyse: Hyper-Priori-Verteilung auf Parameter der Priori-Verteilung Helga Wagner Bayes Statistik WS 2010/11 335
Beispiel: Eye Tracking Posteriori-Verteilung: y i NegBin(a 0,b 0 ) Schätzer für die Parameter der Priori-Verteilung â 0 und ˆb 0 werden durch numerische Maximierung der Posteriori-Verteilung bestimmt â 0 = 0.3168 und ˆb 0 = 0.0899 Berechnung von E(µ i x i ) = â0+y i ˆb0 +1 Helga Wagner Bayes Statistik WS 2010/11 336
Beispiel: Eye Tracking subjektspezifischer Parameter 0 5 10 15 20 25 30 35 * * * ** ** * ** **** ** **** *** ***** **** *********************** ********************************************** 0 20 40 60 80 100 Nr. der Person Abbildung 38: Eye Tracking, ML-Schätzer (Kreis, schwarz) und empirisische Bayes-Schätzer (Stern, blau) für die subjektspezifischen Parameter. Die blaue Linie gibt den ML-Schätzer des Priori-Erwartungswertes â 0 /ˆb 0 an. Helga Wagner Bayes Statistik WS 2010/11 337