Bayes Inferenz. Helga Wagner Bayes Statistik WS 2010/11 245

Transkript

1 Bayes Inferenz Helga Wagner Bayes Statistik WS 2010/11 245

2 Statistische Inferenz Beobachtungen: Daten y = (y 1,...,y n ) Y Annahme: Daten werden von einem (stochastischen) Modell spezifiziert durch einen unbekannten Parameter ϑ Θ erzeugt Statistische Inferenz: Schließen aus den Daten auf unbeobachtete Größen ϑ Helga Wagner Bayes Statistik WS 2010/11 246

3 Bayes Inferenz Bayesianisches Modell M: gemeinsames stochastisches Modell für Daten y und unbekannten Parameter ϑ stochastisches Modell: Spezifikation der Stichprobenverteilung p(y ϑ), e.g. i.i.d.modell, Strukturbruch-Modell, AR-Modell Priori-Verteilung p(ϑ): quantifiziert subjektive Unsicherheit über ϑ Aktualisierung der Unsicherheit über die unbeobachteten Größen durch die Daten = Bestimmen der Posteriori-Verteilung Inferenz bezüglich ϑ auf der Posteriori- Verteilung p(ϑ y) = p(y ϑ)p(ϑ). p(y) Helga Wagner Bayes Statistik WS 2010/11 247

4 Prinzipien des statistischen Schließens Likelihood Prinzip Suffizienz-Prinzip Konditionalitäts-Prinzip Helga Wagner Bayes Statistik WS 2010/11 248

5 Das Likelihood-Prinzip Die Likelihood p(y ϑ) enthält die gesamte Information über den unbekannten Parameter ϑ aus den Daten. Zwei Likelihood-Funktionen enthalten dieselbe Information über ϑ, wenn sie zueinander proportional sind Held (2008) unterscheidet das schwache Likelihoodprinzip: Alle Beobachtungen eines Modells sollen zu identischen statistischen Schlüssen führen, wenn die Likelihood gleich ist. und das starke Likelihoodprinzip: Alle Beobachtungen mit gleicher Likelihood (auch bei verschiedenen Modellen, die durch denselben Parameter ϑ spezifiziert sind) sollen zu identischen statistischen Schlüssen führen Helga Wagner Bayes Statistik WS 2010/11 249

6 Das Likelihood-Prinzip Beispiel: Test, ob eine Münze fair ist H 0 : ϑ = 0.5 gegen ϑ > 0.5 Daten: 9 Wappen, 3 Zahl = y = 9 2 verschiedene Modelle sind möglich: Zahl der Versuche n = 12 fix = Y BiNom(n,ϑ) Anzahl von Zahl z = 3 ist fest Helga Wagner Bayes Statistik WS 2010/11 250

7 Das Likelihood-Prinzip Modell M 1 : Zahl der Versuche n = 12 fix = Y BiNom(n,ϑ) P(Y = 9 ϑ) = ( 12 9 ) ϑ 9 (1 ϑ) 3 p-wert: P(Y 9) = 12 y=9 ( 12 y ) 0.5 y y = = H 0 Helga Wagner Bayes Statistik WS 2010/11 251

8 Das Likelihood-Prinzip Modell M 2 : Anzahl von Zahl z = 3 fix W =Zahl der Fehlversuche bis zum 3. Erfolg = W NegBin(z,1 ϑ) (andere Parametrisierung der negativen Binomialverteilung mit ϑ = β/(β + 1)) P(W = 9) = ( ) ϑ 9 (1 ϑ) 3 p-wert: P(W 9) = w=9 ( z +w 1 z 1 ) 0.5 w 0.5 z = = H 1 es gilt: ( 2 + x x=k 2 ) 0.5 x = 8 + 5k + k2 2 k Helga Wagner Bayes Statistik WS 2010/11 252

9 Das Likelihood-Prinzip In beiden Modellen ist die Likelihood l(ϑ) = ϑ 9 (1 ϑ) 3, aber p-wert führt zu unterschiedlichen Entscheidungen. Bem.: ML-Schätzung und Bayes-Inferenz erfüllen das (strenge) Likelihood- Prinzip. Helga Wagner Bayes Statistik WS 2010/11 253

10 Suffizienz-Prinzip Ist t(y) suffizient für ϑ, so kann die Likelihood dargestellt werden als p(y ϑ) = g(t(y) ϑ) h(y t(y)) Suffizienz-Prinzip: Eine suffiziente Statistik enthält alle Information über den Parameter ϑ der Stichprobenverteilung p(y ϑ). Gleiche Werte einer suffizienten Statistik für ϑ und alle (verschiedenen) suffizienten Statistiken für ϑ sollen zu identischen statistischen Schlüssen über ϑ führen. Helga Wagner Bayes Statistik WS 2010/11 254

11 Suffizienz-Prinzip Für die Posteriori-Verteilung p(ϑ y) gilt: p(ϑ y) = g(t(y) ϑ)h(y t(y))p(ϑ) Θ g(t(y) ϑ)h(y t(y))p(ϑ) = Θ g(t(y) ϑ)p(ϑ) g(t(y) ϑ)p(ϑ) g(t(y) ϑ)p(ϑ)dϑ Mit p(t ϑ) = p(y ϑ)dy = g(t ϑ) y:t(y)=t y:t(y)=t h(y t(y))dy = = g(t ϑ)ψ(t) ist p(ϑ y) = g(t ϑ)ψ(t)p(ϑ) p(t ϑ)p(ϑ) = = p(ϑ t) g(t ϑ)ψ(t)dϑ p(t ϑ)dϑ Θ Θ Helga Wagner Bayes Statistik WS 2010/11 255

12 Konditionalitätsprinzip mehrere mögliche Experimente, die Information über ϑ liefern können, stehen zur Wahl Konditionalitätsprinzip: Wird eines dieser Experimente ua. von ϑ ausgewählt, so ist jedes nicht gewählte Experiment irrelevant für die Inferenz. Die Information über ϑ hängt nur vom durchgeführten Experiment ab. Aus Suffizienzprinzip und Konditionalitätsprinzip folgt das (starke) Likelihoodprinzip. Helga Wagner Bayes Statistik WS 2010/11 256

13 Konditionalitätsprinzip Beispiel 1: Um die Fairness der Münze zu testen, wird zufällig mit Wahrscheinlichkeit π das durch Modell M 1 beschriebene und mit Wahrscheinlichkeit 1 π das durch Modell M 2 Experiment durchgeführt. Das Experiment ergab 9 Wappen und 3 Zahl. Der p-wert hängt von π ab! Beispiel 2: Das durchzuführende Experiment wird durch einenwurf mit der zu testenden Münze bestimmt. Bei Zahl wird das durch Modell M 1 beschriebene Experiment, sonst das andere durchgeführt. Das Experiment ergab 9 Wappen und 3 Zahl ; der Wurf zur Wahl des Experimentes wurde nicht mitgezählt. Helga Wagner Bayes Statistik WS 2010/11 257

14 Sequentielles Lernen aus den Daten Stichprobe y von bedingt auf ϑ ua. Daten wird in 2 Teilstichproben y 1,y 2 verarbeitet p(ϑ y) = p(ϑ y 1,y 2 ) = p(y 1 ϑ)p(y 2 ϑ)p(ϑ) p(y 1,y 2 ) = p(y 2 ϑ)p(ϑ y 1 ) p(y 2 y 1 ) mit p(y 2 y 1 ) = Θ p(y 2 y 1,ϑ)p(ϑ y 1 )dϑ Kombination der Information aus y 1 und y 2 : Posteriori-Verteilung bedingt auf y 1 wird Priori-Verteilung für die Analyse von y 2 Reihenfolge, in der die Daten beobachtet wurden, ist (bei bedingter Ua.) belanglos Helga Wagner Bayes Statistik WS 2010/11 258

15 Bayes Inferenz Wahl der Priori-Verteilung Helga Wagner Bayes Statistik WS 2010/11 259

16 Wahl der Priori-Verteilung Bayes -Analyse berücksichtigt Information über unbekannte Größen vor Erhebung der Daten. Diese Information ist durch die Priori-Verteilung zu quantifizieren. Wie soll die Priori-Verteilung gewählt werden? konjugiert / nicht konjugiert? informativ / nicht informativ? informative Priori-Information: Erheben von Expertenwissen(O Hagan et al., 2006; Kass and Raftery, 1995) nicht informative Priori-Verteilungen: was ist nicht informativ? eigentlich / uneigentlich? Helga Wagner Bayes Statistik WS 2010/11 260

17 Exponentialfamilien Die Verteilungsfamilie P γ,γ Γ, deren Dichten von der Form p(x γ) = h(x)exp( p ϑ j (γ)t j (x) a(γ)) j=1 sind, nennt man p-parametrische Exponentialfamilie, wenn a,h und t j,ϑ j, j = 1,...p reellwertige Funktionen sind. x kann multivariat sein. Sind die Funktionen (1,ϑ 1,...,ϑ p ) und (1,t 1 (x),...,t p (x)) linear unabhängig, so heisst die Familie strikt p-parametrisch. ϑ = (ϑ 1,...,ϑ p ) mit ϑ j = ϑ j (γ) heisst kanonischer bzw. natürlicher Parameter der Exponentialfamilie mit natürlichem ParameterraumΘ = {ϑ(γ) γ Γ} R p. Helga Wagner Bayes Statistik WS 2010/11 261

18 Exponentialfamilien In kanonischer (natürlicher) Parametrisierung sind die Dichten der Exponentialfamilie gegeben als p(x ϑ) = h(x)exp(ϑ t(x) b(ϑ)) t(x) = (t 1 (x),...,t p (x)) ist die (p-dimensionale) suffiziente Statistik für den natürlichen Parameter ϑ. exp(b(ϑ)) ist ein Normierungsfaktor: p(x ϑ)dx = exp( b(ϑ)) h(x)exp(ϑ t(x))dx d.h. exp(b(ϑ) = h(x)exp(ϑ t(x))dx Helga Wagner Bayes Statistik WS 2010/11 262

19 Exponentialfamilien Eine strikt p-parametrische natürliche Exponentialfamilie mit natürlichem Parameterraum, für den gilt Θ = {ϑ h(x)exp(ϑ t(x))dx < } und Θ ist eine nichtleere offene Teilmenge des R p heisst reguläre natürliche Exponentialverteilung. Helga Wagner Bayes Statistik WS 2010/11 263

20 Exponentialfamilien Die Likelihood einer i.i.d. Stichprobe y = (y 1,...,y n ) mit Verteilung aus einer natürlichen Exponentialfamilie ist p(y ϑ) = n n h(y i )exp(ϑ t(y i ) nb(ϑ)) i=1 i=1 exp(ϑ n t(y) nb(ϑ))) = = exp(n(ϑ t(y) b(ϑ))) mit n t(y) = n i=1 t(y i). Helga Wagner Bayes Statistik WS 2010/11 264

21 Natürlich konjugierte Priori-Verteilungen Für eine reguläre natürliche Exponentialfamilie ist die Familie der Priori-Verteilung der Form p(ϑ) exp ( n 0 (ϑ t 0 b(ϑ)) ) eigentlich, wenn n 0 > 0 und t 0 Y die (minimal) konjugierte Familie bzw. die natürlich konjugierte Familie von Priori-Verteilungen. Die Posteriori-Verteilung p(ϑ y) exp ( n 1 (ϑ t 1 b(ϑ) ) gehört zur selben Familie wie die Priori-Verteilung, mit n 1 = n 0 +n und t 1 = n 0t 0 +n t(y) n 0 +n Helga Wagner Bayes Statistik WS 2010/11 265

22 Natürlich konjugierte Priori-Verteilungen Für die Zufallsgröße t(y) ist E(t(Y) ϑ) = b(ϑ) d.h. E(t j (y) ϑ) = b(ϑ) ϑ j. Diaconis and Ylvisaker (1979) zeigen, dass für reguläre kanonische Exponentialfamilien gilt E(t(Y)) = E(E(t(Y) ϑ)) = E( b(ϑ)) = t 0 d.h. t 0 ist der Priori-Erwartungswert von t(y). Helga Wagner Bayes Statistik WS 2010/11 266

23 Natürlich konjugierte Priori-Verteilungen Der Posteriori-Erwartungswert E(t(Y) y) ist gegeben als gewichtetes Mittel von Priori-Mittelwert und Mittelwert in den Daten E(t(Y) y) = t 1 = n 0 n 0 +n t 0+ n n 0 +n t(y) = (1 ω)t 0 +ω t(y) Die Priori-Verteilung hat dieselbe Information über ϑ wie eine Stichprobe von n 0 Beobachtungen ỹ 1,...,ỹ n0 mit Mittelwert 1/n 0 t(ỹi ) = t 0. Helga Wagner Bayes Statistik WS 2010/11 267

24 Natürlich konjugierte Priori-Verteilungen Für Verteilungen, die zur regulären Exponentialfamilie gehören, können also konjugierte Priori-Verteilungen konstruiert werden. Die natürlich konjugierte Familie der Priori-Verteilungen ist diejenige mit minimaler Anzahl von Parametern - die Familie der Mischungen dieser Verteilungen bzw. die Familie aller Verteilungen ist ebenfalls konjugiert. ϑ ist der natürliche Parameter der Stichprobenverteilung p(y ϑ). In der Priori- Verteilung p(ϑ) spielt ϑ die Rolle der suffizienten Statistik für n 0 t 0. Natürlich konjugierte Priori-Verteilungen sind nicht notwendigerweise einfach anzugeben, da die Normierungskonstante bestimmt werden muss. Helga Wagner Bayes Statistik WS 2010/11 268

25 i.i.d. Poisson Modell Die Stichprobenverteilung von n i.i.d.p(µ) verteilten Beobachtungen y ist p(y µ) µ y i e nµ Geschrieben in Form einer einparametrischen Exponentialfamilie ist die Likelihood p(y µ) exp( y i logµ nµ) d.h. t(y) = y i = ny ist die suffiziente Statistik und ϑ(µ) = logµ ist der kanonische Parameter. Helga Wagner Bayes Statistik WS 2010/11 269

26 i.i.d. Poisson Modell Die konjugierte Priori-Verteilung für ϑ = log µ ist daher p(ϑ) exp(n 0 ϑt 0 exp(ϑ)) bzw. p(µ) exp(n 0 t 0 (logµ) µ) 1 µ = µn 0t 0 1 exp( n 0 µ) d.h. µ G(n 0 t 0,n 0 ) Die posteriori-verteilung ist µ G(n 1 t 1,n 1 ) mit n 1 = n 0 +n und t 1 = n 0t 0 +ny n 0 +n Helga Wagner Bayes Statistik WS 2010/11 270

27 COM-Poisson-Verteilung Die Conway-Maxwell-Poissonverteilung (COM-Poisson-Verteilung) ist eine Verallgemeinerung der Poissonverteilung. Ihre Wahrscheinlichkeitsfunktion ist gegeben als P(y λ,ν) = λy (y!) ν 1 Z(λ, ν) für y = 0,1,... In Form einer Exponentialfamilie geschrieben P(y λ,ν) = exp(ylogλ νlog(y!) logz(λ,ν)) Die COM-Poisson-Verteilung ist also eine 2-parametrische Exponentialfamilie mit natürlichem Parameter ϑ = (logλ, ν) und suffizienter Statistik t(y) = (y,log(y!)). Helga Wagner Bayes Statistik WS 2010/11 271

28 COM-Poisson-Verteilung Die konjugierte Priori-Verteilung (Kadane et al., 2006) hat die Form p(ϑ) exp ( n 0 (ϑ 1 t 01 +ϑ 2 t 02 logz(λ(ϑ 1 ),ν(ϑ 2 ))) ) bzw. als Funktion der Parameter λ und ν p(λ,µ) λ n 0t exp( νn 0 t 02 ) Z n 0 (λ,ν) Helga Wagner Bayes Statistik WS 2010/11 272

29 Modellierung von Unwissenheit Wenn kein oder wenig Vorwissen vorhanden ist, soll die Priori-Verteilung im Vergleich zu den Daten möglichst wenig Effekt auf die Schlüsse haben (Bernardo and Smith, 1994). möglicher Ansatz: flache Priori-Verteilung p ϑ (ϑ) constant Die resultierende Posteriori-Verteilung ist nicht notwendigerweise regulär, d.h. integrierbar. Die flache Priori-Verteilung ist nicht invariant bezüglich Parameter- Transformationen: Eine Priori-Verteilung, die gleichförmig für ϑ ist, ist nicht gleichförmig für eine beliebige nichtlineare Transformation ϕ on ϑ. Helga Wagner Bayes Statistik WS 2010/11 273

30 Parametertransformation Für eine bijektive Transformation ϕ = h(ϑ) von ϑ ist p(ϕ) = p(h 1 (ϕ)) dh 1 (ϕ) dϕ Für p(x) = const. ist p(x) nur dann konstant, wenn h eine lineare Funktion ist. Helga Wagner Bayes Statistik WS 2010/11 274

31 Flache Priori-Verteilungen für binäre Daten Für einen unbekannten Anteil ϑ ist die konjugierte Priori-Verteilung die B(a 0,b 0 )- Priori. Zur Modellierung von binären Daten könnte man auch ein Logit-Modell mit Parameter verwenden. ϕ = log(ϑ) log(1 ϑ) = logit (ϑ). (32) Welche Priori für die Log-Odds-Ratio ϕ entspricht der B(a 0,b 0 )-Priori auf ϑ? Helga Wagner Bayes Statistik WS 2010/11 275

32 Flache Priori-Verteilungen für binäre Daten Transformationssatz für Dichten p(ϕ) = p(ϑ(ϕ)) dϑ(ϕ) dϕ, wobei ϑ(ϕ) die inverse logit-transformation ist dϑ(ϕ) dϕ = eϕ /(1+e ϕ ) 2. Aus der B(a 0,b 0 )-Priori für ϑ ergibt sich die folgende Priori-Verteilung für ϕ: p(ϕ) eã0ϕ (1+e ϕ ) b 0 (33) mit ã 0 = a 0 and b 0 = a 0 +b 0. Helga Wagner Bayes Statistik WS 2010/11 276

33 Flache Priori-Verteilungen für binäre Daten Die flache Priori-Verteilung für ϑ (a 0 = 1,b 0 = 1) ergibt die standardlogistische Verteilung als Priori für die Log-Odds-Ratio ϕ f(ϕ) = e ϕ (1+e ϕ ) 2 Der Modus der Verteilung ist Null = Log-Odds-Ratios um Null werden bevorzugt Wählt man hingegen als Priori-Verteilung für ϕ eine Gleichverteilung (d.h. a 0 = 0,b 0 = 0), so erhält man die (uneigentliche) B(0,0)-Priori-Verteilung (Haldane-Priori) für ϑ. Diese Priori-Verteilung hat Pole bei Null und 1 = Werte am Rande des Parameterraumes werden bevorzugt Helga Wagner Bayes Statistik WS 2010/11 277

34 Flache Priori-Verteilungen für binäre Daten θ log(θ/(1 θ)) θ log(θ/(1 θ)) Abbildung 30: links: Gleichverteilung für ϑ (oben) mit entsprechender Priori für die Log-Odds-Ratio ϕ (unten); rechts: Gleichverteilung für die Log-Odds-Ratio ϕ(unten) und entsprechende Priori für ϑ (oben) Helga Wagner Bayes Statistik WS 2010/11 278

35 Jeffreys Priori-Verteilung Jeffreys Invarianz-Prinzip: Die Priori und damit auch die Posteriori-Verteilung soll invariant bezüglich einer eineindeutigen Transformation des Paramters sein Ist Y eine Zufallsvariable mit Dichtefunktion p(y ϑ) und ϑ der unbekannte eindimensionale Parameter, so ist Jeffreys Priori gegeben als p(ϑ) I(ϑ), (34) I(ϑ) ist die erwartete Fisher-Information von ϑ im Modell p(y ϑ) Jeffrey s Priori-Verteilung ist proportional zur Wurzel aus der erwarteten Fisher- Information und kann uneigentlich sein. Helga Wagner Bayes Statistik WS 2010/11 279

36 Jeffreys Priori-Verteilung Invarianz von Jeffreys Priori-Verteilung: Ist p(ϑ) I(ϑ), so ist die Dichtefunktion einer eineindeutigen Transformation ϕ = h(ϑ) gegeben als p(ϕ) Ĩ(ϕ). wobei Ĩ(ϕ) die erwartete Fisher-Information von ϕ ist. Beweis: p(ϕ) p(h 1 (ϕ)) dh 1 (ϕ) dϕ = I(ϑ) dh 1 (ϕ) dϕ 2 = Ĩ(ϕ) Helga Wagner Bayes Statistik WS 2010/11 280

37 Jeffreys Priori-Verteilung Jeffreys Priori-Verteilung für den Mittelwert der Poissonverteilung µ: p(µ) n µ 1/ µ für einen unbekannten Anteil ϑ: p(ϑ) n ϑ(1 ϑ) 1/ ϑ(1 ϑ), d.h. die B(0.5,0.5)-Priori (die Arcus-Sinus- Verteilung) für den Mittelwert der Normalverteilung µ bei bekanntem σ 2 : p(µ) n/σ 2 1 für die Varianz der Normalverteilung σ 2 bei bekanntem µ: p(σ 2 ) n/2σ 2 1/σ 2 Helga Wagner Bayes Statistik WS 2010/11 281

38 Jeffreys Priori-Verteilung Für einen mehrdimensionalen Parameter ϑ ist Jeffreys Priori-Verteilung p(ϑ) I(ϑ), Für y N ( µ,σ 2) mit µ,σ 2 unbekannt, ist die Priori-Verteilung damit p(µ,σ 2 ) n σ 2 n 2σ 4 ( 1 σ 2)3/2 Die bedingte posteriori-verteilung für µ ist N ( y,σ 2 /n ) und die marginale Posteriori-Verteilung für σ 2 ist: σ 2 y G 1( n/2,n/2s 2 ) y Helga Wagner Bayes Statistik WS 2010/11 282

39 Probleme mit Jeffreys Priori Für y N ( µ,σ 2) mit bekanntem µ und σ 2 unbekannt, ergibt Jeffreys Priori p(σ 2 ) 1/σ 2 die Posteriori-Verteilung σ 2 y G 1 (n/2,n/2 ( 1 n )) n (y i µ) 2. beide Posteriori-Verteilungen unterscheiden sich also nur im Skalenparameter Informationsverlust durch Schätzung des Parameters µ kommt nicht zum Ausdruck = anderer Vorschlag: Anwendung von Jeffreys Regel ua. auf beide Parameter und Multiplikation der Priori-Verteilungen. Damit erhält man die Priori i=1 p(µ,σ 2 ) 1 σ 2 Helga Wagner Bayes Statistik WS 2010/11 283

40 Probleme mit Jeffreys Priori Jeffrey s Priori-Verteilung verletzt das Likelihoodprinzip! Beispiel Münzwurf: Experiment 1: n Würfe fix, Y= Anzahl von Wappen = Modell M 1 : Y BiNom(n,ϑ) Jeffrey s Priori-Verteilung: ϑ ϑ 0.5 (1 ϑ) 0.5 = B(0.5,0.5) Experiment 2: Anzahl von Zahl z ist vorgegeben = Modell M 2 : W NegBin(z,1 ϑ) Jeffrey s Priori-Verteilung: ϑ ϑ 0.5 (1 ϑ) 1 = B(0.5,0) Die Log-Likelihood ist p(w ϑ) ( z + w 1 w 1 ) ϑ w (1 ϑ) z. Helga Wagner Bayes Statistik WS 2010/11 284

41 Probleme mit Jeffreys Priori Aus logp(w ϑ) ϑ folgt mit E(W) = zϑ/(1 ϑ) = w ϑ 2 z (1 ϑ) 2 I(ϑ) = z ϑ(1 ϑ) + z (1 ϑ) = z 2 ϑ(1 ϑ) 2 Helga Wagner Bayes Statistik WS 2010/11 285

42 Invariante Priori-Verteilungen für Lage-und Skalenparameter Ist ϑ ein Lageparameter, d.h. p(y ϑ) = f(y ϑ), kann für die Priori-Verteilung Invarianz gegenüber Lageverschiebungen gefordert werden, d.h. p(ϑ) = p(ϑ a) für alle a Dies erfüllt nur die flache Priori p(ϑ) c. Für einen Skalenparameter ϑ, d.h. p(y ϑ) = f(y/ϑ)/ϑ ist eine Priori- Verteilung, die invariant gegenüber Skalentransformationen ist, d.h. p(ϑ) = p(ϑ/a)/a für alle a die uneigentliche Priori p(ϑ) 1/ϑ. Helga Wagner Bayes Statistik WS 2010/11 286

43 Uneigentliche Priori-Verteilungen Uneigentliche Priori-Verteilungen, sind Verteilungen, die nicht integrierbar sind, d.h. die Normierungskonstante kann nicht bestimmt werden. Die Dichte einer uneigentlichen Verteilung wird mit angegeben. Uneigentliche Priori-Verteilungen treten nur auf, wenn der Parameterraum Θ nicht kompakt ist, z.b. Θ = R oder Θ = R + Obwohl eine uneigentliche Priori-Verteilung kein gemeinsames stochastisches Modell p(y, ϑ) definiert, ist in die resultierende Posteriori-Verteilung eine eigentliche Verteilung, wenn p(y) = p(y ϑ)p(ϑ)dϑ < für alle y. Helga Wagner Bayes Statistik WS 2010/11 287

44 Uneigentliche Verteilungen für die Poisson-Verteilung Modell: y i.i.d. P(µ) Übliche uneigentliche Priori-Verteilungen für µ: Jeffrey s Priori: p(µ) µ 1 2 ( = G(1/2,0) ) µ: p(µ) constant (= G(1,0) ) Gleichverteilungs-Priori für log µ: p(log µ) constant = p(µ µ 1 ) (= G(0,0) ) Die Posteriori ist eigentlich mit einer Beobachtung für G(a,0) mit a > 0 der ersten Beobachtung ungleich 0 für G(0,0) Helga Wagner Bayes Statistik WS 2010/11 288

45 Uneigentliche Posteriori-Verteilungen Modell: y i.i.d. with P(Y i = 1) = ϑ = Priori: uneigentliche B(0,0) -Priori (entspricht Gleichverteilung des Logits) Eigentliche Posteriori, wenn a n > 0 and b n > 0, d.h. 0 < S n = y i < n Wahrscheinlichkeit dafür, dass die Posteriori uneigentlich ist P((S n = 0) (S n = n) ϑ,n) = (1 ϑ) n +ϑ n. Helga Wagner Bayes Statistik WS 2010/11 289

46 Uneigentliche Posteriori-Verteilungen 100 Prob(p(y)= θ,n) N θ Abbildung 31: Contourplot von P((S n = 0) (S n = n) ϑ,n) als Funktion von ϑ and n (strichlierte Linien entsprechen den Isolinien, die volle Linie der 0.01-Isolinie Helga Wagner Bayes Statistik WS 2010/11 290

47 Uneigentliche Posteriori-Verteilungen Uneigentliche Priori-Verteilungen können jedoch auch für alle Stichproben, d.h. immer zu uneigentlichen Posteriori-Verteilungen führen. Beispiel: Student-t Verteilung mit unbekanntem Freiheitsgrad Modell: y i.i.d. t ν ( µ,σ 2 ) Die Likelihood kann sehr irregulär sein, z.b. multimodal bei Ausreißern flach für ν = Probleme mit numerischen Maximierungsverfahren Mit wachsendem ν nähert sich die Likelhood jener unter einer N ( µ,σ 2) - Verteilung lim ν p(y ν,µ,σ2 ) = p N (y µ,σ 2 ). Helga Wagner Bayes Statistik WS 2010/11 291

48 Nichtreguläre Likelihood 1750 Loglikelihood of Data Set 1 given ν 1510 Loglikelihood of Data Set 2 given ν log f(y ν) log f(y ν) ν ν 1416 Loglikelihood of Data Set 3 given ν 1377 Loglikelihood of Data Set 4 given ν log f(y ν) log f(y ν) ν ν Abbildung 32: 1000 simulierte Beobachtungen aus t ν (0,1) (Daten 1: ν = 3, Daten 2: ν = 10, Daten 3: ν = 100, Daten 4: N (0,1) (ν = )); Loglikelihood (horizontale Linie entspricht der Loglikelihood der N (0, 1)) Helga Wagner Bayes Statistik WS 2010/11 292

49 Nichtreguläre Likelihood Die Likelihood hat einen endlichen Modus ˆν mit p(y ν = ˆν,µ,σ 2 ) > f N (y µ,σ 2 ) und nähert sich dem Grenzwert von oben oder keinen Modus und nähert sich dem Grenzwert von unten Da das Integral R + p(y ν,µ,σ 2 )dν nicht existiert, ist die Posteriori-Verteilung mit der uneigentlichen Priori-Verteilung p(ν) constant uneigentlich! Helga Wagner Bayes Statistik WS 2010/11 293

50 Nichtreguläre Likelihood 1 Likelihood of Data Set 1 given ν 1 Likelihood of Data Set 2 given ν f(y ν) 0.5 f(y ν) ν ν 1 Likelihood of Data Set 3 given ν 1 Likelihood of Data Set 4 given ν f(y ν) f(y ν) ν ν Abbildung 33: 1000 simulierte Beobachtungen aus t ν (0,1) (Daten 1: ν = 3, Daten 2: ν = 10, Daten 3: ν = 100, Daten 4: N (0,1) (ν = )); nichtnormalisierte Posteriori p(ν y) unter der Priori-Verteilung p(ν) = constant Keine dieser nichtnormierten Posterioris ist integrierbar! Helga Wagner Bayes Statistik WS 2010/11 294

51 Wahl der Freiheitsgrade Welche uneigentlichen Priori-Verteilungen ergeben eigentliche Posteriori- Verteilungen? Entscheidend ist das Integral über die nichtnormierte Posteriori-Verteilung π (ν µ,σ 2,y) im Endbereich (C, ). Mit C p(y ν)p(ν)dν p N (y µ,σ 2 ) Die Priori auf ν kann uneigentlich sein, solange C p(ν)dν <. C p(ν)dν, Helga Wagner Bayes Statistik WS 2010/11 295

52 Wahl der Freiheitsgrade Uneigentliche Priori-Verteilungen der Form p(ν) ( ) n0 1, (35) ν oder p(ν) ( ) n0 1, (36) 1+ν mit n 0 > 1 ergeben eigentliche Posteriori-Verteilungen. Mitn 0 = 2implizieren diesepriori-verteilungen eine Gleichverteilungauf a = 1/ν bzw. a = 1/(1+ν). Helga Wagner Bayes Statistik WS 2010/11 296

53 Wahl der Freiheitsgrade Vorgeschlagene eigentliche Priori-Verteilungen: Exponential-Verteilung ν E (λ) Gleichverteilung ν U [0,ν max ] Diese Priori-Verteilungen können sehr einflußreich sein. Hierarchische Priori- Verteilungen, d.h. Priori-Verteilungen mit einem sogenannten Hyper-Parameter, für den ebenfalls eine Priori-Verteilung spezifiziert ist, sind meist weniger einflußreich, hier z.b. (Congdon, 2003) ν E (λ),λ U [λ 0,λ max ] Mit λ constant ergibt sich die Priori-Verteilung p(ν) ( 1 1+ν ) 2 Helga Wagner Bayes Statistik WS 2010/11 297

54 Wahl der Freiheitsgrade Tabelle 15: 1000 simulierte Werte aus der t ν (0,1) -Verteilung für verschiedene Werte von ν; Posteriori-Erwartungswert ν mit U [0,ν max ]-Priori Daten 1 Daten 2 Daten 3 Daten 4 (ν = 3) (ν = 10) (ν = 100) (Normal) ν max = ν max = ν max = ν max = Helga Wagner Bayes Statistik WS 2010/11 298

55 Wenig informative Priori-Verteilungen Um uneigentliche Priori-Verteilungen zu vermeiden, werden oft eigentliche, aber wenig informative Priori-Verteilungen gewählt, d.h. Priori-Verteilungen, die in einem großen Teil des Parameterraumes ähnlich der uneigentlichen Priori ist. Beispiel: Schätzung eines Anteils ϑ B(a 0,b 0 ) mit kleinen, positiven Werten für die Parameter. Diese Priori-Verteilung kann sehr einflussreich sein, wenn der wahre Wert von ϑ am Rande des Parameterraumes liegt. S n = 0 = 100%(1 α)-hpd-intervall ist für a 0 1 von der Form (0,Q 1 α ), wobei Q 1 α das (1 α)-quantil der B(a 0,b 0 +n)-verteilung ist. = Sensitivitätsanalyse Q 0.95 a 0 = b 0 = 0.01 a 0 = b 0 = 0.1 a 0 = b 0 = 0.5 a 0 = b 0 = 1 n = n = Helga Wagner Bayes Statistik WS 2010/11 299

56 Wenig informative Priori-Verteilungen θ θ log(θ/(1 θ)) log(θ/(1 θ)) Abbildung 34: Die eigentliche B(0.01, 0.01)-Priori für ϑ im Vergleich zur uneigentlichen B(0,0) -Priori Helga Wagner Bayes Statistik WS 2010/11 300