Bayesianische Modellwahl Helga Wagner Bayes Statistik WS 2010/11 161
Modellwahl Problem der Modellwahl: Welches von K möglichen Modellen M 1,...,M K ist für die Daten y am besten geeignet? Klassisch: LQ-Test für genestete Modelle; Informationskriterien (AIC, BIC) Bayesianische Modellwahl: Posteriori Wahrscheinlichkeiten P(M 1 y),...,p(m K y) der verschiedenen Modelle bedingt auf die Daten P(M k y) p(y M k )P(M k ), k = 1,...,K (18) Helga Wagner Bayes Statistik WS 2010/11 162
Berechnung der Posteriori-Wahrscheinlichkeit Spezifikation der Priori-Wahrscheinlichkeit für jedes Modell p(m k ) : z.b. Gleichverteilung auf der Menge {M 1,...,M K }, d.h. P(M k ) = 1/K Für vollständig spezifizierte Modelle, d.h. Modelle ohne unbekanntem Parameter, ist p(y M k ) der Wert der Likelihood, d.h. die Dichte der Stichprobenverteilung an den beobachteten Daten. Für Modelle mit unbekannten Paramtern muss die marginale Likelihood p(y M k ) berechnet werden. Bestimmen der Posteriori-Wahrscheinlichkeit jedes Modells: Normieren ergibt P(M k y) = p(y M k)p(m k ) K i=1 p(y M i)p(m i ) Helga Wagner Bayes Statistik WS 2010/11 163
Berechnung der marginalen Likelihood Für Modelle mit unbekannten Parametern ist p(y M k ) der Wert der prioriprädiktiven Dichte an der Stelle der beobachteten Daten y p(y M k ) = ϑ k p(y ϑ k,m k )p(ϑ k M k )dϑ k. p(y M k ) wird als marginale Likelihood bezeichnet. Die marginale Likelihood ist der Erwartungswert der Likelihood bezüglich der Priori-Verteilung der Parameter. Ihre Berechnung setzt eine eigentliche Priori- Verteilung voraus! Für diskrete Daten kann die marginale Likelihood als Wahrscheinlichkeit der Daten bei gegebenem Modell M k interpretiert werden. Helga Wagner Bayes Statistik WS 2010/11 164
Der Bayes-Faktor Werden zwei Modelle M 1 und M 2 verglichen, so bezeichnet man den Quotienten B 12 = P(y M 1 )/P(y M 2 ) als Bayes-Faktor von Modell M 1 im Vergleich zu M 2. Die Posteriori-Chance von Modell M 1 ist gegeben als P(M 1 y) P(M 2 y) = P(y M 1) P(M 1 ) P(y M 2 ) P(M 2 ) d.h. Posteriori-Chance = Bayes-Faktor Priori-Chance Helga Wagner Bayes Statistik WS 2010/11 165
Der Bayes-Faktor Der Bayes-Faktor B 12 ist damit also Quotient aus Posteriori-Chance und Priori- Chance von M 1. Wenn die Daten die Wahrscheinlichkeit von M 1 erhöht haben, ist B 12 > 1 verringert haben, ist B 12 < 1 Numerisch ist es oft günstiger den Logartihmus der marginalen Likelihood zu berechnen. Der logarithmierte Bayes-Faktor ist logb 12 = log(p(m 1 y)) log(p(m 2 y)) Helga Wagner Bayes Statistik WS 2010/11 166
Bewertung des Bayes-Faktors Zur Bewertung des Bayes-Faktors bzw. logb 12 gelten folgende Faustregeln: Bayes-Faktor logb 12 Evidenz für M 1 gegenüber M 2 1 bis 3 0 bis 1.1 kaum der Rede wert 3 bis 20 1.1 bis 3 positiv 20 bis 150 3 bis 5 stark ab 150 ab 5 sehr stark Helga Wagner Bayes Statistik WS 2010/11 167
Die marginale Likelihood für i.i.d. Daten aus der Poisson-Verteilung Modell M 1 : y i.i.d. P (µ) Die marginale Likelihood von M 1 ist p(y M 1 ) = Θ Θ p(y,µ M 1 )dµ p(y µ,m 1 )p(µ M 1 )dµ. Unter der konjugierten G(a 0,b 0 )-Priori-Verteilung für µ kann dieses Integral analytisch gelöst werden und man erhält p(y M 1 ) = b a 0 0 Γ(a n) b a n n Γ(a 0 ) n i=1 Γ(y i+1). Helga Wagner Bayes Statistik WS 2010/11 168
Die marginale Likelihood für i.i.d. Daten aus der Poisson-Verteilung Die marginale Likelihood ist identisch mit der Normierungskonstanten der nichtnormierten Posteriori-Dichte p(µ y) p(y µ)p(µ). Wenn die Werte der Posteriori-Dichte bekannt sind, kann die marginale Likelihood folgendermaßen berechnet werden Candidate s formula (?) p(y M 1 ) = p(y µ,m 1)p(µ M 1 ) p(µ y,m 1 ) (19) Helga Wagner Bayes Statistik WS 2010/11 169
Die marginale Likelihood für i.i.d. Daten aus der Poisson-Verteilung Formel (19) gilt für jeden beliebigen Wert von µ, da sich alle Faktoren die von µ abhängen, kürzen Auch Formel (19) macht deutlich, dass die Berechnung der marginalen Likelihood eine eigentliche Priori-Verteilung voraussetzt. Die logarithmierte marginale Likelihood ist log(p(y M 1 )) = log(p(y µ,m 1 ))+log(p(µ M 1 )) log(p(µ y,m 1 )) Helga Wagner Bayes Statistik WS 2010/11 170
Die marginale Likelihood für i.i.d. Daten aus der Poisson-Verteilung Unter der G(a 0,b 0 )-Priori, ist p(µ y,m 1 ) die Dichte der G(a n,b n )-Posteriori- Verteilung und es gilt p(y M 1 ) = exp( nµ)µ y i n i=1 Γ(y i+1) ba 0 0 µa 0 1 exp( b 0 µ) Γ(a 0 ) = b a 0 0 Γ(a n) b a n n Γ(a 0 ) n i=1 Γ(y i+1) Γ(a n ) b a n n µ a n 1 exp( b n µ) = Helga Wagner Bayes Statistik WS 2010/11 171
Die marginale Likelihood für i.i.d. Daten aus der Poisson-Verteilung Tabelle 3: Verkehrssicherheitsdaten Kinder 6-10: Modell M 1 Logarithmus der marginalen Likelihood p(y M 1 ) für verschiedene G(b 0 m 0,m 0 )- Priori-Verteilungen logp(y M 1 ) m 0 = 1 m 0 = y m 0 = 5 m 0 = 7 m 0 = 10 b 0 = 0.01-320.55-319.97-319.08-318.81-318.56 b 0 = 0.1-318.50-318.00-317.49-317.52-317.77 b 0 = 0.5-317.43-316.94-317.31-318.30-320.39 b 0 = 1-317.12-316.55-317.86-320.02-324.36 b 0 = 2-316.96-316.19-319.31-323.76-332.52 Die marginale Likelihood hängt stark von den Parametern der Priori-Verteilung ab! Helga Wagner Bayes Statistik WS 2010/11 172
Die marginale Likelihood für i.i.d. Daten aus der Poisson-Verteilung 5 x 10 137 6 b 0 =0.01 1 x 10 137 b 0 =0.01 4 3 5 4 3 b =0.1 0 b =0.5 0 b =1 0 b =2 0 0.8 0.6 b 0 =0.1 b 0 =0.5 b 0 =1 b 0 =2 2 2 0.4 1 1 0.2 0 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 µ 3 0 0 0.5 1 1.5 2 2.5 µ 3 0 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 µ 3 Abbildung 19: Verkehrssicherheitsdaten Links: Likelihood, Mitte: verschiedene G(b 0 m 0,b 0 )-Priori-Verteilungen mit m 0 = 1; Rechts: Produkt aus Likelihood und Priori Der Wert des Parameters a 0 bestimmt die Form der Priori-Verteilung: Für a 0 < 1 hat der Modus der Priori-Verteilung den Wert 0. Helga Wagner Bayes Statistik WS 2010/11 173
Die marginale Likelihood für i.i.d. Daten aus der Poisson-Verteilung Tabelle 4: Verkehrssicherheitsdaten Kinder 6-10: Modell M 1 Logarithmus der marginalen Likelihood p(y M 1 ) für verschiedene G(a 0,a 0 /m 0 ) Priori-Verteilungen logp(y M 1 ) m 0 = 1 m 0 = y m 0 = 5 m 0 = 7 m 0 = 10 a 0 = 0.01-320.55-320.55-320.55-320.55-320.56 a 0 = 0.1-318.50-318.47-318.51-318.53-318.56 a 0 = 0.5-317.43-317.31-317.49-317.61-317.75 a 0 = 1-317.12-316.89-317.26-317.49-317.77 a 0 = 2-316.96-316.51-317.24-317.70-318.26 Für a 0 1 ist der Modus der Priori-Verteilung a 0 1 b 0. Helga Wagner Bayes Statistik WS 2010/11 174
Die marginale Likelihood bei Berücksichtigung der Exponierten Modell M 2 : y i.i.d. P (λe i ) Die marginale Likelihood für Modell M 2 ist gegeben als: p(y M 2 ) = p(y λ,m 2)p(λ M 2 ) p(λ y,m 2 ) = (be 0) ae 0 Γ(a e n ) (b e N )ae nγ(a e 0 ) n i=1 = e y i i Γ(y i +1). Helga Wagner Bayes Statistik WS 2010/11 175
Die marginale Likelihood bei Berücksichtigung der Exponierten Tabelle 5: Verkehrssicherheitsdaten Kinder 6-10: Modell M 2 Logarithmus der marginalen Likelihood p(y M 2 ) für verschiedene G(a e 0,a e 0/m e 0)- Priori-Verteilungen logp(y M 2 ) m e 0 = 1 10000 m e 0 = ˆλ m e 0 = 5 10000 m 0 = 1 1000 m e 0 = 5 1000 a e 0 = 0.01-321.12-321.12-321.12-321.14-321.15 a e 0 = 0.1-319.08-319.08-319.05-319.27-319.34 a e 0 = 0.5-318.06-318.03-317.88-318.99-319.33 a e 0 = 1-317.81-317.76-317.46-319.69-320.36 a e 0 = 2-317.76-317.67-317.08-321.52-322.87 Helga Wagner Bayes Statistik WS 2010/11 176
Modellvergleich für Verkehrssicherheitsdaten Kinder 6-10 Annahme : P(M 1 ) = P(M 2 ) = 1/2 Tabelle 6: Verkehrssicherheitsdaten Kinder 6-10: Vergleich von Modell M 1 ( und M 2 ) basierend auf den Priori-Verteilungen µ G(a 0,a 0 /y) und λ G a 0,a 0 /ˆλ a 0 0.01 0.1 0.5 1 2 log(b 12 ) 0.57 0.61 0.72 0.87 1.16 P(M 1 y) 0.64 0.65 0.67 0.70 0.76 = leichte Evidenz für ein Modell ohne Berücksichtigung der Exponierten Helga Wagner Bayes Statistik WS 2010/11 177
Die marginale Likelihood bei Strukturbruch Modell M 3 : y i P (µ i ) mit µ i = { µ 1, i < i 0, µ 2, i i 0. Die marginal Likelihood für Model M 3 ist : p(y M 3 ) = p(y µ 1,µ 2,M 3 )p(µ 1,µ 2 M 3 )d(µ 1,µ 2 ), Mit der Candidate s Formel erhält man Θ p(y M 3 ) = p(y µ 1,µ 2,M 3 )p(µ 1,µ 2 M 3 ) p(µ 1,µ 2 y,m 3 ) = b a 0,1 0,1 ba 0,2 0,2 Γ(a n,1)γ(a n,2 ) b a n,1 n,1 ba n,2 n,2 Γ(a 0,1)Γ(a 0,2 ) n i=1 Γ(y i+1). Helga Wagner Bayes Statistik WS 2010/11 178
Die marginale Likelihood bei Strukturbruch Tabelle 7: Verkehrssicherheitsdaten Kinder 6-10: Modell M 3 (Strukturbruch Oktober 1994). Logarithmus der marginalen Likelihood p(y M 3 ) für verschiedene G(a 0,a 0 /m 0 )- Priori-Verteilungen logp(y M 3 ) m 0 = 1 m 0 = y m 0 = 5 m 0 = 7 m 0 = 10 a 0 = 0.01-321.40-321.40-321.40-321.41-321.41 a 0 = 0.1-317.30-317.25-317.33-317.37-317.43 a 0 = 0.5-315.17-314.94-315.31-315.54-315.81 a 0 = 1-314.58-314.12-314.85-315.31-315.86 a 0 = 2-314.30-313.38-314.83-315.75-316.86 Helga Wagner Bayes Statistik WS 2010/11 179
Die marginale Likelihood des hierarchischen Modells Model M 4 : y i P (µ i ) mit µ i G(a 0,b 0 ) Die marginale Likelihood für Modell M 4 ist: p(y M 4 ) = p(y µ 1,...,µ n,m 4 )p(µ 1,...,µ n M 4 )d(µ 1,...,µ n ). Θ Einfache Berechnung mittels Candidate s Formel ergibt p(y M 4 ) = p(y µ 1,...,µ n,m 4 )p(µ 1,...,µ n M 4 ) p(µ 1,...,µ n y) n b a 0 0 = Γ(a 0+y i ) (b 0 +1) a 0+y iγ(a0 )Γ(y i +1). i=1 = Helga Wagner Bayes Statistik WS 2010/11 180
Die marginale Likelihood des hierarchischen Modells Tabelle 8: Verkehrssicherheitsdaten Kinder 6-10: Modell M 4 Logarithmus der marginalen Likelihood p(y M 4 ) für verschiedene G(a 0,a 0 /m 0 )-Priori-Verteilungen logp(y M 4 ) m 0 = 1 m 0 = y m 0 = 5 m 0 = 7 m 0 = 10 a 0 = 0.01-861.52-861.08-861.79-862.23-862.76 a 0 = 0.1-543.44-539.37-546.24-550.61-555.88 a 0 = 0.5-405.45-389.86-420.69-441.18-466.35 a 0 = 1-377.77-353.63-408.38-446.39-494.04 a 0 = 2-365.72-332.41-422.05-488.49-574.61 Die Parameter der Priori-Verteilung haben einen großen Effekt auf den Wert der marginalen Likelihood. Helga Wagner Bayes Statistik WS 2010/11 181
Modellvergleich für Verkehrssicherheitsdaten Kinder 6-10 Annahme : P(M 1 ) = P(M 3 ) = P(M 4 ) = 1/3 Tabelle 9: Verkehrssicherheitsdaten Kinder 6-10: Posteriori-Wahrscheinlichkeiten der Modelle M 1, M 3 und M 4 unter verschiedenen G(a 0,a 0 /y)-priori-verteilungen a 0 0.01 0.1 0.5 1 2 P(M 1 y) 0.701 0.228 0.086 0.059 0.042 P(M 3 y) 0.299 0.772 0.914 0.941 0.958 P(M 4 y) 0 0 0 0 0 Evidenz für das Modell mit Strukturbruch aus der Posteriori-Dichte von µ 2 µ 1 wird durch die Posteriori-Wahrscheinlichkeiten von M 3 bestätigt. P(M 3 = 1 y) ist für leicht informative Priori-Verteilungen nahe bei 1 = Wahl von Modell M 3 (Strukturbruch) Helga Wagner Bayes Statistik WS 2010/11 182
Eye Tracking: Homogenität oder unbeobachtete Heterogenität? Homogenität: Modell M 1 unbeobachtete Heterogenität: hierarchisches Modell M 4 Tabelle 10: Eye Tracking, Modell M 1 ; Logarithmus der marginalen Likelihood p(y M 1 ) für verschiedene G(a 0,a 0 /m 0 )-Priori-Verteilungen logp(y M 1 ) m 0 = 1 m 0 = y m 0 = 5 m 0 = 10 m 0 = 20 a 0 = 0.01-474.86-474.85-474.85-474.86-474.86 a 0 = 0.1-472.91-472.78-472.78-472.82-472.87 a 0 = 0.5-472.25-471.62-471.64-471.81-472.07 a 0 = 1-472.45-471.20-471.25-471.59-472.11 a 0 = 2-473.31-470.81-470.92-471.60-472.63 Helga Wagner Bayes Statistik WS 2010/11 183
Eye Tracking: Homogenität oder unbeobachtete Heterogenität? Tabelle 11: Eye Tracking, Modell M 4 Logarithmus der marginalen Likelihood p(y M 4 ) für verschiedene G(a 0,a 0 /m 0 )-Priori-Verteilungen logp(y M 4 ) m 0 = 1 m 0 = y m 0 = 5 m 0 = 10 m 0 = 20 a 0 = 0.01-334.37-333.10-333.16-333.50-334.02 a 0 = 0.1-249.61-237.68-238.22-241.61-246.80 a 0 = 0.5-271.04-223.77-226.24-242.34-267.54 a 0 = 1-316.77-241.38-245.87-276.12-324.87 a 0 = 2-381.56-273.80-281.39-335.39-426.86 Grosser Effekt der Hyperparameter auf die marginale Likelihood! Vergleich verschiedener Priori-Verteilungen (=Heterogenitätsverteilungen): = G(0.5, 0.5/y)- Verteilung ergibt die höchste marginale Likelihood G(0.5,0.5/y) hat Erwartungswert y = 3.52 und Varianz 24.78 Helga Wagner Bayes Statistik WS 2010/11 184
Eye Tracking: Homogenität oder unbeobachtete Heterogenität? Bei gleichen a-priori-wahrscheinlichkeiten der Modelle M 1 und M 4, ist die Posteriori-Wahrscheinlichkeit von M 1 gegeben als P(M 1 y) = p(y M 1 ) p(y M 1 )+p(y M 4 ), (20) P(M 1 y) = 0 für alle Hyperparameter = Ablehnung des einfachen Modells M 1 und Wahl des flexibleren Modells M 4 Helga Wagner Bayes Statistik WS 2010/11 185
Die Marginale Likelihood für Modelle für Binärdaten Modell M 1 (Ziehen mit Zurücklegen aus einer homogenen Population): y 1,...,y n i.i.d. with P(Y i = 1 ϑ) = ϑ Die marginale Likelihood für Modell M 1 ist: p(y M 1 ) = p(y,ϑ M 1 )dϑ = p(y ϑ,m 1 )p(ϑ M 1 )dϑ. Θ Unter der konjugierten B(a 0,b 0 )-Priori-Verteilung kann dieses Integral analytisch gelöst werden. Einfacher ist die Berechnung mit der Candidate s Formel: Θ p(y M 1 ) = p(y ϑ,m 1)p(ϑ M 1 ) p(ϑ y,m 1 ) = B(a n,b n ) B(a 0,b 0 ). (21) Die marginale Likelihood ist nur dann definiert, wenn sowohl a 0 und b 0 positiv sind. Helga Wagner Bayes Statistik WS 2010/11 186
Die marginale Likelihood bei beobachteter Heterogenität Modell M 2 : Ziehen mit Zurücklegen aus einer heterogen Population P(Y i = 1 ϑ,z i ) = (1 z i )ϑ 1 +z i ϑ 2 Die marginale Likelihood für Model M 2 ist: p(y M 2 ) = Θ p(y,ϑ M 2 )dϑ = Θ p(y ϑ,m 2 )p(ϑ M 2 )dϑ. Das Integral kann unter den konjugierten Priori-Verteilungen B(a 0,1,b 0,1 ) und B(a 0,2,b 0,2 ) analytisch bestimmt werden. Einsetzen in die Candidate s Formel ergibt: p(y M 2 ) = p(y ϑ 1,ϑ 2,M 2 )p(ϑ 1,ϑ 2 M 2 ) p(ϑ 1,ϑ 2 y,m 2 ) = B(a n,1,b n,1 )B(a n,2,b n,2 ) B(a 0,1,b 0,1 )B(a 0,2,b 0,2 ). Helga Wagner Bayes Statistik WS 2010/11 187
Test auf Heterogenität Tabelle 12: Arbeitsmarktdaten: Vergleich von der Modelle M 1 und M 2 (Risiko für Erwerbslosigkeit abhängig vom Arbeitsverhältnis) prior logp(y M 1 ) logp(y M 2 ) P(M 1 y) P(M 2 y) a 0,1 = a 0,2 = 1,b 0,1 = b 0,2 = 1 387.58 385.90 0.1593 0.8407 a 0,1 = a 0,2 = 0.5,b 0,1 = b 0,2 = 0.5 387.56 385.89 0.1585 0.8415 n 0 = 2, m 0 = h n (Y = 1) 387.29 385.40 0.1306 0.8694 n 0 = 10, m 0 = h n (Y = 1) 386.26 383.40 0.0545 0.9455 Marginale Likelihoods und Posteriori-Wahrscheinlichkeiten sprechen für das unrestringierte Modell M 2 Das entspricht dem Ergebnis aus der Posteriori Verteilung p(ϑ 1 ϑ 2 y), die von 0 nach rechts verschoben ist. Helga Wagner Bayes Statistik WS 2010/11 188
Krebssterblichkeitsdaten Tabelle 13: Vergleich von der Modelle M 1 und M 2 (Abhängigkeit des Krebsrisikos von der Stadt) prior logp(y M 1 ) logp(y M 2 ) P(M 1 y) P(M 2 y) a 0,1 = a 0,2 = 1,b 0,1 = b 0,2 = 1 29.08 34.30 0.995 0.005 a 0,1 = a 0,2 = 0.5,b 0,1 = b 0,2 = 0.5 26.90 30.22 0.963 0.037 n 0 = 2, m 0 = h n (Y = 1) 28.41 33.10 0.991 0.009 n 0 = 10, m 0 = h n (Y = 1) 26.85 29.90 0.958 0.042 Marginale Likelihoods und Posteriori-Wahrscheinlichkeiten sprechen für das restringierte Modell M 1. Übereinstimmung mit explorativer Analyse der Posteriori- Verteilung von p(ϑ 1 ϑ 2 y) (die nicht von Null wegverschoben ist) = hohe Evidenz für die Null-Hypothese (keine Evidenz für Nullhypothese bei Signifikanztests!) Helga Wagner Bayes Statistik WS 2010/11 189
Modellwahl für normalverteilte Daten Model M 1 : y i.i.d. N ( µ,σ 2), µ bekannt Die marginale Likelihood von Modell M 1 ist: p(y M 1 ) = = p(y σ2,µ)p(σ 2 ) p(σ 2 y,µ) R + p(y σ 2 )p(σ 2 )dσ 2 = Γ(s n)s s 0 0 Γ(s 0 )S s n n (2π) n, 2 Helga Wagner Bayes Statistik WS 2010/11 190
Die marginale Likelihood wenn µ und σ 2 unbekannt sind Modell M 2 : y i.i.d. N ( µ,σ 2), µ und σ 2 unbekannt Die marginale Likelihood von Modell M 2 ist gegeben als: p(y M 2 ) = p(y,µ,σ 2 M 2 )d(µ,σ 2 ) = Θ Θ p(y µ,σ 2,M 2 )p(µ,σ 2 M 2 )d(µ,σ 2 ). (22) Unter der konjugierten Normal-Invers-Gamma-Priori ist dieses Integral analytisch lösbar. Aus der Candidate s Formel erhält man p(y M 2 ) = p(y σ2,µ)p(µ σ 2 )p(σ 2 ) p(µ σ 2,y)p(σ 2 y,µ) = Γ(s n)s s 0 0 (M n) 2 1. Γ(s 0 )S s n n (M 0 ) 1 2(2π) n 2 Helga Wagner Bayes Statistik WS 2010/11 191
SFr Wechselkurs-Daten Die marginale Posterior p(µ y) in Abbildung 17 deutet auf µ = 0 hin. Test auf µ = 0: Vergleich von Modell M 1 (σ 2 unbekannt, µ = 0) und M 2 (µ und σ 2 unbekannt) Wahl derselben Priori-Verteilung für σ 2 mit S 0 = 1 und s 0 = 1. Priori-Verteilung von µ in Modell M 2 zentriert um 0, d.h. m 0 = 0. Damit hat der Priori-Parameter n 0 = M 1 0 den höchsten Einfluß. Helga Wagner Bayes Statistik WS 2010/11 192
SFr Wechselkurs-Daten logp(y M 1 ) = 719.5689. Für einen großen Bereich von Werten für n 0 ist logp(y M 2 ) zwischen 4234.1 (für n 0 = 10 5 ) und 4226.1 ( für n 0 = 100.) log(b 12 ) >> 150 = sehr starke Evidenz für das reduzierte Modell mit µ = 0 Helga Wagner Bayes Statistik WS 2010/11 193