Bayesianische Modellwahl. Helga Wagner Bayes Statistik WS 2010/11 161

Ähnliche Dokumente
Numerische Methoden der Bayes-Inferenz. Helga Wagner Bayes Statistik WS 2010/11 338

Bayes Prognose. Helga Wagner Bayes Statistik WS 2010/11 194

Konjugierte Analyse einfacher Modelle Poisson-Modelle. Helga Wagner Bayes Statistik WS 2010/11 31

3.4 Bayes-Verfahren Begrifflicher Hintergrund. Satz 3.22 (allgemeines Theorem von Bayes)

Bayes Inferenz Schätzen und Testen von Hypothesen. Helga Wagner Bayes Statistik WS 2010/11 301

Formelsammlung zur Vorlesung: Einführung in die Bayes-Statistik

3.4 Bayes-Verfahren Begrifflicher Hintergrund. Satz 3.19 (allgemeines Theorem von Bayes)

Einführung in die Bayes-Statistik. Helga Wagner. Ludwig-Maximilians-Universität München WS 2010/11. Helga Wagner Bayes Statistik WS 2010/11 1

4.2 Methoden um Tests zu finden: Likelihood Quotienten Tests (LRT) Falls X 1,..., X n iid aus f(x θ), so gilt für die Likelihood Funktion

Vorlesung: Statistik II für Wirtschaftswissenschaft

Frequentisten und Bayesianer. Volker Tresp

Bayesianische FDR (Teil 1)

Bayes Inferenz. Helga Wagner Bayes Statistik WS 2010/11 245

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck

Statistik II. IV. Hypothesentests. Martin Huber

Statistik und Wahrscheinlichkeitsrechnung

Wahrscheinlichkeit und Statistik BSc D-INFK

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Aufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).

Wichtige Definitionen und Aussagen

Musterlösung zu Serie 8

Statistik und Wahrscheinlichkeitsrechnung

VERTEILUNGEN VON FUNKTIONEN EINER ZUFALLSVARIABLEN

Zulassungsprüfung Stochastik,

Das Bayes'sche Prinzip

Mathematische Statistik Aufgaben zum Üben. Schätzer

Varianzkomponentenschätzung

Musterlösung zur Klausur im Fach Fortgeschrittene Statistik am Gesamtpunktzahl: 60

Einführung in die Maximum Likelihood Methodik

Prüfungsvorbereitungskurs Höhere Mathematik 3

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Kapitel VII - Funktion und Transformation von Zufallsvariablen

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Fit for Abi & Study Stochastik

Statistik II. IV. Hypothesentests. Martin Huber

f(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212

Nachklausur Mathematik für Biologen WS 08/09

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

Wahrscheinlichkeitsrechnung und Statistik

2 Klassische statistische Verfahren unter Normalverteilungs-Annahme

5. Spezielle stetige Verteilungen

How To Find Out If A Ball Is In An Urn

Übungsscheinklausur,

Zulassungsprüfung Stochastik,

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung

Wahrscheinlichkeit und Statistik BSc D-INFK

Wahrscheinlichkeitsrechnung und Statistik. 11. Vorlesung /2019

Modelle für Daten mit kontinuierlichen Wertebereich Verteilungen mit (Wahrscheinlichkeits-)Dichte. Normalverteilung N (µ, σ 2 ) mit Dichte

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Klassifikation von Signifikanztests

4. Verteilungen von Funktionen von Zufallsvariablen

Einführung in die Induktive Statistik: Testen von Hypothesen

Mathematik für Biologen

BZQ II: Stochastikpraktikum

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II,

Statistik I für Betriebswirte Vorlesung 13

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Methoden der statistischen Inferenz

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!!

Statistik: Klassisch oder Bayes

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Wahrscheinlichkeitstheorie und Statistik

5 Binomial- und Poissonverteilung

Fortgeschrittene Ökonometrie: Maximum Likelihood

Wahrscheinlichkeit und Statistik BSc D-INFK

Einleitung Wahl der a priori Verteilung Bezug zur Maximum Likelihood Methode. Bayessche Statistik. Christian Meisel

Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte

(Reine) Bayes-Punktschätzung

BAYES SCHE STATISTIK

Wahrscheinlichkeitsrechnung und Statistik

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Statistische Tests (Signifikanztests)

3.3 Methoden zur Evaluierung von Schätzern

Mathematische und statistische Methoden II

Allgemeines zu Tests. Statistische Hypothesentests

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Statistik I für Betriebswirte Vorlesung 14

Statistik für NichtStatistiker

Chi-Quadrat-Verteilung

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Prüfungsvorbereitungskurs Höhere Mathematik 3

Bayessche Lineare Regression

Bayessche Statistik-Denken in Wahrscheinlichkeit

Überblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression

Einführung in Quantitative Methoden

Klassifikation von Signifikanztests

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Wahrscheinlichkeit und Statistik: Zusammenfassung

3) Testvariable: T = X µ 0

Modul 141 Statistik. 1. Studienjahr 11. Sitzung Signifikanztests

Schätzen und Testen I in 90 Minuten. 8. Februar 2010

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

Transkript:

Bayesianische Modellwahl Helga Wagner Bayes Statistik WS 2010/11 161

Modellwahl Problem der Modellwahl: Welches von K möglichen Modellen M 1,...,M K ist für die Daten y am besten geeignet? Klassisch: LQ-Test für genestete Modelle; Informationskriterien (AIC, BIC) Bayesianische Modellwahl: Posteriori Wahrscheinlichkeiten P(M 1 y),...,p(m K y) der verschiedenen Modelle bedingt auf die Daten P(M k y) p(y M k )P(M k ), k = 1,...,K (18) Helga Wagner Bayes Statistik WS 2010/11 162

Berechnung der Posteriori-Wahrscheinlichkeit Spezifikation der Priori-Wahrscheinlichkeit für jedes Modell p(m k ) : z.b. Gleichverteilung auf der Menge {M 1,...,M K }, d.h. P(M k ) = 1/K Für vollständig spezifizierte Modelle, d.h. Modelle ohne unbekanntem Parameter, ist p(y M k ) der Wert der Likelihood, d.h. die Dichte der Stichprobenverteilung an den beobachteten Daten. Für Modelle mit unbekannten Paramtern muss die marginale Likelihood p(y M k ) berechnet werden. Bestimmen der Posteriori-Wahrscheinlichkeit jedes Modells: Normieren ergibt P(M k y) = p(y M k)p(m k ) K i=1 p(y M i)p(m i ) Helga Wagner Bayes Statistik WS 2010/11 163

Berechnung der marginalen Likelihood Für Modelle mit unbekannten Parametern ist p(y M k ) der Wert der prioriprädiktiven Dichte an der Stelle der beobachteten Daten y p(y M k ) = ϑ k p(y ϑ k,m k )p(ϑ k M k )dϑ k. p(y M k ) wird als marginale Likelihood bezeichnet. Die marginale Likelihood ist der Erwartungswert der Likelihood bezüglich der Priori-Verteilung der Parameter. Ihre Berechnung setzt eine eigentliche Priori- Verteilung voraus! Für diskrete Daten kann die marginale Likelihood als Wahrscheinlichkeit der Daten bei gegebenem Modell M k interpretiert werden. Helga Wagner Bayes Statistik WS 2010/11 164

Der Bayes-Faktor Werden zwei Modelle M 1 und M 2 verglichen, so bezeichnet man den Quotienten B 12 = P(y M 1 )/P(y M 2 ) als Bayes-Faktor von Modell M 1 im Vergleich zu M 2. Die Posteriori-Chance von Modell M 1 ist gegeben als P(M 1 y) P(M 2 y) = P(y M 1) P(M 1 ) P(y M 2 ) P(M 2 ) d.h. Posteriori-Chance = Bayes-Faktor Priori-Chance Helga Wagner Bayes Statistik WS 2010/11 165

Der Bayes-Faktor Der Bayes-Faktor B 12 ist damit also Quotient aus Posteriori-Chance und Priori- Chance von M 1. Wenn die Daten die Wahrscheinlichkeit von M 1 erhöht haben, ist B 12 > 1 verringert haben, ist B 12 < 1 Numerisch ist es oft günstiger den Logartihmus der marginalen Likelihood zu berechnen. Der logarithmierte Bayes-Faktor ist logb 12 = log(p(m 1 y)) log(p(m 2 y)) Helga Wagner Bayes Statistik WS 2010/11 166

Bewertung des Bayes-Faktors Zur Bewertung des Bayes-Faktors bzw. logb 12 gelten folgende Faustregeln: Bayes-Faktor logb 12 Evidenz für M 1 gegenüber M 2 1 bis 3 0 bis 1.1 kaum der Rede wert 3 bis 20 1.1 bis 3 positiv 20 bis 150 3 bis 5 stark ab 150 ab 5 sehr stark Helga Wagner Bayes Statistik WS 2010/11 167

Die marginale Likelihood für i.i.d. Daten aus der Poisson-Verteilung Modell M 1 : y i.i.d. P (µ) Die marginale Likelihood von M 1 ist p(y M 1 ) = Θ Θ p(y,µ M 1 )dµ p(y µ,m 1 )p(µ M 1 )dµ. Unter der konjugierten G(a 0,b 0 )-Priori-Verteilung für µ kann dieses Integral analytisch gelöst werden und man erhält p(y M 1 ) = b a 0 0 Γ(a n) b a n n Γ(a 0 ) n i=1 Γ(y i+1). Helga Wagner Bayes Statistik WS 2010/11 168

Die marginale Likelihood für i.i.d. Daten aus der Poisson-Verteilung Die marginale Likelihood ist identisch mit der Normierungskonstanten der nichtnormierten Posteriori-Dichte p(µ y) p(y µ)p(µ). Wenn die Werte der Posteriori-Dichte bekannt sind, kann die marginale Likelihood folgendermaßen berechnet werden Candidate s formula (?) p(y M 1 ) = p(y µ,m 1)p(µ M 1 ) p(µ y,m 1 ) (19) Helga Wagner Bayes Statistik WS 2010/11 169

Die marginale Likelihood für i.i.d. Daten aus der Poisson-Verteilung Formel (19) gilt für jeden beliebigen Wert von µ, da sich alle Faktoren die von µ abhängen, kürzen Auch Formel (19) macht deutlich, dass die Berechnung der marginalen Likelihood eine eigentliche Priori-Verteilung voraussetzt. Die logarithmierte marginale Likelihood ist log(p(y M 1 )) = log(p(y µ,m 1 ))+log(p(µ M 1 )) log(p(µ y,m 1 )) Helga Wagner Bayes Statistik WS 2010/11 170

Die marginale Likelihood für i.i.d. Daten aus der Poisson-Verteilung Unter der G(a 0,b 0 )-Priori, ist p(µ y,m 1 ) die Dichte der G(a n,b n )-Posteriori- Verteilung und es gilt p(y M 1 ) = exp( nµ)µ y i n i=1 Γ(y i+1) ba 0 0 µa 0 1 exp( b 0 µ) Γ(a 0 ) = b a 0 0 Γ(a n) b a n n Γ(a 0 ) n i=1 Γ(y i+1) Γ(a n ) b a n n µ a n 1 exp( b n µ) = Helga Wagner Bayes Statistik WS 2010/11 171

Die marginale Likelihood für i.i.d. Daten aus der Poisson-Verteilung Tabelle 3: Verkehrssicherheitsdaten Kinder 6-10: Modell M 1 Logarithmus der marginalen Likelihood p(y M 1 ) für verschiedene G(b 0 m 0,m 0 )- Priori-Verteilungen logp(y M 1 ) m 0 = 1 m 0 = y m 0 = 5 m 0 = 7 m 0 = 10 b 0 = 0.01-320.55-319.97-319.08-318.81-318.56 b 0 = 0.1-318.50-318.00-317.49-317.52-317.77 b 0 = 0.5-317.43-316.94-317.31-318.30-320.39 b 0 = 1-317.12-316.55-317.86-320.02-324.36 b 0 = 2-316.96-316.19-319.31-323.76-332.52 Die marginale Likelihood hängt stark von den Parametern der Priori-Verteilung ab! Helga Wagner Bayes Statistik WS 2010/11 172

Die marginale Likelihood für i.i.d. Daten aus der Poisson-Verteilung 5 x 10 137 6 b 0 =0.01 1 x 10 137 b 0 =0.01 4 3 5 4 3 b =0.1 0 b =0.5 0 b =1 0 b =2 0 0.8 0.6 b 0 =0.1 b 0 =0.5 b 0 =1 b 0 =2 2 2 0.4 1 1 0.2 0 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 µ 3 0 0 0.5 1 1.5 2 2.5 µ 3 0 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 µ 3 Abbildung 19: Verkehrssicherheitsdaten Links: Likelihood, Mitte: verschiedene G(b 0 m 0,b 0 )-Priori-Verteilungen mit m 0 = 1; Rechts: Produkt aus Likelihood und Priori Der Wert des Parameters a 0 bestimmt die Form der Priori-Verteilung: Für a 0 < 1 hat der Modus der Priori-Verteilung den Wert 0. Helga Wagner Bayes Statistik WS 2010/11 173

Die marginale Likelihood für i.i.d. Daten aus der Poisson-Verteilung Tabelle 4: Verkehrssicherheitsdaten Kinder 6-10: Modell M 1 Logarithmus der marginalen Likelihood p(y M 1 ) für verschiedene G(a 0,a 0 /m 0 ) Priori-Verteilungen logp(y M 1 ) m 0 = 1 m 0 = y m 0 = 5 m 0 = 7 m 0 = 10 a 0 = 0.01-320.55-320.55-320.55-320.55-320.56 a 0 = 0.1-318.50-318.47-318.51-318.53-318.56 a 0 = 0.5-317.43-317.31-317.49-317.61-317.75 a 0 = 1-317.12-316.89-317.26-317.49-317.77 a 0 = 2-316.96-316.51-317.24-317.70-318.26 Für a 0 1 ist der Modus der Priori-Verteilung a 0 1 b 0. Helga Wagner Bayes Statistik WS 2010/11 174

Die marginale Likelihood bei Berücksichtigung der Exponierten Modell M 2 : y i.i.d. P (λe i ) Die marginale Likelihood für Modell M 2 ist gegeben als: p(y M 2 ) = p(y λ,m 2)p(λ M 2 ) p(λ y,m 2 ) = (be 0) ae 0 Γ(a e n ) (b e N )ae nγ(a e 0 ) n i=1 = e y i i Γ(y i +1). Helga Wagner Bayes Statistik WS 2010/11 175

Die marginale Likelihood bei Berücksichtigung der Exponierten Tabelle 5: Verkehrssicherheitsdaten Kinder 6-10: Modell M 2 Logarithmus der marginalen Likelihood p(y M 2 ) für verschiedene G(a e 0,a e 0/m e 0)- Priori-Verteilungen logp(y M 2 ) m e 0 = 1 10000 m e 0 = ˆλ m e 0 = 5 10000 m 0 = 1 1000 m e 0 = 5 1000 a e 0 = 0.01-321.12-321.12-321.12-321.14-321.15 a e 0 = 0.1-319.08-319.08-319.05-319.27-319.34 a e 0 = 0.5-318.06-318.03-317.88-318.99-319.33 a e 0 = 1-317.81-317.76-317.46-319.69-320.36 a e 0 = 2-317.76-317.67-317.08-321.52-322.87 Helga Wagner Bayes Statistik WS 2010/11 176

Modellvergleich für Verkehrssicherheitsdaten Kinder 6-10 Annahme : P(M 1 ) = P(M 2 ) = 1/2 Tabelle 6: Verkehrssicherheitsdaten Kinder 6-10: Vergleich von Modell M 1 ( und M 2 ) basierend auf den Priori-Verteilungen µ G(a 0,a 0 /y) und λ G a 0,a 0 /ˆλ a 0 0.01 0.1 0.5 1 2 log(b 12 ) 0.57 0.61 0.72 0.87 1.16 P(M 1 y) 0.64 0.65 0.67 0.70 0.76 = leichte Evidenz für ein Modell ohne Berücksichtigung der Exponierten Helga Wagner Bayes Statistik WS 2010/11 177

Die marginale Likelihood bei Strukturbruch Modell M 3 : y i P (µ i ) mit µ i = { µ 1, i < i 0, µ 2, i i 0. Die marginal Likelihood für Model M 3 ist : p(y M 3 ) = p(y µ 1,µ 2,M 3 )p(µ 1,µ 2 M 3 )d(µ 1,µ 2 ), Mit der Candidate s Formel erhält man Θ p(y M 3 ) = p(y µ 1,µ 2,M 3 )p(µ 1,µ 2 M 3 ) p(µ 1,µ 2 y,m 3 ) = b a 0,1 0,1 ba 0,2 0,2 Γ(a n,1)γ(a n,2 ) b a n,1 n,1 ba n,2 n,2 Γ(a 0,1)Γ(a 0,2 ) n i=1 Γ(y i+1). Helga Wagner Bayes Statistik WS 2010/11 178

Die marginale Likelihood bei Strukturbruch Tabelle 7: Verkehrssicherheitsdaten Kinder 6-10: Modell M 3 (Strukturbruch Oktober 1994). Logarithmus der marginalen Likelihood p(y M 3 ) für verschiedene G(a 0,a 0 /m 0 )- Priori-Verteilungen logp(y M 3 ) m 0 = 1 m 0 = y m 0 = 5 m 0 = 7 m 0 = 10 a 0 = 0.01-321.40-321.40-321.40-321.41-321.41 a 0 = 0.1-317.30-317.25-317.33-317.37-317.43 a 0 = 0.5-315.17-314.94-315.31-315.54-315.81 a 0 = 1-314.58-314.12-314.85-315.31-315.86 a 0 = 2-314.30-313.38-314.83-315.75-316.86 Helga Wagner Bayes Statistik WS 2010/11 179

Die marginale Likelihood des hierarchischen Modells Model M 4 : y i P (µ i ) mit µ i G(a 0,b 0 ) Die marginale Likelihood für Modell M 4 ist: p(y M 4 ) = p(y µ 1,...,µ n,m 4 )p(µ 1,...,µ n M 4 )d(µ 1,...,µ n ). Θ Einfache Berechnung mittels Candidate s Formel ergibt p(y M 4 ) = p(y µ 1,...,µ n,m 4 )p(µ 1,...,µ n M 4 ) p(µ 1,...,µ n y) n b a 0 0 = Γ(a 0+y i ) (b 0 +1) a 0+y iγ(a0 )Γ(y i +1). i=1 = Helga Wagner Bayes Statistik WS 2010/11 180

Die marginale Likelihood des hierarchischen Modells Tabelle 8: Verkehrssicherheitsdaten Kinder 6-10: Modell M 4 Logarithmus der marginalen Likelihood p(y M 4 ) für verschiedene G(a 0,a 0 /m 0 )-Priori-Verteilungen logp(y M 4 ) m 0 = 1 m 0 = y m 0 = 5 m 0 = 7 m 0 = 10 a 0 = 0.01-861.52-861.08-861.79-862.23-862.76 a 0 = 0.1-543.44-539.37-546.24-550.61-555.88 a 0 = 0.5-405.45-389.86-420.69-441.18-466.35 a 0 = 1-377.77-353.63-408.38-446.39-494.04 a 0 = 2-365.72-332.41-422.05-488.49-574.61 Die Parameter der Priori-Verteilung haben einen großen Effekt auf den Wert der marginalen Likelihood. Helga Wagner Bayes Statistik WS 2010/11 181

Modellvergleich für Verkehrssicherheitsdaten Kinder 6-10 Annahme : P(M 1 ) = P(M 3 ) = P(M 4 ) = 1/3 Tabelle 9: Verkehrssicherheitsdaten Kinder 6-10: Posteriori-Wahrscheinlichkeiten der Modelle M 1, M 3 und M 4 unter verschiedenen G(a 0,a 0 /y)-priori-verteilungen a 0 0.01 0.1 0.5 1 2 P(M 1 y) 0.701 0.228 0.086 0.059 0.042 P(M 3 y) 0.299 0.772 0.914 0.941 0.958 P(M 4 y) 0 0 0 0 0 Evidenz für das Modell mit Strukturbruch aus der Posteriori-Dichte von µ 2 µ 1 wird durch die Posteriori-Wahrscheinlichkeiten von M 3 bestätigt. P(M 3 = 1 y) ist für leicht informative Priori-Verteilungen nahe bei 1 = Wahl von Modell M 3 (Strukturbruch) Helga Wagner Bayes Statistik WS 2010/11 182

Eye Tracking: Homogenität oder unbeobachtete Heterogenität? Homogenität: Modell M 1 unbeobachtete Heterogenität: hierarchisches Modell M 4 Tabelle 10: Eye Tracking, Modell M 1 ; Logarithmus der marginalen Likelihood p(y M 1 ) für verschiedene G(a 0,a 0 /m 0 )-Priori-Verteilungen logp(y M 1 ) m 0 = 1 m 0 = y m 0 = 5 m 0 = 10 m 0 = 20 a 0 = 0.01-474.86-474.85-474.85-474.86-474.86 a 0 = 0.1-472.91-472.78-472.78-472.82-472.87 a 0 = 0.5-472.25-471.62-471.64-471.81-472.07 a 0 = 1-472.45-471.20-471.25-471.59-472.11 a 0 = 2-473.31-470.81-470.92-471.60-472.63 Helga Wagner Bayes Statistik WS 2010/11 183

Eye Tracking: Homogenität oder unbeobachtete Heterogenität? Tabelle 11: Eye Tracking, Modell M 4 Logarithmus der marginalen Likelihood p(y M 4 ) für verschiedene G(a 0,a 0 /m 0 )-Priori-Verteilungen logp(y M 4 ) m 0 = 1 m 0 = y m 0 = 5 m 0 = 10 m 0 = 20 a 0 = 0.01-334.37-333.10-333.16-333.50-334.02 a 0 = 0.1-249.61-237.68-238.22-241.61-246.80 a 0 = 0.5-271.04-223.77-226.24-242.34-267.54 a 0 = 1-316.77-241.38-245.87-276.12-324.87 a 0 = 2-381.56-273.80-281.39-335.39-426.86 Grosser Effekt der Hyperparameter auf die marginale Likelihood! Vergleich verschiedener Priori-Verteilungen (=Heterogenitätsverteilungen): = G(0.5, 0.5/y)- Verteilung ergibt die höchste marginale Likelihood G(0.5,0.5/y) hat Erwartungswert y = 3.52 und Varianz 24.78 Helga Wagner Bayes Statistik WS 2010/11 184

Eye Tracking: Homogenität oder unbeobachtete Heterogenität? Bei gleichen a-priori-wahrscheinlichkeiten der Modelle M 1 und M 4, ist die Posteriori-Wahrscheinlichkeit von M 1 gegeben als P(M 1 y) = p(y M 1 ) p(y M 1 )+p(y M 4 ), (20) P(M 1 y) = 0 für alle Hyperparameter = Ablehnung des einfachen Modells M 1 und Wahl des flexibleren Modells M 4 Helga Wagner Bayes Statistik WS 2010/11 185

Die Marginale Likelihood für Modelle für Binärdaten Modell M 1 (Ziehen mit Zurücklegen aus einer homogenen Population): y 1,...,y n i.i.d. with P(Y i = 1 ϑ) = ϑ Die marginale Likelihood für Modell M 1 ist: p(y M 1 ) = p(y,ϑ M 1 )dϑ = p(y ϑ,m 1 )p(ϑ M 1 )dϑ. Θ Unter der konjugierten B(a 0,b 0 )-Priori-Verteilung kann dieses Integral analytisch gelöst werden. Einfacher ist die Berechnung mit der Candidate s Formel: Θ p(y M 1 ) = p(y ϑ,m 1)p(ϑ M 1 ) p(ϑ y,m 1 ) = B(a n,b n ) B(a 0,b 0 ). (21) Die marginale Likelihood ist nur dann definiert, wenn sowohl a 0 und b 0 positiv sind. Helga Wagner Bayes Statistik WS 2010/11 186

Die marginale Likelihood bei beobachteter Heterogenität Modell M 2 : Ziehen mit Zurücklegen aus einer heterogen Population P(Y i = 1 ϑ,z i ) = (1 z i )ϑ 1 +z i ϑ 2 Die marginale Likelihood für Model M 2 ist: p(y M 2 ) = Θ p(y,ϑ M 2 )dϑ = Θ p(y ϑ,m 2 )p(ϑ M 2 )dϑ. Das Integral kann unter den konjugierten Priori-Verteilungen B(a 0,1,b 0,1 ) und B(a 0,2,b 0,2 ) analytisch bestimmt werden. Einsetzen in die Candidate s Formel ergibt: p(y M 2 ) = p(y ϑ 1,ϑ 2,M 2 )p(ϑ 1,ϑ 2 M 2 ) p(ϑ 1,ϑ 2 y,m 2 ) = B(a n,1,b n,1 )B(a n,2,b n,2 ) B(a 0,1,b 0,1 )B(a 0,2,b 0,2 ). Helga Wagner Bayes Statistik WS 2010/11 187

Test auf Heterogenität Tabelle 12: Arbeitsmarktdaten: Vergleich von der Modelle M 1 und M 2 (Risiko für Erwerbslosigkeit abhängig vom Arbeitsverhältnis) prior logp(y M 1 ) logp(y M 2 ) P(M 1 y) P(M 2 y) a 0,1 = a 0,2 = 1,b 0,1 = b 0,2 = 1 387.58 385.90 0.1593 0.8407 a 0,1 = a 0,2 = 0.5,b 0,1 = b 0,2 = 0.5 387.56 385.89 0.1585 0.8415 n 0 = 2, m 0 = h n (Y = 1) 387.29 385.40 0.1306 0.8694 n 0 = 10, m 0 = h n (Y = 1) 386.26 383.40 0.0545 0.9455 Marginale Likelihoods und Posteriori-Wahrscheinlichkeiten sprechen für das unrestringierte Modell M 2 Das entspricht dem Ergebnis aus der Posteriori Verteilung p(ϑ 1 ϑ 2 y), die von 0 nach rechts verschoben ist. Helga Wagner Bayes Statistik WS 2010/11 188

Krebssterblichkeitsdaten Tabelle 13: Vergleich von der Modelle M 1 und M 2 (Abhängigkeit des Krebsrisikos von der Stadt) prior logp(y M 1 ) logp(y M 2 ) P(M 1 y) P(M 2 y) a 0,1 = a 0,2 = 1,b 0,1 = b 0,2 = 1 29.08 34.30 0.995 0.005 a 0,1 = a 0,2 = 0.5,b 0,1 = b 0,2 = 0.5 26.90 30.22 0.963 0.037 n 0 = 2, m 0 = h n (Y = 1) 28.41 33.10 0.991 0.009 n 0 = 10, m 0 = h n (Y = 1) 26.85 29.90 0.958 0.042 Marginale Likelihoods und Posteriori-Wahrscheinlichkeiten sprechen für das restringierte Modell M 1. Übereinstimmung mit explorativer Analyse der Posteriori- Verteilung von p(ϑ 1 ϑ 2 y) (die nicht von Null wegverschoben ist) = hohe Evidenz für die Null-Hypothese (keine Evidenz für Nullhypothese bei Signifikanztests!) Helga Wagner Bayes Statistik WS 2010/11 189

Modellwahl für normalverteilte Daten Model M 1 : y i.i.d. N ( µ,σ 2), µ bekannt Die marginale Likelihood von Modell M 1 ist: p(y M 1 ) = = p(y σ2,µ)p(σ 2 ) p(σ 2 y,µ) R + p(y σ 2 )p(σ 2 )dσ 2 = Γ(s n)s s 0 0 Γ(s 0 )S s n n (2π) n, 2 Helga Wagner Bayes Statistik WS 2010/11 190

Die marginale Likelihood wenn µ und σ 2 unbekannt sind Modell M 2 : y i.i.d. N ( µ,σ 2), µ und σ 2 unbekannt Die marginale Likelihood von Modell M 2 ist gegeben als: p(y M 2 ) = p(y,µ,σ 2 M 2 )d(µ,σ 2 ) = Θ Θ p(y µ,σ 2,M 2 )p(µ,σ 2 M 2 )d(µ,σ 2 ). (22) Unter der konjugierten Normal-Invers-Gamma-Priori ist dieses Integral analytisch lösbar. Aus der Candidate s Formel erhält man p(y M 2 ) = p(y σ2,µ)p(µ σ 2 )p(σ 2 ) p(µ σ 2,y)p(σ 2 y,µ) = Γ(s n)s s 0 0 (M n) 2 1. Γ(s 0 )S s n n (M 0 ) 1 2(2π) n 2 Helga Wagner Bayes Statistik WS 2010/11 191

SFr Wechselkurs-Daten Die marginale Posterior p(µ y) in Abbildung 17 deutet auf µ = 0 hin. Test auf µ = 0: Vergleich von Modell M 1 (σ 2 unbekannt, µ = 0) und M 2 (µ und σ 2 unbekannt) Wahl derselben Priori-Verteilung für σ 2 mit S 0 = 1 und s 0 = 1. Priori-Verteilung von µ in Modell M 2 zentriert um 0, d.h. m 0 = 0. Damit hat der Priori-Parameter n 0 = M 1 0 den höchsten Einfluß. Helga Wagner Bayes Statistik WS 2010/11 192

SFr Wechselkurs-Daten logp(y M 1 ) = 719.5689. Für einen großen Bereich von Werten für n 0 ist logp(y M 2 ) zwischen 4234.1 (für n 0 = 10 5 ) und 4226.1 ( für n 0 = 100.) log(b 12 ) >> 150 = sehr starke Evidenz für das reduzierte Modell mit µ = 0 Helga Wagner Bayes Statistik WS 2010/11 193