Bayes Inferenz Schätzen und Testen von Hypothesen. Helga Wagner Bayes Statistik WS 2010/11 301

Ähnliche Dokumente
Bayes Prognose. Helga Wagner Bayes Statistik WS 2010/11 194

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Das Bayes'sche Prinzip

Punktschätzer Optimalitätskonzepte

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

BAYES SCHE STATISTIK

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Wichtige Definitionen und Aussagen

3.3 Methoden zur Evaluierung von Schätzern

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Errata für: Methoden der statistischen Inferenz: Likelihood und Bayes

Einführung in die statistische Testtheorie II

6. Schätzverfahren für Parameter

Einführung in die Bayes-Statistik. Helga Wagner. Ludwig-Maximilians-Universität München WS 2010/11. Helga Wagner Bayes Statistik WS 2010/11 1

Mathematische Statistik Aufgaben zum Üben. Schätzer

Fit for Abi & Study Stochastik

Einführung in die Maximum Likelihood Methodik

Statistik I für Betriebswirte Vorlesung 14

Vorlesung: Statistik II für Wirtschaftswissenschaft

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

1.3 Wiederholung der Konvergenzkonzepte

Statistik. Andrej Depperschmidt. Sommersemester 2016

Frequentistische Statistik und Bayessche Statistik. Volker Tresp

Biostatistik, Sommer 2017

OLS-Schätzung: asymptotische Eigenschaften

Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Statistik. R. Frühwirth Teil 1: Deskriptive Statistik. Statistik. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und

BZQ II: Stochastikpraktikum

Wahrscheinlichkeitstheorie und Statistik für Studierende des Maschinenbaus vom

Schätzung von Parametern

Bayes Inferenz. Helga Wagner Bayes Statistik WS 2010/11 245

Statistik und Wahrscheinlichkeitsrechnung

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Einführung in die Induktive Statistik: Schätzen von Parametern und Verteilungen

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

Vorlesung: Statistik II für Wirtschaftswissenschaft

Wahrscheinlichkeit und Statistik: Zusammenfassung

VERTEILUNGEN VON FUNKTIONEN EINER ZUFALLSVARIABLEN

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Klassifikation von Daten Einleitung

5. Spezielle stetige Verteilungen

Grundgesamtheit und Stichprobe

Übungsscheinklausur,

Willkommen zur Vorlesung Statistik (Master)

Grundgesamtheit und Stichprobe

Wahrscheinlichkeitsrechnung und Statistik

Wahrscheinlichkeitsverteilungen

Statistik. Anton Klimovsky. 10. Dezember 2015

Willkommen zur Vorlesung Statistik (Master)

Erwartungswert und Varianz von Zufallsvariablen

Mathematik für Biologen

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:

Willkommen zur Vorlesung Statistik (Master)

4.2 Methoden um Tests zu finden: Likelihood Quotienten Tests (LRT) Falls X 1,..., X n iid aus f(x θ), so gilt für die Likelihood Funktion

Korollar 116 (Grenzwertsatz von de Moivre)

Die Maximum-Likelihood-Methode

Markov Chain Monte Carlo Verfahren. Helga Wagner Bayes Statistik WS 2010/11 407

Suffizienz und Vollständigkeit

Varianz und Kovarianz

2.2 Klassische Testtheorie

Biostatistik, Winter 2011/12

Zufallsvariablen [random variable]

3 Grundlagen statistischer Tests (Kap. 8 IS)

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

4 Absolutstetige Verteilungen und Zufallsvariablen 215/1

Musterlösung zur Klausur im Fach Fortgeschrittene Statistik am Gesamtpunktzahl: 60

Kapitel VII - Funktion und Transformation von Zufallsvariablen

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

1 Diskriminanzanalyse

Kapitel V - Erwartungstreue Schätzfunktionen

Vorlesung: Lineare Modelle

2.3 Intervallschätzung

Wahrscheinlichkeitstheorie Kapitel V - Stetige Verteilungen

1.4 Stichproben aus einer Normalverteilung

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Willkommen zur Vorlesung Statistik (Master)

Statistik. von Peter Pfaffelhuber Version: 26. Juni Einführung 2

Die Varianz (Streuung) Definition

Einführung in die statistische Testtheorie

70 Wichtige kontinuierliche Verteilungen

Maximum-Likelihood Schätzung

7.2 Moment und Varianz

Auswahl von Schätzfunktionen

Statistik für Informatiker, SS Verteilungen mit Dichte

Kapitel VI - Maximum-Likelihood-Schätzfunktionen

10 Transformation von Zufallsvariablen

Inhaltsverzeichnis DESKRIPTIVE STATISTIK. 1 Grundlagen Grundbegriffe Skalen... 15

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Prüfungsvorbereitungskurs Höhere Mathematik 3

Normalverteilung. 1 2πσ. Gauß. 2 e 1 2 ((x µ)2 σ 2 ) Werkzeuge der empirischen Forschung. W. Kössler. Einleitung. Datenbehandlung. Wkt.

SozialwissenschaftlerInnen II

Numerische Methoden und Algorithmen in der Physik

Forschungsstatistik I

Klausur zum Fach GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK. für Studierende der INFORMATIK

Transkript:

Bayes Inferenz Schätzen und Testen von Hypothesen Helga Wagner Bayes Statistik WS 2010/11 301

Bayes Punktschätzung Entscheidungstheoretischer Ansatz: Wahl des Punktschätzers ist eine Aktion, die möglicherweise mit einem Verlust verbunden ist Eine Verlustfunktion l(a, ϑ) quantifiziert den Verlust, der entsteht, wenn ϑ durch a geschätzt wird. Üblicherweise ist der Verlust 0, wenn a = ϑ, d.h. und l(a,ϑ) ist monoton wachsend in ϑ. l(a,a) = 0. Für gegebene Daten y sind ϑ und damit auch l(a, ϑ) Zufallsvariable. Helga Wagner Bayes Statistik WS 2010/11 302

Bayes Punktschätzung Der erwartete Verlust bezüglich der Posteriori-Verteilung ist E(l(a, ϑ) y) = l(a, ϑ)p(ϑ y) dϑ. Eine Aktion a, die den posteriori erwarteten Verlust minimiert, heisst Bayes- Aktion. Ein Bayes-Schätzer ˆϑ(y) von ϑ minimiert den erwarteten Verlust E(l(ˆϑ(y),ϑ) y). Helga Wagner Bayes Statistik WS 2010/11 303

Exkurs: Grundbegriffe der statistischen Entscheidungstheorie Daten y: statistisches Modell mit Stichprobenverteilung p(y ϑ) und ϑ Θ Menge von Aktionen A Verlustfunktion l(a, ϑ) l : A Θ R (a, ϑ) l(a, ϑ) Entscheidungsregel d(y), die den Stichprobenraum Y auf die Menge der Aktionen A abbildet d : Y A y d(y) Helga Wagner Bayes Statistik WS 2010/11 304

Exkurs: Grundbegriffe der statistischen Entscheidungstheorie Die Eigenschaften der Entscheidungsregel werden charakterisiert durch die Risikofunktion R(d,ϑ) = l(d(y), ϑ)p(y ϑ)dy Da die Risikofunktion als Erwartungswert über den Stichprobenraum definiert ist, wird sie auch frequentistisches Risiko genannt. Mit einer apriori-verteilung π(ϑ) auf dem Parameterraum Θ ist das Bayes-Risiko r(d,π) = R(d, ϑ)π(ϑ)dϑ Eine Entscheidungsregel, die das Bayes-Risiko minimiert, heisst Bayes-Regel, d.h. d π = arg inf d D r(d,π) Die (frequentistische) Bayes-Regel bedingt auf Daten y ist die Bayes-Aktion. Helga Wagner Bayes Statistik WS 2010/11 305

Exkurs: Grundbegriffe der statistischen Entscheidungstheorie Einen Schätzer, der das Bayes-Risiko r(d, π) minimiert, erhält man wegen r(d,π) = Y Θ l(d(y), ϑ y)π(ϑ y)dϑ p(y)dy = Y r(d, π y)p(y)dy, wenn für jedes y Y, d(y) so gewählt wird, dass r(d,π y) minimiert wird. Reguläre Bayes-Schätzer sind zulässig, d.h. es gibt keinen weiteren Schätzer d (y) mit folgenden Eigenschaften: R(d,ϑ) R(d,ϑ) für alle ϑ Θ und es existiert mindestens ein ϑ Θ mit R(d,ϑ) < R(d,ϑ). Helga Wagner Bayes Statistik WS 2010/11 306

Quadratische Verlustfunktion Für die quadratische Verlustfunktion l(ˆϑ(y),ϑ) = (ˆϑ(y) ϑ) (ˆϑ(y) ϑ), ist der optimale Schätzer ˆϑ(y) ist der Posteriori Erwartungswert µ = E(ϑ y). Helga Wagner Bayes Statistik WS 2010/11 307

Quadratische Verlustfunktion Beweis: Es ist l(a,ϑ) = (a µ ϑ+µ) (a µ ϑ+µ) = = (a µ) (a µ) 2(ϑ µ) (a µ)+(ϑ µ) (ϑ µ), Der Erwartungswert bezüglich der Posteriori-Dichte ist E(l(a,ϑ) y) = (a µ) (a µ)+e((ϑ µ) (ϑ µ) y). Das Minimum wird an der Stelle a = µ angenommen und das minimale Risiko ist gleich der Spur der Varianz-Kovarianz-Matrix tr(var(ϑ y)). Helga Wagner Bayes Statistik WS 2010/11 308

Lineare Verlustfunktionen Für die asymmetrische Verlustfunktion des Einparameter-Problems l(ˆϑ(y),ϑ) = { c l (ϑ ˆϑ(y)), ˆϑ(y) < ϑ, c r (ˆϑ(y) ϑ), ˆϑ(y) > ϑ, mit postiven Konstanten c l,c r ist der optimale Schätzer das c l /(c r + c l )- Perzentil der Posteriori-Verteilung. Spezialfall c l = c r = 1: Die Verlustfunktion ist die absolute Abweichung l(ˆϑ(y),ϑ) = ˆϑ(y) ϑ und der optimale Punktschätzer ist der Posteriori-Median. Helga Wagner Bayes Statistik WS 2010/11 309

Lineare Verlustfunktionen Beweis: Bezeichne P(ϑ y) die Verteilungsfunktion der Posteriori-Verteilung, dann ist E(l(a, ϑ) y) = a c r (a ϑ)p(ϑ y)dϑ + a c l (ϑ a)p(ϑ y)dϑ = Wegen d dx b(x) a(x) g(x,t)dt = b(x) a(x) dg(x, t) dx dt + g(x,b(x)) db(x) dx g(x,a(x))da(x) dx ergibt Ableiten nach a : d E(l(a, ϑ) y) da a = c r p(ϑ y)dϑ + 0 c l p(ϑ y)dϑ 0 = = c r P(a y) c l (1 P(a y)) = 0. a Helga Wagner Bayes Statistik WS 2010/11 310

Die Null-Eins-Verlustfunktion Der optimale Punktschätzer bezüglich der Null-Eins-Verlustfunktion l(ˆϑ(y),ϑ) = { 0, wenn ˆϑ(y) ϑ ε, 1, wenn ˆϑ(y) ϑ > ε ist für eine unimodale Posteriori-Verteilung im Grenzfall ε 0 der Modus ϑ der Posteriori-Verteilung ( maximum aposteriori estimate = MAP). Beweis: a ε a+ε E(l(a, ϑ) y) = p(ϑ y)dϑ + a+ε p(ϑ y)dϑ = 1 a ε p(ϑ y)dϑ Der erwartete Verlust ist minimal, wenn der Wert des Integrals maximal wird. Dies ist für eine unimodale Posteriori-Verteilung und kleines ε eine ε-umgebung um den Modus der Verteilung. Helga Wagner Bayes Statistik WS 2010/11 311

Die Null-Eins-Verlustfunktion Unter der flachen Priori-Verteilung ist der MAP gleich dem ML-Schätzer. Wegen logp(ϑ y) = c+logp(y ϑ)+logp(ϑ) maximiert der MAP die pönalisierte Likelihood mit Penalty log p(ϑ). Helga Wagner Bayes Statistik WS 2010/11 312

Eigenschaften von Bayes Punktschätzern Bayes Schätzer unter quadratischer Verlustfunktion sind i.a. nicht unverzerrt. Beispiel: Mittelwert der Normalverteilung m n = (1 ω)m 0 +ωȳ Aber: Erwartungstreue bedeutet eine Mittelung über die Stichprobenverteilung Posteriori-Modus und Posteriori-Erwartungswert sind nicht invariant bezüglich streng monotoner Transformation. Helga Wagner Bayes Statistik WS 2010/11 313

HPD-Bereiche 100%(1 α)- HPD-Bereiche haben minimale Länge unter allen 100%(1 α)-kredibilitätsbereiche müssen nicht zusammenhängend, d.h. ein Intervall, sein sind nicht invariant bei streng monotonen Transformationen Gleichendige 100%(1 α)-kredibilitätsintervalle sind invariant bezüglich streng monotoner Transformation. Helga Wagner Bayes Statistik WS 2010/11 314

Testen von Hypothesen: Entscheidungstheoretischer Ansatz Daten y: statistisches Modell mit Stichprobenverteilung p(y ϑ) und ϑ Θ Hypothesen: H 0 : ϑ Θ 0 und H 1 : ϑ Θ 1 Θ 0 und Θ 1 = Θ c 0 bilden eine Zerlegung des Parameterraumes Θ Inferenz über δ = 1 Θ1 (ϑ) Aktionen A = {0,1} Verlustfunktion: Null-Eins-Verlust l(δ,a) = { 0 a = δ 1 a δ Helga Wagner Bayes Statistik WS 2010/11 315

Testen von Hypothesen: Entscheidungstheoretischer Ansatz Posteriori erwarteter Verlust E(l(a,δ)) = a p(ϑ y)dϑ+(1 a) p(ϑ y)dϑ = Θ 0 Θ 1 = ap(ϑ Θ 0 y)+(1 a)p(ϑ Θ 1 y) Minimieren des posteriori erwarteten Verlustes: a = { 1 wenn P(ϑ Θ 1 y) > 0.5 0 sonst Es wird also die Hypothese mit der größeren Wahrscheinlichkeit gewählt. Helga Wagner Bayes Statistik WS 2010/11 316

Testen von Hypothesen: Entscheidungstheoretischer Ansatz Bei unterschiedlichem Verlust der möglichen Fehler, d.h. der Verlustfunktion 0 a = δ l(a,δ) = c 0 a = 1,δ = 0 c 1 a = 0,δ = 1 ist der posteriori erwartete Verlust E(l(a,δ)) = c 0 ap(ϑ Θ 0 y)+(1 a)c 1 P(ϑ Θ 1 y) Er wird minimiert durch a = { 1 wenn P(ϑ Θ1 y) > c 0 c 0 +c 1 = 1 1+c 1 /c 0 0 sonst Helga Wagner Bayes Statistik WS 2010/11 317

Testen von exakten Hypothesen Testen von exakten Hypothesen, z.b.: H 0 : ϑ = ϑ 0 und H 1 : ϑ ϑ 0 ist mit stetigen Priori-Verteilungen nicht möglich = Priori-Verteilung als Mischung eines Dirac Maßes δ ϑ0 (ϑ) auf ϑ 0,und einer stetigen Komponente ξ(ϑ) p(ϑ) = πδ ϑ0 (ϑ)+(1 π)ξ(ϑ) Die Posteriori-Wahrscheinlichkeit für ϑ = ϑ 0 ist P(ϑ = ϑ 0 y) = wobei m 1 (y) = p(y ϑ)ξ(ϑ)dϑ ist. p(y ϑ 0 )π ( p(y ϑ 0 )π +(1 π)m 1 (y) = 1+ 1 π m 1 (y) ) 1 π p(y ϑ 0 ) Helga Wagner Bayes Statistik WS 2010/11 318

Testen von exakten Hypothesen Beispiel: Test von H 0 : µ = 0 für N ( µ,σ 2) Priori-Verteilung: p(µ) = πδ 0 +(1 π)ξ(µ), ξ(µ) = f(µ N ( 0,τ 2) ) Es gilt: m 1 (y) = p(y µ)p(µ) p(µ y) = (2πσ 2 ) n/2 ( M n /τ 2 exp 1 ) 2 ( yi/σ 2 2 m 2 n/m n ) mit M n = (n/σ 2 +1/τ 2 ) 1 und m n = M n nȳ/σ 2 Helga Wagner Bayes Statistik WS 2010/11 319

Testen von exakten Hypothesen und daher m 1 (y) p(y µ = 0) = ( 1 M n /τ 2 exp 2 (m2 n/m n )) = σ 2 ( σ 2 +nτ 2 exp ȳ 2 n 2 τ 2 ) 2σ 2 (σ 2 +nτ 2 ) Für n = 1 gilt P(µ = 0 y) = ( 1+ 1 π σ 2 ( π σ 2 +τ 2 exp y 2 τ 2 2σ 2 (σ 2 +τ 2 ) )) 1 Helga Wagner Bayes Statistik WS 2010/11 320

Testen von exakten Hypothesen Tabelle 16: Einfluß der Priori-Varianz τ 2 : P(µ = 0 y,τ 2 ) für verschiedene Werte von y und τ 2 (π = 0.5, σ 2 = 1) τ 2 0 z 0.75 =0.67 z 0.9 =1.28 z 0.975 = 1.96 z 0.995 =2.58 1 0.586 0.558 0.484 0.351 0.212 10 0.768 0.730 0.612 0.367 0.140 100 0.901 0.889 0.817 0.600 0.274 10 5 0.997 0.996 0.993 0.979 0.920 y Lindley-Paradoxon: lim P(µ = 0 y,τ 2 ) 1 τ 2 Helga Wagner Bayes Statistik WS 2010/11 321

Bayes Inferenz Asymptotik Helga Wagner Bayes Statistik WS 2010/11 322

Diskrete Asymptotik Sei ϑ Θ = {ϑ 1,ϑ 2,...,} mit Priori-Verteilung p(ϑ i ) = P(ϑ = ϑ i ) =: p i ϑ t der wahre Parameter. Die Kullbeck-Leibler-Diskrepanz zwischen p(y ϑ t ) und p(y ϑ i ) ist für alle i t. p(y ϑ t )log p(y ϑ t) p(y ϑ i ) dy = E(logp(y ϑ t) p(y ϑ i ) ) > 0 Wenn y = (y 1,...,y n ) eine Stichprobe aus p(y ϑ t ) ist, gilt lim p(ϑ t y) = 1 n lim p(ϑ i y) = 0 für alle i t n Helga Wagner Bayes Statistik WS 2010/11 323

Diskrete Asymptotik Beweis: für festes n ist p(ϑ i y) = p(y ϑ i)p i p(y) = n p i j=1 i p n i j=1 = exp(log(p i) + S i ) i exp(log(p i) + S i ) p(y j ϑ i ) p(y j ϑ t ) p(y j ϑ i ) p(y j ϑ t ) = mit S i = k j=1 log p(y j ϑ i ) p(y j ϑ t ). Aus dem Gesetz der grossen Zahlen folgt lim n 1 n S i = p(y ϑ t )log p(y ϑ { t) = 0 für i = t p(y ϑ i ) dy < 0 für i t Helga Wagner Bayes Statistik WS 2010/11 324

Diskrete Asymptotik und daher Damit gilt aber lim n S i lim p(ϑ t y) = n { = 0 für j = t für i t. { 1 für i = t 0 für i t Ist ϑ t / Θ dann konvergiert die Posteriori-Verteilung zu jenem ϑ i Θ, das die kleinste Kullback-Leibler-Distanz zum wahren Modell hat. Helga Wagner Bayes Statistik WS 2010/11 325

Stetige Asymptotik 60 40 20 θ true =0.02 θ true =0.25 20 N=25 N=25 10 0 60 40 20 0 60 40 20 0.02 0.04 0.06 0.08 0.1 0 0.2 0.4 0.6 20 N=100 N=100 10 0.02 0.04 0.06 0.08 0.1 0 0.2 0.4 0.6 20 N=400 N=400 10 0 0.02 0.04 0.06 0.08 0.1 0 0.2 0.4 0.6 Abbildung 35: Posteriori-Dichte eines Anteils ϑ bei verschiedenen Stichprobenumfängen unter der flachen Priori-Verteilung (volle Linie) und der B(2, 4)-Priori (strichliert) für zwei verschiedene Werte von ϑ Helga Wagner Bayes Statistik WS 2010/11 326

Stetige Asymptotik 3000 2500 θ true =0.02 θ true =0.25 1000 N=1000000 N=1000000 900 800 2000 1500 700 600 500 400 1000 300 500 0 0.01 0.015 0.02 0.025 0.03 200 100 0 0.2 0.25 0.3 Abbildung 36: Posteriori-Dichte eines Anteils ϑ für eine Stichprobe der Größe n = 10 6 unter der flachen Priori-Verteilung für zwei verschiedene Werte von ϑ Helga Wagner Bayes Statistik WS 2010/11 327

Stetige Asymptotik Für eine i.i.d. Stichprobe y = (y 1,...,y n ) mit Stichprobenverteilung p(y ϑ) ist die logarithmierte Posteriori-Verteilung logp(ϑ y) = logp(ϑ)+logp(y ϑ) Taylor-Reihenentwicklung um Priori-Modus m 0 bzw. ML-Schätzer ˆϑ: logp(ϑ) logp(m 0 ) 1 2 (ϑ m 0) H 0 (ϑ m 0 ) logp(y ϑ) logp(y ˆϑ) 1 2 (ϑ ˆϑ) H(ˆϑ)(ϑ ˆϑ) wobei H 0 und H(ˆϑ) die jeweilige Hesse-Matrix am Modus bzw. an der Stelle des ML-Schätzers ist: H(ϑ) = 1 ( 2 logp(y ˆϑ) ) 2 ϑ i ϑ j Helga Wagner Bayes Statistik WS 2010/11 328

Stetige Asymptotik Bem: H(ˆϑ) ist die beobachtete Fisher-Information Unter Regularitätsbedingungen ist dann asymptotisch p(ϑ y) exp ( 1 2 (ϑ m n) H n (ϑ m n ) ) wobei H n = H 0 +H(ˆϑ) m n = H 1 n (H 0 m 0 +H(ˆϑ)ˆϑ) Für großes n ist also die Posteriori-Verteilung annähernd eine Normalverteilung: ϑ y N ( ) m n,h 1 n Helga Wagner Bayes Statistik WS 2010/11 329

Stetige Asymptotik Für großes n ist die (feste) Priori-Präzision klein im Vergleich zur beobachteten Fisher-Information, daher gilt ϑ y N (ˆϑ,H(ˆϑ) 1 ) Der ML-Schätzer kann also als asymptotischer Bayes-Schätzer interpretiert werden! Helga Wagner Bayes Statistik WS 2010/11 330

Stetige Asymptotik Weitere Approximationen: Die beobachtete Fisher-Information kann durch die erwartete Fisher- Information ersetzt werden: ϑ y N (ˆϑ,nI(ˆϑ) 1 ) Ersetzen des ML-Schätzers durch den Posteriori Modus ϑ : p(ϑ y) N ( ϑ,(n H(ϑ )) 1). Helga Wagner Bayes Statistik WS 2010/11 331

Stetige Asymptotik Bemerkungen: Regularitätsbedingungen: Parameter ϑ true liegt nicht am Rande des Parameterraums - garantiert, dass Informationsmatrix positiv definit ist für kleine Stichproben ist die Priori-Verteilung nicht vernachlässigbar asymptotische Normalverteilung oft erst für sehr große Stichproben Umparameterisierung kann bessere Approximation ergeben Helga Wagner Bayes Statistik WS 2010/11 332

Posteriori Dichte eines Anteils Für einen Anteil ϑ ist die Likelihood und damit p(y ϑ) = ϑ y (1 ϑ) 1 y logp(y ϑ) = ylogϑ+(1 y)log(1 ϑ), d 2 logp(y ϑ) dϑ 2 Die erwartete Fisher-Information ist = y ϑ 2 1 y (1 ϑ) 2. I(ϑ) = E y ( d2 logp(y ϑ) ) = E dϑ 2 y ( Y ϑ + 1 Y 2 (1 ϑ) 2) = 1 ϑ(1 ϑ). Helga Wagner Bayes Statistik WS 2010/11 333

Posteriori Dichte eines Anteils θ true =0.02 θ true =0.25 2 1 N=25 1 N=25 0 0 1 1 0.1 0.2 0.3 0.1 0.2 0.3 0.4 3 N=100 2 N=100 2 1 1 0 0.02 0.04 0.06 0.08 0.1 0 1 0.25 0.3 0.35 0.4 0.45 5 4 3 2 1 N=400 0.01 0.02 0.03 3 N=400 2 1 0 0.22 0.24 0.26 0.28 0.3 0.32 Abbildung 37: Logarithmus der Posteriori-Dichte eines Anteils ϑ (für zwei verschiedene Werte) für verschiedene Stichprobengrößen n bei flacher Prioriverteilung (volle Linie) im Vergleich zur quadrat. Approximation um den Posteriori-Modus (strichliert) Helga Wagner Bayes Statistik WS 2010/11 334

Empirische Bayes-Verfahren Empirische Bayes-Verfahren sind eine Kombination von Bayes und Likelihood- Verfahren, die insbesondere für Random Effects Modelle verwendet werden. Beispiel Eye Tracking: Modell P(Y = y µ) = n P(Y i = y i µ i ), Y i P(µ i ). i=1 mit Priori-Verteilung µ i G(a 0,b 0 ) Empirischer Bayes Ansatz: die Parameter der Heterogenitätsverteilung (Priori- Verteilung) werden nicht fixiert, sondern aus den Daten geschätzt. im Gegensatz dazu: vollständige Bayes-Analyse: Hyper-Priori-Verteilung auf Parameter der Priori-Verteilung Helga Wagner Bayes Statistik WS 2010/11 335

Beispiel: Eye Tracking Posteriori-Verteilung: y i NegBin(a 0,b 0 ) Schätzer für die Parameter der Priori-Verteilung â 0 und ˆb 0 werden durch numerische Maximierung der Posteriori-Verteilung bestimmt â 0 = 0.3168 und ˆb 0 = 0.0899 Berechnung von E(µ i x i ) = â0+y i ˆb0 +1 Helga Wagner Bayes Statistik WS 2010/11 336

Beispiel: Eye Tracking subjektspezifischer Parameter 0 5 10 15 20 25 30 35 * * * ** ** * ** **** ** **** *** ***** **** *********************** ********************************************** 0 20 40 60 80 100 Nr. der Person Abbildung 38: Eye Tracking, ML-Schätzer (Kreis, schwarz) und empirisische Bayes-Schätzer (Stern, blau) für die subjektspezifischen Parameter. Die blaue Linie gibt den ML-Schätzer des Priori-Erwartungswertes â 0 /ˆb 0 an. Helga Wagner Bayes Statistik WS 2010/11 337