3.2 Maximum-Likelihood-Schätzung

Ähnliche Dokumente
Methoden der statistischen Inferenz

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Fortgeschrittene Ökonometrie: Maximum Likelihood

Varianzkomponentenschätzung

Vorlesung: Lineare Modelle

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Willkommen zur Vorlesung Statistik (Master)

Einführung in die Maximum Likelihood Methodik

1 Gemischte Lineare Modelle

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

OLS-Schätzung: asymptotische Eigenschaften

Wahrscheinlichkeitsrechnung und Statistik

Vorlesung: Statistik II für Wirtschaftswissenschaft

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

SBWL Tourismusanalyse und Freizeitmarketing

2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme)

Vorlesung: Statistik II für Wirtschaftswissenschaft

Clusteranalyse: Gauß sche Mischmodelle

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse

Maximum-Likelihood Schätzung

Schätzen und Testen I in 90 Minuten. 8. Februar 2010

Nicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

Modellanpassung. Einführung in die induktive Statistik. Statistik. Statistik. Friedrich Leisch

Statistik I für Betriebswirte Vorlesung 13

Statistische Datenanalyse

Das Bayes'sche Prinzip

Optimieren unter Nebenbedingungen

Simultane Mehrgleichungssysteme: Parameterschätzung

Nachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester Oktober 2011

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!!

Die Maximum-Likelihood-Methode

Formelsammlung zur Vorlesung: Einführung in die Bayes-Statistik

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Poisson Regression. Verallgemeinerte Lineare Modelle (GLMs)

Mehrdimensionale Zufallsvariablen

Definition 18 (Die verallgemeinerte Pareto Verteilung (GPD)) Die standard GPD G γ : ) 1/γ. G γ,ν,β = 1 (1 + γ x ν β

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

Wahrscheinlichkeitsrechnung

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur

Statistik I für Betriebswirte Vorlesung 14

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Wahrscheinlichkeitsrechnung und schließende Statistik

Schätzen und Testen I

Frequentisten und Bayesianer. Volker Tresp

Inhalt. 1 Motivation. 2 Das lineare gemischte Modell. 3 Likelihood-Schätzung für lineare gemischte Modelle

Vorlesung Wissensentdeckung

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Einführung in die Induktive Statistik: Regressionsanalyse

Lösung Übungsblatt 5

Inferenz im multiplen Regressionsmodell

Poisson Regression & Verallgemeinerte lineare Modelle

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Wahrscheinlichkeitsrechnung und schließende Statistik

Numerische Methoden und Algorithmen in der Physik

Uwe Hassler. Statistik im. Bachelor-Studium. Eine Einführung. für Wirtschaftswissenschaftler. ^ Springer Gabler

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

Probeklausur - Statistik II, SoSe 2017

Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte

Statistik II. Regressionsanalyse. Statistik II

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Statistische Inferenz bei ROC Kurven. Notation. Man unterscheidet:

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Transkript:

291 Die Maximum-Likelihood-Schätzung ist die populärste Methode zur Konstruktion von Punktschätzern bei rein parametrischen Problemstellungen.

292 3.2.1 Schätzkonzept Maximum-Likelihood-Prinzip: Finde Maximum-Likelihood- Schätzwert b,sodass Dazu äquivalent ist L( b ; x) L( ; x) füralle 2. `( b ; x) `( ; x), `( ) = log L( ) mit der Log-Likelihood `. Meist sucht man nach (lokalen) Maxima von `( ) durch Nullsetzen der Score-Funktion s( ) = @`( ) @`( ) =,..., @`( ) > @ @ 1 @ p (soweit die 1. Ableitung der Log-Likelihood existiert!) als Lösung der sogenannten ML-Gleichung s( b )=0.

293 3.2.1 Schätzkonzept Dies funktioniert (meist) unter Annahme von Fisher-Regularität. Nur in einfachen Fällen ist die Lösung analytisch zugänglich. Die numerische Lösung geschieht über Verfahren wie Newton-Raphson, Fisher-Scoring, Quasi-Newton oder über den EM-Algorithmus. Erstere drei Verfahren arbeiten mit der Hesse-Matrix der Log-Likelihood bzw. Approximationen an diese: J( ; x) = @2`( ) @2`( ) @ @ > = @ i @ heißt beobachtete Informationsmatrix. Bildet man den Erwartungswert bezüglich aller möglichen Stichproben X aus X,so erhält man die erwartete Informationsmatrix I ( ) =E [J( ; X )]. Unter Fisher-Regularität gilt (vgl. Abschnitt 86): E [s( )] = 0 und Cov (s( )) = E [s( )s( ) > ]=I ( ).

294 3.2.1 Schätzkonzept Beispiel 3.3 (Lineares Modell) Betrachte y = Z + " mit " N(0, 2 I). I Likelihood: L(, 1 2 ) / ( 2 ) n/2 exp ky Z k2 2 2 I Log-Likelihood: `(, 2 )= n 2 log( 2 ) 1 ky Z k2 2 2 {z } KQ-Kriterium

295 3.2.1 Schätzkonzept I Score-Funktion: s (, s 2(, 2 ) = @`(, 2 ) = 1 @ 2 Z> (y Z ) 2 n ) = 2 2 + 1 2( 2 ky Z k2 ) 2 Man verifiziert leicht, dass E[s ] = E[s 2] = 0 ist. Aus den ML-Gleichungen, die sich durch Nullsetzen der Score-Funktionen ergeben, folgt: b ML = (Z > Z) 1 Z > y, 2 ML = 1 n ky Z k2.

296 3.2.1 Schätzkonzept I Score-Funktion (fortgeführt): Der ML-Schätzer für entspricht also dem KQ-Schätzer. Der ML-Schätzer für 2 ist verzerrt, aber asymptotisch erwartungstreu. Der Restricted Maximum Likelihood (REML) Schätzer 2 REML = 1 ky Z k2 n p ist erwartungstreu für 2.Dabeiistp die Dimension von.

297 3.2.1 Schätzkonzept I Informationsmatrizen: @ 2` @ @ > = @s @ > = 1 2 Z> Z = Cov( b 1 ) (von y unabhängig) @ 2` @ @ 2 = 1 apple @ 2` 4 Z> (y Z ) ) E @ @ 2 =0 @ 2` apple @ 2 @ 2 = n ky Z k2 @ 2` 2( 2 + ) 2 ( 2 ) 3 ) E @ 2 @ 2 = n 2 4 Der letzte Erwartungswert folgt aus ky Z k 2 = nx " 2 i 2 2 (n). i=1

298 3.2.1 Schätzkonzept Beispiel 3.4 (GLM) Seien y i unabh. f (y i µ i )füri =1,...,n mit µ i = h(x > i ), etwa y i Po( i )und i =exp(x > i ) (loglineares Poisson-Modell, vgl. generalisierte Regression).

299 3.2.1 Schätzkonzept Beispiel 3.5 (GLMM für Longitudinaldaten) Sei y i =(y i1,...,y it,...,y it ) mit bedingt unabhängigen Komponenten y it f (y it µ it )undµ it = h(z > it + w > it i). Die i sind z.b. individuenspezifische Intercepts (w it 1) mit i.i.d. Prioriverteilung i N(0, 2 ). Die Likelihood des Parameters =(, 2 )lautet Z L(, 2 )= ny i=1 t=1 TY f (y it, 2, i)p( i ) d i. Lösungsansätze für die Maximierung der Likelihood: EM-Algorithmus oder numerische Integration mit REML bzw. Bayes-Inferenz. Siehe die Vorlesungen Gemischte Modelle und Analyse Longitudinaler Daten.

300 EM (Expectation-Maximization)-Algorithmus Der EM-Algorithmus ist eine Alternative zu Newton-Raphson, Fisher-Scoring usw., vor allem in Modellen mit unvollständigen Daten oder latenten (nicht direkt beobachtbaren) Variablen oder Faktoren (vgl. Computerintensive Methoden).

301 Beispiele: I Bei einer Screening-Untersuchung werden positive Testergebnisse eines Schnelltests durch den Goldstandard geprüft, negative Testergebnisse edoch nicht. Daher ist die Verteilung der Anzahl positiver Testergebnisse aus k Tests bei den wirklich Kranken bekannt, nicht edoch die Häufigkeit von 0 positiven Testergebnissen aus k. Für die Ermittlung der Falsch-Negativrate wäre dieser nicht beobachtete Wert edoch relevant. I Die Daten stammen aus einer Mischverteilung, aus welcher Mischungskomponente ede Beobachtung stammt, ist edoch unbekannt. I Gemischte Modelle

302 Notation: I x beobachtbare ( unvollständige ) Daten I z unbeobachtbare Daten/latente Variablen I (x, z) vollständige Daten I L( ; x) = f (x ) Likelihood der beobachtbaren Daten I L( ; x, z) = f (x, z ) Likelihood der vollständigen Daten Der EM-Algorithmus ist insbesondere nützlich, wenn L( ; x) schwierig zu berechnen und L( ; x, z) leichterzuhandhabenist.

303 Intuition: `( ; x, z) = `( ; z x)+`( ; x) ) E[`( ; x, Z)] {z } Q( ; (k) ) = E[`( ; Z x)] +`( ; x), {z } C( ; (k) ) wobei der Erwartungswert E bzgl. f (Z x; (k) ) genommen wird. Es gilt C( (k) ; (k) ) C( (k+1) ; (k) ) wegen der Informationsungleichung. Daher folgt aus Q( (k+1) ; (k) ) Q( (k) ; (k) ) `( (k+1) ; x) `( (k) ; x). Vorgehen: Für gegebenes (k) maximiere Q( ; (k) )über. Neues (k+1) erhöht die Likelihood. Iteriere.

304 Algorithmus 1 : EM-Algorithmus Startwert: (0) I E-Schritt: Berechne Q( ) =Q( ; (0) )=E z x [`( ; x, Z) x, (0) ]. I M-Schritt: Berechne (1),sodassQ( ) maximiertwird: (1) = argmax Q( ). Iteriere E/M-Schritte: (0), (1),..., (k) bis zur Konvergenz.

305 Satz 3.3 Unter relativ allgemeinen Annahmen gilt (k)! b ML für k! 1. Eigenschaften des EM-Algorithmus: I Monotonie: `( (k+1) ; x) I Langsame Konvergenz. `( (k) ; x). I Der Standardfehler des resultierenden Schätzers ist schwierig zu bestimmen, die Informationsmatrix ist nicht direkt zugänglich wie beim Fisher-Scoring. Eine Alternative bietet u.a. die Bayes-Inferenz.

306 Beispiel 3.6 (Mischverteilungen) Seien X 1,...,X n i.i.d. wie X f (x ). Betrachte die Mischverteilung f (x ) = Dabei sind JX f (x ) mit =({ } J =1, { } J =1). (3.2) =1 I unbekannte Mischungsanteile, P J =1 = 1, I f (x )die-te Mischungskomponente, I der unbekannte Parameter(-vektor).

307 Speziell: Bei einer Mischung von Normalverteilungen erhalten wir 1 f (x ) / 1/2 exp 2 (x µ ) > 1 (x µ ) X 1 N(µ 1, 1 )+ 2 N(µ 2, 2 )+...+ J N(µ J, J ). Im univariaten Fall mit zwei Mischungskomponenten also: X 1 N(µ 1, 2 1)+ 2 N(µ 2, 2 2). Interpretation des Mischungsmodells (3.2): x i entstammt einer von J Subpopulationen, wobei in Subpopulation gilt: X i f (x i ).

308 Definiere die unbeobachtete (latente) Indikatorvariable Z i für =1,...,J durch Z i =, x i ist aus Population. Die Randverteilung sei P(Z i = ) =, =1,...,J. Dannlautet die bedingte Verteilung von x i Z i : x i Z i = f (x i ).

309 Die Log-Likelihood der beobachteten Daten x ist 0 1 nx JX `( ; x) = log @ f (x i ) A, i=1 die der vollständigen Daten (x, z) =1 `( ; x, z) = = = nx log f (x i, z i ) i=1 nx log (f (x i z i ; ) f (z i )) i=1 nx (log f zi (x i zi ) + log zi ). i=1

310 E-Schritt: Q( ) =E z x [`( ; x, Z) x, (k) ] nx JX = p (k) 1 i {log 2 log i=1 1 2 (x i µ ) T 1 (x i µ )} wobei wir nur p (k) i = P(Z i = x i, (k) ) Bayes = (k) f (x i (k) ) P J s=1 (k) s f (x i s (k) ). für i =1,...,n, =1,...,J tatsächlich in der Praxis berechnen müssen.

Q( ) = nx i=1 JX M-Schritt: Berechne (k+1) µ (k+1) (k+1) p (k) i {log 1 2 log = argmax Q( ) 1. = 1 n = argmax Q( ) = 2. µ = argmax Q( ) = 3. nx i=1 nx i=1 nx i=1 p (k) i w (k) i x i 1 2 (x i µ ) T 1 (x i µ )} w (k) i (x i µ (k+1) )(x i µ (k+1) ) T mit w (k) i = p(k) i P J s=1 p(k) is. 1. folgt für J = 2 als Maximierer der binomialen Likelihood (für J > 2 braucht man Lagrange). 2.+3. folgt als Maximierer der gewichteten Normalverteilungslikelihood. 311