5. Statistische Schätztheorie Problem: Sei X eine Zufallsvariable (oder X ein Zufallsvektor), die einen interessierenden Zufallsvorgang repräsentiere Man möchte die tatsächliche Verteilung von X (oder X) kennenlernen Man beachte: In praxi ist die Verteilung von X zunächst unbekannt 191
Deshalb: Sammle Informationen über die unbekannte Verteilung des Zufallsvorgangs, indem man diesen (und damit die Zufallsvariable X) mehrfach beobachtet Zufallsstichprobe Statistiken Schätzer 192
5.1 Stichproben, Schätzer, Grenzwertsätze Situation: Sei X die Zufallsvariable, die den interessierenden Zufallsvorgang repräsentiere (zunächst Betrachtung univariater Variablen) Man beabsichtigt, den Zufallsvorgang (d.h. X) insgesamt n mal zu beobachten Vor den Realisierungen kann man die n potenziellen Beobachtungen als ZV en X 1,..., X n auffassen 193
Definition 5.1: (Stichprobe) Die ZV en X 1,..., X n heißen einfache Stichprobe aus X, wenn (a) jedes X i, i = 1,..., n, wie X verteilt ist, (b) X 1,..., X n stochastisch unabhängig sind. Die Anzahl n heißt Stichprobenumfang. 194
Bemerkungen: Der interessierende Zufallsvorgang kann prinzipiell beliebig oft wiederholt werden Die Realisierungen x 1,..., x n der Stichprobe X 1,..., X n heißen konkrete Stichprobe Betrachtet man die Stichprobe X 1,..., X n als Zufallsvektor, so ist die gemeinsame Dichtefunktion wegen der Unabhängigkeit gegeben durch f X1,...,X n (x 1,..., x n ) = (vgl. Definition 3.8, Folie 125) n i=1 f Xi (x i ) 195
Modell der einfachen Zufallsstichprobe Zufallsvorgang X Mögliche Realisationen X 1 (ZV) x 1 (Realisation 1. Exp.) X 2 (ZV)... x 2 (Realisation 2. Exp.)... X n (ZV) x n (Realisation n. Exp.) 196
Jetzt: Betrachte Funktionen der Stichprobenvariablen X 1,..., X n Statistiken Schätzer Definition 5.2: (Statistik, Stichprobenfunktion) Es seien X 1,..., X n eine einfache Stichprobe aus X sowie g : R n R eine reellwertige Funktion mit n Argumenten, die keine unbekannten Parameter enthält. Dann nennt man die ZV T = g(x 1,..., X n ) eine Statistik oder Stichprobenfunktion. 197
Beispiele: Stichprobenmittel: Stichprobenvarianz: X = g 1 (X 1,..., X n ) = 1 n n X i i=1 S 2 = g 2 (X 1,..., X n ) = 1 n Stichprobenstandardabweichung: S = g 3 (X 1,..., X n ) = 1 n n i=1 n i=1 ( Xi X ) 2 ( Xi X ) 2 198
Bemerkungen: Alle bisherigen Begriffe können inhaltsgleich auf den multivariaten Fall übertragen werden Die Statistik T = g(x 1,..., X n ) ist eine Funktion von ZV en und damit selbst eine ZV eine Statistik hat eine Verteilung (d.h. auch einen Erwartungswert und eine Varianz) Zweck von Statistiken: Liefern Informationen über die Verteilung von X Sind Grundbausteine beim Schätzen von Parametern Testen von Hypothesen über Parameter 199
Stichproben und Statistiken Stichprobe ( X 1,..., X n ) Messung Stichprobenrealisation ( x 1,..., x n ) g( X 1,..., X n ) Statistik g( x 1,..., x n ) Realisation der Statistik 200
Jetzt folgende Situation: Es sei X (oder X) eine ZV e mit unbekannter VF F X (x) Wir interessieren uns für einen oder mehrere Parameter von X Es sei θ dieser unbekannte Parametervektor, z.b. [ ] E(X) θ = Var(X) Oft ist die Verteilungsfamilie von X bekannt, z.b. X N(µ, σ 2 ), nicht aber die Parameter, d.h. [ ] µ θ = σ 2 Der unbekannte Parametervektor wird mit Hilfe von Statistiken einer Stichprobe X 1,..., X n geschätzt 201
Definition 5.3: (Schätzer, Schätzwert) Die Statistik θ(x 1,..., X n ) heißt Schätzer (auch Schätzfunktion) für den unbekannten Parametervektor θ. Für die konkrete Stichprobe x 1,..., x n bezeichnet man die damit verbundene Realisierung des Schätzers θ(x 1,..., x n ) als Schätzwert. Bemerkungen: Der Schätzer θ(x 1,..., X n ) ist ein Zufallsvektor Schätzer hat eine Verteilung, einen Erwartungswert und eine Varianz Der Schätzwert θ(x 1,..., x n ) ist dagegen eine Zahl oder ein Zahlenvektor 202
Beispiel: X sei N(µ, σ 2 )-verteilt mit unbek. Parametern µ und σ 2 Der zu schätzende Parametervektor ist dann [ ] [ ] µ E(X) θ = σ 2 = Var(X) Mögliche Schätzer für µ und σ 2 sind ˆµ = 1 n n i=1 X i und ˆσ 2 = 1 n 1 n i=1 (X i ˆµ) 2 ein Schätzer für θ ist [ ] ˆµ θ = ˆσ 2 = 1 ni=1 n X i 1 ni=1 n 1 (X i ˆµ) 2 203
Frage: Wozu braucht man das scheinbar komplizierte theoretische Konzept des Schätzers als Zufallsvariable? Antwort: Zum Vergleich alternativer Schätzer für ein und denselben Parametervektor θ im Hinblick auf bestimmte Güteeigenschaften Beispiel: Es sei θ = Var(X) die Varianz von X 204
Zwei alternative Schätzer für θ sind n ( Xi X ) 2 ˆθ 1 (X 1,..., X n ) = 1 n i=1 ˆθ 2 (X 1,..., X n ) = 1 n 1 n i=1 ( Xi X ) 2 Frage: Welcher Schätzer ist besser und warum? Eigenschaften (Qualitätskriterien) von Punktschätzern (vgl. Abschnitt 5.2) 205
Wichtig: Einige dieser Kriterien beurteilen das Verhalten eines Schätzers für große Stichprobenumfänge (n, Große-Stichproben-Eigenschaften) Deshalb: Erläuterung einiger stochastischer Konvergenzbegriffe: Zentraler Grenzwertsatz Schwaches Gesetz der großen Zahl Konvergenz nach Wahrscheinlichkeit Konvergenz nach Verteilung 206
Satz 5.4: (Univariater zentraler Grenzwertsatz) Es sei X eine beliebig verteilte Zufallsvariable mit E(X) = µ und Var(X) = σ 2. Weiterhin sei X 1,..., X n eine einfache Stichprobe aus X und X n = 1 n n X i i=1 das arithmetische Stichprobenmittel. Dann gilt für n : X n N ( µ, σ2 n ) bzw. n X n µ σ N(0, 1). Jetzt: Verallgemeinerung auf multivariaten Fall 207
Satz 5.5: (Multivariater zentraler Grenzwertsatz) Es sei X = (X 1,..., X m ) ein beliebig verteilter Zufallsvektor mit E(X) = µ und Cov(X) = Σ. Weiterhin sei X 1,..., X n eine (multivariate) einfache Stichprobe aus X und X n = 1 n n X i i=1 das multivariate arithmetische Stichprobenmittel. Dann gilt für n : X n N (µ, 1n ) Σ ( bzw. n Xn µ ) N(0, Σ). 208
Bemerkungen: Eine multivariate einfache Stichprobe aus dem Zufallsvektor X erhält man, indem man in Definition 5.1 (Folie 194) alle univariaten Zufallsvariablen durch entsprechende multivariate Zufallsvektoren ersetzt Man beachte die formale Analogie zum univariaten Fall in Satz 5.4 (Rechenoperationen für Matrizen beachten!) Jetzt: Bekannter Satz über das arithmetische Stichprobenmittel 209
Satz 5.6: (Schwaches Gesetz der großen Zahl) Es sei X 1, X 2,... eine Folge von unabhängigen und identisch verteilten Zufallsvariablen mit E(X i ) = µ <, Var(X i ) = σ 2 <. Weiterhin betrachte man die Zufallsvariable X n = 1 n n X i i=1 (arithmetisches Stichprobenmittel). Für jedes ɛ > 0 gilt dann: lim n P ( Xn µ ɛ ) = 0. 210
Bemerkungen: Satz 5.6 ist das schwache Gesetz der großen Zahl Für jedes noch so kleine ɛ > 0 konvergiert die Wskt., dass X n um ±ɛ vom Erwartungswert µ abweicht, bei zunehmendem Stichprobenumfang gegen Null Man beachte die Analogie zwischen einer Folge von unabhängig, identisch verteilten ZV en und der Definition 5.1 (Folie 194) einer einfachen Stichprobe aus X Jetzt: Erster wichtiger Konvergenzbegriff 211
Definition 5.7: (Konvergenz nach Wahrscheinlichkeit) Es sei Y 1, Y 2,... eine Folge Zufallsvariablen. Man sagt: Die Folge Y 1, Y 2,... konvergiert nach Wahrscheinlichkeit gegen θ, wenn für jedes ɛ > 0 gilt: lim n P ( Y n θ ɛ) = 0. Man notiert die Konvergenz nach Wahrscheinlichkeit mit plim Y n = θ oder Y n p θ. Bemerkungen: Spezialfall: Schwaches Gesetz der großen Zahlen plim X n = µ oder X n p µ 212
Bei der Konvergenz nach Wahrscheinlichkeit strebt die Folge der ZV en meistens gegen einen Wert (θ R) Für multivariate Folgen von Zufallsvektoren Y 1, Y 2,... ist die Definition 5.7 elementweise anzuwenden Die Konvergenz nach Wahrscheinlichkeit spielt bei der Beurteilung von Schätzern eine wichtige Rolle Jetzt: Alternativer stochastischer Konvergenzbegriff 213
Definition 5.8: (Konvergenz nach Verteilung) Es sei Y 1, Y 2,... eine Folge Zufallsvariablen und Z ebenfalls eine Zufallsvariable. Man sagt: Die Folge Y 1, Y 2,... konvergiert nach Verteilung gegen Z, wenn lim n F Y n (y) = F Z (y) für jedes y R. Man notiert die Konvergenz nach Verteilung mit Y n d Z. Bemerkungen: Spezialfall: Zentraler Grenzwertsatz Y n = n X n µ d U N(0, 1) σ Bei der Konvergenz nach Verteilung strebt die Folge der ZV en stets gegen eine Zufallsvariable 214
Satz 5.9: (plim -Rechenregeln) Es seien X 1, X 2,... und Y 1, Y 2,... Folgen von Zufallsvariablen für die gilt plim X n = a bzw. plim Y n = b. Dann gilt: (a) plim (X n ± Y n ) = a ± b. (b) plim (X n Y n ) = a b. (c) plim ( X n Y n ) = a b, falls b = 0. (d) (Slutsky-Theorem) Wenn g : R R eine in a stetige Funktion ist, dann gilt plim g (X n ) = g(a). 215
Bemerkung: Eine mit dem Slutsky-Theorem verwandte Eigenschaft gilt auch für die Konvergenz nach Verteilung Satz 5.10: ( d -Rechenregel) Es seien X 1, X 2,... eine Folge von Zufallsvariablen, Z ebenfalls eine Zufallsvariable und es gelte X n d Z. Weiterhin sei h : R R eine stetige Funktion. Dann gilt: h (X n ) d h(z). Jetzt: Verbindung der beiden Konvergenzkonzepte 216
Satz 5.11: (Cramér-Theorem) Es seien X 1, X 2,... sowie Y 1, Y 2,... Folgen von Zufallsvariablen, Z eine Zufallsvariable und a R. Außerdem gelte plim X n = a d und Y n Z. Dann gelten: (a) X n + Y n d a + Z. (b) X n Y n d a Z. Beispiel: Es sei X 1,..., X n eine einfache Stichprobe aus X mit E(X) = µ bzw. Var(X) = σ 2 217
Man kann zeigen, dass plim S 2 n = 1 n 1 n i=1 ( Xi X n ) 2 = σ 2 plim S 2 n = 1 n n i=1 ( Xi X n ) 2 = σ 2 Für g 1 (x) = x/σ 2 folgt aus dem Slutksky-Theorem: ( ) plim g 1 S 2 S 2 n = plim n σ 2 = g 1(σ 2 ) = 1 plim g 1 ( S 2 n ) = plim S 2 n σ 2 = g 1(σ 2 ) = 1 218
Für g 2 (x) = σ/ x folgt aus dem Slutksky-Theorem: plim g 2 ( S 2 n ) = plim σ S n = g 2 (σ 2 ) = 1 plim g 2 ( S 2 n ) = plim σ S n = g 2 (σ 2 ) = 1 Mit dem zentralen Grenzwertsatz folgt: n X n µ σ d U N(0, 1) 219
Mit dem Cramér-Theorem folgt: g 2 ( S 2 n ) n X n µ σ = σ S n n X n µ σ = n X n µ S n d 1 U Ebenso liefert das Cramér-Theorem: = U N(0, 1) n X n µ S n d U N(0, 1) 220
5.2 Eigenschaften von Schätzern Inhalt von Definition 5.3: Ein Schätzer ist eine Statistik (Stichprobenfunktion) Es gibt verschiedene Schätzer für den unbekannten Parametervektor θ Beispiel: Es seien X N(0, σ 2 ) mit unbekannter Varianz σ 2 und X 1,..., X n eine einfache Stichprobe aus X Mögliche Schätzer für θ = σ 2 sind: ˆθ 1 = 1 n n i=1 ( Xi X ) 2 bzw. ˆθ 2 = 1 n 1 n i=1 ( Xi X ) 2 221
Wichtige Fragen: Welche Qualitätskriterien dienen zur Auswahl eines guten Schätzers? Wie findet man gute Schätzer? 1. Qualitätseigenschaft: Konzept der wiederholten Stichprobe: Ziehe mehrere einfache Stichproben aus X Betrachte den Schätzer an jeder Stichprobe Eine Mittelung der Schätzwerte sollte nahe am unbekannten Parameter liegen (keine systematische Verzerrung) Erwartungstreue eines Schätzers 222
Definition 5.12: (Erwartungstreue, Verzerrung) Der Schätzer ˆθ(X 1,..., X n ) für den unbekannten Parameter θ heißt erwartungstreu, falls sein Erwartungswert mit dem zu schätzenden Parameter θ übereinstimmt, d.h. falls E [ˆθ(X 1,..., X n ) ] = θ. Unter der Verzerrung des Schätzers (engl. Bias) versteht man den Abstand Bias(ˆθ) = E(ˆθ) θ. Bemerkungen: Übertragung auf den multivariaten Fall möglich Bei erwartungstreuen Schätzern ist der Bias gleich Null 223
Jetzt: Wichtiges allgemeingültiges Resultat Satz 5.13: (E-treue Schätzer für E(X) und Var(X)) Es sei X 1,..., X n eine Stichprobe aus X und X sei beliebig verteilt mit unbekanntem Erwartungswert µ = E(X) sowie unbekannter Varianz σ 2 = Var(X). Dann sind die beiden Schätzer bzw. ˆµ(X 1,..., X n ) = X = 1 n ˆσ 2 (X 1,..., X n ) = S 2 = 1 n 1 n X i i=1 n i=1 ( Xi X ) 2 stets erwartungstreu für die Parameter µ = E(X) und σ 2 = Var(X). 224
Bemerkungen: Beweis: Übungsaufgabe Man beachte, dass keine explizite Verteilung für X unterstellt wird Erwartungstreue pflanzt sich bei Parametertransformationen nicht beliebig fort, z.b. ist S = S 2 nicht erwartungstreu für σ = SD(X) = Var(X) Frage: Wie kann man zwei erwartungstreue Schätzer für den unbekannten Parameter θ miteinander vergleichen? 225
Definition 5.14: (Relative Effizienz) Es seien ˆθ 1 und ˆθ 2 zwei erwartungstreue Schätzer für den unbekannten Parameter θ. Dann heißt ˆθ 1 relativ effizienter als ˆθ 2, falls gilt Var(ˆθ 1 ) Var(ˆθ 2 ) für alle möglichen Parameterwerte für θ und Var(ˆθ 1 ) < Var(ˆθ 2 ) für mindestens einen möglichen Parameterwert für θ. 226
Beispiel: Es sei θ = E(X) Betrachte die beiden Schätzer ˆθ 1 (X 1,..., X n ) = 1 n n X i i=1 ˆθ 2 (X 1,..., X n ) = X 1 2 + 1 2(n 1) Welcher Schätzer ist relativ effizienter? (Übungsaufgabe) n X i i=2 Frage: Wie vergleicht man 2 Schätzer, wenn (mindestens) einer verzerrt ist? 227
Definition 5.15: (Mittlerer quadratischer Fehler) Es sei ˆθ ein beliebiger Schätzer für den unbekannten Parameter θ. Unter dem mittleren quadratischen Fehler (mean-squared error) des Schätzers versteht man die Maßzahl [ MSE(ˆθ) = E (ˆθ θ ) 2 ] = Var (ˆθ ) + [ Bias(ˆθ) ] 2. Bemerkungen: Bei einem erwartungstreuen Schätzer ist der MSE gleich der Varianz des Schätzers Der MSE eines Schätzers ˆθ hängt i.d.r. vom Wert des unbekannten Parameters θ ab 228
Vergleich beliebiger Schätzer: Über ihre MSEs Definition 5.16: (MSE-Effizienz) Es seien ˆθ 1 und ˆθ 2 zwei beliebige Schätzer für den unbekannten Parameter θ. Dann heißt ˆθ 1 MSE-efffizienter als ˆθ 2, falls gilt MSE(ˆθ 1 ) MSE(ˆθ 2 ) für alle möglichen Parameterwerte für θ und MSE(ˆθ 1 ) < MSE(ˆθ 2 ) für mindestens einen möglichen Parameterwert für θ. 229
Vergleich erwartungstreuer vs. verzerrter Schätzer θ 2( X1, K, X n) θ 1( X1, K, X n) θ 230
Bemerkungen: Oft sind 2 Schätzer für θ nicht im Sinne der MSE-Effizienz vergleichbar, da sich die MSE-Kurven schneiden Es gibt kein allgemeines mathematisches Prinzip zur Bestimmung eines MSE-effizienten Schätzers Es gibt aber Methoden, unter allen erwartungstreuen Schätzern den mit der gleichmäßig geringsten Varianz zu bestimmen Beschränkung auf erwartungstreue Schätzer Diese Methoden nicht Gegenstand der VL (Theoreme von Rao-Blackwell, Lehmann-Scheffé) Hier nur ein wichtiges Resultat: 231
Satz 5.17: (Cramér-Rao Varianzuntergrenze) Es sei X 1,..., X n eine einfache Stichprobe aus X und θ ein zu schätzender Parameter. Man betrachte die gemeinsame Dichtefunktion der Stichprobe, f X1,...,X n (x 1,..., x n ), und definiere den Wert CR(θ) E ( fx1,...,x n (X 1,..., X n ) θ ) 2 1 Unter bestimmten Voraussetzungen gilt dann für jeden beliebigen erwartungstreuen Schätzer ˆθ(X 1,..., X n ): Var(ˆθ) CR(θ).. 232
Bemerkungen: Der Wert CR(θ) ist die geringste Varianz, die ein erwartungstreuer Schätzer haben kann Optimalitätskriterium für erwartungstreue Schätzer Gilt für den erwartungstreuen Schätzer ˆθ(X 1,..., X n ) Var(ˆθ) = CR(θ), so bezeichnet man ˆθ als UMVUE-Schätzer (Uniformly Minimum-Variance Unbiased Estimator) 233
2. Qualitätseigenschaft: Lasse den Stichprobenumfang wachsen (n ): Notation: ˆθ n (X 1,..., X n ) = ˆθ(X 1,..., X n ) Untersuchung der Eigenschaften der asymptotischen Verteilung von ˆθ n Konsistenz eines Schätzers Definition 5.18: ((Schwache) Konsistenz) Der Schätzer ˆθ n (X 1,..., X n ) heißt (schwach) konsistent für θ, falls er nach Wahrscheinlichkeit gegen θ konvergiert, d.h. falls plim ˆθ n (X 1,..., X n ) = θ. 234
Beispiel: Es sei X N(µ, σ 2 ) mit σ 2 bekannt (z.b. σ 2 = 1) Betrachte 2 Schätzer für µ: ˆµ n (X 1,..., X n ) = 1 n n X i i=1 ˆµ n (X 1,..., X n ) = 1 n n i=1 X i + 2 n ˆµ n ist (schwach) konsistent für µ (Satz 5.6, Folie 210: Schwaches Gesetz der großen Zahl) 235
ˆµ n ist (schwach) konsistent für µ (folgt aus Satz 5.9(a), Folie 215) Exakte Verteilung von ˆµ n : ˆµ n N(µ, σ 2 /n) (Lineare Transformation der NV) Exakte Verteilung von ˆµ n: ˆµ n N(µ + 2/n, σ2 /n) (Lineare Transformation der NV) 236
Dichtefunktionen des Schätzers ˆµ n für n = 2, 10, 20 (σ 2 = 1) 8 6 4 2 0-1 -0.5 µ=0 0.5 1 237
Dichtefunktionen des Schätzers ˆµ n für n = 2, 10, 20 (σ2 = 1) 8 6 4 2 0-0.5 µ=0 0.5 1 1.5 2 2.5 238
Bemerkungen: Hinreichende (aber nicht notwendige) Bedingung für Konsistenz: lim n E(ˆθ n ) = θ (asymptotische Erwartungstreue) lim n Var(ˆθ n ) = 0 Mögliche Eigenschaften eines Schätzers: konsistent und erwartungstreu inkonsistent und erwartungstreu konsistent und verzerrt inkonsistent und verzerrt 239
Jetzt: Anwendung des zentralen Grenzwertsatzes auf Schätzer asymptotische Normalität des Schätzers Definition 5.19: (Asymptotische Normalität) Ein Schätzer ˆθ n (X 1,..., X n ) für den unbekannten Parameter θ heißt asymptotisch normalverteilt, falls es eine Folge reeller Zahlen θ 1, θ 2,... und eine Funktion V (θ) gibt, so dass gilt: n (ˆθ n θ n ) d U N(0, V (θ)). 240
Bemerkungen: Andere Schreibweise: ˆθ n appr. N(θ n, V (θ)/n) Zur asymptotischen Normalität gibt es eine multivariate Verallgemeinerung 241
5.3 Schätzmethoden Bisher: Definitionen + Qualitätskriterien für Schätzer Jetzt: Konstruktion von Schätzern 3 traditionelle Verfahren: Methode der kleinsten Quadrate (KQ) Momenten-Methode (MM) Maximum-Likelihood-Methode (ML) 242
Bemerkungen: Es gibt weitere Verfahren (z.b. die verallgemeinerte Momenten-Methode, GMM) Hier: hauptsächlich ML-Methode 243
5.3.1 Kleinste-Quadrate-Methode Historie: Eingeführt von A.M. Legendre (1752-1833) C.F. Gauß (1777-1855) Idee: Approximiere verrauschte Beobachtungen x 1,..., x n Funktionen g i (θ 1,..., θ m ), i = 1,..., n, m < n durch S(x 1,..., x n ; θ) = KQ-Schätzer ist dann n i=1 [x i g i (θ)] 2 min θ θ(x 1,..., X n ) = argmin S(X 1,..., X n ; θ) durch 244
Bemerkung: KQ-Methode ist zentrale Schätztechnik beim linearen Regressionsmodell (vgl. VLen Ökonometrie I + II) 245
5.3.2 Momenten-Methode Historie: Eingeführt von K. Pearson (1857-1936) Definition 5.20: (Theoretische und empirische Momente) (a) Es sei X eine Zufallsvariable mit Erwartungswert E(X). Dann ist das gewöhnliche theoretische p-te Moment von X (in Zeichen: µ p) definiert als als µ p = E(Xp ). Das zentrale theoretische p-te Moment von X (in Zeichen: µ p ) ist definiert durch µ p = E {[X E(X)] p }. 246
(b) Es sei X 1,..., X n eine einfache Stichprobe aus X und es bezeichne X das arithmetische Stichprobenmittel. Dann ist das gewöhnliche empirische p-te Moment (in Zeichen: ˆµ p ) definiert durch ˆµ p = 1 n n i=1 X p i. Das zentrale empirische p-te Moment (in Zeichen: definiert durch ˆµ p ) ist n ( Xi X ) p. ˆµ p = 1 n i=1 247
Bemerkungen: Die theoretischen Momente µ p und µ p wurden bereits in der Definition 2.21 (Folie 76) eingeführt Die empirischen Momente ˆµ p bzw. ˆµ p sind Schätzer für die theoretischen Momente µ p bzw. µ p Das arithmetische Stichprobenmittel ist das 1. gewöhnliche empirische Moment von X 1,..., X n Die Stichprobenvarianz ist das 2. zentrale empirische Moment von X 1,..., X n 248
Ausgangssituation: Anhand der einfachen Stichprobe X 1,..., X n aus X sollen die r unbekannten Parameter θ 1,..., θ r geschätzt werden Grundidee der Momentenmethode: 1. Drücke r theoretische Momente als Funktionen der r unbekannten Parameter aus: µ 1 = g 1(θ 1,..., θ r ). µ r = g r (θ 1,..., θ r ) 249
2. Drücke die r unbekannten Parameter als Funktionen der r theoretischen Momente aus: θ 1 = h 1 (µ 1,..., µ r, µ 1,..., µ r ). θ r = h r (µ 1,..., µ r, µ 1,..., µ r) 3. Ersetze theoretische durch empirische Momente: ˆθ 1 (X 1,..., X n ) = h 1 (ˆµ 1,..., ˆµ r, ˆµ 1,..., ˆµ r). ˆθ r (X 1,..., X n ) = h r (ˆµ 1,..., ˆµ r, ˆµ 1,..., ˆµ r ) 250
Beispiel: (Exponentialverteilung) Die ZV e X heißt exponentialverteilt mit Parameter λ > 0, falls X die Dichtefunktion aufweist Es gilt: f X (x) = { λe λx, für x > 0 0, sonst E(X) = 1 λ Var(X) = 1 λ 2 251
Momentenschätzer über den Erwartungswert: 1. Wir wissen: E(X) = µ 1 = 1 λ 2. Also folgt: λ = 1 µ 1 3. Momentenschätzer für λ: ˆλ(X 1,..., X n ) = 1 1/n n i=1 X i 252
Momentenschätzer über die Varianz: 1. Wir wissen: Var(X) = µ 2 = 1 λ 2 2. Also folgt: λ = 1 µ 2 3. Momentenschätzer für λ: ˆλ(X 1,..., X n ) = 1 1/n n i=1 ( Xi X ) 2 Momentenschätzer für einen unbekannten Parameter sind nicht eindeutig bestimmt 253
Bemerkungen: Momentenschätzer sind konsistent, denn plim ˆθ 1 = plim h 1 (ˆµ 1,..., ˆµ r, ˆµ 1,..., ˆµ r ) = h 1 (plim ˆµ 1,..., plim ˆµ r, plim ˆµ 1,..., plim ˆµ r) = h 1 (µ 1,..., µ r, µ 1,..., µ r) = θ 1 I.a. sind Momentenschätzer nicht erwartungstreu Momentenschätzer sind (i.a.) asymptotisch normalverteilt Die asymptotischen Varianzen sind häufig schwer zu bestimmen 254
5.3.3 Maximum-Likelihood-Methode Historie: Eingeführt von Ronald Fisher (1890-1962) Grundidee: Schätze die unbekannten Parameter θ 1,..., θ r derart, dass die Wahrscheinlichkeit (likelihood) der konkreten Stichprobe x 1,..., x n als Funktion der unbekannten Parameter maximal wird 255
Beispiel: Eine Urne enthalte schwarze und weiße Kugeln Bekannt ist das Verhältnis der Kugelanzahlen von 3 : 1 Unbekannt ist, welche der Kugeln häufiger vorkommt Ziehe n Kugeln mit Zurücklegen X bezeichne die Anzahl schwarzer gezogener Kugeln Verteilung von X: P (X = x) = ( n) p x (1 p) n x, x {0, 1,..., n}, p {0.25, 0.75} x (Binomialverteilung) 256
p {0.25, 0.75} ist zu schätzender Parameter Ziehe eine Stichprobe vom Umfang n = 3 Mögliche Stichprobenausgänge: Anzahl schwarze Kugeln: x 0 1 2 3 P (X = x; p = 0.25) 27 27 9 1 64 64 64 P (X = x; p = 0.75) Intuitives Schätzen: Schätze p als den Wert, der die Wskt. der tatsächlichen Beobachtung x (ex-ante) maximiert: { 0.25, für x = 0, 1 ˆp = 0.75, für x = 2, 3 Maximum-Likelihood-Methode 1 64 9 64 27 64 64 27 64 257
Jetzt: Formalisierung der Maximum-Likelihood-Methode Begriffe: Likelihood-, Loglikelihoodfunktion Maximum-Likelihood-Schätzer Definition 5.21: (Likelihoodfunktion) Die Likelihoodfunktion von n ZV en X 1,..., X n ist definiert als die gemeinsame Dichte der n ZV en, f X1,...,X n (x 1,..., x n ; θ), jedoch aufgefasst als eine Funktion des Parametervektors θ. 258
Bemerkungen: Sind X 1,..., X n eine einfache Stichprobe aus der stetigen ZV en X mit Dichtefunktion f X (x, θ), so ist f X1,...,X n (x 1,..., x n ; θ) = n i=1 f Xi (x i ; θ) = n i=1 f X (x i ; θ) Die Likelihoodfunktion wird oft mit L(θ; x 1,..., x n ) oder L(θ) bezeichnet, also im vorhergehenden Fall L(θ; x 1,..., x n ) = L(θ) = n i=1 f X (x i ; θ) 259
Sind die X 1,..., X n eine Stichprobe aus einer diskreten ZV en X, so ist die Likelihoodfunktion L(θ; x 1,..., x n ) = P (X 1 = x 1,..., X n = x n ; θ) = n i=1 (Hier: Likelihood = Wahrscheinlichkeit der Stichprobe) P (X = x i ; θ) Beispiel: Es sei X 1,..., X n eine einfache Stichprobe aus X N(µ, σ 2 ). Dann ist θ = (µ, σ 2 ) und L(θ; x 1,..., x n ) = = n i=1 1 2πσ 2 e 1/2((x i µ)/σ) 2 ( ) 1 n/2 2πσ 2 exp 1 2σ 2 n i=1 (x i µ) 2 260
Definition 5.22: (Maximum-Likelihood Schätzer) Es sei L(θ, x 1,..., x n ) die Likelihoodfunktion der einfachen Stichprobe X 1,..., X n. Es bezeichne θ (wobei θ(x 1,..., x n ) von den Beobachtungen x 1,..., x n abhängt) denjenigen Parametervektor, der L(θ, x 1,..., x n ) maximiert. Dann heißt θ(x 1,..., X n ) der Maximum-Likelihood Schätzer von θ. Bemerkungen: Man erhält den ML-Schätzer über die Maximierung der Likelihood-Funktion L( θ; x 1,..., x n ) = max θ L(θ; x 1,..., x n ) und anschließendem Ersetzen der Realisationen x 1,..., x n durch die Stichprobenvariablen X 1,..., X n 261
Oft ist die Maximierung der Loglikelihoodfunktion ln[l(θ; x 1,..., x n )] einfacher (Man beachte: L(θ) und ln[l(θ)] haben ihre Maxima an derselben Stelle) Man bestimmt θ = (ˆθ 1,..., ˆθ r ) durch Lösen des Gleichungssystems ln[l(θ; x 1,..., x n )] θ 1. = 0 ln[l(θ; x 1,..., x n )] θ r = 0 262
Beispiel: Es sei X 1,..., X n eine einfache Stichprobe aus X N(µ, σ 2 ) mit Likelihoodfunktion L(µ, σ 2 ) = ( ) 1 n/2 2πσ 2 exp Die Loglikelihoodfunktion ist L (µ, σ 2 ) = ln[l(µ, σ 2 )] 1 2σ 2 n i=1 = n 2 ln(2π) n 2 ln(σ2 ) 1 2σ 2 (x i µ) 2 n i=1 (x i µ) 2 263
Die partiellen Ableitungen lauten bzw. L (µ, σ 2 ) L (µ, σ 2 ) µ σ 2 = n 2 = 1 n σ 2 (x i µ) i=1 1 σ 2 + 1 2σ 4 n i=1 (x i µ) 2 Gleich-Null-Setzen, Lösen des Gleichungssystems und Ersetzen der Realisationen durch die Stichprobenvariablen liefert die ML-Schätzer ˆµ(X 1,..., X n ) = 1 n n i=1 X i = X ˆσ 2 (X 1,..., X n ) = 1 n n i=1 ( Xi X ) 2 264
Eigenschaften der ML-Methode: Verteilungsannahmen sind unbedingt notwendig Unter bestimmten Bedingungen haben ML-Schätzer sehr angenehme Eigenschaften: 1. Wenn ˆθ der ML-Schätzer für θ ist, dann ist g(ˆθ) der ML- Schätzer von g(θ) (Äquivarianz) 2. Konsistenz: plim ˆθ n = θ 265
3. Asymptotische Normalität: n (ˆθ n θ ) d U N(0, V (θ)) 4. Asymptotische Effizienz: V (θ) ist die Cramér-Rao-Untergrenze 5. Berechenbarkeit (numerische Methoden) 6. Quasi-ML-Schätzung: ML-Schätzer, berechnet auf der Basis normalverteilter Stichproben, sind robust gegenüber Abweichungen von normalverteilten Grundgesamtheiten 266