Schätzen und Testen I Wintersemester 2015/16

Transkript

1 Schätzen und Testen I Wintersemester 2015/16 Folien zur Vorlesung von Sonja Greven Christian Heumann nach einer Vorlage von Christiane Fuchs Ludwig Fahrmeir Volker Schmid 1

2 Worum geht es in dieser Vorlesung? Statistik umfasst die deskriptive Statistik explorative Statistik induktive Statistik Hier: Statistische Inferenz Verschiedene Inferenzkonzepte. In dieser Vorlesung (ST1) Fokus auf klassischer Inferenz Likelihood-Inferenz Bayes-Inferenz 2

3 Inhalt von Teil 1 (Sonja Greven) 1. Einführung in statistische Modelle und Inferenzkonzepte Statistische Modelle Konzepte der statistischen Inferenz 2. Klassische Schätz- und Testtheorie Klassische Schätztheorie Klassische Testtheorie Bereichsschätzung und Konfidenzintervalle Multiples Testen 3. Likelihood-Inferenz Parametrische Likelihood-Inferenz Maximum-Likelihood-Schätzung Testen linearer Hypothesen und Konfidenzintervalle Fehlspezifikation, Quasi-Likelihood und Schätzgleichungen 3

4 Inhalt 1. Einführung in statistische Modelle und Inferenzkonzepte Statistische Modelle Konzepte der statistischen Inferenz 2. Klassische Schätz- und Testtheorie Klassische Schätztheorie Klassische Testtheorie Bereichsschätzung und Konfidenzintervalle Multiples Testen 3. Likelihood-Inferenz Parametrische Likelihood-Inferenz Maximum-Likelihood-Schätzung Testen linearer Hypothesen und Konfidenzintervalle Fehlspezifikation, Quasi-Likelihood und Schätzgleichungen 4

5 1 Einführung in statistische Modelle und Inferenzkonzepte Ziele: 1.1 Statistische Modelle im Überblick, von einfachen hin zu komplexeren Modellen. Auswahl orientiert an Datenstrukturen, Modellklassen und Fragestellungen aus dem Bachelorprogramm und darüber hinaus. 1.1 Problemstellungen der zugehörigen statistischen Inferenz. 1.2 Konzepte statistischer Inferenz im Überblick. 5

6 1.1 Statistische Modelle Überblick unabhängig identisch verteilter (i.i.d.) Fall bedingt unabhängiger Fall: Regression Verallgemeinerungen vom einfachen linearen Modell zu größerer Klasse an Verteilungsannahmen (GLM) nichtlinearen Kovariableneffekten (additive Modelle) verteilungsfreien Ansätzen (Quantilsregression) abhängiger Fall: Beispiel Longitudinaldaten fehlende/unvollständige Daten 6

7 1.1 Statistische Modelle Einfache Zufallsstichproben Ein-Stichproben-Fall: Seien x 1,..., x n die Daten als Realisierungen von Stichprobenvariablen X 1,..., X n und diese i.i.d. wie Zufallsvariable X mit Verteilungsfunktion F (x) bzw. (stetiger, diskreter bzw. allgemeiner Radon-Nikodym -) Dichte f (x) a) Parametrische Modelle X f (x θ), θ = (θ 1,..., θ k ) Θ R k In der Regel ist k fest und klein im Verhältnis zu n. 7

8 1.1 Statistische Modelle Einfache Zufallsstichproben Beispiel X N(µ, σ 2 ); Schätzen/Testen von µ, zum Beispiel Gauß-Test, t-test; Schätzen/Testen von σ X = (X 1,..., X p ) mehrdimensional, zum Beispiel X N p (µ, Σ). 3. Analoge Problemstellungen für X Bin(N, π), X Po(λ),... bzw. allgemein X einfache lineare Exponentialfamilie mit natürlichem (skalarem) Parameter θ. 8

9 1.1 Statistische Modelle Einfache Zufallsstichproben Definition 1.1 (Exponentialfamilien) Eine Verteilungsfamilie heißt Exponentialfamilie def f (x θ) = h(x) c(θ) exp (γ 1 (θ)t 1 (x) γ r (θ)t r (x)) = h(x) exp ( b(θ) + γ(θ) T(x) ) mit h(x) 0 und b(θ) = log(c(θ)) T(x) = (T 1 (x),..., T r (x)) γ(θ) = (γ 1 (θ),..., γ r (θ)). γ 1,..., γ r heißen die natürlichen oder kanonischen Parameter der Exponentialfamilie (nach Reparametrisierung von θ mit γ). Annahme: 1, γ 1,..., γ r und 1, T 1 (x),..., T r (x) sind linear unabhängig, d.h. f ist strikt r-parametrisch. 9

10 1.1 Statistische Modelle Einfache Zufallsstichproben Beispiel Bernoulli-Experiment: X = (X 1,..., X n ), X i i.i.d. Bin(1, π). 10

11 1.1 Statistische Modelle Einfache Zufallsstichproben Beispiel Bernoulli-Experiment fortgeführt: d.h. es liegt eine einparametrische Exponentialfamilie vor mit n T (x) = i=1 γ = log x i ( ) π =: logit(π). 1 π Bemerkung: Eine Verteilungsfamilie heißt einfache lineare Exponentialfamilie, falls f (x θ) exp(b(θ) + θx) bzw. (mit Dispersionsparameter φ) falls f (x θ) exp( b(θ) + θx ). φ 11

12 1.1 Statistische Modelle Einfache Zufallsstichproben Beispiel 1.1 fortgeführt 4. Lokations- und Skalenmodelle: X F 0 ( x a b mit gegebener Verteilungsfunktion F 0 (z). a R heißt Lokationsparameter, b > 0 Skalenparameter. Dichten im stetigen Fall: X 1 ( ) x a b f 0 b mit gegebener Dichte f 0 (z). ) 12

13 1.1 Statistische Modelle Einfache Zufallsstichproben Beispiele für Lokations- und Skalenmodelle: X N(a, b 2 ) (Normalverteilung), f 0 (z) = φ(z): ( ) 1 x a b f 0 = 1 ( exp 1 (x a) 2 ) b 2πb 2 b 2 X DE(a, b) (Laplace- oder Doppelexponentialverteilung): ( ) 1 x a b f 0 = 1 ( ) b 2b exp x a b X U(a, b) (Gleichverteilung): ( ) 1 x a b f 0 = 1 b b I (a b 2,a+ b 2) (x) Der Träger ist abgeschlossen und hängt von den Parametern ab. 13

14 f(x) a= 0, b= 1 a= 0, b= 3 a= 4, b= 1 a= 4, b= x Lokations- und Skalenmodelle: Normalverteilung 14

15 f(x) a= 0, b= 1 a= 0, b= 3 a= 4, b= 1 a= 4, b= x Lokations- und Skalenmodelle: Gleichverteilung 15

16 1.1 Statistische Modelle Einfache Zufallsstichproben Weitere Beispiele für Lokations- und Skalenmodelle: X C(a, b) (Cauchy-Verteilung): ( ) 1 x a b f 0 = b b π 1 b 2 + (x a) 2 X L(a, b) (logistische Verteilung): ( ) 1 x a b f 0 = 1 b b exp ( x a ) b ( ( )) 1 + exp x a 2 b X E(a, b) (Exponentialverteilung): 1 b f 0 ( x a b ) = 1b ( exp x a ) I b [a, ) (x) 16

17 1.1 Statistische Modelle Einfache Zufallsstichproben Beispiel 1.1 fortgeführt 5. Mischverteilungen: X π 1 f 1 (x ϑ 1 ) π J f J (x ϑ J ) mit π π J = 1, wobei die π j als Mischungsanteile und die f j (x ϑ j ) als Mischungskomponenten bezeichnet werden. Genauer spricht man von diskreter Mischung. Beispiel Normalverteilungsmischung: X π 1 φ(x µ 1, σ 2 1) π J φ(x µ J, σ 2 J ). Unbekannt sind meistens ϑ = (ϑ 1,..., ϑ J ) und π = (π 1,..., π J ). Das Schätzen von θ = (ϑ, π) erfolgt mit ML-Schätzung, meist mit Hilfe des EM-Algorithmus. Auch gewünscht: Testen auf Anzahl J der Mischungskomponenten. 17

18 Dichte x Mischung mit π 1 = 0.8, f 1 (x) = φ(x 0, 2 2 ), π 2 = 0.2, f 2 (x) = φ(x 4, 3 2 ). 18

19 1.1 Statistische Modelle Einfache Zufallsstichproben b) Nichtparametrische Modelle/Inferenz X F (x), X stetige Zufallsvariable, F stetige Verteilung Kolmogorov-Smirnov-Test auf H 0 : F (x) = F 0 (x) X F (x), X diskret bzw. gruppiert χ 2 -Anpassungstest auf H 0 : F (x) = F 0 (x) X f (x), X stetige Zufallsvariable, f bis auf endlich viele Punkte stetig, differenzierbar etc. nichtparametrische Dichteschätzung, zum Beispiel Kerndichteschätzung Der Zwei-und Mehr-Stichprobenfall kann analog behandelt werden; vgl. Statistik II. 19

20 1.1 Statistische Modelle Lineare und generalisierte lineare parametrische Modelle Daten (y i, x i ), i = 1,..., n, sind gegeben, mit x i = (x i1,..., x ip ). y 1 x 1,..., y n x n sind (bedingt) unabhängig, aber nicht identisch verteilt a) Klassisches lineares Modell (LM) y i = x i β+ε i, ε i i.i.d. [N](0, σ 2 ) y i x i [N](µ i = x i β, σ 2 ) Annahme: p = dim(β) < n und n fest. Schätzen von β und σ 2, Tests für β mit oder ohne Normalverteilungsannahme. Variablenselektion und Modellwahl. Spezialfall: Varianzanalyse. 20

21 1.1 Statistische Modelle Lineare und generalisierte lineare parametrische Modelle b) Generalisierte lineare Modelle (GLM) y i x i, i = 1,..., n, besitzen Dichte aus einfacher linearer Exponentialfamilie, zum Beispiel Normal-, Binomial-, Poisson- oder Gammaverteilung, und sind bedingt unabhängig. E[y i x i ] = µ i = h(x i β) Dabei ist h die inverse Linkfunktion (oder Responsefunktion). Die Inferenzprobleme im GLM sind wie im linearen Modell. Es ist likelihoodbasierte oder bayesianische Inferenz möglich. Beachte: Die y i x i sind nicht identisch verteilt. 21

22 1.1 Statistische Modelle Lineare und generalisierte lineare parametrische Modelle Beispiel 1.2 Sei y i x i {0, 1} und µ i = π i = P(y i = 1 x i ), π i = h(x i β). Beispiele für h sind die Verteilungsfunktion der logistischen Verteilung ( Logit-Modell) oder die Verteilungsfunktion der Normalverteilung ( Probit-Modell). 22

23 1.1 Statistische Modelle Nicht- und semiparametrische Regression a) Nichtparametrische Einfachregression Daten wie im linearen Modell, x i skalar. y i = f (x i ) + ε i, i = 1,..., n, ε i i.i.d. N(0, σ 2 ) Regressionsfunktion f (x i ) = E[y i x i ] nicht parametrisch spezifiziert. Nicht- oder semiparametrisches Schätzen von f Testen von H 0 : f (x) = β 0 + xβ 1 vs. H 1 : f nichtlinear. 23

24 1.1 Statistische Modelle Nicht- und semiparametrische Regression b) Additive Modelle (AM) y i = f 1 (x i1 ) f p (x ip ) + z i β + ε i, ε i wie bisher, µ i = E[y i x i, z i ] = f 1 (x i1 ) f p (x ip ) + z i β mit Kovariablenvektoren x i = (x i1,..., x ip ) und z i. Schätzen, Testen von f 1,..., f p, β Variablenselektion und Modellwahl (zum Beispiel Einfluss einer bestimmten Kovariable linear oder nichtlinear) 24

25 1.1 Statistische Modelle Nicht- und semiparametrische Regression c) Generalisierte Additive Modelle (GAM) y i x i wie bei GLM; analog zu additiven Modellen lässt man aber ( ) µ i = E[y i x i, z i ] = h f 1 (x i1 ) f p (x ip ) + z i β zu. 25

26 1.1 Statistische Modelle Quantil-Regression/Robuste Regression Daten wie im linearer Modell (y i x i bedingt unabhängig). Keine Annahmen an die Fehlerverteilung, verteilungsfreier Ansatz Ziel: Schätze nicht (nur) E[y i x i ], sondern den bedingten Median (τ = 0.5) oder allgemeiner die (bedingten) Quantile Q τ (y i x i ). Statt β KQ = argmin β n i=1 (y i x i β) 2 mit x βkq = Ê(y x) suche z.b. (für τ = 0.5) x βmed = med(y x). β med := argmin β n y i x i β Frage: Welche Konzepte zum Schätzen und Testen verwenden? Quasi-Likelihood-Methoden. i=1 26

27 1.1 Statistische Modelle Abhängige Daten: Beispiel Longitudinaldaten Longitudinaldaten (Längsschnittdaten): (y ij, x ij ) für i = 1,..., m und j = 1,..., n i als Beobachtungen von Zielvariablen y ij und Kovariablen x ij zu Zeitpunkten t i1 <...<t ij <...<t ini. Speziallfall m = 1: Zeitreihen a) Autoregressive bzw. Markov-Modelle: Bedingte Verteilung von y ij y i,j 1, y i,j 2,..., y i1, x ij ist (bei Markov-Modell 1. Ordnung) y ij y i,j 1, x ij, zum Beispiel y ij = αy i,j 1 + x ij β + ε ij }{{} i.i.d. Likelihood-Inferenz: algorithmisch simpel, asymptotische Theorie schwieriger (da y ij abhängig).. 27

28 1.1 Statistische Modelle Abhängige Daten: Beispiel Longitudinaldaten b) Lineares gemischtes Modell (LMM): Z.B. y ij = β 0 + β 1 t ij + x ij β + b 0i + b 1i t ij + ε ij β 0, β 1, β: feste Populationseffekte, z.b. β 0 + β 1 t fester (linearer) Populationstrend b 0i, b 1i : individuenspezifische Effekte Anzahl der Parameter von der Ordnung des Stichprobenumfangs Annahme: b 0i i.i.d. N(0, τ 2 0 ), b 1i i.i.d. N(0, τ 2 1 ) d.h. die b-parameter sind zufällige Parameter. Inferenz: algorithmisch/methodisch variierte Likelihood-Inferenz oder Bayes-Inferenz mit MCMC-Simulationsmethoden. Für GLMM deutlich komplexer als für LMM. 28

29 1.1 Statistische Modelle Abhängige Daten: Beispiel Longitudinaldaten c) Marginale Modelle Kapitel 6.2 und 6.4 bzw. kurze Einführung in 3.4 (Quasi-Likelihood-Inferenz/GEEs) 29

30 1.1 Statistische Modelle Fehlende/unvollständige Daten Daten: beliebig (Querschnitts-, Survival-, Längsschnittdaten) Beispiele: Nicht-Antworter bei statistischen Befragungen Drop-out bei klinischen Studien zensierte Daten (wie in Survivalanalyse) Modelle mit latenten Variablen Übliche Modelle und statistische Methodik setzen vollständige Daten voraus. 30

31 1.1 Statistische Modelle a) Verweildaueranalyse: Cox-Modell Rechtszensierte Survivaldaten: Evtl. rechtszensierte Beobachtungen t 1,..., t n von unabhängigen stetigen Lebensdauern T 1,..., T n 0, Zensierungsindikatoren δ 1,..., δ n und zugehörige Kovariablen x 1,..., x n. Ziel: Schätze λ(t; x) bzw. zumindest den Einfluss der Kovariablen auf die Hazardrate λ(t; x) = lim t 0 P(t T t + t T t; x). t Interpretation: λ(t; x) t bedingte Wahrscheinlichkeit für Ausfall in [t, t + t] gegeben Überleben bis zum Zeitpunkt t bei kleinem t. 31

32 1.1 Statistische Modelle a) Verweildaueranalyse: Cox-Modell Cox-Modell (auch: Proportional Hazards-Modell) λ(t; x i ) = λ 0 (t) exp(x i β) = λ 0 (t) exp(x i1 β 1 )... exp(x ip β p ). Primäres Interesse: Schätzen/Testen von β. Die von i unabhängige Baseline -Hazardrate λ 0 (t) wird als Nuisanceparameter (bzw. -funktion) betrachtet. Die Likelihood faktorisiert sich in L(β; λ 0 (t)) = L 1 (β) L 2 (β; λ 0 (t)). Die partielle Likelihood L 1 (β) wird bzgl. β maximiert. Erstaunlicherweise ist der Informationsverlust gering. 32

33 1.1 Statistische Modelle b) Modellbasierte Clusteranalyse Idee: x = (x 1,..., x p ) stammt aus multivariater Mischverteilung J f (x) = π j f j (x ϑ j ), j=1 z.b. f j Dichte der multivariaten Normalverteilung. Gesucht: 1. Schätzungen für ϑ j, π j, j = 1,..., J. 2. Schätzungen für unbekannte Klassenzugehörigkeit j eines Objekts mit Merkmalsvektor x. Formel von Bayes liefert: π(j x) = π jf j (x ϑ j ) f (x). Likelihood-Maximierung: mit EM-Algorithmus Bayes: mit MCMC-Algorithmus 33

34 x = (x 1,..., x n ) oder y = (y 1,..., y n ) sind Realisierungen von Stichprobenvariablen (Zufallsvariablen) X = (X 1,..., X n ) oder Y = (Y 1,..., Y n ). Die Komponenten X 1,..., X n können auch selbst wieder mehrdimensional sein. Weitere Annahmen: X1,..., X n i.i.d. wie X einfache Zufallsstichprobe (vgl. Abschnitt 1.1.1). Y 1,..., Y n (bzw. Y 1 X 1,..., Y n X n im Regressionsmodell) sind (bedingt) unabhängig aber nicht identisch verteilt (vgl. Abschnitte ). Y1,..., Y n sind abhängig, zum Beispiel zeitlich oder räumlich korreliert (vgl ). 34

35 In allen Fällen gilt: x X bzw. y Y, wobei X bzw. Y der entsprechende Stichprobenraum ist. X = (X 1,..., X n ) bzw. Y = (Y 1,..., Y n ) sind auf dem Stichprobenraum nach einer gemeinsamen Verteilung P bzw. Verteilungsfunktion F (x) = F (x 1,..., x n ) bzw. F (y) verteilt. P (bzw. F ) gehört einer Menge (oder Klasse oder Familie) von Verteilungen P θ = {P θ : θ Θ} an. Zugehörige Verteilungsfunktionen sind F (x θ) bzw. (falls existent) Dichten f (x θ) = f (x 1,..., x n θ) (analog für y). 35

36 Gemeinsame Dichten f (x θ): i.i.d. Fall: f (x θ) = f (x 1 θ)... f (x n θ) = Unabhängige Zufallsvariablen Y 1,..., Y n : f (y θ) = n f i (y i θ), i=1 die Dichten hängen also vom Index i ab. n f (x i θ) Bei potentiell abhängigen Y 1,..., Y n ist f (y θ) nicht immer faktorisierbar und teils auch analytisch schwer oder nicht darstellbar. i=1 36

37 (Übliche) parametrische Inferenz: θ = (θ 1,..., θ k ) Θ R k, k fest mit k < n. Nichtparametrische/verteilungsfreie Inferenz: Θ ist Funktionenraum, θ eine bestimmte Funktion. Zum Beispiel ist Θ der Raum der stetigen oder differenzierbaren Funktionen. Beispiele für Methoden: (Kern-)Dichteschätzung, nichtparametrische Regression. 37

38 Semiparametrische Inferenz (vgl. Kapitel 7): Begriff wird verwendet für 1. Θ hat eine endlich-dimensionale und eine unedlich-dimensionale Komponente. Beispiel: Cox-Proportional-Hazard-Modell. 2. Parameter θ = (θ 1,..., θ k ) hochdimensional und k wächst mit n (unter Umständen k n), zum Beispiel bei der semiparametrischen Regression mit Glättungssplines. 38

39 1.2.1 Klassische parametrische Inferenz X = (X 1,..., X n ) besitzt Verteilung P P = {P θ : θ = (θ 1,..., θ k ) Θ} mit Θ R k und k < n fest, oft k n. In der Regel existiert zur Verteilung P θ eine (diskrete oder stetige bzw. Radon-Nikodym-) Dichte f (x θ) = f (x 1,..., x n θ). Anmerkung: Allgemein ist dies die Radon-Nikodym-Dichte bezüglich eines dominierenden Maßes, vgl. Maß- und Wahrscheinlichkeitstheorie-Vorlesung. 39

40 1.2.1 Klassische parametrische Inferenz Punktschätzung: Geschätzt werden soll θ. Eine messbare Abbildung { X Θ T : x T(x) =: θ heißt Schätzfunktion oder Schätzer. 40

41 1.2.1 Klassische parametrische Inferenz Punktschätzung fortgeführt: Eine Beurteilung der Güte/Optimalität kann z. B. durch Bias θ (T) = E θ [T] θ, Varθ (T) = E θ [(T E θ [T])(T E θ [T]) ], MSEθ (T) = E θ [ T θ 2 ] = Spur(Var θ (T)) + Bias θ (T) 2 erfolgen. Das Konzept der Güte ist frequentistisch, da beurteilt wird, wie gut T = T(X) bei allen denkbaren wiederholten Stichproben x als Realisierung von X im Schnitt funktioniert. Anders ausgedrückt: Beurteilt wird nicht die konkret vorliegende Stichprobe, sondern (in der Häufigkeitsinterpretation) das Verfahren T = T(X). 41

42 1.2.1 Klassische parametrische Inferenz Bereichsschätzung / Intervallschätzung: C : { X P(Θ) x C(x) Θ so dass P θ (C(X) θ) 1 α für alle θ Θ. Dabei ist 1 α der Vertrauensgrad (auch: Konfidenzniveau oder Überdeckungswahrscheinlichkeit) des Konfidenzbereiches. Man beachte die frequentistische/häufigkeitsinterpretation: C(X) ist ein zufälliger Bereich. Ist Θ R und C(x) für alle x ein Intervall, dann heißt C Konfidenzintervall. 42

43 1.2.1 Klassische parametrische Inferenz Testen: Mit einem Test φ soll eine Hypothese H 0 gegen eine Alternativhypothese H 1 geprüft werden: H 0 : θ Θ 0 vs. H 1 : θ Θ 1, wobei Θ 0 Θ 1 =. Es gilt oft, aber nicht notwendigerweise, Θ = Θ 0 Θ 1. Ergebnisse/Aktionen: A 0 : H 0 wird nicht abgelehnt, A 1 : H 1 wird bestätigt, das Ergebnis ist signifikant. 43

44 1.2.1 Klassische parametrische Inferenz Testen fortgeführt: Der Test ist eine Abbildung φ : X {A 0, A 1 } = {0, 1}. Ein nicht-randomisierter Test hat die Form { 1, falls x K, φ(x) = 0, falls x / K. Dabei ist K X der sogenannte kritische Bereich und als eine Teilmenge aller möglichen Stichproben zu verstehen. Oft formuliert man dies über eine Teststatistik T (x): { 1, falls T (x) C, φ(x) = 0, falls T (x) / C. 44

45 1.2.1 Klassische parametrische Inferenz Testen fortgeführt: Test zum Niveau ( size ) α, wobei α klein : P θ (A 1 ) α für alle θ Θ 0. Dabei ist die Wahrscheinlichkeit für den Fehler 1. Art kleiner als α. Die Funktion g φ (θ) = P θ (A 1 ) = E θ [φ(x)] heißt Gütefunktion von φ. Synonym zum Begriff Güte werden auch die Begriffe Power oder Macht gebraucht. Die Forderung für den Fehler formuliert über die Gütefunktion lautet g φ (θ) α für θ Θ 0. 45

46 1.2.1 Klassische parametrische Inferenz Testen fortgeführt: Programm der klassischen parametrischen Schätztheorie (siehe Kapitel 2): Finde Test φ zum Niveau α mit optimaler Power bzw. minimaler Wahrscheinlichkeit für den Fehler 2. Art, 1 g φ (θ), θ Θ 1. Das Konzept ist wiederum frequentistisch. Das Programm ist dabei hauptsächlich für spezielle Verteilungsfamilien (zum Beispiel für Exponentialfamilien) und spezielle Testprobleme im i.i.d. Fall durchführbar. Weniger tauglich ist es für (etwas) komplexere Modelle, zum Beispiel bereits für GLMs. Dann: Likelihood-Inferenz Bayes-Inferenz Nicht- und semiparametrische Inferenz 46

47 1.2.1 Klassische parametrische Inferenz Testen fortgeführt: Im einfachsten Fall von zwei Punkthypothesen H 0 : θ = θ 0, H 1 : θ = θ 1 für θ 0 θ 1 hat der beste Test Likelihood-Quotienten-Struktur: H 0 wird abgelehnt, falls f (x θ 1 ) f (x θ 0 ) > k α (vgl. Neyman-Pearson Theorem, Abschnitt 2.2 oder Wahrscheinlichkeitstheorie und Inferenz II). 47

48 1.2.1 Klassische parametrische Inferenz p-werte (p-values): Beispiel 1.3 (Gauß-Test) X 1,..., X n i.i.d. N(µ, σ 2 ), σ 2 bekannt. Betrachte H 0 : µ µ 0, H 1 : µ > µ 0. Teststatistik ist T (X) = X µ 0 µ=µ 0 n N(0, 1). σ H 0 wird abgelehnt, wenn T (x) > z 1 α. Der p-wert ist p = P(T (X) > T (x) µ = µ 0 ) = sup µ P(T (X) > T (x) H 0 ). Offensichtlich gilt: T (x) > z 1 α p < α. Der p-wert liefert mehr Information (nämlich wie nahe man an der Entscheidungsgrenze ist) als die reine Bekanntgabe der Entscheidung. 48

49 1.2.1 Klassische parametrische Inferenz Definition 1.2 (p-wert) Gegeben sei ein Test bzw. eine Teststatistik T (X) für H 0 vs. H 1 mit 1. sup θ Θ P θ (T (X) C α H 0 ) α, 2. für α α gilt C α C α. Dann gilt p = inf{ α : T (x) = t C eα }, und H 0 wird abgelehnt, falls p < α. 49

50 1.2.1 Klassische parametrische Inferenz Beispiel 1.3 (Gauß-Test) fortgeführt: 50

51 1.2.2 (Parametrische) Likelihood-Inferenz Sei P = {f (x θ) θ Θ}, d.h. es existieren Dichten zu der vorgegebenen parametrisierten Verteilungsfamile P. Nach der Beobachtung von X = x heißt L(θ x) := f (x θ) Likelihoodfunktion von θ zur Beobachtung x. 51

52 1.2.2 (Parametrische) Likelihood-Inferenz Likelihoodprinzip: Besitzen zwei Beobachtungen x und x zueinander proportionale Likelihoodfunktionen, sollen sie zu denselben Schlüssen über θ führen. Beispiel 1.4: X 1,..., X n i.i.d. N(µ, σ 2 ), σ 2 bekannt. f (x µ) = 1 2πσ exp( n i=1 (x i µ) 2 2σ 2 ) Zwei Beobachtungen x und y mit x = ȳ führen nach dem Likelihood-Prinzip zu den gleichen Schlüssen über µ. 52

53 1.2.2 (Parametrische) Likelihood-Inferenz Punktschätzung: Maximum-Likelihood- (ML-) Schätzung T(x) = θ ML mit f (x θ ML ) = max f (x θ) θ bzw. θ ML = argmax f (x θ). θ In der Regel existieren keine finiten Optimalitätseigenschaften, jedoch asymptotische. Testen: Likelihood-Quotienten-Test, Wald-Test, Score-Test. 53

54 1.2.3 Likelihoodbasierte Inferenz Quasi-Likelihood-Inferenz (Kapitel 3.4 bzw. 6) penalisierte Likelihood-Inferenz (u.a. Kapitel 7.4), semiparametrische Modelle (Kapitel 7). 54

55 1.2.4 Bayes-Inferenz Wir betrachten wieder P = {f (x θ) : θ Θ}, zusätzlich wird aber die Unsicherheit über θ durch die Prioridichte p(θ) auf Θ bewertet. Dabei kann Θ auch sehr hochdimensional sein. Prinzip: Nach Beobachtung von x ist sämtliche Information über θ enthalten in der Posterioridichte p(θ x) = proportional bzgl. f (x θ) p(θ) Parameter θ f (x θ) p(θ)dθ f (x θ) p(θ) = L(θ x) p(θ). 55

56 1.2.4 Bayes-Inferenz Bayes-Schätzung: - Posteriori-Erwartungswert: T E (x) = θ post-ew = E θ x (θ x) = θ p(θ x) dθ - Posteriori-Median: T med (x) = θ post-med = med θ x (θ x) Θ - Posteriori-Modus: T mod (x) = θ post-mod = argmax θ p(θ x) = argmax p(θ)l(θ x) θ 56

57 1.2.4 Bayes-Inferenz Es sind auch uneigentliche Prioriverteilungen zulässig, d.h. Dichten mit p(θ)dθ = +, Θ die sich somit nicht normieren lassen. Allerdings muss die Posterioridichte eigentlich sein! Ein Spezialfall ist p(θ) 1 ( Gleichverteilungs-Priori ), bei deren Verwendung θ ML = argmax L(θ x) = θ post-mod θ gilt, d.h. der ML-Schätzwert und der Posteriori-Modus-Schätzwert identisch sind. 57

58 1.2.4 Bayes-Inferenz Die Verteilung zu p(θ) heißt die konjugierte Verteilung für f (x θ), wenn f (θ x) (posteriori) und f (θ) (priori) dieselbe Form haben, d.h. wenn Priori- und Posterioverteilung zur selben Verteilungsfamilie gehören. 58

59 1.2.4 Bayes-Inferenz Bayes-Bereichsschätzung: Wähle Kredibilitätsbereiche/-intervalle C(x) so, dass ( ) p(θ x) dθ = P θ x }{{} θ C(x) }{{} C(x) zufällig nicht zufällig, deterministisch 1 α. Es ist also eine Wahrscheinlichkeitsaussage für eine konkrete Stichprobe möglich und keine Häufigkeitsinterpretation notwendig! Bei Bayes-Inferenz wird keine Häufigkeitsinterpretation benötigt. Allerdings kann sie trotzdem gemacht werden. ( Asymptotik der Bayes-Schätzer) 59

60 1.2.5 Statistische Entscheidungstheorie Sichtweise in der Entscheidungstheorie: Schätzen und Testen als Entscheidung unter Unsicherheit. Wie bisher betrachten wir P P θ = {P θ : θ = (θ 1,..., θ k ) Θ} als statistisches Modell; x bezeichne eine Stichprobe / konkrete Beobachtung von X. 60

61 1.2.5 Statistische Entscheidungstheorie Zusätzlich werden folgende Funktionen betrachtet: Definition 1.3 (Entscheidungsfunktion) Als Entscheidungsfunktion bezeichnet man eine Funktion { X D d : x d(x). Mit D wird der Entscheidungs- oder Aktionenraum bezeichnet. 61

62 1.2.5 Statistische Entscheidungstheorie Definition 1.4 (Verlustfunktion) Eine Verlustfunktion (oft auch stattdessen Gewinnfunktion) { D Θ R L : (d, θ) L(d, θ) ordnet einer Entscheidung d(x) ( decision ) einen Verlust ( loss ) zu. Im Allgemeinen ist L so gewählt, dass der Verlust bei richtiger Entscheidung null ist, also L eine nicht-negative Funktion ist. 62

63 1.2.5 Statistische Entscheidungstheorie Beispiel Test: Betrachte H 0 : θ θ 0 vs. H 1 : θ > θ 0 (zum Beispiel Gauß-Test). Der Entscheidungsraum sei D = {d 0, d 1 } mit d 0 : Entscheidung für H 0, d 1 : Entscheidung für H 1. Eine mögliche Verlustfunktion ist: { 0, falls θ θ0 (Entscheidung richtig) L(d 0, θ) = a R +, falls θ > θ 0 (Fehler 2. Art) { 0, falls θ > θ0 (Entscheidung richtig) L(d 1, θ) = b R +, falls θ θ 0 (Fehler 1. Art) 63

64 1.2.5 Statistische Entscheidungstheorie Beispiel 1.5 fortgeführt 2. Schätzung: Entscheidung ist reelle Zahl: d(x) = T (x) = θ Θ, d.h. D = Θ. Mögliche Verlustfunktionen: L(d, θ) = (d θ) 2 L(d, θ) = d θ L(d, θ) = w(θ)(d θ) 2 quadratischer Verlust, absoluter Verlust, gewichteter quadratischer Verlust, wobei w eine feste Gewichtsfunktion ist. 64

65 1.2.5 Statistische Entscheidungstheorie Beispiel 1.5 fortgeführt 3. Mehrentscheidungsverfahren, zum Beispiel Wahl zwischen drei Alternativen d 0 : θ θ 0, d 1 : θ > θ 1, d 2 : θ 0 < θ θ Analog: Modellwahl, Variablenselektion 65

66 1.2.5 Statistische Entscheidungstheorie Definition 1.5 (Risikofunktion) Eine Risikofunktion ist definiert als R(d, θ) = E θ [L(d(X), θ)] = X L(d(x), θ)f (x θ) dx ( Verlust im Mittel ). Sie ist unabhängig von x. Dabei wird d(x) rausintegriert, d.h. R(d; θ) ist bei gegebenem d nur noch eine Funktion von θ. 66

67 1.2.5 Statistische Entscheidungstheorie Beispiel Schätzen, d.h. d(x) = T(x) Schätzwert, d(x) = T(X) Punktschätzer. Bei quadratischer Verlustfunktion ist mit Risikofunktion L(T(X), θ) = T(X) θ 2 R(T, θ) = E θ [ T(X) θ 2 ] = MSE θ (T(X)). Man beachte, dass das Argument T in R(T, θ) den Schätzer und nicht den konkreten Schätzwert bezeichnet. 2. Testen: vgl. Übung. 67

68 1.2.5 Statistische Entscheidungstheorie Vergleich von Entscheidungsregeln mittels der Risikofunktion R(d, θ) R(d 1, θ) R(d 2, θ) R(d 3, θ) θ Aus der Abbildung geht hervor, dass d 3 besser als d 1 ist für alle θ Θ, d.h. d 3 dominiert d 1 gleichmäßig. 68

69 1.2.5 Statistische Entscheidungstheorie Ziel: Finde Regel d, die alle konkurrierenden Regeln d dominiert. Problem: Diese Idee funktioniert im Allgemeinen nicht, in der Regel überschneiden sich die Risikofunktionen, zum Beispiel ist in obiger Abbildung d 2 nur in einem gewissen Bereich besser als d 1 und d 3. R(d, θ) R(d 1, θ) R(d 2, θ) R(d 3, θ) θ 69

70 1.2.5 Statistische Entscheidungstheorie Optimale Entscheidungsregeln nur möglich durch: Einschränkung auf spezielle Klassen von Verlustfunktionen, Einschränkung auf spezielle Klassen von Entscheidungsregeln, zum Beispiel unverzerrter Schätzer oder unverfälschter Test, oder zusätzliches Kriterium. 70

71 1.2.5 Statistische Entscheidungstheorie Kriterien für Optimale Entscheidungsregeln 1. Minimax-Kriterium Idee: Betrachte Maximum der Risikofunktion, d.h. präferiere in der folgenden Abbildung d 2, da max θ R(d 2, θ) < max R(d 1, θ). θ 71

72 1.2.5 Statistische Entscheidungstheorie max θ R(d 2, θ) < max R(d 1, θ). θ 72

73 1.2.5 Statistische Entscheidungstheorie Definition 1.6 (Minimax-Entscheidungsregel) Sei d : X D eine Entscheidungsregel. d heißt Minimax, falls es das supremale Risiko minimiert: sup R(d, θ) sup R(d, θ) d D d = arginf sup R(d, θ). θ Θ θ Θ d D θ Θ Bemerkung. In vielen Fällen werden Supremum und Infimum auch angenommen, so dass tatsächlich d = argmin d D gilt, daher auch der Name Minimax. max R(d, θ) θ Θ 73

74 1.2.5 Statistische Entscheidungstheorie Beim Minimax-Kriterium schützt man sich gegen den schlimmsten Fall, was aber nicht unbedingt immer vernünftig ist, wie die folgende Abbildung zeigt: 74

75 1.2.5 Statistische Entscheidungstheorie R(d 1, θ) R(d 2, θ) R(d, θ) θ Hier wäre d nur dann vernünftig, wenn θ-werte in der Mitte besonders wahrscheinlich sind. 75

76 1.2.5 Statistische Entscheidungstheorie Kriterien für Optimale Entscheidungsregeln 2. Bayes-Kriterium Wie in der Bayes-Inferenz nehmen wir für θ eine Prioridichte p(θ) an (aus frequentistischer Sichtweise ist p(θ) eine nicht notwendigerweise normierte Gewichtsfunktion). Das Bayes-Risiko ist r(d, p) = R(d, θ)p(θ) dθ Θ = E p [R(d, θ)] = E p E θ [L(d(X), θ)] = L(d(x), θ)f (x θ) dx p(θ) dθ Θ X 76

77 1.2.5 Statistische Entscheidungstheorie 2. Bayes-Kriterium fortgeführt: Das Bayes-Risiko wird durch die Bayes-optimale Regel d minimiert: r(d, p) = inf r(d, p). d D Sei p(θ x) (eigentliche) Posterioridichte. Dann heißt L(d(x), θ)p(θ x) dθ = E θ x [L(d(x), θ)] Θ das Posteriori-Bayes-Risiko. 77

78 1.2.5 Statistische Entscheidungstheorie Es gilt folgendes praktisches Resultat: Satz 1.7 Eine Regel d ist genau dann Bayes-optimal, wenn d (x) für jede Beobachtung/Stichprobe x das Posteriori-Bayes-Risiko minimiert. 78

79 1.2.5 Statistische Entscheidungstheorie Anmerkungen: Satz 1.8. erleichtert die Bestimmung der Bayes-optimalen Entscheidungsregel in konkreten Fällen. Er zeigt eine intuitive Eigenschaft des Bayesianischen Vorgehens: Um eine Entscheidung geg. eine Beobachtung x zu treffen, reicht es, den Verlust für d(x) zu betrachten. Es ist nicht nötig, Verluste für d(x) für andere mögliche aber nicht beobachtete X zu berücksichtigen. Bayes-optimale Regeln d sind zulässig, d.h. sie werden von keiner anderen Regel d d dominiert. Eine enge Beziehung zur Minimax-Regel ist durch die Wahl einer ungünstigsten Prioridichte p (θ) herstellbar. 79

80 1.2.5 Statistische Entscheidungstheorie Optimalität von Bayes-Schätzern: θ = E[θ x] = Θ θ p(θ x) dθ ist Bayes-optimal bei quadratischer Verlustfunktion L(d, θ) = (d θ) 2. θ = med(θ x) ist Bayes-optimal bei absoluter Verlustfunktion L(d, θ) = d θ. 80

81 1.2.5 Statistische Entscheidungstheorie Optimalität von Bayes-Schätzern fortgeführt: Der Posteriori-Modus θ = argmax p(θ x) θ Θ ist Bayes-optimal bei 0-1 Verlustfunktion { 1, falls d θ ε, L ε (d, θ) = 0, falls d θ < ε und Grenzübergang ε 0. Anmerkung: Die ML-Schätzung ist optimal bei flacher Priori p(θ) 1 und bei Wahl obiger 0-1-Verlustfunktion. 81