6. Statistische Hypothesentests Ausgangssituation erneut: ZV X repräsentiere einen Zufallsvorgang X habe die unbekannte VF F X (x) Interessieren uns für einen unbekannten Parameter θ der Verteilung von X Jetzt: Testen von Hypothesen über unbekanntes θ anhand einer Stichprobe X 1,..., X n Demonstration am eindimensionalen Fall 267
Beispiel 1: In einer Studentenkneipe sollen geeichte Biergläser im Ausschank 0.4 Liter Bier enthalten. Wir haben die Vermutung, dass der Wirt häufig zu wenig ausschenkt. X repräsentiere den Zufallsvorgang Füllen eines 0.4-Liter Bierglases durch den Wirt Es bezeichne θ = E(X) die erwartete Füllmenge eines Glases Durch eine Stichprobe X 1,..., X n soll getestet werden θ = 0.4 gegen θ < 0.4 268
Beispiel 2: Wir wissen aus der Vergangenheit, dass das Risiko einer Aktie (die Standardabweichung der Aktienrenditen) bei 25 % lag. Im Unternehmen wird nun das Management ausgetauscht. Verändert sich dadurch das Risiko der Aktie? X sei die Aktienrendite θ = Var(X) = SD(X) sei die Standardabweichung der Renditen Durch eine Stichprobe X 1,..., X n soll getestet werden θ = 0.25 gegen θ 0.25 269
6.1 Grundbegriffe des Testens Definition 6.1: (Parametertest) Es sei X eine Zufallsvariable und θ ein unbekannter Parameter der Verteilung von X. Ein Parametertest ist ein statistisches Verfahren, mit dem eine Hypothese über den unbekannten Parameter θ anhand einer einfachen Zufallsstichprobe X 1,..., X n aus X überprüft wird. Formulierung eines statistischen Testproblems: Es sei Θ die Menge aller möglichen Parameterwerte (d.h. θ Θ) Es sei Θ 0 Θ eine Teilmenge der Parametermenge 270
Betrachte folgende Aussagen: H 0 : θ Θ 0 gegen H 1 : θ Θ/Θ 0 = Θ 1 H 0 heißt Nullhypothese, H 1 Gegenhypothese oder Alternative Arten von Hypothesen: Sind Θ 0 = 1 (d.h. Θ 0 = {θ 0 }) und H 0 : θ = θ 0, so nennt man H 0 einfach Andernfalls bezeichnet man H 0 als zusammengesetzt Analoge Bezeichnungen gelten für H 1 271
Arten von Testproblemen: Es sei θ 0 Θ eine feste reelle Zahl. Dann heißt H 0 : θ = θ 0 gegen H 1 : θ θ 0 zweiseitiges Testproblem Die Testprobleme H 0 : θ θ 0 gegen H 1 : θ > θ 0 bzw. H 0 : θ θ 0 gegen H 1 : θ < θ 0 heißen einseitig (rechts- bzw. linksseitig) 272
Jetzt: Betrachte das allgemeine Testproblem H 0 : θ Θ 0 gegen H 1 : θ Θ 1 = Θ/Θ 0 Allgemeine Vorgehensweise: Entscheide anhand einer Stichprobe X 1,..., X n aus X, ob H 0 zugunsten von H 1 abgelehnt wird oder nicht Explizites Vorgehen: Wähle geeignete Teststatistik T (X 1,..., X n ) und bestimme einen geeigneten kritischen Bereich K R Testentscheidung: T (X 1,..., X n ) K = H 0 wird abgelehnt T (X 1,..., X n ) / K = H 0 wird nicht abgelehnt 273
Man beachte: T (X 1,..., X n ) ist eine ZV (Stichprobenfunktion) Die Testentscheidung ist zufällig Fehlentscheidungen sind möglich Mögliche Fehlentscheidungen: Fazit: Testergebnis Realität H 0 ablehnen H 0 nicht ablehnen H 0 richtig Fehler 1. Art kein Fehler H 0 falsch kein Fehler Fehler 2. Art Fehler 1. Art: Test lehnt H 0 ab, obwohl H 0 richtig Fehler 2. Art: Test lehnt H 0 nicht ab, obwohl H 0 falsch 274
Wann treten die Fehlentscheidungen auf? Der Fehler 1. Art tritt auf, falls T (X 1,..., X n ) K, obwohl für den wahren Parameter gilt θ Θ 0 Der Fehler 2. Art tritt auf, falls T (X 1,..., X n ) / K, obwohl für den wahren Parameter gilt θ Θ 1 275
Frage: Wann besitzt ein statistischer Test für das Problem H 0 : θ Θ 0 gegen H 1 : θ Θ 1 = Θ/Θ 0 gute Eigenschaften? Intuitive Vorstellung: Test ist gut, wenn er möglichst geringe Wahrscheinlichkeiten für die Fehler 1. und 2. Art aufweist Jetzt: Formales Instrument zur Messung der Fehlerwahrscheinlichkeiten 1. und 2. Art 276
Definition 6.2: (Gütefunktion eines Tests) Man betrachte einen statistischen Test für das obige Testproblem mit der Teststatistik T (X 1,..., X n ) und einem geeignet gewählten kritischen Bereich K. Unter der Gütefunktion des Tests versteht man die Funktion G, die, in Abhängigkeit des wahren Parameters θ Θ, die Wahrscheinlichkeit dafür angibt, dass der Test H 0 ablehnt: mit G : Θ [0, 1] G(θ) = P (T (X 1,..., X n ) K). 277
Bemerkung: Mit der Gütefunktion sind die Wahrscheinlichkeiten für den Fehler 1. Art gegeben durch Frage: G(θ) für alle θ Θ 0 sowie für den Fehler 2. Art durch 1 G(θ) für alle θ Θ 1 Wie sieht ein idealer Test aus? Intuition: Ein Test ist ideal, wenn die Fehlerwahrscheinlichkeiten 1. und 2. Art stets (konstant) gleich Null sind Test trifft mit Wskt. 1 die richtige Entscheidung 278
Beispiel: Es sei θ 0 Θ. Betrachte das Testproblem H 0 : θ θ 0 gegen H 1 : θ > θ 0 Grafik idealer Test 279
Leider: Es kann mathematisch gezeigt werden, dass ein solcher idealer Test im allgemeinen nicht existiert Deshalb Ausweg: Betrachte zunächst rein theoretisch für eine geeignete Teststatistik T (X 1,..., X n ) die maximale Fehlerwahrscheinlichkeit 1. Art α = max θ Θ 0 {P (T (X 1,..., X n ) K)} = max θ Θ 0 {G(θ)} Lege den kritischen Bereich K dann so fest, dass α einen vorgegebenen kleinen Wert annimmt 280
Alle Fehlerwahrscheinlichkeiten 1. Art sind dann durch α begrenzt (d.h. kleiner oder gleich α) Häufig benutzte α-werte sind α = 0.01, α = 0.05, α = 0.1 Definition 6.3: (Signifikanzniveau eines Tests) Man betrachte einen statistischen Test für das Testproblem auf Folie 276 mit der Teststatistik T (X 1,..., X n ) und einem geeignet gewählten kritischen Bereich K. Dann bezeichnet man die maximale Fehlerwahrscheinlichkeit 1. Art α = max θ Θ 0 {P (T (X 1,..., X n ) K)} = max θ Θ 0 {G(θ)} als das Signifikanzniveau des Tests. 281
Konsequenzen dieser Testkonstruktion: Die Wskt., H 0 aufgrund des Tests abzulehmen, obwohl H 0 richtig ist (d.h. die Wskt. des Fehlers 1. Art) ist höchstens α Wird H 0 aufgrund einer Testrealisation abgelehnt, so kann man ziemlich sicher davon ausgehen, dass H 0 tatsächlich falsch ist (Man sagt auch: H 1 ist statistisch gesichert) Die Wskt. für den Fehler 2. Art (d.h. H 0 nicht abzulehnen, obwohl H 0 falsch ist), kann man dagegen nicht kontrollieren Wird H 0 aufgrund einer Testrealisation nicht abgelehnt, so hat man keinerlei Wahrscheinlichkeitsaussage über eine mögliche Fehlentscheidung (Nichtablehung von H 0 heißt nur: Die Daten sind nicht unvereinbar mit H 0 ) 282
Wichtig deshalb: Es ist entscheidend, wie man H 0 und H 1 formuliert Das, was man zu zeigen hofft, formuliert man in H 1 (in der Hoffnung, H 0 anhand des konkreten Tests ablehnen zu können) Beispiel: Betrachte Beispiel 1 auf Folie 268 Kann man anhand eines konkreten Tests H 0 verwerfen, so kann man ziemlich sicher sein, dass der Wirt in der Regel zu wenig ausschenkt Kann man H 0 nicht verwerfen, so kann man nichts explizites über die Ausschankgewohnheiten des Wirtes sagen. (Die Daten stehen lediglich nicht im Widerspruch zu H 0 ) 283
6.2 Klassische Testverfahren Jetzt: 3 allgemeine klassische Testkonstruktionen, die alle auf der Loglikelihoodfunktion der Stichprobe aufbauen Ausgangssituation: Es sei X 1,..., X n eine einfache Stichprobe aus X θ R sei der unbekannte Parameter L(θ) = L(θ; x 1,..., x n ) sei die Likelihoodfunktion 284
ln[l(θ)] sei die Loglikelihoodfunktion g : R R sei eine beliebige, stetige Funktion Statistisches Testproblem: H 0 : g(θ) = q gegen H 1 : g(θ) q Grundlage aller Tests: Maximum-Likelihood-Schätzer ˆθ ML für θ 285
6.2.1 Der Wald-Test Historie: Vorgeschlagen von A. Wald (1902-1950) Idee des Tests: Wenn H 0 : g(θ) = q wahr ist, dann sollte die ZV e g(ˆθ ML ) q nicht signifikant von Null verschieden sein 286
Vorwissen: Äquivarianz des ML-Schätzers (Folie 265) g(ˆθ ML ) ist ML-Schätzer für g(θ) Asymptotische Normalität (Folie 266) ( g(ˆθ ML ) g(θ) ) d U N(0, Var(g(ˆθ ML ))) Die asymptotische Varianz Var(g(ˆθ ML )) muss anhand der Daten geschätzt werden Teststatistik des Wald-Tests: [ ) ] 2 g (ˆθ ML q W = Var [ g (ˆθ )] ML d (unter H 0 ) U χ 2 1 287
Testentscheidung: Lehne H 0 zum Signifikanzniveau α ab, wenn W > χ 2 1;1 α Bemerkungen: Der Wald-Test ist ein reiner Test gegen H 0 (es ist nicht notwendig, eine bestimmte Alternativhypothese zu spezifizieren) Das Prinzip des Wald-Tests kann auf jeden konsistenten, asymptotisch normalverteilten Schätzer angewendet werden 288
Wald-Teststatistik für H 0 : g(θ) = 0 gegen H 1 : g(θ) 0 g(θ ) θˆml W θ ln[ L( θ )] 289
6.2.2 Der Likelihood-Ratio-Test (LR-Test) Idee des Tests: Betrachte die Likelihood Funktion L(θ) an 2 Stellen: max {θ:g(θ)=q} L(θ) (= L(ˆθ H0 )) max θ Θ L(θ) (= L(ˆθ ML )) Betrachte die Größe λ = L(ˆθ H0 ) L(ˆθ ML ) Für λ gilt: 0 λ 1 Wenn H 0 wahr ist, dann sollte λ in der Nähe von eins liegen 290
Teststatistik des LR-Tests: LR = 2 ln(λ) = 2 { ln [ L(ˆθ ML ) ] ln [ L(ˆθ H0 ) ]} (ohne Beweis) d (unter H 0 ) U χ 2 1 Für die LR-Teststatistik gilt: 0 LR < Wenn H 0 wahr ist, dann sollte LR in der Nähe von Null liegen Testentscheidung: Lehne H 0 zum Signifikanzniveau α ab, wenn LR > χ 2 1;1 α 291
Bemerkungen: Der LR-Test testet, ob der Abstand der Loglikelihoodfunktionen, ln[l(ˆθ ML )] ln[l(ˆθ H0 )], signifikant größer als 0 ist Der LR-Test benötigt keine asymptotische Varianz 292
LR-Teststatistik für H 0 : g(θ) = 0 gegen H 1 : g(θ) = 0 ln[ L( θ ML )] ln[ L( θ H0 )] LR g(θ ) θ θˆh 0 θˆml ln[l(θ )] 293
6.2.3 Der Lagrange-Multiplier-Test (LM-Test) Historie: Der Test geht zurück auf J.L. Lagrange (1736-1813) Idee des Tests: Für den ML-Schätzer ˆθ ML gilt: ln[l(θ)] θ θ=ˆθml = 0 Wenn H 0 : g(θ) = q wahr ist, dann sollte die Steigung der Loglikelihood-Funktion an der Stelle ˆθ H0 nicht signifikant von Null verschieden sein 294
Teststatistik des LM-Tests: LM = ln[l(θ)] θ ˆθ H0 2 [ Var (ˆθ H0 )] 1 d (unter H 0 ) U χ 2 1 (ohne Beweis) Testentscheidung: Lehne H 0 zum Signifikanzniveau α ab, wenn LM > χ 2 1;1 α 295
LM-Teststatistik für H 0 : g(θ) = 0 gegen H 1 : g(θ) 0 ( θ ) ln[l ] θ g(θ) LM θ H 0 θˆml θ ln[ L ( θ )] 296
Bemerkungen: Sowohl beim Wald-Test als auch beim LM-Test tauchen in den Teststatistiken die geschätzten Varianzen des Schätzers ˆθ H0 auf Diese unbekannten Varianzen werden konsistent durch die Fisher-Information geschätzt Viele ökonometrische Tests beruhen auf diesen 3 Konstruktionsprinzipien Die 3 Test sind asymptotisch äquivalent, d.h. sie liefern für große Stichprobenumfänge dieselben Testergebnisse Es gibt Verallgemeinerungen aller 3 Testprinzipien für das Testen von Hypothesen bzgl. eines Parametervektors θ Ist θ R m, dann sind alle 3 Teststatistiken unter H 0 χ 2 m - verteilt 297
Zusammenfassung der 3 Tests ML θ H 0 ln[( θ )] ln[( )] LR ln L θ ( θ ) g(θ ) LM θˆh 0 θˆml W θ ln L( θ ) 298