Statistik II. IV. Hypothesentests. Martin Huber

Ähnliche Dokumente
Analyse von Querschnittsdaten. Signifikanztests I Basics

Einführung in die Induktive Statistik: Testen von Hypothesen

Tests einzelner linearer Hypothesen I

Statistischer Rückschluss und Testen von Hypothesen

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Jost Reinecke. 7. Juni 2005

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

1. Lösungen zu Kapitel 7

Kapitel 3. Inferenz bei OLS-Schätzung I (small sample, unter GM1,..., GM6)

Schließende Statistik

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Allgemeines zu Tests. Statistische Hypothesentests

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Pflichtlektüre: Kapitel 12 - Signifikanztest Wie funktioniert ein Signifikanztest? Vorgehensweise nach R. A. Fisher.

Übungsaufgaben zu Statistik II

Einführung in Quantitative Methoden

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Lineare Regression mit einem Regressor: Einführung

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest.

10. Die Normalverteilungsannahme

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Testen von Hypothesen:

STATISTIK Teil 2 Wahrscheinlichkeitsrechnung und schließende Statistik

8. Konfidenzintervalle und Hypothesentests

Hypothesentests mit SPSS. Beispiel für einen t-test

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

3. Das Prüfen von Hypothesen. Hypothese?! Stichprobe Signifikanztests in der Wirtschaft

Grundlagen der Statistik

Statistik und Wahrscheinlichkeitsrechnung

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

Mikro-Ökonometrie: Small Sample Inferenz mit OLS

Statistik II: Signifikanztests /1

Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz

Prüfgröße: Ist die durch eine Schätzfunktion zugeordnete reelle Zahl (etwa Mittelwert 7 C).

Unterschiedshypothesen Vergleiche von Häufigkeiten bzw. Mittelwerten zwischen (mindestens) zwei Gruppen Zusammenhangshypothesen Korrelationsanalysen

Klausur zu Statistik II

Mathematische und statistische Methoden II

6. Statistische Hypothesentests

VS PLUS

Kapitel 3 Schließende Statistik

KATA LOGO Mathematik Statistik Roadmap: Von der Hypothese zum p-wert

Modell (Konstante) 0,411 0,155 male 0,212 0,13 job 0,119 0,131 alcohol 0,255 0,05 a. Abhängige Variable: skipped

Kapitel 10 Mittelwert-Tests Einstichproben-Mittelwert-Tests 10.2 Zweistichproben Mittelwert-Tests

Schließende Statistik: Hypothesentests (Forts.)

Einführung in die Maximum Likelihood Methodik

Willkommen zur Vorlesung Statistik (Master)

Einfache Varianzanalyse für unabhängige Stichproben

1.6 Der Vorzeichentest

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

3 Konfidenzintervalle

9. Schätzen und Testen bei unbekannter Varianz

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

e) Beim klassischen Signifikanztest muß die Verteilung der Prüfgröße unter der Nullhypothese

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

Statistik II. Statistische Tests. Statistik II

3. Das einfache lineare Regressionsmodell

11. Nichtparametrische Tests

Eine Einführung in R: Statistische Tests

Statistik II für Betriebswirte Vorlesung 1

Anpassungstests VORGEHENSWEISE

Ein- und Zweistichprobentests

Brückenkurs Statistik für Wirtschaftswissenschaften

Seminar zur Energiewirtschaft:

Mögliche Fehler beim Testen

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

Kapitel 13. Grundbegriffe statistischer Tests

1 Gemischte Lineare Modelle

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

Statistik II: Grundlagen und Definitionen der Statistik

Einführung 17. Teil I Kopfüber eintauchen in die Statistik 23. Kapitel 1 Kategoriale Daten zusammenfassen: Häufigkeiten und Prozente 25

Statistische Tests für unbekannte Parameter

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

Beurteilende Statistik

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Chi-Quadrat Verfahren

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Literatur: Glantz, S.A. (2002). Primer of Biostatistics. New York: McGraw-Hill.

Bachelorprüfung SS MUSTERLÖSUNG

methodenlehre ll Grenzen des Signifikanztests methodenlehre ll Grenzen des Signifikanztests

Lösungen zu den Übungsaufgaben in Kapitel 10

Auswertung und Lösung

Einführung in die Methoden der Empirischen Wirtschaftsforschung

Mathematik für Biologen

Aussagen hierzu sind mit einer unvermeidbaren Unsicherheit behaftet, die statistisch über eine Irrtumswahrscheinlichkeit bewertet wird.

Bachelorprüfung SS 2015

Biostatistik, Winter 2011/12

Statistisches Testen: Signifikanz und Relevanz Christiane Spiel

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

Testen von Hypothesen

Einführung in die statistische Testtheorie II

Glossar Biometrie / Statistik. Auszug für Fragebogen Fallzahlberechnung/-begründung

2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese:

Wir gehen wieder von einem allgemeinen (parametrischen) statistischen Modell aus, (

Transkript:

Statistik II IV. Hypothesentests Martin Huber 1 / 41

Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41

Struktur eines Hypothesentests 1 Formuliere die Forschungshypothese und bestimme die zu testenden Parameter. Basierend hierauf kann die Nullhypothese H 0 bestimmt werden. 2 Art der Verteilung (z.b. t-verteilung, Normalverteilung) 3 Auswahl der Teststatistik 4 Bestimme das Signifikanzniveau (= Irrtumswahrscheinlichkeit, mit der eine korrekte Nullhypothese irrtümlicherweise abgelehnt wird) 5 Einseitiger oder zweiseitiger Test 6 Verwerfe die Nullhypothese (falls Testergebnis signifikant) oder behalte sie bei (falls insignifikant) 3 / 41

Stichprobenverteilung Annahme MLR.6: Normalität u N(0, σ 2 ) Der Fehlerterm ist unabhängig von den Kontrollvariablen und ist normalverteilt mit Mittelwert 0 und Varianz σ 2. Annahme MLR.6 impliziert die Annahmen MLR.3 und MLR.5. Zusammenfassung der Annahmen MLR.1-MLR.6 (= Annahmen des klassischen linearen Modells) y (x 1, x 2,..., x k ) N(β 0 + β 1 x 1 + β 2 x 2 +... + β k x k, σ 2 ) 4 / 41

Annahme MLR.6: Normalität Zugrundeliegende Annahmen: u N(0, σ 2 ) Normalverteilung des Fehlerterms ist nicht unproblematisch, weil viele Faktoren keiner Normalverteilung folgen (z.b. Löhne sind nicht normalverteilt logarithmische Transformation). Weitere (potenziell problematische) Annahme: Unbeobachtete Faktoren im Fehlerterm beeinflussen y in additiver Form. Nicht-normal verteilte Fehlerterme sind unproblematisch, wenn die Stichprobe gross genug ist, weil dann der Zentrale Grenzwertsatz anwendbar ist. Zentraler Grenzwertsatz: Die Summe/der Mittelwert einer grossen Zahl von unabhängigen Zufallsvariablen mit endlicher und positiver Varianz ist asymptotisch annähernd normalverteilt (sogar wenn die Variable selbst nicht normalverteilt ist!). 5 / 41

6 / 41

Konsequenz aus MLR.6: ˆβ j N ( ) β j, var( ˆβ j ) Standardisierung führt zu folgendem Ergebnis: ˆβ j β j sd( ˆβ j ) N (0, 1) (Asymptotisch, d.h. in sehr grossen Stichproben wird MLR.6 aufgrund des Zentralen Grenzwertsatzes allerdings nicht benötigt!) 7 / 41

t-test: Einzelner-Parameter-Test 1 Populationsmodell: y = β 0 + β 1 x 1 + β 2 x 2 +... + β k x k + u 2 Nullhypothese: H 0 : β j = 0 3 t-verteilung für standardisierter Schätzer: ˆβ j β j se( ˆβ j ) t N k 1 wobei N = Stichprobengrösse und k + 1 = Anzahl Parameter 4 Test Statistik = t-statistik: t ˆβ j ˆβ j /se( ˆβ j ) Beachte: t ˆβj hat dasselbe Vorzeichen wie ˆβ j gegeben se( ˆβ j ), t ˆβ j steigt mit ˆβ j Interpretation: t ˆβj kann interpretiert werden als wieviele Standardabweichungen liegt ˆβ j von null enfernt 8 / 41

Einseitiger Hypothesentest: 1 Nullhypothese: H 0 : β j 0 Alternativhypothese: H 1 : β j > 0 2 Signifikanzniveau: α = 5% (alternativ α = 1%; 10%) 3 Verwerfungsregel: t ˆβj > c, wobei c dem 95sten Perzentil der t-verteilung mit N k 1 Freiheitsgraden entspricht, auch kritischer Wert genannt Intuition: Verwerfe wenn t ˆβ j gross genug ist, d.h. wenn t ˆβ j nicht im 95sten Perzentil der t-verteilung liegt. 9 / 41

10 / 41

11 / 41

Beispiel 12 / 41

Einseitiger Hypothesentest: 1 Nullhypothese: H 0 : β j 0 Alternativhypothese: H 1 : β j < 0 2 Signifikanzniveau: α = 5% (alternativ α = 1%; 10%) 3 Verwerfungsregel: t ˆβj < c, wobei c dem 95sten Perzentil der t-verteilung mit N k 1 Freiheitsgraden entspricht, auch kritischer Wert genannt 13 / 41

Beispiel: df = 18 (z.b. N = 20, k = 1) 14 / 41

Beispiel 15 / 41

Zweiseitiger Hypothesentest: 1 Nullhypothese: H 0 : β j = 0 Alternativhypothese: H 1 : β j 0 2 Signifikanzniveau: α = 5% (alternativ α = 1%; 10%) 3 Verwerfungsregel: t ˆβj > c, wobei c dem (100% α 2 Perzentil der t-verteilung mit N k 1 Freiheitsgraden entspricht t ˆβ j > c: ˆβ j ist statistisch signifikant bei einem Signifikanzniveau von α t ˆβ j < c: ˆβ j ist statistisch insignifikant 16 / 41

17 / 41

18 / 41

Beispiel 19 / 41

Weitere Hypothesen: H 0 : β j = θ j Zweiseitiger Hypothesentest H 0 : β j = θ j, H 1 : β j θ j Test-Statistik: t ˆβj = ˆβ j θ j se( ˆβ j ) Signifikanzniveau: α = 5% Kritischer Wert: c = 1.96 (vorausgesetzt N ist gross genug) 20 / 41

Beispiel 21 / 41

22 / 41

p-wert/p-value Der p-wert entspricht dem niedrigsten Signifikanzniveau bei welchem wir H 0 für eine gegebene t-statistik verwerfen würden. Signifikanzniveau der Test-Statistik p-wert/p-value = P( T > t ) 23 / 41

24 / 41

Beispiel 25 / 41

Konfidenzintervall Das Konfidenzintervall: β j = ˆβ j c se( ˆβ j ), β j = ˆβ j + c se( ˆβ j )CI = [β j ; β j ] Angenommen man würde eine sehr (unendlich) grosse Anzahl an Stichproben aus der Population ziehen und in jeder β j und β j berechnen, dann würde der wahre Wert β j mit einer Häufigkeit von 1 α (bezogen auf die Anzahl der gezogenen Stichproben) innerhalb von [β j ; β j ] liegen. (α gibt wiederum das Signifikanzniveau an.) Anders formuliert: Das Konfidenzintervall ist jenes Intervall, das bei unendlicher Wiederholung des Stichprobenziehung mit einer Häufigkeit von 1 α den wahren Wert β j inkludiert. Für α = 0.05 ist der wahre Wert von β j in 95% der Stichproben inkludiert (in 5% allerdings nicht). 26 / 41

Illustration Quelle: Wikipedia 27 / 41

Illustration 28 / 41

t-test: Einzelner-Parameter-Kombination 1 Lineares Modell: y = β 0 + β 1 x 1 + β 2 x 2 +... + β k x k + u 2 Nullhypothese: H 0 : β 1 = β 2 oder H 0 : β 1 β 2 = 0 3 Test-Statistik: t = ˆβ 1 ˆβ 2 se( ˆβ 1 ˆβ 2 ) Ab hier gehen wir vor wie zuvor: Wähle das Signifikanzniveau und bestimme den entsprechenden kritischen Wert, oder berechne die t-statistik und bestimme den entsprechenden p-wert. Achtung: se( ˆβ 1 ˆβ 2 ) = var( ˆβ 1 ˆβ 2 ) = var( ˆβ 1 ) + var( ˆβ 2 ) 2cov( ˆβ 1, ˆβ 2 ) 29 / 41

Beispiel 30 / 41

F-Test: Multiple lineare Restriktionen Nicht restringiertes Modell: y = β 0 + β 1 x 1 + β 2 x 2 +... + β k x k + u Nullhypothese: H 0 : β k q+1 = 0,..., β k 1 = 0, β k = 0 Testen von Ausschlussrestriktionen (exclusion restrictions) Achtung: t-test ist ungeeignet, da dieser die Parameter einzeln, unabhängig voneinander testet. Wir wollen die Parameter jedoch gemeinsam testen: Gemeinsamer Signifikanztest ( joint significance test ) Restringiertes Modell: y = β 0 + β 1 x 1 + β 2 x 2 +... + β k q x k q + u 31 / 41

F-Statistik: F = (SSR r SSR ur )/q SSR ur /(N k 1) SSR r =Summe der quadrierten Residuen (sum of squared residuals: SSR) der restringierten Schätzung SSRur =SSR der nicht restringierten Schätzung q = Freiheitsgrade des Zählers = dfr df ur N k 1 = Freiheitsgrade des Nenners Intuition: F-Statistik entspricht dem prozentualen Anstieg des unerklärten Teils, gewichtet mit den Freiheitsgraden Verwerfen: F > c (wobei c abhängt von q, N k 1 und α, mindestens ein Koeffizient ist statistisch signifikant) Nicht verwerfen: F c (Koeffizienten sind gemeinsam insignifikant) 32 / 41

33 / 41

34 / 41

F-Statistik: F = (SSR r SSR ur )/q SSR ur /(N k 1) Gegeben, dass SSR r = SST (1 R 2 r ) und SSR ur = SST (1 R 2 ur ) können wir die F-Statistik folgendermassen ausdrücken: F = (R 2 ur R 2 r )/q (1 R 2 ur )/(N k 1) Intuition: Die F-Statistik entspricht dem gewichteten Anstieg in R 2 wenn wir mehr Variablen mit ins Modell nehmen. 35 / 41

Beispiel (1) 36 / 41

Beispiel (2) 37 / 41

Beispiel (3) 38 / 41

F-Test: Test auf irgendwelche signifikanten Effekte ( overall significance test ) Besondere Form des Tests auf gemeinsame Signifikanz: Nullhypothese: H 0 : β 1 = 0, β 2 = 0,..., β k = 0 Nicht restringiertes Modell: y = β 0 + β 1 x 1 + β 2 x 2 +... + β k x k + u Restringiertes Modell: y = β 0 + u Achtung: R 2 r = 0 Test-Statistik: F = R 2 /k (1 R 2 )/(N k 1) 39 / 41

F-Test: Allgemeine lineare Restriktionen Nicht restringiertes Modell: y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + u Nullhypothese: H 0 : β 1 = 1, β 2 = 0, β 3 = 0, β 4 = 0 Restringiertes Modell: y x 1 = β 0 + u Test-Statistik: F = (SSR r SSR ur )/4 SSR ur /(N 4 1) 40 / 41

F-Test: p-werte p-value = P(F > F ) Niedrigstes Signifikanzniveau, bei welchem wir H 0 für eine gegebene Statistik verwerfen würden: Signifikanzniveau der Test-Statistik Zusammenhang zwischen F- und t-statistiken: y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + u H 0 : β 1 = 0; q = 1 Achtung: tn k 1 2 = F 1,N k 1 41 / 41