Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen

Ähnliche Dokumente
Vorlesung 4: Spezifikation der unabhängigen Variablen

Analyse von Querschnittsdaten. Signifikanztests I Basics

Analyse von Querschnittsdaten. Spezifikation der Regressionsfunktion

Analyse von Querschnittsdaten. Statistische Inferenz

Vorlesung 3: Schätzverfahren

Analyse von Querschnittsdaten. Signifikanztests I Basics

Analyse von Querschnittsdaten. Heteroskedastizität

Zur Erinnerung: Annahmen

Analyse von Querschnittsdaten. Signifikanztests II Advanced Stuff

Analyse von Querschnittsdaten. Signifikanztests II Advanced Stuff

Vorlesung 12: Ausblick - Was wir nicht besprochen haben

Kapitel 10. Multikollinearität. Exakte Multikollinearität Beinahe Multikollinearität

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression

Proxies, Endogenität, Instrumentvariablenschätzung

Annahmen des linearen Modells

Statistik II Übung 2: Multivariate lineare Regression

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II

Spezifikationsprobleme Omitted Variable Bias

2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme)

Die Regressionsanalyse

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Computerübung 10. Empirische Wirtschaftsforschung. Willi Mutschler. 27. Januar Ökonometrie und Wirtschaftsstatistik Uni Münster

Prof. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse II: Lineare multiple Regression

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Teil: lineare Regression

Beispiel: Multiples Modell/Omitted Variable Bias I

ANOVA und Transformationen. Statistik II

Beispiel: Multiples Modell/Omitted Variable Bias I

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer

1 Einführung Ökonometrie... 1

Prof. Dr. Marc Gürtler WS 2014/2015. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft

(1 Punkt) i) Bestimmen Sie formal den marginalen Effekt der Häufigkeit des Alkoholkonsums für männliche

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Statistik II. IV. Hypothesentests. Martin Huber

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03

Lineare Regression. Kapitel Regressionsgerade

ANOVA und Transformationen

Bivariate Zusammenhänge

Tutorat: Angewandte Methoden der Politikwissenschaft FS18

Inferenz im multiplen Regressionsmodell

EGRESSIONSANALYSE AVID BUCHATZ NIVERSITÄT ZU KÖLN

Übung V Lineares Regressionsmodell

Modell (Konstante) 0,411 0,155 male 0,212 0,13 job 0,119 0,131 alcohol 0,255 0,05 a. Abhängige Variable: skipped

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2014/15. ( = 57 Punkte)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Lineare Regression II

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

x t2 y t = 160, y = 8, y y = 3400 t=1

Empirical Banking and Finance

Test von Hypothesen: Signifikanz des Zusammenhangs (F-Test)

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Vorlesung: Multivariate Statistik für Psychologen

Mehrdimensionale Zufallsvariablen

Musterlösung. Modulklausur Multivariate Verfahren

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Datenanalyse mit Excel und Gretl

Heteroskedastie. Test auf Heteroskedastie. Heteroskedastie bedeutet, dass die Varianz der Residuen in der Stichprobe nicht konstant ist.

Empirische Wirtschaftsforschung

Quantitative Methoden der Agrarmarktanalyse und des Agribusiness

Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse III: Diagnostik

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Mathematische und statistische Methoden I

Kapitel 3 Schließende Statistik

Bachelorprüfung WS 2012/13

11. Übungsblatt zur Vorlesung Ökonometrie SS 2014

Multivariate Verfahren

Ziel der linearen Regression

Einführung in die Induktive Statistik: Regressionsanalyse

1 Beispiel zur Methode der kleinsten Quadrate

Kausalanalyse. Einführung

Flussdiagramm der ökonometrischen Methode

Multivariate Verfahren

Interne und externe Modellvalidität

Statistik II. I. Einführung. Martin Huber

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Perfekte Multikollinearität III. Multikollinearität

2.5 Lineare Regressionsmodelle

Vorlesung 9: Kumulierte (gepoolte) Querschnittsdaten

Varianzkomponentenschätzung

Statistik II Übung 1: Einfache lineare Regression

Vorlesung: Lineare Modelle

Statistik II. IV. Hypothesentests. Martin Huber

Ökonometrie. Hans Schneeweiß. 3., durchgesehene Auflage. Physica-Verlag Würzburg-Wien 1978 ISBN

Instrumentvariablen und Instrumentvariablenschätzer

Bachelorprüfung WS 2012/13 - MUSTERLÖSUNG

Deskriptive Statistik und Explorative Datenanalyse

Transkript:

Analyse von Querschnittsdaten Spezifikation der unabhängigen Variablen

Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Annahmen gegeben? kategoriale Variablen Datum 3.0.004 0.0.004 7.0.004 03..004 0..004 7..004 4..004 0..004 08..004 5..004..004.0.005 9.0.005 6.0.005 0.0.005 Vorlesung Einführung Beispiele Daten Variablen Bivariate Regression Kontrolle von Drittvariablen Multiple Regression Statistische Inferenz Signifikanztests I Signifikanztests II Spezifikation der unabhängigen Variablen Spezifikation der Regressionsfunktion Heteroskedastizität Regression mit Dummy-Variablen Logistische Regression

Gliederung. Ist das Modell berechenbar?. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Was tun bei Fehlspezifikation?

Gliederung. Ist das Modell berechenbar? a. Konstanten, zu viele Variablen, lineare Abhängigkeiten b. hoch korrelierende Variablen. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Was tun bei Fehlspezifikation?

Annahmen Perfekte Korrelation unabhängiger Variablen

Berechenbarkeit der OLS-Schätzer Die unabhängige Variable muss Varianz aufweisen (darf keine Konstante sein). Die unabhängige Variable darf keine Linearkombination der anderen unabhängigen Variablen sein. Die Anzahl der Fälle muss größer als die Anzahl zu schätzender Parameter sein.

Gliederung. Ist das Modell berechenbar? a. Konstanten, zu viele Variablen, lineare Abhängigkeiten b. hoch korrelierende Variablen (Multikollinearität). Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Was tun bei Fehlspezifikation?

Multikollinearität erhöht Varianz der OLS-Schätzer! Var( ˆ β ) j = σ SST ( j R j ) mit SST j = n i= ( x ij x j ) Varianz ist unter anderem abhängig von: Korrelation der jeweiligen unabhängigen Variablen mit allen anderen unabhängigen Variablen (R j ist der Determinationskoeffizient der Regression von x j auf alle anderen unabhängigen Variablen) Je größer R j, desto größer die Varianz und dementsprechend der geschätzte Standardfehler weniger effiziente Schätzung, größere Konfidenzintervalle, weniger signifikante Tests

Ausmaß der Varianzinflation se( ˆ β ) ˆ σ ˆ σ SST ( R ˆ σ SST = = = j SSTj R ( j ) j j ) j VIF VIF = Variance Inflation Factor Durch die Multikollinearität wird der Standardfehler um den Faktor VIF erhöht. Korrelationsmatrix (zufällig ausgewählte Stichprobe, n=50) x x x 3 x 4 x 5 R² VIF Income,00 0,6,6 Prestige 0,6,00 0,7,86 Education 0,54 0,50,00 0,56,5 Attendance 0,07 0, 0,4,00 0,06,03 Size 0,08 0,7 0, -0,05,00 0,09,05 Quelle: Berry / Feldman (985: Table 4.) R² sqrtvif 3 4 5 0..4.6.8 x

Bei Simulation sichtbar? Analyse der Lebenszufriedenheit St. Regression: eine kleine Insel im Südpazifik mit 665 Einwohnern Lebenszufriedenheit (Index -0) Determinanten: Haushaltseinkommen, Berufsprestige, Ausbildungsdauer, Kirchgangshäufigkeit, Ortsgröße Haushaltseinkommen, Berufsprestige, Ausbildungsdauer korrelieren hoch untereinander Kirchgangshäufigkeit und Ortsgröße korrelieren nur geringfügig miteinander und mit den anderen drei Determinanten

Simulationsergebnisse Die geschätzten Regressionskoeffizienten der hoch korrelierenden Variablen streuen sehr stark. Simulation: 00 Replikationen mit n=50 (Quelle: Berry / Feldman 985)

Multikollinearität erhöht auch die Korrelation der OLS-Schätzer Sie sind zwar im Durchschnitt erwartungstreu, aber im Einzelfall ist jedoch eine Überschätzung des einen Effektes eher mit einer Unterschätzung des anderen Effektes verbunden und umgekehrt (positiv korrelierte unabhängige Variablen). Negativ korrelierte x positiv korrelierten Schätzern b b b4.5 _b[income] b.00 b -0.6.00 b4 0.04-0.4.00 0 -.5.6 _b[prestige].4. _b[attend] 0 -.5 0.5-.5 0.5

Gliederung. Ist das Modell berechenbar?. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Was tun bei Fehlspezifikation?

Wie erkennt man Multikollinearität? Alle Parametertests (T-Tests) nicht signifikant, aber das Modell als Ganzes (F-Test) ist signifikant Inspektion bivariater Korrelationen nicht sinnvoll Verwende VIF- bzw. Toleranzwerte (Toleranz = /VIF) Grenzwert schwierig festzulegen

Gegenmaßnahmen unnötig bei Prognosen unnötig wenn der interessierende Effekt nicht betroffen Nutzung von Vorwissen zur Vereinfachung des Regressionsmodells Indexbildung Entfernung einzelner Variablen simultane Tests mehrerer OLS-Schätzer

Gliederung. Ist das Modell berechenbar?. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Was tun bei Fehlspezifikation?

Arten von Fehlspezifikation Unterspezifikation: Vernachlässigung relevanter Variablen Im Regressionsmodell fehlen unabhängige Variablen, die einen Einfluss auf die abhängige Variable haben. Überspezifikation: Berücksichtigung irrelevanter Variablen Das Regressionsmodell enthält unabhängige Variablen, die (in Wahrheit) gar keinen Einfluss auf die abhängige Variable haben.

Unterspezifikation Grundgesamtheit y β + β x + x + = 0 β u Modell (korrekt) yˆ = ˆ β + ˆ β x + 0 ˆ β x Modell (unterspezifiziert) Beispiel Grundgesamtheit ~ ~ ~ y = β + β x 0 wage = f(educ, abil) Beispiel Modell wage = f(educ)

Überspezifikation Grundgesamtheit y = β 0 + β x + u Modell (korrekt) yˆ = ˆ β + 0 ˆ β x Modell (überspezifiziert) Beispiel Grundgesamtheit ~ ~ ~ ~ y = β + β x + β x 0 satisfac = f(income) Beispiel Modell satisfac = f(income, height)

Gliederung. Ist das Modell berechenbar?. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation a. auf die Erwartungstreue der Schätzung b. auf die Effizienz der Schätzung c. Unterspezifikation am Beispiel einer Simulation 5. Was tun bei Fehlspezifikation?

Annahmen Wenn die Fehlerterme u für jede Kombination der unabhängigen Variablen im Durchschnitt Null betragen, dann sind die OLS-Schätzer erwartungstreu (d.h., sie stimmen im Durchschnitt mit den entsprechenden Parametern der Grundgesamtheit überein).

Überspezifikation (revisited) Grundgesamtheit Modell (korrekt) Modell (überspezifiziert) y = β 0 + β x + u y = β + βx + βx + u, β yˆ = ˆ β + ˆ β x 0 = 0 ~ ~ ~ ~ y = β + β x + β x 0 0

Auswirkungen Überspezifikation Wenn in der GG gilt: y = β0 + βx + βx + u, β = 0 und folgende Annahme gegeben ist: E( u x, x) = 0 dann gilt für die OLS-Schätzer in Modell : ~ ~ E( β ) = β E( β ) = β = Überspezifikation unproblematisch 0

Auswirkungen Unterspezifikation Wenn in der GG gilt: y = β0 + βx + β x + u aber folgendes Modell unterstellt: y = β 0 + β x + v dann gilt für den Fehlerterm v: E ( v x ) 0, wenn Corr( x, x ) 0, da v = f ( x, u = β x + u ) Überspezifikation führt zu verzerrten Schätzungen

Verzerrung im trivariaten Fall Grundgesamtheit Modell (unterspezifiziert) Erwartungswert des Effektes wobei gilt: y β + β x + x + = 0 β ~ ~ ~ y = β + β x 0 ~ ~ E( β ) = β + β δ ~ ~ ~ x = δ + δ x 0 u

Verzerrung im trivariaten Fall Grundgesamtheit Modell (unterspezifiziert) Erwartungswert des Effektes wobei gilt: Verzerrung abhängig von y β + β x + x + = 0 β ~ ~ ~ y = β + β x 0 ~ ~ E( β ) = β + β δ ~ ~ ~ x = δ + δ x 0 Effekt von x auf y u

Verzerrung im trivariaten Fall Grundgesamtheit Modell (unterspezifiziert) Erwartungswert des Effektes wobei gilt: Verzerrung abhängig von y β + β x + x + = 0 β ~ ~ ~ y = β + β x 0 ~ ~ E( β ) = β + β δ ~ ~ ~ x = δ + δ x 0 Effekt von x auf y Korrelation von x und x u

Richtung der Verzerrung ~ ~ E( β ) = β + β δ Korrelation positiv Korrelation negativ Effekt positiv positiv negativ Effekt negativ negativ positiv

Beispiel Arbeitseinkommen wage = β 0 + β educ + β abil + u OLS mit wage.dta: log(wage) = 0,584 + 0,083educ, n=56, R =0,86 ~ ~ E( β ) = β + β δ Effekt positiv Korrelation positiv positiv Korrelation negativ negativ Effekt negativ negativ positiv

Verzerrung im multivariaten Fall Grundgesamtheit y β + β x + β x + β x + x + u = 0 3 3 β4 4 Modell : Auslassung einer Variablen (x ) Modell : Auslassung mehrerer Variablen (x, x 3 ) yˆ = ˆ β + ˆ β x + ˆ β x + ˆ β x 0 0 ~ ~ ~ ~ y = β + β x + β x 3 3 4 4 4 4

Verzerrung im multivariaten Fall Generell: Ausmaß der Verzerrung lässt sich weniger gut abschätzen Ausnahme: WO 93-95 Grund: alle unabhängigen Variablen können jeweils miteinander korrelieren Auslassung einer oder mehrerer relevanter Variablen führt in der Regel dazu, dass die Effekte aller im Modell berücksichtigten Variablen verzerrt sind Die Verzerrung ist nur dann gering, wenn die vernachlässigten Variablen gering mit den im Modell befindlichen Variablen korrelieren

Gliederung. Ist das Modell berechenbar?. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation a. auf die Erwartungstreue der Schätzung b. auf die Effizienz der Schätzung c. Unterspezifikation am Beispiel einer Simulation 5. Was tun bei Fehlspezifikation?

Varianz der OLS-Schätzer Var( ˆ β ) j = σ SST ( j R j ) mit SST j = n i= ( x ij x j ) Varianz ist unter anderem abhängig von: Korrelation der jeweiligen unabhängigen Variablen mit allen anderen unabhängigen Variablen (R j ist der Determinationskoeffizient der Regression von x j auf alle anderen unabhängigen Variablen)

Anwendung: Überspezifikation Grundgesamtheit y = β 0 + β x + u Modell (korrekt) Modell (überspezifiziert) yˆ = ˆ β + ˆ β x 0 ~ ~ ~ ~ y = β + β x + β x 0 Varianz Modell (korrekt) Var( ˆ) β = σ SST Varianz Modell (überspez.) ~ σ Var( β) = SST ( R )

Auswirkungen Überspezifikation unproblematisch in Bezug auf Erwartungstreue (s. Teil.a) E ~ ( β ) = β erhöht aber die Standardfehler der im Modell berücksichtigten Variablen ~ σ Var( β = ) = > Var( ˆ β ) SST ( R ) σ SST

Anwendung Unterspezifikation Grundgesamtheit y β + β x + x + = 0 β u Modell (korrekt) Modell (unterspezifiziert) yˆ = ˆ β + ˆ β x + 0 0 ~ ~ ~ y = β + β x ˆ β x Varianz Modell (korrekt) ˆ σ Var( β) = SST ( R ) Varianz Modell (untersp.) ~ Var( β ) = σ SST

Auswirkungen Unterspezifikation problematisch in Bezug auf Erwartungstreue (s. Teil.a) ~ ~ E( β ) = β + β δ verringert aber die Standardfehler der im Modell berücksichtigten Variablen ~ σ ( ) ( ˆ σ Var β = < Var β) = SST SST ( R )

Gliederung. Ist das Modell berechenbar?. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation a. auf die Erwartungstreue der Schätzung b. auf die Effizienz der Schätzung c. Unterspezifikation am Beispiel einer Simulation 5. Was tun bei Fehlspezifikation?

Analyse der Lebenszufriedenheit St. Regression: eine kleine Insel im Südpazifik mit 665 Einwohnern Lebenszufriedenheit (Index -0) Determinanten: Haushaltseinkommen, Berufsprestige, Ausbildungsdauer, Kirchgangshäufigkeit, Ortsgröße Haushaltseinkommen, Berufsprestige, Ausbildungsdauer korrelieren hoch untereinander Kirchgangshäufigkeit und Ortsgröße korrelieren nur geringfügig miteinander und mit den anderen drei Determinanten Zwei unterspezifizierte Modelle ii. Haushaltseinkommen bleibt unberücksichtigt iii. Kirchgangshäufigkeit bleibt unberücksichtigt

Simulationsergebnisse erhebliche Verzerrung max. 8% geringere Standardabweichung Simulation: 00 Replikationen mit n=50 (Quelle: Berry / Feldman 985) (ii) (hoch korrelierendes) Haushaltseinkommen unberücksichtigt

Simulationsergebnisse geringere Verzerrung max. 9% Standardabweichung kaum beeinflusst Simulation: 00 Replikationen mit n=50 (Quelle: Berry / Feldman 985) (ii) (gering korrelierende) Kirchgangshäufigkeit unberücksichtigt

Gliederung. Ist das Modell berechenbar?. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Was tun bei Fehlspezifikation?

Diagnose und Gegenmaßnahmen niedriger Determinationskoeffizient nicht ausreichend nicht signifikante OLS-Schätzer nicht ausreichend Gute Theorien!

Zum Schluss

Zusammenfassung Zu wenig Fälle, keine Varianz, perfekte Korrelation Hohe Korrelation Auslassung relevanter Variablen Berücksichtigung irrelevanter Variablen Schätzer nicht berechenbar Hohe Standardfehler, hohe Korrelation der Schätzer Verzerrte Schätzungen Hohe Standardfehler

Wichtige Fachausdrücke Deutsch Englisch Deutsch Englisch Fehlspezifikation misspecification Multikollinearität multicollinearity underspecification Unterspezifikation Faktor der Varianzinflation variance inflation factor overspecification Überspezifikation Toleranz tolerance Verzerrung bias Korrelation der Schätzer correlation of estimates

Weiterführende Literatur Berry und Feldman (985) Kapitel : Fehlspezifikation der unabhängigen Variablen Kapitel 4: Multikollinearität Wooldridge (003) WO 84-95 und darin die Abschnitte über Including irrelevant variables und Omitted variable bias WO 95-03 und darin die Abschnitte über Multicollinearity und Variances in misspecified models

Stata-Befehle Nach der Eingabe des Regressionskommandos reg kann man mit weiteren Befehlen zusätzliche (Test-)Ergebnisse abrufen vif Ausgabe der Varianzinflationsfaktoren für jede unabhängige Variable