Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen

Analyse von Querschnittsdaten Spezifikation der unabhängigen Variablen

Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Annahmen gegeben? kategoriale Variablen Datum 3.0.004 0.0.004 7.0.004 03..004 0..004 7..004 4..004 0..004 08..004 5..004..004.0.005 9.0.005 6.0.005 0.0.005 Vorlesung Einführung Beispiele Daten Variablen Bivariate Regression Kontrolle von Drittvariablen Multiple Regression Statistische Inferenz Signifikanztests I Signifikanztests II Spezifikation der unabhängigen Variablen Spezifikation der Regressionsfunktion Heteroskedastizität Regression mit Dummy-Variablen Logistische Regression

Gliederung. Ist das Modell berechenbar?. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Was tun bei Fehlspezifikation?

Gliederung. Ist das Modell berechenbar? a. Konstanten, zu viele Variablen, lineare Abhängigkeiten b. hoch korrelierende Variablen. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Was tun bei Fehlspezifikation?

Annahmen Perfekte Korrelation unabhängiger Variablen

Berechenbarkeit der OLS-Schätzer Die unabhängige Variable muss Varianz aufweisen (darf keine Konstante sein). Die unabhängige Variable darf keine Linearkombination der anderen unabhängigen Variablen sein. Die Anzahl der Fälle muss größer als die Anzahl zu schätzender Parameter sein.

Gliederung. Ist das Modell berechenbar? a. Konstanten, zu viele Variablen, lineare Abhängigkeiten b. hoch korrelierende Variablen (Multikollinearität). Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation 5. Was tun bei Fehlspezifikation?

Multikollinearität erhöht Varianz der OLS-Schätzer! Var( ˆ β ) j = σ SST ( j R j ) mit SST j = n i= ( x ij x j ) Varianz ist unter anderem abhängig von: Korrelation der jeweiligen unabhängigen Variablen mit allen anderen unabhängigen Variablen (R j ist der Determinationskoeffizient der Regression von x j auf alle anderen unabhängigen Variablen) Je größer R j, desto größer die Varianz und dementsprechend der geschätzte Standardfehler weniger effiziente Schätzung, größere Konfidenzintervalle, weniger signifikante Tests

Ausmaß der Varianzinflation se( ˆ β ) ˆ σ ˆ σ SST ( R ˆ σ SST = = = j SSTj R ( j ) j j ) j VIF VIF = Variance Inflation Factor Durch die Multikollinearität wird der Standardfehler um den Faktor VIF erhöht. Korrelationsmatrix (zufällig ausgewählte Stichprobe, n=50) x x x 3 x 4 x 5 R² VIF Income,00 0,6,6 Prestige 0,6,00 0,7,86 Education 0,54 0,50,00 0,56,5 Attendance 0,07 0, 0,4,00 0,06,03 Size 0,08 0,7 0, -0,05,00 0,09,05 Quelle: Berry / Feldman (985: Table 4.) R² sqrtvif 3 4 5 0..4.6.8 x

Bei Simulation sichtbar? Analyse der Lebenszufriedenheit St. Regression: eine kleine Insel im Südpazifik mit 665 Einwohnern Lebenszufriedenheit (Index -0) Determinanten: Haushaltseinkommen, Berufsprestige, Ausbildungsdauer, Kirchgangshäufigkeit, Ortsgröße Haushaltseinkommen, Berufsprestige, Ausbildungsdauer korrelieren hoch untereinander Kirchgangshäufigkeit und Ortsgröße korrelieren nur geringfügig miteinander und mit den anderen drei Determinanten

Simulationsergebnisse Die geschätzten Regressionskoeffizienten der hoch korrelierenden Variablen streuen sehr stark. Simulation: 00 Replikationen mit n=50 (Quelle: Berry / Feldman 985)

Multikollinearität erhöht auch die Korrelation der OLS-Schätzer Sie sind zwar im Durchschnitt erwartungstreu, aber im Einzelfall ist jedoch eine Überschätzung des einen Effektes eher mit einer Unterschätzung des anderen Effektes verbunden und umgekehrt (positiv korrelierte unabhängige Variablen). Negativ korrelierte x positiv korrelierten Schätzern b b b4.5 _b[income] b.00 b -0.6.00 b4 0.04-0.4.00 0 -.5.6 _b[prestige].4. _b[attend] 0 -.5 0.5-.5 0.5

Wie erkennt man Multikollinearität? Alle Parametertests (T-Tests) nicht signifikant, aber das Modell als Ganzes (F-Test) ist signifikant Inspektion bivariater Korrelationen nicht sinnvoll Verwende VIF- bzw. Toleranzwerte (Toleranz = /VIF) Grenzwert schwierig festzulegen

Gegenmaßnahmen unnötig bei Prognosen unnötig wenn der interessierende Effekt nicht betroffen Nutzung von Vorwissen zur Vereinfachung des Regressionsmodells Indexbildung Entfernung einzelner Variablen simultane Tests mehrerer OLS-Schätzer

Arten von Fehlspezifikation Unterspezifikation: Vernachlässigung relevanter Variablen Im Regressionsmodell fehlen unabhängige Variablen, die einen Einfluss auf die abhängige Variable haben. Überspezifikation: Berücksichtigung irrelevanter Variablen Das Regressionsmodell enthält unabhängige Variablen, die (in Wahrheit) gar keinen Einfluss auf die abhängige Variable haben.

Unterspezifikation Grundgesamtheit y β + β x + x + = 0 β u Modell (korrekt) yˆ = ˆ β + ˆ β x + 0 ˆ β x Modell (unterspezifiziert) Beispiel Grundgesamtheit ~ ~ ~ y = β + β x 0 wage = f(educ, abil) Beispiel Modell wage = f(educ)

Überspezifikation Grundgesamtheit y = β 0 + β x + u Modell (korrekt) yˆ = ˆ β + 0 ˆ β x Modell (überspezifiziert) Beispiel Grundgesamtheit ~ ~ ~ ~ y = β + β x + β x 0 satisfac = f(income) Beispiel Modell satisfac = f(income, height)

Gliederung. Ist das Modell berechenbar?. Was tun bei Multikollinearität? 3. Fehlspezifikation der unabhängigen Variablen 4. Auswirkungen einer Fehlspezifikation a. auf die Erwartungstreue der Schätzung b. auf die Effizienz der Schätzung c. Unterspezifikation am Beispiel einer Simulation 5. Was tun bei Fehlspezifikation?

Annahmen Wenn die Fehlerterme u für jede Kombination der unabhängigen Variablen im Durchschnitt Null betragen, dann sind die OLS-Schätzer erwartungstreu (d.h., sie stimmen im Durchschnitt mit den entsprechenden Parametern der Grundgesamtheit überein).

Überspezifikation (revisited) Grundgesamtheit Modell (korrekt) Modell (überspezifiziert) y = β 0 + β x + u y = β + βx + βx + u, β yˆ = ˆ β + ˆ β x 0 = 0 ~ ~ ~ ~ y = β + β x + β x 0 0

Auswirkungen Überspezifikation Wenn in der GG gilt: y = β0 + βx + βx + u, β = 0 und folgende Annahme gegeben ist: E( u x, x) = 0 dann gilt für die OLS-Schätzer in Modell : ~ ~ E( β ) = β E( β ) = β = Überspezifikation unproblematisch 0

Auswirkungen Unterspezifikation Wenn in der GG gilt: y = β0 + βx + β x + u aber folgendes Modell unterstellt: y = β 0 + β x + v dann gilt für den Fehlerterm v: E ( v x ) 0, wenn Corr( x, x ) 0, da v = f ( x, u = β x + u ) Überspezifikation führt zu verzerrten Schätzungen

Verzerrung im trivariaten Fall Grundgesamtheit Modell (unterspezifiziert) Erwartungswert des Effektes wobei gilt: y β + β x + x + = 0 β ~ ~ ~ y = β + β x 0 ~ ~ E( β ) = β + β δ ~ ~ ~ x = δ + δ x 0 u

Verzerrung im trivariaten Fall Grundgesamtheit Modell (unterspezifiziert) Erwartungswert des Effektes wobei gilt: Verzerrung abhängig von y β + β x + x + = 0 β ~ ~ ~ y = β + β x 0 ~ ~ E( β ) = β + β δ ~ ~ ~ x = δ + δ x 0 Effekt von x auf y u

Verzerrung im trivariaten Fall Grundgesamtheit Modell (unterspezifiziert) Erwartungswert des Effektes wobei gilt: Verzerrung abhängig von y β + β x + x + = 0 β ~ ~ ~ y = β + β x 0 ~ ~ E( β ) = β + β δ ~ ~ ~ x = δ + δ x 0 Effekt von x auf y Korrelation von x und x u

Richtung der Verzerrung ~ ~ E( β ) = β + β δ Korrelation positiv Korrelation negativ Effekt positiv positiv negativ Effekt negativ negativ positiv

Beispiel Arbeitseinkommen wage = β 0 + β educ + β abil + u OLS mit wage.dta: log(wage) = 0,584 + 0,083educ, n=56, R =0,86 ~ ~ E( β ) = β + β δ Effekt positiv Korrelation positiv positiv Korrelation negativ negativ Effekt negativ negativ positiv

Verzerrung im multivariaten Fall Grundgesamtheit y β + β x + β x + β x + x + u = 0 3 3 β4 4 Modell : Auslassung einer Variablen (x ) Modell : Auslassung mehrerer Variablen (x, x 3 ) yˆ = ˆ β + ˆ β x + ˆ β x + ˆ β x 0 0 ~ ~ ~ ~ y = β + β x + β x 3 3 4 4 4 4

Verzerrung im multivariaten Fall Generell: Ausmaß der Verzerrung lässt sich weniger gut abschätzen Ausnahme: WO 93-95 Grund: alle unabhängigen Variablen können jeweils miteinander korrelieren Auslassung einer oder mehrerer relevanter Variablen führt in der Regel dazu, dass die Effekte aller im Modell berücksichtigten Variablen verzerrt sind Die Verzerrung ist nur dann gering, wenn die vernachlässigten Variablen gering mit den im Modell befindlichen Variablen korrelieren

Varianz der OLS-Schätzer Var( ˆ β ) j = σ SST ( j R j ) mit SST j = n i= ( x ij x j ) Varianz ist unter anderem abhängig von: Korrelation der jeweiligen unabhängigen Variablen mit allen anderen unabhängigen Variablen (R j ist der Determinationskoeffizient der Regression von x j auf alle anderen unabhängigen Variablen)

Anwendung: Überspezifikation Grundgesamtheit y = β 0 + β x + u Modell (korrekt) Modell (überspezifiziert) yˆ = ˆ β + ˆ β x 0 ~ ~ ~ ~ y = β + β x + β x 0 Varianz Modell (korrekt) Var( ˆ) β = σ SST Varianz Modell (überspez.) ~ σ Var( β) = SST ( R )

Auswirkungen Überspezifikation unproblematisch in Bezug auf Erwartungstreue (s. Teil.a) E ~ ( β ) = β erhöht aber die Standardfehler der im Modell berücksichtigten Variablen ~ σ Var( β = ) = > Var( ˆ β ) SST ( R ) σ SST

Anwendung Unterspezifikation Grundgesamtheit y β + β x + x + = 0 β u Modell (korrekt) Modell (unterspezifiziert) yˆ = ˆ β + ˆ β x + 0 0 ~ ~ ~ y = β + β x ˆ β x Varianz Modell (korrekt) ˆ σ Var( β) = SST ( R ) Varianz Modell (untersp.) ~ Var( β ) = σ SST

Auswirkungen Unterspezifikation problematisch in Bezug auf Erwartungstreue (s. Teil.a) ~ ~ E( β ) = β + β δ verringert aber die Standardfehler der im Modell berücksichtigten Variablen ~ σ ( ) ( ˆ σ Var β = < Var β) = SST SST ( R )

Analyse der Lebenszufriedenheit St. Regression: eine kleine Insel im Südpazifik mit 665 Einwohnern Lebenszufriedenheit (Index -0) Determinanten: Haushaltseinkommen, Berufsprestige, Ausbildungsdauer, Kirchgangshäufigkeit, Ortsgröße Haushaltseinkommen, Berufsprestige, Ausbildungsdauer korrelieren hoch untereinander Kirchgangshäufigkeit und Ortsgröße korrelieren nur geringfügig miteinander und mit den anderen drei Determinanten Zwei unterspezifizierte Modelle ii. Haushaltseinkommen bleibt unberücksichtigt iii. Kirchgangshäufigkeit bleibt unberücksichtigt

Simulationsergebnisse erhebliche Verzerrung max. 8% geringere Standardabweichung Simulation: 00 Replikationen mit n=50 (Quelle: Berry / Feldman 985) (ii) (hoch korrelierendes) Haushaltseinkommen unberücksichtigt

Simulationsergebnisse geringere Verzerrung max. 9% Standardabweichung kaum beeinflusst Simulation: 00 Replikationen mit n=50 (Quelle: Berry / Feldman 985) (ii) (gering korrelierende) Kirchgangshäufigkeit unberücksichtigt

Diagnose und Gegenmaßnahmen niedriger Determinationskoeffizient nicht ausreichend nicht signifikante OLS-Schätzer nicht ausreichend Gute Theorien!

Zum Schluss

Zusammenfassung Zu wenig Fälle, keine Varianz, perfekte Korrelation Hohe Korrelation Auslassung relevanter Variablen Berücksichtigung irrelevanter Variablen Schätzer nicht berechenbar Hohe Standardfehler, hohe Korrelation der Schätzer Verzerrte Schätzungen Hohe Standardfehler

Wichtige Fachausdrücke Deutsch Englisch Deutsch Englisch Fehlspezifikation misspecification Multikollinearität multicollinearity underspecification Unterspezifikation Faktor der Varianzinflation variance inflation factor overspecification Überspezifikation Toleranz tolerance Verzerrung bias Korrelation der Schätzer correlation of estimates

Weiterführende Literatur Berry und Feldman (985) Kapitel : Fehlspezifikation der unabhängigen Variablen Kapitel 4: Multikollinearität Wooldridge (003) WO 84-95 und darin die Abschnitte über Including irrelevant variables und Omitted variable bias WO 95-03 und darin die Abschnitte über Multicollinearity und Variances in misspecified models

Stata-Befehle Nach der Eingabe des Regressionskommandos reg kann man mit weiteren Befehlen zusätzliche (Test-)Ergebnisse abrufen vif Ausgabe der Varianzinflationsfaktoren für jede unabhängige Variable