Kap. 8: Regression mit Paneldaten

Transkript

1 Kap. 8: Regression mit Paneldaten Einführung Paneldaten für zwei Perioden Regression mit festen Effekten bzgl. Individuen Regression mit festen Effekten bzgl. Zeit Annahmen in der Paneldatenanalyse Empirisches Beispiel: Tödliche Unfälle und Alkohol

2 8.1 Einführung Gefahr für jede Regressionsanalyse: Verzerrung durch vergessene Variablen. Man kann aber bzgl. des Einflusses vergessener Variablen kontrollieren ohne diese überhaupt zu beobachten falls Paneldaten erhältlich sind. Trick: untersuche Änderungen der Variablen über die Zeit. Idee: Falls vergessene Variable im Zeitablauf unverändert bleibt, kann sie nicht für Änderungen von Y verantwortlich sein! Bedeutung von Paneldaten nimmt zu: mehr Datensätze verfügbar (Schweizer Haushaltspanel, Panel Study of Income Dynamics (U Michigan), Sozioökonomisches Panel (GSOEP),... ) in letzten 15 Jahren starker Aufschwung bei Panel Methoden Empirisches Beispiel: (aus C.J. Ruhm, J. Health Economics 1996) Effekt von Alkoholsteuer und Strafen bei Trunkenheit am Steuer auf Verkehrsunfälle C. Kleiber: Ökonometrie 1 Kap. 8-1 U Basel, HS 2008

3 8.1 Einführung Paneldaten (longitudinale Daten): n Beobachtungseinheiten zu T Zeitpunkten Notation: (X it, Y it), i = 1,..., n, t = 1,..., T. Terminologie: balanciertes Panel: Daten sind für alle Untersuchungseinheiten zu allen Zeitpunkten verfügbar unbalanciertes Panel: es gibt fehlende Werte für mindestens eine Untersuchungseinheit zu mindestenes einem Zeitpunkt Beispiel: n = 48 Bundesstaaten der USA über T = 7 Jahre (ohne Alaska und Hawaii) Datensatz enthält: Anzahl tödlicher Unfälle pro Jahr, Art der Strafgesetze, Biersteuer Konstruiere daraus Anzahl tödlicher Unfälle Y it = Einwohnerzahl des Staates und X it = Biersteuer (real, d.h. in Preisen von 1988). i = 1,..., 48 und t = 1,..., 7 (nämlich für die Jahre ) ergeben 48 7 = 336 Beobachtungen balanciertes Panel. C. Kleiber: Ökonometrie 1 Kap. 8-2 U Basel, HS 2008

4 8.1 Einführung R> data("fatalities", package = "AER") Wir beginnen mit Querschnittsregressionen: R> f1982 <- subset(fatalities, year == "1982") R> fm82 <- lm(i(fatal/pop * 10000) ~ beertax, data = f1982) R> f1988 <- subset(fatalities, year == "1988") R> fm88 <- lm(i(fatal/pop * 10000) ~ beertax, data = f1988) C. Kleiber: Ökonometrie 1 Kap. 8-3 U Basel, HS 2008

5 8.1 Einführung beertax fatality rate beertax fatality rate C. Kleiber: Ökonometrie 1 Kap. 8-4 U Basel, HS 2008

6 8.1 Einführung Irritierend: beide Geraden haben positive Steigung Verdacht auf vergessene Variablen: Verkehrsdichte, Zustand der Strassen, Stadt Land Verhältnis, soziale Akzeptanz des Alkoholkonsums? Beispiel: Verkehrsdichte beeinflusst Unfälle. Falls Staaten mit geringerer Verkehrsdichte niedrigere Alkoholsteuer haben, besteht Verdacht auf Verzerrung durch vergessene Variablen. Problem: nicht alle diese Variablen sind erhältlich. C. Kleiber: Ökonometrie 1 Kap. 8-5 U Basel, HS 2008

7 8.2 Paneldaten für zwei Perioden Grundidee: Modell sei Y it = β 0 + β 1 X it + β 2 Z i + u it also Z i im Zeitablauf konstant (kulturelle Einstellungen zum Alkohol?). Effekt von Z i lässt sich eliminieren, falls Daten für (mind.) 2 Jahre beschaffbar. Formal: Y i,1988 = β 0 + β 1 X i, β 2 Z i + u i,1988 Y i,1982 = β 0 + β 1 X i, β 2 Z i + u i,1982 Differenzenbildung liefert Y i,1988 Y i,1982 = β 1 (X i,1988 X i,1982 ) + (u i,1988 u i,1982 ) Annahme: E(u it X i1,..., X it, Z i ) = 0. Per Annahme korreliert u i,1988 u i,1982 weder mit X i,1988 noch mit X i,1982. Kann mit OLS geschätzt werden obwohl Z i gar nicht beobachtbar! C. Kleiber: Ökonometrie 1 Kap. 8-6 U Basel, HS 2008

8 8.2 Paneldaten für zwei Perioden Im Beispiel: Ŷ i,1982 = X i,1982 Ŷ i,1988 = X i,1988 Regression für Differenzen liefert aber R> ydiff <- (with(f1988, fatal/pop) - with(f1982, fatal/pop))*10000 R> beertaxdiff <- f1988$beertax - f1982$beertax R> fmdiff <- lm(ydiff ~ beertaxdiff) R> coeftest(fmdiff, vcov = sandwich) t test of coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) beertaxdiff also Y i,1988 Y i,1982 = (X i,1988 X i,1982 ) C. Kleiber: Ökonometrie 1 Kap. 8-7 U Basel, HS 2008

9 8.2 Paneldaten für zwei Perioden beertaxdiff ydiff C. Kleiber: Ökonometrie 1 Kap. 8-8 U Basel, HS 2008

10 8.3 Regression mit festen Effekten bzgl. Individuen Was tun bei mehr als 2 Perioden (Datensatz umfasst 7 Jahre)? Regression kann umformuliert werden: Y it = β 0 + β 1 X it + β 2 Z i + u it mit n 1 binären Variablen ( Dummies ) mit fixed effects Ansatz C. Kleiber: Ökonometrie 1 Kap. 8-9 U Basel, HS 2008

11 8.3 Regression mit festen Effekten bzgl. Individuen Fixed Effects-Ansatz: Y it = β 0 + β 2 Z i + β 1 X it + u it =: α i + β 1 X it + u it also staaten-spezifische Achsenabschnitte (insg. 48 in Statistik-Terminologie: Faktor Staat mit 48 Stufen) Dummy-Version: Wir wissen: Faktor mit n Stufen lässt sich durch n Indikatorvariablen beschreiben. Wird wie üblich ein Achsenabschnitt ins Modell aufgenommen, muss auf eine Indikatorvariable verzichtet werden (warum?). Weglassen der ersten Kategorie (repräsentiert durch Indikator D1) ergibt Y it = β 0 + β 1 X it + γ 2 D2 i + γ 3 D3 i γ n Dn i + u it Im Prinzip kann dieses Modell mit OLS geschätzt werden nichts Neues. Aber: in typischen Panel-Anwendungen ist n sehr gross (n=10000 oder mehr), so dass oder mehr Parameter geschätzt werden müssten für die man sich noch nicht einmal interessiert (sie fangen ja nur weitere Einflussgrössen auf). C. Kleiber: Ökonometrie 1 Kap U Basel, HS 2008

12 8.3 Regression mit festen Effekten bzgl. Individuen Lösung: verwende anderen Algorithmus zur Bestimmung der Schätzungen. Da im Bsp. nur ein (!) Koeffizient von Interesse, bereinige bzgl. fester Effekte durch Zentrieren. Heisst in Panel-Literatur Within-Transformation. Gleichung für gemittelte Werte ist Ȳ i = α i + β 1 Xi + ū i Gleichung für zentrierte Werte ist dann mit Ȳi = 1 T T Y it, etc. t=1 Y it Ȳi = β 1 (X it X i ) + (u it ū i ) OLS-Regression der zentrierten Variablen heisst in in Panel-Literatur Within-Schätzung. Man kann zeigen: diese Schätzung von β 1 ist numerisch identisch zur Schätzung in der Dummy-Version. Bei T = 2 auch identisch zur Schätzung in Differenzen, falls dort auf einen Achsenabschnitt verzichtet wird. C. Kleiber: Ökonometrie 1 Kap U Basel, HS 2008

13 8.3 Regression mit festen Effekten bzgl. Individuen Im Beispiel: R> fmfes <- lm(i(fatal/pop * 10000) ~ beertax + state - 1, + data = Fatalities) R> coeftest(fmfes, vcov = sandwich)[1,] Estimate Std. Error t value Pr(> t ) Schätzung nicht identisch zur Schätzung über Differenzen zwischen 1988 und 1982 (warum?) Standardfehler kleiner als im Zwei-Perioden-Ansatz (warum?) C. Kleiber: Ökonometrie 1 Kap U Basel, HS 2008

14 8.4 Regression mit festen Effekten bzgl. Zeit Denkbar sind auch Variablen, die über die Zeit, aber nicht die Staaten variieren: Sicherheit der Autos, Gesetzesänderungen auf nationaler Ebene, etc. Führt auf Achsenabschnitte, die über die Perioden variieren (Faktor Zeit ): oder auch Y it = β 0 + β 1 X it + β 2 S t + u it =: λ t + β 1 X it + u it Y it = β 0 + β 1 X it + δ 2 B2 t + δ 3 B3 t δ n BT t + u it C. Kleiber: Ökonometrie 1 Kap U Basel, HS 2008

15 8.4 Regression mit festen Effekten bzgl. Zeit Erweiterung: Kombination von Individuen- und Zeiteffekten Y it = β 0 + β 1 X it + γ 2 D2 i + γ 3 D3 i γ n Dn i + δ 2 B2 t + δ 3 B3 t δ T BT t + u it Modell eliminiert Verzerrung durch vergessene Variablen, die über Staaten oder über Zeit konstant sind. In Fixed-Effects-Formulierung: Y it = β 1 X it + α i + λ t + u it C. Kleiber: Ökonometrie 1 Kap U Basel, HS 2008

16 8.4 Regression mit festen Effekten bzgl. Zeit Im Beispiel: R> fmfest <- lm(i(fatal/pop * 10000) ~ -1 + beertax + state + year, + data = Fatalities) R> coeftest(fmfest, vcov = sandwich)[1,] Estimate Std. Error t value Pr(> t ) Modell enthält auf der rechten Seite Biersteuer, keinen Achsenabschnitt, 48 Indikatorvariablen für Staaten und 6 Indikatorvariablen für Perioden insg. also = 55 Variablen davon hier nur ein Koeffizient von Interesse. Es ist üblich, die festen Effekten nicht in den Regressionsoutput aufzunehmen. Schätzung mit Zeit-Effekten unterscheidet sich nur wenig von Schätzung ohne Zeit-Effekte. diese Spezifikation ist abgesichert gegen unbeobachtete ( vergessene ) Variablen, die konstant über Untersuchungseinheiten und/oder über die Zeit sind. Es könnte aber noch weitere Einflussgrössen geben, auf die dies nicht zutrifft! C. Kleiber: Ökonometrie 1 Kap U Basel, HS 2008

17 8.5 Annahmen in Paneldaten-Modellen Modell mit festen Effekten (bzgl. i) und einem echten Regressor: Y it = α i + β 1 X it + u it Annahmen: (A1) E(u i X i1,..., X it, α i ) = 0 (A2) (X i1,..., X it, u i1,..., u it ), i = 1,..., n, sind u.i.v. (Unabh. im Querschnitt!) (A3) X it, u it haben je 4 Momente (A4) Regressoren sind nicht linear abhängig (keine perfekte Multikollinearität ) (A5) Cov(u is, u it X i1,..., X it, α i ) = 0 für t s Dabei (A3) und (A4) bekannt, (A1) und (A2) modifiziert, (A5) neu. C. Kleiber: Ökonometrie 1 Kap U Basel, HS 2008

18 8.5 Annahmen in Paneldaten-Modellen Diskussion der Annahmen: (A3) und (A4) sind unverändert. (A1) und (A2) sind Verallgemeinerungen der alten Annahmen. Achtung: (A2) verlangt Unabhängigkeit im Querschnitt (Untersuchungseinheiten), nicht über Zeit! (A5) besagt, dass Fehler über die Zeit nicht korrelieren, gegeben die Regressoren. Im Beispiel: u it fängt weitere Einflüsse auf, z.b. Wetter. Bedingung wäre bspw. verletzt, wenn schneereiche Winter gehäuft auftreten. Korrelation über die Zeit heisst Autokorrelation. (A5) verlangt: keine Autokorrelation in Fehlerterm. Es gibt Formeln für Standardfehler, die nicht nur gegen Heteroskedastie, sondern auch gegen Autokorrelation absichern können: Heteroskedastie- und autokorrelationskonsistente (HAC) Standardfehler. Und schliesslich auch noch verschiedene Panel-robuste Standardfehler (oft genannt clustered standard errors ). C. Kleiber: Ökonometrie 1 Kap U Basel, HS 2008

19 8.6 Datenanalyse: Tödliche Unfälle und Alkohol Hintergrund: in USA ca Verkehrstote jährlich (1990er Jahre) Haupttodesursache für Personen unter 40 1/3 der Unfälle mit Trunkenheit am Steuer Schätzung: Problem besteht bei 25% der Fahrer zw. 1 und 3 Uhr nachts Politikmassnahmen: Mindeststrafen Mindestalter für Alkoholkonsum ökonomische Interventionen (Alkoholsteuern) C. Kleiber: Ökonometrie 1 Kap U Basel, HS 2008

20 8.6 Datenanalyse: Tödliche Unfälle und Alkohol Regression mit weiteren relevanten Variablen: Gesetzgebung zu Trunkenheit am Steuer, ökonomische Rahmenbedingungen. R> fm <- lm(i(fatal/pop * 10000) ~ beertax + drinkage + jail + service + + miles + unemp + log(income) + state + year, data = Fatalities) R> round(coeftest(fm, vcov = sandwich)[2:8,], 3) Estimate Std. Error t value Pr(> t ) beertax drinkage jailyes serviceyes miles unemp log(income) C. Kleiber: Ökonometrie 1 Kap U Basel, HS 2008

21 8.6 Datenanalyse: Tödliche Unfälle und Alkohol Sind Zeiteffekte nötig? R> fm_notime <- update(fm,. ~. - year) R> waldtest(fm_notime, fm, vcov = sandwich) Wald test Model 1: I(fatal/pop * 10000) ~ beertax + drinkage + jail + service + miles + unemp + log(income) + state Model 2: I(fatal/pop * 10000) ~ beertax + drinkage + jail + service + miles + unemp + log(income) + state + year Res.Df Df F Pr(>F) e-14 C. Kleiber: Ökonometrie 1 Kap U Basel, HS 2008

22 8.6 Datenanalyse: Tödliche Unfälle und Alkohol Hauptergebnisse: Vorzeichen des Effekts der Steuer ändert sich, sobald feste Effekte eingebaut werden (Hinweis auf Verzerrung durch vergessene Variablen!) Effekt der Steuer nimmt ab, wenn andere Gesetze berücksichtigt werden Wichtigste Politik-Variable scheint dennoch Alkoholsteuer nicht Strafen (!) Aber: Grösse des Effekts kann nur ungenau geschätzt werden. Beispiel: Erhöhung der Steuer um $0.50 ist verbunden mit Verringerung um = 0.23 (pro Einwohner). Da Standardfehler 0.201, ist ein 95% Konfidenzintervall gegeben durch: ± = ( 0.427, 0.033) Also Effekt negativ, aber möglicherweise sehr nahe Null! C. Kleiber: Ökonometrie 1 Kap U Basel, HS 2008

23 8.6 Datenanalyse: Tödliche Unfälle und Alkohol Abschliessende Bemerkungen: Vorteile der Fixed-Effects-Methoden: kontrollieren bzgl. unbeobachteter Variablen, die nur über Staaten oder Zeit variieren einfache Erweiterung der multiplen Regressionsmethoden Nachteile der Fixed-Effects-Methoden: brauchen Variation in X über Zeit innerhalb Staaten wie behandelt man dynamische Aspekte? hier benutzte Standardfehler evtl. falsch, da Korrelation über Zeit unberücksichtigt Hier wurden alle Modelle in R mit der üblichen Funktion lm() geschätzt, dies ist hier möglich, da n klein. Es gibt auch richtige Panel-Methoden im R-Zusatzpaket plm. C. Kleiber: Ökonometrie 1 Kap U Basel, HS 2008