Kap. 6: Lineare Regression (Ein bisschen) Theorie Lineare Regression in Matrixform Verteilung des KQ-Schätzers Standardfehler für OLS Der Satz von Gauss-Markov Das allgemeine lineare Regressionsmodell Lineare Hypothesen (Matrixversion)
6.1 Lineare Regression in Matrixform Definiere X = Y = Y 1 Y 2. Y n, β = β 0 β 1. β k 1 X 11 X 12 X 1k 1. X 21 X 22 X 2k 1 X n1 X n2 X nk, U = = X 1 X 2. X n, u 1 u 2. u n, damit lässt sich das lineare Regressionsmodell kompakter schreiben in der Form oder noch kompakter als Y i = X i β + u i Y = Xβ + U C. Kleiber: Ökonometrie 1 Kap. 6-1 U Basel, HS 2009
6.1 Lineare Regression in Matrixform OLS in Matrixform: Schätzer ist definiert durch Q( ˆβ) = n i=1 (Y i X i ˆβ) 2 = (Y X ˆβ) (Y X ˆβ) min β! Löse also Q ˆβ = 2X (Y X ˆβ) = 0 Dies ist äquivalent zu den Normalengleichungen (OLS-Schätzgleichungen) X X ˆβ = X Y Falls nun die Matrix X X regulär (d.h. invertierbar) ist, gilt ˆβ = (X X) 1 X Y = ( X i X i i=1 ) 1 X i Y i i=1 Dies ist die allgemeine Form des KQ-Schätzers, gilt für jede Anzahl von Regressoren k. C. Kleiber: Ökonometrie 1 Kap. 6-2 U Basel, HS 2009
6.1 Lineare Regression in Matrixform Momente von Zufallsvektoren: E(Y) := E(Y 1 ) E(Y 2 ). E(Y n ) Es gilt: Cov(Y) = E { (Y E(Y))(Y E(Y)) } = E(YY ) E(Y)E(Y) E(AY + b) = AE(Y) + b Cov(AY + b, BY) = ACov(Y)B, insb. ist Cov(AY) = ACov(Y)A. C. Kleiber: Ökonometrie 1 Kap. 6-3 U Basel, HS 2009
6.1 Lineare Regression in Matrixform Annahmen im linearen Regressionsmodell: (A1) E(U X) = 0 (A2) (X i, Y i), i = 1,..., n, sind u.i.v. (A3) X ij, j = 1,..., n, und u i haben je 4 Momente, d.h. E(Xij) 4 < und E(u 4 i ) < (A4) X hat vollen Spaltenrang, d.h. rg(x) = k + 1. Annahmen genügen schon (s.u.) für n( ˆβ β) d N (0, Σ) damit approximative Inferenz in grossen Stichproben möglich. C. Kleiber: Ökonometrie 1 Kap. 6-4 U Basel, HS 2009
6.1 Lineare Regression in Matrixform Annahmen im linearen Regressionsmodell: In der klassischen Statistik (und älteren Ökonometrie-Lehrbüchern) nimmt man oft an (A1) X ist nicht zufällig (A2) E(U) = 0 (A3) die Y i, i = 1,..., n, sind unabhängig (A4) X hat vollen Spaltenrang, d.h. rg(x) = k + 1 (A5) Cov(U) = σ 2 I n (Homoskedastie) (A6) die Verteilung der u i ist eine Normalverteilung Zusammengefasst sagen (A2), (A5) und (A6) dann U N (0, σ 2 I n ). Unter diesen Annahmen sind sogar exakte Verteilungsaussagen in endlichen Stichproben möglich. C. Kleiber: Ökonometrie 1 Kap. 6-5 U Basel, HS 2009
6.2 Verteilung des KQ-Schätzers Erwartungswert von OLS: Der Erwartungswert ist linear, d.h. E(aY +b) = ae(y )+b, eine Matrixversion dieser Aussage ist E(AY + b) = AE(Y) + b Damit kann man zeigen: E[(X X) 1 X Y] = E X E u X [(X X) 1 X Y X] = E X [(X X) 1 X E u X (Y X)] = E X [(X X) 1 X E u X (Xβ + U X)] = E X [(X X) 1 X Xβ + (X X) 1 X E u X (U X)] = β also ist OLS unter (A1) (A4) erwartungstreu. (Welche Annahme wird wo benutzt?) C. Kleiber: Ökonometrie 1 Kap. 6-6 U Basel, HS 2009
6.2 Verteilung des KQ-Schätzers Approximative Verteilung von OLS: (Skizze der Herleitung) OLS ist ˆβ = (X X) 1 X Y Zentrieren ergibt ˆβ β = (X X) 1 X U Unter unseren Annahmen lässt sich die Grenzverteilung dieses Objektes angeben. Zur Anwendung eines zentralen Grenzwertsatzes skalieren wir zunächst noch mit n: n( ˆβ β) = ( 1 n X X) 1 n 1 n X U Dann gilt mit einem passenden Gesetz der grossen Zahlen 1 n X X = 1 n n X i X i i=1 P E(X i X i ) =: Q X C. Kleiber: Ökonometrie 1 Kap. 6-7 U Basel, HS 2009
6.2 Verteilung des KQ-Schätzers Weiter gilt mit einem passenden zentralen Grenzwertsatz 1 n X U = 1 n n i 1 X i u i = 1 n n i 1 V i d V ( R k+1 ) mit V N(0, Σ V ) und Σ V = E(V i V i ) = Cov(V i) = Cov(X i u i ). Beachte: E(V i ) = 0 (warum?). Insgesamt ergibt sich wobei n( ˆβ β) d Q 1 X V, Cov(Q 1 X V) = Q 1 X Σ V Q 1 X eine Sandwich-Formel für die (approximative) Kovarianzmatrix. C. Kleiber: Ökonometrie 1 Kap. 6-8 U Basel, HS 2009
6.3 Standardfehler für OLS Berechnung der Varianz(-Kovarianz-Matrix) von OLS: Warum überhaupt Kovarianzen? Wir haben i.a. mindestens 2 Schätzer, nämlich mindestens ˆβ 0 und ˆβ 1, und diese sind aus der gleichen Stichprobe berechnet und damit i.a. korreliert. Dies muss bei diversen Berechnungen (insb. Tests) berücksichtigt werden. Eine analoge Rechenregel zu Var(aY + b) = a 2 Var(Y ) aus Statistik-Grundvorlesungen ist Cov(AY + b) = ACov(Y)A Damit kann man insb. die Kovarianzmatrix von OLS kompakt herleiten. C. Kleiber: Ökonometrie 1 Kap. 6-9 U Basel, HS 2009
6.3 Standardfehler für OLS Unter (bedingter) Heteroskedastie Cov(U X) = Ω = diag (σ1, 2..., σn) 2 ergibt sich nun (nicht approximativ, sondern exakt!) Cov( ˆβ X) = Cov((X X) 1 X Y X) = (X X) 1 X Cov(Y X) X(X X) 1 = (X X) 1 X Cov(U X) X(X X) 1 =: (X X) 1 X Ω X(X X) 1 ( ) 1 ( ) ( = X i X i σi 2 X i X i X i X i i=1 i=1 i=1 ) 1 also eine Sandwich-Formel. Für eine Schätzung dieser Kovarianz wird nun einfach Ω durch ˆΩ ersetzt. C. Kleiber: Ökonometrie 1 Kap. 6-10 U Basel, HS 2009
6.3 Standardfehler für OLS Die heteroskedastie-konsistente oder -robuste Kovarianzmatrixschätzung (HC- Schätzung, Eicker-White-Schätzung) benutzt Also ˆΩ := diag (û 2 1,..., û 2 n) Ĉov( ˆβ X) = (X X) 1 X ˆΩX (X X) 1 ( n ) 1 ( = X i X i û 2 i X i X i i=1 ein Sandwich-Schätzer der OLS-Kovarianzmatrix. Dies ist der Schätzer bei Aufrufen der Art R> waldtest(fm, vcov = sandwich) i=1 ) ( X i X i i=1 ) 1 C. Kleiber: Ökonometrie 1 Kap. 6-11 U Basel, HS 2009
6.3 Standardfehler für OLS Standardfehler unter (bedingter) Homoskedastie: Nehme zusätzlich an dann gilt Cov(U X) = σ 2 I Cov( ˆβ X) = Cov((X X) 1 X Y X) = (X X) 1 X Cov(Y X) X(X X) 1 = (X X) 1 X Cov(U X) X(X X) 1 = (X X) 1 X σ 2 I n X(X X) 1 = σ 2 (X X) 1 C. Kleiber: Ökonometrie 1 Kap. 6-12 U Basel, HS 2009
6.3 Standardfehler für OLS Zur Schätzung dieser Kovarianzmatrix braucht man also nur noch eine Schätzung von σ 2. Damit gilt unter Homoskedastie Ĉov( ˆβ X) = ˆσ 2 (X X) 1 Dies ist die Kovarianzmatrix-Schätzung aus der klassischen Statistik und aus der älteren ökonometrischen Literatur. Der benötigte Schätzer für σ 2 ist ˆσ 2 = 1 n k 1 n i=1 û 2 i In R ist dies der Schätzer bei Aufrufen der Art R> waldtest(fm) und insb. im Standard-Regressionsoutput R> summary(fm) C. Kleiber: Ökonometrie 1 Kap. 6-13 U Basel, HS 2009
6.4 Der Satz von Gauss-Markov Heteroskedastie, Homoskedastie und (A1) (A3) Annahmen (A1) (A3) sagen nichts über Cov(U X) Heteroskedastie erlaubt Homoskedastie ist für theoretische Zwecke einfacher zu behandeln und erlaubt stärkere Aussagen: Formeln für Standardfehler vereinfachen sich (s.o.) OLS hat Optimalitätseigenschaften (s.u.) Wir beschränken uns hier auf lineare Einfachregression Y i = β 0 + β 1 X i + u i Beweis für multiple Regression mit Matrixalgebra vgl. Stock und Watson (2007, App. 18.5). C. Kleiber: Ökonometrie 1 Kap. 6-14 U Basel, HS 2009
6.4 Der Satz von Gauss-Markov Falls wir zusätzlich zu (A1) (A3) annehmen, dass die Fehlerterme u i bedingt homoskedastisch sind, lässt sich eine Optimalitätseigenschaft (Effizienz) des KQ-Schätzers zeigen. Es gilt dann ein klassisches Resultat der Regressionsanalyse: Satz von Gauss-Markov. Unter den Annahmen 1. E(u i X 1,..., X n ) = 0 2. Var(u i X 1,..., X n ) = σ 2 u, mit 0 < σ 2 u < 3. E(u i u j X 1,..., X n ) = 0 für alle i j gilt für jeden anderen linearen und (bedingt) erwartungstreuen Schätzer β j Var( ˆβ j X 1,..., X n ) Var( β j X 1,..., X n ) d.h. OLS liefert den besten (im Sinne kleinster Varianz) linearen unverzerrten Schätzer, kurz: den BLUE ( best linear unbiased estimator ). C. Kleiber: Ökonometrie 1 Kap. 6-15 U Basel, HS 2009
6.4 Der Satz von Gauss-Markov Fragen: 1. Wie verhalten sich die Gauss-Markov-Annahmen zu unseren Annahmen (A1) (A3) und der Zusatzannahme Var(u i X i ) = σ 2 u? 2. Warum ist OLS ein linearer (bedingt) unverzerrter Schätzer? 3. Warum gilt Gauss-Markov? Zu 1: Gauss-Markov-Annahmen sind unter obigen Annahmen erfüllt: E(u i X 1,..., X n ) = E(u i X i ) = 0 wegen u.i.v. und (A1) Var(u i X 1,..., X n ) = Var(u i X i ) = σ 2 u wegen u.i.v. und Zusatzannahme E(u i u j X 1,..., X n ) = E(u i u j X i, X j ) = E(u i X i )E(u j X j ) = 0 wegen u.i.v. und (A1), für alle i j C. Kleiber: Ökonometrie 1 Kap. 6-16 U Basel, HS 2009
6.4 Der Satz von Gauss-Markov Zu 2: ein linearer Schätzer β 1 ist von der Form β 1 = n a i Y i i=1 Schon gezeigt (Kap. 3) ˆβ 1 = i=1 (X i X)(Y i Ȳ ) i=1 (X i X) 2 = i=1 (X i X)Y i i=1 (X i X) 2 d.h. OLS ist von diesem Typ mit a i = X i X i=1 (X i X) 2 Beachte: a i hängen nur von X i ab, nicht von Y i. Schon gezeigt: OLS (bedingt) unverzerrt. C. Kleiber: Ökonometrie 1 Kap. 6-17 U Basel, HS 2009
6.4 Der Satz von Gauss-Markov Zu 3.: Ein allgemeiner linearer Schätzer ist von der Form β 1 = i=1 ãiy i Beweis für die Effizienz von OLS unter Gauss-Markov-Annahmen verläuft in 3 Schritten: Unverzerrtheit impliziert i=1 ãi = 0 und i=1 ãix i = 1. Var( β 1 X 1,..., X n ) = σ 2 u i=1 ã2 i ein linearer Konkurrenzschätzer β 1 lässt sich schreiben über ã i = a i + d i. Zeige nun, dass Var( β 1 X 1,..., X n ) Var( ˆβ 1 X 1,..., X n ) = σ 2 u n d 2 i 0 i=1 Falls d i = 0 für alle i, dann β 1 = ˆβ 1. Also ist OLS der BLUE. C. Kleiber: Ökonometrie 1 Kap. 6-18 U Basel, HS 2009
6.4 Der Satz von Gauss-Markov Fazit: Gauss-Markov liefert theoretische Rechtfertigung für OLS: unter (bedingter) Homoskedastie ist OLS effizient (noch etwas theoretischer...) sogar unter bedingter Homoskedastie gibt es effizientere Schätzer diese sind aber nicht linear und/oder nicht erwartungstreu ohne bedingte Homoskedastie ist OLS zwar erwartungstreu, aber i.d.r. nicht effizient da unsere heteroskedastie-robusten Standardfehler eben auch ohne (bedingte) Homoskedastie gültig sind, können wir auch bei (bedingter) Heteroskedastie mit OLS valide Inferenz durchführen C. Kleiber: Ökonometrie 1 Kap. 6-19 U Basel, HS 2009
6.5 Das allgemeine lineare Regressionsmodell und GLS Lasse nun allgemeine Kovarianzmatrix zu: Transformation Y = Xβ + U, Cov(U X) = Ω (symmetrisch, pos. def., Ω σ 2 I n ) Ω 1/2 Y = Ω 1/2 Xβ + Ω 1/2 U Ỹ = Xβ + Ũ liefert Cov(Ũ X) = Ω 1/2 Cov(U X)Ω 1/2 = Ω 1/2 ΩΩ 1/2 = I n Damit lässt sich auf transformierte Gleichung OLS anwenden: β = ( X X) 1 XỸ = (X Ω 1 X) 1 X Ω 1 Y Dieser Schätzer heisst verallgemeinerter KQ-Schätzer (generalized least squares, GLS). Per Konstruktion der BLUE. C. Kleiber: Ökonometrie 1 Kap. 6-20 U Basel, HS 2009
6.5 Das allgemeine lineare Regressionsmodell und GLS Problem. Ω in Praxis unbekannt. Klassische Ökonometrie: verwende daher spezielle Formen von Ω, schätze deren Parameter. Nenne resultierenden Schätzer feasible GLS (FGLS) oder estimated GLS (EGLS). Typische Beispiele: 1. (Heteroskedastie) Ω = diag (σ 2 1,..., σ 2 n). Immer noch zu allgemein, da n Parameter. Ansatz: σ 2 i = g(z i 2. (Autokorrelation) γ), g > 0 ( skedastische Funktion ) Beispiel: AR(1)-Fehlerterme bei Zeitreihendaten u i = ρu i 1 + ε i, ρ < 1, ε W R(0, σ 2 ) FGLS: Schätze nun ρ bzw. γ und verwende ˆρ bzw. ˆγ in GLS-Formel. C. Kleiber: Ökonometrie 1 Kap. 6-21 U Basel, HS 2009
6.5 Das allgemeine lineare Regressionsmodell und GLS Bemerkungen zu FGLS: exakte Verteilung des Schätzers unbekannt, auch unter NV es gilt unter technischen Annahmen n( β β) d N ( 0, p lim ( ) ) 1 1 n X Ω 1 X Folklore: FGLS ist konsistent. Vorsicht: dies muss für jede Form von Ω einzeln nachgewiesen werden! C. Kleiber: Ökonometrie 1 Kap. 6-22 U Basel, HS 2009
6.5 Das allgemeine lineare Regressionsmodell und GLS Beispiel: (gewichtete KQ-Methode, weighted least squares, WLS) Naheliegende Frage: welcher Schätzer ist effizient, wenn Form der Heteroskedastie bekannt? Sei Var(u i X i ) = σi 2. Transformiere die Gleichung durch Multiplikation mit 1/σ i : Y i = β 0 + β 1 X i + u i Y i /σ i = β 0 /σ i + β 1 X i /σ i + u i /σ i Da Cov(u i /σ i X i ) = Cov(u i X i )/σi 2 = 1, ist transformiertes Modell homoskedastisch. Wende OLS auf transformierte Gleichung an und erhalte ˆβ 1,W LS = i=1 (X i/σ i X/σ i )(Y i /σ i Ȳ /σ i) i=1 (X i/σ i X/σ i ) 2 C. Kleiber: Ökonometrie 1 Kap. 6-23 U Basel, HS 2009
6.5 Das allgemeine lineare Regressionsmodell und GLS Vor- und Nachteile von WLS: theoretisch elegant... aber i.d.r. Form der Heteroskedastie unbekannt möglicher Ausweg: parametrisiere Form der Heteroskedastie. Bsp.: Var(u i X i ) = θ 0 + θ 1 X 2 i, und θ i unbekannt. schätze auch θ i aus den Daten wende WLS an mit den geschätzten ˆσ i = ˆθ0 + ˆθ 1 X 2 i. Diese Prozedur heisst estimated oder feasible WLS (EWLS, FWLS). auch bei EWLS bleibt ein Problem: wir müssen die Form der bedingten Varianz kennen. in Praxis evtl. heteroskedastie-robuste Standardfehler leichter zu handhaben als WLS. C. Kleiber: Ökonometrie 1 Kap. 6-24 U Basel, HS 2009
6.6 Lineare Hypothesen (Matrixversion) Im multiplen linearen Regressionsmodell wurden folgende Typen von Hypothesen behandelt: Hypothesen vom Typ H 0 : β j = 0 t-test Anwendung: Darf Regressor j weggelassen werden? Hypothesen vom Typ H 0 : β i = 0 und β j = 0 F -Test Anwendung: Dürfen mehrere Regressoren weggelassen werden? Hypothesen vom Typ H 0 : β i = β j oder H 0 : 3β 1 5β 2 + 8β 5 = 3 (Testen einer Linearkombination) Alle lassen sich einheitlich in Matrixform behandeln: Allgemeine lineare Hypothese ist von der Form für geeignete R und r. H 0 : Rβ = r C. Kleiber: Ökonometrie 1 Kap. 6-25 U Basel, HS 2009
6.6 Lineare Hypothesen (Matrixversion) Hypothesen vom Typ H 0 : β j = 0 t-test R = (0,..., 0, 1, 0,..., 0), r = 0 Hypothesen vom Typ H 0 : β i = 0 und β j = 0 F -Test R = ( 0,..., 0, 1, 0,..., 0,..., 0 0,..., 0, 0, 0,..., 1,..., 0 ), r = ( 0 0 ) Hypothesen vom Typ H 0 : β i = β j Etc. R = (0,..., 0, 1, 0,..., 0, 1, 0,..., 0), r = 0 C. Kleiber: Ökonometrie 1 Kap. 6-26 U Basel, HS 2009