Kapitel 2. OLS-Schätzung. 2.1 Methode der kleinsten Quadrate 12 OLS METHODE DER KLEINSTEN QUADRATE (ALGEGRA)

Transkript

1 2 OLS METHODE DER KLEINSTEN QUADRATE (ALGEGRA) Kapitel 2 OLS-Schätzung 2. Methode der kleinsten Quadrate Einleitung OLS aus Sicht der linearen Algebra Die Methode der kleinsten Quadrate (OLS Ordinary least squares) wird in diesem und dem nächsten Abschnitt zunächst als rein algebraische Technik eingeführt, d.h. losgelöst von den statistischen (Gauß-Markov)-Annahmen. Aus Sicht dieses Zugangs ist OLS eine Form der linearen Ausgleichsrechnung, deren Ziel es ist, ein lineares Gleichunggssystem mit (viel) mehr Gleichungen als Unbekannten (das normalerweise überbestimmt ist, d.h. keine exakte Lösung besitzt) wenn schon nicht exakt, dann doch möglichst gut zu lösen: Man sucht dabei die Bestapproximation ŷ an den Beobachtungsvektor y aus der Menge der Linearkombinationen der erklärenden Vektoren x,...x K (die gesuchten Koeffizienten β j sind dann gerade die Koeffizienten der bestapproximierenden Linearkombination) Dabei muss spezifiziert werden, in welchem Sinne es sich um eine Best-Approximation handeln soll. Die Methode der kleinsten Quadrate legt dies im Sinne der Minimierung des euklidischen Abstands fest. Aus eher rechentechnischen Gründen führt man die Minimierung mit dem Quadrat des euklidischen Abstands durch (was die Bezeichnung kleinste Quadrate erklärt). Geometrisch gesehen entsteht diese Bestapproximation, indem man den Vektor y orthogonal auf den von den erklärenden Vektoren x,...x K aufgespannten Raum projiziert. Diese Projektion ist der gefittete Vektor ŷ. Die verbleibende Differenz û y ŷ ist der sogenannte Residuumsvektor, der also bei der OLS-Lösung ŷ stets senkrecht zu x,...,x K steht. Via Pythagoras folgt daraus sofort das, was später die Varianzzerlegung genannt werden wird: y 2 ŷ 2 + û 2 Methode der kleinsten Quadrate In dem Modell von Kapitel fassen wir die Beobachtungen über alle Individuen hinweg zu Vektoren bzw. Matrizen zusammen: y x,j x,... x,k y 2 y., x x 2,j x j (für j,...,k), X 2,. x 2,K... y N x N,j x N,... x N,K Wären alle Fehlerterme 0, so könnte man den wahren Parametervektor β (β,...,β K ) als Lösung des LGS Xβ y bekommen (beachte: Xβ β x β K x K.) Für den realistischen Fall N > K (d.h. mehr Beobachtungen als Parameter) ist dieses LGS normalerweise aber nicht lösbar, da überbestimmt. Die Methode der kleinsten Quadrate sucht einen Vektor ˆβ (ˆβ,..., ˆβ K ) so, dass (das Quadrat) des Abstands von X ˆβ zu y minimal wird: ˆβ : b ist Lösung des Problems min f(b) : Xb y 2 b R K Der Vektor ŷ X ˆβ stellt dann die (im Sinne von OLS) beste lineare Approximation von y durch x,...,x K dar. Die Bedingung erster Ordnung für die Lösung ˆβ lautet: grad f (ˆβ) 0, die Bedingung zweiter Ordnung (für ein Minimum von f) ist:h f (ˆβ) positiv definit. Die Umformung f(b) Xb y 2 (Xb y) (Xb y) b (X X) b 2(X y) b + y y zeigt, dass f(b) eine quadratische Funktion in b ist (mit Koeffizientenmatrix X X im rein-quadrat. Anteil und Koeffizientenvektor 2X y im zusätzlichen linearen Anteil.) Daraus folgt: grad f (b) 2X Xb 2X y, H f (b) 2X X Die Bedingung erster Ordnung führt also auf ein LGS, die Normalengleichungen (X X)b X y mit der Lösung ˆβ (X X) X y Mankannsichleichtüberlegen, dass (X X) genau dann existiert (das LGS genau dann eine eindeutige Lösung hat), wenn die x j linear unabhängig sind, also die Nicht-Kollinearitätsbedingung GM3 erfüllt ist. In diesem Fall ist die Hesse-Matrix auch strikt positiv definit (sie ist ohnehin immer positiv semidefinit). Die Normalengleichungen stellen ein System von K Gleichungen in K Unbekannten dar. Dieses System wird meistens durch explizite Berechnung der K K-Matrix (X X) gelöst (da man diese Matrix zur Schätzung der Standardfehler braucht).

2 c K.H. SCHILD, ABT. STATISTIK, FB WIWI, UNI MARBURG Gefittete Werte und Residuen Der Vektor ŷ : X ˆβ heißt gefitteter Vektor (seine Einträge ŷ i gefittete Werte). Der gefittete Vektor ist die (im Sinne von OLS) beste Approximation an y, die durch Linearkombination von x,...,x K möglich ist. Man kann den gefitteten Vektor auch als Approximation an Xβ (also den wahren erklärten Anteil von y ) sehen; diese Approximation wird i.d.r. umso besser sein, je besser die Schätzung ˆβ für das wahre β ist. Der Approximationsfehler û : y ŷ heißt Residuum(svektor), seinen Einträge û i Residuen. Die Residuen û i sind zu unterscheiden von den Störtermen u i im linearen Regressionsmodell: Die Störterme sind unbeobachtet, die Residuen kann man berechnen (nachdem man ˆβ (β,...,β K ) berechnet hat). Die Residuen können aber als Approximation der Störterme gesehen werden (die i.d.r. umso besser ist, je besser die Schätzung ˆβ ist). Die OLS-Schätzung kann man auch so beschreiben: Minimiere die Residualquadratsumme (sum of squared residuals) û 2 û û Geometrisch ist klar, dass die Minimierung der Residualquadratsumme (Länge des Residuumsvektors) genau dann erreicht wird, wenn der Residualvektor û senkrecht zum gefitteten Vektor ŷ steht: û 2 i ŷ û (d.h. ŷ û 0) Da y ŷ + û, kann man daher OLS folgendermaßen äquivalent charakterisieren: Eine OLS-Schätzung versucht den Vektor y zu zerlegen in einen Vektor ŷ, der Linearkombination von x,...x K ist, und einen dazu senkrechten Vektor û. Es folgt: Eine OLS-Schätzung wird nur dann eine gute Schätzung sein, wenn auch das (wahre) lineare Regressionsmodell eine solche Orthogornalitätseigenschaft aufweist, d.h. wenn im wahren Modell der erklärte Anteil von y (also Xβ mit dem wahren β) senkrecht zum Fehlerterm u steht. Oder anders formuliert: OLS wählt ˆβ so, dass X ˆβ û. Dies wird i.d.r. nur dann einen gutes ˆβ liefern, wenn auch Xβ u. Da man das wahre β nicht kennt, kann in der Praxis die Orthogonalität Xβ u nur dadurch erreicht werden, dass alle erklärenden Faktoren x,...x K senkrecht zu u stehen. Die Bedingung x j u entspricht der Forderung, dass x j exogen ist! 4 OLS NORMALENGLEICHUNGEN UND EXOGENITÄT Normalengleichungen als Orthogonalitätsbeziehungen Um zu einer Interpretation der Normalengleichungen im Sinne der obigen Orthogonalitätsbeziehungen zu gelangen, fassen wir jetzt die Matrix X der Regressorbeobachtungen auch als ein System von Zeilenvektoren auf: x,... x,k x x 2,... x 2,K X.. x 2. x N,... x N,K x N ( ) x... x K Das heißt, wir betrachten jetzt auch die N Zeilenvektoren x i (sämtliche Regressorbeobachtungen zu Individuum i in einer Zeile) neben den K Spaltenvektoren x j (sämtliche Beobachtungen zum Regressor j in einer Spalte). Es gilt ( N ) X X x j,i x i,l j,l,...,k x i x i Daher lassen sich die Normalengleichungen auch folgendermaßen schreiben: x i (y i x ˆβ) i }{{} 0 ( ) û i Dabei ist x i ˆβ der gefittete Wert ŷ i und y i x i ˆβ y i ŷ i das Residuum û i. Wir betrachten die j-te Normalengleichung (*): Die linke Seite dieser Gleichung ist ein Skalarprodukt, nämlich x i,j û i x j û Rechts steht 0, d.h. die K Normalengln drücken K Orthogonalitätsbeziehungen aus: x û. x K û Also wiederum: OLS schätzt β aus der Bedingung, dass alle Regressorvektoren x j senkrecht zu den Residuen û stehen. Das wird i.d.r. nur dann eine gute Approximation liefern, wenn die Regressoren x j senkrecht zu den wahren Fehlern u stehen, d.h. wenn alle x j exogen sind. Exogenität der erklärenden Variablen ist eine wichtige Bedingung für die OLS-Schätzung, weil die OLS-Schätzung genau auf dieser Annahme beruht. Vorgriff: Wenn einige der x j nicht exogen sind, dafür aber andere exogene Variablen ( Instrumente ) z j zur Verfügung stehen, dann erscheint eine Schätzung aus der Forderung z j û 0 (statt OLS: x j û 0) besser geeignet.

3 c K.H. SCHILD, ABT. STATISTIK, FB WIWI, UNI MARBURG 5 6 OLS BESTIMMTHEITSMAß Gefitteter Vektor und Residualvektor als Orthogonalprojektionen Aus der geometrischen Anschauung wird klar, dass der gefittete Vektor ŷ gerade die Orthogonalprojektion von y auf den von x,...,x K aufgespannten Raum ist; entsprechend ist der Residuumsvektor û die Orthogonalprojektion von y auf den dazu orthogonalen Raum. Die Matrizen P : X(X X) X R n n, Q : I P repräsentieren diese Projektionen. Das heißt, es gilt P y ŷ, Qy û wobei P, Q Projektionsmatrizen (idempotente Matrizen) sind: P 2 P u. Q 2 Q. Es handelt sich um Orthogonalprojektionen, da P und Q symmetrisch sind: P P u. Q Q. 2.3 R 2 als Gütemaß Unzentriertes R 2 Wir suchen ein Maß für die Qualität der linearen Approximation durch das Modell. Wir werden dazu eine Zahl definieren, die uns (auf einer Skala von 0 bis ) angibt, welcher Anteil von y durch die OLS-Approximation ŷ X ˆβ tatsächlich erklärt wird. Wir hatten oben schon die Pythagoraszerlegung gesehen (gilt immer für die OLS- Schätzung!): y 2 ŷ 2 + û 2 In Worten: Das Längenquadrat der zu erklärenden Größe ist die Summe aus dem Längenquadrat des erklärten Anteils und der Residualquadratsumme. Wir teilen die Pythagoraszerlegung durch y 2. Dann steht links und rechts eine Summe von zwei Zahlen, die wir als den erklärten Anteil und den Residualanteil (oder unerklärten Anteil) ansehen können. Den erklärten Anteil nennen wir das unzentrierte R 2 : unzentriertes R 2 ŷ 2 y 2 û 2 y 2 Das unzentrierte R 2 ist also ein Zahl zwischen 0 und, die den Anteil von y, der durch Linearkombination der Vektoren x,...x K bestenfalls erklärt werden kann, angibt; gemessen werden die Anteile dabei durch Längenquadrate 2. Beweis: P 2 (X(X X) X )(X(X X) X )X (X X) (X X)(X X) X X (X X) X P, Q 2 I 2P + P 2 I 2P + P I P Q, P y X ( (X X) X y ) X ˆβ ŷ und Qy y P y y ŷ û. Bestimmtheitsmaß R 2. Um das Gütemaß in einem mehr statistischen Sinne zu definieren, ersetzen wir das Längenquadrat durch die (empirische) Varianz Var(y) N (y i ȳ) 2 ( Var Stichprobenvarianz) und definieren: Das Bestimmtheitsmaß R 2 misst den Anteil der (empirischen) Varianz in y, der durch die Linearkombination der x-variablen erklärt werden kann, formal: R 2 : Var(ŷ) Var(y) N N N (ŷ i ŷ) 2 N (y i ȳ) 2 Wenn das Modell eine Konstante enthält (normalerweise also), dann ergibt sich aus der Pythagoras-Zerlegung (für 2 ) die Varianzzerlegung (für Var): 2 Wir können daher auch schreiben: R 2 Var(û) Var(y) Var(y) Var(ŷ)+ Var(û) N N û2 i N N (y i ȳ) 2 Wenn das Modell keine Konstante enthält, sind diese beiden Ausdrücke nicht äquivalent. Man kann R 2 auch als quadrierten Korrelationskoeffizienten zwischen den beobachteten und den gefitteten Werten definieren: ( i R 2 ĉor 2 (y, ŷ) (y i ȳ)(ŷ i ȳ) ) 2 i (y i ȳ) 2 i (ŷ i ȳ) 2 Wieder: Übereinstimmung ist nur garantiert, wenn das Modell eine Konstante enthält. Eigenschaften des Bestimmtheitsmaßes Es gilt 0 R 2 (wobeieinr 2 von 0 oder verdächtig ist) Es gibt keine allgemeine Regel, die festlegt, welche konkreten Werte für R 2 als hoch und welche als niedrig anzusehen sind; dies hängt vom gegebenen Kontext ab R 2 wird niemals kleiner, wenn dem Modell zusätzliche erklärende Variablen hinzugefügt werden; daher definieren wir das adjustierte R 2 wie folgt: R 2 ( bestraft für größer werdendes K) N N K û2 i N N (y i ȳ) 2 2 Das folgt aus der Pythagoras-Zerlegung in Verbindung mit der Normalengleichung bzgl. x : ûi 0 y i ŷ i ȳ ŷ.

4 c K.H. SCHILD, ABT. STATISTIK, FB WIWI, UNI MARBURG 7 8 OLS ERWARTUNGSTREUE, OMITTED VARIABLE BIAS 2.4 Erwartungstreue der OLS-Schätzung (unter GM,...,GM4) Erwartungstreue (im Engl. unbiasedness Unverzerrtheit) eines Schätzers ˆβ für einen Parameter mit wahrem Wert β bedeutet: E[ˆβ] β d.h. bei wiederholten Stichproben ist die Schätzung im Mittel gleich der wahren Größe β (Beachte aber: für eine einzelne Stichprobe bedeutet das noch nicht viel, man braucht auf jeden Fall noch Aussagen darüber, wie sehr ˆβ streut). Wir versuchen einen Nachweis der Erwartungstreue von OLS, indem wir das Populationsmodell mit dem wahren β in die Formel für den Schätzer einsetzen: E[ˆβ] E[(X X) X y] ersetze y Xβ + u E[(X X) X Xβ] + E[(X X) X u] E[β] + E[(X X) X u] Es folgen zwei Überlegungen: () E[β] β, da der wahre Parameter β gar nicht vom Zufall abhängt (deterministisch ist). (2) E[(X X) X u]e[(x X) X ]E[u] 0, da die Störterme unabhängig von X und damit auch von (X X) X sind (falls die Exogenitätsannahme GM4 in der starken Version gilt) und E[u i ]0ist. Insgesamt folgt die Erwartungstreue, E[ˆβ] β. Wir sehen, dass entscheidend die Annahme GM4 eingeht. Ansonsten gehen implizit GM (lineares Modell) und GM3 (Keine Kollinearität, (X X) existiert) ein. Die Annahme GM2 (Zufallsstichprobe) geht nur insofern ein, als dass wir ein Modell brauchen, das uns erklärt, wie die Zufälligkeit in den Daten entsteht. Fazit: Unter den Annahmen GM,...,GM4 ist die OLS-Schätzung erwartungstreu (unverzerrt) Wir wollen noch den Nachweis der Erwartungstreue unter der schwächeren Exogenitätsannahme GM4.3 erbringen. Dazu konditionieren wir alles auf X: E[ˆβ X] E[(X X) X y X] ersetze y Xβ + u E[(X X) X Xβ X] + E[(X X) X u X] E[β X] }{{} β +(X X) X E[u X] }{{} 0 (wg. GM4.3) β Der entscheidende Schritt dabei ist das Herausziehen von (X X) X aus dem zweiten bedingten Erwartungswert; das geht, da folgende allgemeine Regel für bedingte Erwartungswerte gilt: E[g(X) Y X] g(x) E[Y ] Unter GM, GM2, GM3 und GM4.3 gilt die Erwartungstreue also sogar in der (stärkeren) Form E[ˆβ X] β Ausschluss relevanter Regressoren (omitted variables) Wenn die Exogenitätsannahme GM4 verletzt ist, dann können wir nicht erwarten, dass die OLS- Schätzung erwartungstreu, also unverzerrt ist. Eine häufige Verletzung der Exogenitätsannahme GM4 tritt in Form von omitted variables auf, d.h. wenn relevante Regressoren aus dem Modell ausgeschlossen werden (vielleicht weil man sie nicht beobachten konnte) Angenommen, das wahre Modell ist y β 0 + β x + β 2 x 2 + u, aber wir schätzen das unterspezifizierte Modell y β 0 + β x +ũ. Dann ist x 2 in dem Störterm ũ des unterspezifizierten Modells enthalten (denn es gilt ũ u + β 2 x 2, jedenfalls wenn β β und β 0 β 0 ). Das heißt, x wird nicht exogen sein im geschätzten (fälschlich unterspezifierten) Modell (abgesehen von den Ausnahmefällen β 2 0odercor(x,x 2 )0) Dann wird die OLS-Schätzung von β nicht den wahren Einfluss von x auf y wiedergeben (auch die Schätzung von β 0 ist vermutlich verzerrt). Wie kann man sich erklären, was dabei abläuft? Unter dem wahren Einfluss von x verstehen wir die Änderung von y, wennx um eine Einheit erhöht wird und sich sonst nichts (systematisch) ändert. Aber wenn, sagen wir, x mit x 2 positiv korreliert und β 2 > 0 ist, dann wird immer dann, wenn x steigt, tendentiell auch x 2 steigen. Der in β gemessene Einfluss auf y misst dann sowohl den Einfluss von x als auch den von β 2 x 2 auf y. Die Störterme im unterspezifizierten Modell ändern sich also systematisch mit x : In der Situation, dass β 2 und cor(x,x 2 ) positives Vorzeichen haben, sind sie tendentiell immer dann positiv, wenn x groß ist, und dann negativ, wenn x klein ist. Das führt tendentiell zu einer Überschätzung des Effekts von x auf y (E[ ˆβ ] >β ). Allgemeiner: Wenn β aus dem unterspezifierten Modell geschätzt wird, dann: cor(x,x 2 ) > 0 cor(x,x 2 ) < 0 β 2 > 0 E[ ˆβ ] >β E[ ˆβ ] <β β 2 < 0 E[ ˆβ ] <β E[ ˆβ ] >β Anmerkungen Da omitted variables Verzerrungen der OLS-Schätzung verursachen, könnte man meinen, dass größere Modelle stets besser sind als kleine. In der Tat führt der Einschluss vieler erklärender Variablen tendentiell zu weniger verzerrten OLS-Schätzungen, weil man den Effekt dieser Variablen kontrolliert (und ihn nicht fälschlicherweise den interessierenden Variablen zuschreibt). Aber: Wenn zusätzliche erklärende Variablen stark mit den bereits berücksichtigten korrelieren, dann reduziert man mit diesen Variablen die Konfidenz der Schätzung ( später, größere Standardfehler)

5 c K.H. SCHILD, ABT. STATISTIK, FB WIWI, UNI MARBURG 9 20 OLS VARIANZ UND STANDARDFEHLER Die Exogenitätsannahme ist empirisch nicht zu überprüfen. Häufig bekommt man eine bessere Intuition für die Exogenitätsannahme, wenn man sich vorzustellen versucht, welche omitted variables denn im Störterm noch stecken könnten. Was macht man, wenn man eigentlich schon weiß, dass y auch von einer Variable x 2 getrieben wird, die mit der Variable x (für deren Effekt auf y man sich eigentlich interessiert) korreliert, nur: x 2 ist nicht verfügbar (unbeobachtet)? Eine Möglichkeit, das Problem wenigstens zu mildern, ist eine Proxy-Variable für x 2 zu verwenden (setzt natürlich Verfügbarkeit einer solchen Variablen voraus). Andere Möglichkeit: Suche Instrumentalvariable für x. Beispiel: Verdienen Männer mehr als Frauen? Betrachte zunächst das einfache Modell wage i β 0 + β male i + u i OLS-Schätzung mit E-Views: Dependent Variable: WAGE Method: Least Squares Date: 03/25/0 Time: 20:03 Sample: 3294 Included observations: 3294 Coefficient Std. Error t-statistic Prob. C MALE R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood Hannan-Quinn criter F-statistic Durbin-Watson stat Prob(F-statistic) Wir notieren das in folgender Form (die Zahlen in Klammern sind die Standardfehler, die wir hier noch nicht behandelt haben, der Vollständigkeit halber aber angeben) ŵage i male i (0.08) (0.2) N 3294, R Zunächst: Das R 2 beträgt nur 0.032; unser einfaches Modell erklärt also lediglich 3.2% des Lohnunterschieds. Die Aussage ist, dass Männer im Schnitt etwa ˆβ.2$ mehr pro Stunde verdienen. Das ist eine reine Korrelationsaussage. Eigentlich interessieren wir uns für die Frage: Was würde eine Frau (unter sonst gleichen Bedingungen) mehr verdienen, wenn sie ein Mann wäre? Diese Frage beantworten wir mit dem einfachen Modell keineswegs. Weil Lohnunterschiede zwischen männlichen und weiblichen Personen auch durch andere Faktoren erklärt werden könnten (bspw. durch Schulausbildung, Arbeitserfahrung, Talente,...) Wir betrachten Schulausbildung (gemessen in Jahren) und führen zunächst eine Regression von school ( x 2 )aufmale (x ) durch: ŝchool i male i (0.04) (0.057) N 3294, R Männer haben also im Schnitt eine um 0.4 Jahre geringere Schulausbildung; die Korrelation zwischen male und school ist negativ und beträgt Da wir einen positiven Effekt von school auf wage erwarten, wird die Berücksichtigung von school voraussichtlich zu einer Vergrößerung des geschätzten Effekts von male auf wage führen (Unterschätzung des Effekts durch das einfache Modell). Wir betrachten also nun das allgemeinere Modell (mit K 3): OLS-Schätzung: wage i β 0 + β male i + β 2 school i + u i ŵage i male i school i (0.39) (0.07) (0.032) N 3294, R β (.4$) misst nun den Unterschied im Erwartungslohn zwischen Männern und Frauen mit der gleichen Schulausbildung; dies ist hier die ceteris paribus Bedingung Da x 2 school mit x male negativ korreliert und school einen positiven Effekt auf y wage hat, sind die Störterme im einfachen Modell (unbeobachtete Faktoren wie die Schulausbildung) tendentiell dann groß (positiv), wenn die Ausbildung kurz war; sie sind dann klein (negativ), wenn school groß war. Daher wird der Effekt des Geschlechts auf den Lohn im zweiten Modell größer als im ersten Modell geschätzt. Die Berücksichtigung der Schulausbildung ist natürlich nicht ausreichend. Überlegen Sie sich, einige weitere omitted variables für diese Anwendung, die benötigt würden, um den wahren Effekt des Geschlechts auf den Stundenlohn zu schätzen. Aus dem erweiterten Modell lesen wir auch ab: Eine um ein Jahr längere Schulzeit schlägt sich im Schnitt in einem um ca. 0.6$ höheren Stundenlohn nieder bei Berücksichtigung des Geschlechterunterschieds. Warum sollten wir also unser Modell erweitern?

6 c K.H. SCHILD, ABT. STATISTIK, FB WIWI, UNI MARBURG Varianz der OLS-Schätzung (unter GM,...,GM5) Einleitung Nachdem wir wissen, dass die OLS-Schätzung ˆβ j (bei wiederholten Stichproben) im Mittel den wahren Parameter β j liefert, fragen wir nun, wie sehr ˆβ j streut. Dazu möchten wir Aussagen über die Standardabweichung von ˆβ j treffen. Die Standardabweichung von ˆβ j nennt man den Standardfehler, se( ˆβ j ):sd(ˆβ j ): Var( ˆβ j ) Der Standardfehler ist das wichtigste Maß dafür, mit welcher Sicherheit ( Konfidenz ) das ˆβ j dem wahren β j nahekommt. (Später werden wir die geschätzte Standardabweichung als den Standardfehler ansehen!) Wir wollen in diesem Abschnitt den Standardfehler der OLS-Schätzung auf zwei Arten in den Griff bekommen, einmal über die gesamte Varianz-Kovarianzmatrix (im Folgenden einfach: Varianzmatrix) des Zufalls-Vektors ˆβ, und einmal über eine Formel mit Varianzinflationsfaktoren für ˆβ j (die sich besser interpretieren lässt). Varianzmatrix eines Zufallsvektors Die Varianzmatrix eines Zufallsvektors Y (Y,...,Y K ) ist die Matrix der Varianzen (in der Diagonalen) und Kovarianzen der Komponenten Y j von Y : Var(Y ): ( cov(y i,y j ) ) i,j,...k (In der Diagonalen befinden sich die Varianzen; durch Anwendung auf Y ˆβ ergibt sich: der Standardfehler von ˆβ j ist die Wurzel des j-ten Diagonalelements der Varianzmatrix Var(ˆβ).) Als technisches Hilfsmittel benötigen wir die folgende Formel, die angibt, wie die Varianzmatrix des (mit einer deterministischen Matrix A) linear transformierten Zufallsvektors aus derjenigen von Y entsteht: Var(AY )A Var(Y ) A Im Fall, dass A a ein (Zeilen-)Vektor ist, ergibt sich eine quadrat. Form in a : Var(a Y )a Var(Y ) a ( K j K ) cov(y i,y j ) a i a j Weitere techn. Anmerkung: Eine analoge Formel gilt für die bedingte Varianzmatrix, Var(AY X), solange der Koeffizient A eine Funktion der Bedingung X ist. 22 OLS VARIANZ UND STANDARDFEHLER Varianzmatrix der OLS-Schätzung unter Homoskedastie-Annahme Eine einfache Formel für die Varianzmatrix der OLS-Schätzung erhält man, wenn zusätzlich zugm,...,gm4 die Homoskedastie-Bedingung GM5 erfüllt ist. Mit Varianzmatrizen drückt sich die Homoskedastie-Bedingung folgendermaßen aus: Var(u) σ 2 I (genauer: Var(u X) σ 2 I) Unter dieser zusätzlichen Annahme gilt für die Varianz der OLS-Schätzung: Var( ˆβ) Var ( X X) X y ) ersetze y Xβ + u Var ( (X X) X Xβ + (X X) X u ) (X X) X X I Var ( β + (X X) X u ) Var(b + Y )Var(Y ) Var ( (X X) X u ) ziehe A (X X) X heraus (X X) X Var(u) X(X X) Var(u) σ 2 I (X X) X σ 2 IX (X X) also σ 2 (X X) X X (X X) σ 2 (X X) Schätzung der Störtermvarianz σ 2 Var( ˆβ) σ 2 (X X) ( wobei X X ) x i x i Da wir die Varianz der Fehlerterme, Var(u i )σ 2, nicht kennen, muss σ 2 geschätzt werden. Wir schätzen die Varianz der Fehlerterme über die Stichprobenvarianz der Residuen. Weil wir K Parameter so gewählt haben, dass die Quadratsumme der Residuen minimal wird, nehmen wir eine Freiheitsgrad-Korrektur vor: ˆσ 2 û 2 i N K Unter den ersten fünf Gauß-Markov-Annahmen ist ˆσ 2 ein unverzerrter Schätzer für σ 2 ; wir schätzen die Varianz (-Matrix) von ˆβ über ˆσ 2 (X X) ( ˆσ 2 ( N ) x i x ) i Die Quadratwurzel des j-ten Diagonalelements ist der Standardfehler von ˆβ j Beachte: ˆσ 2 ist bis auf die Freiheitsgradkorrektur die Stichprobenvarianz der Residuen: ˆσ 2 Var(û) û 2 i N

7 c K.H. SCHILD, ABT. STATISTIK, FB WIWI, UNI MARBURG OLS EINFLUSSFAKTOREN AUF DIE STANDARDFEHLER Beispiel: Unter E-Views bekommt man ˆσ, also die (geschätzte) Standard-Abweichung der Störterme, als S.E of regression ( Standard-Fehler der Regression ) angezeigt: Dependent Variable: WAGE Method: Least Squares Date: 03/26/0 Time: :45 Sample: 3294 Included observations: 3294 Coefficient Std. Error t-statistic Prob. C MALE SCHOOL R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood Hannan-Quinn criter F-statistic Durbin-Watson stat Prob(F-statistic) Hier ist also ˆσ Grob-Interpretation: Die Residuen û i y i ŷ i liegen bei ca. 2/3 der Beobachtungen im Intervall [ ˆσ, +ˆσ] [ 3.06, 3.06]. Man kann ˆσ in Relation setzen zur (empir.) Standard-Abw. von y, S.D. dependent var, die hier bei Var(y) 3.27 liegt; damit lässt sich bereits das R 2 reproduzieren: R 2 Var(û) Var(y) ˆσ Var(y) Die Varianzmatrix der OLS-Schätzung (mit der Schätzung ˆσ statt dem wahren σ), also ˆσ 2 (X X),wirdunterView - Coefficient Covariance Matrix angezeigt: Coefficient Covariance Matrix Welche Größen beeinflussen den Standardfehler der OLS-Schätzung? Die Formel für die Varianzmatrix der OLS-Schätzung ist zwar recht übersichtlich, zeigt aber nicht unmittelbar, durch welche Größen die Standardfehler der OLS- Schätzung im einzelnen beinflusst werden (insbesondere interessiert man sich für die Frage: Was macht die Fehler groß, was sind die Inflationsfaktoren?) Eine konkrete Antwort darauf liefert folgende Formel (die wir hier nicht beweisen): Var( ˆβ j ) N ( Rj 2) Var(x j ) wobei Rj 2 das R 2 einer Regression von x j auf alle anderen Regressoren darstellt. Der Standardfehler bzw. die Varianz des j-ten Regressionskoeffizienten wird also durch drei Populationsparameter beeinflusst: () Die Störtermvarianz σ 2 (2) Die Streuung im betreffenden Regressor x j (3) Wie gut sich der j-te Regressor durch die anderen Regressoren erklären lässt. Der Einfluss dieser drei Parameter auf die Standardfehler wird im Folgenden diskutiert. Eine vierte (und nicht zu unterschätzende) Größe ist N, der Stichprobenumfang: Bei den drei genannten Größen kann man von Populationsparametern ausgehen, die sich nicht wesentlich ändern, wenn N erhöht wird. Die Formel reproduziert insofern den trivialen Sachverhalt, dass man N möglichst groß wählen sollte, damit die Standardfehler klein werden. Umgekehrt wird man bei kleinem Stichprobenumfang N keine zuverlässigen Ergebnisse erhalten Einfluss der Störtermvarianz Eine größere Varianz in den Störtermen führt zu größerer Varianz der OLS-Schätzung. Das ist nicht überraschend, da die Störtermvarianz σ 2 den Rauschanteil im Regressionsmodell misst. σ 2 C MALE SCHOOL C MALE SCHOOL Zieht man die Wurzel aus dem j-ten Diagonalelement, bekommt man den Standard- Fehler (im Output unter Std-Error) des j-regressionskoeffizienten, z.b. in Bezug auf MALE: Einfluss der Varianz des Regressors Eine größere Stichprobenvarianz des Regressors x j wirkt sich positiv (d.h. verringernd) auf die Standardfehler aus. Wir benötigen also eine möglichst breite Streung der beobachteten Werte der erklärenden Variable, um ihren Einfluss auf die erklärte Variable möglichst sicher schätzen zu können. (Der geschätzte Regressionskoeffizient einer Variable, die überhaupt nicht streut, bekommt eine unendlich große Varianz).

8 c K.H. SCHILD, ABT. STATISTIK, FB WIWI, UNI MARBURG 25 Angesichts der Tatsache, dass das lineare Regressionsmodell in Bereiche des (x,...,x K )- Raumes extrapoliert, wo unter Umständen gar keine Beobachtungen vorliegen, scheint auch dieses Ergebnis nicht sonderlich überraschend. Anders als beim folgenden Parameter gibt es hier keine direkten Interaktionseffekt zwischen den erklärenden Variablen: Die Streuung in der j-ten Variable kann isoliert von der Streuung in der j -ten Variable betrachtet werden Einfluss des Grades an Kollinearität der Regressoren Die Varianzinflationsformel zeigt, dass die Varianz der OLS-Schätzung groß wird, wenn sich der betreffende Regressor x j sehr gut durch die anderen Regressoren erklären lässt/wenn Rj 2 nahe ist. Das kann man folgendermaßen interpretieren: Wenn eine Variable x j gegenüber den bereits im Modell befindlichen Variablen wenig zusätzlichen Informationsgehalt hat (an sich, nicht unbedingt in Bezug auf y!),dannführt das dazu, dass die Schätzung ihres Einflusses auf y mit einer hohen Unsicherheit versehen ist. Da sich mit der Hinzunahme einer solchen Variablen auch die anderen Rj 2 erhöhen (denn wenn C sich gut durch A und B erklären lässt,dannlässt sich auch A gut durch B und C erklären), werden auch die Standardfehler der anderen Variablen tendentiell schlechter. Im Extremfall ist Rj 2, dann hat man eine perfekte Kollinearität und die Standardfehler (aller Regressoren) werden unendlich groß. Umgekehrt gilt: Den Einfluss eines zusätzlichen Regressors, der einen hohen Grad an zusätzlichem Informationsgehalt gegenüber den bereits im Modell befindlichen Regressoren enthält, kann man mit dem kleinstmöglichen Standardfehler schätzen. In der Praxis sind solche Variablen aber selten und man hat oft einen Trade-Off zwischen Verzerrungen in ˆβ (omitted variable bias) und großen Standardfehlern se( ˆβ) (durch Fast-Kollinearität) Einschluss irrelevanter Regressoren Wir hatten oben gesehen, dass der Auschluss relevanter Regressoren die OLS-Schätzung verzerren kann (omitted variable bias). Demgegenüber scheint der Einschluss eines (für y) irrelevanten Regressors harmlos: Die Parameter-Schätzung ändert sich kaum (OLS bleibt erwartungstreu). Aber: Die Standardfehler der Schätzung können sich stark erhöhen. Das passiert dann, wenn der zusätzliche Regressor fast kollinear zu (fast linear abhängig von) den anderen Regressoren ist, d.h. sich gut durch die anderen Regressoren erklären lassen. Zusammengefasst: Einschluss eines irrelevanten Regressors Wenig Effekt auf ˆβ, aber möglicherweise starken Effekt auf se( ˆβ). 26 OLS EFFIZIENZ (GAUSS-MARKOV-THEOREM) 2.6 Gauß-Markov-Theorem: OLS ist BLUE (unter GM bis GM5) Kleine Standardfehler (kleine Varianz) eines Schätzers sind wünschenswert. Wir fragennunnacheinemschätzer mit den kleinsten Standardfehlern bzw. Varianzen. Effizienz: Ein erwartungstreuer Schätzer ˆθ für einen Parameter θ heißt effizient (in einer Klasse von in Betracht gezogenen Schätzern), wenn var(ˆθ ) var(ˆθ) für jeden anderen erwartungstreuen Schätzer ˆθ in der Klasse. Gauß-Markov-Theorem besagt: Unter GM,..., GM5 ist die OLS-Schätzung ˆβ j ˆβ OLS effizient in der Klasse der linearen Schätzer von β j : Unter GM,..., GM5 ist OLS der BLUE Best linear unbiased estimator. Was heißt dabei linearer Schätzer? Darunter soll ein Schätzer ˆβ des Modells aus GM verstanden werden, der linear von der Endogenenbeobachtung y abhängt, d.h. ˆβ j w j,i y i bzw. ˆβ W y mit W R K N, wobei w j,i w j,i (X) bzw. W W (X) beliebige (messbare, z.b. stetige) Funktionen der Stichprobenwerte X der erklärenden Variablen sein können. Die Erwartungstreue stellt eine Anforderung an die linearen Schätzer (d.h. an die Matrix W als Funktion von X), 3 aber es gibt viele lineare erwartungstreue Schätzer von β, von denen die OLS-Schätzung (mit W (X) (X X) X ) nur eine ist. Das allgemeine Gauß-Markov-Theorem beinhaltet sogar noch eine etwas stärkerer Effizienz-Eigenschaft der OLS-Schätzung als oben dargestellt: Das Theorem besagt var(a ˆβOLS ) var(a ˆβ) für jeden Vektor a R K. Indem man a e j j ter Einheitsvektor setzt, folgt die Aussage für ˆβ j. Da ganz allgemein var(a ˆβ) a Var( ˆβ)a, bedeutet dies: OLS hat die kleinste Varianzmatrix Var( ˆβ) innerhalb der Klasse der lin. unverzerrten Schätzer: Gauß-Markov-Theorem: Unter den Annahmen GM bis GM5 ist OLS der best linear unbiased estimator (BLUE). Das heißt: Unter allen linearen erw.treuen Schätzern ˆβ W (X) y mit einer von X abhängigen Matrix W W (X) hat ˆβ OLS (X X) X y die kleinste Varianzmatrix in folgendem Sinne: Var( ˆβ OLS ) Var( ˆβ) ist positiv semidefinit für jeden lin. erw.treuen Schätzer ˆβ Wichtig: Das Gauß-Markov-Theorem setzt nicht GM6 (normalverteilte Störterme) voraus, aber GM5 (Homoskedastie). In der Tat ist die OLS-Schätzung bei heteroskedastischen Fehlern nicht effizient. 3 Die Erwartungstreue verlangt β! E[ˆβ X] für jedes β R K ;für ˆβ W (X)y führt das auf β! E[W (X)y X] W (X)E[y X] W (X) Xβ β bel. W (X) X I K K, d.h. W (X) muss eine sog. Links-Inverse der Matrix X sein.