Multiples Regressionsmodell In vielen Anwendungen: mehr als ein Regressor notwendig Beispiel: Schülerleistungen nicht nur von KG abhängig, sondern auch z. B. von o Schulcharakteristika (Lehrerqualität, Ausstattung etc.) o Schülercharakteristika (Intelligenz, Familienhintergrund, Muttersprache etc.) Beispielvariable: PctEL (Percentage of English Learners) o Gibt an wieviel Prozent der Schüler im Schulbezirk, für die Englisch nicht die Muttersprache ist 1
Multiples Regressionsmodell Zwei Fragen: o Inwiefern hilft die Variable PctEL, die Variation in den TE besser zu erklären? (strukturelle Erklärung, Prognose) o Welchen Einfluss hat das Auslassen der Variable PctEL auf die Schätzung des Regressionskoeffizienten (β 1 ) für KG? 2
Verzerrung durch ausgelassene Variablen Wenn Auslassen von PctEL oder anderen Variablen zu einer verzerrten Schätzung von β 1 im einfachen Regressionsmodell führt, dann sprechen wir von Verzerrung durch ausgelassene Variablen (Omitted Variable Bias) o ˆβ 1 ist ein verzerrter Schätzer des marginalen Effektes der KG Verzerrung tritt ein, falls o ausgelassene Variable mit berücksichtigtem Regressor X i korreliert ist und o ausgelassene Variable Determinante von abhängiger Variable Y i ist 3
Verzerrung: Beispiel Percentage of English Learners (PctEL) o positiv korreliert mit KG (0.15) o plausibel: Schüler, für die Englisch nicht Muttersprache ist, schneiden bei Test im Durchschnitt schlechter ab als Muttersprachler PctEL hat Erklärungsgehalt für TE o Verzerrung durch ausgelassene Variable bzgl. Effekt von KG wahrscheinlich 4
Verzerrung: Weitere Beispiele Tageszeit des Tests o falls Variation der Tageszeit nicht systematisch mit KG variiert, ist erste Bedingung nicht erfüllt keine Verzerrung o Tageszeit hat vermutlich Einfluss auf TE Parkplätze pro Schüler o Plausibel: Schulen mit mehr Lehrer pro Schüler, haben mehr Parkplätze pro Schüler negative Korrelation zw. KG und Parkplätze pro Schüler o Parkplätze sollten keinen Einfluss auf TE haben keine Verzerrung 5
Formel für Verzerrung Wenn Bedingungen für Verzerrung durch ausgelassene Variable erfüllt sind, ist KQ-Annahme # 1: E[u i X i ] = 0 verletzt o ausgelassene Variable erklärt Y ist in Fehlerterm u i enthalten o ausgelassene Variable ist mit Regressor korreliert u i und X i sind korreliert E[u i X i ] 0 Konsequenz: ˆβ 1 ist verzerrt ˆβ 1 p β1 + ρ Xu σ u σ X o ρ Xu = Corr(X i, u i ) 6
Formel für Verzerrung ˆβ 1 ist kein konsistenter Schätzer für β 1 falls ρ Xu 0 o Verzerrung geht nicht gegen Null für n ρ Xu Verzerrung Richtung der Verzerrung hängt von Vorzeichen von ρ Xu ab 7
Richtung der Verzerrung: Beispiel PctEL PctEL hat vermutlich negativen Einfluss auf TE o PctEL geht mit negativem Vorzeichen in u i ein KG ist positiv mit PctEL korreliert KG negativ mit Fehlerterm u i korreliert, d. h. ρ Xu < 0 ˆβ 1 ist in negativer Richtung verzerrt o Überschätzen negativen Einfluss von KG auf TE o ˆβ 1 misst zum Teil negativen Effekt von PctEL o KG könnte keinen signifikanten Einfluss auf TE haben 8
Verzerrung d. ausgelassenen Variablen: Problemlösung Multiples Regressionsmodell mit mehreren Regressoren Beispiel: TE i = β 0 + β 1 KG i + β 2 PctEL i + u i Interpretation o Durch Berücksichtigung von PctEL kontrollieren wir für den Effekt von PctEL auf TE o Isolieren Effekt von KG auf TE β 1 = TE KG wobei PctEL konstant gehalten wird = marginaler Effekt von KG auf TE wird KG um einen Schüler erhöht, gegeben PctEL (d. h. PctEL wird konstant gehalten), ändern sich TE um β 1 Punkte 9
Multiples Regressionsmodell Y i = β 0 + β 1 X 1i + β 2 X 2i +... + β k X ki + u i, i = 1,..., n Y i ist abhängige Variable X 1i,..., X ki sind k Regressoren (erklärende Variable) u i ist Fehlerterm Y = β 0 + β 1 X 1 +... + β n X k ist Regressionsgerade der GG β 0, β 1,..., β k sind Regressionsparameter der GG o β 0 : Konstante o β 1,..., β k : Steigungsparameter der Regressoren 1 bis k 10
Multiples Regressionsmodell β 1,..., β k messen marginale Effekte der Regressoren 1 bis k, gegeben dass jeweils alle anderen Regressoren konstant gehalten werden: β j = Y X j X i j sind konstant, i, j = 1,..., k Y i = β 0 X 0i + β 1 X 1i +... + β k X ki + u i X 0i = 1 ist konstanter Regressor: Konstante 11
KQ-Schätzung Minimiere Residuenquadratsumme S( ˆβ 0, ˆβ 1,..., ˆβ k ) = n i=1 (Y i ˆβ 0 ˆβ 1 X 1i... ˆβ k X ki ) 2 bzgl. ˆβ 0, ˆβ 1,..., ˆβ k Schätzer ˆβ 0, ˆβ 1,..., ˆβ k, die S(.) minimieren, werden als KQ-Schätzer bezeichnet o Ableitung wie bei einfachem Regressionsmodell o Formeln in Summenschreibweise sehr komplex Matrixnotation KQ-Regressionsgerade: ˆβ 0 + ˆβ 1 X 1i +... + ˆβ k X ki Prognosewert für Y i gegeben X 1i,..., X ki : Ŷ i = ˆβ 0 + ˆβ 1 X 1i +... + ˆβ k X ki KQ-Residuum û i = Y i Ŷi 12
KQ-Schätzung: Beispiel TE = 698.9 2.28 KG TE = 686.0 1.10 KG 0.65 PctEL o PctEL: Prozent d. Schüler in Schulbezirk i, für die Englisch nicht Muttersprache ist Geschätzter Effekt der KG ist nur noch halb so groß o bei einfacher Regression wird PctEL nicht konstant gehalten o negativer Effekt von PctEL wird bei einfacher Regression mit gemessen o negative Verzerrung durch Auslassen von PctEL bestätigt 13
Modellgüte Standardfehler der Regression 1 n SSR o sû = i=1 n k 1 û2 i = n k 1 o Anpassung für k + 1 geschätzte Parameter Bestimmtheitsmaß R 2 = ESS TSS = 1 SSR TSS Problem: R 2 steigt immer, wenn ein Regressor hinzugefügt wird. Es sei denn, der geschätzte Koeffizient ist genau Null. o nicht geeignet für Modellvergleich o Verwendung des sog. angepasste R 2 14
Angepasstes R 2 Angepasstes R 2 ist modifizierte Version des R 2 R 2 = 1 n 1 n k 1 SSR TSS = 1 s2 û s 2 Y n 1 k n k 1 ( R 2 SSR ) und TSS ( R 2 ) ( ) o R n 1 2 wägt zusätzliche Schätzunsicherheit n k 1 ( ) SSR Modellanpassung TSS ab und bessere o R 2 steigt nur, falls sich SSR ausreichend reduziert, um Anstieg in n 1 n k 1 auszugleichen 15
Angepasstes R 2 R 2 < R 2, da n 1 n k 1 > 1 R 2 kann negativ sein Probleme bei Anwendung von R 2 und R 2 werden später diskutiert 16
Modellgüte: Beispiel TE = 698.9 2.28 KG, R 2 = 0.051, R2 = 0.049 sû = 18.6 TE = 686.0 1.10 KG 0.65 PctEL, R 2 = 0.426, R2 = 0.424 sû = 14.5 R 2 erhöht sich deutlich durch Berücksichtigung von PctEL o sagt aber nichts über statistische oder inhaltliche Signifikanz von β 2 aus Reduktion von sû besagt, dass Prognosen bzgl. TE genauer sind bei Berücksichtigung von PctEL 17
KQ-Annahmen für Multiples Regressionsmodell Annahme # 1: E[u i X 1i, X 2i,..., X ki ] = 0 Annahme # 2: (X 1i, X 2i,..., X ki, Y i ), i = 1,..., n, sind identisch und unabhängig verteilt Annahme # 3: Extreme Ausreißer sind unwahrscheinlich: E[Xji 4 ] < für j = 1,..., k, i E[Y 4 i ] <, i 18
KQ-Annahmen für Multiples Regressionsmodell Neue Annahme # 4: keine perfekte Multikollinearität Perfekte Multikollinearität: ein Regressor ist eine perfekte Linearkombination der anderen Regressoren o Beispiel: X 1i = δ 0 X 01 + δ 2 X 2i +... + δ k X ki i o Interpretation: X 1i ist ein überflüssiger Regressor, da er durch die anderen Regressoren bereits perfekt erklärt wird KQ-Schätzer können nicht berechnet werden, da durch Null geteilt werden muss Ausweg: Änderung der Regressorenauswahl 19
Multikollinearität: Beispiele TE i = β 0 + β 1 KG i + β 2 PctEL i + β 3 FracEL i + u i o FracEL i : Anteil der Schüler, für die Englisch nicht Muttersprache ist o PctEL i = 100 FracEL i perfekte Multikollinearität o KQ-Schätzung kann nicht durchgeführt werden o β 3 : Effekt einer Änderung von FracEL um eine Einheit auf TE, wenn KG und PctEL konstant gehalten werden macht keinen Sinn 20
Multikollinearität: Beispiele TE i = β 0 + β 1 KG i + β 2 PctEL i + β 3 NVS i + u i NV S i = { 1 falls KG 12 0 falls KG < 12 o Im Datenbeispiel liegt perfekte Multikollinearität vor, da KG 12 für alle Schulbezirke NV S i = X 0i (X 0i = 1) o perfekte MK kann von konkreten empirischen Daten abhängen 21
Multikollinearität: Beispiele TE i = β 0 + β 1 KG i + β 2 PctEL + β 3 PctES + u i o PctES: Percentage of English Speaker Prozent der Schüler, für die Englisch Muttersprache ist o PctES = 100X 0i PctEL perfekte MK o MK ist Eigenschaft aller Regressoren Herausnahme von X 0i oder PctEL löst Problem 22
Dummyvariablenfalle Perfekte MK kann leicht auftreten bei Verwendung von binären bzw. Dummyvariablen Beispiel: Dummyvariablen: Land, Vorstadt, Stadt o Dummyvariablen sind jeweils gleich 1, falls Schulbezirk i in ländlicher Region, Vorstadt bzw. Stadt liegt, sonst gleich Null o jeder Schulbezirk fällt in genau eine Kategorie o werden alle 3 Dummyvariablen und eine Konstante ins Modell aufgenommen, liegt perfekte MK vor Land i + Vorstadt i + Stadt i = X 0i (Konstante) o eine der Dummyvariablen oder Konstante müssen herausgenommen werden (Konstante bleibt üblicherweise im Modell) Dummyvariablenfalle 23
Dummyvariablenfalle Beispiel TE i = β 0 X 0i + β 1 KG i + β 2 Vorstadt i + β 3 Stadt i + u i o Land i wird ausgelassen Land ist Referenzkategorie o β 2 misst durchschnittliche Abweichung der TE zwischen Vorstadt- und ländlichen Schulbezirken, gegeben dass alle anderen Regressoren (KG, Stadt) konstant sind o β 3 analog weitere Beispiele: Saisondummyvariablen, Regressionen mit vielen Dummyvariablen, z.b. Entscheidungen von Individuen und Haushalten 24
Eigenschaften der KQ-Schätzung Wenn Annahmen A1 A4 gelten, haben ˆβ 0, ˆβ 1,..., ˆβ k entsprechende Eigenschaften wie ˆβ 0 und ˆβ 1 im einfachen Regressionsmodell Einige Eigenschaften (Optimalität, Varianzen d. Schätzer) hängen davon ab, ob die Fehlerterme homoskedastisch oder heteroskedastisch sind o Homoskedastie: Var[u i X 1i, X 2i,..., X ki ] = σ 2 u i o Heteroskedastie: Var[u i X 1i, X 2i,..., X ki ] = σ 2 ui ist nicht konstant 25
Eigenschaften der KQ-Schätzung Wichtige Eigenschaft: ˆβ j d N(βj, σ 2 β j ), j = 0, 1,..., k o ˆβ j s sind für große Stichproben annähernd normalverteilt mit Erwartungswert β j und Varianz σ 2 β j o ˆβ j s sind gemeinsam normalverteilt (multivariate Normalverteilung) 26
Hypothesentests im multiplen RM Tests und Konfidenzintervalle bzgl. einzelner Parameter wie im einfachen Regressionsmodell Neu: Tests bzgl. zwei oder mehrerer Parameter Beispiel für Einzelparametertest und Konfidenzintervalle: siehe Illustration 27
Verbundene Hypothesentests Hypothesentest, der mehrere Parameter gleichzeitig betrifft Beispiel: TE = 694.6 (15.5) (0.48) 0.29 KG + 3.87 Aus 0.656 (1.55) (0.032) PctEL o sind Klassengröße u. Ausgaben pro Schüler (Aus) gemeinsam signifikant, d. h. haben sie Einfluss auf TE? o H 0 : β 1 = 0 und β 2 = 0 vs. H 1 : β 1 0 und/oder β 2 0 28
Verbundene Hypothesentests H 0 : β 1 = 0 und β 2 = 0 o zwei Restriktionen o zwei oder mehrere Restriktionen werden unter H 0 überprüft: verbundene Hypothese 29
Verbundene Hypothesentests Warum nicht mehrere einzelne t-tests (Testsequenz) durchführen? Problem 1: ˆβ 1 und ˆβ 2 sind Zufallsvariablen, die i. A. nicht unabhängig sind o gemeinsame Normalverteilung für große Sichproben Problem 2: Fehler 1. Art/Signifikanzniveau d. Testsequenz steigt mit jedem Testschritt an o Beispiel falls ˆβ 1 u. ˆβ 2 unabhängig bei 5% Niveau für Einzeltests Fehler 1. Art/Signifikanzniveau d. Teststatistik beträgt 9.75% Lösung: F -Test 30
F -Test mit 2 Restriktionen ( t 2 1 + t 2 ) 2 2ˆρ t1,t 2 t 1 t 2 Teststatistik F = 1 2 1 ˆρ 2 t 1,t 2 o ˆρ t1,t 2 : Schätzer für Korrelation d. beiden t-statistiken für t 1 : H 0 : β 1 = 0 und t 2 : H 0 : β 2 = 0 Annahme ˆρ t1,t 2 = 0 F = 1 ( ) t 2 2 1 + t 2 2 o F -Statistik ist Durchschnitt d. quadrierten t-statistiken ˆρ t1,t 2 0 F -Statistik korrigiert für Korrelation zw. t-tests 31
F -Test mit 2 Restriktionen t 1 und t 2 können unter Homoskedastie- od. Heteroskedastie-Annahme berechnet werden Wieso Quadrate von t 1 und t 2? Lehne für große Werte von F ab! Verteilung für große Stichproben (n ) unter H 0 F d H0 F 2, bzw. 2F d H0 χ 2 2, da qf q, = χ 2 q p-wert = P F [F > F act ] = P χ 2[χ > qf act ] Beispiel: siehe Illustration 32
F -Test mit q Restriktionen F -Test kann für q Restriktionen verallgemeinert werden o Verteilung: F d H0 F q, bzw. qf d H0 χ 2 q Teststatistik auf Basis von t-statistiken sehr komplex Kompakte Form d. F -Statistik: Matrixnotation o für Homo- u. Heteroskedastizität bei Homoskedastizität: Verwendung R 2 oder SSR 33
F -Test mit q Restriktionen F -Test auf Modellsignifikanz testet, ob alle Steigungsparameter Null sind H 0 : β 1 = 0, β 2 = 0,..., β k = 0 vs. H 1 : mindestens ein β j 0, j = 1,..., k 34
Formeln für F -Statistik bei Homoskedastizität: Idee Restriktionen unter H 0 bedeuten Einschränkung, z. B. β 1 und β 2 dürfen nur Wert Null annehmen eingeschränkte Modellgüte Frage: In welchem Ausmaß verbessert sich Modellgüte bzw. Modellanpassung, wenn Restriktionen unter H 0 aufgehoben werden? Wenn sich Modellanpassung deutlich verbessert, lehne H 0 ab Verwende R 2 oder Residuenquadratsumme (SSR) als Maß für Modellgüte 35
Formeln für F -Statistik bei Homoskedastizität Vergleich von SSR für restringiertes Modell unter H 0 (SSR R ) und unrestringiertes Modell unter H 1 (SSR U ) Äquivalent für R 2 R und R2 U F = (SSR R SSR U )/q SSR U /(n k U 1) = (R 2 U R2 R )/q (1 R 2 U )/(n k U 1) o k U + 1 = # β-parameter im unrestringierten Modell verlangt Schätzung d. Modells unter H 0 : restringierte KQ-Schätzung und unter H 1 : normale KQ-Schätzung 36
Tests für einzelne Restriktionen mit mehreren Parametern Beispiel: H 0 : β 1 = β 2 vs. H 1 : β 1 β 2 Allg. F -Test-Formeln finden Anwendung (Matrixnotation) 37
Hohe Regressorkorrelation: Probleme Oft als imperfekte Multikollinearität bezeichnet Problem 1: Mindestens ein Parameter wird sehr ungenau geschätzt o Beispiel: Y i = β 0 + β 1 X 1i + β 2 X 2i + u i, var(u i X 1i, X 2i ) = σ 2 u X 1i = PctEl i und X 2i = PctImi i X 1i und X 2i sind stark positiv korrelliert wobei PctImi i = Prozentsatz von Immigranten in Schulbezirk i o Intuition: es ist schwierig zwischen dem Einfluss von PctEl i und PctImi i zu unterscheiden 38
Hohe Regressorkorrelation: Probleme o σ 2ˆβ1 = 1 n [ ] 1 1 ρ 2 X 1,X 2 σ 2 u σ 2 X 1 ρ 2 X 1,X 2 σ 2ˆβ1 39
Hohe Regressorkorrelation: Probleme Problem 2: Interpretation der β j Parameter als marginale Effekte o β j = Y X j, gegeben dass X l j konstant sind = partieller od. marginaler Effekt von Regressor j auf Y o technisch kontrollieren wir für andere Regressoren, auch bei hoher Korrelation o Interpretation von β j als marginaler Effekt ist für Politikempfehlungen oft wenig hilfreich, und zwar dann, wenn Regressor nich exogen variiert werden kann o Beispiele Können wir PctEl i entscheidend reduzieren ohne PctImi i zu verändern? KG könnte verändert werden ohne Gesamtausgaben zu verändern 40
Modellspezifikation Welche Regressoren in Regression aufnehmen? Entscheidung entsprechend ökonomischer Theorie, Expertenwissen und Überlegungen zu Verzerrung durch ausgelassene Variablen (OV-Bias) o OV-Bias auch im multiplen Regressionsmodell relevant! 1. Schritt: Basisregression o interresierende Variablen + Kontrollvariablen entsprechend ökonom. Theorie und Expertenwissen 41
Modellspezifikation 2. Schritt: Alternative Spezifikationen (Regressionen) o Auswahl weiterer potentiell relevanter Variablen o Ergebnisse für interessierende Variablen bleiben konstant Basisregression zuverlässig o Ergebnisse variieren deutlich vermutlich OV-Bias Problem: Gefahr eines trial-and-error Vorgehens, kann sehr beliebig sein o möglichst Theorie-getrieben Variablen auswählen 42
Interpretation von R 2 / R 2 bzgl. Modellspezifikation R 2 / R 2 beschreiben Güte d. Stichprobenanpassung für abhängige Variable Y R 2 und R 2 sagen jedoch nicht aus, o dass ein zusätzlicher Regressor notwendigerweise statistisch signifikant ist, falls R 2 und R 2 o ob Regressoren kausal für unabhängige Variable Y sind o ob ein OV-Bias vorliegt o ob wir die geeignetste Gruppe an Regressoren ausgewählt haben 43