Lineare Regression mit einem Regressor: Einführung Quantifizierung des linearen Zusammenhangs von zwei Variablen Beispiel Zusammenhang Klassengröße und Testergebnis o Wie verändern sich Testergebnisse, wenn sich die Klassengröße um eine bestimmte Anzahl an Schülern verändert β KG = Änderung Testergebnisse Änderung Klassengröße = TE KG o Interpretation β KG : Ändert sich KG um 1 Schüler (1 Einheit), verändert sich TE um β KG Punkte o TE = β KG KG β KG = 0.6, KG = 2 TE = 0.6 ( 2) = 1.2 1
Lineare Regression mit einem Regressor: Einführung Graphische Interpretation: β KG ist Steigung einer Geraden, die die Beziehung zwischen TE und KG beschreibt: o TE = β 0 + β KG KG o β 0 ist Konstante (Achsenabschnitt) der Geraden Problem: alle anderen Faktoren, die (potentiellen) Einfluß auf TE haben, sind unberücksichtigt o Erweiterung: TE = β 0 + β KG KG + andere Faktoren 2
Formales Modell Y i = β 0 + β 1 X i + u i, i = 1,..., n o Y i : Ø Testergebnisse im Schuldistrikt i (gemessen in Punkten) o X i : Ø Größe der Schulklassen in Distrikt i = Anzahl der Schüler pro Lehrer im Distrikt i o u i : Effekte aller anderen Faktoren im Distrikt i o β 0 ist Konstante und β 1 ist Steigungsparameter der Geraden o n = 420 3
Lineares Regressionsmodell Y i = β 0 + β 1 X i + u i ist lineares Regressionsmodell mit einem Regressor o Y : abhängige (zu erklärende) Variable o X: Regressor bzw. unabhängige (erklärende) Variable o Vorgabe der Erklärungsrichtung von X nach Y β 0 + β 1 X ist Regressionsgerade bzw. Regressionsfunktion der Grundgesamtheit Konstante β 0 und Steigungsparameter β 1 sind die Regressionskoeffizienten bzw. -paramter der GG o ändert sich X um 1 Einheit, ändert sich Y um β 1 Einheiten o β 0 : Wert der Regressionslinie für X = 0 (nicht immer interpretierbar) 4
Lineares Regressionsmodell u i : Fehlerterm o Differenz zwischen tatsächlichem Y i (Testergebnis) und Wert gegeben durch Regressionsgerade o bestimmt durch alle ausgelassenen Faktoren 5
Ziele Schätzung der Parameter β 0 und β 1 der Grundgesamtheit Wie eine Gerade durch X, Y -Daten legen? Hypothesentests bzgl. β 1 (β 0 ) Konfidenzintervalle 6
Schätzung der Regressionsparameter Wie β 0 und β 1 schätzen Kriterien: o Minimiere Summe der Abweichungen von Punkten und Gerade Problem: positive und negative Abweichungen heben sich auf o Minimiere Summe der absoluten Abweichungen Probleme : formal schwierig anzuwenden, oft keine eindeutigen Lösungen o Minimiere quadratische Abweichungen (KQ-Methode) Vorteile: große Abweichungen werden stärker bestraft, leicht zu berechnen, in vielen Fällen gute bzw. sogar optimale Eigenschaften Wir verwenden Methode der Kleinsten Quadrate (KQ) 7
Herleitung des KQ-Schätzers Minimiere Summe der quadrierten Abweichungen der prognostizierten Werte Ŷi = ˆβ 0 + ˆβ 1 X i von den tatsächlichen Werten Y i Y i Ŷi = û i ist Residuum Minmiere sog. Residuenquadratsumme S( ˆβ 0, ˆβ 1 ) = n i=1 ( Ŷi) 2 n n min ˆβ 0, ˆβ i=1 Y i = min 1 ˆβ 0, ˆβ i=1 (Y i ˆβ 0 ˆβ ) 2 1 X i 1 o setze 1. Ableitungen bzgl. ˆβ 0 und ˆβ 1 gleich Null o löse nach ˆβ 0 und ˆβ 1 auf ( ) 2 Y i Ŷi 8
Herleitung des KQ-Schätzers KQ-Schätzer n ( o ˆβ i=1 Xi X ) ( Y i Y ) 1 = n ( i=1 Xi X ) 2 = o ˆβ 0 = Y ˆβ 1 X Cov (X, Y ) Var (X) = s XY s 2 X KQ-Schätzer ˆβ 0 und ˆβ 1 sind Zufallsvariablen! Arithmetisches Mittel Y einer Stichprobe ist KQ-Schätzer! 9
Terminologie KQ-Regressionsgerade: Gerade gegeben durch ˆβ 0 + ˆβ 1 X Prognostizierter Wert (Prognosewert) von Y i gegeben X i : Ŷ i = ˆβ 0 + ˆβ 1 X i Residuum für i-te Beobachtung: û i = Y i Ŷi o Residuum û i ist das KQ-Äquivalent zum Fehlerterm u i 10
Beispiel: Klassengröße Schätzergebnisse: ˆβ 0 = 698.9 und ˆβ 1 = 2.28 Interpretation ˆβ 1 : Schulbezirke mit einem Schüler mehr pro Lehrer, erreichen durchschnittlich 2.28 Punkte weniger in den Tests Interpretation ˆβ 0 : ist nicht sinnvoll, Punkteanzahl bei Null Schülern pro Lehrer Interpretation von Ŷi und û i : siehe Illustration 11
Gütemaße Wie gut beschreibt die Regressionsgerade die Daten? Zwei Maße: Bestimmtheitsmaß R 2 und Standardfehler der Regression sû 12
Bestimmtheitsmaß R 2 Bestimmtheitsmaß R 2 beschreibt den Anteil der Varianz von Y i der durch X i bzw. die Regression erklärt wird Y i = Ŷi + û i R 2 = Stichprobenvarianz von Ŷi = ESS Stichbrobenvarianz von Y i TSS Erklärte Variation von Y (explained sum of squares) o ESS = ) 2 ) n i=1 (Ŷi Y, (Ŷ = Y Gesamtvariation von Y (total sum of squares) o TSS = n ( i=1 Yi Y ) 2 Residuenquadratsumme (sum of squared residuals): SSR = n i=1 û2 i R 2 = 1 SSR TSS, da TSS = ESS + SSR 13
Bestimmtheitsmaß R 2 0 R 2 1 R 2 = 0 ESS = 0 (nichts wird erklärt) R 2 = 1 ESS = TSS (alles wird erklärt) 14
Standardfehler der Regression Schätzer für Standardabweichung der Fehlerterme u i sû = 1 n 2 n i=1 û2 i = SSR n 2 o Standardabweichung der Residuen û i Wieso n 2? ( û = 1/n n i=1 ûi = 0) o Korrektur für Anzahl der geschätzten Parameter: Freiheitsgrade Hier: β 0 und β 1 Beispiel: Klassengröße o R 2 = 0.051 (sehr klein) o sû = 18.6 (relativ große Streuung der Residuen im Streudiagramm) o Interpretation: vermutlich viele (relevante) Faktoren ausgelassen 15
Annahmen der KQ-Schätzung Annahmen notwendig um Eigenschaften des KQ-Schätzer abzuleiten, nicht notwendig für Anwendung! Spezifikation von Annahmen, für die KQ-Schätzung gute Ergebnisse liefert Orientierung für Anpassung des Schätzer bei Verletzung der Annahmen 16
Annahme # 1: Bedingter Erwartungswert von u i ist Null E [u i X i ] = E [u i X i = x] = 0 o X i ist stochastisch, d.h. ist eine Zufallsvariable Andere Faktoren in u i stehen in keinem systematischen (linearen) Zusammenhang zu X i o E [u i X i ] = 0 Cov (X i, u i ) = 0 o Merke: u i und X i unabhängig E [u i X i ] = 0 o X verhält sich so, als ob es im Rahmen eines randomisierten Kontrollexperiment unabhängig von anderen Faktoren variiert wird 17
Annahme # 1: Bedingter Erwartungswert von u i ist Null u i ist im Mittel Null: E[u i ] = E[E (u i X i )] = E[0] = 0 o Alle Faktoren in u i addieren sich im Mittel zu Null E [Y i X i ] = β 0 + β 1 X i o Regressionsgerade entspricht bedingtem Erwartungswert von Y gegeben X Annahme relevant um E[ ˆβ 0 ] und E[ ˆβ 1 ] zu bestimmen 18
Annahme # 2: (X, Y ) sind identisch, unabhängig verteilt (X, Y ) sind gemeinsam identisch und unabhängig (iid) Annahme garantiert, dass eine einfache Zufallsstichprobe aus einer Grundgesamtheit vorliegt Regressor X ist auch stochastisch! Annahme relevant zur Bestimmung der Verteilung von ˆβ 0 und ˆβ 1 : Anwendung des ZGS für iid Variablen 19
Annahme # 3: Extreme Ausreißer bzgl. X i und Y i sind unwahrscheinlich Ungewöhnlich große Werte (weit entfernt vom üblichen Wertebereich) können KQ-Schätzung verzerren Eine mögliche formale Spezifikaton: o E[X 4 i ] < und E[Y 4 i ] < o endliche vierte Momente (Kurtosis) o viele Ausreißer führen zu hohen Kurtosiswerten Wichtig um Konsistenz von Varianzschätzer zu zeigen o Erinnerung: Gesetz der großen Zahlen für iid-variablen Y i mit E[Yi 4] < s2 p Y σy 2 20
Zusätzliche Annahme # 4: Bedingte Varianz der Fehlerterme ist konstant E[u 2 i X i] = σ 2 u i vereinfacht Ableitung und Interpretation der Eigenschaften (Varianz) der KQ-Schätzer Folgen der Annahmenverletzung werden später diskutiert 21
Eigenschaften des KQ-Schätzers Erinnerung: ˆβ 0 und ˆβ 1 sind Zufallsvariablen Man kann bei Gültigkeit der Annahmen 1-3 zeigen, dass gilt: E[ ˆβ 0 ] = β 0 und E[ ˆβ 1 ] = β 1 o ˆβ 0 und ˆβ 0 sind erwartungstreu, d.h. unverzerrt Bei Gültigkeit der Annahmen 1-4 ergibt sich: Var[ ˆβ 0 ] = σ 2ˆβ0 = E(X2 i )σ2 u nσ 2 X Var[ ˆβ 1 ] = σ 2ˆβ1 = σ2 u nσ 2 X 22
Eigenschaften der KQ-Schätzer Asymptotische Verteilung: Es gibt ZGS für iid Variablen, so dass ( ) d ˆβ 0 N β 0, σ 2ˆβ0 und ˆβ 1 d N ( β 1, σ 2ˆβ1 ) o Verteilungsapproximation für große n o Durchführung von Hypothesentests bzgl. ˆβ 0 und ˆβ 1 und Bestimmung von Intervallschätzern Beachte σ 2ˆβ0 und σ 2ˆβ0 gehen gegen Null für n, bevorzuge ˆβ i β i σ ˆβi d N(0, 1), i = 0, 1 23
Implikationen der Eigenschaften der KQ-Schätzer ˆβ 0 und ˆβ 1 sind konsistente Schätzer für β 0 und β 1 o Wieso? Var(u 2 i ) = σ2 u Var( ˆβ 0 ) und Var( ˆβ 1 ) Var(Xi 2) = σ2 X Var( ˆβ 1 ) 24
Homoskedastizität vs. Heteroskedastizität Annahme 4: E[u 2 i X i] = σ 2 u für alle i: Homoskedastizität o Bedingte Varianz für alle i ist konstant Heteroskedastizität liegt vor, falls E[u 2 i X i] = σu,i 2 Einheiten i verschieden ist für Beispiel: Lohnregression für Männer und Frauen o Löhne der Frauen haben höhere Varianz o Spiegelt sich in höherer Varianz der Fehlerterme wieder: σ 2 u,f > σ2 u,m 25
Konsequenzen von Heteroskedastizität Varianzformeln für ˆβ 0 und ˆβ 1 gelten nicht mehr Komplexere Formeln z. B. σ 2ˆβ1 = 1 Var[(X i µ X )u i ] n [Var(X i )] 2 ˆβ 0 und ˆβ 1 bleiben aber weiterhin erwartungstreu (Annahmen 1-3 sind hinreichend) und konsistent (σ 2ˆβi 0, i = 0, 1, gilt weiterhin) 26
Implikationen für empirische Arbeit Heteroskedastizität ist für viele Situationen realistisch Tests auf Heteroskedastizität o oft nicht gute Eigenschaften Häufige Empfehlung: Anwendung der Varianzformel bzw. Varianzschätzer für Heteroskedastizität o sind auch bei Homoskedastizität gültig o Aber: Trade-off von geringer Fehlerwahrscheinlichkeit vs. Effizienz Informelle Evidenz für Heteroskedastizität o Deutlich abweichende Varianzschätzwerte bei Homoskedastitzität und Heteroskedastizität 27
Optimalität der KQ-Schätzer Wenn Annahmen # 4 erfüllt ist, kann man zeigen, dass die KQ-Schätzer BLUE sind (gegeben X 1,..., X n ) BLUE: Best Linear Unbiased Estimator KQ-Schätzer haben die kleinste Varianz gegeben X 1,..., X n (bedingte Varianz) aus der Klasse aller linearen unverzerrter Schätzer Linear: Lineare Funktion von Y i Gauss-Markov Theorem Optimalität gilt nicht, falls Annahme # 4 verletzt ist 28
Hypothesentests Typische Fragestellung: Gibt es Evidenz dafür, dass eine Reduzierung der Klassengröße zu besseren Schülerleistungen (Testergebnissen) führt? Beantwortung: einseitiger Hypothesentest bzgl. β 1 mit H 0 : β 1 0 vs. β 1 < 0 Plan o Zweiseitiger Hypothesentest bzgl. β 1 (Hat die Klassengröße überhaupt einen Effekt auf die Testergebnisse) o Einseitiger Hypothesentest bzgl. β 1 o Hypothesentest bzgl. β 0 29
Zweiseitiger Hypothesentest bzgl. β 1 ZGS: ˆβ1 d N(β1, σ 2ˆβ1 ) o Verteilungsergebnis analog zu Y Wende t-test nun analog bzgl. ˆβ 1 an 30
Testanwendung: 5 Schritte 1.) Hypothesenspezifikation: H 0 : β 1 = β 1,0 vs. H 1 : β 1 β 1,0 o β 1,0 ist der Wert, der überprüft werden soll o Beispiel: β 1,0 = 0 Hat die KG überhaupt einen Einfluss? 2.) Teststatistik aufstellen t = ˆβ 1 β 1,0 ˆσ ˆβ1 d N(0, 1) o Müssen ˆσ ˆβ1 schätzen: Heteroskedastie oder Homoskedastie- Annahme treffen 31
Testanwendung: 5 Schritte 3.) Teststatistik mit Hilfe der Schätzergebnisse berechnen t act 4.) p-wert mit Hilfe N(0, 1) Verteilung ermitteln p-wert = P ( t > t act ) = 2Φ ( t act ) 32
Testanwendung: 5 Schritte 5.) Testentscheidung o Signifikanzniveau wählen, z. B. α = 0.05 o p-wert < α Lehne H 0 ab o p-wert α Lehne H 0 nicht ab o Alternative: Vergleich von t act und kritischen Wert zum Signifikanzniveau α Beispiel: α = 0.05 kritischer Wert = 1.96 Lehne H 0 ab, falls t act > 1.96 33
Testanwendung: Beispiel KQ-Regressionsergebnisse für Schuldaten TE = 698.9 (10.4) 2.28 (0.52) KG, R2 = 0.051, s u = 18.6 o ˆσ ˆβ0 = 10.4 und ˆσ ˆβ1 = 0.52 o Standardabweichungen heteroskedastie-robust geschätzt 34
Testanwendung: Beispiel H 0 : β 1 = 0 vs. H 1 : β 1 0 (β 1,0 = 0) o Signifikanzniveau α = 0.05 o kritischer Wert: 1.96 t = ˆβ 1 0 t act = 2.28 0 ˆσ ˆβ1 0.52 = 4.38 o p-wert = 0.000012 oder 0.0012% o p-wert < α Lehne H 0 zum Signifikanzniveau 0.05 ab, d. h. KG hat signifikanten Einfluss auf TE o t act > 1.96 Lehne H 0 ab 35
Einseitiger Test bzgl. β 1 Auf Basis des zweiseitigen Tests dürfen wir formal nur schlussfolgern, dass β 1 zum Niveau α = 0.05 signifikant von Null abweicht; nicht aber ob die Abweichung signifikant positiv oder negativ ist Einseitiger Test für Entscheidung über Vorzeichen der Abweichung o H 0 : β 1 β 1,0 vs. H 1 : β 1 < β 1,0 o H 0 : β 1 β 1,0 vs. H 1 : β 1 > β 1,0 Beispiel: Positiver Einfluss der Reduzierung der KG auf TE H 0 : β 1 0 vs. H 1 : β 1 < 0 o Beachte β 1 < 0 unter H 1, da wir KG reduzieren 36
Einseitiger Test bzgl. β 1 Achtung: Aussage in S&W, dass H 0 : β 1 = β 1,0 ist nicht korrekt! Formal müssen H 0 und H 1 den gesamten Wertebereich von β 1 abdecken. Praktisch ist β 1 = β 1,0 der Wert in H 0, der am schwierigsten abzulehnen ist. Deshalb wird β 1 = β 1,0 für die Testdurchführung verwendet o β 1 = β 1,0 liegt am nächsten zu H 1 37
Einseitiger Test bzgl. β 1 Nehme β 1 = β 1,0 als Wert aus H 0 für Testdurchführung o Teststatistik wie für zweiseitigen Test berechnen o Ermittlung der Testentscheidung und Interpretation ändern sich Betrachte nur noch eine Seite 38
Einseitiger Test: Beispiel KG Effekt der Schulklassengröße H 0 : β 1 0 vs. H 1 : β 1 < 0 Signifikanzniveau: α = 0.05 kritischer Wert = 1.6454 t act = 4.38 p-wert= P (t < t act ) = Φ(t act ) = 0.000006 Lehne H 0 zum Signifikanzniveau α = 0.05 ab, d. h. Verringerung der KG hat einen signifikant positiven Effekt auf TE bzw. KG hat einen signifikant negativen Effekt auf TE 39
Einseitiger Test mit H 1 : β 1 > β 1,0 Bei H 0 : β 1 β 1,0 vs. H 1 : β 1 > β 1,0 p-wert = P (t > t act ) = 1 Φ(t act ) 40
Bestimmung der Alternativhypothesen Standardwahl: zweiseitiger Test Einseitiger Test, nur wenn gute (ökonomische) Gründe vorliegen o a priori oft nicht klar, ob β 1 β 1,0 oder β 1 β 1,0 sinnvollere Alternative o Gefahr der Verfälschung der Testentscheidung 41
Hypothesentests bzgl. β 0 Analog zu β 1 H 0 : β 0 = β 0,0 vs. β 0 β 0,0 H 0 : β 0 β 0,0 vs. β 0 > β 0,0 H 0 : β 0 β 0,0 vs. β 0 < β 0,0 Teststatistik: t = ˆβ 0 β 0,0 ˆσ ˆβ0 42
Konfidenzintervall für Regressionsparameter Ableitung und Schätzung analog zu µ Y (1 α) Konfidenzintervalle: β 1 : β 0 : { ˆβ1 ± z α/2 ˆσ ˆβ1} { ˆβ0 ± z α/2 ˆσ ˆβ0} Beispiel: α = 0.05 z α/2 = 1.96 Beispiel für Schulklassendaten: siehe Illustration 43
Regression mit binären Variablen Bisher stetige Variablen als Regressor betrachtet z. B. Klassengröße In vielen Anwendungen werden sogenannte binäre Variablen benötigt o Nehmen nur zwei Werte an, z. B. 0 und 1 X 1 = X 2 = { 1 falls Schülerin 0 falls Schüler { 1 falls Schuldistrikt in der Stadt 0 falls Schuldistrikt in ländl. Region o Binäre Variable werden auch als Indikatorvariablen oder Dummyvariablen bezeichnet 44
Regression mit binären Variablen: Anwendungsbeispiel KQ-Regression wie für stetige Variablen, aber Interpretation von β 1 ändert sich Regressor D i mit D i = { 1 falls KG im Distrikt i < 20 0 falls KG im Distrikt i 20 Regressionsmodell Y i = β 0 + β 1 D i + u i, i = 1,..., n D i kann nur zwei Werte annehmen o Interpretation von β 0 + β 1 D i als (Regressions-) Gerade und β 1 als Steigungsparameter ist nicht sinnvoll 45
Binäre Variablen: Interpretation D i = 0 o Regressionsmodell vereinfacht sich zu Y i = β 0 + u i o E[Y i D i = 0] = β 0 o β 0 ist Erwartungswert der GG, falls die KG hoch ist D i = 1 o E[Y i D i = 1] = β 0 + β 1 o β 0 + β 1 ist Erwartungswert der GG, falls die KG klein ist 46
Binäre Variablen: Interpretation β 1 beschreibt den Unterschied in den EWen der GG für den Fall von großen und kleinen KG o ˆβ 1 misst den Unterschied in den Stichprobenmitteln für kleine und große Klassen t-test mit H 0 : β 1 = 0 vs. H 1 : β 1 0 o Test auf Erwartungswert bzw. Mittelwertunterschiede zw. beiden Untergruppen Anwendung auf Schulklassendaten (siehe Illustration) TE = 650.0 (1.3) + 7.4 (1.8) D, R2 = 0.035, sû = 18.7 47