Lineare Regression in R

Transkript

1 Lineare Regression in R Christian Kleiber Abt. Quantitative Methoden, WWZ, Universität Basel 30. September Vorbereitungen Zur Illustration betrachten wir den Datensatz CASchools aus der Vorlesung Ökonometrie 1. Laden des Paketes AER und der Daten: R> library("aer") R> data("caschools") oder alternativ auch R> data("caschools", package = "AER") (was war der Unterschied?). Die benötigten Variablen müssen zunächst erzeugt werden: R> CASchools$stratio <- with(caschools, students/teachers) R> CASchools$score <- with(caschools, (math + read)/2) (Es gibt weitere Möglichkeiten, diese Variablen zu erzeugen, obige Lösung ist aber sehr kompakt.) 2 Schätzung der Regressionskoeffizienten Zur Schätzung des Modells benutzt man score i = β 1 + β 2 stratio i + Fehler i R> fm <- lm(score ~ stratio, data = CASchools) Die Funktion lm() schätzt ein lineares Regressionsmodell mit der Methode der kleinsten Quadrate (OLS). Die Ergebnisse des Funktionsaufrufs werden hier zunächst in einem Objekt fm (der Klasse lm") gespeichert, deshalb gibt es auch keine Ausgabe auf dem Schirm. Dies ist die typische Arbeitsweise in R: weitere Ergebnisse erhält man durch Anwendung diverser Extraktorfunktionen auf dieses Objekt. Ruft man das Objekt selbst auf, R> fm Call: lm(formula = score ~ stratio, data = CASchools) Coefficients: (Intercept) stratio

2 Lineare Regression in R 2 so ist dies gleichbedeutend mit der Eingabe print(fm) und es werden nur der vorherige Funktionsaufruf sowie die geschätzten Regressionskoeffizienten angezeigt. (Wir erhalten die gleichen Ergebnisse wie Stock und Watson, S. 120, Gleichung (4.11).) Das Objekt fm enthält aber viel mehr: die Extraktorfunktion summary() liefert bspw. R> summary(fm) Call: lm(formula = score ~ stratio, data = CASchools) Residuals: Min 1Q Median 3Q Max Coefficients: (Intercept) < 2e-16 stratio Residual standard error: 18.6 on 418 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 22.6 on 1 and 418 DF, p-value: Hierbei erhält man neben einer Kurzanalyse der Residuen die üblichen Regressionsergebnisse: eine Tabelle mit Regressionskoeffizienten, deren Standardfehlern, t-statistiken und zugehörigen p-werten. Mit dem Objekt fm kann man auch über die Funktion abline() die Regressionsgerade zu einem Streudiagramm hinzufügen: R> plot(score ~ stratio, data = CASchools, pch = 20) R> abline(fm) score stratio

3 Lineare Regression in R 3 abline() ist eigentlich eine Funktion, die über einen Aufruf abline(a, b) eine Gerade mit Achsenabschnitt a und Steigung b zu einer bestehenden Graphik hinzufügt. Wendet man die Funktion wie hier auf ein Objekt der Klasse lm" an, so weiss die Funktion, dass sie die Regressionskoeffizienten extrahieren soll. 3 Tests und Konfidenzintervalle Tests zur Überprüfung der Hypothesen H 0 : β j = 0, d.h. der Hypothese, dass der Regressor Nr. j weggelassen werden kann, sind Bestandteil des Regressionsoutputs: t test of coefficients: (Intercept) < 2e-16 stratio Eine ANOVA-Tafel (Varianzanalysetafel) nebst F -Test liefert der Befehl R> anova(fm) Analysis of Variance Table Response: score Df Sum Sq Mean Sq F value Pr(>F) stratio Residuals und Konfidenzintervalle für die Regressionskoeffizienten erhält man über R> confint(fm, level = 0.95) 2.5 % 97.5 % (Intercept) stratio Die Voreinstellung ist 95%, d.h. man hätte hier das Argument level nicht angeben müssen. Bem.: Weitere Extraktor-Funktionen sind resid() oder gleichbedeutend residuals(), die die Residuen liefern, fitted() für den Vektor ŷ, coef() oder coefficients() für die Regressionskoeffizienten. Diese Liste ist keineswegs vollständig der Aufruf methods(class=lm") liefert eine Liste aller generischen Funktionen, die Methoden für Objekte der Klasse lm" haben. [Die Bedeutung der Begriffe generische Funktion, Klasse bzw. Methode in R wird später noch erklärt.] 4 Prognosen Prognosen erhält man über die (generische) Funktion predict(), die man direkt auf das Objekt fm anwenden kann. R erwartet die neuen Daten wieder in der Form eines data.frame, den man ggf. erst erzeugen muss: R> new <- data.frame(stratio = 20) R> predict(fm, newdata = new)

4 Lineare Regression in R 4 Natürlich kann man auch für einen ganzen Satz von neuen x-werten Prognosen bekommen: R> new <- data.frame(stratio = c(10, 20, 30)) R> predict(fm, newdata = new) Will man nicht nur Punkt-, sondern Intervallprognosen (Prognoseintervalle), muss man das Argument interval spezifizieren: R> predict(fm, newdata = new, interval = "prediction") fit lwr upr Hier ist fit die (Punkt-)Prognose und lwr bzw. upr ist die untere bzw. obere Intervallgrenze. Das per Voreinstellung verwendete Konfidenzniveau ist dabei 0.95, will man ein anderes, muss man auch noch das Argument level benutzen. 5 Heteroskedastie-robuste Standardfehler Die per Voreinstellung in R erhältlichen Standardfehler sind wie in den meisten Programmpaketen Standardfehler unter der Annahme (bedingter) Homoskedastizität, d.h. Var(y i x i ) = σ 2. In ökonometrischen Querschnittsregressionen ist es oft sinnvoll, heteroskedastiekonsistente (oder -robuste) Standardfehler zu verwenden. Das Buch von Stock und Watson arbeitet von Anfang an mit diesen Fehlern. Dabei ersetzt man in der einfachsten Version den Standardschätzer für die OLS-Kovarianzmatrix (es ist durchsichtiger, alles gleich für Matrizen aufzuschreiben!) durch ( Var( ˆβ) n = ˆσ 2 (X X) 1 = ˆσ 2 x i x i i=1 ) 1 ( n ) 1 ( Var( ˆβ) n ) ( n = x i x i û 2 i x i x i x i x i i=1 i=1 Dieser Schätzer heisst Eicker-White-Schätzer der OLS-Kovarianzmatrix. In R sind solche allgemeineren Schätzer über das Paket sandwich erhältlich. Man kann neben den korrigierten Standardfehlern selbst auch t-statistiken und p-werte basierend auf diesen Fehlern bekommen. Dazu benötigt man die Funktion coeftest() aus dem Paket lmtest, in der man eine Kovarianzmatrixschätzung über das Argument vcov wählen kann. Modifizierten Regressionsoutput unter Verwendung von Eicker-White-Standardfehlern erhält man nun über R> library("sandwich") R> library("lmtest") R> coeftest(fm, vcov = sandwich) t test of coefficients: (Intercept) < 2e-16 stratio i=1 ) 1

5 Lineare Regression in R 5 Etwas technischer: Wir können die Schätzungen der Standardfehler (klassisch und heteroskedastierobust) vergleichen über R> sqrt(diag(vcov(fm))) (Intercept) stratio R> sqrt(diag(sandwich(fm))) (Intercept) stratio also über das Extrahieren der Wurzeln der Diagonalelemente (= Varianzen) der jeweiligen Kovarianzmatrizen. Die Eicker-White-Fehler sind damit hier etwas grösser als die unter der Annahme von Homoskedastie berechneten. Bem.: Da der Eicker-White-Schätzer immer noch gewisse Nachteile hat, gibt es Modifikationen (üblicherweise bezeichnet mit HC1-HC4) dieser Grundversion HC0. Alle Varianten sind im R-Paket sandwich erhältlich. 6 Testen allgemeiner linearer Hypothesen Tests zur Überprüfung von Hypothesen des Typs H 0 : β j = 0 wurden bereits besprochen. Manchmal will man Hypothesen von allgemeinerer Form testen. Angenommen, wir wollen im Modell geschätzt mit score = β 0 + β 1 stratio + β 2 english + u i R> fm2 <- lm(score ~ stratio + english, data = CASchools) die Hypothese H 0 : β 1 = β 2 testen, oder äquivalent H 0 : β 1 β 2 = 0, d.h. die Koeffizienten zu stratio und english sind gleich (keine inhaltlich sinnvolle Hypothese, nur eine Illustration). Solche Hypothesen können mit der Funktion linear.hypothesis() aus dem Paket car getestet werden (dieses muss i.a. erst installiert werden, wenn Sie aber schon AER installiert haben, wurde dies bereits automatisch mitinstalliert). Die einfachste Möglichkeit besteht nun in der Nutzung einer Formelschreibweise: R> linear.hypothesis(fm2, "str = english", vcov = sandwich) oder alternativ R> linear.hypothesis(fm2, "str - english", vcov = sandwich) Im zweiten Fall wird also von der Funktion verstanden, dass die rechte Seite der Hypothese Null ist. Unser Problem lässt sich aber noch etwas allgemeiner (und damit transparenter!) formulieren: In Matrixform ist eine allgemeine lineare Hypothese von der Form Rβ = r (1) wobei β der (k + 1) 1 Vektor der Regressionskoeffizienten, R eine q (k + 1) Matrix und r ein q 1 Vektor sind.

6 Lineare Regression in R 6 Die Funktion linear.hypothesis() kann auch mit dieser Formulierung umgehen, sie benötigt dafür eine hypothesis.matrix (die Matrix R aus (1)), und rhs (der Vektor r auf der rechten Seite von (1)). In unserem Fall reduziert sich die Matrix R zu einem (Zeilen-)Vektor, da wir nur eine einzelne lineare Hypothese testen, und die rechte Seite ist ein Skalar. Der Funktionsaufruf ist deshalb R> linear.hypothesis(fm2, hypothesis.matrix = c(0, 1, -1), rhs = 0) Linear hypothesis test Hypothesis: stratio - english = 0 Model 1: score ~ stratio + english Model 2: restricted model Res.Df RSS Df Sum of Sq F Pr(>F) Das Ergebnis von linear.hypothesis() ähnelt dem von anova(): man erhält die zu vergleichenden Modelle mit Freiheitsgraden, Fehlerquadratsummen und zugehöriger F -Statistik. Demnach kann die Hypothese zu den üblichen Signifikanzniveaus nicht verworfen werden. Bei Verdacht auf Heteroskedastie kann man solche lineare Hypothesen wie oben auch gleich mit einer Eicker-White-Kovarianzmatrix testen: R> linear.hypothesis(fm2, hypothesis.matrix = c(0, 1, -1), rhs = 0, vcov = sandwich) Linear hypothesis test Hypothesis: stratio - english = 0 Model 1: score ~ stratio + english Model 2: restricted model Note: Coefficient covariance matrix supplied. Res.Df Df F Pr(>F) Formeln R bietet eine flexible Formelmethode an, um Regressionsmodelle zu spezifizieren. Dabei haben allerdings die Grundrechenarten eine neue Bedeutung, bspw. bedeutet wie schon gesehen y ~x + z Regression von y auf x und z (aber eben nicht auf x + z): R> fm2 <- lm(score ~ stratio + english, data = CASchools) Analog bedeutet "-" Weglassen von Regressoren. Ein Modell mit nur dem Regressor stratio ergibt sich bspw. aus fm2 unter Verwendung der Funktion update() über R> fm1 <- update(fm2,. ~. - english, data = CASchools)

7 Lineare Regression in R 7 Die Grundrechenarten werden insb. gebraucht, um Interaktionsterme kompakt zu spezifizieren. Ein Modell mit Interaktionen zwischen den metrischen Regressoren stratio und english wird spezifiziert durch: R> fmint1a <- lm(score ~ stratio + english + stratio:english, data = CASchools) oder kompakter durch R> fmint1b <- lm(score ~ stratio * english, data = CASchools) Dabei ist stratio:english der Interaktionsterm selbst, und stratio * english steht für eine Regression auf die angegebenen Regressoren und sämtliche Interaktionsterme. Besonders elegant (aber anfangs etwas gewöhnungsbedürftig) ist die Formelschreibweise im Zusammenhang mit Faktoren (qualitativen Variablen): Sei dazu a eine kategoriale Variable (Faktor) mit k Stufen. Im Ökonometrie-Jargon würde man dazu k 1 Dummies einführen, der Vorteil der R-Version ist, dass man nur eine einzige Variable verwalten muss und diese Dummies im Hintergrund automatisch erzeugt werden. Damit kann man insb. sehr schnell die Referenzkategorie wechseln. Tabelle 1 zeigt einige Möglichkeiten, mit Faktoren und einer metrischen Variablen x sehr kompakt Interaktionen zu spezifizieren. Tabelle 1: Formeln in Regressionsmodellen. Formel y ~ a + x y ~ a * x y ~ a + x + a:x y ~ a / x y ~ a + x %in% a Beschreibung Modell ohne Interaktion: identische Steigungen bzgl. x, aber unterschiedliche Achsenabschnitte bzgl. a. Modell mit Interaktion: der Term a:x erzeugt die Differenz der Steigungen bzgl. der Referenzkategorie. Modell mit Interaktion: gleiche ŷ i wie oben, aber Koeffizienten hierarchisch kodiert. Explizite Steigung für jede Kategorie von a. Ein Beispiel zu Interaktionen zwischen einem Faktor und einem metrischen Regressor (um die Möglichkeiten der Formelsprache deutlicher zu machen, wird der Faktor noch etwas aufbereitet): R> henglish <- I(CASchools$english >= 10) R> henglish <- factor(henglish, labels = c("no", "yes")) R> fmint2 <- lm(score ~ stratio * henglish, data = CASchools) R> coeftest(fmint2, vcov = sandwich) t test of coefficients: (Intercept) <2e-16 stratio henglishyes stratio:henglishyes Hier wird henglish durch einen logischen Vergleich erzeugt: die Aussage english >= 10 ist für einen gegebenen Schulbezirk entweder wahr oder falsch, somit entsteht ein Vektor mit diesen Einträgen. Er wird nun in einen Faktor vewandelt, dessen Ausprägungen "no" bzw. "yes" sind. Die Referenzkategorie des Faktors enspricht dabei "no". Will man die Regression mit der Referenzkategorie "yes" durchführen, definiert man die Kategorien um. Am einfachsten geht dies mit der Funktion relevel():

8 Lineare Regression in R 8 R> henglish <- relevel(henglish, ref = "yes") R> fmint3 <- lm(score ~ stratio * henglish, data = CASchools) R> coeftest(fmint3, vcov = sandwich) t test of coefficients: (Intercept) <2e-16 stratio henglishno stratio:henglishno Regression mit transformierten Variablen Wie oben beschrieben haben die Grundrechenarten in Formeln eine spezielle Bedeutung. Will man sie verwenden, um Regressoren zu transformieren, muss man deshalb einen Operator benutzen, nämlich I(). Ein quadratischer Term im Regressor income wird bspw. spezifiziert über R> fmquad <- lm(score ~ income + I(income^2), data = CASchools) Transformationen, die keine Grundrechenarten enthalten, brauchen das I() nicht, deshalb genügt z.b. für Logarithmen einfach R> fmlinlog <- lm(score ~ log(income), data = CASchools) Wird nun der tranformierte Regressor selbst wieder mit einer Grundrechenart transformiert, muss I() wieder verwendet werden: R> fmlinlogquad <- lm(score ~ log(income) + I(log(income)^2), data = CASchools) 9 Visualisierung von Regressionsergebnissen Zur Beurteilung der Anpassung ist es hilfreich, Graphiken zu erzeugen. Hier ein Beispiel für die Regression fmlinlog: R> plot(score ~ income, data = CASchools, pch = 20, + xlim = c(0, 60), ylim = c(600, 730)) R> grid <- seq(5, 55, by = 0.1) R> lines(grid, coef(fmlinlog)[1] + coef(fmlinlog)[2] * log(grid), + col = "slategrey", lwd = 2) R> legend("topleft", "linlog", col = "slategrey", lwd = 2, bty = "n")

9 Lineare Regression in R 9 score linlog income Dabei wird zunächst ein Vektor von Stützstellen (grid) erzeugt, in denen die Funktion dann mit den geschätzten Regressionskoeffizienten ausgewertet wird (coef(fmlinlog)[1]+coef(fmlinlog)[2]*log(grid)), diese beiden Vektoren werden schliesslich in der Form plot(x,y) gegeneinander abgetragen. Da die Punkte als Kurve zu einer bestehenden Graphik hinzugefügt werden sollen, wird dabei aber nicht die Funktion plot(), sondern lines() verwendet.