Eine Einführung in R: Lineare Regression

Transkript

1 Eine Einführung in R: Lineare Regression Katja Nowick, Lydia Müller und Markus Kreuz Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig Dezember 2015 Katja Nowick, Lydia Müller und Markus Kreuz Grundlagen III ( Institut für Medizinische 15. Dezember Informatik, 2015 Statistik und 1 / Epide 29

2 I. Ergänzungen zu Übung 3 ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 2 / 29 Univ

3 Weitere Tests in R chisq.test: χ 2 -Test fisher.test: Fisher-Test binom.test: Binomial-Test cor.test: Korrelationstest kruskal.test: Kruskal-Wallis-Test ks.test: Kolmogorov-Smirnov-Test shapiro.test: Shapiro-Wilk-Test ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 3 / 29 Univ

4 Bootstrap Verfahren Wenn die theoretische Verteilung der interessierenden Statistik nicht bekannt ist, können Bootstrapverfahren eingesetzt werden. Mögliche Anwendungen: Bootstrap Kondenzintervalle Bootstrap Tests Vorgehen: Aus der Originalstichprobe werden B Bootstrap-Stichproben der gleichen Gröÿe mit zurücklegen gezogen: x b = (x 1,..., x n), b = 1,...B. Dies entspricht einer Ziehung aus der empirischen Verteilungsfunktion. Für jede der B Stichproben kann die interessierende Statistik T berechnet werden. Dies ermöglicht die Abschätzung der Verteilung von T und damit die Schätzung von Quantilen und p-werten. ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 4 / 29 Univ

5 Bootstrap Beispiel: Kondenzintervall x<-rnorm(100) mean(x) Fragestellung: Bestimme das 95% Kondenzintervall für die Schätzung des Mittelwertes. t<-rep(na,n) for (i in 1:N){ t[i]<-mean(sample(x,length(x),replace=t)) } quantile(t,c(0.05,0.95)) ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 5 / 29 Univ

6 Lineare Einfachregression ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 6 / 29 Univ

7 Einleitung Ziel der Regressionsanalyse: Welchen Einuss hat eine Gröÿe X auf eine andere Zufallsvariable Y? Y : metrische Zielvariable, zu erklärende Variable, Regressand X : erklärende Variable, Regressor (zufällig oder deterministisch) Daten: n Realisierungen (y 1, x 1 ),..., (y n, x n ) Ziel der linearen Regression Die Lineare Regression untersucht, ob ein linearer Zusammenhang zwischen X und Y besteht. ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 7 / 29 Univ

8 Modell der Linearen Regression Y = β 0 + β 1 X + ε Y : Zielvariable, zu erklärende Variable, Regressand X : erklärende Variable, Regressor ε : unbeobachtbare Fehlervariable, unabhängig und identisch verteilt (in der Regel als N(0, σ)) zu schätzende Koezienten des Models: β 0, β 1 β 0 : Intercept β 1 : Regressionskoezient der Variable X Für i = 1,..., n Beobachtungen: y i = β 0 + β 1 x i + ε i i = 1,..., n ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 8 / 29 Univ

9 Annahmen: Lineare Regression Es besteht ein linearer Zusammenhang zwischen X und Y Y ist metrisch und normalverteilt (Kategorial: Logit Regression; Allgemeinere Verteilungen: GLM's) E(y i ) = β 0 + β 1 x i Var(y i ) = σ 2 Homoskedastizität, d.h. die Fehler ε i haben die gleiche Varianz: Var(ε i ) = σ 2 für alle i = 1,..., n Die Fehler ε i, mit i = 1,..., n, sind unabhängig (GegenBsp: Zeitreihendaten) Die Fehler ε sind unabhängig vom Wert der Zielvariable Y ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 9 / 29 Univ

10 Beispiel: Simulierte Daten X<-seq(1,6,0.01) epsilon<-rnorm(length(x), mean=0, sd=1) Y<-X+epsilon X Y ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Univ Grundlagen III 15. Dezember / 29

11 Schätzung der β i β 0 und β 1 können durch Minimierung der Summe des Quadratischen Fehlers geschätzt werden Kleinste Quadrate Schätzer: MLQ MLQ = n i=1( yi (β 0 + β 1 x i ) )2 min! Dies führt zu folgenden Schätzungen für β 0, β 1 und der getteten Wert Ŷ (Regressionsgerade): Schätzungen n i=1 ˆβ 1 = (x i x)(y i ȳ) cov(x,y ) n = i=1 (x i x) 2 var(x ) ˆβ 0 = Ȳ ˆβ 1 X Ŷ = ˆβ 0 + ˆβ 1 X ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 11 / 29 Univ

12 Testen des β-koezienten Der Regressionskoezient β 1 der Variable X ist ein Indikator für den linearen Zusammenhang von X und Y. Es gilt: Zusammenhang zwischen β 1 und cor(x, Y ) Daraus folgt: β 1 = cor(x, Y ) σ Y σx β 1 < 0: negativer (linearer) Zusammenhang β 1 = 0: kein (linearer) Zusammenhang β 1 > 0: positiver (linearer) Zusammenhang Es gibt einen einfachen Test, der angibt, ob β 1 signikant ungleich Null ist, d.h. ob ein signikanter Zusammenhang zwischen X und Y besteht. ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 12 / 29 Univ

13 Zerlegung der Gesamtstreuung Die Maÿzahl R 2 dient als Hinweis darauf, wie gut ein Regressionsmodell zu den Daten passt. Die Idee hinter diesem Maÿ ist die sogenannte Streuungszerlegung: SQT = n (y i ȳ) 2 = i=1 n (y i ŷ i ) 2 + i=1 } {{ } SQR n (ŷ i ȳ) 2 i=1 } {{ } SQE SQT: Sum of Squares Total, die Gesamtstreuung (Var(Y )) SQE: Sum of Squares Explained, die durch das Modell erklärte Streuung SQR: Sum of Squares Residuals, die Rest- oder Residualstreuung ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 13 / 29 Univ

14 Bestimmtheitsmaÿ R 2 Liegen die Punkte (y 1, x 1 ),..., (y n, x n ) alle auf einer Geraden, so ist SQR= 0 und die Gesamtstreuung wäre gleich der erklärten Streuung. Das Bestimmtheitsmaÿ R 2 ist gegeben durch: Zerlegung des R 2 R 2 = SQE SQT = 1 SQR SQT [0, 1] Je gröÿer also das R 2 ist, desto besser passt das Modell zu den Daten. Dabei bedeuten: R 2 = 0: Die erklärte Streuung ist 0, d.h. das Modell ist extrem schlecht; X und Y sind nicht linear abhängig R 2 = 1: Die erklärte Streuung entspricht der Gesamtstreuung, das Modell passt perfekt ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 14 / 29 Univ

15 Multiple Regression ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 15 / 29 Univ

16 Mehrere erklärende Variablen Fragestellung: Wie ist der Einuss mehrerer Variablen X 1,..., X p auf eine Zielgröÿe Y? Realisierungen: (y 1, x 11,..., x 1p ),..., (y n, x n1,..., x np ) Modell der multiplen linearen Regression mit p erklärenden Gröÿen X = X 1,..., X p : Modell der multiplen linearen Regression Y = X β + ε y i = β 0 + p j=1 β j x ij + ε i i = 1,..., n, j = 1,..., p Dabei ist X = (x ij ) die sogenannte Designmatrix. Vorteil zur einfachen Regression: β j beschreibt den Zusammenhang der j.ten Variable zu Y bedingt auf alle übrigen j 1 Variablen (Kontrolle von ungewollten oder Scheineekten) ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 16 / 29 Univ

17 Least-Squares Schätzer β 0, β 1,..., β p können (analog zur einfachen linearen Regression) durch Minimierung der Summe des Quadratischen Fehlers geschätzt werden (Kleinste Quadrate oder Least-Squares): ( n MLQ = i=1 y i (β 0 + β 1 x 1i β p x pi ) )2 min! Der Least-Squares Schätzer ergibt sich nach Umformen zu: ˆβ = (X T X ) 1 X T Y ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 17 / 29 Univ

18 Residuenanalyse Da die Residuen alle unterschiedliche Varianz besitzen, skaliert man sie auf einheitliche Varianz: r i,stud = r i ˆσ 1 h ii N(0, σ) Frage: Sind die Voraussetzungen für das lineare Modell erfüllt? Zu untersuchen sind: 1 Anpassung des Modells an die Daten: Residuen gegen gettete Wert Ŷ 2 Normalverteilung des Fehlers: QQ-Plot: Quantile der Residuen gegen die theoretische NV 3 Homoskedastizität des Fehlers: Standardisierte Residuen gegen gettete Wert Ŷ, wenn die geeignet mit H standardisierten Residuen abhängig von Ŷ sind, deutet dies auf ungleiche Varianzen der Fehler hin ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 18 / 29 Univ

19 Umsetzung in R ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 19 / 29 Univ

20 Beispieldaten: airquality Ozone: Mean ozone in parts per billion from 1300 to 1500 hours at Roosevelt Island Solar.R: Solar radiation in Langleys in the frequency band Angstroms from 0800 to 1200 hours at Central Park Wind: Average wind speed in miles per hour at 0700 and 1000 hours at LaGuardia Airport Temp: Maximum daily temperature in degrees Fahrenheit at La Guardia Airport Mit diesen Daten kann untersucht werden, welchen Einuss Sonneneinstrahlung, Wind und Temperatur auf die Ozonwerte haben. ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 20 / 29 Univ

21 Beispiel in R Wir laden den Datensatz airquality data(airquality) Wir untersuchen das Modell: Ozone i = β 0 + β 1 Temp i + ε i... also die Abhängigkeit des Ozons von der Temperatur Aufruf der Funktion lm() test <- lm( formula= Ozone Temp, data= airquality) test ist ein Objekt der Klasse lm Ausgabe in R: Coefficients: (Intercept) Temp ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 21 / 29 Univ

22 Scatterplot: Ozone Temp plot(temp,ozone) abline(test$coefficients, col=red) Temp Ozone ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Univ Grundlagen III 15. Dezember / 29

23 Modelldiagnose R 2 und andere Maÿe des Modells : summary(test) Estimate Std. Error t value Pr(> t ) (Intercept) e-13 Temp < 2e-16 Multiple R-squared: , Adjusted R-squared: Koezienten: test$coefficients Gettete Werte Ŷ : test$fitted.values Studentisierte Residuen: ls.diag(test)$std.res Hat-Matrix: ls.diag(test)$hat Verschiedene Diagnoseplots: plot(test) oder plot.lm(test) (u.a. Residuenanalyse) ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 23 / 29 Univ

24 Modelldiagnose in R I: Residuen gegen gettete Werte Residuen gegen gettete Werte Ŷ zur Untersuchung der Anpassung des Modells an die Daten Keine systematische Abweichung, z.b. Trend oder U-Form Fitted values Residuals lm(ozone ~ Temp) Residuals vs Fitted ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Univ Grundlagen III 15. Dezember / 29

25 Modelldiagnose in R II: Residuen-QQ Plot der studentisierten (besondere Standardisierung) gegen die theoretischen (NV) Residuen zur Untersuchung der Normalverteilung des Fehlers Wenn die Residuen normalverteilt sind, sollten sie auf der gestrichelten Geraden liegen Normal Q Q 117 Standardized residuals Theoretical Quantiles lm(ozone ~ Temp) 62 ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 25 / 29 Univ

26 Modelldiagnose in R III: Standardisierte Residuen gegen Ŷ Standardisierte, absolute Residuen gegen gettete Werte Ŷ zur Untersuchung der Homoskedastizität des Fehlers Keine systematische Abweichung, z.b. ansteigende Varianz Fitted values Standardized residuals lm(ozone ~ Temp) Scale Location ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Univ Grundlagen III 15. Dezember / 29

27 Multiple Regression in R Wir untersuchen nun das Modell: Ozone i = β 0 + β 1 Temp i +β 2 Solar.R i + ε i... also die Abhängigkeit des Ozons von der Temperatur und der Sonneneinstrahlung Aufruf der Funktion lm() model2 <- lm( formula= Ozone Temp + Solar.R, data= airquality) Ausgabe in R: Coefficients: (Intercept) Temp Solar.R ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 27 / 29 Univ

28 Ausgabe von summary(model2): Estimate Std. Error t value Pr(> t ) (Intercept) e-12 Temp e-15 Solar.R Multiple R-squared: , Adjusted R-squared: Interpretation: Solar.R besitzt ein β, das signikant von Null verschieden ist (p Wert < 0.05) Das β der Variable Temp verändert sich nur leicht durch die Aufnahme von Solar.R: von zu Das R 2 wird durch die Aufnahme von Solar.R nur noch leicht verbessert: von zu Durch die beiden Variablen Solar.R und Temp kann die Hälfte der Streuung der Ozonmessungen erklärt werden. ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 28 / 29 Univ

29 Spezikation der Regressionsvariablen lm(formula,...) formula: Hier muss das Modell bzw die Variablen des Modelles speziziert werden. Allgemeiner Aufbau der linearen Einfachregression formula= Y X Beispiel: formula= Ozone Temp Allgemeiner Aufbau der multiplen linearen Regression formula= Y X 1 + X X p Beispiel: formula= Ozone Temp + Solar.R ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 29 / 29 Univ