Woche 11: Multiple lineare Regression Patric Müller <patric.mueller@stat.math.ethz.ch> Teil XIII Multiple lineare Regression ETHZ WBL 17/19, 10.07.017 Wahrscheinlichkeit und Statistik Patric Müller WBL 017 Wahrscheinlichkeit und Statistik / WBL 017 Lernziele Sie können...... ein lineares Regressionsmodell aufschreiben und dessen Komponenten erläutern,... eine multiple lineare Regression in R durchführen,... die Nutzung der AIC und BIC Kriterien erläutern. Vorlesung basiert auf Kapitel 5. des Skripts. Wahrscheinlichkeit und Statistik 3 / WBL 017 Zusammenfassung Einfache lineare Regression Modell für einfache lineare Regression: Y i = β 0 + β 1 x i + E i, i = 1,..., n, Wobei E 1,..., E n N (0, σ ) Var. Bezeichnung Bedeutung Beispiel Y i Zielvariable Variable, die wir vorhersagen wollen Energieumsatz x i erklärende Variable, bekannte oder einfach zu fettfreie Masse Co-Variable messende Variable E i Fehlervariable oder Abweichung von perfekter Rauschterm Geraden Die unbekannten Parameter β 0 und β 1 werden mit der Methode der kleinsten Quadrate geschätzt. ( n ) ( ˆβ 0 ; ˆβ 1 ) = argmin (Y i β 0 β 1 x i ) β 0,β 1 i=1 Wahrscheinlichkeit und Statistik 4 / WBL 017
Signifikanz und Vertrauensintervall für erklärende Variable Multiple lineare Regression Konfidenzintervall [ für β 1 : ] I = ˆβ 1 ŝe( ˆβ 1 )t n,1 α, ˆβ 1 + ŝe( ˆβ 1 )t n,1 α lm(formula = energy ~ mass, data = energymass) Residuals: Min 1Q Median 3Q Max -0.83689-0.5948-0.0941 0.37778 0.5947 Estimate Std. Error t value Pr(> t ) (Intercept).53831 0.65519 3.874 0.001 ** mass 0.1048 0.01033 10.143 3.07e-07 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.433 on 1 degrees of freedom Multiple R-squared: 0.8955, Adjusted R-squared: 0.8868 F-statistic: 10.9 on 1 and 1 DF, p-value: 3.073e-07 Modell für die (multiple) lineare Regression Y i = β 0 + β 1 x (1) i + β x () i +... + β m x (m) i + E i, i = 1,..., n Wobei E 1,..., E n N (0, σ ) Die unbekannten Parameter sind hier β 0, β 1,..., β m, σ Das Modell ist linear (in den Parametern), es gibt aber mehrere Parameter zu schätzen (und mehrere Prädiktoren) Hier: I = [0.083, 0.173] Wahrscheinlichkeit und Statistik 5 / WBL 017 Wahrscheinlichkeit und Statistik 6 / WBL 017 Notation mit Matrizen Geometrische Interpretation wobei X = Y = X β + E, 1 x (1) 1 x () 1... x (m) 1 1 x (1) x ()... x (m), Y =..... 1 x n (1) x n ()... x n (m) β = β 0 β 1. β m, E = E 1 E. E n. Y 1 Y. Y n, Einfache lineare Regression: m = 1 und p = (Parameter zu schätzen). Man findet die bestmögliche Gerade. Lineare Regression mit zwei Prädiktoren: m = und p = 3. Man findet die bestmögliche Ebene. Multiple lineare Regression: m N und p = m + 1. Man findet die bestmögliche Hyperebene. Energy expenditure [MJ] 8 9 10 11 50 60 70 Fat free mass [kg] (Webb, 1981) Quelle: https://de.wikipedia.org/wiki/multiple lineare Regression Wahrscheinlichkeit und Statistik 7 / WBL 017 Wahrscheinlichkeit und Statistik 8 / WBL 017
Multiple lineare Regression Beispiel Anhand einer statistischen Analyse der Daten einer Studie (Willerman et al. (1991)), möchte man feststellen, wie die Intelligenz der Personen von vier Merkmalen (Geschlecht, Gewicht, Höhe, Gehirnmasse) Abhängt. Man vermutet eine lineare Abhängigkeit: Es entsteht folgendes Modell: Ziele: Y i = β 0 + β 1 x G i + β x W i + β 3 x H i + β 4 x M i + E i, i = 1,..., n, Wobei E 1,..., E n N (0, σ ), x G i = Geschlecht i, x W i = Gewicht i, x H i = Höhe i, x M i = Gew. Gehirnmasse i Schätzung der Parameter β0, β 1, β, β 3, β 4. Tests und Vertrauensintervalle für die geschätzten Parameter konstruieren. Vorhersagen machen (prediction). Wahrscheinlichkeit und Statistik 9 / WBL 017 Visualisierung des 5D-Datensatzes 65 75 0.0 0.8 0.0 0.8 65 75 FSIQ Gender Weight Height MRI_Coun 80 140 10 800000 Wahrscheinlichkeit und Statistik 10 / WBL 017 800000 10 80 140 Lineare Regression mit R lm(formula = FSIQ ~ Gender + Weight + Height + MRI_Count, data = brdat) Residuals: Min 1Q Median 3Q Max -33.57-16.574-0.83 16.957 43.780 Estimate Std. Error t value Pr(> t ) (Intercept) 1.344e+0 1.00e+0 1.341 0.1891 Gender -.599e+00 1.118e+01-0.33 0.8175 Weight -7.538e-0.0e-01-0.34 0.7343 Height -.767e+00 1.447e+00-1.91 0.0646. MRI_Count 1.999e-04 6.645e-05 3.008 0.0050 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 1.6 on 33 degrees of freedom Multiple R-squared: 0.661, Adjusted R-squared: 0.177 F-statistic:.99 on 4 and 33 DF, p-value: 0.0369 Koeffizienten: ˆβ 0 = 133.4, ˆβ 1,..., ˆβ 4 Standardabweichung der Fehlervariablen: ˆσ = 1.6 Messpunkte in der Studie: n = Freiheitsgrade + Anzahl Koeffizienten; n = df +p = 33+5 = 38 F-Test: Die Nullhypothese H 0 : β 1 = β = β 3 = β 4 = 0 (keine der Prädiktoren hat einen Einfluss auf die Zielvariable) wird verworfen. Vertrauensintervalle und R Vertrauensintervalle für die Parameter konstruiert man im mehrdimensionalen Fall, genauso wie im einfachen Fall. Konfidenzintervall für β j : [ ] I = ˆβ j ŝe( ˆβ j )t n,1 α, ˆβ j + ŝe( ˆβ j )t n,1 α Das Bestimmtheitsmass R-squared ergibt den Anteil der Variation der vom Modell erklärt wird. n R i=1 = 1 (Y i Ŷ i ) n i=1 (Y i y) Das korrigierte Bestimmtheitsmass (Adjusted R-squared) wird mit der folgenden Formel berechnet: R = R (1 R p ) n p 1 Wahrscheinlichkeit und Statistik 11 / WBL 017 Wahrscheinlichkeit und Statistik 1 / WBL 017
Residuenanalyse: Überprüfung der Modellannahmen Immer noch lineare Regression! Die Annahmen des Modells werden ähnlich wie bei der einfachen linearen Regression geprüft. Empirische Quantile 0 0 0 40 Q Q Plot der Residuen Residuen 0 0 0 40 Tukey Anscombe Plot Betrachte folgendes Modell: Ist das Modell linear? Y i = β 0 + β 1 x + β x + β 3 x 3 + E i Wobei E 1,..., E n N (0, σ ) Das Modell ist linear, denn es ist linear in den Parametern! Eine lineare Regression kann deswegen, wie üblich durchgeführt werden. 40 0 0 0 40 Theoretische Quantile 90 100 110 10 130 140 Angepasste Werte Wahrscheinlichkeit und Statistik 13 / WBL 017 Wahrscheinlichkeit und Statistik 14 / WBL 017 Beispiel Simulierter Datensatz Bemerkungen Komplexität des Modells lm(formula = y ~ x + x + x3) Residuals: Min 1Q Median 3Q Max -18.7836-3.6495-0.6014 4.005 0.795 Estimate Std. Error t value Pr(> t ) (Intercept) 3.888394 1.8180073 1.809 0.07836. x -1.5615171 0.4638577-3.366 0.00175 ** x -0.00030 0.0381488-0.008 0.99335 x3 0.0949439 0.0061468 15.446 < e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 8.168 on 38 degrees of freedom Multiple R-squared: 0.9518, Adjusted R-squared: 0.948 F-statistic: 50. on 3 and 38 DF, p-value: <.e-16 y 100 50 0 50 100 10 5 0 5 10 x Ein komplexeres Modell erklärt die Daten immer besser (SSR kleiner) als eine einfachere Version desselben Modells. Kompliziere Modelle sind aber nicht immer besser! Einfache Modelle sind einfach! Wenige Parameter müssen geschätzt werden, und die Interpretation fällt in der Regel dann auch leichter. Kaum signifikante Prädiktoren oder Prädiktoren, die keine Kausalitätsbeziehung mit der Zielvariable haben, sollen im Modell lieber weggelassen werden. Zu viele Prädiktoren können zu einer Überanpassung (overfitting) des Modells führen! Eine gute Regel ist n 10p, das heisst pro geschätzter Parameter mindestens 10 Beobachtungen haben. Harrell (015) Das linear Regressionsmodell hat eine eindeutige Lösung falls n > p (und Rang(X ) = p). Wie findet man ein gutes Gleichgewicht zwischen Komplexität und gute Qualität des fits? Wahrscheinlichkeit und Statistik 15 / WBL 017 Wahrscheinlichkeit und Statistik 16 / WBL 017
AIC und BIC Es ist wichtg ein gutes Gleichgewicht zwischen der Komplexität des Modells und Anpassungsgüte zu finden. AIC und BIC geben diesem Gleichgewicht ein einen numerischen Wert. AIC = l(ˆθ) + p, BIC = l(ˆθ) + log(n)p wobei l(ˆθ) = loglikelihood und ˆθ der Parametervektor ist. Theorem In einem linearen Modell mit den üblichen Annahmen gilt l(ˆθ) = n log ( SSR ) + C n für eine von der Modellwahl unabhängige Konstante C. Wie benutzt man in der Praxis AIC und BIC? Wahrscheinlichkeit und Statistik 17 / WBL 017 AIC und BIC Anwendung Man wähle, zwischen allen möglichen Modellen, das Modell mit dem kleinsten AIC bzw. BIC Wert. Für eine maximale Anzahl von M benutzten Prädiktoren, gäbe es M+1 Modelle zu testen. Die Anzahl zu fittende Modelle kann stark reduziert werden dank einer sogenannten (vorwärts/rückwärts) stepwise Regression. Vorwärts stepwise Regression, Idee: 1 Fitte das leere Modell Y = β 0 + E und berechne den dazugehörigen Wert AIC 0 Fitte alle Modelle mit nur einem Prädiktor (Y = β 0 + β 1 x k + E). 3 Definiere als Basismodell, das Modell mit dem kleinsten AIC Koeffizienten. 4 Teste jetzt alle Modelle, die entstehen beim Hinzufügen eines Parameters zum Basismodell. 5 Definiere als neues Basismodell das Modell mit dem kleinsten AIC. 6 Vorgehen wiederholen solange es keine Änderungen mehr gibt. Wahrscheinlichkeit und Statistik 18 / WBL 017 AIC und BIC Anwendung AIC forward mit R Rückwärts stepwise Regression, Idee: 1 Fitte das komplette Modell mit allen Parametern und berechne den dazugehörigen Wert AIC p Fitte alle Modelle mit allen Prädiktoren alle bis auf einen. 3 Definiere als Basismodell das Modell mit dem kleinsten AIC Wert. 4 Teste jetzt alle Modelle, die entstehen beim Weglassen eines Parameters vom Basismodell. 5 Definiere als neues Basismodell das Modell mit dem kleinsten AIC. 6 Vorgehen wiederholen solange es keine Änderungen mehr gibt. Bemerkungen: Vorwärts und R ckwärts stepwise regression ergeben nicht unbedingt dasselbe Ergebnis. Stepwise Regression kann man auch mit dem BIC Kriterium machen. AIC Kriterium mit Richtung Vorwärts : step(...,directon="forward") Start: AIC=41.93 FSIQ ~ 1 + MRI_Count 1 337.04 18648 39.44 <none> 0985 41.93 + Height 1 94.4 0691 43.40 + Gender 1 115.3 0870 43.7 + Weight 1 55.6 0930 43.83 Step: AIC=39.45 FSIQ ~ MRI_Count + Height 1 3180.7 15468 34.34 + Weight 1 1414.6 1734 38.45 <none> 18648 39.44 + Gender 1 736.9 1791 39.91 - MRI_Count 1 337.0 0985 41.93 Step: AIC=34.34 FSIQ ~ MRI_Count + Height <none> 15468 34.34 + Weight 1 41.8 1546 36.4 + Gender 1 1.4 15455 36.31 - Height 1 3180.7 18648 39.44 - MRI_Count 1 53.3 0691 43.40 lm(formula = FSIQ ~ MRI_Count + Height, data = brdat) (Intercept) MRI_Count Height 1.64e+0.05e-04 -.871e+00 Wahrscheinlichkeit und Statistik 19 / WBL 017 Wahrscheinlichkeit und Statistik 0 / WBL 017
AIC backward mit R Literatur I AIC Kriterium mit Richtung Rückwärts : step(...,directon="backward") Start: AIC=38.17 FSIQ ~ Gender + Weight + Height + MRI_Count - Gender 1 5. 1546 36.4 - Weight 1 54.7 15455 36.31 <none> 15401 38.17 - Height 1 1706.3 17107 40.17 - MRI_Count 1 43.4 1964 45.38 Step: AIC=36.4 FSIQ ~ Weight + Height + MRI_Count - Weight 1 41.8 15468 34.34 <none> 1546 36.4 - Height 1 1808.0 1734 38.45 - MRI_Count 1 54.6 0651 45.3 Step: AIC=34.34 FSIQ ~ Height + MRI_Count <none> 15468 34.34 - Height 1 3180.7 18648 39.44 - MRI_Count 1 53.3 0691 43.40 lm(formula = FSIQ ~ Height + MRI_Count, data = brdat) (Intercept) Height MRI_Count 1.64e+0 -.871e+00.05e-04 Frank Harrell. Regression Modeling Strategies. Springer, 015. Paul Webb. Energy expenditure and fat-free mass in men and women. The American journal of clinical nutrition, 34(9):1816 186, 1981. Lee Willerman, Robert Schultz, J Neal Rutledge, and Erin D Bigler. In vivo brain size and intelligence. Intelligence, 15():3 8, 1991. Wahrscheinlichkeit und Statistik 1 / WBL 017 Wahrscheinlichkeit und Statistik / WBL 017