Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.

Transkript

1 Woche 11: Multiple lineare Regression Patric Müller Teil XIII Multiple lineare Regression ETHZ WBL 17/19, Wahrscheinlichkeit und Statistik Patric Müller WBL 017 Wahrscheinlichkeit und Statistik / WBL 017 Lernziele Sie können ein lineares Regressionsmodell aufschreiben und dessen Komponenten erläutern,... eine multiple lineare Regression in R durchführen,... die Nutzung der AIC und BIC Kriterien erläutern. Vorlesung basiert auf Kapitel 5. des Skripts. Wahrscheinlichkeit und Statistik 3 / WBL 017 Zusammenfassung Einfache lineare Regression Modell für einfache lineare Regression: Y i = β 0 + β 1 x i + E i, i = 1,..., n, Wobei E 1,..., E n N (0, σ ) Var. Bezeichnung Bedeutung Beispiel Y i Zielvariable Variable, die wir vorhersagen wollen Energieumsatz x i erklärende Variable, bekannte oder einfach zu fettfreie Masse Co-Variable messende Variable E i Fehlervariable oder Abweichung von perfekter Rauschterm Geraden Die unbekannten Parameter β 0 und β 1 werden mit der Methode der kleinsten Quadrate geschätzt. ( n ) ( ˆβ 0 ; ˆβ 1 ) = argmin (Y i β 0 β 1 x i ) β 0,β 1 i=1 Wahrscheinlichkeit und Statistik 4 / WBL 017

2 Signifikanz und Vertrauensintervall für erklärende Variable Multiple lineare Regression Konfidenzintervall [ für β 1 : ] I = ˆβ 1 ŝe( ˆβ 1 )t n,1 α, ˆβ 1 + ŝe( ˆβ 1 )t n,1 α lm(formula = energy ~ mass, data = energymass) Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t ) (Intercept) ** mass e-07 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 1 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 10.9 on 1 and 1 DF, p-value: 3.073e-07 Modell für die (multiple) lineare Regression Y i = β 0 + β 1 x (1) i + β x () i β m x (m) i + E i, i = 1,..., n Wobei E 1,..., E n N (0, σ ) Die unbekannten Parameter sind hier β 0, β 1,..., β m, σ Das Modell ist linear (in den Parametern), es gibt aber mehrere Parameter zu schätzen (und mehrere Prädiktoren) Hier: I = [0.083, 0.173] Wahrscheinlichkeit und Statistik 5 / WBL 017 Wahrscheinlichkeit und Statistik 6 / WBL 017 Notation mit Matrizen Geometrische Interpretation wobei X = Y = X β + E, 1 x (1) 1 x () 1... x (m) 1 1 x (1) x ()... x (m), Y = x n (1) x n ()... x n (m) β = β 0 β 1. β m, E = E 1 E. E n. Y 1 Y. Y n, Einfache lineare Regression: m = 1 und p = (Parameter zu schätzen). Man findet die bestmögliche Gerade. Lineare Regression mit zwei Prädiktoren: m = und p = 3. Man findet die bestmögliche Ebene. Multiple lineare Regression: m N und p = m + 1. Man findet die bestmögliche Hyperebene. Energy expenditure [MJ] Fat free mass [kg] (Webb, 1981) Quelle: lineare Regression Wahrscheinlichkeit und Statistik 7 / WBL 017 Wahrscheinlichkeit und Statistik 8 / WBL 017

3 Multiple lineare Regression Beispiel Anhand einer statistischen Analyse der Daten einer Studie (Willerman et al. (1991)), möchte man feststellen, wie die Intelligenz der Personen von vier Merkmalen (Geschlecht, Gewicht, Höhe, Gehirnmasse) Abhängt. Man vermutet eine lineare Abhängigkeit: Es entsteht folgendes Modell: Ziele: Y i = β 0 + β 1 x G i + β x W i + β 3 x H i + β 4 x M i + E i, i = 1,..., n, Wobei E 1,..., E n N (0, σ ), x G i = Geschlecht i, x W i = Gewicht i, x H i = Höhe i, x M i = Gew. Gehirnmasse i Schätzung der Parameter β0, β 1, β, β 3, β 4. Tests und Vertrauensintervalle für die geschätzten Parameter konstruieren. Vorhersagen machen (prediction). Wahrscheinlichkeit und Statistik 9 / WBL 017 Visualisierung des 5D-Datensatzes FSIQ Gender Weight Height MRI_Coun Wahrscheinlichkeit und Statistik 10 / WBL Lineare Regression mit R lm(formula = FSIQ ~ Gender + Weight + Height + MRI_Count, data = brdat) Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t ) (Intercept) 1.344e e Gender -.599e e Weight e-0.0e Height -.767e e MRI_Count 1.999e e ** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 1.6 on 33 degrees of freedom Multiple R-squared: 0.661, Adjusted R-squared: F-statistic:.99 on 4 and 33 DF, p-value: Koeffizienten: ˆβ 0 = 133.4, ˆβ 1,..., ˆβ 4 Standardabweichung der Fehlervariablen: ˆσ = 1.6 Messpunkte in der Studie: n = Freiheitsgrade + Anzahl Koeffizienten; n = df +p = 33+5 = 38 F-Test: Die Nullhypothese H 0 : β 1 = β = β 3 = β 4 = 0 (keine der Prädiktoren hat einen Einfluss auf die Zielvariable) wird verworfen. Vertrauensintervalle und R Vertrauensintervalle für die Parameter konstruiert man im mehrdimensionalen Fall, genauso wie im einfachen Fall. Konfidenzintervall für β j : [ ] I = ˆβ j ŝe( ˆβ j )t n,1 α, ˆβ j + ŝe( ˆβ j )t n,1 α Das Bestimmtheitsmass R-squared ergibt den Anteil der Variation der vom Modell erklärt wird. n R i=1 = 1 (Y i Ŷ i ) n i=1 (Y i y) Das korrigierte Bestimmtheitsmass (Adjusted R-squared) wird mit der folgenden Formel berechnet: R = R (1 R p ) n p 1 Wahrscheinlichkeit und Statistik 11 / WBL 017 Wahrscheinlichkeit und Statistik 1 / WBL 017

4 Residuenanalyse: Überprüfung der Modellannahmen Immer noch lineare Regression! Die Annahmen des Modells werden ähnlich wie bei der einfachen linearen Regression geprüft. Empirische Quantile Q Q Plot der Residuen Residuen Tukey Anscombe Plot Betrachte folgendes Modell: Ist das Modell linear? Y i = β 0 + β 1 x + β x + β 3 x 3 + E i Wobei E 1,..., E n N (0, σ ) Das Modell ist linear, denn es ist linear in den Parametern! Eine lineare Regression kann deswegen, wie üblich durchgeführt werden Theoretische Quantile Angepasste Werte Wahrscheinlichkeit und Statistik 13 / WBL 017 Wahrscheinlichkeit und Statistik 14 / WBL 017 Beispiel Simulierter Datensatz Bemerkungen Komplexität des Modells lm(formula = y ~ x + x + x3) Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t ) (Intercept) x ** x x < e-16 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 38 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 50. on 3 and 38 DF, p-value: <.e-16 y x Ein komplexeres Modell erklärt die Daten immer besser (SSR kleiner) als eine einfachere Version desselben Modells. Kompliziere Modelle sind aber nicht immer besser! Einfache Modelle sind einfach! Wenige Parameter müssen geschätzt werden, und die Interpretation fällt in der Regel dann auch leichter. Kaum signifikante Prädiktoren oder Prädiktoren, die keine Kausalitätsbeziehung mit der Zielvariable haben, sollen im Modell lieber weggelassen werden. Zu viele Prädiktoren können zu einer Überanpassung (overfitting) des Modells führen! Eine gute Regel ist n 10p, das heisst pro geschätzter Parameter mindestens 10 Beobachtungen haben. Harrell (015) Das linear Regressionsmodell hat eine eindeutige Lösung falls n > p (und Rang(X ) = p). Wie findet man ein gutes Gleichgewicht zwischen Komplexität und gute Qualität des fits? Wahrscheinlichkeit und Statistik 15 / WBL 017 Wahrscheinlichkeit und Statistik 16 / WBL 017

5 AIC und BIC Es ist wichtg ein gutes Gleichgewicht zwischen der Komplexität des Modells und Anpassungsgüte zu finden. AIC und BIC geben diesem Gleichgewicht ein einen numerischen Wert. AIC = l(ˆθ) + p, BIC = l(ˆθ) + log(n)p wobei l(ˆθ) = loglikelihood und ˆθ der Parametervektor ist. Theorem In einem linearen Modell mit den üblichen Annahmen gilt l(ˆθ) = n log ( SSR ) + C n für eine von der Modellwahl unabhängige Konstante C. Wie benutzt man in der Praxis AIC und BIC? Wahrscheinlichkeit und Statistik 17 / WBL 017 AIC und BIC Anwendung Man wähle, zwischen allen möglichen Modellen, das Modell mit dem kleinsten AIC bzw. BIC Wert. Für eine maximale Anzahl von M benutzten Prädiktoren, gäbe es M+1 Modelle zu testen. Die Anzahl zu fittende Modelle kann stark reduziert werden dank einer sogenannten (vorwärts/rückwärts) stepwise Regression. Vorwärts stepwise Regression, Idee: 1 Fitte das leere Modell Y = β 0 + E und berechne den dazugehörigen Wert AIC 0 Fitte alle Modelle mit nur einem Prädiktor (Y = β 0 + β 1 x k + E). 3 Definiere als Basismodell, das Modell mit dem kleinsten AIC Koeffizienten. 4 Teste jetzt alle Modelle, die entstehen beim Hinzufügen eines Parameters zum Basismodell. 5 Definiere als neues Basismodell das Modell mit dem kleinsten AIC. 6 Vorgehen wiederholen solange es keine Änderungen mehr gibt. Wahrscheinlichkeit und Statistik 18 / WBL 017 AIC und BIC Anwendung AIC forward mit R Rückwärts stepwise Regression, Idee: 1 Fitte das komplette Modell mit allen Parametern und berechne den dazugehörigen Wert AIC p Fitte alle Modelle mit allen Prädiktoren alle bis auf einen. 3 Definiere als Basismodell das Modell mit dem kleinsten AIC Wert. 4 Teste jetzt alle Modelle, die entstehen beim Weglassen eines Parameters vom Basismodell. 5 Definiere als neues Basismodell das Modell mit dem kleinsten AIC. 6 Vorgehen wiederholen solange es keine Änderungen mehr gibt. Bemerkungen: Vorwärts und R ckwärts stepwise regression ergeben nicht unbedingt dasselbe Ergebnis. Stepwise Regression kann man auch mit dem BIC Kriterium machen. AIC Kriterium mit Richtung Vorwärts : step(...,directon="forward") Start: AIC=41.93 FSIQ ~ 1 + MRI_Count <none> Height Gender Weight Step: AIC=39.45 FSIQ ~ MRI_Count + Height Weight <none> Gender MRI_Count Step: AIC=34.34 FSIQ ~ MRI_Count + Height <none> Weight Gender Height MRI_Count lm(formula = FSIQ ~ MRI_Count + Height, data = brdat) (Intercept) MRI_Count Height 1.64e+0.05e e+00 Wahrscheinlichkeit und Statistik 19 / WBL 017 Wahrscheinlichkeit und Statistik 0 / WBL 017

6 AIC backward mit R Literatur I AIC Kriterium mit Richtung Rückwärts : step(...,directon="backward") Start: AIC=38.17 FSIQ ~ Gender + Weight + Height + MRI_Count - Gender Weight <none> Height MRI_Count Step: AIC=36.4 FSIQ ~ Weight + Height + MRI_Count - Weight <none> Height MRI_Count Step: AIC=34.34 FSIQ ~ Height + MRI_Count <none> Height MRI_Count lm(formula = FSIQ ~ Height + MRI_Count, data = brdat) (Intercept) Height MRI_Count 1.64e e+00.05e-04 Frank Harrell. Regression Modeling Strategies. Springer, 015. Paul Webb. Energy expenditure and fat-free mass in men and women. The American journal of clinical nutrition, 34(9): , Lee Willerman, Robert Schultz, J Neal Rutledge, and Erin D Bigler. In vivo brain size and intelligence. Intelligence, 15():3 8, Wahrscheinlichkeit und Statistik 1 / WBL 017 Wahrscheinlichkeit und Statistik / WBL 017