Woche 10: Lineare Regression Patric Müller <patric.mueller@stat.math.ethz.ch> Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit und Statistik 2 / 26 WBL 2017 Lernziele Zusammenfassung Sie können...... ein lineares Regressionsmodell aufschreiben und dessen Komponenten erläutern... eine lineare Regression in R durchführen... prüfen, ob ein Datensatz die Modellannahmen der linearen Regression erfüllt. Vorlesung basiert auf Kapitel 5.2 des Skripts. Korrelation Corr(X, Y ) erklärt, wie gut die Daten auf einer Geraden liegen. X i und Y i sind gepaart. Tests Ein Test ist eine Entscheidungsregel. Das Testergebnis entscheidet, ob die zwei Stichproben unterschiedliche Verteilungen haben. X i und Y i sind gepaart oder ungepaart. Lineare Regression Mit der linearen Regression schätzt man die (lineare) Beziehung zwischen X und Y. Das heisst, man bestimmt die bestmögliche Gerade, die zu den Daten passt. Xi und Y i sind gepaart. Zusätzlich beeinflusst der Prädiktor Xi die Zielvariable Y i. Wahrscheinlichkeit und Statistik 3 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 4 / 26 WBL 2017
Beispiel: Körpermasse und Energieumsatz In einer Studie wurde die fettfreie Masse und der Energieumsatz während 24h von 7 Probanden gemessen (2 Messungen pro Proband) (Webb, 1981). Täglicher Energieumsatz scheint linear mit fettfreier Masse zu wachsen. Energy expenditure [MJ] 8 9 10 11 50 55 60 65 70 75 Fat free mass [kg] Zusammenhang zwischen fettfreier Masse und Energieumsatz liesse sich z.b. durch Korrelation ausdrücken; das hilft aber nicht, für eine bekannte fettfreie Masse den dazugehörigen Energieumsatz vorherzusagen! Ziel: Eine Formel für den Energieumsatz als Funktion der Masse bestimmen. Wahrscheinlichkeit und Statistik 5 / 26 WBL 2017 Einfache lineare Regression Modell für einfache lineare Regression: Wobei E 1,..., E n N (0, σ 2 ) Var. Bezeichnung Bedeutung Beispiel Y i Zielvariable Variable, die wir vorhersagen wollen Energieumsatz x i erklärende Variable, bekannte oder einfach zu fettfreie Masse Co-Variable messende Variable E i Fehlervariable oder Abweichung von perfekter Rauschterm Geraden Fehlervariablen modellieren (nicht erklärbare) individuelle Abweichungen von einem Mittelwert nicht gemessene Einflüsse auf die Zielvariable: z.b. sportliche Aktivität, Personenunterschied,... Wahrscheinlichkeit und Statistik 6 / 26 WBL 2017 Einfache lineare Regression: Namensbedeutung Modell für einfache lineare Regression: Bezeichnung des Modells: E 1,..., E n N (0, σ 2 ) einfach : nur eine erklärende Variable (andernfalls: multiple lineare Regression, s. Kurs Regression ) linear : Zielvariable ist lineare Funktion der Koeffizienten β 0, β 1 Bemerke: Eine versteckte Annahme der linearen Regression ist, dass die Prädiktoren x i exakt (ohne Fehler) gemessen wurden. Regressionsgerade schätzen Wie finden wir eine Gerade, die gut auf die Daten passt? Welche der gezeigten Geraden passt am besten? Energy expenditure [MJ] 8 9 10 11 50 55 60 65 70 75 Fat free mass [kg] Wahrscheinlichkeit und Statistik 7 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 8 / 26 WBL 2017
Regressionsmodell schätzen: Überblick Methode der kleinsten Quadrate Modell: Wobei E 1,..., E n N (0, σ 2 ) Ziel: Parameter β 0, β 1 (und σ 2 ) schätzen. Mit ˆβ 0 und ˆβ 1 bezeichnen wir die geschätzten Parameter. x i und Y i sind gemessene Daten. β 0 und β 1 werden mit der Methode der kleinsten Quadrate geschätzt. Das heisst durch Minimierung der Summe der Fehlerquadrate ( residual sum of squares ) RSS = n (Y i β 0 β 1 x i ) 2 i=1 ( n ) ( ˆβ 0 ; ˆβ 1 ) = argmin (Y i β 0 β 1 x i ) 2 β 0,β 1 i=1 σ 2 schätzen durch Varianzschätzung der R i = Y i ˆβ 0 ˆβ 1 x i Wahrscheinlichkeit und Statistik 9 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 10 / 26 WBL 2017 Eigenschaften der Schätzer Residuum: Differenz zwischen gemessenem und angepasstem Wert der Zielvariablen. Gemessener Wert: Y i (gemessener Energieumsatz) Angepasster Wert für gegebene Parameter β0 und β 1 : Y = β0 + β 1 x i. In der Regel sind die gegebene Parameter die geschätzte Parameter, somit: ˆβ 0 + ˆβ 1 x i =: Ŷ i Definition () Das i-te Residuum (i = 1,..., n) ist definiert als R i = Y i β 0 β 1 x i. Die Summe der Fehlerquadrate ist definiert als RSS = n i=1 R2 i. Theorem ˆβ 0 und ˆβ 1 sind erwartungstreue Schätzer für die wahren Koeffizienten β 0 und β 1. Fehlervariablen E i sind nicht direkt messbar: wir kennen bloss Werte von x i und Y i Mit Hilfe der konstruiert man ein Schätzer für die Fehlervarianz: ˆσ 2 = 1 n Ri 2 n 2 i=1 Wahrscheinlichkeit und Statistik 11 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 12 / 26 WBL 2017
Lineare Regression in R Viel Output... > energymass <- read.table("../daten/energy.csv", sep = ",", header = TRUE) > energymass$energy <- 4.1868e-3*energymass$energy # Einheiten umrechnen... > energy.fit <- lm(energy ~ mass, data = energymass) > summary(energy.fit) Koeffizienten: ˆβ 0 = 2.53831, ˆβ 1 = 0.10482 Standardabweichung der Fehlervariablen: ˆσ = 0.433 Messpunkte in der Studie: n = Freiheitsgrade + Anzahl Koeffizienten; n = 12 + 2 = 14 Wahrscheinlichkeit und Statistik 13 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 14 / 26 WBL 2017 Interpretation des Outputs I Beantworten Sie die folgenden Fragen basierend auf dem Output auf der vorangehenden Folie: Angenommen, Sie wiegen 4kg mehr als Ihr Bruder; um wie viel ist dann der Erwartungswert Ihres täglichen Energieumsatzes höher als der Ihres Bruders? Wie gross ist der erwartete Energieumsatz einer Person mit einer fettfreien Masse von 65kg? Geben Sie ein 95%-Vertrauensintervall für den täglichen Energieumsatz einer Person mit einer fettfreien Masse von 65kg an. Signifikanz des ganzen Modells: F-Test p-wert der F-Statistik : Ergebnis eines Tests zur Nullhypothese alle Koeffizienten ausser β 0 sind 0. Relevant bei multipler linearer Regression; bei der einfachen linearen Regression bezieht sich der Test nur auf β 1. Wahrscheinlichkeit und Statistik 15 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 16 / 26 WBL 2017
Signifikanz einzelner erklärender Variablen: t-test Signifikanz und Vertrauensintervall für erklärende Variable Gibt es einen signifikanten Zusammenhang zwischen fettfreier Masse und Energieumsatz? Das lässt sich mit einem t-test zur Nullhypothese β 1 = 0 herausfinden. calc. coeff. exp. coeff. Teststatistik: T = = ˆβ 1 0 standard error ŝe( ˆβ 1 ) Unter der Nullhypothese ist die Teststatistik t-verteilt mit n 2 Freiheitsgraden Werte der Teststatistik und zugehörige p-werte lassen sich aus dem R-Output ablesen Einfache lineare Regression: t-test zur Steigung liefert gleichen p-wert wie F-Test zum Modell. Konfidenzintervall [ für β 1 : I = ˆβ1 ŝe( ˆβ 1 )t n 2,1 α, ˆβ 2 1 + ŝe( ˆβ ] 1 )t n 2,1 α 2 Hier: I = [0.0823, 0.1273] Wahrscheinlichkeit und Statistik 17 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 18 / 26 WBL 2017 analyse: Überprüfung der Modellannahmen Tukey-Anscombe-Plot Modellannahmen können im Wesentlichen mit zwei Plots überprüft werden: Linearität und -Annahme der Fehler mit dem Tukey-Anscombe-Plot: ( gegen gefittete Werte). Normalverteilungs-Annahme der Fehler mit einem Q-Q-Plot 0.8 0.4 0.0 0.2 0.4 0.6 Tukey Anscombe Plot Empirische Quantile 0.8 0.4 0.0 0.2 0.4 0.6 Q Q Plot der Linearität und -Annahme der Fehlervariablen prüfen: R i gegen angepasste Werte der Zielvariable (Ŷi = ˆβ 0 + ˆβ 1 x i ) plotten (Tukey-Anscombe plot) Falls -Annahme zutrifft, sollten Punkte im Tukey-Anscombe-Plot zufällig um eine horizontale Gerade fluktuieren, ohne sichtbares Muster Tukey-Anscombe-Plot in R: > plot(fitted(energy.fit), resid(energy.fit), xlab = "Angepasste Werte", ylab = "") 0.8 0.4 0.0 0.4 7.5 8.0 8.5 9.0 9.5 10.5 Angepasste Werte 7.5 8.0 8.5 9.0 9.5 10.0 10.5 Angepasste Werte 0.5 0.0 0.5 Theoretische Quantile Wahrscheinlichkeit und Statistik 19 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 20 / 26 WBL 2017
Guter Tukey-Anscombe-Plot Im Tukey-Anscombe-Plot sichtbare Verletzungen der Annahmen 1.0 0.5 0.0 0.5 1.0 5 6 7 8 9 10 Angep. Werte Unterschiedliche Fehlervarianzen: 1.5 0.5 0.5 1.5 5 6 7 8 9 10 Angep. Werte Kegel; kann evtl. mit Hilfe einer log-transformation behoben werden Y i log(y i ) Nicht-linearer Trend: 1 0 1 2 5 6 7 8 9 10 Angep. Werte Quadratischer Trend; kann evtl. durch Hinzufügen eines quadratischen Terms (x 2 i ) behoben werden. Wahrscheinlichkeit und Statistik 21 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 22 / 26 WBL 2017 Bestimmtheitsmass R 2 Bestimmtheitsmass im R-Output Bestimmtheitsmass R 2 gibt an, wie gut die Datenpunkte auf einer Gerade liegen ( goodness of fit ) Definition: Bestimmtheitsmass = quadrierter Korrelationskoeffizient zwischen gemessenen (Y i ) und angepassten (Ŷi) Werten der Zielvariable, das heisst: R 2 = ( sŷy sŷs y ) 2 Manuelle Berechnung: > cor(energymass$energy, fitted(energy.fit))^2 [1] 0.8955353 Wahrscheinlichkeit und Statistik 23 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 24 / 26 WBL 2017
Einfache lineare Regression: Zusammenfassung Literatur I Energy expenditure [MJ] 8 9 10 11 50 55 60 65 70 75 Fat free mass [kg] Modell der einfachen linearen Regression: E 1,..., E n N (0, σ 2 ) Zu schätzende Parameter: β 0, β 1 und σ 2 Paul Webb. Energy expenditure and fat-free mass in men and women. The American journal of clinical nutrition, 34(9):1816 1826, 1981. β 0 und β 1 werden mit der Methode der kleinsten Fehlerquadrate geschätzt; sie minimieren RSS = n i=1 R2 i. Die Schätzung von σ 2 wird durch die Varianzschätzung der R i = Y i ˆβ 0 ˆβ 1 x i berechent. Wahrscheinlichkeit und Statistik 25 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 26 / 26 WBL 2017