Statistik Vorlesung 7 (Lineare Regression)

Transkript

1 Statistik Vorlesung 7 (Lineare Regression) K.Gerald van den Boogaart Statistik p.1/77

2 Gerade als Vereinfachung Wachstum bei Kindern height age in Monaten Statistik p.4/77

3 In Formeln Das Modell Y i = a + bx i + ǫ i a, b sind unbekannt. Der Computer schätzt die Werte als: cov(x,y ˆ ) ˆb = var(x) ˆ â = Ȳ Xˆb Statistik p.5/77

4 Computerausgabe > model <- lm(height ~ age, data = Wachstum) > model Call: lm(formula = height ~ age, data = Wachstum) Coefficients: (Intercept) age Statistik p.6/77

5 Definitionen Das Modell a heißt Achsenabschnitt b heißt Steigung Die X i heißen Regressor Y i = a + bx i + ǫ i Die Y i heißen Regressant Die ǫ i heißen Fehlerterm. weil ǫ den Fehler der Vereinfachung Gerade beinhaltet. Statistik p.7/77

6 Achsenabschnitt und Steigung Mortality * Smoking Statistik p.8/77

7 Vorhersagewerte Wachstum bei Kindern height age in Monaten Statistik p.9/77

8 Die Vorhersagewerte Das Regressionsmodel: Y i = a + bx i + ǫ i Wenn wir von den Unzulänglichkeiten Das a und b nur geschätzt werden können. Die Gerade nur bis auf den Fehler ǫ stimmt. absehen würden wir also annehmen, dass für X = x dann y = a + bx sein müßte. Diesen Wert bezeichnen wir als die vom Modell vorhergesagten Werte Ŷi: Ŷ i := â + ˆbX i Statistik p.10/77

9 Computerausgabe > predict(model) Statistik p.11/77

10 Residuen Wachstum bei Kindern height age in Monaten Statistik p.12/77

11 Schätzung und Residuen Das Regressionsmodel: Y i = a + bx i + ǫ i Wir kennen aber nur die Schätzwerte â und ˆb und erhalten eine neue Gleichung: Y i = â + ˆbX i + r i ˆb = cov(x,y ˆ ) var(x) ˆ der Schätzwert für b. â = Ȳ Xˆb ist der Schätzwert für b Die r i heißen Residuen residuum: lat. für das Übriggebliebene Statistik p.13/77

12 Beispiel II: Rauchen Mortality Smoking Statistik p.14/77

13 Computerausgabe > model <- lm(mortality ~ Smoking, data = Rauchen) > model Call: lm(formula = Mortality ~ Smoking, data = Rauchen) Coefficients: (Intercept) Smoking > predict(model) Farmers, foresters, and fisherman Miners and quarrymen Gas, coke and chemical makers Statistik p.15/77

14 Graphische Interpretation Mortality y = a + b*x +? y = *x +? 1.09*50 50 Mortality = a + b*smoking +? Mortality = *Smoking +? Smoking Statistik p.16/77

15 Normalansicht Schritt 1 Mortality Smoking Statistik p.17/77

16 Regressionsgerade Mortality Smoking Statistik p.18/77

17 odellvorstellung: Ungenaue Beschreibung Das Regressionsmodel: Y i = a + bx i + ǫ i ist sich darüber bewußt, dass die Gerade die Wirklichkeit nicht genau beschreibt. Man geht davon aus, dass die Abweichungen von der Gerade zufällig, unabhängig voneinander und im Mittel 0 sind. Statistik p.19/77

18 Bestimmung der Geraden Die Regressionsgerade wird so bestimmt, dass n (Y i (â + ˆbX i )) 2 i=1 so klein wie möglich wird. Dieses Verfahren nennt man: Kleinste Quadrate Dieses Vefahren ist besonders gut, wenn gewisse Annahmen erfüllt sind. Annahmen: Die ǫ i sind normalverteilt mit Erwartungswert 0 und einer unbekannten Varianz σ 2. Statistik p.20/77

19 Vorhersagewerte Mortality Smoking Statistik p.21/77

20 Statistische Vorhersagen Die Vorhersagewerte sind also keineswegs eine feststehende Wahrheit, sondern geben lediglich eine Tendenz an. Sie lassen Raum für andere Einflüsse. Im Mittel werden die Vorhersagewerte allerdings richtig sein. Statistik p.22/77

21 Residuen Mortality Smoking Statistik p.23/77

22 Vorhersagewerte und Residuen Wir haben also: Y i Y i Ŷ i = a + bx i + ǫ i = â + ˆbX i + r i = â + ˆbX i und somit r i = Y i Ŷi Statistik p.24/77

23 Brustkrebs Mortality Temperature Statistik p.25/77

24 Sinn oder Unsinn,... Die Regression kann auf jeden Datensatz angewendet werden..., aber ist das auch immer sinnvoll? Statistik p.26/77

25 Stichprobeneinfluß Statistik p.27/77

26 Demonstration: Stichprobenwahl Abhängig von der Wahl der Stichprobe werden die Geraden verschieden geschätzt. Das werden wir auf der nächsten Folie demonstrien indem wir jeweils 15 der Datenpunkte zufällig auswählen und die Gerade nur aufgrund dieser Punkte schätzen lassen. Statistik p.28/77

27 Demonstration: Stichprobenwahl Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Statistik p.29/77

28 Konfidenzintervall für die Vorhersage Wir können einen Bereich einzeichnen in dem der wahre Wert E[Y ] = a + bx mit 1 α = 95% Wahrscheinlichkeit zu liegen kommt: Die Formel ist kompliziert: u(x) = â + ˆbx + ˆ sd(ǫ)q tn 2,1 α/2(c 1 + 2c 2 x + c 3 x 2 ) l(x) = â + ˆbx ˆ sd(ǫ)q tn 2,α/2(c 1 + 2c 2 x + c 3 x 2 ) mit q tn 2,1 α/2 dem 1 α/2-quantil der t-verteilung und ( c 1 c 2 c 2 c 3 ) = ( n Xi Xi X 2 i ) 1 ohne Gewähr. Statistik p.30/77

29 Demonstration des Konfidenzintervalls Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Statistik p.31/77

30 Sinn oder Unsinn,... Eine wichtige Frage ist also immer, ob eventuell kein Zusammenhang bestehen konnte. Wenn X und Y unabhängig sind, dann ändert sich der Erwartungswert von Y nicht in Abhängigkeit von X: Y = a + 0X + ǫ Statistik p.32/77

31 Könnte kein Zusammenhang bestehen? Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Statistik p.33/77

32 Ergebnisse Das 95%-Konfidenzintervalle (für die Gerade) ist ein zufälliges Intervall um die geschätzte Gerade, dass an jeder Stelle die wahren Gerade mit einer wahrscheinlichkeit von 95% umschließt. Statistik p.34/77

33 Nochmal mit weniger Daten Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Statistik p.35/77

34 Das Vorhersageintervall Frage: In welchem Bereich liegen die Sterblichkeit bei einer Berufsgruppe die 130% raucht? Lösung: Das Vorhersageintervall Die Formel ist kompliziert: u(x) = â + ˆbx + ˆ sd(ǫ)q tn 2,1 α/2(1 + c 1 + 2c 2 x + c 3 x 2 ) l(x) = â + ˆbx ˆ sd(ǫ)q tn 2,α/2(1 + c 1 + 2c 2 x + c 3 x 2 ) mit q tn 2,p dem p-quantil der t-verteilung und ( ohne Gewähr. c 1 c 2 c 2 c 3 ) = ( n Xi Xi X 2 i ) 1 Statistik p.36/77

35 Formeln c 0 = 1 n X 2 i ( i X i) 2 c 1 = c 0 X 2 i c 2 c 3 ˆ sd(ǫ) = = c 0 Xi = c 0 n 1 n 2 n i=1 r 2 i ohne Gewähr Statistik p.37/77

36 Demonstration des Vorhersageintervalls Konfidenzbereich fuer die PunkKonfidenzbereich fuer die Punk Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Konfidenzbereich fuer die PunkKonfidenzbereich fuer die Punk Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Statistik p.38/77

37 Ergebnisse Die Vorhersageintervalle sind bedeutend breiter als die Konfidenzintervalle. Echte Aussage über die einzelne Berufsgruppe sind offenbar nur für extremes Raucheverhalten zu treffen: Vorhersage von Werten ist bedeutend schwieriger als die Vorhersage von Tendenzen. Statistik p.39/77

38 Der Regressionstest Steigung = 0 X,Y unabhängig. Dieses Problem kann mit einem Test untersucht werden: Regressionstest: H 0 : b = 0 vs. H 1 : b 0 Voraussetzungen: wie Regression Anwendung: Nachweis der Abhängigkeit Statistik p.40/77

39 Computerausgabe > model <- lm(mortality ~ Smoking, data = Rauchen) > anova(model) Analysis of Variance Table Response: Mortality Df Sum Sq Mean Sq F value Pr(>F) Smoking e-05 *** Residuals Signif. codes: 0 âăÿ***âăź âăÿ**âăź 0.01 âăÿ*âăź 0.05 âăÿ.âă Der p-wert wird steht in der letzten Spalte der Tabelle. Statistik p.41/77

40 Beispiel: Brustkrebs Mortality Temperature Mortality = Temperature Statistik p.42/77

41 Computerausgabe > model <- lm(mortality ~ Temperature, data = Brustkrebs) > model Call: lm(formula = Mortality ~ Temperature, data = Brustkrebs) Coefficients: (Intercept) Temperature > anova(model) Analysis of Variance Table Response: Mortality Df Sum Sq Mean Sq F value Pr(>F) Temperature e-06 *** Statistik p.43/77

42 Konfidenzintervall Konfidenzbereich fuer die Gerade Mortality Temperature Mortality = Temperature Statistik p.44/77

43 Vorhersageintervall Konfidenzbereich fuer die Punkte Mortality Temperature Mortality = Temperature Statistik p.45/77

44 Beispiel: Wachstum height age height = age Statistik p.46/77

45 Computerausgabe > model <- lm(height ~ age, data = Wachstum) > model Call: lm(formula = height ~ age, data = Wachstum) Coefficients: (Intercept) age > anova(model) Analysis of Variance Table Response: height Df Sum Sq Mean Sq F value Pr(>F) age e-11 *** Statistik p.47/77

46 Konfidenzintervall Konfidenzbereich fuer die Gerade height age height = age Statistik p.48/77

47 Vorhersageintervall Konfidenzbereich fuer die Punkte height age height = age Statistik p.49/77

48 Stärke des Zusammenhangs bewerten: Korrelation und R 2 Statistik p.50/77

49 Residualstreuung height age height = age Statistik p.51/77

50 Residualstreuung Mortality Smoking Mortality = Smoking Statistik p.51/77

51 Residualstreuung Mortality Temperature Mortality = Temperature Statistik p.51/77

52 R 2 Def: Das Bestimmtheitsmaß R 2 ist gegeben durch R 2 = var(y ˆ ) var(r) ˆ vary ˆ also die erklärte Streuung, geteilt durch die Gesamtstreuung im Datensatz. Es gilt: R 2 = cor(x,y ˆ ) 2 Da R 2 allgemein für ein Model definiert ist kann es weiter eingesetzt werden, als die Pearson Korrelation. Statistik p.52/77

53 Interpretation von R 2 R 2 [0, 1] R 2 = 0 keine Abhängigkeit erkennbar. R 2 = 1 Ŷi = Y i, Modell erklärt Daten perfekt. Statistik p.53/77

54 Computerausgabe > R2 <- function(m) var(predict(m))/var(predict(m) + + resid(m)) > R2(lm(height ~ age, data = Wachstum)) [1] > R2(lm(Mortality ~ Smoking, data = Rauchen)) [1] > R2(lm(Mortality ~ Temperature, data = Brustkrebs)) [1] Statistik p.54/77

55 Der Blinde Fleck der Regression Statistik p.55/77

56 Das Anscombe Quartet y y x x2 y y x x4 Statistik p.56/77

57 Regressionsgeraden y y x1 y1 = x x2 y2 = x2 y y x3 y3 = x x4 y4 = x4 Statistik p.57/77

58 Konfidenzintervalle Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera y y x1 y1 = x x2 y2 = x2 Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera y y x3 y3 = x x4 y4 = x4 Statistik p.58/77

59 Vorhersageintervalle Konfidenzbereich fuer die PunkKonfidenzbereich fuer die Punk y y x1 y1 = x x2 y2 = x2 Konfidenzbereich fuer die PunkKonfidenzbereich fuer die Punk y y x3 y3 = x x4 y4 = x4 Statistik p.59/77

60 Was war das Problem? Voraussetzungen nicht erfüllt Ausreißer in den Daten sehr einflußreiche Punkte Statistik p.60/77

61 Regressionsdiagnostik Statistik p.61/77

62 x1 y1 = x1 Anscombe y resid(m) predict(m) predict(m) Hebelwirkung Cook distance predict(m) Statistik p.62/77

63 residuals vs. predicted Hängt die Streuung vom Vorhersagewert ab? Gibt es extrem große Residuen? Treten die Vorhersagewerte gleichmäßig auf? Treten die Residuen gleichmäßig auf? Gibt es Strukturen? Statistik p.63/77

64 Hebelwirkung θ i = Änderung von Ŷi pro Änderung von Y i Wer weniger Kraft braucht sitzt am längeren Hebel Mißt die potentielle Wirkung eines Ausreißers im Regressant an dieser Stelle. Zeigt wie wichtig eine Beobachtung für die Schätzung ist. Große Werte deuten auf Unzuverlässige Schätzungen hin. Statistik p.64/77

65 Cook s Distanz c i = Maß für tatsächlicher Einfluß der Beobachtung Y i Große Werten bedeuten, dass die Beobachtung vom dem abweicht, was die anderen Werte über diese Stelle aussagen würden. Statistik p.65/77

70 Wachstumsdaten age height = age height resid(m) predict(m) predict(m) Hebelwirkung Cook distance predict(m) Statistik p.70/77

71 Raucherdaten Smoking Mortality = Smoking Mortality resid(m) predict(m) predict(m) Hebelwirkung Cook distance predict(m) Statistik p.71/77

72 Brustkrebsdaten Temperature Mortality = Temperatu Mortality resid(m) predict(m) predict(m) Hebelwirkung Cook distance predict(m) Statistik p.72/77

73 Robuste Schätzung Statistik p.73/77

74 Idee der robusten Schätzung Minimiere den mittleren quadratischen Abstand zu den n k-nächsten Punkten. Dann können k-ausreißer die Gerade nicht stark beeinflussen. Statistik p.74/77

75 Weitere Beispiele Statistik p.75/77

76 Chromatograph response amount response = amount Statistik p.76/77

77 Chromatograph Konfidenzbereich fuer die Gerade response amount response = amount Statistik p.76/77

78 Chromatograph Konfidenzbereich fuer die Punkte response amount response = amount Statistik p.76/77

79 Chromatograph amount response = amount response resid(m) predict(m) predict(m) Hebelwirkung Cook distance predict(m) Statistik p.76/77

80 Luftqualität > pairs(airquality) > pairs(airquality) > showgeraden(ozone ~ Solar.R, data = airquality) > showgeraden(ozone ~ Solar.R, data = airquality, + diag = T) > pairs(airquality) > par(mfrow = c(1, 1)) > showgeraden(ozone ~ Temp, data = airquality) > showgeraden(ozone ~ Temp, data = airquality, alpha = + diag = T) > par(mfrow = c(1, 1)) Statistik p.77/77