4.1 Problemstellung. E E i = 0 : Linearität, Additivität. 4 Residuen-Analyse 4.1. PROBLEMSTELLUNG 96. (a) (b) gleiche Varianz var E i = σ 2,

Transkript

1 4.1. PROBLEMSTELLUNG 96 4 Residuen-Analyse 4.1 Problemstellung a Modellannahmen: E i N 0, σ 2 (a) E E i = 0 : Linearität, Additivität. (b) gleiche Varianz var E i = σ 2, (c) normalverteilt. b c (d) E i unabhängig, Voraussetzungen überprüfen! nicht Rechtfertigung, sondern Chance: besseres Modell, explorative Datenanalyse. (Auch für Varianzanalyse und andere Regressionsmodelle.)

2 4.1. PROBLEMSTELLUNG d Verbesserungen: Variable transformieren, zusätzliche Terme, beispielsweise Wechselwirkungen, ins Modell aufnehmen, Beobachtungen gewichten, allgemeinere Modelle und Methoden verwenden. e Grafische Darstellungen (ev.tests) = Diagnose-Untersuchung Abweichungen = Symptome versch. Abweichungen Syndrom Diagnose Therapie

3 4.2. RESIDUEN UND ANGEPASSTE WERTE 98 a 4.2 Residuen und angepasste Werte Einfache Regression Streudiagramm betrachten! Multiple Regression mehrere X (j) angepasste Werte 1.0 log10(erschütterung) angepasste Werte

4 4.2 b 4.2. RESIDUEN UND ANGEPASSTE WERTE 99 Welche Abweichungen von Voraussetzungen könnte man hier sehen? (a) Regressionsfunktion: Verlauf der Punkte. Typische Abweichung: Krümmung des mittleren Verlaufs. c (b) Gleiche Varianzen: Streubreite der Punkte um die Gerade. Typische Abweichung: Punkte laufen gegen rechts auseinander. d (c) Verteilung der Fehler: Streuen Punkte symmetrisch um die Gerade? Ausreisser? e Wie beurteilen? Abweichung im Bereich des Zufalls? Abweichung gefährlich? Antwort abhängig vom Zweck der Studie!

5 4.2 f 4.2. RESIDUEN UND ANGEPASSTE WERTE 100 Variante des Diagramms Y gegen ŷ zeigt Abweichungen genauer: Tukey-Anscombe-Diagramm: Residuen gegen angepasste Werte Residuen angepasste Werte

6 RESIDUEN UND ANGEPASSTE WERTE 101 g (a) Regressionsfunktion: E E i = 0. Mittelwert der R i über Fenster" der ŷ i gleitendes Mittel Glättung lowess", robust Nichtparametrische Regression. h Abweichung zufällig? Simulation 19 zusätzliche Kurven. Idt die beobachtete die extremste"? grafischer Test" R i Residuen y^i angepasste Werte

7 RESIDUEN UND ANGEPASSTE WERTE 102 i (b) Gleiche Varianzen: Gleitende Varianz? besser lowess für Ri gegen ŷ i. R i Wurzel abs. Residuen y^i angepasste Werte

8 4.3. VERTEILUNG DER FEHLER 103 a 4.3 Verteilung der Fehler (c) Normalverteilung? Histogramm der E i resp. Residuen R i! Die Zielgrösse Y muss nicht normalverteilt sein!

9 4.3 b 4.3. VERTEILUNG DER FEHLER 104 Raffinierter: Quantil-Quantil-Diagramm (QQ-Plot, normal plot) Geordnete Residuen Quantile der Standardnormalverteilung

10 4.3 c d 4.3. VERTEILUNG DER FEHLER 105 Abweichungen zufällig? Anpassungstest (goodness of fit test) Oder simulieren! sim.residuen sim.residuen sim.residuen sim.residuen sim.residuen sim.residuen

11 4.3. VERTEILUNG DER FEHLER Quantiles of Standard Normal Quantiles of Standard Normal Quantiles of Standard Normal Quantiles of Standard Normal Quantiles of Standard Normal Quantiles of Standard Normal

12 4.3. VERTEILUNG DER FEHLER e Verteilung der Zufallsfehler!? Zufallsfehler E i Residuen R i R i = Y i ŷ i beides zufällig. ŷ i hängt von Y i, also von E i ab. f R i N 0, σ 2 (1 H ii ). H ii leverage, Hebelarm Y i Y i + y i ŷ i ŷ i + H ii y i Hebelwirkung H ii misst den Abstand" zwischen x i und x i. einfache R.: H ii = (1/n) + (x i x) 2 /SSQ (X). multiple R.: H ii = (1/n) + d x i, x 2. d: Mahalanobis-Distanz. 0 H ii 1, avei H ii = p/n.

13 4.3. VERTEILUNG DER FEHLER g Residuen standardisieren, damit sie alle die gleiche Verteilung haben: R i = R i /( σ 1 H ii ) Verwende stand. Residuen zur Überprüfung der Verteilung! Meistens ist der Unterschied der Varianzen var R i klein, deshalb genügen unstandardisierte Residuen auch.

14 4.3. VERTEILUNG DER FEHLER 109 Theoretische Verteilung der Residuen β = (X T X ) 1 X T Y ŷ = X β = X (X T X ) 1 X T Y =: HY R = Y ŷ = Y X β E R = E Y X E β = X β X β = 0 R = Y ŷ = Y HY = (I H)Y R i = (1 H ii )Y i k i H iky k var R i = σ ((1 2 H ii ) 2 + Man muss zeigen, dass k H2 ik = H ii k i H2 ik ist. Dann ist ) = σ 2 ( 1 2H ii + k H2 ik )

15 4.3. VERTEILUNG DER FEHLER 110 var R i = σ 2 (1 H ii ) bewiesen. Es ist k H2 ik = (H H T ) ii und HH T = (X (X T X ) 1 X T )(X (X T X ) 1 X T ) Das ii-element ist also H ii = X (X T X ) 1 X T = H

16 4.4. ZIELGRÖSSE TRANSFORMIEREN? Zielgrösse transformieren? a Symptome Syndrom Diagnose Therapie. Umgekehrt: Krankheit Syndrom Falsche / fehlende Transformation der Zielgrösse??? Bsp. Sprengungen: Fehlende log-transformation???

17 4.4. ZIELGRÖSSE TRANSFORMIEREN? 112

18 4.4. ZIELGRÖSSE TRANSFORMIEREN? b Syndrom: nach oben gekrümmte Glättung, nach rechts trichterförmig zunehmende Streuung, schiefe Verteilung der Residuen bis auf 1 Ausreisser nach unten. c = Transformations-Syndrom"

19 4.4 e f 4.4. ZIELGRÖSSE TRANSFORMIEREN? 114 First aid transformations Logarithmus-Transformation für Konzentrationen und Beträge, Logarithums- oder Wurzel-Transformation für Zähldaten, Arcus-Sinus-Transformation ỹ = arcsin y für Anteile (Prozentzahlen/100). sollten für solche Daten immer angewendet werden (wenn es keine Gegengründe gibt), auch für erklärende Variable! Log-Transformation macht ein multiplikatives Modell zu einem linearen: Ỹ = log 10 Y und X(j) = log10 X (j). log 10 Y i = β 0 + β 1 log 10 x (1) i + β 2 log 10 x (2) i + E i Y i = 10 β 0 x β 1 i x β 2 i 10 E i Potenzgesetz, Terme wirken multiplikativ, Fehler multiplikativ.

20 4.4. ZIELGRÖSSE TRANSFORMIEREN? g Schwierigkeit: log 0 =. Abhilfe: Ỹ = log Y + c. Wahl von c? Bitte nicht c = 1! Vorschlag: c = med Y k /s 2.9 mit s = med Y k /q 0.25 Y k h Box-Cox-Transformationen. g λ (x) = x λ 1 für λ 0, λ ln x für λ = 0. i Transformation ändert die Regressionsfunktion! Erlaubt? Hängt von der Anwendung ab! k Kann (monotone) Transformation der Zielgrösse helfen? Referenzlinie im TA-Diagramm betrachten!

21 4.5. AUSREISSER UND LANGSCHWÄNZIGE VERTEILUNG Ausreisser und langschwänzige Verteilung a Ausreisser. Beobachtungen, die schlecht zum Modell passen. b Grober Fehler? korrigieren. Wenn nichts Spezielles war, darf man Ausreisser weglassen? Ja: Voraussetzung nicht erfüllt c Langschwänzige Verteilung. Kleinste Quadrate nicht optimal. Max.lik. für langschw. Vert. weniger Gewicht für extreme Beob. Block robuste Regression.

22 4.6. RESIDUEN UND EINGANGS-VARIABLE 117 a 4.6 Residuen und Eingangs-Variable Residuen gegen X (j) auftragen! log10(ersch) ~ Stelle + log10(dist) + log10(ladung) Residuals Residuals dist ladung Oct 1,01/2:19 b Transformation von X (j)? Beachte Referenzlinie!

23 4.6. RESIDUEN UND EINGANGS-VARIABLE 118 log10(ersch) ~ Stelle + dist + ladung Residuals Residuals dist ladung Oct 1,01/2:20 c Wenn Transformation nicht hilft: quadratischer Term, oder glatte Funkt. statt linearer Glättung, Nichtparametrische Regr.

24 4.6 d 4.6. RESIDUEN UND EINGANGS-VARIABLE 119 Sind Effekte von 2 Variablen additiv? Residuen gegen 2 erkl. Var. auftragen! log(ladung) Wechselwirkung (oder besser = (x (j) i x (m+1) i log(distanz) = x (j) i x (k) i x (j) )(x (k) i x (k) )) für kontinuierl. X (j), X (k)

25 4.6. RESIDUEN UND EINGANGS-VARIABLE 120 Wechselwirkung zw. kont. Var. X (j) und Faktor X (k)? = verschiedene Steigungen β j für versch. Niveaus des Faktors. e Bessere Figur : log10(ersch) ~ stelle + log10(dist) + log10(ladung) Residuals Oct 1,01/8: dist f Varianz var E i abhängig von X (j)? gewichtete Regr.

26 4.7. GEWICHTETE LINEARE REGRESSION Gewichtete lineare Regression a Varianzen verschieden, var E i =: σ 2 i. σ i bekannt. Dann: Kleines σ i grosses Gewicht. Formal: Maximum likelihood Gewichtete Kl.Quadrate = minimiere i w ir 2 i, w i = 1/σ 2 i b σ i unbekannt, aber var E i = σ 2 v i Gewichte w i = 1/v i. σ i Funktion von x (j) i, σ 2 v x (j) i w i = 1/v x (j). i Achtung: σ i Funktion von Y i : Man darf nicht w i = 1/v Y i ) nehmen (evtl. w i = 1/v ŷ i. Nicht iterieren!)

27 4.7. GEWICHTETE LINEARE REGRESSION c β = ( X T W X ) 1 X T W Y, E βj = β j, var βj = σ 2 ( X T W X ) 1 jj. d Überprüfung der Wahl der Gewichte: Ri gegen Gewichte.

28 4.8. GESAMTHAFTE ÜBERPRÜFUNG Gesamthafte Überprüfung a Geschätzte Streuung der Fehler vergleichen mit Schätzung aus einer anderen Quelle. z.b. bekannte Mess-Ungenauigkeit σ 2. Falls Form der Regressionsfunktion falsch, d.h. z.b. wahre Regressionsfunktion ist nichtlinear, dann ist σ 2 > σ 2.

29 4.8. GESAMTHAFTE ÜBERPRÜFUNG c Falls zu jedem x i mehrere Beobachtungen Y i1, Y i2,...y ini gemacht werden = Replikate Schätzung der Streuung des Fehlers: σ 2 = 1 n g g n i i=1 h=1 SSQ (rep) : Quadratsumme der Replikate" (Y ih Y i. ) 2 = 1 n g SSQ(rep) Test mit Testgrösse T = (SSQ(E) SSQ (rep) )/(g p) SSQ (rep) /(n g) F

30 4.8. GESAMTHAFTE ÜBERPRÜFUNG 125 e Statt identischen x i benachbarte" Beobachtungen Distanz d x h, x i. Trage (R i R h ) 2 gegen d x h, x i auf. Daniel & Wood (1971/1980): d x (1) i,..., x (m) i ; x (1) h,..., x(m) h = j ( βj (x (j) i x (j) h )) 2 / σ 2

31 4.9. UNABHÄNGIGKEIT Unabhängigkeit a R i auftragen gegen Zeit, Ort, Gruppierungs-Variable. Residuen Reihenfolge

32 4.9 d 4.9. UNABHÄNGIGKEIT 127 Räumliche Abhängigkeit, Bsp. basische Böden

33 4.9. UNABHÄNGIGKEIT e* Durbin-Watson-Test. Entscheidung: Unabhängigkeit T = n i=2 (R i R i 1 ) 2 / n i=1 R2 i Verwerfung, falls T < c, Beibehaltung, falls T > c, gar nichts (unentscheidbar), falls T dazwischen liegt. f Wenn Korrelationen vorliegen, dann sind die P-Werte der üblichen Tests häufig grob falsch. Verallgemeinerte Kleinste Quadrate, Regression von Zeitreihen

34 4.10. EINFLUSSREICHE BEOBACHTUNGEN Einflussreiche Beobachtungen a Ausreisser: Haben sie wesentlichen Einfluss auf die Analyse? Sensitivitäts-Analyse" b Analyse ohne ite Beobachtung (influence) diagnostics": Veränderung von Schätzwerten, Test-Statistiken,... 2 weglassen : nicht unbedingt additive Effekte. masking", swamping".

35 4.10 c EINFLUSSREICHE BEOBACHTUNGEN 130 R i gegen H ii auftragen. Influence diagnostics nehmen zu mit R i und H ii. gefährliche" Zonen e Distanz von Cook d i = R 2 i H ii p σ 2 (1 H ii ) 2 = (1/p) R2 i H ii /(1 H ii )

36 4.10 f EINFLUSSREICHE BEOBACHTUNGEN 131 added variable plot oder partial regression leverage plot (Y j) R gegen i R (X(j) j) auftragen i Res.(log10(ersch)~log10(ladung)+Stelle) Res.(log10(dist)~log10(ladung)+Stelle)

37 4.10. EINFLUSSREICHE BEOBACHTUNGEN 132 Merkpunkte Residuen-Analyse 1. Im Tukey-Anscombe-Diagramm sieht man Abweichungen von der angenommenen Regressionsfunktion, der Gleichheit der Varianzen (Scale Plot) der Form der Verteilung der Fehler (genauer: QQ-Plot) Transformation der Zielgrösse hilft oft. 2. Residuen gegen Eingangs-Variable Transformation der E.-V. Wechselwirkungen 3. Einflussreiche Beobachtungen 4. Residuenanalyse dient der Verbesserung eines Regressionsmodells. Regression ohne Residuenanalyse ist unzulässig"!