Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse III: Diagnostik

Transkript

1 Institut für Soziologie Methoden 2 Regressionsanalyse III: Diagnostik

2 Wiederholung Regressionsanalyse beruht auf verschiedenen Annahmen Sind Annahmen verletzt, sind bestimmte Eigenschaften der Schätzer nicht mehr gegeben oder Signifikanztests sind nicht mehr gültig Für einige der Annahmen existieren Verfahren, um Verletzungen zu diagnostizieren # 2

3 Eigenschaften von Schätzstatistiken Erwartungstreue bzw. Unverzerrtheit ( unbiased ): tendenziell liefert die Schätzstatistik den richtigen Wert: Der wahre Wert wird also weder systematisch über- noch unterschätzt. Konsistenz: Mit steigendem N trifft der Schätzer den wahren Wert tendenziell besser Effizienz (auch Wirksamkeit): Eine erwartungstreue Schätzstatistik ist dann effizient, wenn sie unter allen konkurrierenden Schätzstatistiken die geringste Varianz aufweist # 3

4 Eigenschaften von Schätzstatistiken Weniger effizienter, aber unverzerrter Schätzer Effizienter, aber verzerrter Schätzer Wahrer Schätzer = 0 # 4

5 Eigenschaften von Schätzstatistiken Sind Modellannahmen erfüllt, ist der OLS-Schätzer BLUE (Best Linear Unbiased Estimator): Best Linear: sie haben unter allen gegebenen linearen Schätzern die geringste Varianz (Effizienz). Unbiased: sie sind unverzerrt, entsprechen im Schnitt dem wahren Parameter in der Grundgesamtheit (Unverzerrtheit). Außerdem sind die Schätzer konsistent, das heißt, dass sie sich mit steigendem Stichprobenumfang dem wahren Populationswert annähern (Konsistenz). # 5

6 Basisannahmen der Regression Grundannahmen bei der klassischen linearen Regression, bei denen hauptsächlich theoretische Reflexion hilft: Werte von x müssen variieren, d.h. var(x) muss eine endliche positive Zahl sein Effekte kann man nur finden, wenn die UV Varianz aufweist Zahl der Beobachtungen ist größer als Zahl der Parameter sparsame Modellierung; nicht zu viele Variablen ins Modell aufnehmen Modell ist korrekt spezifiziert, beispielsweise müssen also die relevanten Regressoren identifiziert worden sein Annahme ist fundamental, aber schwer zu testen; hier spielt die Theorie eine wichtige Rolle Regressor (x) und Fehler sind unkorreliert, d.h. cov(u i,x i ) = 0 für alle i # 6

7 Diagnostik Annahmen bzw. Probleme bei der klassischen linearen Regression, für die im folgenden statistische Diagnoseverfahren vorgestellt werden: Einflussreiche Fälle Multikollinearität Heteroskedastizität Autokorrelation Nicht-Normalverteilung der Fehler # 7

8 Diagnostik Dabei wird jeweils folgende Gliederung verwendet: 1. Bedeutung der Annahmeverletzung 2. Folge der Annahmeverletzung 3. Diagnose der Annahmeverletzung 4. Möglichkeiten der Abhilfe # 8

9 Beispiel Gleiches Beispiel wie letzte Woche: Welche Faktoren beeinflussen den BMI? Ernährung Geschlecht (Mann = 0, Frau = 1) Psychische Gesundheit Einkommen Sport Alter # 9

10 Diagnostik Ausreißer Bedeutung: Einige Fälle beeinflussen das Regressionsergebnis sehr stark Folgen: Beeinflussen einige wenige Fälle das Ergebnis sehr stark, kann es im Extremfall dazu kommen, dass das geschätzte Modell fast nur diese Punkte repräsentiert Möglichkeit der Diagnose: Betrachtung der sog. standardisierten DFBETA-Werte. Sie geben an, wie stark ein Fall einen Koeffizienten beeinflusst. Üblicher Grenzwert: ± 2 n Fälle, deren DFBETA-Werte größer als 2 n oder kleiner als - 2 n sind sollten genauer betrachtet werden. # 10

11 Diagnostik Ausreißer Der Befehl REGRESSION /(...) /SAVE SDBETA. erzeugt für jeden Regressionsparameter eine Variable, in der die jeweiligen DFBETAS des jeweiligen Falls stehen # 11

12 Diagnostik Ausreißer Abhilfe: Zunächst sollte man prüfen, ob es sich um Kodier- oder Messfehler handelt Kann man dies ausschließen, liegt möglicherweise ein Problem bei der Modellspezifikation vor Einfaches Weglassen der problematischen Fälle ist Datenmanipulation! Um zu überprüfen, wie stark die Koeffizienten von einflussreichen Fällen beeinflusst werden, können Regressionen ohne diese Fälle gerechnet werden, und diese mit dem ursprünglichen Modell verglichen werden. # 12

13 Diagnostik Ausreißer # 13

14 Diagnostik Ausreißer 2 2 n 693 0,076 Die Fälle, die DFBETA-Werte größer als 0,076 oder kleiner als - 0,076 haben sollten genauer betrachtet werden. Zunächst betrachten wir die für den Alterskoeffizienten einflussreichen Fälle graphisch: Syntax: temporary. sel if sdb8_1 lt or sdb8_1 gt GRAPH /SCATTERPLOT(BIVAR)=id WITH SDB8_1 BY id (NAME). # 14

15 Diagnostik Ausreißer 15

16 Diagnostik Ausreißer Mit einflussreichen Fällen Ohne einflussreiche Fälle 16

17 Diagnostik Multikollinearität Bedeutung der Annahmeverletzung: Zwei oder mehr Regressoren (unabhängige Variablen) hängen linear zusammen Folgen der Annahmeverletzung: Ist der Zusammenhang perfekt, sind die Schätzer nicht berechenbar Bei geringerer Multikollinearität sind die Schätzer bestimmbar und konsistent, aber die Signifikanztests der einzelnen Koeffizienten sind nicht mehr zuverlässig, weil die Standardfehler erhöht werden. # 17

18 Diagnostik Multikollinearität Möglichkeit der Diagnose: Varianz-Inflations-Faktor (VIF): beruht auf dem R² einer Regression der überprüften Variable auf alle anderen unabhängigen Variablen. Ist der VIF einer Variable größer 10, kann von hoher Kollinearität ausgegangen werden. Tol = 1-R 2 VIF = 1/Tol In SPSS kann der VIF leicht angefordert werden: regression (...) /statisitics coeff R Anova Tol (...). Außerdem deutet ein hoher R²-Wert in Verbindung mit nur wenig signifikanten T-Werten auf Multikollinearität hin # 18

19 Diagnostik Multikollinearität Hier nur geringe VIF-Werte Kein Problem erkennbar Manchmal ist die Kollinearität durch eine gewünschte Modellierung bedingt (z.b. Berücksichtigung des Quadrats einer UV) # 19

20 Diagnostik Multikollinearität Abhilfe: Aus betroffenen Variablen einen additiven Index bilden, da sie oft ohnehin ähnliche Konstrukte messen Geeignete Transformationen der Variablen Neue oder zusätzliche Daten beschaffen. Dies ist insbesondere bei Aggregatdaten mit kleinen Fallzahlen, bei denen Multikollinearität häufiger auftritt, oft relativ einfach möglich. # 20

21 Diagnostik Heteroskedastizität Bedeutung der Annahmeverletzung: Die Störterme u i besitzen nicht die selbe Varianz Folgen der Annahmeverletzung: Schätzer sind nach wie vor konsistent und unverzerrt Schätzer sind aber nicht mehr effizient, also nicht mehr die Schätzer mit der kleinsten Varianz Außerdem ist die Formel zur Berechnung der Standardfehler nicht mehr korrekt, wodurch die T-Werte falsch sind # 21

22 Diagnostik Heteroskedastizität Möglichkeit der Diagnose: Am besten eignen sich grafische Verfahren Bei Einfachregression genügt Scatterplot von unabhängiger und abhängiger Variable, um systematisch unterschiedliche Residuen zu erkennen Multiple Regression: Residuen-Plots. Dabei werden die Residuen zunächst gegen die geschätzten Werte der abhängigen Variable geplottet, dann gegen jede unabhängige Variable. Zeigen sich systematische Zusammenhänge, ist Heteroskedastizität nicht auszuschließen. # 22

23 Diagnostik Heteroskedastizität In SPSS lässt man die Residuen und die geschätzten Werte der abhängigen Variable als neue Variablen speichern und erstellt dann Scatterplots: REGRESSION (...) /SAVE PRED RESID. graph /sca PRE_1 WITH RES_1. Abhilfe: Je nachdem, ob Varianzen der Störterme bekannt oder unbekannt sind, gibt es verschiedene Korrekturverfahren zur Berechnung von Schätzern, die robust gegen Heteroskedastizität sind. # 23

24 Diagnostik Heteroskedastizität Robuste Standardfehler: In SPSS nicht für OLS implementiert, aber für Generalisierte Lineare Modelle (hier nicht im Detail): GENLIN f37 WITH alter mann HS MR ang_führung beamte_geh selbstst freiberuf /MODEL alter mann HS MR ang_führung beamte_geh selbstst freiberuf /CRITERIA COVB=ROBUST. # 24

25 Diagnostik Heteroskedastizität Zum Vergleich: herkömmliche p-werte # 25

26 Diagnostik Autokorrelation Bedeutung der Annahmeverletzung: Fehler sind korreliert Betrifft meist Zeitreihendaten oder Daten mit räumlichen Abhängigkeiten Kann bei Querschnittdaten aber auftreten, falls der Einfluss einer Variablen mit der Ausprägung der Variablen steigt, der Zusammenhang aber linear modelliert wird. Folgen der Annahmeverletzung: Schätzer sind nach wie vor konsistent und unverzerrt Schätzer sind aber nicht mehr effizient, also nicht mehr die Schätzer mit der kleinsten Varianz Außerdem ist die Formel zur Berechnung der Standardfehler nicht mehr korrekt, wodurch die T-Werte falsch sind # 26

27 Diagnostik Autokorrelation Möglichkeit der Diagnose: Spezielle Tests. Häufig wird der sogenannte Durbin-Watson-Test angewendet, der auf Autokorrelation 1. Ordnung testet. Faustregel: Werte um 2 deuten auf Abwesenheit von Autokorrelation hin In SPSS kann dieser direkt angefordert werden: REGRESSION(...) /RESIDUALS DURBIN Eignet sich nur für Zeitreihendaten, diese müssen nach der Zeit sortiert vorliegen Abhilfe: Schwierig, weil Struktur der Autokorrelation bekannt sein müsste. Trifft man hierüber bestimmte Annahmen, existieren spezielle Korrekturverfahren. # 27

28 Diagnostik Nicht-normalverteilte Fehler Bedeutung der Annahmeverletzung: Die Störterme u i sind nicht normalverteilt Folgen der Annahmeverletzung: Die Signifikanztests sind streng genommen nicht mehr gültig. Es kann aber gezeigt werden, dass sie asymptotisch, also bei großem Stichprobenumfang, weiter gelten # 28

29 Diagnostik Nicht-normalverteilte Fehler Möglichkeit der Diagnose: Grafische Verfahren sowie der bekannte Kolmogorov-Smirnov-Test auf Normalverteilung. In SPSS lässt man sich die Residuen als neue Variable speichern und prüft dann mit den bereits bekannten Verfahren ihre Verteilung: REGRESSION (...) /SAVE RESID. NPAR TESTS /K-S(NORMAL)=RES_1. fre res_1 /his normal /for nota. # 29

30 Diagnostik Nicht-normalverteilte Fehler Abhilfe: Transformation der Variablen, z.b. Logarithmieren der AV # 30

31 Überblick Annahmeverletzung Überprüfen durch Einflussreiche Fälle DF-Beta (Grenzwert: ±2/ n ) Multikollinearität VIF-Werte (Grenzwert: 10) Heteroskedastizität Residuen gegen vorhergesagte Werte und unabhängige Variablen plotten Autokorrelation Durbin-Watson-Statistik: Werte um 2 sind unauffällig Nicht-Normalverteilung der Fehler Kolmogorov-Smirnov-Test auf Normalverteilung der Residuen 31

32 Übungsaufgabe Replizieren sie die Übungsaufgabe zu den Determinanten der Bewertung der Wohnumgebung der letzten Woche. Berücksichtigen Sie als zusätzliche unabhängige Variable die Bildung (benutzen Sie die metrische Bildungsvariable aus Übungsaufgabe 4). Sind bei dieser Schätzung die Annahmen einer OLS-Regression erfüllt? Prüfen sie im Einzelnen: 1. Liegt Multikollinearität vor? 2. Wird die Schätzung von einflussreichen Datenpunkten beeinflusst? (Berechnen sie DFBETA-Werte und konzentrieren sie sich auf Ausreißer, die durch das Einkommen zustande kommen.) 3. Liegt Heteroskedastizität vor? 4. Sind die Residuen normalverteilt? Ändern sich die Befunde der Analyse jeweils, wenn die Verletzungen beseitigt werden? # 32