Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse II: Lineare multiple Regression

Transkript

1 Institut für Soziologie Christian Ganser Methoden 2 Regressionsanalyse II: Lineare multiple Regression

2 Inhalt 1. Anwendungsbereich 2. Vorgehensweise bei multipler linearer Regression 3. Beispiel 4. Modellannahmen 5. Zusammenfassung 6. Übungsaufgabe Christian Ganser # 2

3 Anwendungsbereich I Letzte Vorlesung: Einfache lineare Regression zur Untersuchung des linearen Zusammenhangs einer unabhängigen Variable (UV) und einer abhängigen Variable (AV) Häufig interessiert man sich für mehrere unabhängige Variablen, die gemeinsam eine abhängige Variable beeinflussen Insbesondere in den Sozialwissenschaften ist die Annahme der Monokausalität nur schwer zu rechtfertigen. Die Berücksichtigung einer Vielzahl von Einflussfaktoren ist in den bisher bekannten Verfahren nicht oder nur eingeschränkt möglich (vgl. Drittvariablenkontrolle) Christian Ganser # 3

4 Anwendungsbereich II Die multiple lineare Regression stellt eine Erweiterung der einfachen linearen Regression dar, die es erlaubt, mehrere UVs simultan in die Analyse einzubeziehen Die multiple lineare Regression eignet sich bei metrischer abhängiger Variable, UVs müssen metrisch sein oder als Dummys kodiert sein Die Grundidee ist die gleiche wie bei der Einfachregression, nur werden mehr Dimensionen betrachtet Liegen zwei unabhängige Variablen vor, kann man sich die Regression vorstellen als das Hindurchlegen einer Fläche durch eine dreidimensionale Punktewolke Christian Ganser # 4

5 Anwendungsbereich III Quelle: Fox, John (2008): Applied Regression Analysis and Generalized Linear Models. Thousand Oaks: Sage. S. 87. Christian Ganser # 5

6 Vorgehensweise Grundidee Annahme: Abhängige Variable (y) und unabhängige Variablen (x 1, x 2,, x k ) sind linear additiv miteinander verknüpft: y x x x k k Wie bei der einfachen Regression wird zusätzlich ein Fehlerterm eingeführt, da sich y nicht perfekt aus den unabhängigen Variablen vorhersagen lässt: y x x x u k k Das zu lösende Problem zur Schätzung der Y-Werte lautet nach wie vor: min n i 1 u 2 i Christian Ganser # 6

7 Vorgehensweise Interpretation Interpretation erfolgt weitgehend analog zur linearen Einfachregression: 1. F-Test: Prüft die Nullhypothese, dass keine UV Einfluss auf die AV ausübt 2. R² gibt durch UVs erklärte Varianz der AV an. 3. Aber: R² steigt bei Einbezug zusätzlicher UVs immer an. Korrigiertes R² berücksichtigt dies und ist daher insbesondere für Modellvergleiche heranzuziehen 2 RSS / ( N J 1) adj. R 1 TSS / ( N 1) Christian Ganser # 7

8 Vorgehensweise Interpretation 4. Koeffizienten geben eine Veränderung der AV bei Veränderung der UV um eine Einheit bei Konstanthaltung (Drittvariablenkontrolle!) der anderen UVs an. 5. Vergleich der Stärke des Einflusses verschiedener UVs ist anhand der Koeffizienten nicht möglich, da diese von den Einheiten abhängig sind Normierung mittels der Standardabweichung der AV und der UV standardisierte Koeffizienten ( standardisiertes Beta ) geben an, um wie viele Standardabweichungen sich die AV ändert, wenn sich die UV um eine Standardabweichung ändert wenig anschaulich, ermöglicht aber Vergleich der Einflussstärke Christian Ganser # 8

9 Beispiel: BMI Gleiches Beispiel wie letzte Woche: Welche Faktoren beeinflussen den BMI? Aber: Berücksichtigung mehrerer UVs, die vermutlich einen Einfluss auf den BMI haben: Ernährung Geschlecht (Mann = 0, Frau = 1) Psychische Gesundheit Einkommen Sport Alter Christian Ganser # 9

10 Beispiel: BMI Bilden der Variablen (1) Ernährung siehe letzte Woche Geschlecht Rekodierung zu 0/1-kodierter Dummy-Variable Psychische Gesundheit siehe letzte Woche; Rekodierung zu Dummys Einkommen Imputation der kategorialen Angaben und Berechnung des Pro-Kopf-Einkommens comp eink_imputiert=v53. if v54=2 eink_imputiert=375. if v54=4 eink_imputiert=875. if v54=8 eink_imputiert=2125. (...) if v54=15 eink_imputiert=4750. if v54=19 eink_imputiert=0. comp eink_kopf=eink_imputiert/v58. Christian Ganser # 10

11 Beispiel: BMI Bilden der Variablen (2) Sport Rekodierung zu Dummys recode v18 ( =0)(3 4=1) into v18_rec1. recode v18 ( =0)(5 6 7=1) into v18_rec2. var lab v18_rec1 "Sport: 2- bis 4mal pro Monat". var lab v18_rec2 "Sport: mehrmals pro Woche". val lab v18_rec1 v18_rec2 0 "Keine Nennung" 1 "Nennung". cro v18_rec1 by v18. cro v18_rec2 by v18. Alter wie gewohnt Christian Ganser # 11

12 Beispiel: BMI Durchführen der Regressionsanalyse regression /stat coeff CI anova R /des mean /dep BMI /method=enter index_ernae frau v14_rec1 v14_rec2 eink_kopf v18_rec1 v18_rec2 alter. Christian Ganser # 12

13 Beispiel: BMI Mittelwerte (bei Dummy als Anteil der 1er zu interpretieren) und Fallzahlen der Variablen in der Regression Christian Ganser # 13

14 Beispiel: BMI Information über ggf. ausgeschlossene Variablen. Beispiel: Würde man bei einer nominalen Variable mit drei Kategorien drei Dummys erstellen und alle drei Dummys in das Modell aufnehmen wird ein Dummy als Referenz entfernt. Christian Ganser # 14

15 Beispiel: BMI R 2 = 0,112 11,2% der Varianz der abhängigen Variable BMI werden durch die unabhängigen Variablen erklärt. Korrigiertes R² mit 0,101 etwas geringer Hier insgesamt mäßige Varianzaufklärung Christian Ganser # 15

16 Beispiel: BMI F-Test höchst signifikant: Modell trägt zur Erklärung der abhängigen Variable bei mindestens eine der Einflussgrößen hat einen statistisch bedeutsamen Einfluss auf die abhängige Variable Christian Ganser # 16

17 Beispiel: BMI Ernährung, Geschlecht und mittlere Sporthäufigkeit: kein signifikanter Einfluss Übrige Variablen zeigen dagegen signifikanten Effekt Christian Ganser # 17

18 Beispiel: BMI Personen mit mittlerer (guter/sehr guter) Gesundheit haben um 1,676 (2,484) Punkte niedrigeren BMI also solche mit schlechter Gesundheit Mit jedem Euro Einkommen nimmt BMI um 0,001 ab Mehrfach pro Woche Sport treiben senkt BMI um 2,289 Christian Ganser # 18

19 Beispiel: BMI Die Regressionsfunktion lautet: BMI = 25, ,503*index_ernae + (-0,617)*frau + (-1,676)*Mittelmäß. Gesundheit + (-2,484)*Gute/sehr gute Gesundheit + (-0,001)*Einkommen + (-1,022)*Mittlere Sporthäufigkeit + (-2,289)*Hohe Sporthäufigkeit + 0,088*Alter Alle Variablen sind enthalten! Christian Ganser # 19

20 Beispiel: BMI Welchen BMI erwartet man für eine 40jährige Frau mit 1000 Euro Pro- Kopf-Einkommen, einem Ernährungsindex von 3 und mittlerer psychischer Gesundheit und Sporthäufigkeit? 25, ,503*3 0,617 1,676 0,001*1000 1, ,088*40=26,265 Was sagt in diesem Fall die Konstante aus? Ist dieser Wert sinnvoll interpretierbar? Christian Ganser # 20

21 Beispiel: BMI Von welcher Variable geht in diesem Modell der stärkste Effekt aus? Betrachtung der absoluten Werte relevant: stärkster Effekt Gute psychische Gesundheit Christian Ganser # 21

22 Basisannahmen der Regression I 1. Linearität in den Parametern muss gegeben sein (aber nicht unbedingt in den Variablen, z.b. Y = β 0 + β 1 ln(x 1 )) 2. Der bedingte Mittelwert der Residuen ist bei gegebenen Werten von x Null, d.h. E(u i x i ) = 0 für alle i 3. Die Varianz der Residuen ist für alle Werte von x gleich (Homoskedastizität), d.h. var(u i x i ) = σ 2 für alle i; andernfalls spricht man von Heteroskedastizität Christian Ganser # 22

23 Basisannahmen der Regression II 4. Für jedes gegebene Paar von Werten x i und x j ist die Korrelation zwischen den zugehörigen Fehlern stets Null (keine Autokorrelation), d.h. cov(u i,u j x i,x j ) = 0 für alle i j (Gründe: mehrere Messungen für eine Person oder mehrere Personen aus einer Gruppe/Region, z.b. aus einem Haushalt) 5. Regressor (x) und Fehler sind unkorreliert, d.h. cov(u i,x i ) = 0 für alle i Christian Ganser # 23

24 Basisannahmen der Regression III Beispiel: Linearität in den Parametern Y = β 0 + β 1 X 1 Y = β 0 + β 1 X 1 + β 2 (X 1 ) 2 Christian Ganser # 24

25 Basisannahmen der Regression IV Beispiel: Heteroskedastizität Varianz der Fehler wird mit steigendem Einkommen kleiner. Problem: Schätzer nicht mehr effizient. Die Standardfehler der Schätzer werden falsch berechnet (fälschliche Unterstellung gleicher Varianzen). Standardfehler werden für die Signifikanztests benötigt. Christian Ganser # 25

26 Basisannahmen der Regression V 6. Zahl der Beobachtungen ist größer als Zahl der Parameter sparsame Modellierung; nicht zu viele Variablen ins Modell aufnehmen 7. Werte von x müssen variieren, d.h. var(x) muss eine endliche positive Zahl sein Effekte kann man nur finden, wenn die UV Varianz aufweist 8. Das Modell ist korrekt spezifiziert, beispielsweise müssen also die relevanten Regressoren identifiziert worden sein diese Annahme ist fundamental, aber schwer zu testen; hier spielt die Theorie eine wichtige Rolle Christian Ganser # 26

27 Basisannahmen der Regression VI 9. Bei Modellen mit mehr als einer unabhängigen Variable gibt es keine perfekte Multikollinearität, d.h. keine perfekte Beziehung zwischen unabhängigen Variablen Zwei oder mehr Regressoren (unabhängige Variablen) hängen zu stark linear miteinander zusammen. Folge: Ist der Zusammenhang perfekt, sind die Schätzer nicht berechenbar. Bei geringerer Multikollinearität sind die Schätzer bestimmbar und konsistent, aber die Signifikanztests der einzelnen Koeffizienten sind nicht mehr zuverlässig, weil die Standardfehler erhöht werden. Christian Ganser # 27

28 Basisannahmen der Regression VII Sind diese 9 Modellannahmen erfüllt, sind die OLS-Schätzer BLUE (Best Linear Unbiased Estimator): Best Linear: sie haben unter allen gegebenen linearen Schätzern die geringste Varianz (Effizienz). Unbiased: sie sind unverzerrt, entsprechen im Schnitt dem wahren Parameter in der Grundgesamtheit und außerdem sind die Schätzer konsistent, das heißt, dass sie sich mit steigendem Stichprobenumfang dem wahren Populationswert annähern. Christian Ganser # 28

29 Basisannahmen der Regression VIII Für Signifikanztests der Parameter (nicht aber für die Schätzung an sich) ist zusätzlich die Annahme nötig 10. Die Fehlerterme u sind normalverteilt. Bei Verletzung: Die Signifikanztests sind streng genommen nicht mehr gültig. Aber: Es kann gezeigt werden, dass die Annahme asymptotisch, d.h. bei großem Stichprobenumfang, weiter gilt. Zudem sollte die Möglichkeit von Ausreißern und einflussreichen Fällen beachtet werden. Einzelne oder wenige Fälle können ein Regressionsergebnis maßgeblich verändern und somit irreführende Resultate herbeiführen. Christian Ganser # 29

30 Basisannahmen der Regression IX Ausblick Für einen Teil der Annahmen existieren bestimmte Testverfahren. Generell liefern auch graphische Verfahren oft wichtige Einsichten. Auf jeden Fall sollte man durch grafische Darstellung prüfen, ob ein annähernd linearer, auf jeden Fall aber monotoner Zusammenhang vorliegt. Die Variablen sollten ferner möglichst symmetrisch und eingipfelig verteilt sein. Insgesamt ist die OLS-Regression aber relativ robust gegen Verletzungen ihrer Annahmen. Genaueres folgt in der kommenden Woche Christian Ganser # 30

31 Zusammenfassung wichtiger Aspekte Was sollte ich mir mindestens merken? Zweck: Prüfung des Einflusses mehrerer metrischer oder dichotomer unabhängiger Variablen auf metrische abhängige Variable ( Drittvariablenkontrolle). Grundlegende Vorgehensweise: Erweiterung einer Geradengleichung (vgl. Einfachregression) um weitere unabhängige Variablen, minimieren der Summe der quadrierten Residuen. Christian Ganser # 31

32 Zusammenfassung wichtiger Aspekte Was sollte ich mir mindestens merken? Interpretation: R²: Anteil erklärter Varianz, korrigiertes R² berücksichtigt Aufnahme zusätzlicher UVs F-Test: Prüft H 0, dass alle UVs keinen Einfluss haben vs. H 1 mind. 1 UV hat Einfluss Koeffizienten: Bei Veränderung der UV um eine Einheit ändert sich AV um β j Einheiten. Standardisierte Koeffizienten zum Vergleich der Stärke des Einflusses: Bei Veränderung der UV um eine Standardabweichung ändert sich AV um Beta Standardabweichungen. Aus Koeffizient und Standardfehler kann T-Wert berechnet werden, der über Signifikanz einzelner UVs Auskunft gibt. Christian Ganser # 32

33 Zusammenfassung wichtiger Aspekte Was sollte ich mir mindestens merken? Regressionen basieren auf einigen Annahmen. Probleme bei der Schätzung verursachen v.a.: Nicht-Linearität Heteroskedastitzität Autokorrelation Multikollinearität nicht normalverteilte Fehler Ausreißer Christian Ganser # 33

34 Übungsaufgabe Übungsaufgabe 1 Greifen Sie auf die Modelle aus den Übungsaufgaben von letzter Sitzung zurück. Beziehen Sie die unabhängigen Variablen aus den beiden Aufgaben gemeinsam in ein Regressionsmodell ein und interpretieren Sie die Ergebnisse. Welche Variable hat den stärksten Einfluss? Prüfen Sie grafisch, ob es sinnvoll erscheint, einen nicht-linearen Einfluss des Einkommens zu modellieren. Modifizieren Sie das Modell ggf. entsprechend. Christian Ganser # 34