Vorlesung: Multivariate Statistik für Psychologen

Vorlesung: Multivariate Statistik für Psychologen 7. Vorlesung: 05.05.2003 Agenda 2. Multiple Regression i. Grundlagen ii. iii. iv. Statistisches Modell Verallgemeinerung des Stichprobenmodells auf Populationsebene Verallgemeinerung der multiplen Regression auf k Prädiktoren v. Techniken der multiplen Regression vi. Interaktionseffekte bei multiplen Prädiktoren vii. Annahmen und Voraussetzungen der multiplen Regression 2

Zusammenfassung der letzten Sitzungen Multiple Regression Ziele und Grundlagen der multiplen Regression Beispiele zur multiplen Regression Statistisches Modell, Modellgleichung Schätzung und Interpretation der Modellparameter Varianzzerlegung, Modellgüte, Determinationskoeffizient Verallgemeinerung des Stichprobenmodells auf Populationsebene Techniken der Modellschätzung bei multipler Regression 3 Techniken/Typen der multiplen Regression: Zusammenfassung I Varianzzerlegung zur Beurteilung der einzelnen Prädiktoren Gesamtvarianzaufklärung der Prädiktoren X1, X2, X3 entspricht a+b+c+d+e Varianzaufklärung der einzelnen Prädiktoren abhängig von Regressionstechnik Standard Multiple Regression vs. Hierarchische (Sequentielle) Regression vs. Statistische (Schrittweise) Regression X 2 X 1 X3 a b c d e Y 4

Techniken/Typen der multiplen Regression: Zusammenfassung II Hinweise zur Interpretation der Ergebnisse Regressionsmodelle und Bewertung einzelner Prädiktoren mit denselben Daten teilweise sehr unterschiedlich, abhängig von gewählter Regressionstechnik Kriterien zur Aufnahme/Löschung einzelner Prädiktoren im Modell berücksichtigte Prädiktoren Grundsatz: Testen inhaltlicher Theorien oder exploratives Vorgehen zur Bewertung des Einflusses der Prädiktoren Angabe der: Parameterschätzungen der Standard Multiplen Regression mit den ausgewählten Prädiktoren Parameterschätzungen der Einfachen Regression (z.b. in Form der Korrelationsmatrix) 5 Interaktionseffekte bei multipler Regression I Grundidee Zusammenhang zwischen Merkmal 1 und abhängiger Variable unterschiedlich je nach Ausprägung eines dritten Merkmals statistisch: Einfluss des Prädiktors X 1 auf Y abhängig von Ausprägung des Prädiktors X 2 unterschiedliche Regressionskoeffizienten für X 1 je nach Ausprägung von X 2 Beispiel Zusammenhang zwischen Lernaufwand, Vorwissen (Prädiktoren) und Klausurergebnis geringes Vorwissen: starker (positiver) Einfluss des Lernaufwands auf Klasuurergebnis hohes Vorwissen: geringerer Einfluss des Lernaufwands 6

Interaktionseffekte bei multipler Regression II Veranschaulichung eines Interaktionseffekts am Beispiels kein Vorwissen: starker Effekte Lernen b 2 = 0,7 viel Vorwissen: kaum Effekte Lernen b 2 = 0,1 7 Interaktionseffekte bei multipler Regression III Regressionsmodell der multiplen Regression mit Interaktion der Prädiktoren Stichprobenmodell für zwei Prädiktoren: Yˆ = a+ bx + bx + bx X i 1 1i 2 2i 3 1i 2i bzw. Y = a+ bx + bx + bx X + e i 1 1i 2 2i 3 1i 2i i Stichprobenmodell für k Prädiktoren vollständiges Modell: Berücksichtigung aller Einzelprädiktoren und alle Kombinationen einzelner Prädiktoren (Permutation) eingeschränktes Modell: gezielte Berücksichtigung einzelner Interaktionsterme Test des Interaktionseffektes siehe multiple Regression: Interaktionsterm als ein zusätzlicher Prädiktor 8

Interaktionseffekte bei multipler Regression IV Test des Interaktionseffektes (Fortsetzung) Vorhersagekraft im Modell Test der zusätzlich erklärten Varianz im Modell (R 2 -Differenz) gegen Null R 2 -Differenzentest (siehe multiple Regression) Durchführung in SPSS: hierarchische Regression mit späterer Aufnahme des Interaktionsterms Test des Interaktionsterms als einzelnen Prädiktor Test des Regressionskoeffizienten für Interaktionsterm gegen Null (siehe multiple Regression) Abhängigkeit des Tests von Regressionstechnik Interpretation eines Interaktionseffekts Einfluss des Prädiktors X 1 auf abhängige Variable abhängig von Ausprägung des Prädiktors X 2 (bzw. unterschiedlich für verschiedene Ausprägungen) Richtung des Effekts bzw. Größe des Koeffizienten abhängig von Einheiten 9 Interaktionseffekte bei multipler Regression V Praktische Hinweise Berechnung eines Interaktionsterms per Hand in SPSS: Interaktionsterm für Prädiktoren X 1 und X 2 als Produkt beider Variablen in Varianzanalyse: automatische Berücksichtigung der Interaktionen aller Faktoren Interpretierbarkeit Veranschaulichung Richtung der Interaktion und Größe graphisch veranschaulichen 3-D-Streudiagramm Scatterplot getrennt für mehrere Stufen des einen Prädiktors Grenzen der Interpretierbarkeit Zwei-Wege-Interaktionen (zwei Prädiktoren) meist inhaltlich sinnvoll interpretier Drei-Wege-Interaktionen und höhere theoretisch möglich, aber kaum interpretierbar 10

Annahmen und Voraussetzungen der multiplen Regression I Grund der Annahmen und Voraussetzungen des Testverfahrens Grundlage für Gültigkeit des Testmodells und der Prüfgröße Konsequenzen der Verletzungen der Annahmen und Voraussetzungen potentiell fehlerhafte Parameterschätzung potentiell unbekannte Verteilung der Prüfgröße Annahmen und Voraussetzungen der multiplen Regression Annahmen zu Residuen / zur Fehlervariable εi (bzw. ei ) Erwartungswert/theoretischer Mittelwert des Fehlers ist Null Erwartungswert des Fehlers ist Null für jede Kombination von Ausprägungen der Prädiktoren X 1,, X k Unabhängigkeit der Fehler (Kovarianz/Korrelation der Fehler ist Null) Normalverteilung der Residuen für jede Kombination von Ausprägungen der Prädiktoren X 1,, X k Varianzgleichheit der Residuen für jede Kombination von Ausprägungen der Prädiktoren X 1,, X k (Homoskedastizität) 11 Annahmen und Voraussetzungen der multiplen Regression II Annahmen und Voraussetzungen der multiplen Regression (Fortsetzung) weitere Annahmen: siehe einfache Regression Annahmen zur abhängigen Variablen Y Annahmen über das Stichprobenmodell Annahmen zum Regressionsmodell Annahmen zu den Prädiktoren 12

Test der Annahmen und Voraussetzungen zur multiplen Regression I Test der Annahmen über Residuen Erwartungswert des Fehlers ist Null: gegeben durch Least Square Schätzung Erwartungswert des Fehlers ist Null für jede Kombination von Ausprägungen der Prädiktoren X 1,, X k graphisch (für einzelne Prädiktoren): Residuenplot Prädiktor X i Residuen e i rechnerisch: mehrfaktorielle ANOVA sinnvolle Kategorisierung der Prädiktorvariablen Anzahl der Kategorien abhängig von Stichprobengröße und Streuung Bildung von Kategorien mit gleicher Anzahl Personen pro Kategorie kategorisierte Prädiktoren als Faktoren in Varianzanalyse (abhängige Variable: unstandardisierte Residuen der multiplen Regression) Nullhypothese (=Wunschhypothese) inhaltlich: gleicher Mittelwert der Residuen für alle Gruppen statistisch: keine signifikanten Haupteffekte und Interaktionseffekte Verletzung der Annahme potentiell nicht-lineare Zusammenhänge 13 Test der Annahmen und Voraussetzungen zur multiplen Regression II Test der Annahmen über Residuen (Fortsetzung) Unabhängigkeit der Fehler im Untersuchungsdesign über Unabhängigkeit der Beobachtungseinheiten Normalverteilung der Fehler für jede Kombination von Ausprägungen der Prädiktoren X 1,, X k graphisch: P-P-Plot der Residuen e i (pro Kombination von Prädiktorstufen) rechnerisch: Kolmogorov-Smirnov-Test (pro Kombination von Prädiktorstufen) sinnvolle Kategorisierung der Prädiktorvariablen in SPSS: "Daten aufteilen" nach den kategorisierten Prädiktorvariablen Kolmogorov-Smirnov-Test Nullhypothese: Normalverteilung minimale Stichprobengröße für theoretisch mögliche Verwerfung der Nullhypothese: n > 15 Verletzung: Prüfgröße (F-Wert) nicht F-verteilt Modelltest auf unbekanntem Alpha-Niveau 14

Test der Annahmen und Voraussetzungen zur multiplen Regression III Test der Annahmen über Residuen (Fortsetzung) Homoskedastizität der Fehler für jede Kombination von Ausprägungen der Prädiktoren X 1,, X k graphisch (für einzelne Prädiktoren): Residuenplot Prädiktor X i Residuen e i rechnerisch: Levene-Test zur Varianzgleichheit (mit kategorisiertem Prädiktor) sinnvolle Kategorisierung der Prädiktorvariablen kategorisierte Prädiktoren als Faktoren in Varianzanalyse (abhängige Variable: unstandardisierte Residuen der multiplen Regression) in SPSS im ANOVA-Menü unter "Optionen": Homogenitätstest Levene-Test Nullhypothese: Varianzgleichheit Verletzung: potentiell verfälschte Prüfgröße bzw. Fehlinterpretation Verrechnung der durchschnittlichen Streuung der Personen innerhalb einer Stufe des Prädiktors wenn diese sehr unterschiedlich potentiell falsche Interpretation der (nicht-)vorhandenen Effekte 15 Test der Annahmen und Voraussetzungen zur multiplen Regression IV Test der Annahmen über abhängige Variable theoretisch über Messmodell Test der Annahmen über Stichprobenmodell theoretisch über Untersuchungsdesign / Daumenregeln Annahmen zum Regressionsmodell Eignung des Regressionsmodells zur Beschreibung des linearen Zusammenhangs (siehe einfache Regression) Modellvergleich gegen höherdimensionale Modelle (z.b. quadratisch) Test gegen das saturiertes Modell (Varianzanalyse) 16

Ausblick Varianzanalyse (ANOVA) Grundlagen und statistisches Modell Hypothesentestung und Varianzzerlegung Varianzanalyse als Spezialfall der Regression Annahmen und Voraussetzungen der Varianzanalyse Multivariate Varianzanalyse (MANOVA) 17