Proseminar Forschungsmethoden SS 11

Ähnliche Dokumente
Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Modul G.1 WS 07/08: Statistik Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Inhaltsverzeichnis. Regressionsanalyse. - Stand vom:

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17)

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

2. Korrelation, lineare Regression und multiple Regression

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

Korrelation - Regression. Berghold, IMI

Institut für Soziologie Benjamin Gedon. Methoden 2. Regressionsanalyse IV: Transformation und Interaktion

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

E ektgrößen Metaanalysen. Zusammenhänge und Unterschiede quantifizieren E ektgrößen

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und

Teil II: Einführung in die Statistik

Überblick über die Verfahren für Ordinaldaten

Fortgeschrittene Statistik Logistische Regression

Fragen und Antworten zu Kapitel 18

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Gestaltungsempfehlungen

Kommentierter SPSS-Ausdruck zur logistischen Regression

Auswertung mit dem Statistikprogramm SPSS:

Gestaltungsempfehlungen

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Florian Frötscher und Demet Özçetin

Interne und externe Modellvalidität

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

3 Zusammenhangsmaße Zusammenhangshypothesen

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Kapitel 7: Varianzanalyse mit Messwiederholung

Multivariate Analysemethoden

1 Statistische Grundlagen

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Mensch Technisch. Fallstudien

Quantitative Methoden der Bildungsforschung

Prüfen von Mittelwertsunterschieden: t-test

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Nichtparametrische statistische Verfahren

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Die Technik und Logik von linearen Strukturgleichungsmodellen

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Willkommen zur Vorlesung Statistik (Master)

DOE am Beispiel Laserpointer

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst

Varianzanalyse ANOVA

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Felix-Nicolai Müller. Seminar Fragebogenmethodik - WS2009/ Universität Trier Dr. Dirk Kranz

Commercial Banking Übung 1 Kreditscoring

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Eine computergestützte Einführung mit

Studiendesign/ Evaluierungsdesign

Methoden Quantitative Datenanalyse

EINFACHE LINEARE REGRESSION MODUL 13 PROSEMINAR DESKRIPTIVE STATISTIK ANALYSE UND DARSTELLUNG VON DATEN I GÜNTER HAIDER WS 1999/2000

Datenanalyse mit Excel. Wintersemester 2013/14

Statistische Datenanalyse mit SPSS

Willkommen zur Vorlesung Statistik

Mediatioranalyse & Moderatoranalyse How to do

Multinomiale logistische Regression

Notiz zur logistischen Regression

(2) Mittels welcher Methode ist es im ALM möglich kategoriale Variablen als Prädiktoren in eine Regressionsgleichung zu überführen?

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. . Studiengang.

Einfache Statistiken in Excel

Varianzanalyse * (1) Varianzanalyse (2)

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten

Größe spielt keine Rolle Empirisches Arbeiten für Einsteiger

Logistische Regression

Statistik Einführung // Lineare Regression 9 p.2/72

Einfache statistische Testverfahren

Einfache Varianzanalyse für abhängige

Im Modell der Varianzanalyse (mit festen Effekten) ist das. aus dem Durchschnittsmesswert für y plus dem Effekt des.

Kontingenzkoeffizient (nach Pearson)

Einfache statistische Auswertungen mit dem Programm SPSS

Abhängigkeit zweier Merkmale

Grundlagen von Versuchsmethodik und Datenanalyse

DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler

9. Schätzen und Testen bei unbekannter Varianz

Pfadanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Entscheidungsanalyse unter Unsicherheit Entscheidungskriterien in ökonomischen Netzen

4.2 Grundlagen der Testtheorie

Master of Science in Pflege

Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

V A R I A N Z A N A L Y S E

Fragebogen- und Testkonstruktion in der Online-Forschung

Datenanalyse mit SPSS spezifische Analysen

12.1 Wie funktioniert ein Signifikanztest?

Kapitel 23 Lineare Regression

Transkript:

Dipl.-Hdl. Stephanie Starke, MBR Dipl.-Hdl. Sabine Funke Proseminar Forschungsmethoden SS 11 5. Plenum Tutoren: Carolin Dollinger Margarete Bast Monika Doll

Was bisher geschah: Seminarkonzeption in Bildern 1 Plenum: Vermittlung von 1. und 2. Plenum Fach- / Grundlagenwissen wissenschaftstheoretische Begriffe Forschungsablauf Statistische Grundbegriffe / Auswertungsmethoden Gütekriterien 1., 2.,3. Übung Übung: Anwenden & Vorbereiten Lesen und Verstehen wissenschaftlicher Studien Vorbereitung auf die eigene Forschungsarbeit (experimentelles Praktikum) 2 3. und 4. Plenum Handwerkszeug Software SPSS Grundlagen Statistische Auswertungen in SPSS Bewerten von SPSS Ausgaben (Ergebnisanzeigen) Tutorium Reader Übungsdatei Hilfestellung für eigene Auswertungen im Rahmen des experimentellen Praktikums (Tutorium) 1

Was bisher geschah: Seminarkonzeption in Bildern 3 Experimentelles Praktikum Theorie und Vorstudien der Konstrukte Forschungsfrage / Hypothesen Datenerhebung und -erfassung Hypothesentestung / Ergebnisinterpretation Kritisches Prüfen des eigenen Vorgehens Ergebnisse darstellen und vorstellen 1. Poster Postermesse 2. Paper Plenum: Vermittlung von Übung: Anwenden 4 Theorievertiefung Vertiefung und Erweiterung der gelernten forschungsmethodischen und statistischen Theorie Wechselnde Themenbereiche 5. und 6. Plenum 4. und 5. Übung Lesen und Verstehen wissenschaftlicher Studien 2

Was passiert heute? Die Gütemaße der empirischen Forschung Signifikanz Effektstärke / praktische Bedeutsamkeit Teststärke / Power (β-fehler) Von der Korrelation zur Regression Einfache lineare Regression Berechnung Bewertung Vorgehen in SPSS Multiple lineare Regression Voraussetzungen Bewertung Vorgehen in SPSS 3

Logik und Kritik des Hypothesentestens Oakes (1986) legte Wissenschaftlern folgende Fragen vor : Untersucht wird die Wirkung einer Trainingsmaßnahme auf die Arbeitsleistung. Verglichen werden eine Experimental- und eine Kontrollgruppe (pro Gruppe n=20). Überprüft werden die Ergebnisse anhand eines t-tests (t=2,7; FG=18; p=.01). Nullhypothese: Es gibt keinen Unterschied zwischen den Gruppen. Experimentalhypothese: Es besteht ein Unterschied zwischen den Gruppen. Welche der folgenden Aussagen treffen zu und welche nicht? 1. Die Nullhypothese wurde uneingeschränkt widerlegt. 2. Man hat die Experimentalhypothese uneingeschränkt bewiesen. 4

Von der Korrelation zur Regression Welchen Einfluss hat die Abiturdurchschnittsnote genau auf den Studienerfolg? Welchen Einfluss hat die Gewissenhaftigkeit genau auf den Studienerfolg? Wie genau können wir mit Hilfe dieser beiden Variablen den Studienerfolg vorhersagen? 5

Unterschied: Korrelation Regression Eine graphische Veranschaulichung y y cos γ = r x x 6

Unterschied: Korrelation Regression Korrelation lediglich lineares Zusammenhangsmaß zwischen zwei Variablen Ist der Zusammenhang überzufällig / signifikant? (Prüfgröße: t = ) Regression Zusammenhang zweier Variablen mit bekannter Wirkungsrichtung Ziel: die Unterschiede der abhängigen Variablen (eines Kriteriums) auf die Unterschiede in der unabhängigen Variablen (Prädiktoren) zurückzuführen Jeder Prädiktor teilt mit dem Kriterium einen bestimmten Varianzanteil. Dieser Anteil wird durch den jeweiligen Prädiktor vorausgesagt. Ist der Gewichtungsfaktor/ Regressionskoeffizient (b bzw. β) jedes Prädiktors signifikant groß, um Unterschiede der Kriteriumsvarianz vorherzusagen? Ist der Anteil aufgeklärter Kriteriumsvarianz (R 2 ) signifikant groß? r * N 2 1 r 2 7

Grundprinzip der Regression y beobachtete y-werte: vorhergesagte Werte: yi = a + b xi + e yˆ = a + b i x i = β Steigung entspricht dem Regressionsgewicht des Prädiktors y yˆ = e x Steigung der Regressionsgeraden entspricht dem nicht standardisierten Regressionskoeffizienten des Prädiktors Schnittpunkt der Regressionsgeraden mit der y-achse entspricht der Konstanten Die Abweichung des geschätzten / vorhergesagten Wertes vom tatsächlichen /beobachteten Wert y ist der Fehler (e). 8

Kausalität Die Anwendung von Regressionsanalysen zur Bestimmung kausaler Zusammenhänge ist nicht grundsätzlich gegeben. Folgende Voraussetzungen müssen für die Kausalität erfüllt sein: Signifikanter Zusammenhang zwischen x und y mit angemessener und praktischer Bedeutsamkeit Prädiktor und Kriterium müssen zeitlich aufeinander folgen oder eine starke Theorie ist nötig, die auch ausschließt, dass obige Korrelation durch eine Drittvariable bedingt ist (Vorsicht also bei querschnittlichen Untersuchungen!) 9

Zusammenhang / Korrelation Abiturdurchschnitt und bisheriger Notendurchschnitt 3,5-3,99 bisherige Notendu urchschnitt 3,0-3,49 2,5-2,99 2,0-2,49 1,5-1,99 1,0-1,49 1 2 3 4 Notendurchschnitt im Abitur Ergebnis in Zahlen: Pearson-Korrelation (einseitig): r=.479**, p=.000 Effektstärke: r =.479 (starker Effekt) α-fehler=.01; β-fehler=.001 Ergebnis (verbal): Die Korrelation gibt einen sehr deutlichen Hinweis darauf, dass zwischen dem Abiturdurchschnitt und dem bisherigen Notendurchschnitt im Studium ein Zusammenhang existiert. 10

Welchen Einfluss hat der Abiturdurchschnitt auf den Erfolg im Studium? einfache lineare Regression (nur eine unabhängige Variable): H 0 : Studierende mit besserem (niedrigerem) Abiturdurchschnitt weisen bessere bisherige Notendurchschnitte im Studium auf. H 1 : Studierende mit besserem (niedrigerem) Abiturdurchschnitt weisen schlechtere oder gleich gute bisherige Notendurchschnitte im Studium auf. SPSS: Analysieren + Regression + linear Merkmale: abhängige Variable: bisheriger Notendurchschnitt im Studium unabhängige Variable: Abischnitt (beide Merkmale sind annähernd normal verteilt und haben metrisches Skalenniveau) Alle weiteren Funktionen werden zunächst außer Acht gelassen; alle Voreinstellungen übernommen. 11

Welchen Einfluss hat der Abiturdurchschnitt auf den Erfolg im Studium? Ergebnis: y bisheriger ND = 1,845 + 0,883 * x Abischnitt + Fehler 12

Lineare Regression einfache lineare Regression: multiple lineare Regression: yˆ yˆ = aˆ + bˆ i x i = Vorhersage des Kriteriums durch einen Prädiktor. Varianz des Prädiktors x = a ˆ + b ˆ x + b ˆ x +... + b ˆ ˆi 1 1 2 2 = Vorhersage des Kriteriums durch zwei oder mehrere Prädiktoren. i i Varianz des Kriteriums y k x k yˆ = der für Person i vorhergesagte Kriteriumswert x i aˆ = geschätzte Konstante bˆ = geschätzter Regressionskoeffizient /Gewichtung i = der Prädiktorwert für Person i Varianz des Prädiktors 1 x 1 Varianz des Kriteriums y Varianz des Prädiktors 2 x 2 Varianz des Prädiktors 3 x 3 13

Lineare Regression Signifikanztestung der Regressionskoeffizienten Die Stärke der Regressionskoeffizienten (der unabhängigen Variablen) ist wichtig für die Vorhersage (-stärke) des Kriteriums (der abhängigen Variable). Der Unterschied zwischen β und b: b = unstandardisiertes Regressionsgewicht: d.h. die Änderung des Prädiktors um 1 Einheit bewirkt eine Änderung des Kriteriums um b Einheiten vorhergesagte Kriteriumswerte kann man nur mit dem b, nicht mit β berechnen β = standardisiertes Regressionsgewicht: d.h. die Änderung des Prädiktors um 1 Standardabweichung bewirkt eine Änderung des Kriteriums um β-standardabweichung Vorteil gegenüber b: β-gewichte der Prädiktoren können direkt in ihrer Größe verglichen werden (b s sind aufgrund ihrer unterschiedlichen Einheiten nicht vergleichbar) Bühner & Ziegler (2009), S. 646-651. 14

Lineare Regression Signifikanztestung der Regressionskoeffizienten für unstandardisierte b-gewichte: Voraussetzungen: (später) H 0 : b=0 (Es wird angenommen, dass jedes Regressionsgewicht Null ist es besteht kein Zusammenhang zwischen Prädiktor und Kriterium) H 1 : b 0; b>0; b<o (Es wird angenommen, dass das b i verschieden von Null ist es besteht ein Zusammenhang zwischen Kriterium und dem Prädiktor) b 0 Prüfgröße: t = = s Signifikanzprüfung: b s b t-verteilung Freiheitsgrade: df=n-2 Konfidenzniveau: 1-α/2 b Bei der multiplen Regression wird die Prüfgröße mit der F-Statistik berechnet. Signifikanz gilt auch für standardisiertes β-gewicht! 15

Lineare Regression Signifikanztestung des multiplen R 2 Wie groß ist der Varianzanteil, den die Prädiktoren mit dem Kriterium gemeinsam haben? einfache lineare Regression: Wie viel Varianz kann durch die Prädiktoren aufgeklärt werden R 2? Varianz des Kriteriums y multiple lineare Regression: Wie viel Varianz kann durch die Prädiktoren aufgeklärt werden R 2? Varianz des Kriteriums y Setzt sich zusammen aus dem gemeinsamen Varianzanteil aller Prädiktoren und dem Kriterium plus den einzigartigen Varianzanteilen zwischen einzelnen Prädiktoren und dem Kriterium. 16

Lineare Regression Signifikanztestung des multiplen R 2 für das multiple R bzw. R 2 : Voraussetzungen: (später) H 2 0 : R =0 (Es wird angenommen, dass der gewichtete Anteil der erklärten Varianz im Verhältnis zum gewichteten Anteil der nicht erklärten Varianz nahe Null ist.) H 1 : R 2 0; R 2 >0; (Es wird angenommen, dass der gewichtete Anteil der erklärten Varianz größer ist als der gewichtete Anteil der nicht erklärten Varianz.) Prüfgröße: Signifikanzprüfung: F F-Verteilung Freiheitsgrade: df=n-p-1 Konfidenzniveau: 1-α ( n p 1) R = 2 p (1 R ) Je mehr Prädiktoren in die Stichprobe einfließen, je größer muss die Stichprobe sein. 2 R: Korrelation zwischen den Prädiktoren und den beobachteten Kriteriumswerten bzw. den vorhergesagten Kriteriumswerten R 2 : quadriertes R = Anteil der aufgeklärten Varianz n: Stichprobengröße p: Anzahl der Prädiktoren /unabhängigen Variablen 17

Bewertung der aufgeklärten Varianz (R 2 ) praktische Bedeutsamkeit R 2 ist der Anteil der Kriteriumsvarianz, der auf die Prädiktoren zurückgeführt werden kann. Oder anders formuliert: Wie viel Prozent der Unterschiede im Kriterium können durch Unterschiede in den Prädiktoren erklärt werden? Bewertung nach Bühner & Ziegler (2009): kleiner Effekt: R 2 = 0.02 (0.02 < R 2 < 0.13 geringer bis moderater Effekt) moderater Effekt: R 2 = 0.13 (0.13 < R 2 < 0.26 moderater bis starker Effekt) starker Effekt: R 2 = 0.26 Bewertung nach Cohen (1988): Schwacher Effekt: ε=0,02 bzw. R 2 = 0.0196 Mittlerer Effekt: ε=0,15 bzw. R 2 = 0.1304 Starker Effekt: ε=0,35 bzw. R 2 = 0.2593 Quelle: Bühner & Ziegler, 2009, S. 66 2 ε 2 R = 1 R Quelle: Cohen, 1988, zitiert nach Bortz (2005, S. 464 2 18

Zusammenhang / Korrelation Gewissenhaftigkeit und bisheriger Notendurchschnitt 3,5-3,99 bisherige Notendu urchschnitt 3,0-3,49 2,5-2,99 2,0-2,49 1,5-1,99 1,0-1,49 0,00 1,00 2,00 3,00 4,00 5,00 6,00 nie Gewissenhaftigkeit sehr häufig Ergebnis in Zahlen: Pearson-Korrelation (einseitig): r=-.273, p=.000 Effektstärke: r =.273 (moderat) alpha-fehler=.01; beta-fehler=.084 Ergebnis (verbal): Die Korrelation gibt einen Hinweis darauf, dass zwischen der Gewissenhaftigkeit und dem bisherigen Notendurchschnitt ein Zusammenhang existiert. 19

Einfache Lineare Regression einfache lineare Regression (nur eine unabhängige Variable): H 0 : Gewissenhafte Studierende weisen niedrigere bisherige Notendurchschnitte auf. H 1 : Gewissenhafte Studierende weisen höhere oder gleich hohe bisherige Notendurchschnitte auf. SPSS: Analysieren + Regression + linear Merkmale: abhängige Variable: bio_schnitt unabhängige Variable: BFI_gew (beide Merkmale sind annähernd normal verteilt und haben metrisches Skalenniveau) Alle weiteren Funktionen werden zunächst außer Acht gelassen; alle Voreinstellungen übernommen. 20

Einfache lineare Regression Ergebnisinterpretation Der Regressionskoeffizient des Prädiktors Gewissenhaftigkeit: unstandardisierte Lösung: a = 5,316 b BFI_gew = -.439 yˆ = a+ b i x i standardisierte Lösung: β BFI_gew = -.348 z i = β y z i Prüfgröße t BFI_gew = -4.851 Signifikanz zur Prüfgröße p=.000 Ergebnis: yˆ = 5,316 0, 439 i x i z y i = 0, 348 z i Gewissenhafte Studierende weisen niedrigere (=bessere) bisheriger Notendurchschnitte auf. Der Einfluss ist signifikant! Verbale Erläuterung b: Wenn sich die Gewissenhaftigkeit um eine Einheit verbessert, verbessert sich der Notendurchschnitt um 0,439 Einheiten. Verbale Erläuterung β: Wenn sich die Gewissenhaftigkeit um 1 Standardabweichung verbessert, verbessert sich der Notendurchschnitt um 0,348 Standardabweichungen. 21

Einfache lineare Regression Ergebnisinterpretation Wie viel Varianz kann der Prädiktor Gewissenhaftigkeit am Kriterium bisherigen Notendurchschnitt erklären? R = Korrelation von beobachtetem und vorhergesagtem Wert R 2 = der Anteil der aufgeklärten Varianz des Kriteriums (bisheriger Notendurchschnitt) durch den Prädiktor (Gewissenhaftigkeit) =12,1% bzw. korrigiert = 11,6% Prüfgröße F R = -23,534 Das heißt, der aufgeklärte Varianzanteil ist signifikant von Null verschieden. Signifikanz zur Prüfgröße p=.000 22

Einfache lineare Regression unabhängige Variable Prädiktor (x) β abhängige Variable Kriterium (y) Anteil an Varianz, der nicht zur Vorhersage des Kriteriums beiträgt Beitrag zum Kriterium R 2 Anteil der aufgeklärter Varianz, aufgrund des Prädiktors 1-R 2 Anteil unaufgeklärter Varianz 23

Graphische Darstellung der multiplen Regression Quelle: Field, 2005, S. 158. 24

Zusammenfassung Ergebnisse der einfachen linearen Regressionen Abiturdurchschnitt (x Abi ) β=.479** R 2 korr=.224** bisheriger Notendurchschnitt (y) Gewissenhaftigkeit (x Gew ) β= -.348** R 2 korr=.116** bisheriger Notendurchschnitt (y) 25

Erweiterung zur multiplen Regression r? Abiturdurchschnitt (x Abi ) bisheriger Noten- durchschnitt (y) Gewissenhaftigkeit (x Gew ) R 2 korr =.224** R 2 korr =.116 Gibt es einen Zusammenhang zwischen den Prädiktoren? Wie verändern sich die Regressionskoeffizienten, wenn beide Prädiktoren in die Regressionsanalyse aufgenommen werden? Varianz des Kriteriums y Wie verändert sich der zu erklärende Varianzanteil des Kriteriums? 26

Korrelationen der abhängigen und der unabhängigen Variablen Korrelationen der Prädiktoren mit dem Kriterium Korrelationen der Prädiktoren untereinander d.h. die Varianzanteile, welche die beiden Prädiktoren am Kriterium erklären überlagern sich Varianz des Kriteriums y Daher wird der insgesamt erklärte Varianzanteil kleiner sein als die Summe der beiden R 2 der einfachen linearen Regressionen. 27

Voraussetzungen der multiplen Regression 1. Linearität 2. keine Multikollinearität 3. Homoskedastizität 4. Normalverteilung der Fehler (Störterme) 5. keine korrelierten Fehlerterme (Störterme) Autokorrelation 6. vollständig spezifizierte Modelle 7. hohe Reliabilitäten der Prädiktoren und des Kriteriums Quelle: Bühner & Ziegler, 2009, S. 665; Backhaus, Erichson, Plinke & Weiber, 2006, S. 78-93 28

Voraussetzungen Linearität bisheriger Notendurchschnitt 3,5-3,99 3,0-3,49 2,5-2,99 2,0-2,49 1,5-1,99 1,0-1,49 Zusammenhänge sowohl zwischen den Prädiktoren, als auch den Prädiktoren mit dem Kriterium sind linear 1 2 3 4 Notendurchschnitt im Abitur 3,5-3,99 bisheriger Notendurchschnitt 3,0-3,49 2,5-2,99 2,0-2,49 1,5-1,99 1,0-1,49 0,00 nie 1,00 2,00 3,00 4,00 sehr 5,00 häufig 6,00 Gewissenhaftigkeit Quelle: Bühner & Ziegler, 2009, S. 666-668; Backhaus, et al., 2006, S. 80-83 29

Voraussetzungen Ausreißer Der Einfluss der Ausreißers verändert Steigung und Achsenabschnitt der Regressionsgerade. Quelle: Field, 2005, S. 163. 30

Voraussetzungen (Multi-)Kollinearität Unter Kollinearität versteht man, dass zwei oder mehr Variablen perfekt und sehr hoch miteinander zusammenhängen. Dies wirkt sich auf ihre β-gewichte aus. Prüfung mittels: Variance Inflation Factor: VIF > 10 Vorsicht Tolerance: Tolerance <.10 Vorsicht Konditionsindex: CI > 15 kritisch, CI > 30 sehr kritisch (Werte können aus SPSS-Statistiken unmittelbar abgelesen werden; siehe Durchführung einer multiplen Regressionsanalyse) Konsequenzen: Ungenau geschätzte Standardfehler z. T. Punktschätzungen >1 Suppressionseffekt Abhilfe: Kollineare Variablen aus der Analyse entfernen oder zusammenfassen Verwendung regressionsanalytischer Methoden, bei denen Kollinearität kein Problem verursacht (z.b. PLS) Quelle: Bühner & Ziegler, 2009, S. 677-679; Backhaus, et al. 2006, S. 89-92. 31

Voraussetzungen Homoskedastizität: die Vorhersagegenauigkeit des Wetters 32

Voraussetzungen Homoskedastizität Homoskedastizität: liegt dann vor, wenn der Regressionskoeffizient (Gewichtungsfaktor) in allen Bereichen gleich genau vorhersagt. Das heißt, die Streuung der beobachtbaren Werte um die Regressionsgerade ist in allen Bereichen gleich weit / nah. Quelle: Bühner & Ziegler, 2009, S. 669-673; Backhaus, et al. 2006, S. 85-88. 33

Voraussetzungen Homoskedastizität Liegt Heteroskedastizität (= Gegenteil der Homoskedastität) vor, schwankt die Vorhersagegenauigkeit in den verschiedenen Bereichen. Im skizzierten Bsp. würden niedrigere vorhergesagte Werte ungenauer als hohe vorhergesagte Werte sein. Quelle: Bühner & Ziegler, 2009, S. 669-673; Backhaus, et al. 2006, S. 85-88. 34

Voraussetzungen Bsp. Heteroskedastizität und Nicht-Linearität Liegt Nicht-Linearität oder Heteroskedastizität (= Gegenteil der Homoskedastizität) oder sogar beides zusammen vor, dann schwankt die Vorhersagegenauigkeit in den verschiedenen Bereichen erheblich. Quelle: Field, 2005, S. 203. 35

Voraussetzungen normalverteilte Störterme (Fehlerwerte) Prüfung der Normalverteilungsannahme über die Residuen (Fehlerwerte) Annahme: Erwartungswert = 0 Graphische Darstellung: Histogramm der Fehlerwerte Warum? Voraussetzung für die Berechnung der Signifikanztests für die Regressionskoeffizienten und des R 2. Mit zunehmender Stichprobengröße (ab N = 100) sind Abweichungen weniger problematisch. Ausreißer können nach wie vor die Interpretation erschweren. Quelle: Bühner & Ziegler, 2009, S. 673-674; Backhaus, et al. 2006, S. 92-94. 36

Voraussetzungen normalverteilte Störterme (Fehlerwerte) Quelle: Field, 2005, S. 204. 37

Voraussetzung keine korrelierten Fehler (keine Autokorrelation) Hauptsächlich bei Zeitreihenanalysen interessant Eine Variable wird mehrfach erhoben (z.b. Zufriedenheit) der Pbn weist durchgängig hohe Werte auf die identifizierten Vorhersagefehler korrelieren miteinander Grund für diesen zeitlichen Trend könnte eine Drittvariable sein (nämlich die allgemeine Lebenszufriedenheit bspw. in Form einer glücklichen Partnerschaft) Quelle: Bühner & Ziegler, 2009, S. 674-675; Backhaus, et al. 2006, S. 88-89. 38

Voraussetzungen vollständig spezifizierte Modelle Prädiktor Prädiktor Prädiktor Prädiktor β β β β Bias R 2 (Bias) Problem: wichtiger Prädiktor fehlt (grau) durch die Korrelation der Prädiktoren teilen sie sich gemeinsame Erklärungsvarianz (schraffierter Teil) die beta-gewichte werden überschätzt zusätzlich erbringt der fehlende Prädiktor noch einen eigenständigen Varianzanteil für das Kriterium der erklärte Varianzanteil (R 2 ) wird unterschätzt Quelle: Bühner & Ziegler, 2009, S. 675-677; Backhaus, et al. 2006, S. 84-85 39

Durchführung der multiplen linearen Regression inkl. Voraussetzungsprüfung Multiple lineare Regression (2 oder mehr unabhängige Variablen): Voraussetzungen: Linearität (mittels Streudiagrammen prüfen) SPSS: Analysieren + Regression + linear Zur Prüfung der Voraussetzungen: keine Kollinearität Homoskedastizität Normalverteilte Fehler Funktionen unter Statistiken bzw. Diagramme auswählen Wird nachfolgend erklärt. Quelle: Jansen & Laatz, 2007, S. 415-454. 40

Voraussetzungen Kollinearität Multiple lineare Regression (2 oder mehr unabhängige Variablen): Voraussetzungen: Prüfung der Kollinearität 41

Durchführung der multiplen linearen Regression inkl. Voraussetzungsprüfung Multiple lineare Regression (2 oder mehr unabhängige Variablen): Voraussetzungen: Prüfung der Homoskedastizität Prüfung der normalverteilten Fehler 42

Multiple lineare Regression Voraussetzungen I Linearität: bereits durch die Streudiagramme geprüft Autokorrelation: wird hier nicht weiter berücksichtigt, da es sich nicht um Zeitreihendaten handelt Vollständig spezifiziertes Modell: aus Übungsgründen wird auf zwei (empirisch abgesicherte) zentrale Prädiktoren fokussiert hohe Reliabilitäten: bisheriger Notendurchschnitt und Abischnitt sind Single-Item-Variablen; Gewissenhaftigkeit (α=.801) wird als gut akzeptiert Normalverteilung der Fehlerterme: erzeugt durch Anklicken des Häkchens Histogramme unter Diagramme 43

Multiple lineare Regression Voraussetzungen II Prüfung auf Kollinearität: Tabelle Koeffizienten: Tabelle Kollinearitätsdiagnose: VIF < 10 Tolerance >.10 Variance Inflation Factor: VIF > 10 Vorsicht Tolerance: Tolerance <.10 Vorsicht CI > 15 Konditionsindex: CI > 15 kritisch, CI > 30 sehr kritisch 44

Multiple lineare Regression Voraussetzungen III Homoskedastizität: 45

Multiple lineare Regression Ergebnisinterpretation der Regressionskoeffizienten unstandardisierte Lösung: a = 3,012 b Abi = 0,751 b BFI_gew = -0,249 standardisierte Lösung: β Abi = 0,407 β BFI_gew = -.189 p-werte < 0,01 die Konstante sowie die Prädiktoren haben signifikante Einflüsse auf das Kriterium Reduzierung der beta-gewichte im Vergleich zu den einfachen linearen Regressionen Signifikanz der beiden Prädiktoren weiterhin gegeben, allerdings ist die Signifikanz des Prädiktors Gewissenhaftigkeit nicht mehr so eindeutig Zusätzlich: Konfidenzintervalle der Konstanten, sowie der Prädiktoren 46

Multiple lineare Regression Ergebnisinterpretation der aufgeklärten Kriteriumsvarianz R 2 = der Anteil der aufgeklärten Varianz des Kriteriums =26,3%, bzw. korrigiert = 25,4% Signifikanz zur Prüfgröße p=.000 Das korrigierte R 2 liegt mit einem Wert von 25,4% aufgeklärter Varianz über den Werten der einfachen linearen Regressionen (allerdings deutlich unter dem aufsummierten R 2 : 0,224+0,116=0,34). Die beiden Prädiktoren haben also einen gemeinsamen Varianzanteil am Prädiktor (durch die Interkorrelation der Prädiktoren konnte dies Ergebnis vermutet werden). Der aufgeklärte Varianzanteil ist signifikant und von großer praktischer Relevanz. 47

Teststärke und Power der Untersuchung Die Teststärke unserer Untersuchung ist nahe 100%, damit der β-fehler nahe 0. 48

Zusammenfassung der Ergebnisse r =-.373** Abiturdurchschnitt (x Abi ) Gewissenhaftigkeit (x Gew ) bisheriger Noten- durchschnitt (y) R 2 =.254** Die Voraussetzungen sind bis auf die Kollinearitätsprüfung erfüllt (CI knapp über 15). Elimination oder Zusammenfassen kommt bei dieser niedrigen Überschreitung und der geringen Zahl an Prädiktoren nicht in Frage. Die Regressionskoeffizienten sowie die aufgeklärte Kriteriumsvarianz zeigen signifikante Größen. Die gewählten Prädiktoren können einen angemessenen Anteil aufklären; sie sind von praktischer Bedeutung. Die Teststärke ist sehr gut. Die Fehlerwahrscheinlichkeiten (α- und β-fehler) sind sehr gering. 49

Zentrale Ziele der heutigen Veranstaltung Mehrwert der Regressionsanalyse gegenüber Korrelationsrechnungen: Gewichtung der einzelnen Prädiktoren und Spezifikation des erklärbaren Varianzanteils des Kriteriums Mehrwert multiple Regressionen gegenüber einfachen linearen Regressionen: sich überschneidende Varianzanteile werden auspartialisiert Multiple Regressionen sind an zahlreiche Voraussetzungen geknüpft, Verletzungen können zu starken Über- oder Unterschätzungen (β, R 2 ) führen Logik und Kritik des Hypothesentestens Bewertung der empirischen Ergebnisse anhand der Signifikanz, der Effektstärke und Power 50

Arbeitsauftrag für die nächste Übung Weitere Beispielstudie für das neu Gelernte Koch, St. (2006). Persönliche Verantwortung für den Studienerfolg. Zeitschrift für Pädagogische Psychologie, 20 (4), 243-250. Arbeitsauftrag: Wiederholung der Plenumsinhalte! Lesen und analysieren der Studie Koch (2006) insbesondere hinsichtlich der Auswertungsmethoden Faktorenanalyse und Regressionsanalyse! 51

Literatur Backhaus, K., Erichson, B., Plinke, W. & Weiber, R. (2006). Multivariate Analysemethoden. Eine anwendungsorientierte Einführung (Elfte, überarbeitete Auflage mit 559 Abbildungen und 6 Tabellen.). Berlin, Heidelberg: Springer. Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler (4., überarbeitete Auflage). Heidelberg: Springer. Bortz, J. & Weber, R. (2005). Statistik für Human- und Sozialwissenschaftler. Mit 242 Tabellen (6., vollst. überarb. und aktualisierte Aufl.). Heidelberg: Springer Medizin. Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion (2. aktualisierte Aufl.). München: Pearson- Studium. Cohen, J. W. (1988). Statistical power analysis for the behavioral sciences (2. ed.). Hillsdale, NJ: Erlbaum. Cohen, J. (1994). The Earth is Round (p<.05). American Psychologist, 49, 997 1003. Erdfelder, E., Faul, E. & Buchner, A. (1996). GPOWER: A General Power Analysis Program. Behavior Research Methods, Instruments and Computers, 28, 1 11. Janssen, J. (2007). Statistische Datenanalyse mit SPSS für Windows. Eine anwendungsorientierte Einführung in das Basissystem und das Modul Exakte Tests (Sechste, neu bearbeitete und erweiterte Auflage.). Berlin, Heidelberg: Springer-Verlag. Rost, D. H. (2007). Interpretation und Bewertung pädagogisch-psychologischer Studien. 52