Seminar: Multivariate Verfahren g Dr. Thomas Schäfer Referenten: Wiebke Hoffmann, Claudia Günther

Seminar: Multivariate Verfahren g Dr. Thomas Schäfer Leitung: Referenten: Wiebke Hoffmann, Claudia Günther 18.05.2010

Regressionsanalyse was war das nochmal? Grundlagen Einfaches lineares Regressionsmodell Strukturformel Multiple lineare Regression Globale Gütemaße Voraussetzungen Methoden für Prädiktorenauswahl Dummy-Variablen

Regressionsanalyse

Analyse von Zusammenhängen zwischen Variablen (X,Y) Vorhersage der Y-Werte aus X-Werten Versuch, die Y-Werte auf die X-Werte zurückzuführen Regressionstypen linear nicht-linear eine UV Lineare Einfachregression Nichtlinear, Einfachregression X Y mehrere UV Lineare multiple l Regression Nichtlinear, multiple l Regression X 1 X 2 Y

X 1, X 2, X i Y Prädiktor(en) Regressor(en) UV Bsp: Funktionen von Musik Kriterium Regressand AV Bsp: Beliebtheitsgrad von Musik

Musik 1 Klavier Musik 2 - Rock Musik 3 Pop Musik 4 Club Musik 5 - Hip Hop

y Wovon ist es abhängig, ob ich eine bestimmte Musik mag (Musikpräferenz)? x 1, x 2 x i hilft mir zu entspannen. wühlt mich auf. regt mich zum Tanzen oder zur Bewegung an. ist Gesprächsthema zwischen mir und Freunden/ Bekannten N = 22 hilft mir beim Nachdenken

Analyse des stochastischen Zusammenhangs zwischen einer Zielgröße Y und mehreren Einflussgrößen X i bei verbundenen Stichproben (Variabilität von Y durch die Variabilitäten der X i erklären) Welchen stochastischen Zusammenhang gibt es zwischen der Musikpräferenz (Y) und verschiedenen Funktionen von Musik (X i )? Vorhersage der Werte einer Variable (Kriterium = Y) bei Kenntnis der Werte der anderen Variable (Prädiktor = X) Durch welche Funktionen von Musik kann man am besten die Musikpräferenz vorhersagen?

1. Zusammenhänge aufzeigen Welcher Zusammenhang besteht zwischen einer Zielgröße (abhängig) und möglichen Einflussgrößen Beispiel: Welche Faktoren beeinflussen die Bewertung der Pflege durch Bewohner in der stationären Altenpflege 2. Einflussgrößen quantifizieren Wie groß ist der Einfluss einer bestimmten Variablen auf die Zielgröße? Beispiel: Wie groß ist der Einfluss des Zigarettenkonsum von Schwangeren auf die Fehlgeburtenrate?

Ursachenanalysen: Wie stark ist der Einfluss von X auf Y? Wirkungsanalysen: ik Wie verändert sich Y bei Veränderung von X? Zeitreihenanalysen: Wie verändert sich Y im Zeitverlauf? Prognose!

Regressionsanalyse Einfaches lineares Regressionsmodell Strukturformel Regressionskoeffizienten g b i Regressionskonstante b 0 Kriterium der kleinsten Quadrate

Grundidee: Vorhersage einer Ausprägung einer abhängigen Variable durch eine andere (unabhängige) Variable! Aus einem Datensatz entwickelt man eine Vorhersage-Gleichung, h die in diesen Datensatz die bestmögliche Vorhersage treffen würde Ähnlichkeit zur Korrelation Keine echte Kausalität!

Prinzip: Es wird eine Gerade ermittelt, die den Zusammenhang zwischen x und y beschreibt. y x

y Wovon ist es abhängig, ob ich eine bestimmte Musik mag (Musikpräferenz)? x 1, x 2 x i hilft mir zu entspannen. wühlt mich auf. regt mich zum Tanzen oder zur Bewegung an. ist Gesprächsthema zwischen mir und Freunden/ Bekannten N = 22 hilft mir beim Nachdenken

vorhergesagter y-wert der Person i X-Wert der Person i yˆ i = b0 + b i x i additive Konstante (y-achsen-abschnitt), b 0 =a Regressionskoeffizient (Steigung)

= ß-Gewichte ß der einzelnen Pädikt Prädiktorvariablen i (auch Partialregressionskoeffizienten) relativer Einfluss einer Prädiktorvariablen auf das Kriterium Das größte ß symbolisiert den größten Einfluss ß kann zwischen 1 und 1 schwanken Extremere Betas Probleme mit dem Modell Interpretation: ändert sich x um eine Standartabweichung, dann ändert sich y um ß Standartabweichungen b i = r xy s s y x

= Schnittpunkt mit der y-achse Wenn man über eine Person gar nichts weiß und ein Kriterium (y) schätzen soll, dann ist der Mittelwert dieses Kriteriums (y) von einer Vielzahl bekannter Personen die beste Schätzung. b 0 = y bx i

y ˆ i = b0 + b i x i Die Parameter b 0 und b i werden aus den Merkmalsdaten x und y nach der Methode der kleinsten Quadrate (auch Kleinste-Quadrate-Schätzung oder kurz KQ-Schätzung genannt) berechnet (geschätzt).

Für einen Datensatz (eine Punktewolke) werden b 0 und b i so gewählt, dass der quadrierte Vorhersagefehler über alle Probanden minimal ist: N y yˆ ( ) min 2 1 = i =1 i i Für die Ermittlung der Regressionsgleichung wird id die Differenz der tatsächlichen tählih von den vorhergesagten y-werten also quadriert. Das hat 2 Vorteile 1. Abweichungswerte sind immer positiv. 2. Große Abweichungen werden stärker berücksichtigt als kleine Abweichungen. yˆ = b i 0 + b i x i

y-wert der Person i Regressionskoeffizient (Steigung) y = b0 + b i x + e V h g i i = 0 Vorhersagefehler additive Konstante (y-achsen-abschnitt) X-Wert der Person i entspricht dem ALM.

Analysieren Regression Linear

Festlegen von x (AV) und y (UV) AV Präferenz UV - nachdenken

Modelle: Aufgenommene und entfernte Variablen + Methode (Einschluss) Varianzaufklärung: Globale Gütemaße: R 2 *100% Varianz ergibt den Wie gut gibt die Regressionsfunktion, die prozentualen Anteil der beobachteten Daten wieder? erklärten Varianz an der Gesamtvarianz. Im Beispiel also 42,6%. KORRIGIERTER DETERMINATIONSKOEFFIZIENT: je mehr Prädiktoren eingehen, umso stärker muss R 2 nach unten korrigiert werden

t-test zur Überprüfung der Signifikanz der Koeffizienten (getestet wird die H 0, dass der Koeffizient in der Population Null ist, dass also der Prädiktor unbedeutend ist) unstandardisierte Werte für b 0 und b i y ˆ i = b0 + b i x y = 4,681 + 0,458*x i standardisierter Wert für b i z B wenn Klaviermusik in höchstem Maße (= 10) beim Nachdenken z.b. wenn Klaviermusik in höchstem Maße (= 10) beim Nachdenken hilft, ist die Vorhersage für die Musikpräferenz 9,2 (9,261 = 4,681+0,458*10).

Regressionsanalyse (1) Globale Gütemaße (2) Voraussetzungen (3) SPSS Welche Methode wählen wir?

Hier gibt es im Gegensatz zur einfachen linearen Regression mehrere Prädiktoren. x b x b x b b y + + + + ˆ 2 2 1 1 0 i i i x b x b x b b y + + + + =... 2 2 1 1 0

Analysieren Regression Linear

Wie präzise sagt die Regressions- gleichung die Werte der Kriteriumsvariablen vorher? Regressionsanalyse a) Multipler Korrelationskoeffizient R b) Multipler Determinationskoeffizient R 2 c) Standardschätzfehler s e d) F-Statistik

entspricht der Korrelation zwischen vorhergesagten und tatsächlichen y-werten. ist ein Maß für den Zusammenhang des Kriteriums mit allen berücksichtigten Prädiktoren. sagt aus, wie gut die Vorhersage ist.

Kann unser Regressionsmodell überhaupt signifikant Varianz in der AV aufklären? Gesamte Varianz von y unerklärte Varianz = Fehlervarianz = Residuenvarianz y-^y erklärte Varianz = Varianz von ^y

Wieviel Varianz wird aufgeklärt? R 2 gibt die Gesamtvarianzaufklärung wieder. R 2 = 0,815 = 67,907 (erklärte Varianz) 83,318 (Gesamtvarianz)

(auch Bestimmtheitsmaß th it genannt) gibt an, welcher Anteil der Varianz des Kriteriums durch alle Prädiktoren aufgeklärt werden kann bzw. wie viel Prozent Streuung in der abhängigen Variable sich auf die unabhängige(n) Variable(n) zurückführen lassen. wird in der Regel geringer ausfallen, als die Summe der einzelnen Determinationskoeffizienten, weil die Prädiktoren zumeist redundante Informationen über das Kriterium enthalten. K ( yˆ k= 1 R² = K ( y k= 1 k y)² y)² yk y = erklärte Streung Gesamtstreuung

Achtung! Man kann R² künstlich durch die Zahl der Prädiktoren erhöhen, da R² nie kleiner werden kann, wenn die Zahl der Prädiktoren steigt. Je mehr Prädiktoren, desto mehr wird R² überschätzt! korrigiertes R²

Warum wird R-Quadrat korrigiert? Je mehr UV in die Berechnung eingehen, desto eher wird ihr Einfluss überschätzt. Je mehr Prädiktoren man benutzt, desto wichtiger ist es das korrigierte R-Quadrat zu benutzen und desto stärker weicht dieses von R-Quadrat ab. korrigiert auch um die Größe der Stichprobe (N), wobei gilt: Je größer die Stichprobe, desto eher entspricht das korrigierte dem originalen R-Quadrat. Wie? indem Bestimmtheitsmaß th it um eine Korrekturgröße vermindert wird Fazit: Das korrigierte R-Quadrat wird besonders bei der Verwendung vieler UV und/ oder kleiner Stichproben benutzt.

ist die Standardabweichung d der Residuen. Je geringer der Fehler, desto genauer die Vorhersage. ist ein Maß dafür, wie stark die wahren Kriteriumswerte (y- Werte) von den vorhergesagten Werten abweichen. gibt die Streuung der y-werte um die Regressionsgerade an: s n ( y ˆ )² i y i i= 1 2 y. x = = sy 1 rxy n

prüft jeden einzelnen Prädiktor auf statistische i Signifikanz. ifik Im vorliegenden Fall können nachdenken und aufstehen auf dem 5 %-Signifikanzniveau abgesichert werden.

Besitzt das geschätzte Modell auch über die Stichprobe hinaus für die Grundgesamtheit Gültigkeit? testet, ob alle im Schätzmodell enthaltenen UV gemeinsam keinen Einfluss auf die AV ausüben. Der F-Wert ist mit einem p-wert von < 0,05 statistisch signifikant. Bei Werten < 0,05 erfolgt Ablehnung der H 0, d.h. die UV üben einen Einfluss auf die AV aus. Das vorliegende Modell kann also gegen den Zufall abgesichert werden.

Regressionsanalyse

keine Ausreißer ( Boxplot) Normalverteilung der Variablen ( Histogramm) Linearität Homoskedastizität: Streuung der Residuen konstant Normalverteilung der Residuen keine Autokorrelation der Residuen: statistische Unabhängigkeit der Residuen voneinander keine Multikollinearität: Unabhängigkeit der unabhängigen Variablen voneinander

Diagramme Veraltete Dialogfelder Streu-/Punkt-Diagramm Matrix-Streudiagramm

AV und UV in Matrixvariablen ziehen (zur Übersichtlichkeit haben wir nur die ersten 3 UV zur Demonstration benutzt) OK

Doppelklick auf Diagramm Diagramm-Editor Elemente Anpassungslinie bei Gesamtwert Anpassungsmethode: Lo(w)ess Glättungsfaktor wählen (Wieviel % der Nachbarpunkte sollen in Berechnung einbezogen werden?)

= Varianzhomogenität (konstante Streuung) der Residuen/Fehler Es sollte im Streudiagramm kein Muster erkennbar sein. Y: ZRESID X: ZPRED

Hohe Werte der X-Achse können weniger gut vorhergesagt werden als niedrige Werte. Niedrige Werte der X- Achse können weniger gut vorhergesagt werden als hohe Werte.

Y ZRESID X - ZPRED Beide Diagramme überprüfen an den Residuen, ob Normalverteilung vorliegt.

Das Histogramm zeigt nur leichte Abweichungen von der Normalverteilung. Im P-P-Diagramm werden die beobachteten gegen g die erwarteten standardisierten Residuen geplottet. Bei Normalverteilung müssten die Werte auf der eingezeichneten Diagonalen liegen. Dies ist annähernd der Fall. Abweichungen von der Normalverteilung nicht sehr schwerwiegend!

= Fehler sind nicht wie im Modell gefordert unabhängig, sondern weisen eine spezifische Form der Abhängigkeit auf Wo tritt sie auf? häufig bei zeitlich erhobenen Daten zwischen den aufeinanderfolgenden f d Beobachtungen Zeit als Regressor Test auf das Vorhandensein von Autokorrelation: Durbin-Watson-Test kann Werte zwischen 0 und 4 annehmen. e DW bei 2 zentriert Annahme der H 0 : Die Fehler sind nicht autokorreliert. DW in der Nähe von 0 oder 4 Verwerfen der H 0 Autokorrelation besteht

keine Autokorrelation, da Wert nahe 2

Visualisierung i via Streudiagramm bei Unabhängigkeit und Normalverteilung: kreisförmig bei positiver Abhängigkeit: ansteigend gestreckt

bedeutet, dass die Prädiktoren miteinander korreliert sind. orthogonale (unkorrelierte) vs. korrelierte UV x y 2 x x 1 2 x 1 y

hat einen großen Einfluss auf den Standardfehler, der dann unter Umständen sehr anwächst. Die Lösungen werden sehr instabil. Inwieweit lassen sich lineare Abhängigkeiten unter den Prädiktoren tolerieren? Der Toleranzwert ist daher für die Kollinearitätsdiagnose wichtig: (1 - R i2 ), d.h. 1 - der multiplen Korrelation des jeweiligen Prädiktors mit den anderen Prädiktoren. geringe Toleranz lineare Abhängigkeiten mit anderen Prädiktoren VIF (variance inflation factor) baut auf TOLERANCE auf. VIF = 1 Unabhängigkeit Er steigt mit wachsender linearer Abhängigkeit. VIF nahe bei 1 nur geringe Anzeichen auf Kollinearität Daumenregel : Toleranzwert sollte nicht unter 0,25 sein VIF-Wert sollte nicht über 5,0 gehen.

einziger leicht kritischer Wert lt. Daumenregel

tritt auf, wenn der multiple l Determinationskoeffizient i i größer als die Summe der einzelnen Determinationskoeffizienten ist. ein Prädiktor = ein Suppressor, wenn er zur Vorhersage des Kriteriums beiträgt, da er unerwünschte (= nicht mit Kriterium korrelierende) Einflüsse eines anderen Prädiktors unterdrückt (d.h. Suppressor korreliert mit einem der Prädiktoren aber nicht oder nur wenig mit Kriterium) und somit dessen Vorhersagekraft bzgl. des Kriteriums erhöht.

Regressionsanalyse in SPSS a) Einschluss a) Einschluss b) schrittweise

Alle angegebenen Variablen werden für die Vorhersage benutzt. WANN? falls man genau weiß, welche Variablen in der Regressionsgleichung aufgenommen werden müssen wenn man anhand der Beta-Koeffizienten den relativen Beitrag aller Variablen zur Regression vergleichen will

Lediglich nachdenken und aufstehen liefern signifikante Beiträge zur Varianzaufklärung an dem Kriterium, i dennoch müssen auf der Basis dieser Modellberechnung alle Prädiktoren in die Gleichung mit aufgenommen werden.

WANN? wenn von vorneherein nur Variablen in die Regressionsgleichung aufgenommen werden sollen, die einen signifikanten Beitrag zur Vorhersage des Kriteriums leisten VORTEILE redundante Prädiktoren werden nicht in die Regressionsgleichung aufgenommen Gleichung wird einfacher, kann aber trotzdem einen relativ hohen Varianzanteil erklären Schlussfolgerung: Die schrittweise Regression sollte nicht als hypothesentestendes Verfahren, sondern als ein hypothesengenerierendes Verfahren eingesetzt werden

Vergleich zweier Regressionsmodelle: Modell 1: nachdenken / Modell 2: nachdenken und tanzen Prüfen auf Signifikanz über F-Test Vergleich zwischen F emp und F krit Ergebnis: F emp > F krit Nullhypothese abgelehnt, d.h. man kann davon ausgehen, dass ein signifikanter Unterschied zwischen den zwei Regressionsmodellen besteht und somit zwischen den zwei standardisierten Beta-Gewichten. Vergleichen der jeweiligen R-Quadrat-Werte Bei der Modellzusammenfassung ist immer das Modell mit der höchsten Varianzaufklärung zu wählen (hier Modell 2).

(= Indikator-, Kategorien-, binäre oder dichotome Variablen) sind qualitative Variablen, die keine Ordnung im mathematischen Sinne angeben. werden verwendet, um kategoriale Merkmale in Modellen zu berücksichtigen. nehmen nur 2 Werte an 0 oder 1, die das Vorhandensein (1) oder Fehlen (0) eines Merkmales beschreiben. z.b.: x=1, falls Frau x=0, falls Mann Bei uns z.b. ob VP Instrument spielt: Ja = 1 Nein = 0 Transformation der Daten mittels Transformation der Daten mittels Transformieren Umkodieren in andere Variablen

Wirkungen im Regressionsmodell yi ˆ = b 0 + b1x1 + b 2 D + 2 für D=0 ˆ für D=1 yi = 0 + 1 1 b 2 { b b x yi ˆ = b 0 + b1x1 + b 0 { b 2

Im Plot sind die e i die vertikalen Abstände der Datenpunkte vom Regressionsmodell. y e k = y k yˆ k x