2. Korrelation, lineare Regression und multiple Regression

Transkript

1 2., Linear 2., lineare multiple 2., lineare Lineare Lineare 2.7 Partielle 2.7 Partielle 1 / 149

2 2., Linear 2., lineare Lineare Partielle 2 / 149

3 2.1 Beispiel: Arbeitsmotivation 2., Linear Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Frage: besteht ein Zusammenhang zwischen der Variablen Motivation der Variablen Leistungsstreben 2., lineare Lineare 2.7 Partielle Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 3 / 149

4 Daten 2., Linear 2., lineare Lineare x y x y x y Partielle 4 / 149

5 2.2 Der skoeffizient von Pearson Daten (x 1, y 1 ),..., (x n, y n ) Maß für die (lineare) Abhängigkeit zwischen x y: skoeffizient von Pearson n r = r X,Y = s2 x,y i=1 = (x i x )(y i y ) s x,x s n y,y i=1 (x i x ) 2 n i=1 (y i y ) 2 Dabei ist: x = 1 n n i=1 x i : Mittelwert der Daten x i y = 1 n n i=1 y i : Mittelwert der Daten y i 2., Linear 2., lineare Lineare 2.7 Partielle s 2 x,x = 1 n n i=1 (x i x ) 2 : Varianz der Daten x i s 2 y,y = 1 n n i=1 (y i y ) 2 : Varianz der Daten y i s 2 x,y = 1 n n i=1 (x i x )(y i y ) : Kovarianz zwischen den Daten x i, y i 5 / 149

6 2.3 Eigenschaften des skoeffizienten (1) 1 r 1 (2) r = 1 genau dann, wenn ein exakter linearer Zusammenhang y i = b 0 + b 1 x i mit b 1 > 0 besteht (ohne Störgrößen). (3) r = 1 genau dann, wenn ein exakter linearer Zusammenhang y i = b 0 + b 1 x i mit b 1 < 0 besteht (ohne Störgrößen). (4) Der skoeffizient ist invariant bzgl. linearer Transformationen, d.h. } x i = a 0 + a 1 x i i = 1,..., n r ỹ i = c 0 + c 1 y i i = 1,..., n X,Ỹ = r X,Y 2., Linear 2., lineare Lineare 2.7 Partielle (4) Der skoeffizient von Pearson ist ein deskriptives Maß für den linearen Zusammenhang in der Stichprobe (x 1, y 1 ),..., (x n, y n ) 6 / 149

7 2.4 Beispiel: skoeffizient für die Daten aus Beispiel , Linear 2., lineare 2.1 Variablen x: Leistungsstreben y: Motivation skoeffizient von Pearson r = Fragen: Wie genau ist diese Schätzung? Ist die von 0 verschieden (Unkorreliertheit zwischen den Merkmalen Leistungsstreben Motivation)? 2.2 Lineare 2.7 Partielle 7 / 149

8 2.5 Signifikanztest für (x 1, y 1 ),..., (x n, y n ) ist eine Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grgesamtheit ρ bezeichne die des Merkmals X mit dem Merkmal Y einer Population; fünfter Modellparameter neben µ x, µ y, σ 2 x σ 2 y. Ein Test zum Niveau α für die Hypothese die Merkmale sind unkorreliert H 0 : ρ = 0 lehnt die Nullhypothese zu Gunsten der Alternative H 1 : ρ 0 ab, falls n 2r 1 r 2 > t n 2,1 α/2 2., Linear 2., lineare Lineare 2.7 Partielle gilt. 8 / 149

9 2.6(a) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) 2., Linear 2., lineare 2.1 n = 25; r = ; t 23,0.95 = Lineare n 2 r = > r 2 Die Nullhypothese H 0 : ρ = 0 (keine zwischen den Merkmalen) wird zum Niveau 5% verworfen. 2.7 Partielle p-wert: / 149

10 SPSS Output für skoeffizient 2., Linear 2., lineare Lineare Motivation Leistungsstreben nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N Motivation en 1,000,004 **. Die ist auf dem Niveau von 0,01 (2-seitig) signifikant. 25 Leistungsstreben,559 **, ,559 ** 1, Partielle 10 / 149

11 2.7 Konfidenzintervall für ρ: zwischen Merkmal x Merkmal y einer Population (x 1, y 1 ),..., (x n, y n ): Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grgesamtheit Mathematische Statistik: r ist näherungsweise (d.h. bei großem Stichprobenumfang) normalverteilt mit Erwartungswert ρ Varianz γ 2 = Var(r) (1 ρ 2 ) 2 /n (1 α)-konfidenzintervall für den skoeffizienten ( r ˆγz1 α/2, r + ˆγz 1 α/2 ) 2., Linear 2., lineare Lineare 2.7 Partielle Hier bezeichnet ˆγ = (1 r 2 )/ n einen Schätzer für die Standardabweichung von r z 1 α/2 das (1 α/2) Quantil der Standardnormalverteilung (Tabelle, Software) 11 / 149

12 2.6(b) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) 2., Linear 2., lineare Lineare n = 25; r = z 0.95 = , ˆγ = % Konfidenzintervall für den skoeffizient [0.2739, ] 2.7 Partielle 12 / 149

13 2.8 Hinweise zur Interpretation von en Annahme: man hat eine signifikante zwischen den Variablen x y gefen Folgende Interpretationen sind möglich (1) x beeinflusst y kausal (2) y beeinflusst x kausal (3) x y werden von weiteren Variablen kausal beeinflusst (4) x y beeinflussen sich wechselseitig kausal Die zwischen zwei Variablen ist eine notwendige aber keine hinreichende Voraussetzung für einen kausalen Zusammenhang Der skoeffizient gibt keine Information welche der vier Interpretationen zutrifft (in vielen Fällen wird das der Typ (3) sein) en sollten ohne Zusatzinformation nicht interpretiert werden! 2., Linear 2., lineare Lineare 2.7 Partielle 13 / 149

14 2., Linear Beispiel Annahme: man hat eine signifikante zwischen den Merkmalen Ehrlichkeit Häufigkeit des Kirchgangs gefen Folgende Interpretationen sind möglich Die in der Kirche vermittelten Werte haben einen positiven Einfluß auf das Merkmal Ehrlichkeit Ehrliche Menschen fühlen sich durch die in der Kirche vermittelten Inhalte eher angesprochen gehen aus diesem Gr häufiger zur Kirche Die allgemeine familiäre außerfamiliäre Sozialisation beeinflußt beide Merkmale 2., lineare Lineare 2.7 Partielle 14 / 149

15 2., Linear 2., lineare Lineare 2.2 Lineare 2.7 Partielle 15 / 149

16 2.9 Beispiel: (Fortsetzung von Beispiel 2.1) 2., Linear 2., lineare 2.1 Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Kann man y aus x vorhersagen? 2.2 Lineare 2.7 Partielle 16 / 149

17 Streudiagramm für die Daten aus Beispiel , Linear Motivation , lineare Lineare 2.7 Partielle Leistungsstreben 17 / 149

18 2.9 Beispiel: (Fortsetzung von Beispiel 2.1) Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Frage: besteht ein funktionaler Zusammenhang zwischen der Variablen Motivation der Prädiktorvariablen Leistungsstreben (Kann man y aus x vorhersagen?) Genauer: Gesucht ist Funktion f, die aus der Prädiktorvariablen Leistungsstreben (x) eine Vorhersage für die abhängige Variable (y) Motivation liefert: Motivation = f( Leistungsbereitschaft ) 2., Linear 2., lineare Lineare 2.7 Partielle Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 18 / 149

19 Ausgangslage: Von Interesse ist der Zusammenhang zwischen verschiedenen Variablen. Im einfachsten Fall betrachtet man, wie im Beispiel der Arbeitsmotivation, den Zusammenhang zwischen zwei Variablen. Daten: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein kausaler Zusammenhang der Form y = f (x) zwischen der abhängigen Variablen y der Prädiktorvariablen x. Weitere Annahme: Die Funktion f hat eine bestimmte Form. Beispiele: Lineare (der Zusammenhang ist also durch eine Gerade beschreibbar): y = b 0 + b 1x Quadratische (der Zusammenhang ist also durch eine Parabel beschreibbar): y = b 0 + b 1x + b 2x 2 usw. Beachte: Der Zusammenhang ist in der Regel nicht exakt zu beobachten. Mathematisches Modell Y = b 0 + b 1 x + ε 2., Linear 2., lineare Lineare 2.7 Partielle Dabei bezeichnet ε eine zufällige Störgröße. Diese Modell bezeichnet man als Lineare. 19 / 149

20 2.10 Das Modell der linearen Daten (x 1, y 1 ),..., (x n, y n ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen den Variablen Y i x i gilt: Y i = b 0 + b 1 x i + ε i i = 1,..., n ε i bezeichnet hier eine zufällige Störung es wird angenommen, dass die Störungen unabhängig normalverteilt sind mit Erwartungswert 0 Varianz σ 2 > 0 2., Linear 2., lineare Lineare 2.7 Partielle Deutung: es wird ein linearer Zusammenhang zwischen x y postuliert, der noch zufälligen Störungen unterliegt 20 / 149

21 Idee der Schätzung bei (linearer) 2., Linear Daten (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein linearer Zusammenhang Y = b 0 + b 1 x + ε Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Y x am besten beschreibt. Idee: Bestimme die Gerade so, dass die Summe der quadratischen (vertikalen) Abstände zwischen den y-koordinaten der Datenpunkte den entsprechenden Punkten auf der geschätzten Geraden minimal wird Methode der kleinsten Quadrate 2., lineare Lineare 2.7 Partielle 21 / 149

22 y y Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten 2., Linear 2., lineare Lineare y=0.2x y=0.5x Partielle x x 22 / 149

23 Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten: die Lösung durch die Methode der kleinsten Quadrate 2., Linear 2., lineare Lineare y y=0.292x Partielle x 23 / 149

24 2.11 Die Methode der kleinsten Quadrate Bestimme die Gerade so, dass die Summe der quadrierten senkrechten Abstände zwischen Gerade Daten minimal wird - Datum an der Stelle x i : y i - Wert der Geraden an der Stelle x i : b 0 + b 1 x i - Differenz: y i (b 0 + b 1 x i ) Minimiere h(b 0, b 1 ) = n ( i=1 yi (b 0 + b 1 x i ) ) 2 bzgl. der Wahl der Parameter b 0 b 1. Lösung dieses Extremwertproblems liefert Schätzer für Achsenabschnitt Steigung der Geraden: 2., Linear 2., lineare Lineare 2.7 Partielle ˆb 1 = n i=1 (x i x )(y i y ) n i=1 (x i x ) 2, ˆb 0 = y ˆb 1 x - x = 1 n n i=1 x i: Mittelwert der Prädiktorvariablen - y = 1 n n i=1 y i: Mittelwert der abhängigen Variablen 24 / 149

25 Beispiel Arbeitsmotivation: Streudiagramm sgerade für die Daten aus Beispiel 2.1 Motivation , Linear 2., lineare Lineare Leistungsstreben Schätzer: ˆb 0 = 13.82, ˆb 1 = 0.29 Fragen: R-Quadrat linear = 0, Partielle - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß des Leistungsstrebens auf die Motivation H 0 : b 1 = 0 - Wie gut beschreibt das lineare smodell die Situation? 25 / 149

26 Die Genauigkeit der Schätzer für die Parameter Beachte: vor der Datenerhebung sind ˆb 0 ˆb 1 zufällig Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer für die Varianzen von ˆb 0 ˆb 1 Schätzer für die Varianz von ˆb 0 : ŝ 2 b 0 = S 2 y x n Schätzer für die Varianz von ˆb 1 : ŝ 2 b 1 = S 2 y x n Dabei bezeichnet S 2 y x = 1 n 2 n i=1 x 2 i n i=1 (x i x ) 2 1 n n (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 1 n i=1 (x i x ) 2 2., Linear 2., lineare Lineare 2.7 Partielle die Residualvarianz (Schätzer für die Varianz der Störgrößen) Je größer der Stichprobenumfang n, desto genauer sind die Schätzungen! 26 / 149

27 Fortsetzung von Beispiel 2.1: Schätzer für die Daten der Arbeitsmotivation Schätzer für die Parameter ˆb 0 = ˆb 1 = S 2 y x = Schätzer für die Varianz von ˆb 0 ˆb 1 ŝ 2 b 0 = ŝ 2 b 1 = , Linear 2., lineare Lineare 2.7 Partielle Standdardafehler von ˆb 0 ˆb 1 ŝ b0 = = ŝ b1 = = / 149

28 SPSS Output: Schätzer Standardabweichungen bei linearer in Beispiel , Linear 2., lineare Lineare Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Koeffizienten a Standardisierte Nicht standardisierte Koeffizienten Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090,559 3,235, Partielle 28 / 149

29 2.12 Konfidenzintervalle bei linearer Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- Unabhängigkeitsannahme für ε 1,..., ε n Bestimmung der Schätzer ŝ 2 b 0 ŝ 2 b 1 für die Varianzen von ˆb 0 ˆb 1. Damit ist dann = (ˆb 0 t n 2,1 α/2 ŝ b0, ˆb 0 + t n 2,1 α/2 ŝ b0 ) ein (1 α)-konfidenzintervall für b 0 2., Linear 2., lineare Lineare 2.7 Partielle = (ˆb 1 t n 2,1 α/2 ŝ b1, ˆb 1 + t n 2,1 α/2 ŝ b1 ) ein (1 α)-konfidenzintervall für b 1. Hier ist t n 2,1 α/2 das (1 α/2)-quantil der t-verteilung mit n 2 Freiheitsgraden (tabelliert oder mit Software verfügbar) 29 / 149

30 Beispiel 2.13: Konfidenzbereiche im Beispiel 2.1 (Arbeitsmotivation) 2., Linear 2., lineare 2.1 n = 25, t 23,0975 = Für das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt sich als 95% Konfidenzintervall für b 0 : [9.420, ] b 1 : [0.105, 0.479] Frage: Besteht ein (signifikanter) Einfluß der Prädikorvariablen x auf die abhängige Variable Y? Mathematische Formulierung: H 0 : b 1 = Lineare 2.7 Partielle 30 / 149

31 SPSS Output: Konfidenzintervalle bei linearer Rgeression in Beispiel , Linear 2., lineare Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090 Koeffizienten a,559 3,235,004 95%-Konfidenzintervall für B Untergrenze Obergrenze 9,420 18,212,105, Lineare 2.7 Partielle 31 / 149

32 2.14 F -test für die Hypothese H 0 : b 1 = 0 Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- Unabhängigkeitsannahme für ε 1,..., ε n Hypothesen H 0 : b 1 = 0, H 1 : b 1 0 Die Nullhypothese H 0 : b 1 = 0 wird zu Gunsten der Alternative H 1 : b 1 0 verworfen, falls F n = S 2 reg S 2 y x = n 2 n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 n i=1 (y i (ˆb 0 + ˆb 1 x i )) 2 > F 1;n 2,1 α 2., Linear 2., lineare Lineare 2.7 Partielle gilt F 1;n 2,1 α bezeichnet das (1 α)-quantil der F -Verteilung mit (1, n 2) Freiheitsgraden 32 / 149

33 Motivation des F -Tests: Zerlegung der Varianz 2., Linear n (y i y ) 2 = n (y i (ˆb 0 + ˆbx i )) 2 + n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Gesamtvarianz Bezeichnungen: i=1 } {{ } Residualvarianz S 2 reg = 1 1 n i=1 } {{ } Varianz der i=1 (y (ˆb 0 + ˆb 1 x i )) 2 heißt Varianz der (diese hat 1 Freiheitsgrad) Sy x 2 = 1 n n 2 (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 ist die Residualvarianz (diese hat n 2 Freiheitsgrade). Andere Interpretationen: - Schätzung für die Varianz der Größen ε i - durch das lineare smodell nicht erklärbare Varianz 2., lineare Lineare 2.7 Partielle 33 / 149

34 Motivation des F -Tests: Zerlegung der Varianz 2., Linear n (y i y ) 2 = i=1 } {{ } Gesamtvarianz Beachte: n n (y i (ˆb 0 + ˆbx i )) 2 + (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Residualvarianz = (n 2) S 2 y x + S 2 reg i=1 } {{ } Varianz der Bei dem F -Test für die Hypothese H 0 : b 1 = 0 bildet man den Quotienten aus der Varianz der der Residualvarianz Man untersucht also das Verhältnis zwischen erklärbarer nicht erklärbarer Varianz. 2., lineare Lineare 2.7 Partielle 34 / 149

35 2.15 Varianzanalyse (ANOVA; analysis of variance) 2., Linear Art der Freiheits- Quadrat- F -Quotient Abweichung grade (df ) summe schätzer 2., lineare Lineare 1 n i=1 (y ŷ i ) 2 F n = S 2 reg /S 2 y x Fehler n 2 Total n 1 n i=1 (y i ŷ i ) 2 n i=1 (y i y ) Partielle Bezeichnung: ŷ i = ˆb 0 + ˆb 1 x i Vorhersage an der Stelle x i 35 / 149

36 SPSS Output: F-Test bei linearer in Beispiel , Linear 2., lineare ANOVA b Lineare Modell Quadratsumme df 1 Residuen Gesamt 238, , , a. Einflußvariablen : (Konstante), Leistungsstreben b. Abhängige Variable: Motivation Mittel der Quadrate 238,015 22,737 F 10,468 Signifikanz,004 a Beachte: F 25 = , F 1,23,0.95 = Da F 25 = > wird die Nullhypothese H 0 : b 1 = 0 zu Gunsten der Alternative H 1 : b 1 0 zum Niveau 5% verworfen (p-wert: 0.004) 2.7 Partielle 36 / 149

37 Modellgüte: wie geeignet ist das Modell für die Beschreibung der Daten Maß für Modellanpassung: Residualvarianz (Summe der quadrierte Abstände von der sgerade): S 2 y x = 1 n 2 n i=1 ( ) 2 y i (ˆb 0 + ˆb 1 x i ) Beachte: Sy x 2 ist ein Schätzer für die Varianz der Meßfehler Je kleiner Sy x 2, desto besser ist das (lineare) smodell Streuung der Daten ohne die Information, dass ein lineares Modell vorliegt: n (y i y ) 2 i=1 Man untersucht welchen Anteil der Streuung n i=1 (y i y ) 2 man durch das lineare Modell erklären kann 2., Linear 2., lineare Lineare 2.7 Partielle 37 / 149

38 Varianzzerlegung: ein extremes Beispiel 2., Linear 40 2., lineare 2.1 Abhängige Variable y Lineare Beachte: Unabhängige Variable Die Grafik zeigt eine extreme Situation. Die Streuung der Daten ist durch das lineare smodell zu 100% erklärbar! n i=1 (y i y ) 2 = n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 Residualvarianz (durch das lineare smodell nicht erklärbare Varianz) = 0 x 2.7 Partielle 38 / 149

39 2.16 Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1): 2., Linear 2., lineare Lineare 25 i=1 25 i=1 R 2 = (y i y ) 2 = (y (ˆb 0 + ˆb 1 x i )) 2 = i=1 (y (ˆb 0 + ˆb 1 x i )) 2 25 i=1 (y i y ) 2 = Partielle d.h. 31,3 % der Varianz der Variablen Motivation können durch die Prädiktorvariable Leistungsstreben erklärt werden. 39 / 149

40 2.17 Modellgüte: das Bestimmtheitsmaß Die Größe R 2 = 1 n (y i (ˆb 0 + ˆb 1 x i )) 2 i=1 = n (y i y ) 2 i=1 n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 n (y y i ) 2 i=1 ist ein Maß für die Güte der heißt Bestimmtheitsmaß. Beachte: man kann zeigen, dass R 2 genau das Quadrat der ist. 2., Linear 2., lineare Lineare 2.7 Partielle Je besser das Modell ist, desto kleiner ist die Residualvarianz, bzw. desto größer R 2! Das Bestimmtheitsmaß R 2 liegt immer zwischen / 149

41 Zusammenhang zwischen Bestimmtheitsmaß F -Test Ist F n die Statistik für den F -Test aus 2.14 R 2 das Bestimmtheitsmaß, dann gilt: R 2 = 1 n 2 F n n 2 F n In anderen Worten: die Statistik F n des F -Test aus 2.5 kann aus dem Bestimmtheitsmaß berechnet werden ( umgekehrt) Im Beispiel des Zusammenhangs zwischen Motivation Leistungsstreben ist 2., Linear 2., lineare Lineare 2.7 Partielle F n = = R 2 = = Ca. 31.3% der Variation der Variablen Motivation können durch die Variable Leistungsstreben erklärt werden 41 / 149

42 Vorhersagen: es gibt zwei unterschiedliche 2., Linear 2.18 Vorhersage für den Wert der Geraden an einer Stelle x Schätzung für den Wert der Geraden y(x) = b 0 + b 1 x an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x (1 α)-konfidenzintervall für y(x) wobei (ŷ(x) t n 2;α/2 ŝ y(x), ŷ(x) + t n 2;α/2 ŝ y(x) ) ŝ 2 y(x) = S 2 y x ( 1 n + (x x ) 2 n i=1 (x i x ) 2 ) 2., lineare Lineare 2.7 Partielle den Schätzer für die Varianz von Ŷ (x) bezeichnet 42 / 149

43 Vorhersagen: es gibt zwei unterschiedliche 2., Linear 2.19 Vorhersage für eine neue Beobachtung an einer Stelle x Schätzer für eine neue Beobachtung Ỹ (x) = b 0 + b 1 x + ε an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x (1 α)-konfidenzintervall für y(x) (ŷ(x) t n 2;α/2 s y(x), ŷ(x) + t n 2;α/2 s y(x) ) 2., lineare Lineare wobei s 2 y(x) = S 2 y x (1 + 1 n + (x x ) 2 n i=1 (x i x ) 2 ) 2.7 Partielle den Schätzer für die Varianz von ŷ(x) + ε bezeichnet Beachte: Diese Varianz wird bei wachsendem Stichprobenumfang nicht beliebig klein! 43 / 149

44 2.20 Beispiel (Fortsetzung von Beispiel 2.1) 2., Linear (1) Gesucht ist ein 90% Konfidenzintervall für den Wert der Geraden an der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ 2 y(x) = 1.116, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für den Wert der Geraden an der Stelle 16 ist gegeben durch [16.677, ] (2) Gesucht ist ein 90% Konfidenzintervall für eine neue Beobachtung der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ 2 ỹ(x) = 23.85, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für eine neue Beobachtung an der Stelle 16 ist gegeben durch 2., lineare Lineare 2.7 Partielle [10.118, ] 44 / 149

45 SPSS Output: Vorhersagen bei linearer in Beispiel 2.1 (schwierig) 2., Linear 2., lineare Lineare 2.7 Partielle 45 / 149

46 SPSS Output: Konfidenzintervalle für Vorhersagen bei linearer in Beispiel , Linear 2., lineare Motivation Lineare 2.7 Partielle Leistungsstreben 46 / 149

47 2.21 Residuenanalyse Unter der Modellannahme des linearen smodells gilt: die Größen ε i = Y i b 0 b 1 x i sind unabhängig normalverteilt mit Erwartungswert 0 Varianz σ 2 > 0. Das bedeutet, dass diese Eigenschaften auch näherungsweise für die Residuen ˆε i = y i ˆb 0 ˆb 1 x i erfüllt sein sollte, falls die Modellannahme zutrifft. Residuenanalyse ist ein deskriptives Verfahren für die Überprüfung der Annahmen an ε 1,..., ε n mit 4 Teilschritten (oft werden auch nicht alle gemacht): A: Das Streudiagramm der Daten mit der slinie B: Ein Streudiagramm der Residuen gegen die vorhergesagten Werte C: Normalverteilungs-QQ-Plot der Residuen D: Histogramm der Residuen mit angepasster Normalverteilungsdichte 2., Linear 2., lineare Lineare 2.7 Partielle 47 / 149

48 Residuenanalyse bei erfüllten Voraussetzungen 2., Linear Abhängige Variable A Residuum B , lineare Lineare Empirische Quantile Unabhängige Variable C f(residuum) Vorhergesagter Wert D 2.7 Partielle Theoretische Quantile der Standardnormalvert Residuum 48 / 149

49 Residuenanalyse bei Abweichungen von der Normalverteilung (Ausreißer) Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2., Linear 2., lineare Lineare 2.7 Partielle 49 / 149

50 Residuenanalyse bei Stratifizierung Beachte: verschiedene Untergruppen (Strata) können ebenfalls zu Abweichungen von den Modellannahmen führen. Für die Strata können dann unterschiedliche sgleichungen gelten. 2., Linear 2., lineare 2.1 Abhängige Variable A Residuum B 2.2 Lineare Unabhängige Variable C Vorhergesagter Wert D Partielle Empirische Quantile f(residuum) Theoretische Quantile der Standardnormalvert Residuum 50 / 149

51 Residuenanalyse bei falscher Modellannahme 2., Linear Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2., lineare Lineare 2.7 Partielle Statt des linearen Modells wäre ein Polynom 3. Grades die bessere Annahme für die Beschreibung des funktionalen Zusammenhangs! 51 / 149

52 Residuenanalyse bei ungleichen Varianzen (Heteroskedastizität) Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2., Linear 2., lineare Lineare 2.7 Partielle 52 / 149

53 SPSS Output: Residuenanalyse in Beispiel , Linear 35 2., lineare 2.1 Motivation R-Quadrat linear = 0, Lineare 2.7 Partielle Leistungsstreben Streudiagramm geschätzte sgerade im Beispiel der Arbeitsmotivation 53 / 149

54 SPSS Output: Residuenanalyse in Beispiel , Linear 3, , lineare 2.1 Standardized Residual 2, ,00000, , Lineare 2.7 Partielle -2, , ,00000, , ,00000 Standardized Predicted Value Streudiagramm der Residuen gegen die vorhergesagten Werte im Beispiel der Arbeitsmotivation 54 / 149

55 SPSS Output für Residuenanalyse 2., Linear 2 Q-Q-Diagramm von Normal von Standardized Residual 2., lineare Lineare Erwarteter Wert von Normal Partielle Beobachteter Wert QQ-Plot im Beispiel der Arbeitsmotivation 55 / 149

56 lineare 2., Linear 2., lineare Es besteht ein enger Zusammenhang zwischen linearer Ist ˆb 1 die Schätzung im linearen smodell r der skoeffizient von Pearson, dann gilt: n i=1 r = (x i x ) 2 n i=1 (y i y ˆb ) Lineare 2.7 Partielle Ist R 2 das Bestimmtheitsmaß r der skoeffizient von Pearson, dann gilt: r 2 = R 2 56 / 149

57 2., Linear 2., lineare Lineare 2.7 Partielle 57 / 149

58 2.22 Beispiel: Arbeitsmotivation mit mehreren Prädiktoren y: Motivation (Einschätzung der Arbeitsmotivation durch Experten) Prädiktoren: Eigenschaften x1: Ehrgeiz (Fragebogen) x2: Kreativität (Fragebogen) x3: Leistungsstreben (Fragebogen) Prädiktoren: Rahmenbedingungen x4: Hierarchie (Position in der Hierarchie des Unternehmens) x5: Lohn (Bruttolohn pro Monat) x6: Arbeitsbedingungen (Zeitsouveränität, Kommunikationsstruktur usw.) 2., Linear 2., lineare Lineare 2.7 Partielle Prädiktoren: Inhalte der Tätigkeit x7: Lernponential (Lernpotential der Tätigkeit) x8: Vielfalt (Vielfalt an Teiltätigkeiten) x9: Anspruch (Komplexität der Tätigkeit) 58 / 149

59 Daten 2., Linear i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x , lineare Lineare 2.7 Partielle 59 / 149

60 Daten 2., Linear i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x , lineare Lineare 2.7 Partielle 60 / 149

61 2.23 Das Modell der multiplen linearen Daten (x 1, y 1 ),..., (x n, y n ) Es gibt k unabhängige Variablen: x i = (x 1i,..., x ki ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen der Variablen Y i dem Vektor x i gilt (im Beispiel ist k = 9): Y i = b 0 + b 1 x 1i + b 2 x 2i b k x ki + ε i k = b 0 + b j x ji + ε i. j=1 ε i bezeichnet hier eine zufällige Störung es wird angenommen, dass die Störungen ε 1,..., ε n unabhängig normalverteilt sind mit Erwartungswert 0 Varianz σ 2 > 0 Deutung: es wird ein linearer Zusammenhang zwischen x Y postuliert, der noch zufälligen Störungen unterliegt 2., Linear 2., lineare Lineare 2.7 Partielle 61 / 149

62 2.24 Schätzung bei multipler linearer Methode der kleinsten Quadrate: Minimiere n (y i b 0 b 1 x 1i b k x ki ) 2 i=1 bzgl. der Wahl von b 0,..., b k Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer ˆb 0, ˆb 1,..., ˆb k für die Parameter b 0,..., b k (Formeln sind kompliziert) Schätzer für die Varianz der Meßfehler 2., Linear 2., lineare Lineare 2.7 Partielle S 2 y x = 1 n k 1 n (y i ˆb 0 ˆb 1 x 1i ˆb k x ki ) 2 i=1 62 / 149

63 Streudiagramm bei multipler linearer (k = 2) sfläche: ŷ(x) = x x 2. 2., Linear 2., lineare Lineare Y Partielle X 1 X 2 63 / 149

64 Fortsetzung von Beispiel 2.22: Schätzer im multiplen linearen smodell Ergebnisse für die Schätzer im multiplen linearen smodel ˆb 0 = ˆb1 = ˆb 2 = ˆb 3 = ˆb 4 = ˆb 5 = ˆb 6 = ˆb7 = ˆb 8 = ˆb9 = Fragen: - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß der unabhängigen Merkmale auf die Motivation H 0 : b 1 = 0 H 0 : b 2 = 0 2., Linear 2., lineare Lineare 2.7 Partielle. - Wie gut beschreibt das multiple lineare smodell die Situation? 64 / 149

65 Genauigkeit der Schätzung bei multipler linearer 2., Linear 2., lineare 2.1 Schätzer ŝ b0,..., ŝ bk für die Standardfehler von ˆb 0,..., ˆb k sind verfügbar (Allgemeines lineares Modell Formeln kompliziert) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto genauer die Schätzungen Damit erhält man Konfidenzintervalle für b 0,..., b k, z.b. (ˆb 0 t n k 1,1 α/2 ŝ b0, ˆb 0 + t n k 1,1 α/2 ŝ b0 ) 2.2 Lineare 2.7 Partielle ist (1 α)-konfidenzintervall für b 0 65 / 149

66 Fortsetzung von Beispiel 2.22: Schätzer für den Standardfehler der Schätzer im multiplen linearen smodell Ergebnisse für den Standardfehler der Schätzer im multiplen linearen smodell Wegen t 15,0.975 = ist ŝ b0 = ŝ b1 = ŝ b2 = ŝ b3 = ŝ b4 = ŝ b5 = ŝ b6 = ŝ b7 = ŝ b8 = ŝ b9 = , Linear 2., lineare Lineare 2.7 Partielle [ 0.089, 0.188] ein 95%-Konfidenzintervall für den Parameter b 3. Man beachte: ) n = 25; k = 9 n k 1 = / 149

67 2.25 Konfidenzintervalle für multiple lineare Modellannahme: multiple lineare Y i = b 0 + k b j x ji + ε i (i = 1,..., n) j=1 Rechterfertigung der Normalverteilungs- Unabhängigkeitsannahme Schätzer ŝ bj für den Standardfehler von ˆb j = (ˆb j t n k 1,1 α/2 ŝ bj, ˆb j + t n k 1,1 α/2 ŝ bj ) ist ein (1 α) -Konfidenzintervall für b j (j = 0,... k) t n k 1,1 α/2 ; (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden (Tabelle oder Software) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto kleiner die Konfidenzintervalle 2., Linear 2., lineare Lineare 2.7 Partielle 67 / 149

68 2.26 Beispiel: Konfidenzintervalle für die Parameter in Beispiel 2.22 (Arbeitsmotivation ) ˆb j Merkmal Schätzung ŝ bj Konfidenzintervall ˆb [ , 6.926] ˆb 1 Ehrgeiz [0.020, 0.365] ˆb 2 Kreativität [0.049, 0.258] ˆb 3 Leistungsstreben [-0.089, 0.188] ˆb 4 Hierarchie [-0.069, 0.561] ˆb 5 Lohn [-0.004, 0.002] ˆb 6 Arbeitsbdg [-0.147, 0.085] ˆb 7 Lernpotential [-0.044, 0.373] ˆb 8 Vielfalt [0.095, 0.316] ˆb 9 Anspruch [-0.070, 0.177] 2., Linear 2., lineare Lineare 2.7 Partielle 68 / 149

69 SPSS Output: Schätzer, Standardabweichung Konfidenzintervalle im Beispiel 2.22 (Arbeitsmotivation mit mehreren Prädiktoren) 2., Linear 2., lineare Lineare Koeffizienten a Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070 Obergrenze 6,926,365,258,188,561,002,085,373,316, Partielle 69 / 149

70 2.27 Vorhersage der multiplen linearen Modellannahme: multiple lineare Y i = b 0 + k j=1 b jx ji + ε i (i = 1,..., n) Rechterfertigung der Normalverteilungs- Unabhängigkeitsannahme Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) ŷ(x) = ˆb 0 + k j=1 ˆb j x j In Beispiel 2.22 ergibt sich z.b. als Vorhersage der multiplen linearen an der Stelle 2., Linear 2., lineare Lineare 2.7 Partielle x 1 = 21, x 2 = 30, x 3 = 15, x 4 = 11,, x 5 = 2900, x 6 = 41, x 7 = 25, x 8 = 55, x 9 = 54 der Wert ŷ(x) = / 149

71 2., Linear Vorhersage der multiplen linearen 2., lineare Wie in Abschnitt gibt es zwei Vorher- Beachte: sagen: Lineare Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Vorhersage für den Wert einer neuen Beobachtung an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Für beide Vorhesagen, kann man den Standardfehler bestimmen (Formeln kompliziert) Konfidenzbereiche angeben (vgl. Abschnitt für den Fall k = 1 ) 2.7 Partielle 71 / 149

72 SPSS Output: Vorhersage bei der multiplen linearen (schwierig) 2., Linear 2., lineare Lineare 2.7 Partielle Beispiel: Schätzung für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): Schätzung für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): / 149

73 SPSS Output: Konfidenzintervalle für Vorhersagen bei mulitpler linearer 2., Linear 2., lineare Lineare 2.7 Partielle Konfidenzintervall für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [12.399, ] Konfidenzintervall für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [9.870, ] 73 / 149

74 2.28 Bestimmtheitsmaß bei multipler linearer Modellvorhersage: ŷ i = ˆb 0 + ˆb 1 x 1i +... ˆb k x ki = ˆb 0 + k ˆb j x ji j=1 Residuum ˆε i = y i ŷ i = y i (ˆb 0 + k j=1 ˆb j x ji ) Beachte: Die Werte der abhängigen Variable zerfallen in Modellvorhersage (ŷ) Residuum (ˆε), d.h. y i = ŷ i + ˆε i i = 1,..., n Die Güte der Modellanpassung wird (wieder) durch das Bestimmtheitsmaß R 2 beschrieben werden (Anteil erklärter Varianz) 2., Linear 2., lineare Lineare 2.7 Partielle R 2 = 1 n i=1 (y i ŷ i ) 2 n i=1 (y i y ) 2 = n i=1 (y ŷ i ) 2 n i=1 (y i y ) / 149

75 Beispiel: das Bestimmtheitsmaß für das Beispiel 2.22 (Arbeitsmotivation) 2., Linear 2., lineare 2.1 In Beispiel 2.22 ist n = 25; k = 9 n i=1 (y i ŷ i ) 2 = n i=1 (y i y ) 2 = R 2 = = Lineare 2.7 Partielle D.h % der Varianz der Variablen Motivation werden durch das multiple lineare smodell erklärt 75 / 149

76 2.29 Statistische Tests bei der multiplen linearer. Zwei wichtige Fragestellungen: Frage A: Hat mindestens eine der Prädiktorvariablen x 1,..., x k einen Einfluß auf die abhängige Variable y (Gesamttest auf Signifikanz). Mathematische Formulierung der Hypothese: Nullhypothese: Alternative: H 0 : b j = 0 für alle j {1, 2,..., k} H 1 : b j 0 für mindestens ein j {1, 2,..., k} 2., Linear 2., lineare Lineare 2.7 Partielle Frage B: Hat die Prädiktorvariable x j (z.b. Ehrgeiz) einen Einfluß auf die abhängige Variable y. Mathematische Formulierung der Hypothese: Nullhypothese: H 0 : b j = 0 Alternative: H 1 : b j 0 76 / 149

77 2.29(A) Gesamttest auf Signifikanz Nullhypothese: H 0 : b j = 0 für alle j {1, 2,..., k} Alternative: H 1 : b j 0 für mindestens ein j {1, 2,..., k} (1) Bestimme S 2 reg = 1 k n (y ŷ i ) 2 i=1 die Varianz der, S 2 y x = 1 n k 1 n (y i ŷ i ) 2 i=1 2., Linear 2., lineare Lineare 2.7 Partielle die Residualvarianz Beachte: man geht genau wie im linearen smodell vor! 77 / 149

78 2., Linear 2.29(A) Gesamttest auf Signifikanz (2) H 0 wird zu Gunsten der Alternative H 1 verworfen, falls F n = S 2 reg S 2 y x > F k;n k 1;1 α gilt (oder der entsprechende p-wert kleiner als α ist). Dabei bezeichnet F k;n k 1;1 α das (1 α)-quantil der F -Verteilung mit (k, n k 1) Freiheitsgraden, Beachte: Wird H 0 durch diesen Test verworfen, dann bleibt aber noch unklar, welches der Merkmale signifikant ist 2., lineare Lineare 2.7 Partielle 78 / 149

79 2.29(B) Tests für die Signifikanz einzelner Merkmale 2., Linear Nullhypothese: Alternative: H 0 : b j = 0 H 1 : b j 0 Die Nullhypothese H 0 wird zu Gunsten der Alternative H 1 verworfen, falls ˆb j T n = > t n k 1;1 α/2 ŝ bj gilt (oder der entsprechende p-wert kleiner als α ist). Dabei ist tn k 1;1 α/2 das (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden ŝbj der Standardfehler von ˆb j Beachte: Werden mehrere Hypothesen gestestet, ist das Niveau entsprechend anzupassen (vgl. Abschntt 1.18). 2., lineare Lineare 2.7 Partielle 79 / 149

80 2., Linear 2.30(A) Test auf Signifikanz im multiplen smodel in Beispiel 2.22 Frage: Hat eine der 9 Prädiktorvariablen einen Einfluß auf die abhängige Variable? Mathematische Hypothesen: H 0 : b j = 0 für alle j = 1,..., 9 H 1 : b j 0 für mindestens ein j {1,..., 9} F n = , F 9,15,0.95 = , lineare Lineare 2.7 Partielle Da F n > > ist, wird die Nullhypothese zum Niveau 5% verworfen. 80 / 149

81 2.30(B) Beispiel: Test auf Signifikanz eines Merkmals im multiplen linearen smodell in Beispiel 2.22 Frage: Hat die Prädiktorvariable Ehrgeiz (x 1 ) einen Einfluß auf die abhängige Variable Motivation (Signifikanz des skoeffizienten b 1 )? Mathematische Hypothesen: H 0 : b 1 = 0; H 1 : b 1 0 ˆb1 = 0.193, ŝ b1 = 0.081, t 25 10,0.975 = , Linear 2., lineare Lineare 2.7 Partielle Da T 25 = T 25 = > 2.13 wird die Nullhypothese H 0 zu Gunsten der Alternative H 1 : b 1 0 verworfen (zum Niveau 5%) 81 / 149

82 SPSS Output: Der Test 2.29(A) für das Beispiel 2.22 (Arbeitsmotivation) 2., Linear 2., lineare Lineare Modell 1 Residuen Gesamt Quadratsumme 707,309 53, ,960 df ANOVA b Mittel der Quadrate a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Abhängige Variable: Y 78,590 3,577 F 21,972 Signifikanz,000 a 2.7 Partielle 82 / 149

83 SPSS Output: Der Test 2.29(B) für das Beispiel 2.22 (Arbeitsmotivation) 2., Linear 2., lineare 2.1 Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Koeffizienten a Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070 Obergrenze 6,926,365,258,188,561,002,085,373,316, Lineare 2.7 Partielle 83 / 149

85 2.31 Das Problem der Multikollinearität 2., Linear Beispiel: Betrachte in dem Beispiel der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 Prädiktorvariablen Y i = b 0 + b 1 x 1i + b 2 x 2i + b 3 x 3i + ε i i = 1,..., 25 (Y : Motivation, x 1 : Ehrgeiz x 2 : Kreativität, x 3 : Leistungsstreben) Schätzer für die Modellparameter i ˆb i ŝ bi p-wert Bestimmtheitsmaß R 2 = Beachte: nur für den Koeffizient b 3 (Leistungsstreben) kann keine Signifikanz (zum Niveau 5%) nachgewiesen werden 2., lineare Lineare 2.7 Partielle 85 / 149

86 smatrix für die Prädiktoren 2., Linear 2., lineare 2.1 Motivation Ehrgeiz Kreativität Leistungsstreben Motivation 1 Ehrgeiz.71 1 Kreativität Leistungsstreben.56.82* Beachte: Der Test 2.5 liefert eine signifikante (zum Niveau 1%) zwischen den Variablen Leistungsstreben Ehrgeiz (SPSS) 2.2 Lineare 2.7 Partielle 86 / 149

87 2., Linear Beachte: Es gibt eine signifikante zwischen den Variablen Leistungsstreben Ehrgeiz Beide Variablen tragen weitgehend identische Information Im Beispiel ist die Variable Leistungsstreben redant wird nicht für die Vorhersage der abhängigen Variablen Motivation benötigt Die Variable Ehrgeiz ist stärker mit der Variablen Motivation korreliert als die Variable Leistungsstreben (aus diesem Gr ist der entsprechende Koeffizient auch signifikant) 2., lineare Lineare 2.7 Partielle Für die Bestimmtheitsmaße in den multiplen linearen smodellen mit drei bzw. zwei Variablen erhält man R 2 = für Modell mit den Prädiktoren x 1, x 2, x 3 R 2 = für Modell mit den Prädiktoren x 1, x 2 87 / 149

88 SPSS Output: Multikollinearität; Schätzer im Modell mit 3 Parametern 2., Linear 2., lineare Lineare Modell B 1 (Konstante) 5,539 x1,393 x2,225 x3,001 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standard fehler 2,618,135,089,123 Standardisierte Koeffizienten Beta Koeffizienten a,688,343,002 T 2,116 2,913 2,528,008 Signifi kanz,046,008,020,994 95%-Konfidenzintervall für B Untergrenze Obergrenze,095 10,983,112,674,040,410 -,255, Partielle 88 / 149

89 SPSS Output: Multilkollinearität; smatrix Y x1 x2 x3 nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N Y 1,000,000 25,379,061, x1,708 **,000,053,802,000 en 25 x2 1,000, x3,559 ** ,708 ** 1,000,053,818 ** 25,802 25, ,016, ,559 **,818 ** -,016 1,000 **. Die ist auf dem Niveau von 0,01 (2-seitig) signifikant.,379,061, , Linear 2., lineare Lineare 2.7 Partielle 89 / 149

90 2.43 Das Problem der 2., Linear Beispiel: Betrachte in dem Beispiel 2.22 der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 anderen Prädiktorvariablen Y i = b 0 + b 4 x 4i + b 5 x 5i + b 6 x 6i + ε i i = 1,..., 25 (Y : Motivation, x 4 : Hierarchie, x 5 : Lohn, x 6 : Arbeitsbedingungen) Schätzungen für die Modellparameter i ˆbi ŝ bi p-wert , lineare Lineare 2.7 Partielle 90 / 149

91 smatrix für die Variablen Motivation, Hierarchie, Lohn Arbeitsbedingungen Motivation Hierarchie Lohn Arbeitsbedingungen Motivation 1 Hierarchie.42* 1 Lohn ** 1 Arbeitsbedingungen Beachte: Zwischen der Prädiktorvariablen Lohn (x 5 ) der abhängigen Variablen Motivation liegt keine signifikante vor Dennoch bekommt diese Variable im multiplen smodell ein signifikantes Gewicht; d.h. die Hypothese H 0 : b 5 = 0 wird zum Niveau 5% verworfen (p-wert: 0.016). Man spricht von einem Suppressionseffekt. 2., Linear 2., lineare Lineare 2.7 Partielle 91 / 149

92 2., Linear Gr für diesen scheinbaren Widerspruch: en sind bivariate Maße für (zwischen zwei Merkmalen). Das Modell der multiplen untersucht aber den Zusammenhang zwischen der Variablen Motivation dem (3-dimensionalen) Prädiktor (x 4, x 5, x 6 ): Motivation ist stark mit der Variablen Hierarchie korreliert Lohn ist ebenfalls stark mit der Variablen Hierarchie korreliert Prädiktorvariable Lohn wird in der multiplen linearen benötigt, um unerwünschte Varianzanteile der Variablen Hierarchie zu kompensieren 2., lineare Lineare 2.7 Partielle Bestimmtheitsmaße für verschiedene Modelle R 2 = für Modell mit x 4, x 5, x 6 R 2 = für Modell mit x 4, x 6 92 / 149

93 SPSS Output: ; Schätzer im Modell mit 4 Parametern 2., Linear 2., lineare Modell 1 (Konstante) x4,884 x5 -,007 x6,125 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten Standard B fehler Beta T Signifikanz 25,076 8,398 2,986,007,257,003,120 Koeffizienten a,843 -,632,179 3,444-2,612 1,045,002,016,308 95%-Konfidenzintervall für B Untergrenze Obergrenze 7,612 42,539,350 1,419 -,013 -,001 -,124, Lineare 2.7 Partielle 93 / 149

94 SPSS Output: ; Schätzung der smatrix Y x4 x5 x6 nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N Y 1,000, ,038,856 25,354, x4,419 *,037 25,717 **,000,163,435 en x5 1, ,060, x ,419 * 1,000,717 **,163 *. Die ist auf dem Niveau von 0,05 (2-seitig) signifikant. **. Die ist auf dem Niveau von 0,01 (2-seitig) signifikant. -,038,856,000 25,354,082, ,060, , , Linear 2., lineare Lineare 2.7 Partielle 94 / 149

96 2.33 Merkmalselektionsverfahren Ziel: mit möglichst wenig Prädiktorvariablen eine gute Vorhersage der abhängigen Variablen zu erzielen. Prinzip: untersuche wie sich durch Weglassen einzelner Variablen das Bestimmtheitsmaß R 2 verändert. Typische Selektionsprozeduren: (A) Rückwärtsverfahren (B) Vorwärtsverfahren (C) Schrittweise Verfahren 2., Linear 2., lineare Lineare 2.7 Partielle Beachte: es handelt sich um explorative Verfahren, die hauptsächlich der Modellbildung dienen (Interpretation nicht einfach). 96 / 149

97 2.34 Das Rückwärtsverfahren 2., Linear 2., lineare Lineare Betrachte das vollständige Modell (mit allen Prädiktorvariablen) berechne das Bestimmtheitsmaß R 2 Entferne sukzessive diejenigen Variablen, die zu dem geringsten Rückgang des Bestimmtheitsmaßes führen würden Das Verfahren wird abgebrochen, falls sich bei dem Entfernen einer Variablen das Bestimmtheitsmaß signifikant verkleinert 2.7 Partielle 97 / 149

98 2.35 Beispiel: Variablenselektion mit dem Rückwärtsverfahren (vgl. Beispiel 2.22) Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 1 Ehrgeiz Kreativität 3.13 Leistungsstreben.76 Hierarchie 1.66 Lohn -.59 Arbeitsbedingungen -.58 Lernpotential 1.68 Vielfalt 3.97 Anspruch.92 2 Ehrgeiz 2.38 Arbeitsbedingungen.928 Kreativität 3.28 Leistungsstreben.79 Hierarchie 1.66 Lohn -.57 Lernpotential 1.66 Vielfalt 4.04 Anspruch.91 2., Linear 2., lineare Lineare 2.7 Partielle 98 / 149

99 Beispiel: Rückwärtsverfahren - Fortsetzung Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 3 Ehrgeiz 2.54 Arbeitsbedingungen.926 Kreativität 3.43 Lohn Leistungsstreben.88 Hierarchie 2.11 Lernpotential 1.59 Vielfalt 4.17 Anspruch Ehrgeiz 5.40 Arbeitsbedingungen.923 Kreativität 3.38 Lohn Hierarchie 2.31 Leistungsstreben Lernpotential 1.55 Vielfalt 4.12 Anspruch , Linear 2., lineare Lineare 2.7 Partielle 5 Ehrgeiz 5.18 Arbeitsbedingungen.916 Kreativität 3.16 Lohn Hierarchie 2.84 Leistungsstreben Lernpotential 3.31 Anspruch Vielfalt / 149

100 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation 2., Linear 2., lineare 2.1 Aufgenommene/Entfernte Variablen b Entfernte Modell Aufgenommene Variablen Variablen Methode 1 x9, x5, x2, x3, x6, x8, x7, x4,. Eingeben 2. x6 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 3. x5 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 4. x3 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 5. x9 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). a. Alle gewünschten Variablen wurden aufgenommen. b. Abhängige Variable: Y 2.2 Lineare 2.7 Partielle 100 / 149

101 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation 2., Linear 2., lineare Lineare Modellzusammenfassung Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,964 a,929,887 1,891,929 21, ,000 2,963 b,928,892 1,851 -,002, ,573 3,963 c,926,896 1,814 -,001, ,575 4,961 d,923,897 1,803 -,003, ,389 5,957 e,916,894 1,837 -,007 1, ,207 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 2.7 Partielle 101 / 149

102 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: ANOVA Modell Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadratsumme 707,309 53, , ,120 54, , ,000 55, , ,422 58, , ,852 64, ,960 df Mittel der Quadrate 78,590 3,577 88,265 3, ,714 3, ,070 3, ,370 3,374 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 f. Abhängige Variable: Y 9 F 21,972 25,752 30,596 35,999 41,306 ANOVA f Signifikanz,000 a,000 b,000 c,000 d,000 e 2., Linear 2., lineare Lineare 2.7 Partielle 102 / 149

103 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell 1 (Konstante) 2 3 x1 x2 x3 x4 x5 x6 x7 x8 x9 (Konstante) x1 x2 x3 x4 x5 x7 x8 x9 (Konstante) x1 x2 x3 x4,193,153,049,246,000 -,031,165,206,053-4,737,187,157,050,240,000,157,205,052-7,154,193,159,055,172 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz -3,842 5,052 -,760,459,081,049,065,148,001,054,098,052,058 4,706,079,048,063,144,001,095,051,057 2,027,076,046,062,081,337,234,095,235 -,077 -,045,199,354,124,326,239,096,228 -,073,190,352,121,338,244,105,164 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920-1,007 2,376 3,285,790 1,660 -,572 1,655 4,040,914-3,529 2,540 3,431,885 2,113 Koeffizienten a,031,007,458,117,564,573,113,001,372,329,030,005,441,116,575,117,001,374,003,021,003,389,050 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070-14,713,020,056 -,084 -,066 -,004 -,044,097 -,068-11,431,033,061 -,076,000 Obergrenze 6,926,365,258,188,561,002,085,373,316,177 5,238,353,258,185,545,002,358,312,172-2,877,354,258,185,344 2., Linear 2., lineare Lineare 2.7 Partielle 103 / 149

104 2.36 Das Vorwärtsverfahren 2., Linear 2., lineare 2.1 Bestimme diejenige Prädiktorvariable, die mit der abhängigen Variablen am stärksten korreliert ist berechne das Bestimmtheitsmaß R 2 Ist R 2 signifikant, wird diese Variable in das Modell aufgenommen Füge sukzessive diejenigen Variablen zu dem Modell hinzu, die zu dem größten Anstieg des Bestimmtheitsmaßes führen Das Verfahren bricht ab, falls sich bei Hinzunahme einer neuen Variablen das Bestimmtheitsmaß R 2 nicht signifikant vergrößert 2.2 Lineare 2.7 Partielle 104 / 149