multiple 2.2 Lineare 2.2 Lineare 1 / 130
2.2 Lineare 2 / 130
2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) 2.2 Lineare Frage: besteht ein Zusammenhang zwischen der Variablen Motivation und der Variablen Leistungsstreben Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 3 / 130
Daten x 20 30 15 39 5 6 12 0 35 y 32 14 12 27 20 13 17 8 22 x 8 34 26 32 26 12 36 27 26 y 19 25 23 17 22 19 27 26 20 x 13 19 25 30 18 21 11 y 11 24 19 19 22 24 17 2.2 Lineare 4 / 130
2.2 Der Korrelationskoeffizient von Pearson Daten (x 1, y 1 ),..., (x n, y n ) Maß für die (lineare) Abhängigkeit zwischen x und y: Korrelationskoeffizient von Pearson ˆρ X,Y = s n x,y i=1 = (x i x )(y i y ) s x,x s n y,y i=1 (x i x ) 2 n i=1 (y i y ) 2 2.2 Lineare Dabei ist: x = 1 n n i=1 x i : Mittelwert der Daten x i y = 1 n n i=1 y i : Mittelwert der Daten y i s 2 x,x = 1 n n i=1 (x i x ) 2 : Varianz der Daten x i s 2 y,y = 1 n n i=1 (y i y ) 2 : Varianz der Daten y i s 2 x,y = 1 n n i=1 (x i x )(y i y ) : Kovarianz zwischen den Daten x i, y i 5 / 130
2.3 Eigenschaften des Korrelationskoeffizienten (1) 1 ˆρ X,Y 1 (2) ˆρ X,Y = 1 genau dann, wenn ein exakter linearer Zusammenhang y i = b 0 + b 1 x i mit b 1 > 0 besteht (ohne Störgrößen). (3) ˆρ X,Y = 1 genau dann, wenn ein exakter linearer Zusammenhang 2.2 Lineare y i = b 0 + b 1 x i mit b 1 < 0 besteht (ohne Störgrößen). (4) Der Korrelationskoeffizient ist invariant bzgl. linearer Transformationen, d.h. } x i = a 0 + a 1 x i i = 1,..., n ρ ỹ i = c 0 + c 1 y i i = 1,..., n X,Ỹ = ρ X,Y (4) Der Korrelationskoeffizient von Pearson ist ein deskriptives Maß für den linearen Zusammenhang in der Stichprobe (x 1, y 1 ),..., (x n, y n ) 6 / 130
2.4 Beispiel: Korrelationskoeffizient für die Daten aus Beispiel 2.1 Variablen x: Leistungsstreben y: Motivation Korrelationskoeffizient von Pearson 2.2 Lineare ˆρ x,y = 0.5592 Fragen: Wie genau ist diese Schätzung? Ist die Korrelation von 0 verschieden (Unkorreliertheit zwischen den Merkmalen Leistungsstreben und Motivation)? 7 / 130
2.5 Signifikanztest für Korrelation ρ bezeichne die Korrelation des Merkmals X mit dem Merkmal Y einer Population (x 1, y 1 ),..., (x n, y n ) ist eine Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grundgesamtheit Ein Test zum Niveau α für die Hypothese die Merkmale sind unkorreliert H 0 : ρ = 0 lehnt die Nullhypothese zu Gunsten der Alternative H 1 : ρ 0 ab, falls n 2ˆρx,y > t 1 ˆρ 2 n 2,1 α/2 x,y 2.2 Lineare gilt. 8 / 130
2.6(a) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) n = 25; ˆρ x,y = 0.5592; t 23,0.95 = 1.7139 2.2 Lineare n 2 ˆρx,y = 3.2355 > 1.7139 1 ˆρ 2 x,y Die Nullhypothese H 0 : ρ = 0 (keine Korrelation zwischen den Merkmalen) wird zum Niveau 10% verworfen. p-wert: 0.0037 9 / 130
SPSS Output für Korrelationskoeffizient Motivation Leistungsstreben Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Motivation Korrelationen 1,000,004 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. 25 Leistungsstreben,559 **,004 25 25,559 ** 1,000 25 2.2 Lineare 10 / 130
2.7 Konfidenzintervall für Korrelation ρ: Korrelation zwischen Merkmal x und Merkmal y einer Population (x 1, y 1 ),..., (x n, y n ): Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grundgesamtheit Mathematische Statistik: ˆρ x,y ist näherungsweise (d.h. bei großem Stichprobenumfang) normalverteilt mit Erwartungswert ρ und Varianz 2.2 Lineare γ 2 = Var(ˆρ x,y ) (1 ρ 2 ) 2 /n (1 α)-konfidenzintervall für den Korrelationskoeffizienten (ˆρx,y ˆγz 1 α/2, ˆρ x,y + ˆγz 1 α/2 ) Hier bezeichnet ˆγ = (1 ˆρ 2 x,y )/ n einen Schätzer für die Standardabweichung von ˆρ x,y und z 1 α/2 das (1 α/2) Quantil der Standardnormalverteilung (Tabelle, Software) 11 / 130
2.6(b) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) n = 25; ˆρ x,y = 0.5592 2.2 Lineare z 0.95 = 1.6449, ˆγ = 0.1328 90% Konfidenzintervall für den Korrelationskoeffizient [0.2739, 0.7541] 12 / 130
2.8 Hinweise zur Interpretation von Korrelationen Annahme: man hat eine signifikante Korrelation zwischen dem Variablen x und y gefunden Folgende Interpretationen sind möglich (1) x beeinflusst y kausal (2) y beeinflusst x kausal (3) x und y werden von weiteren Variablen kausal beeinflusst (4) x und y beeinflussen sich wechselseitig kausal Die Korrelation zwischen zwei Variablen ist eine notwendige aber keine hinreichende Voraussetzung für einen kausalen Zusammenhang Der Korrelationskoeffizient gibt keine Information welche der vier Interpretationen zutrifft (in vielen Fällen wird das der Typ (3) sein) Korrelationen sollten ohne Zusatzinformation nicht interpretiert werden! 2.2 Lineare 13 / 130
Beispiel Annahme: man hat eine signifikante Korrelation zwischen den Merkmalen Ehrlichkeit und Häufigkeit des Kirchgangs gefunden Folgende Interpretationen sind möglich Die in der Kirche vermittelten Werte haben einen positiven Einfluß auf das Merkmal Ehrlichkeit Ehrliche Menschen fühlen sich durch die in der Kirche vermittelten Inhalte eher angesprochen und gehen aus diesem Grund häufiger zur Kirche Die allgemeine familiäre und außerfamiliäre Sozialisation beeinflußt beide Merkmale 2.2 Lineare 14 / 130
2.2 Lineare 2.2 Lineare 15 / 130
2.9 Beispiel: (Fortsetzung von Beispiel 2.1) Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) 2.2 Lineare Kann man y aus x vorhersagen? 16 / 130
Streudiagramm für die Daten aus Beispiel 2.9 35 30 2.2 Lineare 25 Motivation 20 15 10 5 0 10 20 30 40 Leistungsstreben 17 / 130
2.9 Beispiel: (Fortsetzung von Beispiel 2.1) Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) 2.2 Lineare Frage: besteht ein funktionaler Zusammenhang zwischen der Variablen Motivation und der Prädiktorvariablen Leistungsstreben (Kann man y aus x vorhersagen?) Genauer: Gesucht ist Funktion f, die aus der Prädiktorvariablen Leistungsstreben (x) eine Vorhersage für die abhängige Variable (y) Motivation liefert: Motivation = f( Leistungsbereitschaft ) Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 18 / 130
Ausgangslage: Von Interesse ist der Zusammenhang zwischen verschiedenen Variablen. Im einfachsten Fall betrachtet man, wie im Beispiel der Arbeitsmotivation, den Zusammenhang zwischen zwei Variablen. Daten: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein kausaler Zusammenhang der Form y = f (x) zwischen der abhängigen Variablen y und der Prädiktorvariablen x. Weitere Annahme: Die Funktion f hat eine bestimmte Form. Beispiele: Lineare (der Zusammenhang ist also durch eine Gerade beschreibbar): y = b 0 + b 1x Quadratische (der Zusammenhang ist also durch eine Parabel beschreibbar): y = b 0 + b 1x + b 2x 2 usw. Beachte: Der Zusammenhang ist in der Regel nicht exakt zu beobachten. Mathematisches Modell Y = b 0 + b 1 x + ε 2.2 Lineare Dabei bezeichnet ε eine zufällige Störgröße. Diese Modell bezeichnet man als Lineare. 19 / 130
2.10 Das Modell der linearen Daten (x 1, y 1 ),..., (x n, y n ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen den Variablen Y i und x i gilt: 2.2 Lineare Y i = b 0 + b 1 x i + ε i i = 1,..., n ε i bezeichnet hier eine zufällige Störung und es wird angenommen, dass die Störungen unabhängig und normalverteilt sind mit Erwartungswert 0 und Varianz σ 2 > 0 Deutung: es wird ein linearer Zusammenhang zwischen x und y postuliert, der noch zufälligen Störungen unterliegt 20 / 130
Idee der Schätzung bei (linearer) Daten (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein linearer Zusammenhang Y = b 0 + b 1 x + ε 2.2 Lineare Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Y und x am besten beschreibt. Idee: Bestimme die Gerade so, dass die Summe der quadratischen (vertikalen) Abstände zwischen den y-koordinaten der Datenpunkte und den entsprechenden Punkten auf der geschätzten Geraden minimal wird Methode der kleinsten Quadrate 21 / 130
y y Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten 2.2 Lineare 5 10 15 20 25 30 35 y=0.2x+5 5 10 15 20 25 30 35 y=0.5x+10 0 10 20 30 40 x 0 10 20 30 40 x 22 / 130
Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten: die Lösung durch die Methode der kleinsten Quadrate 2.2 Lineare y 5 10 15 20 25 30 35 y=0.292x+13.816 0 10 20 30 40 x 23 / 130
2.11 Die Methode der kleinsten Quadrate Bestimme die Gerade so, dass die Summe der quadrierten senkrechten Abstände zwischen Gerade und Daten minimal wird - Datum an der Stelle x i : y i - Wert der Geraden an der Stelle x i : b 0 + b 1 x i - Differenz: y i (b 0 + b 1 x i ) 2.2 Lineare Minimiere h(b 0, b 1 ) = n ( i=1 yi (b 0 + b 1 x i ) ) 2 bzgl. der Wahl der Parameter b 0 und b 1. Lösung dieses Extremwertproblems liefert Schätzer für Achsenabschnitt und Steigung der Geraden: ˆb 1 = n i=1 (x i x )(y i y ) n i=1 (x i x ) 2, ˆb 0 = y ˆb 1 x - x = 1 n n i=1 x i: Mittelwert der Prädiktorvariablen - y = 1 n n i=1 y i: Mittelwert der abhängigen Variablen 24 / 130
Beispiel Arbeitsmotivation: Streudiagramm und sgerade für die Daten aus Beispiel 2.1 Motivation 35 30 25 20 2.2 Lineare 15 10 R-Quadrat linear = 0,313 5 0 10 20 30 40 Leistungsstreben Schätzer: ˆb 0 = 13.82, ˆb 1 = 0.29 Fragen: - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß des Leistungsstrebens auf die Motivation H 0 : b 1 = 0 - Wie gut beschreibt das lineare smodell die Situation? 25 / 130
Die Genauigkeit der Schätzer für die Parameter Beachte: vor der Datenerhebung sind ˆb 0 und ˆb 1 zufällig Mathematische Statistik (allegmeines lineares Modell) liefert Schätzer für die Varianzen von ˆb 0 und ˆb 1 Schätzer für die Varianz von ˆb 0 : ŝ 2 b 0 = S 2 y x n Schätzer für die Varianz von ˆb 1 : ŝ 2 b 1 = S 2 y x n Dabei bezeichnet S 2 y x = 1 n 2 n i=1 x 2 i n i=1 (x i x ) 2 1 n n (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 1 n i=1 (x i x ) 2 2.2 Lineare die Residualvarianz (Schätzer für die Varianz der Störgrößen) Je größer der Stichprobenumfang n, desto genauer sind die Schätzungen! 26 / 130
Fortsetzung von Beispiel 2.1: Schätzer für die Daten der Arbeitsmotivation Schätzer für die Parameter ˆb 0 = 13.82 ˆb 1 = 0.292 S 2 y x = 22.737 2.2 Lineare Schätzer für die Varianz von ˆb 0 und ˆb 1 ŝ 2 b 0 = 4.5158 ŝ 2 b 1 = 0.0081 Je größer der Stichprobenumfang n, desto genauer sind die Schätzungen! 27 / 130
SPSS Output: Schätzer und Standardabweichungen bei linearer in Beispiel 2.1 2.2 Lineare Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Koeffizienten a Standardisierte Nicht standardisierte Koeffizienten Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090,559 3,235,004 28 / 130
2.12 Konfidenzintervalle bei linearer Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme für ε 1,..., ε n Bestimmung der Schätzer ŝ 2 b 0 und ŝ 2 b 1 für die Varianzen von ˆb 0 und ˆb 1. Damit ist dann 2.2 Lineare = (ˆb 0 t n 2,1 α/2 ŝ b0, ˆb 0 + t n 2,1 α/2 ŝ b0 ) ein (1 α) -Konfidenzintervall für b 0 und = (ˆb 1 t n 2,1 α/2 ŝ b1, ˆb 1 + t n 2,1 α/2 ŝ b1 ) ein (1 α) -Konfidenzintervall für b 1. Hier ist t n 2,1 α/2 das (1 α/2)-quantil der t-verteilung mit n 2 Freiheitsgraden (tabelliert oder mit Software verfügbar) 29 / 130
Beispiel 2.13: Konfidenzbereiche im Beispiel 2.1 (Arbeitsmotivation) n = 25, t 23,0975 = 2.0687 Für das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt sich als 95% Konfidenzintervall für 2.2 Lineare b 0 : [9.420, 18.212] b 1 : [0.105, 0.479] Frage: Besteht ein (signifikanter) Einfluß der Prädikorvaraiblen x auf die abhängige Variable Y? Mathematische Formulierung: H 0 : b 1 = 0 30 / 130
SPSS Output: Konfidenzintervalle bei linearer Rgeression in Beispiel 2.1 2.2 Lineare Koeffizienten a Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090,559 3,235,004 95%-Konfidenzintervall für B Untergrenze Obergrenze 9,420 18,212,105,479 31 / 130
2.14 F -test für die Hypothese H 0 : b 1 = 0 Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme für ε 1,..., ε n Hypothesen 2.2 Lineare H 0 : b 1 = 0, H 1 : b 1 0 Die Nullhypothese H 0 : b 1 = 0 wird zu Gunsten der Alternative H 1 : b 1 0 verworfen, falls gilt F n = S 2 reg S 2 y x = 1 1 1 n 2 n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 n i=1 (y i (ˆb 0 + ˆb 1 x i )) 2 > F 1;n 2,1 α F 1;n 2,1 α bezeichnet das (1 α)-quantil der F -Verteilung mit (1, n 2) Freiheitsgraden 32 / 130
Motivation des F -Tests: Zerlegung der Varianz n (y i y ) 2 = n (y i (ˆb 0 + ˆbx i )) 2 + n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Gesamtvarianz i=1 } {{ } Residualvarianz i=1 } {{ } Varianz der 2.2 Lineare Bezeichnungen: S 2 reg = 1 1 n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 heißt Varianz der (diese hat 1 Freiheitsgrad) und Sy x 2 = 1 n n 2 (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 ist die Residualvarianz (diese hat n 2 Freiheitsgrade). Andere Interpretationen: - Schätzung für die Varianz der Größen ε i - durch das lineare smodell nicht erklärbare Varianz 33 / 130
Motivation des F -Tests: Zerlegung der Varianz n (y i y ) 2 = n (y i (ˆb 0 + ˆbx i )) 2 + n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Gesamtvarianz i=1 } {{ } Residualvarianz i=1 } {{ } Varianz der 2.2 Lineare = 1 S 2 reg + (n 2) S 2 y x Beachte: Bei dem F -Test für die Hypothese H 0 : b 1 = 0 bildet man den Quotienten aus der Varianz der der Residualvarianz Man untersucht also, welcher Anteil der Gesamtvarianz durch die Varianz der erklärbar ist 34 / 130
2.15 Varianzanalyse (ANOVA; analysis of variance) Art der Freiheits- Quadrat- F -Quotient Abweichung grade (df ) summe schätzer 1 n i=1 (y ŷ i ) 2 F n = S 2 reg /S 2 y x 2.2 Lineare Fehler n 2 n i=1 (y i ŷ i ) 2 Total n 1 n i=1 (y i y ) 2 Bezeichnung: ŷ i = ˆb 0 + ˆb 1 x i 35 / 130
SPSS Output: F-Test bei linearer in Beispiel 2.1 Modell 1 Residuen Gesamt Quadratsumme 238,015 522,945 760,960 a. Einflußvariablen : (Konstante), Leistungsstreben b. Abhängige Variable: Motivation df 1 23 24 Mittel der Quadrate 238,015 22,737 F 10,468 ANOVA b Signifikanz,004 a 2.2 Lineare Beachte: F 25 = 10.468, F 1,23,0.95 = 4.2793 Da F 25 = 10.468 > 4.2793 wird die Nullhypothese H 0 : b 1 = 0 zu Gunsten der Alternative H 1 : b 1 0 zum Niveau 5% verworfen (p-wert: 0.004) 36 / 130
Modellgüte: wie geeignet ist das Modell für die Beschreibung der Daten Maß für Modellanpassung: Residualvarianz (Summe der quadrierte Abstände von der sgerade): S 2 y x = 1 n 2 n i=1 ( ) 2 y i (ˆb 0 + ˆb 1 x i ) 2.2 Lineare Beachte: Sy x 2 ist ein Schätzer für die Varianz der Meßfehler Je kleiner Sy x 2, desto besser ist das (lineare) smodell Streuung der Daten ohne die Information, dass ein lineares Modell vorliegt: n (y i y ) 2 i=1 Man untersucht welchen Anteil der Streuung n i=1 (y i y ) 2 man durch das lineare Modell erklären kann 37 / 130
Varianzzerlegung: ein extremes Beispiel y Abhängige Variable 40 30 20 40 30 20 2.2 Lineare 10 10 0 5 10 15 20 Unabhängige Variable 0 5 10 15 20 x Beachte: Die Grafik zeigt eine extreme Situation. Die Streuung der Daten ist durch das lineare smodell zu 100% erklärbar! n i=1 (y i y ) 2 = n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 Residualvarianz (durch das lineare smodell nicht erklärbare Varianz) = 0 38 / 130
2.16 Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1): 25 i=1 25 i=1 R 2 = (y i y ) 2 = 760.96 (y (ˆb 0 + ˆb 1 x i )) 2 = 238.04 25 i=1 (y (ˆb 0 + ˆb 1 x i )) 2 25 i=1 (y i y ) 2 = 0.313 2.2 Lineare d.h. 31,3 % der Varianz der Variablen Motivation können durch die Prädiktorvariable Leistungsstreben erklärt werden. 39 / 130
2.17 Modellgüte: das Bestimmtheitsmaß Die Größe n (y i (ˆb 0 + ˆb n 1 x i )) 2 (y (ˆb 0 + ˆb 1 x i )) 2 R 2 i=1 i=1 = 1 = n n (y i y ) 2 (y i y ) 2 i=1 i=1 2.2 Lineare ist ein Maß für die Güte der heißt Bestimmtheitsmaß. Beachte: man kann zeigen, dass R 2 genau das Quadrat der Korrelation ist. Je besser das Modell ist, desto kleiner ist die Residualvarianz, bzw. desto größer R 2! Das Bestimmtheitsmaß R 2 liegt immer zwichen 0 und 1 40 / 130
Zusammenhang zwischen Bestimmtheitsmaß und F -Test Ist F n die Statistik für den F -Test aus 2.14 und R 2 das Bestimmtheitsmaß, dann gilt: R 2 = 1 n 2 F n 1 + 1 n 2 F n 2.2 Lineare In anderen Worten: die Statistik F n des F -Test aus 2.5 kann aus dem Bestimmtheitsmaß berechnet werden (und umgekehrt) Im Beispiel des Zusammenhangs zwischen Motivation und Leistungsstreben ist F n = 10.468 = R 2 = 10.468 23 1 + 10.468 23 = 0.313 C.a. 31.3% der Variation der Variablen Motivation können durch die die Variable Leistungsstreben erklärt werden 41 / 130
Vorhersagen: es gibt zwei unterschiedliche 2.18 Vorhersage für den Wert der Geraden an einer Stelle x Schätzung für den Wert der Geraden y(x) = b 0 + b 1 x an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x 2.2 Lineare (1 α)-konfidenzintervall für y(x) (ŷ(x) t n 2;α/2 ŝ y(x), ŷ(x) + t n 2;α/2 ŝ y(x) ) wobei ŝ 2 y(x) = S 2 y x ( 1 n + (x x ) 2 n i=1 (x i x ) 2 ) den Schätzer für die Varianz von Ŷ (x) bezeichnet 42 / 130
Vorhersagen: es gibt zwei unterschiedliche 2.19 Vorhersage für eine neue Beobachtung an einer Stelle x Schätzer für eine neue Beobachtung Ỹ (x) = b 0 + b 1 x + ε an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x 2.2 Lineare (1 α)-konfidenzintervall für y(x) (ŷ(x) t n 2;α/2 s y(x), ŷ(x) + t n 2;α/2 s y(x) ) wobei s 2 y(x) = S 2 y x (1 + 1 n + (x x ) 2 n i=1 (x i x ) 2 ) den Schätzer für die Varianz von ŷ(x) + ε bezeichnet Beachte: Diese Varianz wird bei wachsendem Stichprobenumfang nicht beliebig klein! 43 / 130
2.20 Beispiel (Fortsetzung von Beispiel 2.1) (1) Gesucht ist ein 90% Konfidenzintervall für den Wert der Geraden an der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = 22.737, ŝ 2 y(x) = 1.116, ŷ(16) = ˆb 0 + 16ˆb 1 = 18.49 Das 90% Konfidenzintervall für den Wert der Geraden an der Stelle 16 ist gegeben durch 2.2 Lineare [16.677, 20.299] (2) Gesucht ist ein 90% Konfidenzintervall für eine neue Beobachtung der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = 22.737, ŝ 2 ỹ(x) = 23.85, ŷ(16) = ˆb 0 + 16ˆb 1 = 18.49 Das 90% Konfidenzintervall für eine neue Beobachtung an der Stelle 16 ist gegeben durch [10.118, 26.859] 44 / 130
SPSS Output: Vorhersagen bei linearer in Beispiel 2.1 (schwierig) 2.2 Lineare 45 / 130
SPSS Output: Konfidenzintervalle für Vorhersagen bei linearer in Beispiel 2.1 35 30 16.0 2.2 Lineare 25 Motivation 20 15 10 5 0 10 20 30 40 Leistungsstreben 46 / 130
2.21 Residuenanalyse Unter der Modellannahme des linearen smodells gilt: die Größen ε i = Y i b 0 b 1 x i sind unabhängig und normalverteilt mit Erwartungswert 0 und Varianz σ 2 > 0. Das bedeutet, dass diese Eigenschaften auch näherungsweise für die Residuen 2.2 Lineare ˆε i = y i ˆb 0 ˆb 1 x i erfüllt sein sollte, falls die Modellannahme zutrifft. Residuenanalyse ist ein deskriptives Verfahren für die Überprüfung der Annahmen an ε 1,..., ε n mit 4 Teilschritten (oft werden auch nicht alle gemacht): A: Das Streudiagramm der Daten mit der slinie B: Ein Streudiagramm der Residuen gegen die vorhergesagten Werte C: Normalverteilungs-QQ-Plot der Residuen D: Histogramm der Residuen mit angepasster Normalverteilungsdichte 47 / 130
Residuenanalyse bei erfüllten Voraussetzungen Abhängige Variable 8 6 4 2 0 A Residuum 1.0 0.5 0.0 0.5 1.0 B 2.2 Lineare 2 2 1 0 1 2 1.5 0 2 4 6 1.0 Unabhängige Variable C 1.0 Vorhergesagter Wert D Empirische Quantile 0.5 0.0 0.5 1.0 1.5 2 1 0 1 2 Theoretische Quantile der Standardnormalvert. f(residuum) 0.8 0.6 0.4 0.2 0.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Residuum 48 / 130
Residuenanalyse bei Abweichungen von der Normalverteilung (Ausreißer) Abhängige Variable 20 10 0 10 A Residuum 20 15 10 5 0 5 10 B 2.2 Lineare Empirische Quantile 2 1 0 1 2 Unabhängige Variable C 20 15 10 5 0 5 10 2 1 0 1 2 Theoretische Quantile der Standardnormalvert. f(residuum) 0 2 4 6 8 Vorhergesagter Wert D 0.15 0.10 0.05 0.00 15 10 5 0 5 10 15 20 Residuum 49 / 130
Residuenanalyse bei Stratifizierung Beachte: verschiedene Untergruppen (Strata) können ebenfalls zu Abweichungen von den Modellannahmen führen. Für die Strata können dann unterschiedliche sgleichungen gelten. Abhängige Variable 15 10 5 0 5 10 10 A 2 1 0 1 2 Unabhängige Variable C Residuum 10 5 0 5 10 0.15 B 2 0 2 4 6 Vorhergesagter Wert D 2.2 Lineare Empirische Quantile 5 0 5 f(residuum) 0.10 0.05 10 2 1 0 1 2 Theoretische Quantile der Standardnormalvert. 0.00 10 5 0 5 10 Residuum 50 / 130
Residuenanalyse bei falscher Modellannahme Abhängige Variable Empirische Quantile A 40 20 0 20 40 60 2 1 0 1 2 Unabhängige Variable C 10 0 10 20 2 1 0 1 2 Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B 10 0 10 20 30 20 10 0 10 20 30 40 Vorhergesagter Wert D 0.05 0.04 0.03 0.02 0.01 0.00 30 20 10 0 10 20 Residuum 2.2 Lineare Statt des linearen Modells wäre ein Polynom 3. Grades die bessere Annahme für die Beschreibung des funktionalen Zusammenhangs! 51 / 130
Residuenanalyse bei ungleichen Varianzen (Heteroskedastizität) Abhängige Variable Empirische Quantile 20 10 0 10 20 30 40 30 20 10 0 10 20 30 40 A 2 1 0 1 2 Unabhängige Variable C 2 1 0 1 2 Theoretische Quantile der Standardnormalvert. Residuum f(residuum) 30 20 10 0 10 20 30 40 0.10 0.08 0.06 0.04 0.02 0.00 B 2 0 2 4 6 Vorhergesagter Wert D 40 20 0 20 Residuum 2.2 Lineare 52 / 130
SPSS Output: Residuenanalyse in Beispiel 2.1 35 30 25 2.2 Lineare Motivation 20 15 10 R-Quadrat linear = 0,313 5 0 10 20 30 40 Leistungsstreben Streudiagramm und geschätzte sgerade im Beispiel der Arbeitsmotivation 53 / 130
SPSS Output: Residuenanalyse in Beispiel 2.1 Standardized Residual 3,00000 2,00000 1,00000,00000 2.2 Lineare -1,00000-2,00000-2,00000-1,00000,00000 1,00000 2,00000 Standardized Predicted Value Streudiagramm der Residuen gegen die vorhergesagten Werte im Beispiel der Arbeitsmotivation 54 / 130
SPSS Output für Residuenanalyse 2 Q-Q-Diagramm von Normal von Standardized Residual 2.2 Lineare Erwarteter Wert von Normal 1 0-1 -2-2 -1 0 1 2 3 Beobachteter Wert QQ-Plot im Beispiel der Arbeitsmotiovation 55 / 130
Korrelation und lineare Es besteht ein enger Zusammenhang zwischen linearer Korrelation 2.2 Lineare Ist ˆb 1 die Schätzung im linearen smodell und ˆρ x,y der Korrelationskoeffizient von Pearson, dann gilt: n i=1 ˆρ x,y = (x i x ) 2 n i=1 (y i y ˆb ) 2 1 Ist R 2 das Bestimmtheitsmaß und ˆρ x,y der Korrelationskoeffizient von Pearson, dann gilt: ˆρ 2 x,y = R 2 56 / 130
2.2 Lineare 57 / 130
2.22 Beispiel: Arbeitsmotivation mit mehreren Prädiktoren y: Motivation (Einschätzung der Arbeitsmotivation durch Experten) Prädiktoren: Eigenschaften x1: Ehrgeiz (Fragebogen) x2: Kreativität (Fragebogen) x3: Leistungsstreben (Fragebogen) 2.2 Lineare Prädiktoren: Rahmenbedingungen x4: Hierarchie (Position in der Hierarchie des Unternehmens) x5: Lohn (Bruttolohn pro Monat) x6: Arbeitsbedingungen (Zeitsouveränität, Kommunikationsstruktur usw.) Prädiktoren: Inhalte der Tätigkeit x7: Lernponential (Lernpotential der Tätigkeit) x8: Vielfalt (Vielfalt an Teiltätigkeiten) x9: Anspruch (Komplexität der Tätigkeit) 58 / 130
Daten i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 1 32 36 30 20 20 3100 34 29 69 66 2 14 30 11 30 7 2600 39 16 47 36 3 12 19 15 15 8 3200 42 13 32 17 4 27 42 16 39 13 2500 43 15 63 49 5 20 14 22 5 22 3700 42 29 38 62 6 13 12 16 6 11 2600 36 17 39 51 7 17 17 20 12 11 2500 41 18 44 55 8 8 4 5 0 16 3800 23 9 31 33 9 22 32 20 35 20 3500 25 21 40 55 10 19 15 13 8 13 3100 29 21 57 56 11 25 38 5 34 21 3600 59 27 53 67 12 23 24 6 26 9 2600 45 31 54 62 2.2 Lineare 59 / 130
Daten i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 13 17 28 11 32 10 2600 30 7 45 26 14 22 36 4 26 16 2500 52 23 56 64 15 19 18 26 12 6 2500 40 17 54 55 16 27 40 27 36 12 2500 42 29 44 62 17 26 30 28 27 18 3000 38 34 43 64 18 20 27 11 26 10 2600 35 19 46 55 19 11 18 23 13 11 2800 42 18 31 43 20 24 32 18 19 15 2700 48 23 51 53 21 19 33 9 25 6 2400 38 23 37 65 22 19 33 22 30 5 2600 36 30 39 39 23 22 27 28 18 17 4000 45 23 52 54 24 24 30 32 21 11 2700 44 20 41 47 25 17 37 8 11 2 2300 32 20 44 41 2.2 Lineare 60 / 130
2.23 Das Modell der multiplen linearen Daten (x 1, y 1 ),..., (x n, y n ) Es gibt k unabhängige Variablen: x i = (x 1i,..., x ki ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen der Variablen Y und dem Vektor x 1 gilt (im Beispiel ist k = 9): 2.2 Lineare Y i = b 0 + b 1 x 1i + b 2 x 2i +... + b k x ki + ε i k = b 0 + b j x ji + ε i. j=1 ε i bezeichnet hier eine zufällige Störung und es wird angenommen, dass die Störungen ε 1,..., ε n unabhängig und normalverteilt sind mit Erwartungswert 0 und Varianz σ 2 > 0 Deutung: es wird ein linearer Zusammenhang zwischen x und Y postuliert, der noch zufälligen Störungen unterliegt 61 / 130
2.24 Schätzung bei multipler linearer Methode der kleinsten Quadrate: Minimiere n (y i b 0 b 1 x 1i b k x ki ) 2 i=1 2.2 Lineare bzgl. der Wahl von b 0,..., b k Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer ˆb 0, ˆb 1,..., ˆb k für die Parameter b 0,..., b k (Formeln sind kompliziert) Schätzer für die Varianz der Meßfehler S 2 y x = 1 n k 1 n (y i ˆb 0 ˆb 1 x 1i ˆb k x ki ) 2 i=1 62 / 130
Streudiagramm bei multipler linearer (k = 2) sfläche: ŷ(x) = 3.24 + 4.5x 1 + 5.27x 2. 40 2.2 Lineare 30 20 10 Y 0 10 20 30 5 0 5 3 2 1 0 1 2 3 4 X 1 X 2 63 / 130
Fortsetzung von Beispiel 2.22: Schätzer im multiplen linearen smodell Ergebnisse für die Schätzer im multiplen linearen smodel ˆb 0 = 3.842 ˆb1 = 0.193 ˆb 2 = 0.153 ˆb 3 = 0.049 ˆb 4 = 0.246 ˆb 5 = 0.000 ˆb 6 = 0.031 ˆb7 = 0.165 ˆb 8 = 0.206 ˆb9 = 0.053 2.2 Lineare Fragen: - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß der unabhängigen Merkmale auf die Motivation H 0 : b 1 = 0 H 0 : b 2 = 0. - Wie gut beschreibt das multiple lineare smodell die Situation? 64 / 130
Genauigkeit der Schätzung bei multipler linearer Schätzer ŝ b0,..., ŝ bk für die Standardfehler von ˆb 0,..., ˆb k sind verfügbar (Allgemeines lineares Modell Formeln kompliziert) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto genauer die Schätzungen Damit erhält man Konfidenzintervalle für b 0,..., b k, z.b. 2.2 Lineare (ˆb 0 t n k 1,1 α/2 ŝ b0, ˆb 0 + t n k 1,1 α/2 ŝ b0 ) ist (1 α)-konfidenzintervall für b 0 65 / 130
Fortsetzung von Beispiel 2.22: Schätzer für den Standardfehler der Schätzer im multiplen linearen smodell Ergebnisse für den Standardfehler der Schätzer im multiplen linearen smodell 2.2 Lineare Wegen t 15,0.975 = 2.1314 ist ŝ b0 = 5.052 ŝ b1 = 0.081 ŝ b2 = 0.049 ŝ b3 = 0.065 ŝ b4 = 0.148 ŝ b5 = 0.001 ŝ b6 = 0.054 ŝ b7 = 0.098 ŝ b8 = 0.052 ŝ b9 = 0.058 [ 0.089, 0.188] ein 95%-Konfidenzintervall für den Parameter b 3. Man beachte: 0.049 + 2.1314 0065 0.188) n = 25; k = 9 n k 1 = 15 66 / 130
2.25 Konfidenzintervalle für multiple lineare Modellannahme: multiple lineare Y i = b 0 + k b j x ji + ε i (i = 1,..., n) j=1 Rechterfertigung der Normalverteilungs- und Unabhängigkeitsannahme 2.2 Lineare Schätzer ŝ bj für den Standardfehler von ˆb j = (ˆb j t n k 1,1 α/2 ŝ bj, ˆb j + t n k 1,1 α/2 ŝ bj ) ist ein (1 α) -Konfidenzintervall für b j (j = 0,... k) t n k 1,1 α/2 ; (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden (Tabelle oder Software) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto kleiner die Konfidenzintervalle 67 / 130
2.26 Beispiel: Konfidenzintervalle für die Parameter in Beispiel 2.22 (Arbeitsmotivation ) ˆb j Merkmal Schätzung ŝ bj Konfidenzintervall ˆb 0-3.842 5.052 [-14.609, 6.926] ˆb 1 Ehrgeiz 0.193 0.081 [0.020, 0.365] ˆb 2 Kreativität 0.153 0.049 [0.049, 0.258] ˆb 3 Leistungsstreben 0.049 0.065 [-0.089, 0.188] ˆb 4 Hierarchie 0.246 0.148 [-0.069, 0.561] ˆb 5 Lohn 0.000 0.001 [-0.004, 0.002] ˆb 6 Arbeitsbdg. -0.031 0.054 [-0.147, 0.085] ˆb 7 Lernpotential 0.165 0.098 [-0.044, 0.373] ˆb 8 Vielfalt 0.206 0.052 [0.095, 0.316] ˆb 9 Anspruch 0.053 0.058 [-0.070, 0.177] 2.2 Lineare 68 / 130
SPSS Output: Schätzer, Standardabweichung und Konfidenzintervalle im Beispiel 2.22 (Arbeitsmotivation mit mehreren Prädiktoren) Koeffizienten a 2.2 Lineare Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze Obergrenze -14,609 6,926,020,365,049,258 -,089,188 -,069,561 -,004,002 -,147,085 -,044,373,095,316 -,070,177 69 / 130
2.27 Vorhersage der multiplen linearen Modellannahme: multiple lineare Y i = b 0 + k j=1 b jx ji + ε i (i = 1,..., n) Rechterfertigung der Normalverteilungs- und Unabhängigkeitsannahme Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) 2.2 Lineare ŷ(x) = ˆb 0 + k j=1 ˆb j x j In Beispiel 2.22 ergibt sich z.b. als Vorhersage der multiplen linearen an der Stelle x 1 = 21, x 2 = 30, x 3 = 15, x 4 = 11,, x 5 = 2900, x 6 = 41, x 7 = 25, x 8 = 55, x 9 = 54 der Wert ŷ(x) = 22.717 70 / 130
Vorhersage der multiplen linearen Beachte: Wie in Abschnitt 2.18 und 2.19 gibt es zwei Vorhersagen: 2.2 Lineare Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Vorhersage für den Wert einer neuen Beobachtung an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Für beide Vorhesagen, kann man den Standardfehler bestimmen (Formeln kompliziert) und Konfidenzbereiche angeben (vgl. Abschnitt 2.18 und 2.19 für den Fall k = 1 ) 71 / 130
SPSS Output: Vorhersage bei der multiplen linearen (schwierig) 2.2 Lineare Beispiel: Schätzung für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): 14.348 Schätzung für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): 14.348 72 / 130
SPSS Output: Konfidenzintervalle für Vorhersagen bei mulitpler linearer 2.2 Lineare Konfidenzintervall für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [12.399, 16.297] Konfidenzintervall für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [9.870, 18.826] 73 / 130
2.28 Bestimmtheitsmaß bei multipler linearer Modellvohersage: ŷ i = ˆb 0 + ˆb 1 x 1i +... ˆb k x ki = ˆb 0 + k ˆb j x ji j=1 Residuum ˆε i = y i ŷ i = y i (ˆb 0 + k j=1 ˆb j x ji ) Beachte: Die Werte der abhängigen Variable zerfallen in Modellvorhersage (ŷ) und Residuum (ˆε), d.h. 2.2 Lineare y i = ŷ i + ˆε i i = 1,..., n Die Güte der Modellanpassung wird (wieder) durch das Besimmtheitsmaß R 2 beschrieben werden (Anteil erklärter Varianz) n R 2 i=1 = 1 (y i ŷ i ) 2 n n i=1 (y i y = i=1 (ŷ i y ) 2 ) 2 n i=1 (y i y. ) 2 74 / 130
Beispiel: das Bestimmtheitsmaß für das Beispiel 2.22 (Arbeitsmotivation) In Beispiel 2.22 ist 2.2 Lineare n = 25; k = 9 n i=1 (y i ŷ i ) 2 = 53.651 n i=1 (y i y ) 2 = 790.96 R 2 = 1 53.651 790.96 = 92.95 D.h. 92.95% der Varianz der Variablen Motivation werden durch das multiple lineare smodell erklärt 75 / 130
2.29 Statistische Tests bei der multiplen linearer. Zwei wichtige Fragestellungen: Frage A: Hat mindestens eine der Prädiktorvariablen x 1,..., x k einen Einfluß auf die abhängige Variable y (Gesamttest auf Signifikanz). Mathematische Formulierung der Hypothese: Nullhypothese: 2.2 Lineare H 0 : b j = 0 für alle j {1, 2,..., k} Alternative: H 1 : b j 0 für mindestens ein j {1, 2,..., k} Frage B: Hat die Prädiktorvariablen x j (z.b. Ehrgeiz) einen Einfluß auf die abhängige Variable y. Mathematische Formulierung der Hypothese: Nullhypothese: H 0 : b j = 0 Alternative: H 1 : b j 0 76 / 130
2.29(A) Gesamttest auf Signifikanz Nullhypothese: H 0 : b j = 0 für alle j {1, 2,..., k} Alternative: H 1 : b j 0 für mindestens ein j {1, 2,..., k} (1) Bestimme Sreg 2 = 1 k n (ŷ i y ) 2 i=1 die Varianz der, und 2.2 Lineare S 2 y x = die Residualvarianz 1 n k 1 n (y i ŷ i ) 2 i=1 Beachte: man geht genau wie im linearen smodell vor! 77 / 130
2.29(A) Gesamttest auf Signifikanz (2) H 0 wird zu Gunsten der Alternative H 1 verworfen, falls F n = S 2 reg S 2 y x > F k;n k 1;1 α 2.2 Lineare gilt (oder der entsprechende p-wert kleiner als α ist). Dabei bezeichnet F k;n k 1;1 α das (1 α) Quantil der F -Verteilung mit (k, n k 1) Freiheitsgraden, Beachte: Wird H 0 durch diesen Test verworfen, dann bleibt aber noch unklar, welches der Merkmale signifikant ist 78 / 130
2.29(B) Tests für die Signifikanz einzelner Merkmale Nullhypothese: H 0 : b j = 0 Alternative: H 1 : b j 0 Die Nullhypothese H 0 wird zu Gunsten der Alternative H 1 verworfen, falls ˆb j T n = > t n k 1;1 α/2 ŝ bj 2.2 Lineare gilt (oder der entsprechende p-wert kleiner als α ist). Dabei ist tn k 1;1 α/2 das (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden ŝbj der Standardfehler von ˆb j Beachte: Werden mehrere Hypothesen gestestet, ist das Niveau entsprechend anzupassen (vgl. Abschntt 1.18). 79 / 130
2.30(A) Test auf Signifikanz im multiplen smodel in Beispiel 2.22 Frage: Hat einer der 9 Prädiktorvariablen einen Einfluß auf die abhängige Variable? 2.2 Lineare Mathematische Hypothesen: H 0 : b j = 0 für alle j = 1,..., 9 H 1 : b j 0 für mindestens ein j {1,..., 9} F n = 21.972, F 9,15,0.95 = 2.5876 Da F n > 21.972 > 2.5876 ist, wird die Nullhypothese zum Niveau 5% verworfen. 80 / 130
2.30(B) Beispiel: Test auf Signifikanz eines Merkmals im multiplen linearen smodell in Beispiel 2.22 Frage: Hat die Prädiktorvariable Ehrgeiz (x 1 ) einen Einfluß auf die abhängige Variable Motivation (Signifikanz des skoeffizienten b 1 )? Mathematische Hypothesen: 2.2 Lineare H 0 : b 1 = 0; H 1 : b 1 0 ˆb1 = 0.193, ŝ b1 = 0.081, t 25 10,0.975 = 2.13 T 25 = 2.381 Da T 25 = 2.381 > 2.13 wird die Nullhypothese H 0 zu Gunsten der Alternative H 1 : b 1 0 verworfen (zum Niveau 5%) 81 / 130
SPSS Output: Der Test 2.29(A) für das Beispiel 2.22 (Arbeitsmotivation) ANOVA b 2.2 Lineare Modell 1 Residuen Gesamt Quadratsumme 707,309 53,651 760,960 df 9 15 24 Mittel der Quadrate a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Abhängige Variable: Y 78,590 3,577 F 21,972 Signifikanz,000 a 82 / 130
SPSS Output: Der Test 2.29(B) für das Beispiel 2.22 (Arbeitsmotivation) Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Koeffizienten a Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070 Obergrenze 6,926,365,258,188,561,002,085,373,316,177 2.2 Lineare 83 / 130
2.31 Das Problem der Multikollinearität Beispiel: Betrachte in dem Beispiel der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 Prädiktorvariablen Y i = b 0 + b 1 x 1i + b 2 x 2i + b 3 x 3i + ε i i = 1,..., 25 (Y : Motivation, x 1 : Ehrgeiz x 2 : Kreativität, x 3 : Leistungsstreben) Schätzer für die Modellparameter 2.2 Lineare i ˆb i ŝ bi p-wert 0 5.54 2.62 1 0.39 0.14 0.008 2 0.23 0.09 0.020 3 0.001 0.12 0.994 Bestimmtheitsmaß R 2 = 0.7861 Beachte: nur für den Koeffizient b 3 (Leistungsstreben) kann keine Signifikanz (zum Niveau 5% ) nachgewiesen werden 84 / 130
Korrelationsmatrix für die Prädiktoren Motivation Ehrgeiz Kreativität Leistungsstreben Motivation 1 Ehrgeiz.71 1 Kreativität.38.05 1 Leistungsstreben.56.82* -.02 1 2.2 Lineare Beachte: Der Test 2.5 liefert eine signifikante Korrelation (zum Niveau 1%) zwischen den Variablen Leistungsstreben und Ehrgeiz (SPSS) 85 / 130
Beachte: Es gibt eine signifikante Korrelation zwischen den Variablen Leistungsstreben und Ehrgeiz Beide Variablen tragen weitgehend identische Information Im Beispiel ist die Variable Leistungsstreben redundant und wird nicht für die Vorhersage der abhängigen Variablen Motivation benötigt Die Variable Ehrgeiz ist stärker mit der Variablen Motivation korreliert als die Variable Leistungsstreben (aus diesem Grund ist der entsprechende Koeffizient auch signifikant) 2.2 Lineare Für die Bestimmtheitsmaße in den multiplen linearen smodellen mit drei bzw. zwei Variablen erhält man R 2 = 0.786179 für Modell mit den Prädiktoren x 1, x 2, x 3 R 2 = 0.786178 für Modell mit den Prädiktoren x 1, x 2 86 / 130
SPSS Output: Multikollinearität; Schätzer im Modell mit 3 Parametern Koeffizienten a 2.2 Lineare Modell B 1 (Konstante) 5,539 x1,393 x2,225 x3,001 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standard fehler 2,618,135,089,123 Standardisierte Koeffizienten Beta,688,343,002 T 2,116 2,913 2,528,008 Signifi kanz,046,008,020,994 95%-Konfidenzintervall für B Untergrenze Obergrenze,095 10,983,112,674,040,410 -,255,257 87 / 130
SPSS Output: Multilkollinearität; Korrelationsmatrix Y x1 x2 x3 Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Y 1,000,000 25,379,061,004 25 x1,708 **,000,053,802,000 Korrelationen 25 25 x2,061,802 25 1,000,939 25 x3,559 **,004 25 25 25 25,708 ** 1,000,053,818 **,000 25 -,016,939 25 25 25 25,559 **,818 ** -,016 1,000 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.,379 25 2.2 Lineare 88 / 130
2.32 Das Problem der Suppressionseffekte Beispiel: Betrachte in dem Beispiel 2.22 der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 anderen Prädiktorvariablen 2.2 Lineare Y i = b 0 + b 4 x 4i + b 5 x 5i + b 6 x 6i + ε i i = 1,..., 25 (Y : Motivation, x 4 : Hierarchie, x 5 : Lohn, x 6 : Arbeitsbedingungen) Schätzungen für die Modellparameter i ˆbi ŝ bi p-wert 0 25.08 8.40 0.007 4 0.88 0.26 0.002 5-0.01 0.003 0.016 6 0.13 0.12 0.308 89 / 130
Korrelationsmatrix für die Variablen Motivation, Hierarchie, Lohn und Arbeitsbedingungen Motivation Hierarchie Lohn Arbeitsbedingungen Motivation 1 Hierarchie.42* 1 Lohn -.04.72** 1 Arbeitsbedingungen.35.16 -.06 1 2.2 Lineare Beachte: Zwischen der Prädiktorvariablen Lohn (x 5 ) und der abhängigen Variablen Motivation liegt keine signifikante Korrelation vor Dennoch bekommt diese Variable im multiplen smodell ein signifikantes Gewicht; d.h. die Hypothese H 0 : b 5 = 0 wird zum Niveau 5% verworfen (p-wert: 0.016). Man spricht von einem Suppressionseffekt. 90 / 130
Grund für diesen scheinbaren Widerspruch: Korrelationen sind bivariate Maße für (zwischen zwei Merkmalen). Das Modell der multiplen untersucht aber den Zusammenhang zwischen der Variablen Motivation und dem (3-dimensionalen) Prädiktor (x 4, x 5, x 6 ): 2.2 Lineare Motivation ist stark mit der Variablen Hierarchie korreliert Lohn ist ebenfalls stark mit der Variablen Hierarchie korreliert Prädiktorvariable Lohn wird in der multiplen linearen benötigt, um unerwünschte Varianzanteile der Variablen Hierarchie zu kompensieren Bestimmtheitsmaße für verschiedene Modelle R 2 = 0.664282 für Modell mit x 4, x 5, x 6 R 2 = 0.509720 für Modell mit x 4, x 6 91 / 130
SPSS Output: Suppressionseffekte; Schätzer im Modell mit 4 Parametern 2.2 Lineare Koeffizienten a Modell 1 (Konstante) x4,884 x5 -,007 x6,125 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten Standard B fehler Beta T Signifikanz 25,076 8,398 2,986,007,257,003,120,843 -,632,179 3,444-2,612 1,045,002,016,308 95%-Konfidenzintervall für B Untergrenze Obergrenze 7,612 42,539,350 1,419 -,013 -,001 -,124,375 92 / 130
SPSS Output: Suppressionseffekte; Schätzung der Korrelationsmatrix Y x4 x5 x6 Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Y 1,000,037 25 -,038,856 25,354,082 25 x4,419 *,037 25,717 **,000 25,163,435 Korrelationen 25 x5,000 25 1,000 25 -,060,777 25 x6 25 25 25 25,419 * 1,000,717 **,163 *. Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant. **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. -,038,856,354,082,435 25 -,060,777 25 1,000 25 2.2 Lineare 93 / 130
2.33 Merkmalselektionsverfahren Ziel: mit möglichst wenig Prädiktorvariablen eine gute Vorhersage der abhängigen Variablen zu erzielen. Prinzip: untersuche wie sich durch Weglassen einzelner Variablen das Bestimmtheitsmaß R 2 verändert. 2.2 Lineare Typische Selektionsprozeduren: (A) Rückwärtsverfahren (B) Vorwärtsverfahren (C) Schrittweise Verfahren Beachte: es handelt sich um explorative Verfahren, die hauptsächlich der Modellbildung dienen (Interpretation nicht einfach). 94 / 130
2.34 Das Rückwärtsverfahren Betrachte das vollständige Modell (mit allen Prädiktorvariablen) und berechne das Bestimmtheitsmaß R 2 Entferne sukzessive diejenigen Variablen, die zu dem geringsten Rückgang des Bestimmtheitsmaßes führen würden Das Verfahren wird abgebrochen, falls sich bei dem Entfernen einer Variablen das Bestimmtheitsmaß signifikant verkleinert 2.2 Lineare 95 / 130
2.35 Beispiel: Variablenselektion mit dem Rückwärtsverfahren (vgl. Beispiel 2.22) Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 1 Ehrgeiz 2.38.929 Kreativität 3.13 Leistungsstreben.76 Hierarchie 1.66 Lohn -.59 Arbeitsbedingungen -.58 Lernpotential 1.68 Vielfalt 3.97 Anspruch.92 2.2 Lineare 2 Ehrgeiz 2.38 Arbeitsbedingungen.928 Kreativität 3.28 Leistungsstreben.79 Hierarchie 1.66 Lohn -.57 Lernpotential 1.66 Vielfalt 4.04 Anspruch.91 96 / 130
Beispiel: Rückwärtsverfahren - Fortsetzung Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 3 Ehrgeiz 2.54 Arbeitsbedingungen.926 Kreativität 3.43 Lohn Leistungsstreben.88 Hierarchie 2.11 Lernpotential 1.59 Vielfalt 4.17 Anspruch 1.35 2.2 Lineare 4 Ehrgeiz 5.40 Arbeitsbedingungen.923 Kreativität 3.38 Lohn Hierarchie 2.31 Leistungsstreben Lernpotential 1.55 Vielfalt 4.12 Anspruch 1.31 5 Ehrgeiz 5.18 Arbeitsbedingungen.916 Kreativität 3.16 Lohn Hierarchie 2.84 Leistungsstreben Lernpotential 3.31 Anspruch Vielfalt 5.04 97 / 130
SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation Aufgenommene/Entfernte Variablen b Entfernte Modell Aufgenommene Variablen Variablen Methode 1 x9, x5, x2, x3, x6, x8, x7, x4,. Eingeben 2. x6 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 3. x5 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 4. x3 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 5. x9 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). a. Alle gewünschten Variablen wurden aufgenommen. b. Abhängige Variable: Y 2.2 Lineare 98 / 130
SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation Modellzusammenfassung Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,964 a,929,887 1,891,929 21,972 9 15,000 2,963 b,928,892 1,851 -,002,332 1 15,573 3,963 c,926,896 1,814 -,001,327 1 16,575 4,961 d,923,897 1,803 -,003,783 1 17,389 5,957 e,916,894 1,837 -,007 1,713 1 18,207 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 2.2 Lineare 99 / 130
SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: ANOVA Modell 1 2 3 4 5 Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadratsumme 707,309 53,651 760,960 706,120 54,840 760,960 705,000 55,960 760,960 702,422 58,538 760,960 696,852 64,108 760,960 df 15 24 8 16 24 7 17 24 6 18 24 5 19 24 Mittel der Quadrate 78,590 3,577 88,265 3,427 100,714 3,292 117,070 3,252 139,370 3,374 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 f. Abhängige Variable: Y 9 F 21,972 25,752 30,596 35,999 41,306 ANOVA f Signifikanz,000 a,000 b,000 c,000 d,000 e 2.2 Lineare 100 / 130
SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell 1 (Konstante) 2 3 x1 x2 x3 x4 x5 x6 x7 x8 x9 (Konstante) x1 x2 x3 x4 x5 x7 x8 x9 (Konstante) x1 x2 x3 x4,193,153,049,246,000 -,031,165,206,053-4,737,187,157,050,240,000,157,205,052-7,154,193,159,055,172 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz -3,842 5,052 -,760,459,081,049,065,148,001,054,098,052,058 4,706,079,048,063,144,001,095,051,057 2,027,076,046,062,081,337,234,095,235 -,077 -,045,199,354,124,326,239,096,228 -,073,190,352,121,338,244,105,164 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920-1,007 2,376 3,285,790 1,660 -,572 1,655 4,040,914-3,529 2,540 3,431,885 2,113 Koeffizienten a,031,007,458,117,564,573,113,001,372,329,030,005,441,116,575,117,001,374,003,021,003,389,050 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070-14,713,020,056 -,084 -,066 -,004 -,044,097 -,068-11,431,033,061 -,076,000 Obergrenze 6,926,365,258,188,561,002,085,373,316,177 5,238,353,258,185,545,002,358,312,172-2,877,354,258,185,344 2.2 Lineare 101 / 130
2.36 Das Vorwärtsverfahren Bestimme diejenige Prädiktorvariable, die mit der abhängigen Variablen am stärksten korreliert ist und berechne das Bestimmtheitsmaß R 2 Ist R 2 signifikant, wird diese Variable in das Modell aufgenommen Füge sukzessive diejenigen Variablen zu dem Modell hinzu, die zu dem größten Anstieg des Bestimmtheitsmaßes führen Das Verfahren bricht ab, falls sich bei Hinzunahme einer neuen Variablen das Bestimmtheitsmaß R 2 nicht signifikant vergrößert 2.2 Lineare 102 / 130
SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation Aufgenommene Variablen Entfernte Variablen Modell Methode 1 x1. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) 2 Vorwährts- (Kriterium: Wahrscheinlichkeit x9. von F-Wert für Aufnahme <=,050) 3 x2. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) 4 Vorwährts- (Kriterium: Wahrscheinlichkeit x8. von F-Wert für Aufnahme <=,050) 5 x4. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) a. Abhängige Variable: Y Aufgenommene/Entfernte Variablen a 2.2 Lineare 103 / 130
SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation Modellzusammenfassung 2.2 Lineare Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,708 a,501,479 4,065,501 23,059 1 23,000 2,863 b,744,721 2,973,244 20,980 1 22,000 3,906 c,820,795 2,552,076 8,876 1 21,007 4,944 d,891,869 2,039,070 12,879 1 20,002 5,955 e,913,890 1,869,022 4,810 1 19,041 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 104 / 130
SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation: ANOVA Modell 1 2 3 4 5 Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadrat summe 380,968 379,992 760,960 566,456 194,504 760,960 624,244 136,716 760,960 677,797 83,163 760,960 694,596 66,364 760,960 df 23 24 2 22 24 3 21 24 4 20 24 5 19 24 Mittel der Quadrate 380,968 16,521 283,228 8,841 208,081 6,510 169,449 4,158 138,919 3,493 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 f. Abhängige Variable: Y 1 ANOVA f F 23,059 32,035 31,962 40,751 39,773 Signifikanz,000 a,000 b,000 c,000 d,000 e 2.2 Lineare 105 / 130
SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell 1 (Konstante) 2 3 4 5 x1 (Konstante) x1 x9 (Konstante) x1 x9 x2 (Konstante) x1 x9 x2 x8 (Konstante) x1 x9 x2 x8 x4,404,063,320,221-2,101,319,203,183-6,502,253,150,192,190-6,833,271,116,177,181,181 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 9,088 2,406 3,778,001,084 2,642,064,048 2,380,055,042,061 2,263,048,037,049,053 2,080,045,037,045,049,083 Koeffizienten a,708,560,515,558,474,279,442,350,293,327,474,271,271,311,173 4,802,024 4,983 4,580 -,883 5,776 4,862 2,979-2,873 5,286 4,101 3,908 3,589-3,285 6,076 3,147 3,903 3,706 2,193,000,981,000,000,387,000,000,007,009,000,001,001,002,004,000,005,001,001,041 95%-Konfidenzintervall für B Untergrenze 4,111,230-5,415,187,121-7,052,204,116,055-11,224,153,074,089,080-11,186,178,039,082,079,008 Obergrenze 14,064,579 5,542,454,321 2,849,433,290,310-1,781,352,226,294,301-2,479,364,193,272,283,354 2.2 Lineare 106 / 130
2.37 Das schrittweise Verfahren Rückwärts- und Vorwärtsverfahren werden kombiniert! Man führt ein Vorwärtsverfahren durch, wobei in jedem Schritt untersucht wird, ob bei Entfernen einer bereits aufgenommenen Variable das Bestimmtheitsmaß signifikant abnehmen würde. 2.2 Lineare 107 / 130
SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation Modell 1 Aufgenommene Variablen Entfernte Variablen Methode x1. Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 2 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x9. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 3 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x2. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 4 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x8. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 5 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x4. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). a. Abhängige Variable: Y Aufgenommene/Entfernte Variablen a 2.2 Lineare 108 / 130
SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation Modellzusammenfassung 2.2 Lineare Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,708 a,501,479 4,065,501 23,059 1 23,000 2,863 b,744,721 2,973,244 20,980 1 22,000 3,906 c,820,795 2,552,076 8,876 1 21,007 4,944 d,891,869 2,039,070 12,879 1 20,002 5,955 e,913,890 1,869,022 4,810 1 19,041 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 109 / 130
SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation: ANOVA Modell 1 2 3 4 5 Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadratsumme 380,968 379,992 760,960 566,456 194,504 760,960 624,244 136,716 760,960 677,797 83,163 760,960 694,596 66,364 760,960 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 f. Abhängige Variable: Y df 1 23 24 2 22 24 3 21 24 4 20 24 5 19 24 Mittel der Quadrate 380,968 16,521 283,228 8,841 208,081 6,510 169,449 4,158 138,919 3,493 ANOVA f F 23,059 32,035 31,962 40,751 39,773 Signifikanz,000 a,000 b,000 c,000 d,000 e 2.2 Lineare 110 / 130
SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell 1 2 3 4 5 (Konstante) x1 (Konstante) x1 x9 (Konstante) x1 x9 x2 (Konstante) x1 x9 x2 x8 (Konstante) x1 x9 x2 x8 x4 Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 9,088,404,063,320,221-2,101,319,203,183-6,502,253,150,192,190-6,833,271,116,177,181,181 2,406,084 2,642,064,048 2,380,055,042,061 2,263,048,037,049,053 2,080,045,037,045,049,083 Koeffizienten a,708,560,515,558,474,279,442,350,293,327,474,271,271,311,173 3,778 4,802,024 4,983 4,580 -,883 5,776 4,862 2,979-2,873 5,286 4,101 3,908 3,589-3,285 6,076 3,147 3,903 3,706 2,193,001,000,981,000,000,387,000,000,007,009,000,001,001,002,004,000,005,001,001,041 95%-Konfidenzintervall für B Untergrenze 4,111,230-5,415,187,121-7,052,204,116,055-11,224,153,074,089,080-11,186,178,039,082,079,008 Obergrenze 14,064,579 5,542,454,321 2,849,433,290,310-1,781,352,226,294,301-2,479,364,193,272,283,354 2.2 Lineare a. Abhängige Variable: Y 111 / 130
2.38 Bemerkung zu den verschiedenen Merkmalselektionsverfahren Beachte: Verschiedene Verfahren liefern verschiedene Ergebnisse (es gibt kein richtig oder falsch!) 2.2 Lineare Beispiel (Arbeitsmotivation) Rückwärtsverfahren Vorwärtsverfahren Schrittweises Verfahren Ehrgeiz Ehrgeiz Ehrgeiz Kreativität Kreativität Kreativität Hierarchie Hierarchie Hierarchie Lernpotential Anspruch Anspruch Vielfalt Vielfalt Vielfalt R 2 =.916 R 2 =.913 R 2 =.913 112 / 130
2.2 Lineare 113 / 130
Nichtlineare Die (multiplen) linearen smodelle beruhen auf der Annahme, dass der Zusammenhang zwischen jeder Prädiktorvariable und der abhängigen Variablen linear ist, d.h., durch eine Gerade beschrieben werden kann 2.2 Lineare Diese Annahme muss nicht immer erfüllt sein. zwischen Variablen können im Grunde beliebige Form haben Man spricht in diesen Fällen von nichtlinearen n 114 / 130
2.39 Beispiel: Gedächtnistest Mehrere Personen machen einen Gedächtnistest 2.2 Lineare 30 Ortsnamen (aus Mongolei) werden vorgegeben y(x): Anzahl der Ortsnamen, die nach x Tagen noch im Gedächtnis geblieben sind (Mittelwerte) x 1 2 3 4 5 6 7 8 9 10 y(x) 24.9 19.7 17.0 13.2 11.0 8.5 7.9 5.8 5.5 5.0 115 / 130
Das Streudiagramm für die Daten aus Beispiel 2.39 (Gedächtnistest) 30,0 2.2 Lineare Anzahl der Ortsnamen 20,0 10,0,0 0 2 4 6 8 10 Tage 116 / 130
Lineare für die Daten aus Beispiel 2.39 (Gedächtnistest) 30,0 2.2 Lineare Anzahl der Ortsnamen 20,0 10,0,0 0 2 4 6 8 10 Tage Die Gleichung der geschätzten Geraden: y = 10.579 0.429x 117 / 130
Residuenanalyse bei linearer für die Daten aus Beispiel 2.39 (Gedächtnistest) 2,00000 2.2 Lineare Standardized Residual 1,00000,00000-1,00000-1,50000-1,00000 -,50000,00000,50000 1,00000 1,50000 Standardized Predicted Value 118 / 130
QQ - Plot bei linearer für die Daten aus Beispiel 2.39 (Gedächtnistest) 1,5 Q-Q-Diagramm von Normal von Standardized Residual 2.2 Lineare 1,0 Erwarteter Wert von Normal 0,5 0,0-0,5-1,0-1,5-2 -1 0 1 2 Beobachteter Wert 119 / 130
Beachte: Ein lineares modell ist für die Beschreibung des Zusammenhangs ungeeignet! Quadratisches smodel 2.2 Lineare Y i = b 0 + b 1 x i + b 2 x 2 i + ε i Schätzung der Parameter mit der Methode der kleinsten Quadrate und die entsprechenden Standardfehler ˆb 0 = 29.088 ˆb 1 = 4.876 ˆb 2 = 0.249 ŝ b0 = 0.558 ŝ b1 = 0.233 ŝ b2 = 0.021 120 / 130
Konfidenzbereiche und Tests Man geht wie in 2.12 und 2.14 bzw. 2.29 vor 90% Konfidenzintervall für b 2 (man beachte: das Modell hat 3 Parameter) t 10 3,0.95 = 1.8946 ˆb2 = 0.249 ŝ b2 = 0.021 2.2 Lineare [ˆb 2 t 7,0.95 ŝ b2, ˆb 2 + t 7,095 ŝ b2 ] = [0.2092, 0.2888] ist 90% Konfidenzintervall für b 2 Die Hypothese H 0.b 2 = 0 wird (zum Niveau 10%) verworfen, fall ˆb 2 > t10 3,0.95 ŝ b2 gilt (im Beispiel wird also H 0 abgelehnt) 121 / 130
SPSS-Output: Schätzer für quadratische 2.2 Lineare Nicht standardisierte Koeffizienten Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta t Sig. Tage -4,876,233-2,183-20,927,000 Tage ** 2,249,021 1,257 12,055,000 (Konstante) 29,088,558 52,136,000 122 / 130
Streudiagramm für die Daten aus Beispiel 2.39 mit der geschätzten Parabel 30,0 Anzahl der Ortsnamen Beobachtet Quadratisch 2.2 Lineare 20,0 10,0 0,0 0 2 4 6 8 10 Tage 123 / 130
SPSS-Output: Residuenanalysefür für die Daten aus Beispiel 2.39 bei quadratischer 2,00000 2.2 Lineare 1,00000 Standardized Residual,00000-1,00000-2,00000-1,00000 -,50000,00000,50000 1,00000 1,50000 2,00000 Standardized Predicted Value 124 / 130
SPSS-Output: QQ-Plot für die Daten aus Beispiel 2.39 bei quadratischer 1,5 Q-Q-Diagramm von Normal von Standardized Residual 2.2 Lineare 1,0 Erwarteter Wert von Normal 0,5 0,0-0,5-1,0-1,5-2 -1 0 1 2 Beobachteter Wert 125 / 130
SPSS-Output: Histogramm für die Residuen aus Beispiel 2.39 bei quadratischer Histogramm Abhängige Variable: Anzahl der Ortsnamen 2.2 Lineare 2,5 Mittelwert =3,96E-16 Std.-Abw. = 0,882 N =10 2,0 Häufigkeit 1,5 1,0 0,5 0,0-2 -1 0 1 2 Standardisiertes Residuum 126 / 130
2.40 Polynomiale smodelle Modelle zur polynomialen Ordnung Modell 0. Y = b 0 + ε 1. Y = b 0 + b 1 x 1 + ε 2. Y = b 0 + b 1 x 1 + b 2 x 2 + ε.. k. Y = b 0 + b 1 x 1 + b 2 x 2 +... + b k x k + ε 2.2 Lineare Beachte: In der Regel werden nur Modelle von niedrigem Grad verwendet (k 3)! Schätzung der Parmeter erfolgt mit der Methode der kleinsten Quadrate Konfidenzintervalle, Tests und Residuenanalyse werden wie bei der linearen bzw. multiplen durchgeführt (Allgemeines lineares Modell) 127 / 130
2.41 Mehrdimensionale Polynome Sind mehrere Prädiktorenvariable verfügbar, so können neben Potenzen auch Produkte von zwei oder mehr Variablen in die sgleichung aufgenommen werden Beispiele: 2.2 Lineare Y (x) = b 0 + b 1 x 1 + b 2 x 2 + b 12 x 1 x 2 + ε Y (x) = b 0 + b 1 x 1 + b 2 x 2 + b 12 x 1 x 2 + b 02 x 2 1 + b 20 x 2 2 + ε Y (x) = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 120 x 1 x 2 + b 103 x 1 x 3 +b 023 x 2 x 3 + b 123 x 1 x 2 x 3 + ε 128 / 130
3D-Streudiagramm mit der geschätzten Funktion 100 80 60 40 2.2 Lineare Y 20 0 20 40 60 6 4 2 X 2 0 2 4 6 4 2 X 1 0 2 4 Die geschätzte Funktion ist:. ŷ(x) = 2.23 + 3.52x 1 + 5.77x 2 + 3.96x 1 x 2 129 / 130
Y 3D-Streudiagramm mit der geschätzten Funktion Polynomiale Terme und Produkte der Prädiktoren können natürlich auch gemeinsam vorkommen. Beispiel: y(x) = b 0 + b 11 x 1 + b 12 x 2 1 + b 21 x 2 + b 23 x 3 2 + b 11;21 x 1 x 2 + ε. 2.2 Lineare 100 80 60 40 20 0 20 40 60 6 4 2 X 2 0 2 4 6 4 2 X 1 0 2 4 Die angepasste Funktion hat die Form ŷ(x) = 1 + 2.15x 1 + 6.59x 2 1 + 1.66x 2 + 3.07x 3 2 + 3.76x 1 x 2 130 / 130