2. Korrelation, lineare Regression und multiple Regression

Transkript

1 multiple 2.2 Lineare 2.2 Lineare 1 / 130

2 2.2 Lineare 2 / 130

3 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) 2.2 Lineare Frage: besteht ein Zusammenhang zwischen der Variablen Motivation und der Variablen Leistungsstreben Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 3 / 130

4 Daten x y x y x y Lineare 4 / 130

5 2.2 Der Korrelationskoeffizient von Pearson Daten (x 1, y 1 ),..., (x n, y n ) Maß für die (lineare) Abhängigkeit zwischen x und y: Korrelationskoeffizient von Pearson ˆρ X,Y = s n x,y i=1 = (x i x )(y i y ) s x,x s n y,y i=1 (x i x ) 2 n i=1 (y i y ) Lineare Dabei ist: x = 1 n n i=1 x i : Mittelwert der Daten x i y = 1 n n i=1 y i : Mittelwert der Daten y i s 2 x,x = 1 n n i=1 (x i x ) 2 : Varianz der Daten x i s 2 y,y = 1 n n i=1 (y i y ) 2 : Varianz der Daten y i s 2 x,y = 1 n n i=1 (x i x )(y i y ) : Kovarianz zwischen den Daten x i, y i 5 / 130

6 2.3 Eigenschaften des Korrelationskoeffizienten (1) 1 ˆρ X,Y 1 (2) ˆρ X,Y = 1 genau dann, wenn ein exakter linearer Zusammenhang y i = b 0 + b 1 x i mit b 1 > 0 besteht (ohne Störgrößen). (3) ˆρ X,Y = 1 genau dann, wenn ein exakter linearer Zusammenhang 2.2 Lineare y i = b 0 + b 1 x i mit b 1 < 0 besteht (ohne Störgrößen). (4) Der Korrelationskoeffizient ist invariant bzgl. linearer Transformationen, d.h. } x i = a 0 + a 1 x i i = 1,..., n ρ ỹ i = c 0 + c 1 y i i = 1,..., n X,Ỹ = ρ X,Y (4) Der Korrelationskoeffizient von Pearson ist ein deskriptives Maß für den linearen Zusammenhang in der Stichprobe (x 1, y 1 ),..., (x n, y n ) 6 / 130

7 2.4 Beispiel: Korrelationskoeffizient für die Daten aus Beispiel 2.1 Variablen x: Leistungsstreben y: Motivation Korrelationskoeffizient von Pearson 2.2 Lineare ˆρ x,y = Fragen: Wie genau ist diese Schätzung? Ist die Korrelation von 0 verschieden (Unkorreliertheit zwischen den Merkmalen Leistungsstreben und Motivation)? 7 / 130

8 2.5 Signifikanztest für Korrelation ρ bezeichne die Korrelation des Merkmals X mit dem Merkmal Y einer Population (x 1, y 1 ),..., (x n, y n ) ist eine Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grundgesamtheit Ein Test zum Niveau α für die Hypothese die Merkmale sind unkorreliert H 0 : ρ = 0 lehnt die Nullhypothese zu Gunsten der Alternative H 1 : ρ 0 ab, falls n 2ˆρx,y > t 1 ˆρ 2 n 2,1 α/2 x,y 2.2 Lineare gilt. 8 / 130

9 2.6(a) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) n = 25; ˆρ x,y = ; t 23,0.95 = Lineare n 2 ˆρx,y = > ˆρ 2 x,y Die Nullhypothese H 0 : ρ = 0 (keine Korrelation zwischen den Merkmalen) wird zum Niveau 10% verworfen. p-wert: / 130

10 SPSS Output für Korrelationskoeffizient Motivation Leistungsstreben Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Motivation Korrelationen 1,000,004 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. 25 Leistungsstreben,559 **, ,559 ** 1, Lineare 10 / 130

11 2.7 Konfidenzintervall für Korrelation ρ: Korrelation zwischen Merkmal x und Merkmal y einer Population (x 1, y 1 ),..., (x n, y n ): Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grundgesamtheit Mathematische Statistik: ˆρ x,y ist näherungsweise (d.h. bei großem Stichprobenumfang) normalverteilt mit Erwartungswert ρ und Varianz 2.2 Lineare γ 2 = Var(ˆρ x,y ) (1 ρ 2 ) 2 /n (1 α)-konfidenzintervall für den Korrelationskoeffizienten (ˆρx,y ˆγz 1 α/2, ˆρ x,y + ˆγz 1 α/2 ) Hier bezeichnet ˆγ = (1 ˆρ 2 x,y )/ n einen Schätzer für die Standardabweichung von ˆρ x,y und z 1 α/2 das (1 α/2) Quantil der Standardnormalverteilung (Tabelle, Software) 11 / 130

12 2.6(b) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) n = 25; ˆρ x,y = Lineare z 0.95 = , ˆγ = % Konfidenzintervall für den Korrelationskoeffizient [0.2739, ] 12 / 130

13 2.8 Hinweise zur Interpretation von Korrelationen Annahme: man hat eine signifikante Korrelation zwischen dem Variablen x und y gefunden Folgende Interpretationen sind möglich (1) x beeinflusst y kausal (2) y beeinflusst x kausal (3) x und y werden von weiteren Variablen kausal beeinflusst (4) x und y beeinflussen sich wechselseitig kausal Die Korrelation zwischen zwei Variablen ist eine notwendige aber keine hinreichende Voraussetzung für einen kausalen Zusammenhang Der Korrelationskoeffizient gibt keine Information welche der vier Interpretationen zutrifft (in vielen Fällen wird das der Typ (3) sein) Korrelationen sollten ohne Zusatzinformation nicht interpretiert werden! 2.2 Lineare 13 / 130

14 Beispiel Annahme: man hat eine signifikante Korrelation zwischen den Merkmalen Ehrlichkeit und Häufigkeit des Kirchgangs gefunden Folgende Interpretationen sind möglich Die in der Kirche vermittelten Werte haben einen positiven Einfluß auf das Merkmal Ehrlichkeit Ehrliche Menschen fühlen sich durch die in der Kirche vermittelten Inhalte eher angesprochen und gehen aus diesem Grund häufiger zur Kirche Die allgemeine familiäre und außerfamiliäre Sozialisation beeinflußt beide Merkmale 2.2 Lineare 14 / 130

15 2.2 Lineare 2.2 Lineare 15 / 130

16 2.9 Beispiel: (Fortsetzung von Beispiel 2.1) Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) 2.2 Lineare Kann man y aus x vorhersagen? 16 / 130

17 Streudiagramm für die Daten aus Beispiel Lineare 25 Motivation Leistungsstreben 17 / 130

18 2.9 Beispiel: (Fortsetzung von Beispiel 2.1) Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) 2.2 Lineare Frage: besteht ein funktionaler Zusammenhang zwischen der Variablen Motivation und der Prädiktorvariablen Leistungsstreben (Kann man y aus x vorhersagen?) Genauer: Gesucht ist Funktion f, die aus der Prädiktorvariablen Leistungsstreben (x) eine Vorhersage für die abhängige Variable (y) Motivation liefert: Motivation = f( Leistungsbereitschaft ) Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 18 / 130

19 Ausgangslage: Von Interesse ist der Zusammenhang zwischen verschiedenen Variablen. Im einfachsten Fall betrachtet man, wie im Beispiel der Arbeitsmotivation, den Zusammenhang zwischen zwei Variablen. Daten: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein kausaler Zusammenhang der Form y = f (x) zwischen der abhängigen Variablen y und der Prädiktorvariablen x. Weitere Annahme: Die Funktion f hat eine bestimmte Form. Beispiele: Lineare (der Zusammenhang ist also durch eine Gerade beschreibbar): y = b 0 + b 1x Quadratische (der Zusammenhang ist also durch eine Parabel beschreibbar): y = b 0 + b 1x + b 2x 2 usw. Beachte: Der Zusammenhang ist in der Regel nicht exakt zu beobachten. Mathematisches Modell Y = b 0 + b 1 x + ε 2.2 Lineare Dabei bezeichnet ε eine zufällige Störgröße. Diese Modell bezeichnet man als Lineare. 19 / 130

20 2.10 Das Modell der linearen Daten (x 1, y 1 ),..., (x n, y n ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen den Variablen Y i und x i gilt: 2.2 Lineare Y i = b 0 + b 1 x i + ε i i = 1,..., n ε i bezeichnet hier eine zufällige Störung und es wird angenommen, dass die Störungen unabhängig und normalverteilt sind mit Erwartungswert 0 und Varianz σ 2 > 0 Deutung: es wird ein linearer Zusammenhang zwischen x und y postuliert, der noch zufälligen Störungen unterliegt 20 / 130

21 Idee der Schätzung bei (linearer) Daten (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein linearer Zusammenhang Y = b 0 + b 1 x + ε 2.2 Lineare Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Y und x am besten beschreibt. Idee: Bestimme die Gerade so, dass die Summe der quadratischen (vertikalen) Abstände zwischen den y-koordinaten der Datenpunkte und den entsprechenden Punkten auf der geschätzten Geraden minimal wird Methode der kleinsten Quadrate 21 / 130

22 y y Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten 2.2 Lineare y=0.2x y=0.5x x x 22 / 130

23 Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten: die Lösung durch die Methode der kleinsten Quadrate 2.2 Lineare y y=0.292x x 23 / 130

24 2.11 Die Methode der kleinsten Quadrate Bestimme die Gerade so, dass die Summe der quadrierten senkrechten Abstände zwischen Gerade und Daten minimal wird - Datum an der Stelle x i : y i - Wert der Geraden an der Stelle x i : b 0 + b 1 x i - Differenz: y i (b 0 + b 1 x i ) 2.2 Lineare Minimiere h(b 0, b 1 ) = n ( i=1 yi (b 0 + b 1 x i ) ) 2 bzgl. der Wahl der Parameter b 0 und b 1. Lösung dieses Extremwertproblems liefert Schätzer für Achsenabschnitt und Steigung der Geraden: ˆb 1 = n i=1 (x i x )(y i y ) n i=1 (x i x ) 2, ˆb 0 = y ˆb 1 x - x = 1 n n i=1 x i: Mittelwert der Prädiktorvariablen - y = 1 n n i=1 y i: Mittelwert der abhängigen Variablen 24 / 130

25 Beispiel Arbeitsmotivation: Streudiagramm und sgerade für die Daten aus Beispiel 2.1 Motivation Lineare R-Quadrat linear = 0, Leistungsstreben Schätzer: ˆb 0 = 13.82, ˆb 1 = 0.29 Fragen: - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß des Leistungsstrebens auf die Motivation H 0 : b 1 = 0 - Wie gut beschreibt das lineare smodell die Situation? 25 / 130

26 Die Genauigkeit der Schätzer für die Parameter Beachte: vor der Datenerhebung sind ˆb 0 und ˆb 1 zufällig Mathematische Statistik (allegmeines lineares Modell) liefert Schätzer für die Varianzen von ˆb 0 und ˆb 1 Schätzer für die Varianz von ˆb 0 : ŝ 2 b 0 = S 2 y x n Schätzer für die Varianz von ˆb 1 : ŝ 2 b 1 = S 2 y x n Dabei bezeichnet S 2 y x = 1 n 2 n i=1 x 2 i n i=1 (x i x ) 2 1 n n (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 1 n i=1 (x i x ) Lineare die Residualvarianz (Schätzer für die Varianz der Störgrößen) Je größer der Stichprobenumfang n, desto genauer sind die Schätzungen! 26 / 130

27 Fortsetzung von Beispiel 2.1: Schätzer für die Daten der Arbeitsmotivation Schätzer für die Parameter ˆb 0 = ˆb 1 = S 2 y x = Lineare Schätzer für die Varianz von ˆb 0 und ˆb 1 ŝ 2 b 0 = ŝ 2 b 1 = Je größer der Stichprobenumfang n, desto genauer sind die Schätzungen! 27 / 130

28 SPSS Output: Schätzer und Standardabweichungen bei linearer in Beispiel Lineare Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Koeffizienten a Standardisierte Nicht standardisierte Koeffizienten Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090,559 3,235, / 130

29 2.12 Konfidenzintervalle bei linearer Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme für ε 1,..., ε n Bestimmung der Schätzer ŝ 2 b 0 und ŝ 2 b 1 für die Varianzen von ˆb 0 und ˆb 1. Damit ist dann 2.2 Lineare = (ˆb 0 t n 2,1 α/2 ŝ b0, ˆb 0 + t n 2,1 α/2 ŝ b0 ) ein (1 α) -Konfidenzintervall für b 0 und = (ˆb 1 t n 2,1 α/2 ŝ b1, ˆb 1 + t n 2,1 α/2 ŝ b1 ) ein (1 α) -Konfidenzintervall für b 1. Hier ist t n 2,1 α/2 das (1 α/2)-quantil der t-verteilung mit n 2 Freiheitsgraden (tabelliert oder mit Software verfügbar) 29 / 130

30 Beispiel 2.13: Konfidenzbereiche im Beispiel 2.1 (Arbeitsmotivation) n = 25, t 23,0975 = Für das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt sich als 95% Konfidenzintervall für 2.2 Lineare b 0 : [9.420, ] b 1 : [0.105, 0.479] Frage: Besteht ein (signifikanter) Einfluß der Prädikorvaraiblen x auf die abhängige Variable Y? Mathematische Formulierung: H 0 : b 1 = 0 30 / 130

31 SPSS Output: Konfidenzintervalle bei linearer Rgeression in Beispiel Lineare Koeffizienten a Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090,559 3,235,004 95%-Konfidenzintervall für B Untergrenze Obergrenze 9,420 18,212,105, / 130

32 2.14 F -test für die Hypothese H 0 : b 1 = 0 Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme für ε 1,..., ε n Hypothesen 2.2 Lineare H 0 : b 1 = 0, H 1 : b 1 0 Die Nullhypothese H 0 : b 1 = 0 wird zu Gunsten der Alternative H 1 : b 1 0 verworfen, falls gilt F n = S 2 reg S 2 y x = n 2 n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 n i=1 (y i (ˆb 0 + ˆb 1 x i )) 2 > F 1;n 2,1 α F 1;n 2,1 α bezeichnet das (1 α)-quantil der F -Verteilung mit (1, n 2) Freiheitsgraden 32 / 130

33 Motivation des F -Tests: Zerlegung der Varianz n (y i y ) 2 = n (y i (ˆb 0 + ˆbx i )) 2 + n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Gesamtvarianz i=1 } {{ } Residualvarianz i=1 } {{ } Varianz der 2.2 Lineare Bezeichnungen: S 2 reg = 1 1 n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 heißt Varianz der (diese hat 1 Freiheitsgrad) und Sy x 2 = 1 n n 2 (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 ist die Residualvarianz (diese hat n 2 Freiheitsgrade). Andere Interpretationen: - Schätzung für die Varianz der Größen ε i - durch das lineare smodell nicht erklärbare Varianz 33 / 130

34 Motivation des F -Tests: Zerlegung der Varianz n (y i y ) 2 = n (y i (ˆb 0 + ˆbx i )) 2 + n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Gesamtvarianz i=1 } {{ } Residualvarianz i=1 } {{ } Varianz der 2.2 Lineare = 1 S 2 reg + (n 2) S 2 y x Beachte: Bei dem F -Test für die Hypothese H 0 : b 1 = 0 bildet man den Quotienten aus der Varianz der der Residualvarianz Man untersucht also, welcher Anteil der Gesamtvarianz durch die Varianz der erklärbar ist 34 / 130

35 2.15 Varianzanalyse (ANOVA; analysis of variance) Art der Freiheits- Quadrat- F -Quotient Abweichung grade (df ) summe schätzer 1 n i=1 (y ŷ i ) 2 F n = S 2 reg /S 2 y x 2.2 Lineare Fehler n 2 n i=1 (y i ŷ i ) 2 Total n 1 n i=1 (y i y ) 2 Bezeichnung: ŷ i = ˆb 0 + ˆb 1 x i 35 / 130

36 SPSS Output: F-Test bei linearer in Beispiel 2.1 Modell 1 Residuen Gesamt Quadratsumme 238, , ,960 a. Einflußvariablen : (Konstante), Leistungsstreben b. Abhängige Variable: Motivation df Mittel der Quadrate 238,015 22,737 F 10,468 ANOVA b Signifikanz,004 a 2.2 Lineare Beachte: F 25 = , F 1,23,0.95 = Da F 25 = > wird die Nullhypothese H 0 : b 1 = 0 zu Gunsten der Alternative H 1 : b 1 0 zum Niveau 5% verworfen (p-wert: 0.004) 36 / 130

37 Modellgüte: wie geeignet ist das Modell für die Beschreibung der Daten Maß für Modellanpassung: Residualvarianz (Summe der quadrierte Abstände von der sgerade): S 2 y x = 1 n 2 n i=1 ( ) 2 y i (ˆb 0 + ˆb 1 x i ) 2.2 Lineare Beachte: Sy x 2 ist ein Schätzer für die Varianz der Meßfehler Je kleiner Sy x 2, desto besser ist das (lineare) smodell Streuung der Daten ohne die Information, dass ein lineares Modell vorliegt: n (y i y ) 2 i=1 Man untersucht welchen Anteil der Streuung n i=1 (y i y ) 2 man durch das lineare Modell erklären kann 37 / 130

38 Varianzzerlegung: ein extremes Beispiel y Abhängige Variable Lineare Unabhängige Variable x Beachte: Die Grafik zeigt eine extreme Situation. Die Streuung der Daten ist durch das lineare smodell zu 100% erklärbar! n i=1 (y i y ) 2 = n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 Residualvarianz (durch das lineare smodell nicht erklärbare Varianz) = 0 38 / 130

39 2.16 Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1): 25 i=1 25 i=1 R 2 = (y i y ) 2 = (y (ˆb 0 + ˆb 1 x i )) 2 = i=1 (y (ˆb 0 + ˆb 1 x i )) 2 25 i=1 (y i y ) 2 = Lineare d.h. 31,3 % der Varianz der Variablen Motivation können durch die Prädiktorvariable Leistungsstreben erklärt werden. 39 / 130

40 2.17 Modellgüte: das Bestimmtheitsmaß Die Größe n (y i (ˆb 0 + ˆb n 1 x i )) 2 (y (ˆb 0 + ˆb 1 x i )) 2 R 2 i=1 i=1 = 1 = n n (y i y ) 2 (y i y ) 2 i=1 i=1 2.2 Lineare ist ein Maß für die Güte der heißt Bestimmtheitsmaß. Beachte: man kann zeigen, dass R 2 genau das Quadrat der Korrelation ist. Je besser das Modell ist, desto kleiner ist die Residualvarianz, bzw. desto größer R 2! Das Bestimmtheitsmaß R 2 liegt immer zwichen 0 und 1 40 / 130

41 Zusammenhang zwischen Bestimmtheitsmaß und F -Test Ist F n die Statistik für den F -Test aus 2.14 und R 2 das Bestimmtheitsmaß, dann gilt: R 2 = 1 n 2 F n n 2 F n 2.2 Lineare In anderen Worten: die Statistik F n des F -Test aus 2.5 kann aus dem Bestimmtheitsmaß berechnet werden (und umgekehrt) Im Beispiel des Zusammenhangs zwischen Motivation und Leistungsstreben ist F n = = R 2 = = C.a. 31.3% der Variation der Variablen Motivation können durch die die Variable Leistungsstreben erklärt werden 41 / 130

42 Vorhersagen: es gibt zwei unterschiedliche 2.18 Vorhersage für den Wert der Geraden an einer Stelle x Schätzung für den Wert der Geraden y(x) = b 0 + b 1 x an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x 2.2 Lineare (1 α)-konfidenzintervall für y(x) (ŷ(x) t n 2;α/2 ŝ y(x), ŷ(x) + t n 2;α/2 ŝ y(x) ) wobei ŝ 2 y(x) = S 2 y x ( 1 n + (x x ) 2 n i=1 (x i x ) 2 ) den Schätzer für die Varianz von Ŷ (x) bezeichnet 42 / 130

43 Vorhersagen: es gibt zwei unterschiedliche 2.19 Vorhersage für eine neue Beobachtung an einer Stelle x Schätzer für eine neue Beobachtung Ỹ (x) = b 0 + b 1 x + ε an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x 2.2 Lineare (1 α)-konfidenzintervall für y(x) (ŷ(x) t n 2;α/2 s y(x), ŷ(x) + t n 2;α/2 s y(x) ) wobei s 2 y(x) = S 2 y x (1 + 1 n + (x x ) 2 n i=1 (x i x ) 2 ) den Schätzer für die Varianz von ŷ(x) + ε bezeichnet Beachte: Diese Varianz wird bei wachsendem Stichprobenumfang nicht beliebig klein! 43 / 130

44 2.20 Beispiel (Fortsetzung von Beispiel 2.1) (1) Gesucht ist ein 90% Konfidenzintervall für den Wert der Geraden an der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ 2 y(x) = 1.116, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für den Wert der Geraden an der Stelle 16 ist gegeben durch 2.2 Lineare [16.677, ] (2) Gesucht ist ein 90% Konfidenzintervall für eine neue Beobachtung der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ 2 ỹ(x) = 23.85, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für eine neue Beobachtung an der Stelle 16 ist gegeben durch [10.118, ] 44 / 130

45 SPSS Output: Vorhersagen bei linearer in Beispiel 2.1 (schwierig) 2.2 Lineare 45 / 130

46 SPSS Output: Konfidenzintervalle für Vorhersagen bei linearer in Beispiel Lineare 25 Motivation Leistungsstreben 46 / 130

47 2.21 Residuenanalyse Unter der Modellannahme des linearen smodells gilt: die Größen ε i = Y i b 0 b 1 x i sind unabhängig und normalverteilt mit Erwartungswert 0 und Varianz σ 2 > 0. Das bedeutet, dass diese Eigenschaften auch näherungsweise für die Residuen 2.2 Lineare ˆε i = y i ˆb 0 ˆb 1 x i erfüllt sein sollte, falls die Modellannahme zutrifft. Residuenanalyse ist ein deskriptives Verfahren für die Überprüfung der Annahmen an ε 1,..., ε n mit 4 Teilschritten (oft werden auch nicht alle gemacht): A: Das Streudiagramm der Daten mit der slinie B: Ein Streudiagramm der Residuen gegen die vorhergesagten Werte C: Normalverteilungs-QQ-Plot der Residuen D: Histogramm der Residuen mit angepasster Normalverteilungsdichte 47 / 130

48 Residuenanalyse bei erfüllten Voraussetzungen Abhängige Variable A Residuum B 2.2 Lineare Unabhängige Variable C 1.0 Vorhergesagter Wert D Empirische Quantile Theoretische Quantile der Standardnormalvert. f(residuum) Residuum 48 / 130

49 Residuenanalyse bei Abweichungen von der Normalverteilung (Ausreißer) Abhängige Variable A Residuum B 2.2 Lineare Empirische Quantile Unabhängige Variable C Theoretische Quantile der Standardnormalvert. f(residuum) Vorhergesagter Wert D Residuum 49 / 130

50 Residuenanalyse bei Stratifizierung Beachte: verschiedene Untergruppen (Strata) können ebenfalls zu Abweichungen von den Modellannahmen führen. Für die Strata können dann unterschiedliche sgleichungen gelten. Abhängige Variable A Unabhängige Variable C Residuum B Vorhergesagter Wert D 2.2 Lineare Empirische Quantile f(residuum) Theoretische Quantile der Standardnormalvert Residuum 50 / 130

51 Residuenanalyse bei falscher Modellannahme Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2.2 Lineare Statt des linearen Modells wäre ein Polynom 3. Grades die bessere Annahme für die Beschreibung des funktionalen Zusammenhangs! 51 / 130

52 Residuenanalyse bei ungleichen Varianzen (Heteroskedastizität) Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2.2 Lineare 52 / 130

53 SPSS Output: Residuenanalyse in Beispiel Lineare Motivation R-Quadrat linear = 0, Leistungsstreben Streudiagramm und geschätzte sgerade im Beispiel der Arbeitsmotivation 53 / 130

54 SPSS Output: Residuenanalyse in Beispiel 2.1 Standardized Residual 3, , ,00000, Lineare -1, , , ,00000, , ,00000 Standardized Predicted Value Streudiagramm der Residuen gegen die vorhergesagten Werte im Beispiel der Arbeitsmotivation 54 / 130

55 SPSS Output für Residuenanalyse 2 Q-Q-Diagramm von Normal von Standardized Residual 2.2 Lineare Erwarteter Wert von Normal Beobachteter Wert QQ-Plot im Beispiel der Arbeitsmotiovation 55 / 130

56 Korrelation und lineare Es besteht ein enger Zusammenhang zwischen linearer Korrelation 2.2 Lineare Ist ˆb 1 die Schätzung im linearen smodell und ˆρ x,y der Korrelationskoeffizient von Pearson, dann gilt: n i=1 ˆρ x,y = (x i x ) 2 n i=1 (y i y ˆb ) 2 1 Ist R 2 das Bestimmtheitsmaß und ˆρ x,y der Korrelationskoeffizient von Pearson, dann gilt: ˆρ 2 x,y = R 2 56 / 130

57 2.2 Lineare 57 / 130

58 2.22 Beispiel: Arbeitsmotivation mit mehreren Prädiktoren y: Motivation (Einschätzung der Arbeitsmotivation durch Experten) Prädiktoren: Eigenschaften x1: Ehrgeiz (Fragebogen) x2: Kreativität (Fragebogen) x3: Leistungsstreben (Fragebogen) 2.2 Lineare Prädiktoren: Rahmenbedingungen x4: Hierarchie (Position in der Hierarchie des Unternehmens) x5: Lohn (Bruttolohn pro Monat) x6: Arbeitsbedingungen (Zeitsouveränität, Kommunikationsstruktur usw.) Prädiktoren: Inhalte der Tätigkeit x7: Lernponential (Lernpotential der Tätigkeit) x8: Vielfalt (Vielfalt an Teiltätigkeiten) x9: Anspruch (Komplexität der Tätigkeit) 58 / 130

59 Daten i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x Lineare 59 / 130

60 Daten i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x Lineare 60 / 130

61 2.23 Das Modell der multiplen linearen Daten (x 1, y 1 ),..., (x n, y n ) Es gibt k unabhängige Variablen: x i = (x 1i,..., x ki ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen der Variablen Y und dem Vektor x 1 gilt (im Beispiel ist k = 9): 2.2 Lineare Y i = b 0 + b 1 x 1i + b 2 x 2i b k x ki + ε i k = b 0 + b j x ji + ε i. j=1 ε i bezeichnet hier eine zufällige Störung und es wird angenommen, dass die Störungen ε 1,..., ε n unabhängig und normalverteilt sind mit Erwartungswert 0 und Varianz σ 2 > 0 Deutung: es wird ein linearer Zusammenhang zwischen x und Y postuliert, der noch zufälligen Störungen unterliegt 61 / 130

62 2.24 Schätzung bei multipler linearer Methode der kleinsten Quadrate: Minimiere n (y i b 0 b 1 x 1i b k x ki ) 2 i=1 2.2 Lineare bzgl. der Wahl von b 0,..., b k Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer ˆb 0, ˆb 1,..., ˆb k für die Parameter b 0,..., b k (Formeln sind kompliziert) Schätzer für die Varianz der Meßfehler S 2 y x = 1 n k 1 n (y i ˆb 0 ˆb 1 x 1i ˆb k x ki ) 2 i=1 62 / 130

63 Streudiagramm bei multipler linearer (k = 2) sfläche: ŷ(x) = x x Lineare Y X 1 X 2 63 / 130

64 Fortsetzung von Beispiel 2.22: Schätzer im multiplen linearen smodell Ergebnisse für die Schätzer im multiplen linearen smodel ˆb 0 = ˆb1 = ˆb 2 = ˆb 3 = ˆb 4 = ˆb 5 = ˆb 6 = ˆb7 = ˆb 8 = ˆb9 = Lineare Fragen: - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß der unabhängigen Merkmale auf die Motivation H 0 : b 1 = 0 H 0 : b 2 = 0. - Wie gut beschreibt das multiple lineare smodell die Situation? 64 / 130

65 Genauigkeit der Schätzung bei multipler linearer Schätzer ŝ b0,..., ŝ bk für die Standardfehler von ˆb 0,..., ˆb k sind verfügbar (Allgemeines lineares Modell Formeln kompliziert) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto genauer die Schätzungen Damit erhält man Konfidenzintervalle für b 0,..., b k, z.b. 2.2 Lineare (ˆb 0 t n k 1,1 α/2 ŝ b0, ˆb 0 + t n k 1,1 α/2 ŝ b0 ) ist (1 α)-konfidenzintervall für b 0 65 / 130

66 Fortsetzung von Beispiel 2.22: Schätzer für den Standardfehler der Schätzer im multiplen linearen smodell Ergebnisse für den Standardfehler der Schätzer im multiplen linearen smodell 2.2 Lineare Wegen t 15,0.975 = ist ŝ b0 = ŝ b1 = ŝ b2 = ŝ b3 = ŝ b4 = ŝ b5 = ŝ b6 = ŝ b7 = ŝ b8 = ŝ b9 = [ 0.089, 0.188] ein 95%-Konfidenzintervall für den Parameter b 3. Man beachte: ) n = 25; k = 9 n k 1 = / 130

67 2.25 Konfidenzintervalle für multiple lineare Modellannahme: multiple lineare Y i = b 0 + k b j x ji + ε i (i = 1,..., n) j=1 Rechterfertigung der Normalverteilungs- und Unabhängigkeitsannahme 2.2 Lineare Schätzer ŝ bj für den Standardfehler von ˆb j = (ˆb j t n k 1,1 α/2 ŝ bj, ˆb j + t n k 1,1 α/2 ŝ bj ) ist ein (1 α) -Konfidenzintervall für b j (j = 0,... k) t n k 1,1 α/2 ; (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden (Tabelle oder Software) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto kleiner die Konfidenzintervalle 67 / 130

68 2.26 Beispiel: Konfidenzintervalle für die Parameter in Beispiel 2.22 (Arbeitsmotivation ) ˆb j Merkmal Schätzung ŝ bj Konfidenzintervall ˆb [ , 6.926] ˆb 1 Ehrgeiz [0.020, 0.365] ˆb 2 Kreativität [0.049, 0.258] ˆb 3 Leistungsstreben [-0.089, 0.188] ˆb 4 Hierarchie [-0.069, 0.561] ˆb 5 Lohn [-0.004, 0.002] ˆb 6 Arbeitsbdg [-0.147, 0.085] ˆb 7 Lernpotential [-0.044, 0.373] ˆb 8 Vielfalt [0.095, 0.316] ˆb 9 Anspruch [-0.070, 0.177] 2.2 Lineare 68 / 130

69 SPSS Output: Schätzer, Standardabweichung und Konfidenzintervalle im Beispiel 2.22 (Arbeitsmotivation mit mehreren Prädiktoren) Koeffizienten a 2.2 Lineare Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze Obergrenze -14,609 6,926,020,365,049,258 -,089,188 -,069,561 -,004,002 -,147,085 -,044,373,095,316 -,070, / 130

70 2.27 Vorhersage der multiplen linearen Modellannahme: multiple lineare Y i = b 0 + k j=1 b jx ji + ε i (i = 1,..., n) Rechterfertigung der Normalverteilungs- und Unabhängigkeitsannahme Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) 2.2 Lineare ŷ(x) = ˆb 0 + k j=1 ˆb j x j In Beispiel 2.22 ergibt sich z.b. als Vorhersage der multiplen linearen an der Stelle x 1 = 21, x 2 = 30, x 3 = 15, x 4 = 11,, x 5 = 2900, x 6 = 41, x 7 = 25, x 8 = 55, x 9 = 54 der Wert ŷ(x) = / 130

71 Vorhersage der multiplen linearen Beachte: Wie in Abschnitt 2.18 und 2.19 gibt es zwei Vorhersagen: 2.2 Lineare Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Vorhersage für den Wert einer neuen Beobachtung an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Für beide Vorhesagen, kann man den Standardfehler bestimmen (Formeln kompliziert) und Konfidenzbereiche angeben (vgl. Abschnitt 2.18 und 2.19 für den Fall k = 1 ) 71 / 130

72 SPSS Output: Vorhersage bei der multiplen linearen (schwierig) 2.2 Lineare Beispiel: Schätzung für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): Schätzung für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): / 130

73 SPSS Output: Konfidenzintervalle für Vorhersagen bei mulitpler linearer 2.2 Lineare Konfidenzintervall für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [12.399, ] Konfidenzintervall für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [9.870, ] 73 / 130

74 2.28 Bestimmtheitsmaß bei multipler linearer Modellvohersage: ŷ i = ˆb 0 + ˆb 1 x 1i +... ˆb k x ki = ˆb 0 + k ˆb j x ji j=1 Residuum ˆε i = y i ŷ i = y i (ˆb 0 + k j=1 ˆb j x ji ) Beachte: Die Werte der abhängigen Variable zerfallen in Modellvorhersage (ŷ) und Residuum (ˆε), d.h. 2.2 Lineare y i = ŷ i + ˆε i i = 1,..., n Die Güte der Modellanpassung wird (wieder) durch das Besimmtheitsmaß R 2 beschrieben werden (Anteil erklärter Varianz) n R 2 i=1 = 1 (y i ŷ i ) 2 n n i=1 (y i y = i=1 (ŷ i y ) 2 ) 2 n i=1 (y i y. ) 2 74 / 130

75 Beispiel: das Bestimmtheitsmaß für das Beispiel 2.22 (Arbeitsmotivation) In Beispiel 2.22 ist 2.2 Lineare n = 25; k = 9 n i=1 (y i ŷ i ) 2 = n i=1 (y i y ) 2 = R 2 = = D.h % der Varianz der Variablen Motivation werden durch das multiple lineare smodell erklärt 75 / 130

76 2.29 Statistische Tests bei der multiplen linearer. Zwei wichtige Fragestellungen: Frage A: Hat mindestens eine der Prädiktorvariablen x 1,..., x k einen Einfluß auf die abhängige Variable y (Gesamttest auf Signifikanz). Mathematische Formulierung der Hypothese: Nullhypothese: 2.2 Lineare H 0 : b j = 0 für alle j {1, 2,..., k} Alternative: H 1 : b j 0 für mindestens ein j {1, 2,..., k} Frage B: Hat die Prädiktorvariablen x j (z.b. Ehrgeiz) einen Einfluß auf die abhängige Variable y. Mathematische Formulierung der Hypothese: Nullhypothese: H 0 : b j = 0 Alternative: H 1 : b j 0 76 / 130

77 2.29(A) Gesamttest auf Signifikanz Nullhypothese: H 0 : b j = 0 für alle j {1, 2,..., k} Alternative: H 1 : b j 0 für mindestens ein j {1, 2,..., k} (1) Bestimme Sreg 2 = 1 k n (ŷ i y ) 2 i=1 die Varianz der, und 2.2 Lineare S 2 y x = die Residualvarianz 1 n k 1 n (y i ŷ i ) 2 i=1 Beachte: man geht genau wie im linearen smodell vor! 77 / 130

78 2.29(A) Gesamttest auf Signifikanz (2) H 0 wird zu Gunsten der Alternative H 1 verworfen, falls F n = S 2 reg S 2 y x > F k;n k 1;1 α 2.2 Lineare gilt (oder der entsprechende p-wert kleiner als α ist). Dabei bezeichnet F k;n k 1;1 α das (1 α) Quantil der F -Verteilung mit (k, n k 1) Freiheitsgraden, Beachte: Wird H 0 durch diesen Test verworfen, dann bleibt aber noch unklar, welches der Merkmale signifikant ist 78 / 130

79 2.29(B) Tests für die Signifikanz einzelner Merkmale Nullhypothese: H 0 : b j = 0 Alternative: H 1 : b j 0 Die Nullhypothese H 0 wird zu Gunsten der Alternative H 1 verworfen, falls ˆb j T n = > t n k 1;1 α/2 ŝ bj 2.2 Lineare gilt (oder der entsprechende p-wert kleiner als α ist). Dabei ist tn k 1;1 α/2 das (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden ŝbj der Standardfehler von ˆb j Beachte: Werden mehrere Hypothesen gestestet, ist das Niveau entsprechend anzupassen (vgl. Abschntt 1.18). 79 / 130

80 2.30(A) Test auf Signifikanz im multiplen smodel in Beispiel 2.22 Frage: Hat einer der 9 Prädiktorvariablen einen Einfluß auf die abhängige Variable? 2.2 Lineare Mathematische Hypothesen: H 0 : b j = 0 für alle j = 1,..., 9 H 1 : b j 0 für mindestens ein j {1,..., 9} F n = , F 9,15,0.95 = Da F n > > ist, wird die Nullhypothese zum Niveau 5% verworfen. 80 / 130

81 2.30(B) Beispiel: Test auf Signifikanz eines Merkmals im multiplen linearen smodell in Beispiel 2.22 Frage: Hat die Prädiktorvariable Ehrgeiz (x 1 ) einen Einfluß auf die abhängige Variable Motivation (Signifikanz des skoeffizienten b 1 )? Mathematische Hypothesen: 2.2 Lineare H 0 : b 1 = 0; H 1 : b 1 0 ˆb1 = 0.193, ŝ b1 = 0.081, t 25 10,0.975 = 2.13 T 25 = Da T 25 = > 2.13 wird die Nullhypothese H 0 zu Gunsten der Alternative H 1 : b 1 0 verworfen (zum Niveau 5%) 81 / 130

82 SPSS Output: Der Test 2.29(A) für das Beispiel 2.22 (Arbeitsmotivation) ANOVA b 2.2 Lineare Modell 1 Residuen Gesamt Quadratsumme 707,309 53, ,960 df Mittel der Quadrate a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Abhängige Variable: Y 78,590 3,577 F 21,972 Signifikanz,000 a 82 / 130

83 SPSS Output: Der Test 2.29(B) für das Beispiel 2.22 (Arbeitsmotivation) Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Koeffizienten a Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070 Obergrenze 6,926,365,258,188,561,002,085,373,316, Lineare 83 / 130

84 2.31 Das Problem der Multikollinearität Beispiel: Betrachte in dem Beispiel der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 Prädiktorvariablen Y i = b 0 + b 1 x 1i + b 2 x 2i + b 3 x 3i + ε i i = 1,..., 25 (Y : Motivation, x 1 : Ehrgeiz x 2 : Kreativität, x 3 : Leistungsstreben) Schätzer für die Modellparameter 2.2 Lineare i ˆb i ŝ bi p-wert Bestimmtheitsmaß R 2 = Beachte: nur für den Koeffizient b 3 (Leistungsstreben) kann keine Signifikanz (zum Niveau 5% ) nachgewiesen werden 84 / 130

85 Korrelationsmatrix für die Prädiktoren Motivation Ehrgeiz Kreativität Leistungsstreben Motivation 1 Ehrgeiz.71 1 Kreativität Leistungsstreben.56.82* Lineare Beachte: Der Test 2.5 liefert eine signifikante Korrelation (zum Niveau 1%) zwischen den Variablen Leistungsstreben und Ehrgeiz (SPSS) 85 / 130

86 Beachte: Es gibt eine signifikante Korrelation zwischen den Variablen Leistungsstreben und Ehrgeiz Beide Variablen tragen weitgehend identische Information Im Beispiel ist die Variable Leistungsstreben redundant und wird nicht für die Vorhersage der abhängigen Variablen Motivation benötigt Die Variable Ehrgeiz ist stärker mit der Variablen Motivation korreliert als die Variable Leistungsstreben (aus diesem Grund ist der entsprechende Koeffizient auch signifikant) 2.2 Lineare Für die Bestimmtheitsmaße in den multiplen linearen smodellen mit drei bzw. zwei Variablen erhält man R 2 = für Modell mit den Prädiktoren x 1, x 2, x 3 R 2 = für Modell mit den Prädiktoren x 1, x 2 86 / 130

87 SPSS Output: Multikollinearität; Schätzer im Modell mit 3 Parametern Koeffizienten a 2.2 Lineare Modell B 1 (Konstante) 5,539 x1,393 x2,225 x3,001 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standard fehler 2,618,135,089,123 Standardisierte Koeffizienten Beta,688,343,002 T 2,116 2,913 2,528,008 Signifi kanz,046,008,020,994 95%-Konfidenzintervall für B Untergrenze Obergrenze,095 10,983,112,674,040,410 -,255, / 130

88 SPSS Output: Multilkollinearität; Korrelationsmatrix Y x1 x2 x3 Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Y 1,000,000 25,379,061, x1,708 **,000,053,802,000 Korrelationen x2,061, ,000, x3,559 **, ,708 ** 1,000,053,818 **, ,016, ,559 **,818 ** -,016 1,000 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant., Lineare 88 / 130

89 2.32 Das Problem der Suppressionseffekte Beispiel: Betrachte in dem Beispiel 2.22 der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 anderen Prädiktorvariablen 2.2 Lineare Y i = b 0 + b 4 x 4i + b 5 x 5i + b 6 x 6i + ε i i = 1,..., 25 (Y : Motivation, x 4 : Hierarchie, x 5 : Lohn, x 6 : Arbeitsbedingungen) Schätzungen für die Modellparameter i ˆbi ŝ bi p-wert / 130

90 Korrelationsmatrix für die Variablen Motivation, Hierarchie, Lohn und Arbeitsbedingungen Motivation Hierarchie Lohn Arbeitsbedingungen Motivation 1 Hierarchie.42* 1 Lohn ** 1 Arbeitsbedingungen Lineare Beachte: Zwischen der Prädiktorvariablen Lohn (x 5 ) und der abhängigen Variablen Motivation liegt keine signifikante Korrelation vor Dennoch bekommt diese Variable im multiplen smodell ein signifikantes Gewicht; d.h. die Hypothese H 0 : b 5 = 0 wird zum Niveau 5% verworfen (p-wert: 0.016). Man spricht von einem Suppressionseffekt. 90 / 130

91 Grund für diesen scheinbaren Widerspruch: Korrelationen sind bivariate Maße für (zwischen zwei Merkmalen). Das Modell der multiplen untersucht aber den Zusammenhang zwischen der Variablen Motivation und dem (3-dimensionalen) Prädiktor (x 4, x 5, x 6 ): 2.2 Lineare Motivation ist stark mit der Variablen Hierarchie korreliert Lohn ist ebenfalls stark mit der Variablen Hierarchie korreliert Prädiktorvariable Lohn wird in der multiplen linearen benötigt, um unerwünschte Varianzanteile der Variablen Hierarchie zu kompensieren Bestimmtheitsmaße für verschiedene Modelle R 2 = für Modell mit x 4, x 5, x 6 R 2 = für Modell mit x 4, x 6 91 / 130

92 SPSS Output: Suppressionseffekte; Schätzer im Modell mit 4 Parametern 2.2 Lineare Koeffizienten a Modell 1 (Konstante) x4,884 x5 -,007 x6,125 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten Standard B fehler Beta T Signifikanz 25,076 8,398 2,986,007,257,003,120,843 -,632,179 3,444-2,612 1,045,002,016,308 95%-Konfidenzintervall für B Untergrenze Obergrenze 7,612 42,539,350 1,419 -,013 -,001 -,124, / 130

93 SPSS Output: Suppressionseffekte; Schätzung der Korrelationsmatrix Y x4 x5 x6 Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Y 1,000, ,038,856 25,354, x4,419 *,037 25,717 **,000 25,163,435 Korrelationen 25 x5, , ,060, x ,419 * 1,000,717 **,163 *. Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant. **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. -,038,856,354,082, ,060, , Lineare 93 / 130

94 2.33 Merkmalselektionsverfahren Ziel: mit möglichst wenig Prädiktorvariablen eine gute Vorhersage der abhängigen Variablen zu erzielen. Prinzip: untersuche wie sich durch Weglassen einzelner Variablen das Bestimmtheitsmaß R 2 verändert. 2.2 Lineare Typische Selektionsprozeduren: (A) Rückwärtsverfahren (B) Vorwärtsverfahren (C) Schrittweise Verfahren Beachte: es handelt sich um explorative Verfahren, die hauptsächlich der Modellbildung dienen (Interpretation nicht einfach). 94 / 130

95 2.34 Das Rückwärtsverfahren Betrachte das vollständige Modell (mit allen Prädiktorvariablen) und berechne das Bestimmtheitsmaß R 2 Entferne sukzessive diejenigen Variablen, die zu dem geringsten Rückgang des Bestimmtheitsmaßes führen würden Das Verfahren wird abgebrochen, falls sich bei dem Entfernen einer Variablen das Bestimmtheitsmaß signifikant verkleinert 2.2 Lineare 95 / 130

96 2.35 Beispiel: Variablenselektion mit dem Rückwärtsverfahren (vgl. Beispiel 2.22) Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 1 Ehrgeiz Kreativität 3.13 Leistungsstreben.76 Hierarchie 1.66 Lohn -.59 Arbeitsbedingungen -.58 Lernpotential 1.68 Vielfalt 3.97 Anspruch Lineare 2 Ehrgeiz 2.38 Arbeitsbedingungen.928 Kreativität 3.28 Leistungsstreben.79 Hierarchie 1.66 Lohn -.57 Lernpotential 1.66 Vielfalt 4.04 Anspruch / 130

97 Beispiel: Rückwärtsverfahren - Fortsetzung Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 3 Ehrgeiz 2.54 Arbeitsbedingungen.926 Kreativität 3.43 Lohn Leistungsstreben.88 Hierarchie 2.11 Lernpotential 1.59 Vielfalt 4.17 Anspruch Lineare 4 Ehrgeiz 5.40 Arbeitsbedingungen.923 Kreativität 3.38 Lohn Hierarchie 2.31 Leistungsstreben Lernpotential 1.55 Vielfalt 4.12 Anspruch Ehrgeiz 5.18 Arbeitsbedingungen.916 Kreativität 3.16 Lohn Hierarchie 2.84 Leistungsstreben Lernpotential 3.31 Anspruch Vielfalt / 130

98 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation Aufgenommene/Entfernte Variablen b Entfernte Modell Aufgenommene Variablen Variablen Methode 1 x9, x5, x2, x3, x6, x8, x7, x4,. Eingeben 2. x6 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 3. x5 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 4. x3 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 5. x9 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). a. Alle gewünschten Variablen wurden aufgenommen. b. Abhängige Variable: Y 2.2 Lineare 98 / 130

99 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation Modellzusammenfassung Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,964 a,929,887 1,891,929 21, ,000 2,963 b,928,892 1,851 -,002, ,573 3,963 c,926,896 1,814 -,001, ,575 4,961 d,923,897 1,803 -,003, ,389 5,957 e,916,894 1,837 -,007 1, ,207 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 2.2 Lineare 99 / 130

100 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: ANOVA Modell Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadratsumme 707,309 53, , ,120 54, , ,000 55, , ,422 58, , ,852 64, ,960 df Mittel der Quadrate 78,590 3,577 88,265 3, ,714 3, ,070 3, ,370 3,374 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 f. Abhängige Variable: Y 9 F 21,972 25,752 30,596 35,999 41,306 ANOVA f Signifikanz,000 a,000 b,000 c,000 d,000 e 2.2 Lineare 100 / 130

101 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell 1 (Konstante) 2 3 x1 x2 x3 x4 x5 x6 x7 x8 x9 (Konstante) x1 x2 x3 x4 x5 x7 x8 x9 (Konstante) x1 x2 x3 x4,193,153,049,246,000 -,031,165,206,053-4,737,187,157,050,240,000,157,205,052-7,154,193,159,055,172 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz -3,842 5,052 -,760,459,081,049,065,148,001,054,098,052,058 4,706,079,048,063,144,001,095,051,057 2,027,076,046,062,081,337,234,095,235 -,077 -,045,199,354,124,326,239,096,228 -,073,190,352,121,338,244,105,164 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920-1,007 2,376 3,285,790 1,660 -,572 1,655 4,040,914-3,529 2,540 3,431,885 2,113 Koeffizienten a,031,007,458,117,564,573,113,001,372,329,030,005,441,116,575,117,001,374,003,021,003,389,050 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070-14,713,020,056 -,084 -,066 -,004 -,044,097 -,068-11,431,033,061 -,076,000 Obergrenze 6,926,365,258,188,561,002,085,373,316,177 5,238,353,258,185,545,002,358,312,172-2,877,354,258,185, Lineare 101 / 130

102 2.36 Das Vorwärtsverfahren Bestimme diejenige Prädiktorvariable, die mit der abhängigen Variablen am stärksten korreliert ist und berechne das Bestimmtheitsmaß R 2 Ist R 2 signifikant, wird diese Variable in das Modell aufgenommen Füge sukzessive diejenigen Variablen zu dem Modell hinzu, die zu dem größten Anstieg des Bestimmtheitsmaßes führen Das Verfahren bricht ab, falls sich bei Hinzunahme einer neuen Variablen das Bestimmtheitsmaß R 2 nicht signifikant vergrößert 2.2 Lineare 102 / 130

103 SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation Aufgenommene Variablen Entfernte Variablen Modell Methode 1 x1. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) 2 Vorwährts- (Kriterium: Wahrscheinlichkeit x9. von F-Wert für Aufnahme <=,050) 3 x2. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) 4 Vorwährts- (Kriterium: Wahrscheinlichkeit x8. von F-Wert für Aufnahme <=,050) 5 x4. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) a. Abhängige Variable: Y Aufgenommene/Entfernte Variablen a 2.2 Lineare 103 / 130

104 SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation Modellzusammenfassung 2.2 Lineare Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,708 a,501,479 4,065,501 23, ,000 2,863 b,744,721 2,973,244 20, ,000 3,906 c,820,795 2,552,076 8, ,007 4,944 d,891,869 2,039,070 12, ,002 5,955 e,913,890 1,869,022 4, ,041 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 104 / 130

105 SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation: ANOVA Modell Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadrat summe 380, , , , , , , , , ,797 83, , ,596 66, ,960 df Mittel der Quadrate 380,968 16, ,228 8, ,081 6, ,449 4, ,919 3,493 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 f. Abhängige Variable: Y 1 ANOVA f F 23,059 32,035 31,962 40,751 39,773 Signifikanz,000 a,000 b,000 c,000 d,000 e 2.2 Lineare 105 / 130

106 SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell 1 (Konstante) x1 (Konstante) x1 x9 (Konstante) x1 x9 x2 (Konstante) x1 x9 x2 x8 (Konstante) x1 x9 x2 x8 x4,404,063,320,221-2,101,319,203,183-6,502,253,150,192,190-6,833,271,116,177,181,181 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 9,088 2,406 3,778,001,084 2,642,064,048 2,380,055,042,061 2,263,048,037,049,053 2,080,045,037,045,049,083 Koeffizienten a,708,560,515,558,474,279,442,350,293,327,474,271,271,311,173 4,802,024 4,983 4,580 -,883 5,776 4,862 2,979-2,873 5,286 4,101 3,908 3,589-3,285 6,076 3,147 3,903 3,706 2,193,000,981,000,000,387,000,000,007,009,000,001,001,002,004,000,005,001,001,041 95%-Konfidenzintervall für B Untergrenze 4,111,230-5,415,187,121-7,052,204,116,055-11,224,153,074,089,080-11,186,178,039,082,079,008 Obergrenze 14,064,579 5,542,454,321 2,849,433,290,310-1,781,352,226,294,301-2,479,364,193,272,283, Lineare 106 / 130

107 2.37 Das schrittweise Verfahren Rückwärts- und Vorwärtsverfahren werden kombiniert! Man führt ein Vorwärtsverfahren durch, wobei in jedem Schritt untersucht wird, ob bei Entfernen einer bereits aufgenommenen Variable das Bestimmtheitsmaß signifikant abnehmen würde. 2.2 Lineare 107 / 130

108 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation Modell 1 Aufgenommene Variablen Entfernte Variablen Methode x1. Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 2 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x9. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 3 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x2. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 4 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x8. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 5 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x4. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). a. Abhängige Variable: Y Aufgenommene/Entfernte Variablen a 2.2 Lineare 108 / 130

109 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation Modellzusammenfassung 2.2 Lineare Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,708 a,501,479 4,065,501 23, ,000 2,863 b,744,721 2,973,244 20, ,000 3,906 c,820,795 2,552,076 8, ,007 4,944 d,891,869 2,039,070 12, ,002 5,955 e,913,890 1,869,022 4, ,041 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 109 / 130

110 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation: ANOVA Modell Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadratsumme 380, , , , , , , , , ,797 83, , ,596 66, ,960 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 f. Abhängige Variable: Y df Mittel der Quadrate 380,968 16, ,228 8, ,081 6, ,449 4, ,919 3,493 ANOVA f F 23,059 32,035 31,962 40,751 39,773 Signifikanz,000 a,000 b,000 c,000 d,000 e 2.2 Lineare 110 / 130

111 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell (Konstante) x1 (Konstante) x1 x9 (Konstante) x1 x9 x2 (Konstante) x1 x9 x2 x8 (Konstante) x1 x9 x2 x8 x4 Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 9,088,404,063,320,221-2,101,319,203,183-6,502,253,150,192,190-6,833,271,116,177,181,181 2,406,084 2,642,064,048 2,380,055,042,061 2,263,048,037,049,053 2,080,045,037,045,049,083 Koeffizienten a,708,560,515,558,474,279,442,350,293,327,474,271,271,311,173 3,778 4,802,024 4,983 4,580 -,883 5,776 4,862 2,979-2,873 5,286 4,101 3,908 3,589-3,285 6,076 3,147 3,903 3,706 2,193,001,000,981,000,000,387,000,000,007,009,000,001,001,002,004,000,005,001,001,041 95%-Konfidenzintervall für B Untergrenze 4,111,230-5,415,187,121-7,052,204,116,055-11,224,153,074,089,080-11,186,178,039,082,079,008 Obergrenze 14,064,579 5,542,454,321 2,849,433,290,310-1,781,352,226,294,301-2,479,364,193,272,283, Lineare a. Abhängige Variable: Y 111 / 130

112 2.38 Bemerkung zu den verschiedenen Merkmalselektionsverfahren Beachte: Verschiedene Verfahren liefern verschiedene Ergebnisse (es gibt kein richtig oder falsch!) 2.2 Lineare Beispiel (Arbeitsmotivation) Rückwärtsverfahren Vorwärtsverfahren Schrittweises Verfahren Ehrgeiz Ehrgeiz Ehrgeiz Kreativität Kreativität Kreativität Hierarchie Hierarchie Hierarchie Lernpotential Anspruch Anspruch Vielfalt Vielfalt Vielfalt R 2 =.916 R 2 =.913 R 2 = / 130

113 2.2 Lineare 113 / 130

114 Nichtlineare Die (multiplen) linearen smodelle beruhen auf der Annahme, dass der Zusammenhang zwischen jeder Prädiktorvariable und der abhängigen Variablen linear ist, d.h., durch eine Gerade beschrieben werden kann 2.2 Lineare Diese Annahme muss nicht immer erfüllt sein. zwischen Variablen können im Grunde beliebige Form haben Man spricht in diesen Fällen von nichtlinearen n 114 / 130

115 2.39 Beispiel: Gedächtnistest Mehrere Personen machen einen Gedächtnistest 2.2 Lineare 30 Ortsnamen (aus Mongolei) werden vorgegeben y(x): Anzahl der Ortsnamen, die nach x Tagen noch im Gedächtnis geblieben sind (Mittelwerte) x y(x) / 130

116 Das Streudiagramm für die Daten aus Beispiel 2.39 (Gedächtnistest) 30,0 2.2 Lineare Anzahl der Ortsnamen 20,0 10,0, Tage 116 / 130

117 Lineare für die Daten aus Beispiel 2.39 (Gedächtnistest) 30,0 2.2 Lineare Anzahl der Ortsnamen 20,0 10,0, Tage Die Gleichung der geschätzten Geraden: y = x 117 / 130

118 Residuenanalyse bei linearer für die Daten aus Beispiel 2.39 (Gedächtnistest) 2, Lineare Standardized Residual 1,00000, , , , ,50000,00000, , ,50000 Standardized Predicted Value 118 / 130

119 QQ - Plot bei linearer für die Daten aus Beispiel 2.39 (Gedächtnistest) 1,5 Q-Q-Diagramm von Normal von Standardized Residual 2.2 Lineare 1,0 Erwarteter Wert von Normal 0,5 0,0-0,5-1,0-1, Beobachteter Wert 119 / 130

120 Beachte: Ein lineares modell ist für die Beschreibung des Zusammenhangs ungeeignet! Quadratisches smodel 2.2 Lineare Y i = b 0 + b 1 x i + b 2 x 2 i + ε i Schätzung der Parameter mit der Methode der kleinsten Quadrate und die entsprechenden Standardfehler ˆb 0 = ˆb 1 = ˆb 2 = ŝ b0 = ŝ b1 = ŝ b2 = / 130

121 Konfidenzbereiche und Tests Man geht wie in 2.12 und 2.14 bzw vor 90% Konfidenzintervall für b 2 (man beachte: das Modell hat 3 Parameter) t 10 3,0.95 = ˆb2 = ŝ b2 = Lineare [ˆb 2 t 7,0.95 ŝ b2, ˆb 2 + t 7,095 ŝ b2 ] = [0.2092, ] ist 90% Konfidenzintervall für b 2 Die Hypothese H 0.b 2 = 0 wird (zum Niveau 10%) verworfen, fall ˆb 2 > t10 3,0.95 ŝ b2 gilt (im Beispiel wird also H 0 abgelehnt) 121 / 130

122 SPSS-Output: Schätzer für quadratische 2.2 Lineare Nicht standardisierte Koeffizienten Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta t Sig. Tage -4,876,233-2,183-20,927,000 Tage ** 2,249,021 1,257 12,055,000 (Konstante) 29,088,558 52,136, / 130

123 Streudiagramm für die Daten aus Beispiel 2.39 mit der geschätzten Parabel 30,0 Anzahl der Ortsnamen Beobachtet Quadratisch 2.2 Lineare 20,0 10,0 0, Tage 123 / 130

124 SPSS-Output: Residuenanalysefür für die Daten aus Beispiel 2.39 bei quadratischer 2, Lineare 1,00000 Standardized Residual, , , , ,50000,00000, , , ,00000 Standardized Predicted Value 124 / 130

125 SPSS-Output: QQ-Plot für die Daten aus Beispiel 2.39 bei quadratischer 1,5 Q-Q-Diagramm von Normal von Standardized Residual 2.2 Lineare 1,0 Erwarteter Wert von Normal 0,5 0,0-0,5-1,0-1, Beobachteter Wert 125 / 130

126 SPSS-Output: Histogramm für die Residuen aus Beispiel 2.39 bei quadratischer Histogramm Abhängige Variable: Anzahl der Ortsnamen 2.2 Lineare 2,5 Mittelwert =3,96E-16 Std.-Abw. = 0,882 N =10 2,0 Häufigkeit 1,5 1,0 0,5 0, Standardisiertes Residuum 126 / 130

127 2.40 Polynomiale smodelle Modelle zur polynomialen Ordnung Modell 0. Y = b 0 + ε 1. Y = b 0 + b 1 x 1 + ε 2. Y = b 0 + b 1 x 1 + b 2 x 2 + ε.. k. Y = b 0 + b 1 x 1 + b 2 x b k x k + ε 2.2 Lineare Beachte: In der Regel werden nur Modelle von niedrigem Grad verwendet (k 3)! Schätzung der Parmeter erfolgt mit der Methode der kleinsten Quadrate Konfidenzintervalle, Tests und Residuenanalyse werden wie bei der linearen bzw. multiplen durchgeführt (Allgemeines lineares Modell) 127 / 130

128 2.41 Mehrdimensionale Polynome Sind mehrere Prädiktorenvariable verfügbar, so können neben Potenzen auch Produkte von zwei oder mehr Variablen in die sgleichung aufgenommen werden Beispiele: 2.2 Lineare Y (x) = b 0 + b 1 x 1 + b 2 x 2 + b 12 x 1 x 2 + ε Y (x) = b 0 + b 1 x 1 + b 2 x 2 + b 12 x 1 x 2 + b 02 x b 20 x ε Y (x) = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 120 x 1 x 2 + b 103 x 1 x 3 +b 023 x 2 x 3 + b 123 x 1 x 2 x 3 + ε 128 / 130

129 3D-Streudiagramm mit der geschätzten Funktion Lineare Y X X Die geschätzte Funktion ist:. ŷ(x) = x x x 1 x / 130

130 Y 3D-Streudiagramm mit der geschätzten Funktion Polynomiale Terme und Produkte der Prädiktoren können natürlich auch gemeinsam vorkommen. Beispiel: y(x) = b 0 + b 11 x 1 + b 12 x b 21 x 2 + b 23 x b 11;21 x 1 x 2 + ε. 2.2 Lineare X X Die angepasste Funktion hat die Form ŷ(x) = x x x x x 1 x / 130