2. Korrelation, lineare Regression und multiple Regression

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "2. Korrelation, lineare Regression und multiple Regression"

Transkript

1 multiple 2.2 Lineare 2.2 Lineare 1 / 130

2 2.2 Lineare 2 / 130

3 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) 2.2 Lineare Frage: besteht ein Zusammenhang zwischen der Variablen Motivation und der Variablen Leistungsstreben Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 3 / 130

4 Daten x y x y x y Lineare 4 / 130

5 2.2 Der Korrelationskoeffizient von Pearson Daten (x 1, y 1 ),..., (x n, y n ) Maß für die (lineare) Abhängigkeit zwischen x und y: Korrelationskoeffizient von Pearson ˆρ X,Y = s n x,y i=1 = (x i x )(y i y ) s x,x s n y,y i=1 (x i x ) 2 n i=1 (y i y ) Lineare Dabei ist: x = 1 n n i=1 x i : Mittelwert der Daten x i y = 1 n n i=1 y i : Mittelwert der Daten y i s 2 x,x = 1 n n i=1 (x i x ) 2 : Varianz der Daten x i s 2 y,y = 1 n n i=1 (y i y ) 2 : Varianz der Daten y i s 2 x,y = 1 n n i=1 (x i x )(y i y ) : Kovarianz zwischen den Daten x i, y i 5 / 130

6 2.3 Eigenschaften des Korrelationskoeffizienten (1) 1 ˆρ X,Y 1 (2) ˆρ X,Y = 1 genau dann, wenn ein exakter linearer Zusammenhang y i = b 0 + b 1 x i mit b 1 > 0 besteht (ohne Störgrößen). (3) ˆρ X,Y = 1 genau dann, wenn ein exakter linearer Zusammenhang 2.2 Lineare y i = b 0 + b 1 x i mit b 1 < 0 besteht (ohne Störgrößen). (4) Der Korrelationskoeffizient ist invariant bzgl. linearer Transformationen, d.h. } x i = a 0 + a 1 x i i = 1,..., n ρ ỹ i = c 0 + c 1 y i i = 1,..., n X,Ỹ = ρ X,Y (4) Der Korrelationskoeffizient von Pearson ist ein deskriptives Maß für den linearen Zusammenhang in der Stichprobe (x 1, y 1 ),..., (x n, y n ) 6 / 130

7 2.4 Beispiel: Korrelationskoeffizient für die Daten aus Beispiel 2.1 Variablen x: Leistungsstreben y: Motivation Korrelationskoeffizient von Pearson 2.2 Lineare ˆρ x,y = Fragen: Wie genau ist diese Schätzung? Ist die Korrelation von 0 verschieden (Unkorreliertheit zwischen den Merkmalen Leistungsstreben und Motivation)? 7 / 130

8 2.5 Signifikanztest für Korrelation ρ bezeichne die Korrelation des Merkmals X mit dem Merkmal Y einer Population (x 1, y 1 ),..., (x n, y n ) ist eine Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grundgesamtheit Ein Test zum Niveau α für die Hypothese die Merkmale sind unkorreliert H 0 : ρ = 0 lehnt die Nullhypothese zu Gunsten der Alternative H 1 : ρ 0 ab, falls n 2ˆρx,y > t 1 ˆρ 2 n 2,1 α/2 x,y 2.2 Lineare gilt. 8 / 130

9 2.6(a) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) n = 25; ˆρ x,y = ; t 23,0.95 = Lineare n 2 ˆρx,y = > ˆρ 2 x,y Die Nullhypothese H 0 : ρ = 0 (keine Korrelation zwischen den Merkmalen) wird zum Niveau 10% verworfen. p-wert: / 130

10 SPSS Output für Korrelationskoeffizient Motivation Leistungsstreben Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Motivation Korrelationen 1,000,004 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. 25 Leistungsstreben,559 **, ,559 ** 1, Lineare 10 / 130

11 2.7 Konfidenzintervall für Korrelation ρ: Korrelation zwischen Merkmal x und Merkmal y einer Population (x 1, y 1 ),..., (x n, y n ): Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grundgesamtheit Mathematische Statistik: ˆρ x,y ist näherungsweise (d.h. bei großem Stichprobenumfang) normalverteilt mit Erwartungswert ρ und Varianz 2.2 Lineare γ 2 = Var(ˆρ x,y ) (1 ρ 2 ) 2 /n (1 α)-konfidenzintervall für den Korrelationskoeffizienten (ˆρx,y ˆγz 1 α/2, ˆρ x,y + ˆγz 1 α/2 ) Hier bezeichnet ˆγ = (1 ˆρ 2 x,y )/ n einen Schätzer für die Standardabweichung von ˆρ x,y und z 1 α/2 das (1 α/2) Quantil der Standardnormalverteilung (Tabelle, Software) 11 / 130

12 2.6(b) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) n = 25; ˆρ x,y = Lineare z 0.95 = , ˆγ = % Konfidenzintervall für den Korrelationskoeffizient [0.2739, ] 12 / 130

13 2.8 Hinweise zur Interpretation von Korrelationen Annahme: man hat eine signifikante Korrelation zwischen dem Variablen x und y gefunden Folgende Interpretationen sind möglich (1) x beeinflusst y kausal (2) y beeinflusst x kausal (3) x und y werden von weiteren Variablen kausal beeinflusst (4) x und y beeinflussen sich wechselseitig kausal Die Korrelation zwischen zwei Variablen ist eine notwendige aber keine hinreichende Voraussetzung für einen kausalen Zusammenhang Der Korrelationskoeffizient gibt keine Information welche der vier Interpretationen zutrifft (in vielen Fällen wird das der Typ (3) sein) Korrelationen sollten ohne Zusatzinformation nicht interpretiert werden! 2.2 Lineare 13 / 130

14 Beispiel Annahme: man hat eine signifikante Korrelation zwischen den Merkmalen Ehrlichkeit und Häufigkeit des Kirchgangs gefunden Folgende Interpretationen sind möglich Die in der Kirche vermittelten Werte haben einen positiven Einfluß auf das Merkmal Ehrlichkeit Ehrliche Menschen fühlen sich durch die in der Kirche vermittelten Inhalte eher angesprochen und gehen aus diesem Grund häufiger zur Kirche Die allgemeine familiäre und außerfamiliäre Sozialisation beeinflußt beide Merkmale 2.2 Lineare 14 / 130

15 2.2 Lineare 2.2 Lineare 15 / 130

16 2.9 Beispiel: (Fortsetzung von Beispiel 2.1) Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) 2.2 Lineare Kann man y aus x vorhersagen? 16 / 130

17 Streudiagramm für die Daten aus Beispiel Lineare 25 Motivation Leistungsstreben 17 / 130

18 2.9 Beispiel: (Fortsetzung von Beispiel 2.1) Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) 2.2 Lineare Frage: besteht ein funktionaler Zusammenhang zwischen der Variablen Motivation und der Prädiktorvariablen Leistungsstreben (Kann man y aus x vorhersagen?) Genauer: Gesucht ist Funktion f, die aus der Prädiktorvariablen Leistungsstreben (x) eine Vorhersage für die abhängige Variable (y) Motivation liefert: Motivation = f( Leistungsbereitschaft ) Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 18 / 130

19 Ausgangslage: Von Interesse ist der Zusammenhang zwischen verschiedenen Variablen. Im einfachsten Fall betrachtet man, wie im Beispiel der Arbeitsmotivation, den Zusammenhang zwischen zwei Variablen. Daten: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein kausaler Zusammenhang der Form y = f (x) zwischen der abhängigen Variablen y und der Prädiktorvariablen x. Weitere Annahme: Die Funktion f hat eine bestimmte Form. Beispiele: Lineare (der Zusammenhang ist also durch eine Gerade beschreibbar): y = b 0 + b 1x Quadratische (der Zusammenhang ist also durch eine Parabel beschreibbar): y = b 0 + b 1x + b 2x 2 usw. Beachte: Der Zusammenhang ist in der Regel nicht exakt zu beobachten. Mathematisches Modell Y = b 0 + b 1 x + ε 2.2 Lineare Dabei bezeichnet ε eine zufällige Störgröße. Diese Modell bezeichnet man als Lineare. 19 / 130

20 2.10 Das Modell der linearen Daten (x 1, y 1 ),..., (x n, y n ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen den Variablen Y i und x i gilt: 2.2 Lineare Y i = b 0 + b 1 x i + ε i i = 1,..., n ε i bezeichnet hier eine zufällige Störung und es wird angenommen, dass die Störungen unabhängig und normalverteilt sind mit Erwartungswert 0 und Varianz σ 2 > 0 Deutung: es wird ein linearer Zusammenhang zwischen x und y postuliert, der noch zufälligen Störungen unterliegt 20 / 130

21 Idee der Schätzung bei (linearer) Daten (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein linearer Zusammenhang Y = b 0 + b 1 x + ε 2.2 Lineare Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Y und x am besten beschreibt. Idee: Bestimme die Gerade so, dass die Summe der quadratischen (vertikalen) Abstände zwischen den y-koordinaten der Datenpunkte und den entsprechenden Punkten auf der geschätzten Geraden minimal wird Methode der kleinsten Quadrate 21 / 130

22 y y Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten 2.2 Lineare y=0.2x y=0.5x x x 22 / 130

23 Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten: die Lösung durch die Methode der kleinsten Quadrate 2.2 Lineare y y=0.292x x 23 / 130

24 2.11 Die Methode der kleinsten Quadrate Bestimme die Gerade so, dass die Summe der quadrierten senkrechten Abstände zwischen Gerade und Daten minimal wird - Datum an der Stelle x i : y i - Wert der Geraden an der Stelle x i : b 0 + b 1 x i - Differenz: y i (b 0 + b 1 x i ) 2.2 Lineare Minimiere h(b 0, b 1 ) = n ( i=1 yi (b 0 + b 1 x i ) ) 2 bzgl. der Wahl der Parameter b 0 und b 1. Lösung dieses Extremwertproblems liefert Schätzer für Achsenabschnitt und Steigung der Geraden: ˆb 1 = n i=1 (x i x )(y i y ) n i=1 (x i x ) 2, ˆb 0 = y ˆb 1 x - x = 1 n n i=1 x i: Mittelwert der Prädiktorvariablen - y = 1 n n i=1 y i: Mittelwert der abhängigen Variablen 24 / 130

25 Beispiel Arbeitsmotivation: Streudiagramm und sgerade für die Daten aus Beispiel 2.1 Motivation Lineare R-Quadrat linear = 0, Leistungsstreben Schätzer: ˆb 0 = 13.82, ˆb 1 = 0.29 Fragen: - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß des Leistungsstrebens auf die Motivation H 0 : b 1 = 0 - Wie gut beschreibt das lineare smodell die Situation? 25 / 130

26 Die Genauigkeit der Schätzer für die Parameter Beachte: vor der Datenerhebung sind ˆb 0 und ˆb 1 zufällig Mathematische Statistik (allegmeines lineares Modell) liefert Schätzer für die Varianzen von ˆb 0 und ˆb 1 Schätzer für die Varianz von ˆb 0 : ŝ 2 b 0 = S 2 y x n Schätzer für die Varianz von ˆb 1 : ŝ 2 b 1 = S 2 y x n Dabei bezeichnet S 2 y x = 1 n 2 n i=1 x 2 i n i=1 (x i x ) 2 1 n n (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 1 n i=1 (x i x ) Lineare die Residualvarianz (Schätzer für die Varianz der Störgrößen) Je größer der Stichprobenumfang n, desto genauer sind die Schätzungen! 26 / 130

27 Fortsetzung von Beispiel 2.1: Schätzer für die Daten der Arbeitsmotivation Schätzer für die Parameter ˆb 0 = ˆb 1 = S 2 y x = Lineare Schätzer für die Varianz von ˆb 0 und ˆb 1 ŝ 2 b 0 = ŝ 2 b 1 = Je größer der Stichprobenumfang n, desto genauer sind die Schätzungen! 27 / 130

28 SPSS Output: Schätzer und Standardabweichungen bei linearer in Beispiel Lineare Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Koeffizienten a Standardisierte Nicht standardisierte Koeffizienten Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090,559 3,235, / 130

29 2.12 Konfidenzintervalle bei linearer Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme für ε 1,..., ε n Bestimmung der Schätzer ŝ 2 b 0 und ŝ 2 b 1 für die Varianzen von ˆb 0 und ˆb 1. Damit ist dann 2.2 Lineare = (ˆb 0 t n 2,1 α/2 ŝ b0, ˆb 0 + t n 2,1 α/2 ŝ b0 ) ein (1 α) -Konfidenzintervall für b 0 und = (ˆb 1 t n 2,1 α/2 ŝ b1, ˆb 1 + t n 2,1 α/2 ŝ b1 ) ein (1 α) -Konfidenzintervall für b 1. Hier ist t n 2,1 α/2 das (1 α/2)-quantil der t-verteilung mit n 2 Freiheitsgraden (tabelliert oder mit Software verfügbar) 29 / 130

30 Beispiel 2.13: Konfidenzbereiche im Beispiel 2.1 (Arbeitsmotivation) n = 25, t 23,0975 = Für das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt sich als 95% Konfidenzintervall für 2.2 Lineare b 0 : [9.420, ] b 1 : [0.105, 0.479] Frage: Besteht ein (signifikanter) Einfluß der Prädikorvaraiblen x auf die abhängige Variable Y? Mathematische Formulierung: H 0 : b 1 = 0 30 / 130

31 SPSS Output: Konfidenzintervalle bei linearer Rgeression in Beispiel Lineare Koeffizienten a Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090,559 3,235,004 95%-Konfidenzintervall für B Untergrenze Obergrenze 9,420 18,212,105, / 130

32 2.14 F -test für die Hypothese H 0 : b 1 = 0 Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme für ε 1,..., ε n Hypothesen 2.2 Lineare H 0 : b 1 = 0, H 1 : b 1 0 Die Nullhypothese H 0 : b 1 = 0 wird zu Gunsten der Alternative H 1 : b 1 0 verworfen, falls gilt F n = S 2 reg S 2 y x = n 2 n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 n i=1 (y i (ˆb 0 + ˆb 1 x i )) 2 > F 1;n 2,1 α F 1;n 2,1 α bezeichnet das (1 α)-quantil der F -Verteilung mit (1, n 2) Freiheitsgraden 32 / 130

33 Motivation des F -Tests: Zerlegung der Varianz n (y i y ) 2 = n (y i (ˆb 0 + ˆbx i )) 2 + n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Gesamtvarianz i=1 } {{ } Residualvarianz i=1 } {{ } Varianz der 2.2 Lineare Bezeichnungen: S 2 reg = 1 1 n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 heißt Varianz der (diese hat 1 Freiheitsgrad) und Sy x 2 = 1 n n 2 (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 ist die Residualvarianz (diese hat n 2 Freiheitsgrade). Andere Interpretationen: - Schätzung für die Varianz der Größen ε i - durch das lineare smodell nicht erklärbare Varianz 33 / 130

34 Motivation des F -Tests: Zerlegung der Varianz n (y i y ) 2 = n (y i (ˆb 0 + ˆbx i )) 2 + n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Gesamtvarianz i=1 } {{ } Residualvarianz i=1 } {{ } Varianz der 2.2 Lineare = 1 S 2 reg + (n 2) S 2 y x Beachte: Bei dem F -Test für die Hypothese H 0 : b 1 = 0 bildet man den Quotienten aus der Varianz der der Residualvarianz Man untersucht also, welcher Anteil der Gesamtvarianz durch die Varianz der erklärbar ist 34 / 130

35 2.15 Varianzanalyse (ANOVA; analysis of variance) Art der Freiheits- Quadrat- F -Quotient Abweichung grade (df ) summe schätzer 1 n i=1 (y ŷ i ) 2 F n = S 2 reg /S 2 y x 2.2 Lineare Fehler n 2 n i=1 (y i ŷ i ) 2 Total n 1 n i=1 (y i y ) 2 Bezeichnung: ŷ i = ˆb 0 + ˆb 1 x i 35 / 130

36 SPSS Output: F-Test bei linearer in Beispiel 2.1 Modell 1 Residuen Gesamt Quadratsumme 238, , ,960 a. Einflußvariablen : (Konstante), Leistungsstreben b. Abhängige Variable: Motivation df Mittel der Quadrate 238,015 22,737 F 10,468 ANOVA b Signifikanz,004 a 2.2 Lineare Beachte: F 25 = , F 1,23,0.95 = Da F 25 = > wird die Nullhypothese H 0 : b 1 = 0 zu Gunsten der Alternative H 1 : b 1 0 zum Niveau 5% verworfen (p-wert: 0.004) 36 / 130

37 Modellgüte: wie geeignet ist das Modell für die Beschreibung der Daten Maß für Modellanpassung: Residualvarianz (Summe der quadrierte Abstände von der sgerade): S 2 y x = 1 n 2 n i=1 ( ) 2 y i (ˆb 0 + ˆb 1 x i ) 2.2 Lineare Beachte: Sy x 2 ist ein Schätzer für die Varianz der Meßfehler Je kleiner Sy x 2, desto besser ist das (lineare) smodell Streuung der Daten ohne die Information, dass ein lineares Modell vorliegt: n (y i y ) 2 i=1 Man untersucht welchen Anteil der Streuung n i=1 (y i y ) 2 man durch das lineare Modell erklären kann 37 / 130

38 Varianzzerlegung: ein extremes Beispiel y Abhängige Variable Lineare Unabhängige Variable x Beachte: Die Grafik zeigt eine extreme Situation. Die Streuung der Daten ist durch das lineare smodell zu 100% erklärbar! n i=1 (y i y ) 2 = n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 Residualvarianz (durch das lineare smodell nicht erklärbare Varianz) = 0 38 / 130

39 2.16 Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1): 25 i=1 25 i=1 R 2 = (y i y ) 2 = (y (ˆb 0 + ˆb 1 x i )) 2 = i=1 (y (ˆb 0 + ˆb 1 x i )) 2 25 i=1 (y i y ) 2 = Lineare d.h. 31,3 % der Varianz der Variablen Motivation können durch die Prädiktorvariable Leistungsstreben erklärt werden. 39 / 130

40 2.17 Modellgüte: das Bestimmtheitsmaß Die Größe n (y i (ˆb 0 + ˆb n 1 x i )) 2 (y (ˆb 0 + ˆb 1 x i )) 2 R 2 i=1 i=1 = 1 = n n (y i y ) 2 (y i y ) 2 i=1 i=1 2.2 Lineare ist ein Maß für die Güte der heißt Bestimmtheitsmaß. Beachte: man kann zeigen, dass R 2 genau das Quadrat der Korrelation ist. Je besser das Modell ist, desto kleiner ist die Residualvarianz, bzw. desto größer R 2! Das Bestimmtheitsmaß R 2 liegt immer zwichen 0 und 1 40 / 130

41 Zusammenhang zwischen Bestimmtheitsmaß und F -Test Ist F n die Statistik für den F -Test aus 2.14 und R 2 das Bestimmtheitsmaß, dann gilt: R 2 = 1 n 2 F n n 2 F n 2.2 Lineare In anderen Worten: die Statistik F n des F -Test aus 2.5 kann aus dem Bestimmtheitsmaß berechnet werden (und umgekehrt) Im Beispiel des Zusammenhangs zwischen Motivation und Leistungsstreben ist F n = = R 2 = = C.a. 31.3% der Variation der Variablen Motivation können durch die die Variable Leistungsstreben erklärt werden 41 / 130

42 Vorhersagen: es gibt zwei unterschiedliche 2.18 Vorhersage für den Wert der Geraden an einer Stelle x Schätzung für den Wert der Geraden y(x) = b 0 + b 1 x an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x 2.2 Lineare (1 α)-konfidenzintervall für y(x) (ŷ(x) t n 2;α/2 ŝ y(x), ŷ(x) + t n 2;α/2 ŝ y(x) ) wobei ŝ 2 y(x) = S 2 y x ( 1 n + (x x ) 2 n i=1 (x i x ) 2 ) den Schätzer für die Varianz von Ŷ (x) bezeichnet 42 / 130

43 Vorhersagen: es gibt zwei unterschiedliche 2.19 Vorhersage für eine neue Beobachtung an einer Stelle x Schätzer für eine neue Beobachtung Ỹ (x) = b 0 + b 1 x + ε an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x 2.2 Lineare (1 α)-konfidenzintervall für y(x) (ŷ(x) t n 2;α/2 s y(x), ŷ(x) + t n 2;α/2 s y(x) ) wobei s 2 y(x) = S 2 y x (1 + 1 n + (x x ) 2 n i=1 (x i x ) 2 ) den Schätzer für die Varianz von ŷ(x) + ε bezeichnet Beachte: Diese Varianz wird bei wachsendem Stichprobenumfang nicht beliebig klein! 43 / 130

44 2.20 Beispiel (Fortsetzung von Beispiel 2.1) (1) Gesucht ist ein 90% Konfidenzintervall für den Wert der Geraden an der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ 2 y(x) = 1.116, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für den Wert der Geraden an der Stelle 16 ist gegeben durch 2.2 Lineare [16.677, ] (2) Gesucht ist ein 90% Konfidenzintervall für eine neue Beobachtung der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ 2 ỹ(x) = 23.85, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für eine neue Beobachtung an der Stelle 16 ist gegeben durch [10.118, ] 44 / 130

45 SPSS Output: Vorhersagen bei linearer in Beispiel 2.1 (schwierig) 2.2 Lineare 45 / 130

46 SPSS Output: Konfidenzintervalle für Vorhersagen bei linearer in Beispiel Lineare 25 Motivation Leistungsstreben 46 / 130

47 2.21 Residuenanalyse Unter der Modellannahme des linearen smodells gilt: die Größen ε i = Y i b 0 b 1 x i sind unabhängig und normalverteilt mit Erwartungswert 0 und Varianz σ 2 > 0. Das bedeutet, dass diese Eigenschaften auch näherungsweise für die Residuen 2.2 Lineare ˆε i = y i ˆb 0 ˆb 1 x i erfüllt sein sollte, falls die Modellannahme zutrifft. Residuenanalyse ist ein deskriptives Verfahren für die Überprüfung der Annahmen an ε 1,..., ε n mit 4 Teilschritten (oft werden auch nicht alle gemacht): A: Das Streudiagramm der Daten mit der slinie B: Ein Streudiagramm der Residuen gegen die vorhergesagten Werte C: Normalverteilungs-QQ-Plot der Residuen D: Histogramm der Residuen mit angepasster Normalverteilungsdichte 47 / 130

48 Residuenanalyse bei erfüllten Voraussetzungen Abhängige Variable A Residuum B 2.2 Lineare Unabhängige Variable C 1.0 Vorhergesagter Wert D Empirische Quantile Theoretische Quantile der Standardnormalvert. f(residuum) Residuum 48 / 130

49 Residuenanalyse bei Abweichungen von der Normalverteilung (Ausreißer) Abhängige Variable A Residuum B 2.2 Lineare Empirische Quantile Unabhängige Variable C Theoretische Quantile der Standardnormalvert. f(residuum) Vorhergesagter Wert D Residuum 49 / 130

50 Residuenanalyse bei Stratifizierung Beachte: verschiedene Untergruppen (Strata) können ebenfalls zu Abweichungen von den Modellannahmen führen. Für die Strata können dann unterschiedliche sgleichungen gelten. Abhängige Variable A Unabhängige Variable C Residuum B Vorhergesagter Wert D 2.2 Lineare Empirische Quantile f(residuum) Theoretische Quantile der Standardnormalvert Residuum 50 / 130

51 Residuenanalyse bei falscher Modellannahme Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2.2 Lineare Statt des linearen Modells wäre ein Polynom 3. Grades die bessere Annahme für die Beschreibung des funktionalen Zusammenhangs! 51 / 130

52 Residuenanalyse bei ungleichen Varianzen (Heteroskedastizität) Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2.2 Lineare 52 / 130

53 SPSS Output: Residuenanalyse in Beispiel Lineare Motivation R-Quadrat linear = 0, Leistungsstreben Streudiagramm und geschätzte sgerade im Beispiel der Arbeitsmotivation 53 / 130

54 SPSS Output: Residuenanalyse in Beispiel 2.1 Standardized Residual 3, , ,00000, Lineare -1, , , ,00000, , ,00000 Standardized Predicted Value Streudiagramm der Residuen gegen die vorhergesagten Werte im Beispiel der Arbeitsmotivation 54 / 130

55 SPSS Output für Residuenanalyse 2 Q-Q-Diagramm von Normal von Standardized Residual 2.2 Lineare Erwarteter Wert von Normal Beobachteter Wert QQ-Plot im Beispiel der Arbeitsmotiovation 55 / 130

56 Korrelation und lineare Es besteht ein enger Zusammenhang zwischen linearer Korrelation 2.2 Lineare Ist ˆb 1 die Schätzung im linearen smodell und ˆρ x,y der Korrelationskoeffizient von Pearson, dann gilt: n i=1 ˆρ x,y = (x i x ) 2 n i=1 (y i y ˆb ) 2 1 Ist R 2 das Bestimmtheitsmaß und ˆρ x,y der Korrelationskoeffizient von Pearson, dann gilt: ˆρ 2 x,y = R 2 56 / 130

57 2.2 Lineare 57 / 130

58 2.22 Beispiel: Arbeitsmotivation mit mehreren Prädiktoren y: Motivation (Einschätzung der Arbeitsmotivation durch Experten) Prädiktoren: Eigenschaften x1: Ehrgeiz (Fragebogen) x2: Kreativität (Fragebogen) x3: Leistungsstreben (Fragebogen) 2.2 Lineare Prädiktoren: Rahmenbedingungen x4: Hierarchie (Position in der Hierarchie des Unternehmens) x5: Lohn (Bruttolohn pro Monat) x6: Arbeitsbedingungen (Zeitsouveränität, Kommunikationsstruktur usw.) Prädiktoren: Inhalte der Tätigkeit x7: Lernponential (Lernpotential der Tätigkeit) x8: Vielfalt (Vielfalt an Teiltätigkeiten) x9: Anspruch (Komplexität der Tätigkeit) 58 / 130

59 Daten i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x Lineare 59 / 130

60 Daten i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x Lineare 60 / 130

61 2.23 Das Modell der multiplen linearen Daten (x 1, y 1 ),..., (x n, y n ) Es gibt k unabhängige Variablen: x i = (x 1i,..., x ki ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen der Variablen Y und dem Vektor x 1 gilt (im Beispiel ist k = 9): 2.2 Lineare Y i = b 0 + b 1 x 1i + b 2 x 2i b k x ki + ε i k = b 0 + b j x ji + ε i. j=1 ε i bezeichnet hier eine zufällige Störung und es wird angenommen, dass die Störungen ε 1,..., ε n unabhängig und normalverteilt sind mit Erwartungswert 0 und Varianz σ 2 > 0 Deutung: es wird ein linearer Zusammenhang zwischen x und Y postuliert, der noch zufälligen Störungen unterliegt 61 / 130

62 2.24 Schätzung bei multipler linearer Methode der kleinsten Quadrate: Minimiere n (y i b 0 b 1 x 1i b k x ki ) 2 i=1 2.2 Lineare bzgl. der Wahl von b 0,..., b k Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer ˆb 0, ˆb 1,..., ˆb k für die Parameter b 0,..., b k (Formeln sind kompliziert) Schätzer für die Varianz der Meßfehler S 2 y x = 1 n k 1 n (y i ˆb 0 ˆb 1 x 1i ˆb k x ki ) 2 i=1 62 / 130

63 Streudiagramm bei multipler linearer (k = 2) sfläche: ŷ(x) = x x Lineare Y X 1 X 2 63 / 130

64 Fortsetzung von Beispiel 2.22: Schätzer im multiplen linearen smodell Ergebnisse für die Schätzer im multiplen linearen smodel ˆb 0 = ˆb1 = ˆb 2 = ˆb 3 = ˆb 4 = ˆb 5 = ˆb 6 = ˆb7 = ˆb 8 = ˆb9 = Lineare Fragen: - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß der unabhängigen Merkmale auf die Motivation H 0 : b 1 = 0 H 0 : b 2 = 0. - Wie gut beschreibt das multiple lineare smodell die Situation? 64 / 130

65 Genauigkeit der Schätzung bei multipler linearer Schätzer ŝ b0,..., ŝ bk für die Standardfehler von ˆb 0,..., ˆb k sind verfügbar (Allgemeines lineares Modell Formeln kompliziert) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto genauer die Schätzungen Damit erhält man Konfidenzintervalle für b 0,..., b k, z.b. 2.2 Lineare (ˆb 0 t n k 1,1 α/2 ŝ b0, ˆb 0 + t n k 1,1 α/2 ŝ b0 ) ist (1 α)-konfidenzintervall für b 0 65 / 130

66 Fortsetzung von Beispiel 2.22: Schätzer für den Standardfehler der Schätzer im multiplen linearen smodell Ergebnisse für den Standardfehler der Schätzer im multiplen linearen smodell 2.2 Lineare Wegen t 15,0.975 = ist ŝ b0 = ŝ b1 = ŝ b2 = ŝ b3 = ŝ b4 = ŝ b5 = ŝ b6 = ŝ b7 = ŝ b8 = ŝ b9 = [ 0.089, 0.188] ein 95%-Konfidenzintervall für den Parameter b 3. Man beachte: ) n = 25; k = 9 n k 1 = / 130

67 2.25 Konfidenzintervalle für multiple lineare Modellannahme: multiple lineare Y i = b 0 + k b j x ji + ε i (i = 1,..., n) j=1 Rechterfertigung der Normalverteilungs- und Unabhängigkeitsannahme 2.2 Lineare Schätzer ŝ bj für den Standardfehler von ˆb j = (ˆb j t n k 1,1 α/2 ŝ bj, ˆb j + t n k 1,1 α/2 ŝ bj ) ist ein (1 α) -Konfidenzintervall für b j (j = 0,... k) t n k 1,1 α/2 ; (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden (Tabelle oder Software) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto kleiner die Konfidenzintervalle 67 / 130

68 2.26 Beispiel: Konfidenzintervalle für die Parameter in Beispiel 2.22 (Arbeitsmotivation ) ˆb j Merkmal Schätzung ŝ bj Konfidenzintervall ˆb [ , 6.926] ˆb 1 Ehrgeiz [0.020, 0.365] ˆb 2 Kreativität [0.049, 0.258] ˆb 3 Leistungsstreben [-0.089, 0.188] ˆb 4 Hierarchie [-0.069, 0.561] ˆb 5 Lohn [-0.004, 0.002] ˆb 6 Arbeitsbdg [-0.147, 0.085] ˆb 7 Lernpotential [-0.044, 0.373] ˆb 8 Vielfalt [0.095, 0.316] ˆb 9 Anspruch [-0.070, 0.177] 2.2 Lineare 68 / 130

69 SPSS Output: Schätzer, Standardabweichung und Konfidenzintervalle im Beispiel 2.22 (Arbeitsmotivation mit mehreren Prädiktoren) Koeffizienten a 2.2 Lineare Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze Obergrenze -14,609 6,926,020,365,049,258 -,089,188 -,069,561 -,004,002 -,147,085 -,044,373,095,316 -,070, / 130

70 2.27 Vorhersage der multiplen linearen Modellannahme: multiple lineare Y i = b 0 + k j=1 b jx ji + ε i (i = 1,..., n) Rechterfertigung der Normalverteilungs- und Unabhängigkeitsannahme Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) 2.2 Lineare ŷ(x) = ˆb 0 + k j=1 ˆb j x j In Beispiel 2.22 ergibt sich z.b. als Vorhersage der multiplen linearen an der Stelle x 1 = 21, x 2 = 30, x 3 = 15, x 4 = 11,, x 5 = 2900, x 6 = 41, x 7 = 25, x 8 = 55, x 9 = 54 der Wert ŷ(x) = / 130

71 Vorhersage der multiplen linearen Beachte: Wie in Abschnitt 2.18 und 2.19 gibt es zwei Vorhersagen: 2.2 Lineare Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Vorhersage für den Wert einer neuen Beobachtung an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Für beide Vorhesagen, kann man den Standardfehler bestimmen (Formeln kompliziert) und Konfidenzbereiche angeben (vgl. Abschnitt 2.18 und 2.19 für den Fall k = 1 ) 71 / 130

72 SPSS Output: Vorhersage bei der multiplen linearen (schwierig) 2.2 Lineare Beispiel: Schätzung für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): Schätzung für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): / 130

73 SPSS Output: Konfidenzintervalle für Vorhersagen bei mulitpler linearer 2.2 Lineare Konfidenzintervall für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [12.399, ] Konfidenzintervall für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [9.870, ] 73 / 130

74 2.28 Bestimmtheitsmaß bei multipler linearer Modellvohersage: ŷ i = ˆb 0 + ˆb 1 x 1i +... ˆb k x ki = ˆb 0 + k ˆb j x ji j=1 Residuum ˆε i = y i ŷ i = y i (ˆb 0 + k j=1 ˆb j x ji ) Beachte: Die Werte der abhängigen Variable zerfallen in Modellvorhersage (ŷ) und Residuum (ˆε), d.h. 2.2 Lineare y i = ŷ i + ˆε i i = 1,..., n Die Güte der Modellanpassung wird (wieder) durch das Besimmtheitsmaß R 2 beschrieben werden (Anteil erklärter Varianz) n R 2 i=1 = 1 (y i ŷ i ) 2 n n i=1 (y i y = i=1 (ŷ i y ) 2 ) 2 n i=1 (y i y. ) 2 74 / 130

75 Beispiel: das Bestimmtheitsmaß für das Beispiel 2.22 (Arbeitsmotivation) In Beispiel 2.22 ist 2.2 Lineare n = 25; k = 9 n i=1 (y i ŷ i ) 2 = n i=1 (y i y ) 2 = R 2 = = D.h % der Varianz der Variablen Motivation werden durch das multiple lineare smodell erklärt 75 / 130

76 2.29 Statistische Tests bei der multiplen linearer. Zwei wichtige Fragestellungen: Frage A: Hat mindestens eine der Prädiktorvariablen x 1,..., x k einen Einfluß auf die abhängige Variable y (Gesamttest auf Signifikanz). Mathematische Formulierung der Hypothese: Nullhypothese: 2.2 Lineare H 0 : b j = 0 für alle j {1, 2,..., k} Alternative: H 1 : b j 0 für mindestens ein j {1, 2,..., k} Frage B: Hat die Prädiktorvariablen x j (z.b. Ehrgeiz) einen Einfluß auf die abhängige Variable y. Mathematische Formulierung der Hypothese: Nullhypothese: H 0 : b j = 0 Alternative: H 1 : b j 0 76 / 130

77 2.29(A) Gesamttest auf Signifikanz Nullhypothese: H 0 : b j = 0 für alle j {1, 2,..., k} Alternative: H 1 : b j 0 für mindestens ein j {1, 2,..., k} (1) Bestimme Sreg 2 = 1 k n (ŷ i y ) 2 i=1 die Varianz der, und 2.2 Lineare S 2 y x = die Residualvarianz 1 n k 1 n (y i ŷ i ) 2 i=1 Beachte: man geht genau wie im linearen smodell vor! 77 / 130

78 2.29(A) Gesamttest auf Signifikanz (2) H 0 wird zu Gunsten der Alternative H 1 verworfen, falls F n = S 2 reg S 2 y x > F k;n k 1;1 α 2.2 Lineare gilt (oder der entsprechende p-wert kleiner als α ist). Dabei bezeichnet F k;n k 1;1 α das (1 α) Quantil der F -Verteilung mit (k, n k 1) Freiheitsgraden, Beachte: Wird H 0 durch diesen Test verworfen, dann bleibt aber noch unklar, welches der Merkmale signifikant ist 78 / 130

79 2.29(B) Tests für die Signifikanz einzelner Merkmale Nullhypothese: H 0 : b j = 0 Alternative: H 1 : b j 0 Die Nullhypothese H 0 wird zu Gunsten der Alternative H 1 verworfen, falls ˆb j T n = > t n k 1;1 α/2 ŝ bj 2.2 Lineare gilt (oder der entsprechende p-wert kleiner als α ist). Dabei ist tn k 1;1 α/2 das (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden ŝbj der Standardfehler von ˆb j Beachte: Werden mehrere Hypothesen gestestet, ist das Niveau entsprechend anzupassen (vgl. Abschntt 1.18). 79 / 130

80 2.30(A) Test auf Signifikanz im multiplen smodel in Beispiel 2.22 Frage: Hat einer der 9 Prädiktorvariablen einen Einfluß auf die abhängige Variable? 2.2 Lineare Mathematische Hypothesen: H 0 : b j = 0 für alle j = 1,..., 9 H 1 : b j 0 für mindestens ein j {1,..., 9} F n = , F 9,15,0.95 = Da F n > > ist, wird die Nullhypothese zum Niveau 5% verworfen. 80 / 130

81 2.30(B) Beispiel: Test auf Signifikanz eines Merkmals im multiplen linearen smodell in Beispiel 2.22 Frage: Hat die Prädiktorvariable Ehrgeiz (x 1 ) einen Einfluß auf die abhängige Variable Motivation (Signifikanz des skoeffizienten b 1 )? Mathematische Hypothesen: 2.2 Lineare H 0 : b 1 = 0; H 1 : b 1 0 ˆb1 = 0.193, ŝ b1 = 0.081, t 25 10,0.975 = 2.13 T 25 = Da T 25 = > 2.13 wird die Nullhypothese H 0 zu Gunsten der Alternative H 1 : b 1 0 verworfen (zum Niveau 5%) 81 / 130

82 SPSS Output: Der Test 2.29(A) für das Beispiel 2.22 (Arbeitsmotivation) ANOVA b 2.2 Lineare Modell 1 Residuen Gesamt Quadratsumme 707,309 53, ,960 df Mittel der Quadrate a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Abhängige Variable: Y 78,590 3,577 F 21,972 Signifikanz,000 a 82 / 130

83 SPSS Output: Der Test 2.29(B) für das Beispiel 2.22 (Arbeitsmotivation) Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Koeffizienten a Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070 Obergrenze 6,926,365,258,188,561,002,085,373,316, Lineare 83 / 130

84 2.31 Das Problem der Multikollinearität Beispiel: Betrachte in dem Beispiel der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 Prädiktorvariablen Y i = b 0 + b 1 x 1i + b 2 x 2i + b 3 x 3i + ε i i = 1,..., 25 (Y : Motivation, x 1 : Ehrgeiz x 2 : Kreativität, x 3 : Leistungsstreben) Schätzer für die Modellparameter 2.2 Lineare i ˆb i ŝ bi p-wert Bestimmtheitsmaß R 2 = Beachte: nur für den Koeffizient b 3 (Leistungsstreben) kann keine Signifikanz (zum Niveau 5% ) nachgewiesen werden 84 / 130

85 Korrelationsmatrix für die Prädiktoren Motivation Ehrgeiz Kreativität Leistungsstreben Motivation 1 Ehrgeiz.71 1 Kreativität Leistungsstreben.56.82* Lineare Beachte: Der Test 2.5 liefert eine signifikante Korrelation (zum Niveau 1%) zwischen den Variablen Leistungsstreben und Ehrgeiz (SPSS) 85 / 130

86 Beachte: Es gibt eine signifikante Korrelation zwischen den Variablen Leistungsstreben und Ehrgeiz Beide Variablen tragen weitgehend identische Information Im Beispiel ist die Variable Leistungsstreben redundant und wird nicht für die Vorhersage der abhängigen Variablen Motivation benötigt Die Variable Ehrgeiz ist stärker mit der Variablen Motivation korreliert als die Variable Leistungsstreben (aus diesem Grund ist der entsprechende Koeffizient auch signifikant) 2.2 Lineare Für die Bestimmtheitsmaße in den multiplen linearen smodellen mit drei bzw. zwei Variablen erhält man R 2 = für Modell mit den Prädiktoren x 1, x 2, x 3 R 2 = für Modell mit den Prädiktoren x 1, x 2 86 / 130

87 SPSS Output: Multikollinearität; Schätzer im Modell mit 3 Parametern Koeffizienten a 2.2 Lineare Modell B 1 (Konstante) 5,539 x1,393 x2,225 x3,001 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standard fehler 2,618,135,089,123 Standardisierte Koeffizienten Beta,688,343,002 T 2,116 2,913 2,528,008 Signifi kanz,046,008,020,994 95%-Konfidenzintervall für B Untergrenze Obergrenze,095 10,983,112,674,040,410 -,255, / 130

88 SPSS Output: Multilkollinearität; Korrelationsmatrix Y x1 x2 x3 Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Y 1,000,000 25,379,061, x1,708 **,000,053,802,000 Korrelationen x2,061, ,000, x3,559 **, ,708 ** 1,000,053,818 **, ,016, ,559 **,818 ** -,016 1,000 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant., Lineare 88 / 130

89 2.32 Das Problem der Suppressionseffekte Beispiel: Betrachte in dem Beispiel 2.22 der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 anderen Prädiktorvariablen 2.2 Lineare Y i = b 0 + b 4 x 4i + b 5 x 5i + b 6 x 6i + ε i i = 1,..., 25 (Y : Motivation, x 4 : Hierarchie, x 5 : Lohn, x 6 : Arbeitsbedingungen) Schätzungen für die Modellparameter i ˆbi ŝ bi p-wert / 130

90 Korrelationsmatrix für die Variablen Motivation, Hierarchie, Lohn und Arbeitsbedingungen Motivation Hierarchie Lohn Arbeitsbedingungen Motivation 1 Hierarchie.42* 1 Lohn ** 1 Arbeitsbedingungen Lineare Beachte: Zwischen der Prädiktorvariablen Lohn (x 5 ) und der abhängigen Variablen Motivation liegt keine signifikante Korrelation vor Dennoch bekommt diese Variable im multiplen smodell ein signifikantes Gewicht; d.h. die Hypothese H 0 : b 5 = 0 wird zum Niveau 5% verworfen (p-wert: 0.016). Man spricht von einem Suppressionseffekt. 90 / 130

91 Grund für diesen scheinbaren Widerspruch: Korrelationen sind bivariate Maße für (zwischen zwei Merkmalen). Das Modell der multiplen untersucht aber den Zusammenhang zwischen der Variablen Motivation und dem (3-dimensionalen) Prädiktor (x 4, x 5, x 6 ): 2.2 Lineare Motivation ist stark mit der Variablen Hierarchie korreliert Lohn ist ebenfalls stark mit der Variablen Hierarchie korreliert Prädiktorvariable Lohn wird in der multiplen linearen benötigt, um unerwünschte Varianzanteile der Variablen Hierarchie zu kompensieren Bestimmtheitsmaße für verschiedene Modelle R 2 = für Modell mit x 4, x 5, x 6 R 2 = für Modell mit x 4, x 6 91 / 130

92 SPSS Output: Suppressionseffekte; Schätzer im Modell mit 4 Parametern 2.2 Lineare Koeffizienten a Modell 1 (Konstante) x4,884 x5 -,007 x6,125 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten Standard B fehler Beta T Signifikanz 25,076 8,398 2,986,007,257,003,120,843 -,632,179 3,444-2,612 1,045,002,016,308 95%-Konfidenzintervall für B Untergrenze Obergrenze 7,612 42,539,350 1,419 -,013 -,001 -,124, / 130

93 SPSS Output: Suppressionseffekte; Schätzung der Korrelationsmatrix Y x4 x5 x6 Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Y 1,000, ,038,856 25,354, x4,419 *,037 25,717 **,000 25,163,435 Korrelationen 25 x5, , ,060, x ,419 * 1,000,717 **,163 *. Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant. **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. -,038,856,354,082, ,060, , Lineare 93 / 130

94 2.33 Merkmalselektionsverfahren Ziel: mit möglichst wenig Prädiktorvariablen eine gute Vorhersage der abhängigen Variablen zu erzielen. Prinzip: untersuche wie sich durch Weglassen einzelner Variablen das Bestimmtheitsmaß R 2 verändert. 2.2 Lineare Typische Selektionsprozeduren: (A) Rückwärtsverfahren (B) Vorwärtsverfahren (C) Schrittweise Verfahren Beachte: es handelt sich um explorative Verfahren, die hauptsächlich der Modellbildung dienen (Interpretation nicht einfach). 94 / 130

95 2.34 Das Rückwärtsverfahren Betrachte das vollständige Modell (mit allen Prädiktorvariablen) und berechne das Bestimmtheitsmaß R 2 Entferne sukzessive diejenigen Variablen, die zu dem geringsten Rückgang des Bestimmtheitsmaßes führen würden Das Verfahren wird abgebrochen, falls sich bei dem Entfernen einer Variablen das Bestimmtheitsmaß signifikant verkleinert 2.2 Lineare 95 / 130

96 2.35 Beispiel: Variablenselektion mit dem Rückwärtsverfahren (vgl. Beispiel 2.22) Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 1 Ehrgeiz Kreativität 3.13 Leistungsstreben.76 Hierarchie 1.66 Lohn -.59 Arbeitsbedingungen -.58 Lernpotential 1.68 Vielfalt 3.97 Anspruch Lineare 2 Ehrgeiz 2.38 Arbeitsbedingungen.928 Kreativität 3.28 Leistungsstreben.79 Hierarchie 1.66 Lohn -.57 Lernpotential 1.66 Vielfalt 4.04 Anspruch / 130

97 Beispiel: Rückwärtsverfahren - Fortsetzung Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 3 Ehrgeiz 2.54 Arbeitsbedingungen.926 Kreativität 3.43 Lohn Leistungsstreben.88 Hierarchie 2.11 Lernpotential 1.59 Vielfalt 4.17 Anspruch Lineare 4 Ehrgeiz 5.40 Arbeitsbedingungen.923 Kreativität 3.38 Lohn Hierarchie 2.31 Leistungsstreben Lernpotential 1.55 Vielfalt 4.12 Anspruch Ehrgeiz 5.18 Arbeitsbedingungen.916 Kreativität 3.16 Lohn Hierarchie 2.84 Leistungsstreben Lernpotential 3.31 Anspruch Vielfalt / 130

98 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation Aufgenommene/Entfernte Variablen b Entfernte Modell Aufgenommene Variablen Variablen Methode 1 x9, x5, x2, x3, x6, x8, x7, x4,. Eingeben 2. x6 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 3. x5 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 4. x3 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 5. x9 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). a. Alle gewünschten Variablen wurden aufgenommen. b. Abhängige Variable: Y 2.2 Lineare 98 / 130

99 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation Modellzusammenfassung Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,964 a,929,887 1,891,929 21, ,000 2,963 b,928,892 1,851 -,002, ,573 3,963 c,926,896 1,814 -,001, ,575 4,961 d,923,897 1,803 -,003, ,389 5,957 e,916,894 1,837 -,007 1, ,207 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 2.2 Lineare 99 / 130

100 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: ANOVA Modell Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadratsumme 707,309 53, , ,120 54, , ,000 55, , ,422 58, , ,852 64, ,960 df Mittel der Quadrate 78,590 3,577 88,265 3, ,714 3, ,070 3, ,370 3,374 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 f. Abhängige Variable: Y 9 F 21,972 25,752 30,596 35,999 41,306 ANOVA f Signifikanz,000 a,000 b,000 c,000 d,000 e 2.2 Lineare 100 / 130

101 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell 1 (Konstante) 2 3 x1 x2 x3 x4 x5 x6 x7 x8 x9 (Konstante) x1 x2 x3 x4 x5 x7 x8 x9 (Konstante) x1 x2 x3 x4,193,153,049,246,000 -,031,165,206,053-4,737,187,157,050,240,000,157,205,052-7,154,193,159,055,172 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz -3,842 5,052 -,760,459,081,049,065,148,001,054,098,052,058 4,706,079,048,063,144,001,095,051,057 2,027,076,046,062,081,337,234,095,235 -,077 -,045,199,354,124,326,239,096,228 -,073,190,352,121,338,244,105,164 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920-1,007 2,376 3,285,790 1,660 -,572 1,655 4,040,914-3,529 2,540 3,431,885 2,113 Koeffizienten a,031,007,458,117,564,573,113,001,372,329,030,005,441,116,575,117,001,374,003,021,003,389,050 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070-14,713,020,056 -,084 -,066 -,004 -,044,097 -,068-11,431,033,061 -,076,000 Obergrenze 6,926,365,258,188,561,002,085,373,316,177 5,238,353,258,185,545,002,358,312,172-2,877,354,258,185, Lineare 101 / 130

102 2.36 Das Vorwärtsverfahren Bestimme diejenige Prädiktorvariable, die mit der abhängigen Variablen am stärksten korreliert ist und berechne das Bestimmtheitsmaß R 2 Ist R 2 signifikant, wird diese Variable in das Modell aufgenommen Füge sukzessive diejenigen Variablen zu dem Modell hinzu, die zu dem größten Anstieg des Bestimmtheitsmaßes führen Das Verfahren bricht ab, falls sich bei Hinzunahme einer neuen Variablen das Bestimmtheitsmaß R 2 nicht signifikant vergrößert 2.2 Lineare 102 / 130

103 SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation Aufgenommene Variablen Entfernte Variablen Modell Methode 1 x1. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) 2 Vorwährts- (Kriterium: Wahrscheinlichkeit x9. von F-Wert für Aufnahme <=,050) 3 x2. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) 4 Vorwährts- (Kriterium: Wahrscheinlichkeit x8. von F-Wert für Aufnahme <=,050) 5 x4. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) a. Abhängige Variable: Y Aufgenommene/Entfernte Variablen a 2.2 Lineare 103 / 130

104 SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation Modellzusammenfassung 2.2 Lineare Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,708 a,501,479 4,065,501 23, ,000 2,863 b,744,721 2,973,244 20, ,000 3,906 c,820,795 2,552,076 8, ,007 4,944 d,891,869 2,039,070 12, ,002 5,955 e,913,890 1,869,022 4, ,041 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 104 / 130

105 SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation: ANOVA Modell Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadrat summe 380, , , , , , , , , ,797 83, , ,596 66, ,960 df Mittel der Quadrate 380,968 16, ,228 8, ,081 6, ,449 4, ,919 3,493 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 f. Abhängige Variable: Y 1 ANOVA f F 23,059 32,035 31,962 40,751 39,773 Signifikanz,000 a,000 b,000 c,000 d,000 e 2.2 Lineare 105 / 130

106 SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell 1 (Konstante) x1 (Konstante) x1 x9 (Konstante) x1 x9 x2 (Konstante) x1 x9 x2 x8 (Konstante) x1 x9 x2 x8 x4,404,063,320,221-2,101,319,203,183-6,502,253,150,192,190-6,833,271,116,177,181,181 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 9,088 2,406 3,778,001,084 2,642,064,048 2,380,055,042,061 2,263,048,037,049,053 2,080,045,037,045,049,083 Koeffizienten a,708,560,515,558,474,279,442,350,293,327,474,271,271,311,173 4,802,024 4,983 4,580 -,883 5,776 4,862 2,979-2,873 5,286 4,101 3,908 3,589-3,285 6,076 3,147 3,903 3,706 2,193,000,981,000,000,387,000,000,007,009,000,001,001,002,004,000,005,001,001,041 95%-Konfidenzintervall für B Untergrenze 4,111,230-5,415,187,121-7,052,204,116,055-11,224,153,074,089,080-11,186,178,039,082,079,008 Obergrenze 14,064,579 5,542,454,321 2,849,433,290,310-1,781,352,226,294,301-2,479,364,193,272,283, Lineare 106 / 130

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression 2., Linear 2., lineare multiple 2., lineare 2.1 2.2 Lineare 2.1 2.2 Lineare 2.7 Partielle 2.7 Partielle 1 / 149 2., Linear 2., lineare 2.1 2.2 Lineare 2.1 2.7 Partielle 2 / 149 2.1 Beispiel: Arbeitsmotivation

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 9B a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Man kann erwarten, dass der Absatz mit steigendem Preis abnimmt, mit höherer Anzahl der Außendienstmitarbeiter sowie mit erhöhten

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

7. Mai 2010. Ruhr-Universität Bochum. Methodenlehre II, SS 2009. Prof. Dr. Holger Dette

7. Mai 2010. Ruhr-Universität Bochum. Methodenlehre II, SS 2009. Prof. Dr. Holger Dette Ruhr-Universität Bochum 7. Mai 2010 1 / 95 Methodenlehre II NA 3/73 Telefon: 0234 322 8284 Email: holger.dette@rub.de Internet: www.ruhr-uni-bochum.de/mathematik3/index.html Vorlesung: Montag, 8.30-10.00

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

1 Statistische Grundlagen

1 Statistische Grundlagen Konzepte in Empirische Ökonomie 1 (Winter) Hier findest Du ein paar Tipps zu den Konzepten in Empirische 1. Wenn Du aber noch etwas Unterstützung kurz vor der Klausur brauchst, schreib uns eine kurze Email.

Mehr

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25 Inhaltsverzeichnis Einleitung 19 Zu diesem Buch 19 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Falsche Voraussetzungen 21 Wie dieses Buch aufgebaut ist 21 Teil I: Datenanalyse und Grundlagen

Mehr

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Kapitel 23 Lineare Regression

Kapitel 23 Lineare Regression Kapitel 23 Lineare Regression Sowohl einfache als auch multiple Regressionsanalysen können Sie mit dem Befehl STATISTIK REGRESSION LINEAR... durchführen. Dabei lassen sich mit Hilfe diverser Optionen zahlreiche

Mehr

3.3 Das allgemeine lineare Modell (ALM), Methode der kleinsten Quadrate

3.3 Das allgemeine lineare Modell (ALM), Methode der kleinsten Quadrate 31 und 31 und (), Methode der 33 Das allgemeine (), Methode der kleinsten Quadrate 37 Modelle mit Messwiederholungen 1 / 113 Eine grundsätzliche Bemerkung zu Beginn Es bestehen viele Ähnlichkeiten zwischen

Mehr

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten

Mehr

3 Zusammenhangsmaße Zusammenhangshypothesen

3 Zusammenhangsmaße Zusammenhangshypothesen 3 Zusammenhangsmaße Zusammenhangshypothesen Zusammenhänge (zwischen 2 Variablen) misst man mittels Korrelationen. Die Wahl der Korrelation hängt ab von: a) Skalenniveau der beiden Variablen: 1) intervallskaliert

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt: Beispiele zum Üben und Wiederholen zu Wirtschaftsstatistik 2 (Kurs 3) 1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt: Haushaltseinkommen 12 24 30 40 80 60

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009. Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009. Statistik mit SPSS Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Korrelationsanalysen Kovariation und Kovarianz Korrelation: - Interpretation

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Geschlecht + Anfangsgehalt. T-Test für das Anfangsgehalt Gruppenstatistiken. Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3

Geschlecht + Anfangsgehalt. T-Test für das Anfangsgehalt Gruppenstatistiken. Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3 Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3 Geschlecht + Anfangsgehalt 14000 399 403 7000 12000 335 Anfangsgehalt 10000 8000 6000 4000 2000 N = 28 63 185 291 227 52 215 158 88 284 193

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Einfache statistische Auswertungen mit dem Programm SPSS

Einfache statistische Auswertungen mit dem Programm SPSS Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...

Mehr

Anhang A: Fragebögen und sonstige Unterlagen

Anhang A: Fragebögen und sonstige Unterlagen Anhang Anhang A: Fragebögen und sonstige Unterlagen A.: Flyer zur Probandenrekrutierung 46 A.: Fragebogen zur Meditationserfahrung 47 48 A.3: Fragebogen Angaben zur Person 49 5 5 A.4: Termin- und Einladungsschreiben

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

Statistik Einführung // Lineare Regression 9 p.2/72

Statistik Einführung // Lineare Regression 9 p.2/72 Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression

Mehr

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei

Mehr

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17)

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) R.Niketta Multiple Regressionsanalyse Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) Daten: Selbstdarstellung und Kontaktsuche in studi.vz (POK VIII, AG 3) Fragestellung:

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter

Mehr

Institut für Soziologie Benjamin Gedon. Methoden 2. Regressionsanalyse IV: Transformation und Interaktion

Institut für Soziologie Benjamin Gedon. Methoden 2. Regressionsanalyse IV: Transformation und Interaktion Institut für Soziologie Methoden 2 Regressionsanalyse IV: Transformation und Interaktion Inhalt 1. Zusammenfassung letzte Sitzung 2. Weitere Annahmen und Diagnostik 3. Transformationen zur besseren Interpretierbarkeit

Mehr

Annahmen des linearen Modells

Annahmen des linearen Modells Annahmen des linearen Modells Annahmen des linearen Modells zusammengefasst A1: Linearer Zusammenhang: y = 0 + 1x 1 + 2x 2 + + kx k A2: Zufallsstichprobe, keine Korrelation zwischen Beobachtungen A3: Erwartungswert

Mehr

Weiterbildungskurs Stochastik

Weiterbildungskurs Stochastik Hansruedi Künsch Seminar für Statistik Departement Mathematik, ETH Zürich 24. Juni 2009 Inhalt STATISTIK DER BINOMIALVERTEILUNG 1 STATISTIK DER BINOMIALVERTEILUNG 2 Fragestellungen Typische Fragestellungen

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

SPSS V Gruppenvergleiche ( 2 Gruppen) abhängige (verbundene) Stichproben

SPSS V Gruppenvergleiche ( 2 Gruppen) abhängige (verbundene) Stichproben SPSS V Gruppenvergleiche ( 2 Gruppen) abhängige (verbundene) Stichproben ÜBERSICHT: Testverfahren bei abhängigen (verbundenen) Stichproben parametrisch nicht-parametrisch 2 Gruppen t-test bei verbundenen

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Interne und externe Modellvalidität

Interne und externe Modellvalidität Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer

Mehr

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang.

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang. Lehrstuhl für Statistik und empirische Wirtschaftsforschung Fach: Prüfer: Bachelorprüfung Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname Matrikelnr. E-Mail Studiengang

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften

Mehr

Prüfen von Mittelwertsunterschieden: t-test

Prüfen von Mittelwertsunterschieden: t-test Prüfen von Mittelwertsunterschieden: t-test Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) t-test

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse Multiple Regression II: Signifikanztests,, Multikollinearität und Kohortenanalyse Statistik II Übersicht Literatur Kausalität und Regression Inferenz und standardisierte Koeffizienten Statistik II Multiple

Mehr

Kapitel 4: Merkmalszusammenhänge

Kapitel 4: Merkmalszusammenhänge Kapitel 4: Merkmalszusammenhänge Streudiagramme SPSS bietet die Möglichkeit, verschiedene Arten von Streudiagrammen zu zeichnen. Gehen Sie auf Grafiken Streu-/Punkt-Diagramm und wählen Sie die Option Einfaches

Mehr

Studiendesign/ Evaluierungsdesign

Studiendesign/ Evaluierungsdesign Jennifer Ziegert Studiendesign/ Evaluierungsdesign Praxisprojekt: Nutzerorientierte Evaluierung von Visualisierungen in Daffodil mittels Eyetracker Warum Studien /Evaluierungsdesign Das Design einer Untersuchung

Mehr

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 1 Experiment zur Vererbungstiefe Softwaretechnik: die Vererbungstiefe ist kein guter Schätzer für den Wartungsaufwand

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Grundlagen von Versuchsmethodik und Datenanalyse

Grundlagen von Versuchsmethodik und Datenanalyse Grundlagen von Versuchsmethodik und Datenanalyse Der Anfang: Hypothesen über Ursache-Wirkungs-Zusammenhänge Ursache Wirkung Koffein verbessert Kurzzeitgedächtnis Gewaltfilme führen zu aggressivem Verhalten

Mehr

Statistische Auswertung der Daten von Blatt 13

Statistische Auswertung der Daten von Blatt 13 Statistische Auswertung der Daten von Blatt 13 Problemstellung 1 Graphische Darstellung der Daten 1 Diskussion der Normalverteilung 3 Mittelwerte und deren Konfidenzbereiche 3 Signifikanz der Behandlung

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Abhängigkeit zweier Merkmale

Abhängigkeit zweier Merkmale Abhängigkeit zweier Merkmale Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/33 Allgemeine Situation Neben der Untersuchung auf Unterschiede zwischen zwei oder mehreren Untersuchungsgruppen hinsichtlich

Mehr

Teil I Beschreibende Statistik 29

Teil I Beschreibende Statistik 29 Vorwort zur 2. Auflage 15 Vorwort 15 Kapitel 0 Einführung 19 0.1 Methoden und Aufgaben der Statistik............................. 20 0.2 Ablauf statistischer Untersuchungen..............................

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Kapitel 3: Interpretationen

Kapitel 3: Interpretationen Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche Ruhr-Universität Bochum 25. Januar 2010 1 / 75 2 / 75 4.1 Beispiel: Vergleich von verschiedenen Unterrichtsmethoden Zwei Zufallsstichproben (A und B) mit je 10 Schülern und 8 Schülern Gruppe A wird nach

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

12.1 Wie funktioniert ein Signifikanztest?

12.1 Wie funktioniert ein Signifikanztest? Sedlmeier & Renkewitz Kapitel 12 Signifikanztests 12.1 Wie funktioniert ein Signifikanztest? Zentrales Ergebnis eine Signifikanztests: Wie wahrscheinlich war es unter der Bedingung dass H0 gilt, diesen

Mehr

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang.

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang. Lehrstuhl für Statistik und empirische irtschaftsforschung, SS 2009 ach: Prüfer: Bachelorprüfung Praxis der empirischen irtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname Matrikelnr. E-Mail

Mehr

Einfache Varianzanalyse für abhängige

Einfache Varianzanalyse für abhängige Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese

Mehr

3. Der t-test. Der t-test

3. Der t-test. Der t-test Der t-test 3 3. Der t-test Dieses Kapitel beschäftigt sich mit einem grundlegenden statistischen Verfahren zur Auswertung erhobener Daten: dem t-test. Der t-test untersucht, ob sich zwei empirisch gefundene

Mehr

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007 Wirtschaftswissenschaftliches Prüfungsamt DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 006/07 8.0.007 Lösung Prof. Dr. R Friedmann / Dr. R. Hauser Hinweise für die Klausurteilnehmer

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Kapitel 5: Einfaktorielle Varianzanalyse

Kapitel 5: Einfaktorielle Varianzanalyse Kapitel 5: Einfaktorielle Varianzanalyse Durchführung einer einfaktoriellen Varianzanalyse ohne Messwiederholung Dieser Abschnitt zeigt die Durchführung der in Kapitel 5 vorgestellten einfaktoriellen Varianzanalyse

Mehr

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010

Mehr

Grundlagen der Inferenzstatistik

Grundlagen der Inferenzstatistik Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Statistik Musterlösungen

Statistik Musterlösungen Statistik Musterlösungen Regina Tüchler & Achim Zeileis Institut für Statistik & Mathematik Wirtschaftsuniversität Wien 1 Grundbegriffe (1.23) Skript Reaktionen auf Videofilm. Aussagen M, E, P, S h(m)

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Mathematik III - Statistik für MT(Master)

Mathematik III - Statistik für MT(Master) 3. Regressionsanalyse Fachbereich Grundlagenwissenschaften Prof. Dr. Viola Weiß Wintersemester 0/03 Mathematik III - Statistik für MTMaster 3. Empirische Regressionsgerade Optimalitätskriterium: Die Summe

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Korrelation vs. Regression 2. Ziele der Regressionsanalyse 3. Syntax für

Mehr

EINFACHE LINEARE REGRESSION MODUL 13 PROSEMINAR DESKRIPTIVE STATISTIK ANALYSE UND DARSTELLUNG VON DATEN I GÜNTER HAIDER WS 1999/2000

EINFACHE LINEARE REGRESSION MODUL 13 PROSEMINAR DESKRIPTIVE STATISTIK ANALYSE UND DARSTELLUNG VON DATEN I GÜNTER HAIDER WS 1999/2000 INSTITUT FÜR ERZIEHUNGSWISSENSCHAFT - UNIVERSITÄT SALZBURG PROSEMINAR DESKRIPTIVE STATISTIK ANALYSE UND DARSTELLUNG VON DATEN I GÜNTER HAIDER WS 1999/2 MODUL 13 EINFACHE LINEARE REGRESSION Erziehungswissenschaft/Haider

Mehr

Fragen und Antworten zu Kapitel 18

Fragen und Antworten zu Kapitel 18 Fragen und Antworten zu Kapitel 18 (1) Nennen Sie verschiedene Zielsetzungen, die man mit der Anwendung der multiplen Regressionsanalyse verfolgt. Die multiple Regressionsanalyse dient der Kontrolle von

Mehr

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) Interdisziplinäres Seminar Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) WS 2008/09 19.11.2008 Julia Schiele und Lucie Wink Dozenten: Prof. Dr. Bühner, Prof. Dr. Küchenhoff

Mehr

Teil II: Einführung in die Statistik

Teil II: Einführung in die Statistik Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler DAS THEMA: INFERENZSTATISTIK II INFERENZSTATISTISCHE AUSSAGEN Standardfehler Konfidenzintervalle Signifikanztests Standardfehler der Standardfehler Interpretation Verwendung 1 ZUR WIEDERHOLUNG... Ausgangspunkt:

Mehr

Kapitel 4: Merkmalszusammenhänge

Kapitel 4: Merkmalszusammenhänge Kapitel 4: Merkmalszusammenhänge Streudiagramme 1 Korrelationen 3 Lineare Regression 6 Zusammenhang zwischen Korrelation, Regression und t-test 8 Streudiagramme SPSS bietet die Möglichkeit, verschiedene

Mehr