2. Korrelation, lineare Regression und multiple Regression

Größe: px
Ab Seite anzeigen:

Download "2. Korrelation, lineare Regression und multiple Regression"

Transkript

1 2., Linear 2., lineare multiple 2., lineare Lineare Lineare 2.7 Partielle 2.7 Partielle 1 / 149

2 2., Linear 2., lineare Lineare Partielle 2 / 149

3 2.1 Beispiel: Arbeitsmotivation 2., Linear Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Frage: besteht ein Zusammenhang zwischen der Variablen Motivation der Variablen Leistungsstreben 2., lineare Lineare 2.7 Partielle Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 3 / 149

4 Daten 2., Linear 2., lineare Lineare x y x y x y Partielle 4 / 149

5 2.2 Der skoeffizient von Pearson Daten (x 1, y 1 ),..., (x n, y n ) Maß für die (lineare) Abhängigkeit zwischen x y: skoeffizient von Pearson n r = r X,Y = s2 x,y i=1 = (x i x )(y i y ) s x,x s n y,y i=1 (x i x ) 2 n i=1 (y i y ) 2 Dabei ist: x = 1 n n i=1 x i : Mittelwert der Daten x i y = 1 n n i=1 y i : Mittelwert der Daten y i 2., Linear 2., lineare Lineare 2.7 Partielle s 2 x,x = 1 n n i=1 (x i x ) 2 : Varianz der Daten x i s 2 y,y = 1 n n i=1 (y i y ) 2 : Varianz der Daten y i s 2 x,y = 1 n n i=1 (x i x )(y i y ) : Kovarianz zwischen den Daten x i, y i 5 / 149

6 2.3 Eigenschaften des skoeffizienten (1) 1 r 1 (2) r = 1 genau dann, wenn ein exakter linearer Zusammenhang y i = b 0 + b 1 x i mit b 1 > 0 besteht (ohne Störgrößen). (3) r = 1 genau dann, wenn ein exakter linearer Zusammenhang y i = b 0 + b 1 x i mit b 1 < 0 besteht (ohne Störgrößen). (4) Der skoeffizient ist invariant bzgl. linearer Transformationen, d.h. } x i = a 0 + a 1 x i i = 1,..., n r ỹ i = c 0 + c 1 y i i = 1,..., n X,Ỹ = r X,Y 2., Linear 2., lineare Lineare 2.7 Partielle (4) Der skoeffizient von Pearson ist ein deskriptives Maß für den linearen Zusammenhang in der Stichprobe (x 1, y 1 ),..., (x n, y n ) 6 / 149

7 2.4 Beispiel: skoeffizient für die Daten aus Beispiel , Linear 2., lineare 2.1 Variablen x: Leistungsstreben y: Motivation skoeffizient von Pearson r = Fragen: Wie genau ist diese Schätzung? Ist die von 0 verschieden (Unkorreliertheit zwischen den Merkmalen Leistungsstreben Motivation)? 2.2 Lineare 2.7 Partielle 7 / 149

8 2.5 Signifikanztest für (x 1, y 1 ),..., (x n, y n ) ist eine Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grgesamtheit ρ bezeichne die des Merkmals X mit dem Merkmal Y einer Population; fünfter Modellparameter neben µ x, µ y, σ 2 x σ 2 y. Ein Test zum Niveau α für die Hypothese die Merkmale sind unkorreliert H 0 : ρ = 0 lehnt die Nullhypothese zu Gunsten der Alternative H 1 : ρ 0 ab, falls n 2r 1 r 2 > t n 2,1 α/2 2., Linear 2., lineare Lineare 2.7 Partielle gilt. 8 / 149

9 2.6(a) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) 2., Linear 2., lineare 2.1 n = 25; r = ; t 23,0.95 = Lineare n 2 r = > r 2 Die Nullhypothese H 0 : ρ = 0 (keine zwischen den Merkmalen) wird zum Niveau 5% verworfen. 2.7 Partielle p-wert: / 149

10 SPSS Output für skoeffizient 2., Linear 2., lineare Lineare Motivation Leistungsstreben nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N Motivation en 1,000,004 **. Die ist auf dem Niveau von 0,01 (2-seitig) signifikant. 25 Leistungsstreben,559 **, ,559 ** 1, Partielle 10 / 149

11 2.7 Konfidenzintervall für ρ: zwischen Merkmal x Merkmal y einer Population (x 1, y 1 ),..., (x n, y n ): Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grgesamtheit Mathematische Statistik: r ist näherungsweise (d.h. bei großem Stichprobenumfang) normalverteilt mit Erwartungswert ρ Varianz γ 2 = Var(r) (1 ρ 2 ) 2 /n (1 α)-konfidenzintervall für den skoeffizienten ( r ˆγz1 α/2, r + ˆγz 1 α/2 ) 2., Linear 2., lineare Lineare 2.7 Partielle Hier bezeichnet ˆγ = (1 r 2 )/ n einen Schätzer für die Standardabweichung von r z 1 α/2 das (1 α/2) Quantil der Standardnormalverteilung (Tabelle, Software) 11 / 149

12 2.6(b) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) 2., Linear 2., lineare Lineare n = 25; r = z 0.95 = , ˆγ = % Konfidenzintervall für den skoeffizient [0.2739, ] 2.7 Partielle 12 / 149

13 2.8 Hinweise zur Interpretation von en Annahme: man hat eine signifikante zwischen den Variablen x y gefen Folgende Interpretationen sind möglich (1) x beeinflusst y kausal (2) y beeinflusst x kausal (3) x y werden von weiteren Variablen kausal beeinflusst (4) x y beeinflussen sich wechselseitig kausal Die zwischen zwei Variablen ist eine notwendige aber keine hinreichende Voraussetzung für einen kausalen Zusammenhang Der skoeffizient gibt keine Information welche der vier Interpretationen zutrifft (in vielen Fällen wird das der Typ (3) sein) en sollten ohne Zusatzinformation nicht interpretiert werden! 2., Linear 2., lineare Lineare 2.7 Partielle 13 / 149

14 2., Linear Beispiel Annahme: man hat eine signifikante zwischen den Merkmalen Ehrlichkeit Häufigkeit des Kirchgangs gefen Folgende Interpretationen sind möglich Die in der Kirche vermittelten Werte haben einen positiven Einfluß auf das Merkmal Ehrlichkeit Ehrliche Menschen fühlen sich durch die in der Kirche vermittelten Inhalte eher angesprochen gehen aus diesem Gr häufiger zur Kirche Die allgemeine familiäre außerfamiliäre Sozialisation beeinflußt beide Merkmale 2., lineare Lineare 2.7 Partielle 14 / 149

15 2., Linear 2., lineare Lineare 2.2 Lineare 2.7 Partielle 15 / 149

16 2.9 Beispiel: (Fortsetzung von Beispiel 2.1) 2., Linear 2., lineare 2.1 Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Kann man y aus x vorhersagen? 2.2 Lineare 2.7 Partielle 16 / 149

17 Streudiagramm für die Daten aus Beispiel , Linear Motivation , lineare Lineare 2.7 Partielle Leistungsstreben 17 / 149

18 2.9 Beispiel: (Fortsetzung von Beispiel 2.1) Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Frage: besteht ein funktionaler Zusammenhang zwischen der Variablen Motivation der Prädiktorvariablen Leistungsstreben (Kann man y aus x vorhersagen?) Genauer: Gesucht ist Funktion f, die aus der Prädiktorvariablen Leistungsstreben (x) eine Vorhersage für die abhängige Variable (y) Motivation liefert: Motivation = f( Leistungsbereitschaft ) 2., Linear 2., lineare Lineare 2.7 Partielle Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 18 / 149

19 Ausgangslage: Von Interesse ist der Zusammenhang zwischen verschiedenen Variablen. Im einfachsten Fall betrachtet man, wie im Beispiel der Arbeitsmotivation, den Zusammenhang zwischen zwei Variablen. Daten: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein kausaler Zusammenhang der Form y = f (x) zwischen der abhängigen Variablen y der Prädiktorvariablen x. Weitere Annahme: Die Funktion f hat eine bestimmte Form. Beispiele: Lineare (der Zusammenhang ist also durch eine Gerade beschreibbar): y = b 0 + b 1x Quadratische (der Zusammenhang ist also durch eine Parabel beschreibbar): y = b 0 + b 1x + b 2x 2 usw. Beachte: Der Zusammenhang ist in der Regel nicht exakt zu beobachten. Mathematisches Modell Y = b 0 + b 1 x + ε 2., Linear 2., lineare Lineare 2.7 Partielle Dabei bezeichnet ε eine zufällige Störgröße. Diese Modell bezeichnet man als Lineare. 19 / 149

20 2.10 Das Modell der linearen Daten (x 1, y 1 ),..., (x n, y n ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen den Variablen Y i x i gilt: Y i = b 0 + b 1 x i + ε i i = 1,..., n ε i bezeichnet hier eine zufällige Störung es wird angenommen, dass die Störungen unabhängig normalverteilt sind mit Erwartungswert 0 Varianz σ 2 > 0 2., Linear 2., lineare Lineare 2.7 Partielle Deutung: es wird ein linearer Zusammenhang zwischen x y postuliert, der noch zufälligen Störungen unterliegt 20 / 149

21 Idee der Schätzung bei (linearer) 2., Linear Daten (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein linearer Zusammenhang Y = b 0 + b 1 x + ε Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Y x am besten beschreibt. Idee: Bestimme die Gerade so, dass die Summe der quadratischen (vertikalen) Abstände zwischen den y-koordinaten der Datenpunkte den entsprechenden Punkten auf der geschätzten Geraden minimal wird Methode der kleinsten Quadrate 2., lineare Lineare 2.7 Partielle 21 / 149

22 y y Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten 2., Linear 2., lineare Lineare y=0.2x y=0.5x Partielle x x 22 / 149

23 Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten: die Lösung durch die Methode der kleinsten Quadrate 2., Linear 2., lineare Lineare y y=0.292x Partielle x 23 / 149

24 2.11 Die Methode der kleinsten Quadrate Bestimme die Gerade so, dass die Summe der quadrierten senkrechten Abstände zwischen Gerade Daten minimal wird - Datum an der Stelle x i : y i - Wert der Geraden an der Stelle x i : b 0 + b 1 x i - Differenz: y i (b 0 + b 1 x i ) Minimiere h(b 0, b 1 ) = n ( i=1 yi (b 0 + b 1 x i ) ) 2 bzgl. der Wahl der Parameter b 0 b 1. Lösung dieses Extremwertproblems liefert Schätzer für Achsenabschnitt Steigung der Geraden: 2., Linear 2., lineare Lineare 2.7 Partielle ˆb 1 = n i=1 (x i x )(y i y ) n i=1 (x i x ) 2, ˆb 0 = y ˆb 1 x - x = 1 n n i=1 x i: Mittelwert der Prädiktorvariablen - y = 1 n n i=1 y i: Mittelwert der abhängigen Variablen 24 / 149

25 Beispiel Arbeitsmotivation: Streudiagramm sgerade für die Daten aus Beispiel 2.1 Motivation , Linear 2., lineare Lineare Leistungsstreben Schätzer: ˆb 0 = 13.82, ˆb 1 = 0.29 Fragen: R-Quadrat linear = 0, Partielle - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß des Leistungsstrebens auf die Motivation H 0 : b 1 = 0 - Wie gut beschreibt das lineare smodell die Situation? 25 / 149

26 Die Genauigkeit der Schätzer für die Parameter Beachte: vor der Datenerhebung sind ˆb 0 ˆb 1 zufällig Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer für die Varianzen von ˆb 0 ˆb 1 Schätzer für die Varianz von ˆb 0 : ŝ 2 b 0 = S 2 y x n Schätzer für die Varianz von ˆb 1 : ŝ 2 b 1 = S 2 y x n Dabei bezeichnet S 2 y x = 1 n 2 n i=1 x 2 i n i=1 (x i x ) 2 1 n n (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 1 n i=1 (x i x ) 2 2., Linear 2., lineare Lineare 2.7 Partielle die Residualvarianz (Schätzer für die Varianz der Störgrößen) Je größer der Stichprobenumfang n, desto genauer sind die Schätzungen! 26 / 149

27 Fortsetzung von Beispiel 2.1: Schätzer für die Daten der Arbeitsmotivation Schätzer für die Parameter ˆb 0 = ˆb 1 = S 2 y x = Schätzer für die Varianz von ˆb 0 ˆb 1 ŝ 2 b 0 = ŝ 2 b 1 = , Linear 2., lineare Lineare 2.7 Partielle Standdardafehler von ˆb 0 ˆb 1 ŝ b0 = = ŝ b1 = = / 149

28 SPSS Output: Schätzer Standardabweichungen bei linearer in Beispiel , Linear 2., lineare Lineare Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Koeffizienten a Standardisierte Nicht standardisierte Koeffizienten Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090,559 3,235, Partielle 28 / 149

29 2.12 Konfidenzintervalle bei linearer Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- Unabhängigkeitsannahme für ε 1,..., ε n Bestimmung der Schätzer ŝ 2 b 0 ŝ 2 b 1 für die Varianzen von ˆb 0 ˆb 1. Damit ist dann = (ˆb 0 t n 2,1 α/2 ŝ b0, ˆb 0 + t n 2,1 α/2 ŝ b0 ) ein (1 α)-konfidenzintervall für b 0 2., Linear 2., lineare Lineare 2.7 Partielle = (ˆb 1 t n 2,1 α/2 ŝ b1, ˆb 1 + t n 2,1 α/2 ŝ b1 ) ein (1 α)-konfidenzintervall für b 1. Hier ist t n 2,1 α/2 das (1 α/2)-quantil der t-verteilung mit n 2 Freiheitsgraden (tabelliert oder mit Software verfügbar) 29 / 149

30 Beispiel 2.13: Konfidenzbereiche im Beispiel 2.1 (Arbeitsmotivation) 2., Linear 2., lineare 2.1 n = 25, t 23,0975 = Für das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt sich als 95% Konfidenzintervall für b 0 : [9.420, ] b 1 : [0.105, 0.479] Frage: Besteht ein (signifikanter) Einfluß der Prädikorvariablen x auf die abhängige Variable Y? Mathematische Formulierung: H 0 : b 1 = Lineare 2.7 Partielle 30 / 149

31 SPSS Output: Konfidenzintervalle bei linearer Rgeression in Beispiel , Linear 2., lineare Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090 Koeffizienten a,559 3,235,004 95%-Konfidenzintervall für B Untergrenze Obergrenze 9,420 18,212,105, Lineare 2.7 Partielle 31 / 149

32 2.14 F -test für die Hypothese H 0 : b 1 = 0 Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- Unabhängigkeitsannahme für ε 1,..., ε n Hypothesen H 0 : b 1 = 0, H 1 : b 1 0 Die Nullhypothese H 0 : b 1 = 0 wird zu Gunsten der Alternative H 1 : b 1 0 verworfen, falls F n = S 2 reg S 2 y x = n 2 n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 n i=1 (y i (ˆb 0 + ˆb 1 x i )) 2 > F 1;n 2,1 α 2., Linear 2., lineare Lineare 2.7 Partielle gilt F 1;n 2,1 α bezeichnet das (1 α)-quantil der F -Verteilung mit (1, n 2) Freiheitsgraden 32 / 149

33 Motivation des F -Tests: Zerlegung der Varianz 2., Linear n (y i y ) 2 = n (y i (ˆb 0 + ˆbx i )) 2 + n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Gesamtvarianz Bezeichnungen: i=1 } {{ } Residualvarianz S 2 reg = 1 1 n i=1 } {{ } Varianz der i=1 (y (ˆb 0 + ˆb 1 x i )) 2 heißt Varianz der (diese hat 1 Freiheitsgrad) Sy x 2 = 1 n n 2 (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 ist die Residualvarianz (diese hat n 2 Freiheitsgrade). Andere Interpretationen: - Schätzung für die Varianz der Größen ε i - durch das lineare smodell nicht erklärbare Varianz 2., lineare Lineare 2.7 Partielle 33 / 149

34 Motivation des F -Tests: Zerlegung der Varianz 2., Linear n (y i y ) 2 = i=1 } {{ } Gesamtvarianz Beachte: n n (y i (ˆb 0 + ˆbx i )) 2 + (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Residualvarianz = (n 2) S 2 y x + S 2 reg i=1 } {{ } Varianz der Bei dem F -Test für die Hypothese H 0 : b 1 = 0 bildet man den Quotienten aus der Varianz der der Residualvarianz Man untersucht also das Verhältnis zwischen erklärbarer nicht erklärbarer Varianz. 2., lineare Lineare 2.7 Partielle 34 / 149

35 2.15 Varianzanalyse (ANOVA; analysis of variance) 2., Linear Art der Freiheits- Quadrat- F -Quotient Abweichung grade (df ) summe schätzer 2., lineare Lineare 1 n i=1 (y ŷ i ) 2 F n = S 2 reg /S 2 y x Fehler n 2 Total n 1 n i=1 (y i ŷ i ) 2 n i=1 (y i y ) Partielle Bezeichnung: ŷ i = ˆb 0 + ˆb 1 x i Vorhersage an der Stelle x i 35 / 149

36 SPSS Output: F-Test bei linearer in Beispiel , Linear 2., lineare ANOVA b Lineare Modell Quadratsumme df 1 Residuen Gesamt 238, , , a. Einflußvariablen : (Konstante), Leistungsstreben b. Abhängige Variable: Motivation Mittel der Quadrate 238,015 22,737 F 10,468 Signifikanz,004 a Beachte: F 25 = , F 1,23,0.95 = Da F 25 = > wird die Nullhypothese H 0 : b 1 = 0 zu Gunsten der Alternative H 1 : b 1 0 zum Niveau 5% verworfen (p-wert: 0.004) 2.7 Partielle 36 / 149

37 Modellgüte: wie geeignet ist das Modell für die Beschreibung der Daten Maß für Modellanpassung: Residualvarianz (Summe der quadrierte Abstände von der sgerade): S 2 y x = 1 n 2 n i=1 ( ) 2 y i (ˆb 0 + ˆb 1 x i ) Beachte: Sy x 2 ist ein Schätzer für die Varianz der Meßfehler Je kleiner Sy x 2, desto besser ist das (lineare) smodell Streuung der Daten ohne die Information, dass ein lineares Modell vorliegt: n (y i y ) 2 i=1 Man untersucht welchen Anteil der Streuung n i=1 (y i y ) 2 man durch das lineare Modell erklären kann 2., Linear 2., lineare Lineare 2.7 Partielle 37 / 149

38 Varianzzerlegung: ein extremes Beispiel 2., Linear 40 2., lineare 2.1 Abhängige Variable y Lineare Beachte: Unabhängige Variable Die Grafik zeigt eine extreme Situation. Die Streuung der Daten ist durch das lineare smodell zu 100% erklärbar! n i=1 (y i y ) 2 = n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 Residualvarianz (durch das lineare smodell nicht erklärbare Varianz) = 0 x 2.7 Partielle 38 / 149

39 2.16 Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1): 2., Linear 2., lineare Lineare 25 i=1 25 i=1 R 2 = (y i y ) 2 = (y (ˆb 0 + ˆb 1 x i )) 2 = i=1 (y (ˆb 0 + ˆb 1 x i )) 2 25 i=1 (y i y ) 2 = Partielle d.h. 31,3 % der Varianz der Variablen Motivation können durch die Prädiktorvariable Leistungsstreben erklärt werden. 39 / 149

40 2.17 Modellgüte: das Bestimmtheitsmaß Die Größe R 2 = 1 n (y i (ˆb 0 + ˆb 1 x i )) 2 i=1 = n (y i y ) 2 i=1 n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 n (y y i ) 2 i=1 ist ein Maß für die Güte der heißt Bestimmtheitsmaß. Beachte: man kann zeigen, dass R 2 genau das Quadrat der ist. 2., Linear 2., lineare Lineare 2.7 Partielle Je besser das Modell ist, desto kleiner ist die Residualvarianz, bzw. desto größer R 2! Das Bestimmtheitsmaß R 2 liegt immer zwischen / 149

41 Zusammenhang zwischen Bestimmtheitsmaß F -Test Ist F n die Statistik für den F -Test aus 2.14 R 2 das Bestimmtheitsmaß, dann gilt: R 2 = 1 n 2 F n n 2 F n In anderen Worten: die Statistik F n des F -Test aus 2.5 kann aus dem Bestimmtheitsmaß berechnet werden ( umgekehrt) Im Beispiel des Zusammenhangs zwischen Motivation Leistungsstreben ist 2., Linear 2., lineare Lineare 2.7 Partielle F n = = R 2 = = Ca. 31.3% der Variation der Variablen Motivation können durch die Variable Leistungsstreben erklärt werden 41 / 149

42 Vorhersagen: es gibt zwei unterschiedliche 2., Linear 2.18 Vorhersage für den Wert der Geraden an einer Stelle x Schätzung für den Wert der Geraden y(x) = b 0 + b 1 x an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x (1 α)-konfidenzintervall für y(x) wobei (ŷ(x) t n 2;α/2 ŝ y(x), ŷ(x) + t n 2;α/2 ŝ y(x) ) ŝ 2 y(x) = S 2 y x ( 1 n + (x x ) 2 n i=1 (x i x ) 2 ) 2., lineare Lineare 2.7 Partielle den Schätzer für die Varianz von Ŷ (x) bezeichnet 42 / 149

43 Vorhersagen: es gibt zwei unterschiedliche 2., Linear 2.19 Vorhersage für eine neue Beobachtung an einer Stelle x Schätzer für eine neue Beobachtung Ỹ (x) = b 0 + b 1 x + ε an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x (1 α)-konfidenzintervall für y(x) (ŷ(x) t n 2;α/2 s y(x), ŷ(x) + t n 2;α/2 s y(x) ) 2., lineare Lineare wobei s 2 y(x) = S 2 y x (1 + 1 n + (x x ) 2 n i=1 (x i x ) 2 ) 2.7 Partielle den Schätzer für die Varianz von ŷ(x) + ε bezeichnet Beachte: Diese Varianz wird bei wachsendem Stichprobenumfang nicht beliebig klein! 43 / 149

44 2.20 Beispiel (Fortsetzung von Beispiel 2.1) 2., Linear (1) Gesucht ist ein 90% Konfidenzintervall für den Wert der Geraden an der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ 2 y(x) = 1.116, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für den Wert der Geraden an der Stelle 16 ist gegeben durch [16.677, ] (2) Gesucht ist ein 90% Konfidenzintervall für eine neue Beobachtung der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ 2 ỹ(x) = 23.85, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für eine neue Beobachtung an der Stelle 16 ist gegeben durch 2., lineare Lineare 2.7 Partielle [10.118, ] 44 / 149

45 SPSS Output: Vorhersagen bei linearer in Beispiel 2.1 (schwierig) 2., Linear 2., lineare Lineare 2.7 Partielle 45 / 149

46 SPSS Output: Konfidenzintervalle für Vorhersagen bei linearer in Beispiel , Linear 2., lineare Motivation Lineare 2.7 Partielle Leistungsstreben 46 / 149

47 2.21 Residuenanalyse Unter der Modellannahme des linearen smodells gilt: die Größen ε i = Y i b 0 b 1 x i sind unabhängig normalverteilt mit Erwartungswert 0 Varianz σ 2 > 0. Das bedeutet, dass diese Eigenschaften auch näherungsweise für die Residuen ˆε i = y i ˆb 0 ˆb 1 x i erfüllt sein sollte, falls die Modellannahme zutrifft. Residuenanalyse ist ein deskriptives Verfahren für die Überprüfung der Annahmen an ε 1,..., ε n mit 4 Teilschritten (oft werden auch nicht alle gemacht): A: Das Streudiagramm der Daten mit der slinie B: Ein Streudiagramm der Residuen gegen die vorhergesagten Werte C: Normalverteilungs-QQ-Plot der Residuen D: Histogramm der Residuen mit angepasster Normalverteilungsdichte 2., Linear 2., lineare Lineare 2.7 Partielle 47 / 149

48 Residuenanalyse bei erfüllten Voraussetzungen 2., Linear Abhängige Variable A Residuum B , lineare Lineare Empirische Quantile Unabhängige Variable C f(residuum) Vorhergesagter Wert D 2.7 Partielle Theoretische Quantile der Standardnormalvert Residuum 48 / 149

49 Residuenanalyse bei Abweichungen von der Normalverteilung (Ausreißer) Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2., Linear 2., lineare Lineare 2.7 Partielle 49 / 149

50 Residuenanalyse bei Stratifizierung Beachte: verschiedene Untergruppen (Strata) können ebenfalls zu Abweichungen von den Modellannahmen führen. Für die Strata können dann unterschiedliche sgleichungen gelten. 2., Linear 2., lineare 2.1 Abhängige Variable A Residuum B 2.2 Lineare Unabhängige Variable C Vorhergesagter Wert D Partielle Empirische Quantile f(residuum) Theoretische Quantile der Standardnormalvert Residuum 50 / 149

51 Residuenanalyse bei falscher Modellannahme 2., Linear Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2., lineare Lineare 2.7 Partielle Statt des linearen Modells wäre ein Polynom 3. Grades die bessere Annahme für die Beschreibung des funktionalen Zusammenhangs! 51 / 149

52 Residuenanalyse bei ungleichen Varianzen (Heteroskedastizität) Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2., Linear 2., lineare Lineare 2.7 Partielle 52 / 149

53 SPSS Output: Residuenanalyse in Beispiel , Linear 35 2., lineare 2.1 Motivation R-Quadrat linear = 0, Lineare 2.7 Partielle Leistungsstreben Streudiagramm geschätzte sgerade im Beispiel der Arbeitsmotivation 53 / 149

54 SPSS Output: Residuenanalyse in Beispiel , Linear 3, , lineare 2.1 Standardized Residual 2, ,00000, , Lineare 2.7 Partielle -2, , ,00000, , ,00000 Standardized Predicted Value Streudiagramm der Residuen gegen die vorhergesagten Werte im Beispiel der Arbeitsmotivation 54 / 149

55 SPSS Output für Residuenanalyse 2., Linear 2 Q-Q-Diagramm von Normal von Standardized Residual 2., lineare Lineare Erwarteter Wert von Normal Partielle Beobachteter Wert QQ-Plot im Beispiel der Arbeitsmotivation 55 / 149

56 lineare 2., Linear 2., lineare Es besteht ein enger Zusammenhang zwischen linearer Ist ˆb 1 die Schätzung im linearen smodell r der skoeffizient von Pearson, dann gilt: n i=1 r = (x i x ) 2 n i=1 (y i y ˆb ) Lineare 2.7 Partielle Ist R 2 das Bestimmtheitsmaß r der skoeffizient von Pearson, dann gilt: r 2 = R 2 56 / 149

57 2., Linear 2., lineare Lineare 2.7 Partielle 57 / 149

58 2.22 Beispiel: Arbeitsmotivation mit mehreren Prädiktoren y: Motivation (Einschätzung der Arbeitsmotivation durch Experten) Prädiktoren: Eigenschaften x1: Ehrgeiz (Fragebogen) x2: Kreativität (Fragebogen) x3: Leistungsstreben (Fragebogen) Prädiktoren: Rahmenbedingungen x4: Hierarchie (Position in der Hierarchie des Unternehmens) x5: Lohn (Bruttolohn pro Monat) x6: Arbeitsbedingungen (Zeitsouveränität, Kommunikationsstruktur usw.) 2., Linear 2., lineare Lineare 2.7 Partielle Prädiktoren: Inhalte der Tätigkeit x7: Lernponential (Lernpotential der Tätigkeit) x8: Vielfalt (Vielfalt an Teiltätigkeiten) x9: Anspruch (Komplexität der Tätigkeit) 58 / 149

59 Daten 2., Linear i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x , lineare Lineare 2.7 Partielle 59 / 149

60 Daten 2., Linear i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x , lineare Lineare 2.7 Partielle 60 / 149

61 2.23 Das Modell der multiplen linearen Daten (x 1, y 1 ),..., (x n, y n ) Es gibt k unabhängige Variablen: x i = (x 1i,..., x ki ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen der Variablen Y i dem Vektor x i gilt (im Beispiel ist k = 9): Y i = b 0 + b 1 x 1i + b 2 x 2i b k x ki + ε i k = b 0 + b j x ji + ε i. j=1 ε i bezeichnet hier eine zufällige Störung es wird angenommen, dass die Störungen ε 1,..., ε n unabhängig normalverteilt sind mit Erwartungswert 0 Varianz σ 2 > 0 Deutung: es wird ein linearer Zusammenhang zwischen x Y postuliert, der noch zufälligen Störungen unterliegt 2., Linear 2., lineare Lineare 2.7 Partielle 61 / 149

62 2.24 Schätzung bei multipler linearer Methode der kleinsten Quadrate: Minimiere n (y i b 0 b 1 x 1i b k x ki ) 2 i=1 bzgl. der Wahl von b 0,..., b k Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer ˆb 0, ˆb 1,..., ˆb k für die Parameter b 0,..., b k (Formeln sind kompliziert) Schätzer für die Varianz der Meßfehler 2., Linear 2., lineare Lineare 2.7 Partielle S 2 y x = 1 n k 1 n (y i ˆb 0 ˆb 1 x 1i ˆb k x ki ) 2 i=1 62 / 149

63 Streudiagramm bei multipler linearer (k = 2) sfläche: ŷ(x) = x x 2. 2., Linear 2., lineare Lineare Y Partielle X 1 X 2 63 / 149

64 Fortsetzung von Beispiel 2.22: Schätzer im multiplen linearen smodell Ergebnisse für die Schätzer im multiplen linearen smodel ˆb 0 = ˆb1 = ˆb 2 = ˆb 3 = ˆb 4 = ˆb 5 = ˆb 6 = ˆb7 = ˆb 8 = ˆb9 = Fragen: - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß der unabhängigen Merkmale auf die Motivation H 0 : b 1 = 0 H 0 : b 2 = 0 2., Linear 2., lineare Lineare 2.7 Partielle. - Wie gut beschreibt das multiple lineare smodell die Situation? 64 / 149

65 Genauigkeit der Schätzung bei multipler linearer 2., Linear 2., lineare 2.1 Schätzer ŝ b0,..., ŝ bk für die Standardfehler von ˆb 0,..., ˆb k sind verfügbar (Allgemeines lineares Modell Formeln kompliziert) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto genauer die Schätzungen Damit erhält man Konfidenzintervalle für b 0,..., b k, z.b. (ˆb 0 t n k 1,1 α/2 ŝ b0, ˆb 0 + t n k 1,1 α/2 ŝ b0 ) 2.2 Lineare 2.7 Partielle ist (1 α)-konfidenzintervall für b 0 65 / 149

66 Fortsetzung von Beispiel 2.22: Schätzer für den Standardfehler der Schätzer im multiplen linearen smodell Ergebnisse für den Standardfehler der Schätzer im multiplen linearen smodell Wegen t 15,0.975 = ist ŝ b0 = ŝ b1 = ŝ b2 = ŝ b3 = ŝ b4 = ŝ b5 = ŝ b6 = ŝ b7 = ŝ b8 = ŝ b9 = , Linear 2., lineare Lineare 2.7 Partielle [ 0.089, 0.188] ein 95%-Konfidenzintervall für den Parameter b 3. Man beachte: ) n = 25; k = 9 n k 1 = / 149

67 2.25 Konfidenzintervalle für multiple lineare Modellannahme: multiple lineare Y i = b 0 + k b j x ji + ε i (i = 1,..., n) j=1 Rechterfertigung der Normalverteilungs- Unabhängigkeitsannahme Schätzer ŝ bj für den Standardfehler von ˆb j = (ˆb j t n k 1,1 α/2 ŝ bj, ˆb j + t n k 1,1 α/2 ŝ bj ) ist ein (1 α) -Konfidenzintervall für b j (j = 0,... k) t n k 1,1 α/2 ; (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden (Tabelle oder Software) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto kleiner die Konfidenzintervalle 2., Linear 2., lineare Lineare 2.7 Partielle 67 / 149

68 2.26 Beispiel: Konfidenzintervalle für die Parameter in Beispiel 2.22 (Arbeitsmotivation ) ˆb j Merkmal Schätzung ŝ bj Konfidenzintervall ˆb [ , 6.926] ˆb 1 Ehrgeiz [0.020, 0.365] ˆb 2 Kreativität [0.049, 0.258] ˆb 3 Leistungsstreben [-0.089, 0.188] ˆb 4 Hierarchie [-0.069, 0.561] ˆb 5 Lohn [-0.004, 0.002] ˆb 6 Arbeitsbdg [-0.147, 0.085] ˆb 7 Lernpotential [-0.044, 0.373] ˆb 8 Vielfalt [0.095, 0.316] ˆb 9 Anspruch [-0.070, 0.177] 2., Linear 2., lineare Lineare 2.7 Partielle 68 / 149

69 SPSS Output: Schätzer, Standardabweichung Konfidenzintervalle im Beispiel 2.22 (Arbeitsmotivation mit mehreren Prädiktoren) 2., Linear 2., lineare Lineare Koeffizienten a Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070 Obergrenze 6,926,365,258,188,561,002,085,373,316, Partielle 69 / 149

70 2.27 Vorhersage der multiplen linearen Modellannahme: multiple lineare Y i = b 0 + k j=1 b jx ji + ε i (i = 1,..., n) Rechterfertigung der Normalverteilungs- Unabhängigkeitsannahme Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) ŷ(x) = ˆb 0 + k j=1 ˆb j x j In Beispiel 2.22 ergibt sich z.b. als Vorhersage der multiplen linearen an der Stelle 2., Linear 2., lineare Lineare 2.7 Partielle x 1 = 21, x 2 = 30, x 3 = 15, x 4 = 11,, x 5 = 2900, x 6 = 41, x 7 = 25, x 8 = 55, x 9 = 54 der Wert ŷ(x) = / 149

71 2., Linear Vorhersage der multiplen linearen 2., lineare Wie in Abschnitt gibt es zwei Vorher- Beachte: sagen: Lineare Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Vorhersage für den Wert einer neuen Beobachtung an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Für beide Vorhesagen, kann man den Standardfehler bestimmen (Formeln kompliziert) Konfidenzbereiche angeben (vgl. Abschnitt für den Fall k = 1 ) 2.7 Partielle 71 / 149

72 SPSS Output: Vorhersage bei der multiplen linearen (schwierig) 2., Linear 2., lineare Lineare 2.7 Partielle Beispiel: Schätzung für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): Schätzung für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): / 149

73 SPSS Output: Konfidenzintervalle für Vorhersagen bei mulitpler linearer 2., Linear 2., lineare Lineare 2.7 Partielle Konfidenzintervall für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [12.399, ] Konfidenzintervall für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [9.870, ] 73 / 149

74 2.28 Bestimmtheitsmaß bei multipler linearer Modellvorhersage: ŷ i = ˆb 0 + ˆb 1 x 1i +... ˆb k x ki = ˆb 0 + k ˆb j x ji j=1 Residuum ˆε i = y i ŷ i = y i (ˆb 0 + k j=1 ˆb j x ji ) Beachte: Die Werte der abhängigen Variable zerfallen in Modellvorhersage (ŷ) Residuum (ˆε), d.h. y i = ŷ i + ˆε i i = 1,..., n Die Güte der Modellanpassung wird (wieder) durch das Bestimmtheitsmaß R 2 beschrieben werden (Anteil erklärter Varianz) 2., Linear 2., lineare Lineare 2.7 Partielle R 2 = 1 n i=1 (y i ŷ i ) 2 n i=1 (y i y ) 2 = n i=1 (y ŷ i ) 2 n i=1 (y i y ) / 149

75 Beispiel: das Bestimmtheitsmaß für das Beispiel 2.22 (Arbeitsmotivation) 2., Linear 2., lineare 2.1 In Beispiel 2.22 ist n = 25; k = 9 n i=1 (y i ŷ i ) 2 = n i=1 (y i y ) 2 = R 2 = = Lineare 2.7 Partielle D.h % der Varianz der Variablen Motivation werden durch das multiple lineare smodell erklärt 75 / 149

76 2.29 Statistische Tests bei der multiplen linearer. Zwei wichtige Fragestellungen: Frage A: Hat mindestens eine der Prädiktorvariablen x 1,..., x k einen Einfluß auf die abhängige Variable y (Gesamttest auf Signifikanz). Mathematische Formulierung der Hypothese: Nullhypothese: Alternative: H 0 : b j = 0 für alle j {1, 2,..., k} H 1 : b j 0 für mindestens ein j {1, 2,..., k} 2., Linear 2., lineare Lineare 2.7 Partielle Frage B: Hat die Prädiktorvariable x j (z.b. Ehrgeiz) einen Einfluß auf die abhängige Variable y. Mathematische Formulierung der Hypothese: Nullhypothese: H 0 : b j = 0 Alternative: H 1 : b j 0 76 / 149

77 2.29(A) Gesamttest auf Signifikanz Nullhypothese: H 0 : b j = 0 für alle j {1, 2,..., k} Alternative: H 1 : b j 0 für mindestens ein j {1, 2,..., k} (1) Bestimme S 2 reg = 1 k n (y ŷ i ) 2 i=1 die Varianz der, S 2 y x = 1 n k 1 n (y i ŷ i ) 2 i=1 2., Linear 2., lineare Lineare 2.7 Partielle die Residualvarianz Beachte: man geht genau wie im linearen smodell vor! 77 / 149

78 2., Linear 2.29(A) Gesamttest auf Signifikanz (2) H 0 wird zu Gunsten der Alternative H 1 verworfen, falls F n = S 2 reg S 2 y x > F k;n k 1;1 α gilt (oder der entsprechende p-wert kleiner als α ist). Dabei bezeichnet F k;n k 1;1 α das (1 α)-quantil der F -Verteilung mit (k, n k 1) Freiheitsgraden, Beachte: Wird H 0 durch diesen Test verworfen, dann bleibt aber noch unklar, welches der Merkmale signifikant ist 2., lineare Lineare 2.7 Partielle 78 / 149

79 2.29(B) Tests für die Signifikanz einzelner Merkmale 2., Linear Nullhypothese: Alternative: H 0 : b j = 0 H 1 : b j 0 Die Nullhypothese H 0 wird zu Gunsten der Alternative H 1 verworfen, falls ˆb j T n = > t n k 1;1 α/2 ŝ bj gilt (oder der entsprechende p-wert kleiner als α ist). Dabei ist tn k 1;1 α/2 das (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden ŝbj der Standardfehler von ˆb j Beachte: Werden mehrere Hypothesen gestestet, ist das Niveau entsprechend anzupassen (vgl. Abschntt 1.18). 2., lineare Lineare 2.7 Partielle 79 / 149

80 2., Linear 2.30(A) Test auf Signifikanz im multiplen smodel in Beispiel 2.22 Frage: Hat eine der 9 Prädiktorvariablen einen Einfluß auf die abhängige Variable? Mathematische Hypothesen: H 0 : b j = 0 für alle j = 1,..., 9 H 1 : b j 0 für mindestens ein j {1,..., 9} F n = , F 9,15,0.95 = , lineare Lineare 2.7 Partielle Da F n > > ist, wird die Nullhypothese zum Niveau 5% verworfen. 80 / 149

81 2.30(B) Beispiel: Test auf Signifikanz eines Merkmals im multiplen linearen smodell in Beispiel 2.22 Frage: Hat die Prädiktorvariable Ehrgeiz (x 1 ) einen Einfluß auf die abhängige Variable Motivation (Signifikanz des skoeffizienten b 1 )? Mathematische Hypothesen: H 0 : b 1 = 0; H 1 : b 1 0 ˆb1 = 0.193, ŝ b1 = 0.081, t 25 10,0.975 = , Linear 2., lineare Lineare 2.7 Partielle Da T 25 = T 25 = > 2.13 wird die Nullhypothese H 0 zu Gunsten der Alternative H 1 : b 1 0 verworfen (zum Niveau 5%) 81 / 149

82 SPSS Output: Der Test 2.29(A) für das Beispiel 2.22 (Arbeitsmotivation) 2., Linear 2., lineare Lineare Modell 1 Residuen Gesamt Quadratsumme 707,309 53, ,960 df ANOVA b Mittel der Quadrate a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Abhängige Variable: Y 78,590 3,577 F 21,972 Signifikanz,000 a 2.7 Partielle 82 / 149

83 SPSS Output: Der Test 2.29(B) für das Beispiel 2.22 (Arbeitsmotivation) 2., Linear 2., lineare 2.1 Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Koeffizienten a Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070 Obergrenze 6,926,365,258,188,561,002,085,373,316, Lineare 2.7 Partielle 83 / 149

84 2., Linear 2., lineare Lineare 2.7 Partielle 84 / 149

85 2.31 Das Problem der Multikollinearität 2., Linear Beispiel: Betrachte in dem Beispiel der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 Prädiktorvariablen Y i = b 0 + b 1 x 1i + b 2 x 2i + b 3 x 3i + ε i i = 1,..., 25 (Y : Motivation, x 1 : Ehrgeiz x 2 : Kreativität, x 3 : Leistungsstreben) Schätzer für die Modellparameter i ˆb i ŝ bi p-wert Bestimmtheitsmaß R 2 = Beachte: nur für den Koeffizient b 3 (Leistungsstreben) kann keine Signifikanz (zum Niveau 5%) nachgewiesen werden 2., lineare Lineare 2.7 Partielle 85 / 149

86 smatrix für die Prädiktoren 2., Linear 2., lineare 2.1 Motivation Ehrgeiz Kreativität Leistungsstreben Motivation 1 Ehrgeiz.71 1 Kreativität Leistungsstreben.56.82* Beachte: Der Test 2.5 liefert eine signifikante (zum Niveau 1%) zwischen den Variablen Leistungsstreben Ehrgeiz (SPSS) 2.2 Lineare 2.7 Partielle 86 / 149

87 2., Linear Beachte: Es gibt eine signifikante zwischen den Variablen Leistungsstreben Ehrgeiz Beide Variablen tragen weitgehend identische Information Im Beispiel ist die Variable Leistungsstreben redant wird nicht für die Vorhersage der abhängigen Variablen Motivation benötigt Die Variable Ehrgeiz ist stärker mit der Variablen Motivation korreliert als die Variable Leistungsstreben (aus diesem Gr ist der entsprechende Koeffizient auch signifikant) 2., lineare Lineare 2.7 Partielle Für die Bestimmtheitsmaße in den multiplen linearen smodellen mit drei bzw. zwei Variablen erhält man R 2 = für Modell mit den Prädiktoren x 1, x 2, x 3 R 2 = für Modell mit den Prädiktoren x 1, x 2 87 / 149

88 SPSS Output: Multikollinearität; Schätzer im Modell mit 3 Parametern 2., Linear 2., lineare Lineare Modell B 1 (Konstante) 5,539 x1,393 x2,225 x3,001 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standard fehler 2,618,135,089,123 Standardisierte Koeffizienten Beta Koeffizienten a,688,343,002 T 2,116 2,913 2,528,008 Signifi kanz,046,008,020,994 95%-Konfidenzintervall für B Untergrenze Obergrenze,095 10,983,112,674,040,410 -,255, Partielle 88 / 149

89 SPSS Output: Multilkollinearität; smatrix Y x1 x2 x3 nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N Y 1,000,000 25,379,061, x1,708 **,000,053,802,000 en 25 x2 1,000, x3,559 ** ,708 ** 1,000,053,818 ** 25,802 25, ,016, ,559 **,818 ** -,016 1,000 **. Die ist auf dem Niveau von 0,01 (2-seitig) signifikant.,379,061, , Linear 2., lineare Lineare 2.7 Partielle 89 / 149

90 2.43 Das Problem der 2., Linear Beispiel: Betrachte in dem Beispiel 2.22 der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 anderen Prädiktorvariablen Y i = b 0 + b 4 x 4i + b 5 x 5i + b 6 x 6i + ε i i = 1,..., 25 (Y : Motivation, x 4 : Hierarchie, x 5 : Lohn, x 6 : Arbeitsbedingungen) Schätzungen für die Modellparameter i ˆbi ŝ bi p-wert , lineare Lineare 2.7 Partielle 90 / 149

91 smatrix für die Variablen Motivation, Hierarchie, Lohn Arbeitsbedingungen Motivation Hierarchie Lohn Arbeitsbedingungen Motivation 1 Hierarchie.42* 1 Lohn ** 1 Arbeitsbedingungen Beachte: Zwischen der Prädiktorvariablen Lohn (x 5 ) der abhängigen Variablen Motivation liegt keine signifikante vor Dennoch bekommt diese Variable im multiplen smodell ein signifikantes Gewicht; d.h. die Hypothese H 0 : b 5 = 0 wird zum Niveau 5% verworfen (p-wert: 0.016). Man spricht von einem Suppressionseffekt. 2., Linear 2., lineare Lineare 2.7 Partielle 91 / 149

92 2., Linear Gr für diesen scheinbaren Widerspruch: en sind bivariate Maße für (zwischen zwei Merkmalen). Das Modell der multiplen untersucht aber den Zusammenhang zwischen der Variablen Motivation dem (3-dimensionalen) Prädiktor (x 4, x 5, x 6 ): Motivation ist stark mit der Variablen Hierarchie korreliert Lohn ist ebenfalls stark mit der Variablen Hierarchie korreliert Prädiktorvariable Lohn wird in der multiplen linearen benötigt, um unerwünschte Varianzanteile der Variablen Hierarchie zu kompensieren 2., lineare Lineare 2.7 Partielle Bestimmtheitsmaße für verschiedene Modelle R 2 = für Modell mit x 4, x 5, x 6 R 2 = für Modell mit x 4, x 6 92 / 149

93 SPSS Output: ; Schätzer im Modell mit 4 Parametern 2., Linear 2., lineare Modell 1 (Konstante) x4,884 x5 -,007 x6,125 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten Standard B fehler Beta T Signifikanz 25,076 8,398 2,986,007,257,003,120 Koeffizienten a,843 -,632,179 3,444-2,612 1,045,002,016,308 95%-Konfidenzintervall für B Untergrenze Obergrenze 7,612 42,539,350 1,419 -,013 -,001 -,124, Lineare 2.7 Partielle 93 / 149

94 SPSS Output: ; Schätzung der smatrix Y x4 x5 x6 nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N Y 1,000, ,038,856 25,354, x4,419 *,037 25,717 **,000,163,435 en x5 1, ,060, x ,419 * 1,000,717 **,163 *. Die ist auf dem Niveau von 0,05 (2-seitig) signifikant. **. Die ist auf dem Niveau von 0,01 (2-seitig) signifikant. -,038,856,000 25,354,082, ,060, , , Linear 2., lineare Lineare 2.7 Partielle 94 / 149

95 2., Linear 2., lineare Lineare 2.7 Partielle 95 / 149

96 2.33 Merkmalselektionsverfahren Ziel: mit möglichst wenig Prädiktorvariablen eine gute Vorhersage der abhängigen Variablen zu erzielen. Prinzip: untersuche wie sich durch Weglassen einzelner Variablen das Bestimmtheitsmaß R 2 verändert. Typische Selektionsprozeduren: (A) Rückwärtsverfahren (B) Vorwärtsverfahren (C) Schrittweise Verfahren 2., Linear 2., lineare Lineare 2.7 Partielle Beachte: es handelt sich um explorative Verfahren, die hauptsächlich der Modellbildung dienen (Interpretation nicht einfach). 96 / 149

97 2.34 Das Rückwärtsverfahren 2., Linear 2., lineare Lineare Betrachte das vollständige Modell (mit allen Prädiktorvariablen) berechne das Bestimmtheitsmaß R 2 Entferne sukzessive diejenigen Variablen, die zu dem geringsten Rückgang des Bestimmtheitsmaßes führen würden Das Verfahren wird abgebrochen, falls sich bei dem Entfernen einer Variablen das Bestimmtheitsmaß signifikant verkleinert 2.7 Partielle 97 / 149

98 2.35 Beispiel: Variablenselektion mit dem Rückwärtsverfahren (vgl. Beispiel 2.22) Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 1 Ehrgeiz Kreativität 3.13 Leistungsstreben.76 Hierarchie 1.66 Lohn -.59 Arbeitsbedingungen -.58 Lernpotential 1.68 Vielfalt 3.97 Anspruch.92 2 Ehrgeiz 2.38 Arbeitsbedingungen.928 Kreativität 3.28 Leistungsstreben.79 Hierarchie 1.66 Lohn -.57 Lernpotential 1.66 Vielfalt 4.04 Anspruch.91 2., Linear 2., lineare Lineare 2.7 Partielle 98 / 149

99 Beispiel: Rückwärtsverfahren - Fortsetzung Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 3 Ehrgeiz 2.54 Arbeitsbedingungen.926 Kreativität 3.43 Lohn Leistungsstreben.88 Hierarchie 2.11 Lernpotential 1.59 Vielfalt 4.17 Anspruch Ehrgeiz 5.40 Arbeitsbedingungen.923 Kreativität 3.38 Lohn Hierarchie 2.31 Leistungsstreben Lernpotential 1.55 Vielfalt 4.12 Anspruch , Linear 2., lineare Lineare 2.7 Partielle 5 Ehrgeiz 5.18 Arbeitsbedingungen.916 Kreativität 3.16 Lohn Hierarchie 2.84 Leistungsstreben Lernpotential 3.31 Anspruch Vielfalt / 149

100 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation 2., Linear 2., lineare 2.1 Aufgenommene/Entfernte Variablen b Entfernte Modell Aufgenommene Variablen Variablen Methode 1 x9, x5, x2, x3, x6, x8, x7, x4,. Eingeben 2. x6 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 3. x5 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 4. x3 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 5. x9 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). a. Alle gewünschten Variablen wurden aufgenommen. b. Abhängige Variable: Y 2.2 Lineare 2.7 Partielle 100 / 149

101 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation 2., Linear 2., lineare Lineare Modellzusammenfassung Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,964 a,929,887 1,891,929 21, ,000 2,963 b,928,892 1,851 -,002, ,573 3,963 c,926,896 1,814 -,001, ,575 4,961 d,923,897 1,803 -,003, ,389 5,957 e,916,894 1,837 -,007 1, ,207 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 2.7 Partielle 101 / 149

102 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: ANOVA Modell Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadratsumme 707,309 53, , ,120 54, , ,000 55, , ,422 58, , ,852 64, ,960 df Mittel der Quadrate 78,590 3,577 88,265 3, ,714 3, ,070 3, ,370 3,374 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 f. Abhängige Variable: Y 9 F 21,972 25,752 30,596 35,999 41,306 ANOVA f Signifikanz,000 a,000 b,000 c,000 d,000 e 2., Linear 2., lineare Lineare 2.7 Partielle 102 / 149

103 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell 1 (Konstante) 2 3 x1 x2 x3 x4 x5 x6 x7 x8 x9 (Konstante) x1 x2 x3 x4 x5 x7 x8 x9 (Konstante) x1 x2 x3 x4,193,153,049,246,000 -,031,165,206,053-4,737,187,157,050,240,000,157,205,052-7,154,193,159,055,172 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz -3,842 5,052 -,760,459,081,049,065,148,001,054,098,052,058 4,706,079,048,063,144,001,095,051,057 2,027,076,046,062,081,337,234,095,235 -,077 -,045,199,354,124,326,239,096,228 -,073,190,352,121,338,244,105,164 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920-1,007 2,376 3,285,790 1,660 -,572 1,655 4,040,914-3,529 2,540 3,431,885 2,113 Koeffizienten a,031,007,458,117,564,573,113,001,372,329,030,005,441,116,575,117,001,374,003,021,003,389,050 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070-14,713,020,056 -,084 -,066 -,004 -,044,097 -,068-11,431,033,061 -,076,000 Obergrenze 6,926,365,258,188,561,002,085,373,316,177 5,238,353,258,185,545,002,358,312,172-2,877,354,258,185,344 2., Linear 2., lineare Lineare 2.7 Partielle 103 / 149

104 2.36 Das Vorwärtsverfahren 2., Linear 2., lineare 2.1 Bestimme diejenige Prädiktorvariable, die mit der abhängigen Variablen am stärksten korreliert ist berechne das Bestimmtheitsmaß R 2 Ist R 2 signifikant, wird diese Variable in das Modell aufgenommen Füge sukzessive diejenigen Variablen zu dem Modell hinzu, die zu dem größten Anstieg des Bestimmtheitsmaßes führen Das Verfahren bricht ab, falls sich bei Hinzunahme einer neuen Variablen das Bestimmtheitsmaß R 2 nicht signifikant vergrößert 2.2 Lineare 2.7 Partielle 104 / 149

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Statistik II für Betriebswirte Vorlesung 11

Statistik II für Betriebswirte Vorlesung 11 Statistik II für Betriebswirte Vorlesung 11 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 07. Januar 2019 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 11 Version:

Mehr

Methodik der multiplen linearen Regression

Methodik der multiplen linearen Regression Methodik der multiplen linearen Regression Sibel Aydemir Statistisches Amt, Direktorium Landeshauptstadt München Name, Stadt Regressionsanalyse: Schritt für Schritt Schritt 1 Schritt 2 Schritt 3 Schritt

Mehr

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154 Bivariate lineare Regression Statistik für SozialwissenschaftlerInnen II p.154 Grundidee und Typen der Regression Die Regressionsanalyse dient zur Quantifizierung des Zusammenhangs und der statistisch

Mehr

Vorlesung Wirtschaftsstatistik 2 (FK 040637) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

Vorlesung Wirtschaftsstatistik 2 (FK 040637) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13 Vorlesung Wirtschaftsstatistik 2 (FK 040637) Multiple lineare Regression Dipl.-Ing. Robin Ristl Wintersemester 2012/13 1 Grundidee: Eine abhängige Variable soll als Linearkombination mehrerer unabhängiger

Mehr

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167 Multivariate lineare Regression Statistik für SozialwissenschaftlerInnen II p.167 Multivariate Regression Verfahren zur Prüfung des gemeinsamen linearen Einflusses mehrerer unabhängiger Variablen auf eine

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Das lineare Regressionsmodell Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst.

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst. Aufgabe 1 (2 + 4 + 2 + 1 Punkte) Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen X und Y : { 2x + 2y für 0.5 x 0.5, 1 y 2 f(x, y) = 3 0 sonst. a) Berechnen

Mehr

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell 1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs

Mehr

30. März Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette

30. März Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette Ruhr-Universität Bochum 30. März 2011 1 / 46 Methodenlehre II NA 3/73 Telefon: 0234 322 8284 Email: holger.dette@rub.de Internet: www.ruhr-uni-bochum.de/mathematik3/index.html Vorlesung: Montag, 8.30 10.00

Mehr

Statistik II für Betriebswirte Vorlesung 8

Statistik II für Betriebswirte Vorlesung 8 Statistik II für Betriebswirte Vorlesung 8 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 3. Dezember 2018 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 8 Version:

Mehr

TEIL 13: DIE EINFACHE LINEARE REGRESSION

TEIL 13: DIE EINFACHE LINEARE REGRESSION TEIL 13: DIE EINFACHE LINEARE REGRESSION Die einfache lineare Regression Grundlagen Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen 1 Sie hat einen

Mehr

Deskriptive Beschreibung linearer Zusammenhänge

Deskriptive Beschreibung linearer Zusammenhänge 9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,

Mehr

B. Regressionsanalyse [progdat.sav]

B. Regressionsanalyse [progdat.sav] SPSS-PC-ÜBUNG Seite 9 B. Regressionsanalyse [progdat.sav] Ein Unternehmen möchte den zukünftigen Absatz in Abhängigkeit von den Werbeausgaben und der Anzahl der Filialen prognostizieren. Dazu wurden über

Mehr

Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende

Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende im Sommersemester 2012 Prof. Dr. H. Küchenhoff, J. Brandt, G. Schollmeyer, G. Walter Aufgabe 1 Betrachten

Mehr

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die Statistik für Kommunikationswissenschaftler Wintersemester 2010/2011 Vorlesung Prof. Dr. Nicole Krämer Übung Nicole Krämer, Cornelia Oberhauser, Monia Mahling Lösung Thema 9 Homepage zur Veranstaltung:

Mehr

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003 Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003. Eine seltene Krankheit trete mit Wahrscheinlichkeit : 0000 auf. Die bedingte Wahrscheinlichkeit, dass ein bei einem Erkrankten durchgeführter

Mehr

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005 Universität Bielefeld 13. Juni 2005 Einführung Einführung Wie kann die Kenntnis der Wahrscheinlichkeitsverteilung der Parameter einer Stichprobe dazu verhelfen auf die wahren Werte der Grundgesamtheit

Mehr

Hypothesentests mit SPSS

Hypothesentests mit SPSS Beispiel für eine einfache Regressionsanalyse (mit Überprüfung der Voraussetzungen) Daten: bedrohfb_v07.sav Hypothese: Die Skalenwerte auf der ATB-Skala (Skala zur Erfassung der Angst vor terroristischen

Mehr

Die Funktion f wird als Regressionsfunktion bezeichnet.

Die Funktion f wird als Regressionsfunktion bezeichnet. Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht

Mehr

TEIL 13: DIE LINEARE REGRESSION

TEIL 13: DIE LINEARE REGRESSION TEIL 13: DIE LINEARE REGRESSION Dozent: Dawid Bekalarczyk GLIEDERUNG Dozent: Dawid Bekalarczyk Lineare Regression Grundlagen Prognosen / Schätzungen Verbindung zwischen Prognose und Zusammenhang zwischen

Mehr

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung

Mehr

Inferenzstatistik (=schließende Statistik)

Inferenzstatistik (=schließende Statistik) Inferenzstatistik (=schließende Statistik) Grundproblem der Inferenzstatistik: Wie kann man von einer Stichprobe einen gültigen Schluß auf di Grundgesamtheit ziehen Bzw.: Wie groß sind die Fehler, die

Mehr

Einfaktorielle Varianzanalyse

Einfaktorielle Varianzanalyse Kapitel 16 Einfaktorielle Varianzanalyse Im Zweistichprobenproblem vergleichen wir zwei Verfahren miteinander. Nun wollen wir mehr als zwei Verfahren betrachten, wobei wir unverbunden vorgehen. Beispiel

Mehr

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers 4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern Biometrieübung 10 (lineare Regression) - Aufgabe Biometrieübung 10 Lineare Regression Aufgabe 1. Düngungsversuch In einem Düngeversuch mit k=9 Düngungsstufen x i erhielt man Erträge y i. Im (X, Y)- Koordinatensystem

Mehr

Kapitel 2 Wahrscheinlichkeitsrechnung

Kapitel 2 Wahrscheinlichkeitsrechnung Definition 2.77: Normalverteilung & Standardnormalverteilung Es sei µ R und 0 < σ 2 R. Besitzt eine stetige Zufallsvariable X die Dichte f(x) = 1 2 πσ 2 e 1 2 ( x µ σ ) 2, x R, so heißt X normalverteilt

Mehr

ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II

ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II 1.1 Durch welche Elemente lässt sich laut der Formel für die multiple Regression der Wert einer Person auf einer bestimmten abhängigen Variable Y vorhersagen? a)

Mehr

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav Hypothese: Die Beschäftigung mit Kunst ist vom Bildungsgrad abhängig. 1. Annahmen Messniveau: Modell: Die Skala zur Erfassung der

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem

Mehr

Statistik II. Weitere Statistische Tests. Statistik II

Statistik II. Weitere Statistische Tests. Statistik II Statistik II Weitere Statistische Tests Statistik II - 19.5.2006 1 Überblick Bisher wurden die Test immer anhand einer Stichprobe durchgeführt Jetzt wollen wir die statistischen Eigenschaften von zwei

Mehr

Biostatistik 101 Korrelation - Regressionsanalysen

Biostatistik 101 Korrelation - Regressionsanalysen Good Data don't need statistics Biostatistik 101 Korrelation - Regressionsanalysen Carl Herrmann IPMB Uni Heidelberg & DKFZ B080 carl.herrmann@uni-heidelberg.de Korrelation Sind Alter und Blutdruck miteinander

Mehr

3.3 Konfidenzintervalle für Regressionskoeffizienten

3.3 Konfidenzintervalle für Regressionskoeffizienten 3.3 Konfidenzintervalle für Regressionskoeffizienten Konfidenzintervall (Intervallschätzung): Angabe des Bereichs, in dem der "wahre" Regressionskoeffizient mit einer großen Wahrscheinlichkeit liegen wird

Mehr

Musterlösung. Modulklausur Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn

Mehr

Kapitel 5 FRAGESTELLUNG 1. Öffne die Datei alctobac.sav.

Kapitel 5 FRAGESTELLUNG 1. Öffne die Datei alctobac.sav. Kapitel 5 FRAGESTELLUNG 1 Öffne die Datei alctobac.sav. Zuerst werden wir ein Streudiagramm erstellen, um einen grafischen Überblick von diesem Datensatz zu erhalten. Gehe dazu auf Grafiken / Streudiagramm

Mehr

Die Korrelation von Merkmalen

Die Korrelation von Merkmalen Die Korrelation von Merkmalen In der Analse von Datenmaterial ist eines der Hauptziele der Statistik eine Abhängigkeit bzw. einen Zusammenhang zwischen Merkmalen zu erkennen. Die Korrelation ermittelt

Mehr

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden

Mehr

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II. IV. Hypothesentests. Martin Huber Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur

Mehr

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests. 0 Einführung 1 Wahrscheinlichkeitsrechnung 2 Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung 5 Hypothesentests 6 Regression Lineare Regressionsmodelle Deskriptive Statistik:

Mehr

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit

Mehr

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X. Lineare Regression Einfache Regression Beispieldatensatz: trinkgeld.sav Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X. H0: Y lässt sich nicht durch X erklären, das heißt

Mehr

Statistik für SozialwissenschaftlerInnen II p.85

Statistik für SozialwissenschaftlerInnen II p.85 Schätzverfahren Statistik für SozialwissenschaftlerInnen II p.85 Schätzverfahren Ziel von Schätzverfahren: Ausgehend von Stichproben Aussagen über Populationskennwerte machen Kenntnis der Abweichung des

Mehr

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002 Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002 1. Ein Chemiestudent hat ein Set von 10 Gefäßen vor sich stehen, von denen vier mit Salpetersäure Stoff A), vier mit Glyzerin Stoff

Mehr

SozialwissenschaftlerInnen II

SozialwissenschaftlerInnen II Statistik für SozialwissenschaftlerInnen II Henning Best best@wiso.uni-koeln.de Universität zu Köln Forschungsinstitut für Soziologie Statistik für SozialwissenschaftlerInnen II p.1 Varianzanalyse Statistik

Mehr

Test auf einen Anteilswert (Binomialtest) Vergleich zweier Mittelwerte (t-test)

Test auf einen Anteilswert (Binomialtest) Vergleich zweier Mittelwerte (t-test) Spezielle Tests Test auf einen Anteilswert (Binomialtest) Vergleich zweier Anteilswerte Test auf einen Mittelwert (Ein-Stichproben Gauss bzw. t-test) Vergleich zweier Mittelwerte (t-test) Test auf einen

Mehr

Kapitel 5: Einfaktorielle Varianzanalyse

Kapitel 5: Einfaktorielle Varianzanalyse Kapitel 5: Einfaktorielle Varianzanalyse Durchführung einer einfaktoriellen Varianzanalyse ohne Messwiederholung 1 Berechnung der Effektstärke und der beobachteten Teststärke einer einfaktoriellen Varianzanalyse

Mehr

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen

Mehr

23. Mai Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette

23. Mai Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette Ruhr-Universität Bochum 23. Mai 2011 1 / 178 Methodenlehre II NA 3/73 Telefon: 0234 322 8284 Email: holger.dette@rub.de Internet: www.ruhr-uni-bochum.de/mathematik3/index.html Vorlesung: Montag, 8.30 10.00

Mehr

Geschlecht + Anfangsgehalt. T-Test für das Anfangsgehalt Gruppenstatistiken. Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3

Geschlecht + Anfangsgehalt. T-Test für das Anfangsgehalt Gruppenstatistiken. Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3 Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3 Geschlecht + Anfangsgehalt 14000 399 403 7000 12000 335 Anfangsgehalt 10000 8000 6000 4000 2000 N = 28 63 185 291 227 52 215 158 88 284 193

Mehr

Versuchsplanung. Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling

Versuchsplanung. Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling Versuchsplanung Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling Gliederung Grundlagen der Varianzanalyse Streuungszerlegung und Modellschätzer Modellannahmen und Transformationen

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie

Mehr

Ü b u n g s b l a t t 15

Ü b u n g s b l a t t 15 Einführung in die Stochastik Sommersemester 07 Dr. Walter Oevel 2. 7. 2007 Ü b u n g s b l a t t 15 Hier ist zusätzliches Übungsmaterial zur Klausurvorbereitung quer durch die Inhalte der Vorlesung. Eine

Mehr

Regression und Korrelation

Regression und Korrelation Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen

Mehr

Kapitel 5: Einfaktorielle Varianzanalyse

Kapitel 5: Einfaktorielle Varianzanalyse Kapitel 5: Einfaktorielle Varianzanalyse Durchführung einer einfaktoriellen Varianzanalyse ohne Messwiederholung Dieser Abschnitt zeigt die Durchführung der in Kapitel 5 vorgestellten einfaktoriellen Varianzanalyse

Mehr

Statistik II Übung 1: Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der

Mehr

Prüfung aus Statistik 2 für SoziologInnen

Prüfung aus Statistik 2 für SoziologInnen Prüfung aus Statistik 2 für SoziologInnen 11. Oktober 2013 Gesamtpunktezahl =80 Name in Blockbuchstaben: Matrikelnummer: Wissenstest (maximal 16 Punkte) Kreuzen ( ) Sie die jeweils richtige Antwort an.

Mehr

Statistik II für Betriebswirte Vorlesung 12

Statistik II für Betriebswirte Vorlesung 12 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 12 11. Januar 2013 7.3. Multiple parameterlineare Regression Im Folgenden soll die

Mehr

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 12 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen. Gliederung Grundidee Einfaches lineares Modell KQ-Methode (Suche nach der besten Geraden) Einfluss von Ausreißern Güte des Modells (Bestimmtheitsmaß R²) Multiple Regression Noch Fragen? Lineare Regression

Mehr

x(n x) cm 2 ) zweier Betonsorten wird überprüft. Dabei ergaben Sorte 1 185 186 184 186 185 187 186 187 185 Sorte 2 183 182 185 182 181 179

x(n x) cm 2 ) zweier Betonsorten wird überprüft. Dabei ergaben Sorte 1 185 186 184 186 185 187 186 187 185 Sorte 2 183 182 185 182 181 179 . Aufgabe: Zwei bis drei Millionen deutsche Haushalte sind überschuldet. Einer der Hauptgründe für die Überschuldung privater Haushalte ist eine gescheiterte Selbstständigkeit. In einer Stichprobe von

Mehr

Statistische Tests (Signifikanztests)

Statistische Tests (Signifikanztests) Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)

Mehr

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Hypothesentests mit SPSS

Hypothesentests mit SPSS Beispiel für eine zweifaktorielle Varianzanalyse mit Messwiederholung auf einem Faktor (univariate Lösung) Daten: POKIII_AG4_V06.SAV Hypothese: Die physische Attraktivität der Bildperson und das Geschlecht

Mehr

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Statistik 7.1 Korrelationsanalyse Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Sommersemester 2012 7 Regressions- und Korrelationsanalyse Kovarianz Pearson-Korrelation Der (lineare)

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung

Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung Übung Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung BACHELOR FT 2013 (HSU) Übung Emp. WiFo FT 2013 1 / 1 Maßzahlen für den Zusammenhang zwischen Merkmalen Kontingenztabelle:

Mehr

Mathematik III - Statistik für MT(Master)

Mathematik III - Statistik für MT(Master) 3. Regressionsanalyse Fachbereich Grundlagenwissenschaften Prof. Dr. Viola Weiß Wintersemester 0/03 Mathematik III - Statistik für MTMaster 3. Empirische Regressionsgerade Optimalitätskriterium: Die Summe

Mehr

Tutorial: Regression Output von R

Tutorial: Regression Output von R Tutorial: Regression Output von R Eine Firma erzeugt Autositze. Ihr Chef ist besorgt über die Anzahl und die Kosten von Maschinenausfällen. Das Problem ist, dass die Maschinen schon alt sind und deswegen

Mehr

3.3 Das allgemeine lineare Modell (ALM), Methode der kleinsten Quadrate

3.3 Das allgemeine lineare Modell (ALM), Methode der kleinsten Quadrate 31 und 31 und (), Methode der 33 Das allgemeine (), Methode der kleinsten Quadrate 36 Kovarianzanalyse 37 Modelle mit Messwiederholungen 1 / 85 Eine grundsätzliche Bemerkung zu Beginn Es bestehen viele

Mehr

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010

Mehr

SPSS III Mittelwerte vergleichen

SPSS III Mittelwerte vergleichen SPSS III Mittelwerte vergleichen A Zwei Gruppen ------------ Zwei-Stichproben t-test Beispieldatei: Seegräser Fragestellung: Unterscheidet sich die Anzahl der Seegräser in Gebieten mit und ohne Seeigelvorkommen

Mehr

Deskriptive Statistik Beschreiben, Zusammenfassen, Darstellen gegebener Daten (Datenreduktion!)

Deskriptive Statistik Beschreiben, Zusammenfassen, Darstellen gegebener Daten (Datenreduktion!) Deskriptive Statistik Beschreiben, Zusammenfassen, Darstellen gegebener Daten (Datenreduktion!) - Arithmetisches Mittel o Das arithmetische Mittel (auch Durchschnitt) ist ein Mittelwert, der als Quotient

Mehr

6.2 Lineare Regression

6.2 Lineare Regression 6.2 Lineare Regression Einfache lineare Regression (vgl. Kap. 4.7) Y i = θ 0 + θ 1 X i + ǫ i ǫ i (0, σ 2 ) ˆθ 1 ˆθ 0 = S XY S 2 X = 1 ( Yi n ˆθ ) 1 Xi als Lösung der Minimumaufgabe n (Y i θ 1 X 1 θ 0 )

Mehr

STATISTIK II. Hans-Otfried Müller Institut für Mathematische Stochastik.

STATISTIK II. Hans-Otfried Müller Institut für Mathematische Stochastik. STATISTIK II Hans-Otfried Müller Institut für Mathematische Stochastik http://www.math.tu-dresden.de/sto/mueller 1 Ausgewählte Verfahren der multivariaten Datenanalyse und Statistik Werden bei einer Analyse

Mehr

Statistik II Übung 1: Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der

Mehr

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03 I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03 Vorlesung: 12.11.2002 He uses statistics as a drunken man use lampposts - for support rather than for illumination. Andrew Lang Dr. Wolfgang Langer

Mehr

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit: 1. Welche der folgenden Kenngrößen, Statistiken bzw. Grafiken sind zur Beschreibung der Werteverteilung des Merkmals Konfessionszugehörigkeit sinnvoll einsetzbar? A. Der Modalwert. B. Der Median. C. Das

Mehr

Statistische Methoden in den Umweltwissenschaften

Statistische Methoden in den Umweltwissenschaften Statistische Methoden in den Umweltwissenschaften Korrelationsanalysen Kreuztabellen und χ²-test Themen Korrelation oder Lineare Regression? Korrelationsanalysen - Pearson, Spearman-Rang, Kendall s Tau

Mehr

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Inhaltsverzeichnis. Über die Autoren Einleitung... 21 Inhaltsverzeichnis Über die Autoren.... 7 Einleitung... 21 Über dieses Buch... 21 Was Sie nicht lesen müssen... 22 Törichte Annahmen über den Leser... 22 Wie dieses Buch aufgebaut ist... 23 Symbole, die

Mehr

Einführung in die Varianzanalyse mit SPSS

Einführung in die Varianzanalyse mit SPSS Einführung in die Varianzanalyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen 6. Mai 00 Inhalt. Varianzanalyse. Prozedur ONEWAY. Vergleich von k Gruppen 4. Multiple Vergleiche 5. Modellvoraussetzungen

Mehr

Uwe Hassler. Statistik im. Bachelor-Studium. Eine Einführung. für Wirtschaftswissenschaftler. ^ Springer Gabler

Uwe Hassler. Statistik im. Bachelor-Studium. Eine Einführung. für Wirtschaftswissenschaftler. ^ Springer Gabler Uwe Hassler Statistik im Bachelor-Studium Eine Einführung für Wirtschaftswissenschaftler ^ Springer Gabler 1 Einführung 1 2 Beschreibende Methoden univariater Datenanalyse 5 2.1 Grundbegriffe 5 2.2 Häufigkeitsverteilungen

Mehr

Statistik II Übung 3: Hypothesentests

Statistik II Übung 3: Hypothesentests Statistik II Übung 3: Hypothesentests Diese Übung beschäftigt sich mit der Anwendung diverser Hypothesentests (zum Beispiel zum Vergleich der Mittelwerte und Verteilungen zweier Stichproben). Verwenden

Mehr

1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests

1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests 1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests Statistische Tests dienen dem Testen von Vermutungen, so genannten Hypothesen, über Eigenschaften der Gesamtheit aller Daten ( Grundgesamtheit

Mehr

Mittelwertvergleiche, Teil II: Varianzanalyse

Mittelwertvergleiche, Teil II: Varianzanalyse FB 1 W. Ludwig-Mayerhofer Statistik II 1 Herzlich willkommen zur Vorlesung Mittelwertvergleiche, Teil II: FB 1 W. Ludwig-Mayerhofer Statistik II 2 : Wichtigste Eigenschaften Anwendbar auch bei mehr als

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

Mittelwertvergleiche, Teil I: Zwei Gruppen

Mittelwertvergleiche, Teil I: Zwei Gruppen FB W. Ludwig-Mayerhofer Statistik II Mittelwertvergleiche Herzlich willkommen zur Vorlesung Mittelwertvergleiche, Teil I: Zwei Gruppen FB W. Ludwig-Mayerhofer Statistik II Mittelwertvergleiche Mittelwertvergleiche:

Mehr

D-CHAB Frühlingssemester 2017 T =

D-CHAB Frühlingssemester 2017 T = D-CHAB Frühlingssemester 17 Grundlagen der Mathematik II Dr Marcel Dettling Lösung 13 1) Die relevanten Parameter sind n = 3, x = 1867, σ x = und µ = 18 (a) Die Teststatistik T = X µ Σ x / n ist nach Annahme

Mehr

2.5 Lineare Regressionsmodelle

2.5 Lineare Regressionsmodelle 2.5.1 Wiederholung aus Statistik I Gegeben Datenpunkte (Y i, X i ) schätze die beste Gerade Y i = β 0 + β 1 X i, i = 1,..., n. 2 Induktive Statistik 409 Bsp. 2.30. [Kaffeeverkauf auf drei Flohmärkten]

Mehr

Bachelorprüfung: Statistik (1 Stunde)

Bachelorprüfung: Statistik (1 Stunde) Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!

Mehr

Varianzvergleiche bei normalverteilten Zufallsvariablen

Varianzvergleiche bei normalverteilten Zufallsvariablen 9 Mittelwert- und Varianzvergleiche Varianzvergleiche bei zwei unabhängigen Stichproben 9.3 Varianzvergleiche bei normalverteilten Zufallsvariablen Nächste Anwendung: Vergleich der Varianzen σa 2 und σ2

Mehr

Skript Einführung in SPSS

Skript Einführung in SPSS SPSSinteraktiv Korrelationen & Regression - 1 - Skript Einführung in SPSS Korrelation & Regression Korrelation 1. Bivariate Korrelation 2. Partialkorrelation 3. Semipartialkorrelation Lineare Regression

Mehr

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für

Mehr

Statistik I für Betriebswirte Vorlesung 4

Statistik I für Betriebswirte Vorlesung 4 Statistik I für Betriebswirte Vorlesung 4 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 25. April 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr