2. Korrelation, lineare Regression und multiple Regression
|
|
- Ulrike Bayer
- vor 7 Jahren
- Abrufe
Transkript
1 2., Linear 2., lineare multiple 2., lineare Lineare Lineare 2.7 Partielle 2.7 Partielle 1 / 149
2 2., Linear 2., lineare Lineare Partielle 2 / 149
3 2.1 Beispiel: Arbeitsmotivation 2., Linear Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Frage: besteht ein Zusammenhang zwischen der Variablen Motivation der Variablen Leistungsstreben 2., lineare Lineare 2.7 Partielle Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 3 / 149
4 Daten 2., Linear 2., lineare Lineare x y x y x y Partielle 4 / 149
5 2.2 Der skoeffizient von Pearson Daten (x 1, y 1 ),..., (x n, y n ) Maß für die (lineare) Abhängigkeit zwischen x y: skoeffizient von Pearson n r = r X,Y = s2 x,y i=1 = (x i x )(y i y ) s x,x s n y,y i=1 (x i x ) 2 n i=1 (y i y ) 2 Dabei ist: x = 1 n n i=1 x i : Mittelwert der Daten x i y = 1 n n i=1 y i : Mittelwert der Daten y i 2., Linear 2., lineare Lineare 2.7 Partielle s 2 x,x = 1 n n i=1 (x i x ) 2 : Varianz der Daten x i s 2 y,y = 1 n n i=1 (y i y ) 2 : Varianz der Daten y i s 2 x,y = 1 n n i=1 (x i x )(y i y ) : Kovarianz zwischen den Daten x i, y i 5 / 149
6 2.3 Eigenschaften des skoeffizienten (1) 1 r 1 (2) r = 1 genau dann, wenn ein exakter linearer Zusammenhang y i = b 0 + b 1 x i mit b 1 > 0 besteht (ohne Störgrößen). (3) r = 1 genau dann, wenn ein exakter linearer Zusammenhang y i = b 0 + b 1 x i mit b 1 < 0 besteht (ohne Störgrößen). (4) Der skoeffizient ist invariant bzgl. linearer Transformationen, d.h. } x i = a 0 + a 1 x i i = 1,..., n r ỹ i = c 0 + c 1 y i i = 1,..., n X,Ỹ = r X,Y 2., Linear 2., lineare Lineare 2.7 Partielle (4) Der skoeffizient von Pearson ist ein deskriptives Maß für den linearen Zusammenhang in der Stichprobe (x 1, y 1 ),..., (x n, y n ) 6 / 149
7 2.4 Beispiel: skoeffizient für die Daten aus Beispiel , Linear 2., lineare 2.1 Variablen x: Leistungsstreben y: Motivation skoeffizient von Pearson r = Fragen: Wie genau ist diese Schätzung? Ist die von 0 verschieden (Unkorreliertheit zwischen den Merkmalen Leistungsstreben Motivation)? 2.2 Lineare 2.7 Partielle 7 / 149
8 2.5 Signifikanztest für (x 1, y 1 ),..., (x n, y n ) ist eine Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grgesamtheit ρ bezeichne die des Merkmals X mit dem Merkmal Y einer Population; fünfter Modellparameter neben µ x, µ y, σ 2 x σ 2 y. Ein Test zum Niveau α für die Hypothese die Merkmale sind unkorreliert H 0 : ρ = 0 lehnt die Nullhypothese zu Gunsten der Alternative H 1 : ρ 0 ab, falls n 2r 1 r 2 > t n 2,1 α/2 2., Linear 2., lineare Lineare 2.7 Partielle gilt. 8 / 149
9 2.6(a) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) 2., Linear 2., lineare 2.1 n = 25; r = ; t 23,0.95 = Lineare n 2 r = > r 2 Die Nullhypothese H 0 : ρ = 0 (keine zwischen den Merkmalen) wird zum Niveau 5% verworfen. 2.7 Partielle p-wert: / 149
10 SPSS Output für skoeffizient 2., Linear 2., lineare Lineare Motivation Leistungsstreben nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N Motivation en 1,000,004 **. Die ist auf dem Niveau von 0,01 (2-seitig) signifikant. 25 Leistungsstreben,559 **, ,559 ** 1, Partielle 10 / 149
11 2.7 Konfidenzintervall für ρ: zwischen Merkmal x Merkmal y einer Population (x 1, y 1 ),..., (x n, y n ): Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grgesamtheit Mathematische Statistik: r ist näherungsweise (d.h. bei großem Stichprobenumfang) normalverteilt mit Erwartungswert ρ Varianz γ 2 = Var(r) (1 ρ 2 ) 2 /n (1 α)-konfidenzintervall für den skoeffizienten ( r ˆγz1 α/2, r + ˆγz 1 α/2 ) 2., Linear 2., lineare Lineare 2.7 Partielle Hier bezeichnet ˆγ = (1 r 2 )/ n einen Schätzer für die Standardabweichung von r z 1 α/2 das (1 α/2) Quantil der Standardnormalverteilung (Tabelle, Software) 11 / 149
12 2.6(b) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) 2., Linear 2., lineare Lineare n = 25; r = z 0.95 = , ˆγ = % Konfidenzintervall für den skoeffizient [0.2739, ] 2.7 Partielle 12 / 149
13 2.8 Hinweise zur Interpretation von en Annahme: man hat eine signifikante zwischen den Variablen x y gefen Folgende Interpretationen sind möglich (1) x beeinflusst y kausal (2) y beeinflusst x kausal (3) x y werden von weiteren Variablen kausal beeinflusst (4) x y beeinflussen sich wechselseitig kausal Die zwischen zwei Variablen ist eine notwendige aber keine hinreichende Voraussetzung für einen kausalen Zusammenhang Der skoeffizient gibt keine Information welche der vier Interpretationen zutrifft (in vielen Fällen wird das der Typ (3) sein) en sollten ohne Zusatzinformation nicht interpretiert werden! 2., Linear 2., lineare Lineare 2.7 Partielle 13 / 149
14 2., Linear Beispiel Annahme: man hat eine signifikante zwischen den Merkmalen Ehrlichkeit Häufigkeit des Kirchgangs gefen Folgende Interpretationen sind möglich Die in der Kirche vermittelten Werte haben einen positiven Einfluß auf das Merkmal Ehrlichkeit Ehrliche Menschen fühlen sich durch die in der Kirche vermittelten Inhalte eher angesprochen gehen aus diesem Gr häufiger zur Kirche Die allgemeine familiäre außerfamiliäre Sozialisation beeinflußt beide Merkmale 2., lineare Lineare 2.7 Partielle 14 / 149
15 2., Linear 2., lineare Lineare 2.2 Lineare 2.7 Partielle 15 / 149
16 2.9 Beispiel: (Fortsetzung von Beispiel 2.1) 2., Linear 2., lineare 2.1 Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Kann man y aus x vorhersagen? 2.2 Lineare 2.7 Partielle 16 / 149
17 Streudiagramm für die Daten aus Beispiel , Linear Motivation , lineare Lineare 2.7 Partielle Leistungsstreben 17 / 149
18 2.9 Beispiel: (Fortsetzung von Beispiel 2.1) Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Frage: besteht ein funktionaler Zusammenhang zwischen der Variablen Motivation der Prädiktorvariablen Leistungsstreben (Kann man y aus x vorhersagen?) Genauer: Gesucht ist Funktion f, die aus der Prädiktorvariablen Leistungsstreben (x) eine Vorhersage für die abhängige Variable (y) Motivation liefert: Motivation = f( Leistungsbereitschaft ) 2., Linear 2., lineare Lineare 2.7 Partielle Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 18 / 149
19 Ausgangslage: Von Interesse ist der Zusammenhang zwischen verschiedenen Variablen. Im einfachsten Fall betrachtet man, wie im Beispiel der Arbeitsmotivation, den Zusammenhang zwischen zwei Variablen. Daten: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein kausaler Zusammenhang der Form y = f (x) zwischen der abhängigen Variablen y der Prädiktorvariablen x. Weitere Annahme: Die Funktion f hat eine bestimmte Form. Beispiele: Lineare (der Zusammenhang ist also durch eine Gerade beschreibbar): y = b 0 + b 1x Quadratische (der Zusammenhang ist also durch eine Parabel beschreibbar): y = b 0 + b 1x + b 2x 2 usw. Beachte: Der Zusammenhang ist in der Regel nicht exakt zu beobachten. Mathematisches Modell Y = b 0 + b 1 x + ε 2., Linear 2., lineare Lineare 2.7 Partielle Dabei bezeichnet ε eine zufällige Störgröße. Diese Modell bezeichnet man als Lineare. 19 / 149
20 2.10 Das Modell der linearen Daten (x 1, y 1 ),..., (x n, y n ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen den Variablen Y i x i gilt: Y i = b 0 + b 1 x i + ε i i = 1,..., n ε i bezeichnet hier eine zufällige Störung es wird angenommen, dass die Störungen unabhängig normalverteilt sind mit Erwartungswert 0 Varianz σ 2 > 0 2., Linear 2., lineare Lineare 2.7 Partielle Deutung: es wird ein linearer Zusammenhang zwischen x y postuliert, der noch zufälligen Störungen unterliegt 20 / 149
21 Idee der Schätzung bei (linearer) 2., Linear Daten (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein linearer Zusammenhang Y = b 0 + b 1 x + ε Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Y x am besten beschreibt. Idee: Bestimme die Gerade so, dass die Summe der quadratischen (vertikalen) Abstände zwischen den y-koordinaten der Datenpunkte den entsprechenden Punkten auf der geschätzten Geraden minimal wird Methode der kleinsten Quadrate 2., lineare Lineare 2.7 Partielle 21 / 149
22 y y Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten 2., Linear 2., lineare Lineare y=0.2x y=0.5x Partielle x x 22 / 149
23 Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten: die Lösung durch die Methode der kleinsten Quadrate 2., Linear 2., lineare Lineare y y=0.292x Partielle x 23 / 149
24 2.11 Die Methode der kleinsten Quadrate Bestimme die Gerade so, dass die Summe der quadrierten senkrechten Abstände zwischen Gerade Daten minimal wird - Datum an der Stelle x i : y i - Wert der Geraden an der Stelle x i : b 0 + b 1 x i - Differenz: y i (b 0 + b 1 x i ) Minimiere h(b 0, b 1 ) = n ( i=1 yi (b 0 + b 1 x i ) ) 2 bzgl. der Wahl der Parameter b 0 b 1. Lösung dieses Extremwertproblems liefert Schätzer für Achsenabschnitt Steigung der Geraden: 2., Linear 2., lineare Lineare 2.7 Partielle ˆb 1 = n i=1 (x i x )(y i y ) n i=1 (x i x ) 2, ˆb 0 = y ˆb 1 x - x = 1 n n i=1 x i: Mittelwert der Prädiktorvariablen - y = 1 n n i=1 y i: Mittelwert der abhängigen Variablen 24 / 149
25 Beispiel Arbeitsmotivation: Streudiagramm sgerade für die Daten aus Beispiel 2.1 Motivation , Linear 2., lineare Lineare Leistungsstreben Schätzer: ˆb 0 = 13.82, ˆb 1 = 0.29 Fragen: R-Quadrat linear = 0, Partielle - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß des Leistungsstrebens auf die Motivation H 0 : b 1 = 0 - Wie gut beschreibt das lineare smodell die Situation? 25 / 149
26 Die Genauigkeit der Schätzer für die Parameter Beachte: vor der Datenerhebung sind ˆb 0 ˆb 1 zufällig Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer für die Varianzen von ˆb 0 ˆb 1 Schätzer für die Varianz von ˆb 0 : ŝ 2 b 0 = S 2 y x n Schätzer für die Varianz von ˆb 1 : ŝ 2 b 1 = S 2 y x n Dabei bezeichnet S 2 y x = 1 n 2 n i=1 x 2 i n i=1 (x i x ) 2 1 n n (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 1 n i=1 (x i x ) 2 2., Linear 2., lineare Lineare 2.7 Partielle die Residualvarianz (Schätzer für die Varianz der Störgrößen) Je größer der Stichprobenumfang n, desto genauer sind die Schätzungen! 26 / 149
27 Fortsetzung von Beispiel 2.1: Schätzer für die Daten der Arbeitsmotivation Schätzer für die Parameter ˆb 0 = ˆb 1 = S 2 y x = Schätzer für die Varianz von ˆb 0 ˆb 1 ŝ 2 b 0 = ŝ 2 b 1 = , Linear 2., lineare Lineare 2.7 Partielle Standdardafehler von ˆb 0 ˆb 1 ŝ b0 = = ŝ b1 = = / 149
28 SPSS Output: Schätzer Standardabweichungen bei linearer in Beispiel , Linear 2., lineare Lineare Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Koeffizienten a Standardisierte Nicht standardisierte Koeffizienten Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090,559 3,235, Partielle 28 / 149
29 2.12 Konfidenzintervalle bei linearer Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- Unabhängigkeitsannahme für ε 1,..., ε n Bestimmung der Schätzer ŝ 2 b 0 ŝ 2 b 1 für die Varianzen von ˆb 0 ˆb 1. Damit ist dann = (ˆb 0 t n 2,1 α/2 ŝ b0, ˆb 0 + t n 2,1 α/2 ŝ b0 ) ein (1 α)-konfidenzintervall für b 0 2., Linear 2., lineare Lineare 2.7 Partielle = (ˆb 1 t n 2,1 α/2 ŝ b1, ˆb 1 + t n 2,1 α/2 ŝ b1 ) ein (1 α)-konfidenzintervall für b 1. Hier ist t n 2,1 α/2 das (1 α/2)-quantil der t-verteilung mit n 2 Freiheitsgraden (tabelliert oder mit Software verfügbar) 29 / 149
30 Beispiel 2.13: Konfidenzbereiche im Beispiel 2.1 (Arbeitsmotivation) 2., Linear 2., lineare 2.1 n = 25, t 23,0975 = Für das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt sich als 95% Konfidenzintervall für b 0 : [9.420, ] b 1 : [0.105, 0.479] Frage: Besteht ein (signifikanter) Einfluß der Prädikorvariablen x auf die abhängige Variable Y? Mathematische Formulierung: H 0 : b 1 = Lineare 2.7 Partielle 30 / 149
31 SPSS Output: Konfidenzintervalle bei linearer Rgeression in Beispiel , Linear 2., lineare Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090 Koeffizienten a,559 3,235,004 95%-Konfidenzintervall für B Untergrenze Obergrenze 9,420 18,212,105, Lineare 2.7 Partielle 31 / 149
32 2.14 F -test für die Hypothese H 0 : b 1 = 0 Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- Unabhängigkeitsannahme für ε 1,..., ε n Hypothesen H 0 : b 1 = 0, H 1 : b 1 0 Die Nullhypothese H 0 : b 1 = 0 wird zu Gunsten der Alternative H 1 : b 1 0 verworfen, falls F n = S 2 reg S 2 y x = n 2 n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 n i=1 (y i (ˆb 0 + ˆb 1 x i )) 2 > F 1;n 2,1 α 2., Linear 2., lineare Lineare 2.7 Partielle gilt F 1;n 2,1 α bezeichnet das (1 α)-quantil der F -Verteilung mit (1, n 2) Freiheitsgraden 32 / 149
33 Motivation des F -Tests: Zerlegung der Varianz 2., Linear n (y i y ) 2 = n (y i (ˆb 0 + ˆbx i )) 2 + n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Gesamtvarianz Bezeichnungen: i=1 } {{ } Residualvarianz S 2 reg = 1 1 n i=1 } {{ } Varianz der i=1 (y (ˆb 0 + ˆb 1 x i )) 2 heißt Varianz der (diese hat 1 Freiheitsgrad) Sy x 2 = 1 n n 2 (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 ist die Residualvarianz (diese hat n 2 Freiheitsgrade). Andere Interpretationen: - Schätzung für die Varianz der Größen ε i - durch das lineare smodell nicht erklärbare Varianz 2., lineare Lineare 2.7 Partielle 33 / 149
34 Motivation des F -Tests: Zerlegung der Varianz 2., Linear n (y i y ) 2 = i=1 } {{ } Gesamtvarianz Beachte: n n (y i (ˆb 0 + ˆbx i )) 2 + (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Residualvarianz = (n 2) S 2 y x + S 2 reg i=1 } {{ } Varianz der Bei dem F -Test für die Hypothese H 0 : b 1 = 0 bildet man den Quotienten aus der Varianz der der Residualvarianz Man untersucht also das Verhältnis zwischen erklärbarer nicht erklärbarer Varianz. 2., lineare Lineare 2.7 Partielle 34 / 149
35 2.15 Varianzanalyse (ANOVA; analysis of variance) 2., Linear Art der Freiheits- Quadrat- F -Quotient Abweichung grade (df ) summe schätzer 2., lineare Lineare 1 n i=1 (y ŷ i ) 2 F n = S 2 reg /S 2 y x Fehler n 2 Total n 1 n i=1 (y i ŷ i ) 2 n i=1 (y i y ) Partielle Bezeichnung: ŷ i = ˆb 0 + ˆb 1 x i Vorhersage an der Stelle x i 35 / 149
36 SPSS Output: F-Test bei linearer in Beispiel , Linear 2., lineare ANOVA b Lineare Modell Quadratsumme df 1 Residuen Gesamt 238, , , a. Einflußvariablen : (Konstante), Leistungsstreben b. Abhängige Variable: Motivation Mittel der Quadrate 238,015 22,737 F 10,468 Signifikanz,004 a Beachte: F 25 = , F 1,23,0.95 = Da F 25 = > wird die Nullhypothese H 0 : b 1 = 0 zu Gunsten der Alternative H 1 : b 1 0 zum Niveau 5% verworfen (p-wert: 0.004) 2.7 Partielle 36 / 149
37 Modellgüte: wie geeignet ist das Modell für die Beschreibung der Daten Maß für Modellanpassung: Residualvarianz (Summe der quadrierte Abstände von der sgerade): S 2 y x = 1 n 2 n i=1 ( ) 2 y i (ˆb 0 + ˆb 1 x i ) Beachte: Sy x 2 ist ein Schätzer für die Varianz der Meßfehler Je kleiner Sy x 2, desto besser ist das (lineare) smodell Streuung der Daten ohne die Information, dass ein lineares Modell vorliegt: n (y i y ) 2 i=1 Man untersucht welchen Anteil der Streuung n i=1 (y i y ) 2 man durch das lineare Modell erklären kann 2., Linear 2., lineare Lineare 2.7 Partielle 37 / 149
38 Varianzzerlegung: ein extremes Beispiel 2., Linear 40 2., lineare 2.1 Abhängige Variable y Lineare Beachte: Unabhängige Variable Die Grafik zeigt eine extreme Situation. Die Streuung der Daten ist durch das lineare smodell zu 100% erklärbar! n i=1 (y i y ) 2 = n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 Residualvarianz (durch das lineare smodell nicht erklärbare Varianz) = 0 x 2.7 Partielle 38 / 149
39 2.16 Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1): 2., Linear 2., lineare Lineare 25 i=1 25 i=1 R 2 = (y i y ) 2 = (y (ˆb 0 + ˆb 1 x i )) 2 = i=1 (y (ˆb 0 + ˆb 1 x i )) 2 25 i=1 (y i y ) 2 = Partielle d.h. 31,3 % der Varianz der Variablen Motivation können durch die Prädiktorvariable Leistungsstreben erklärt werden. 39 / 149
40 2.17 Modellgüte: das Bestimmtheitsmaß Die Größe R 2 = 1 n (y i (ˆb 0 + ˆb 1 x i )) 2 i=1 = n (y i y ) 2 i=1 n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 n (y y i ) 2 i=1 ist ein Maß für die Güte der heißt Bestimmtheitsmaß. Beachte: man kann zeigen, dass R 2 genau das Quadrat der ist. 2., Linear 2., lineare Lineare 2.7 Partielle Je besser das Modell ist, desto kleiner ist die Residualvarianz, bzw. desto größer R 2! Das Bestimmtheitsmaß R 2 liegt immer zwischen / 149
41 Zusammenhang zwischen Bestimmtheitsmaß F -Test Ist F n die Statistik für den F -Test aus 2.14 R 2 das Bestimmtheitsmaß, dann gilt: R 2 = 1 n 2 F n n 2 F n In anderen Worten: die Statistik F n des F -Test aus 2.5 kann aus dem Bestimmtheitsmaß berechnet werden ( umgekehrt) Im Beispiel des Zusammenhangs zwischen Motivation Leistungsstreben ist 2., Linear 2., lineare Lineare 2.7 Partielle F n = = R 2 = = Ca. 31.3% der Variation der Variablen Motivation können durch die Variable Leistungsstreben erklärt werden 41 / 149
42 Vorhersagen: es gibt zwei unterschiedliche 2., Linear 2.18 Vorhersage für den Wert der Geraden an einer Stelle x Schätzung für den Wert der Geraden y(x) = b 0 + b 1 x an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x (1 α)-konfidenzintervall für y(x) wobei (ŷ(x) t n 2;α/2 ŝ y(x), ŷ(x) + t n 2;α/2 ŝ y(x) ) ŝ 2 y(x) = S 2 y x ( 1 n + (x x ) 2 n i=1 (x i x ) 2 ) 2., lineare Lineare 2.7 Partielle den Schätzer für die Varianz von Ŷ (x) bezeichnet 42 / 149
43 Vorhersagen: es gibt zwei unterschiedliche 2., Linear 2.19 Vorhersage für eine neue Beobachtung an einer Stelle x Schätzer für eine neue Beobachtung Ỹ (x) = b 0 + b 1 x + ε an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x (1 α)-konfidenzintervall für y(x) (ŷ(x) t n 2;α/2 s y(x), ŷ(x) + t n 2;α/2 s y(x) ) 2., lineare Lineare wobei s 2 y(x) = S 2 y x (1 + 1 n + (x x ) 2 n i=1 (x i x ) 2 ) 2.7 Partielle den Schätzer für die Varianz von ŷ(x) + ε bezeichnet Beachte: Diese Varianz wird bei wachsendem Stichprobenumfang nicht beliebig klein! 43 / 149
44 2.20 Beispiel (Fortsetzung von Beispiel 2.1) 2., Linear (1) Gesucht ist ein 90% Konfidenzintervall für den Wert der Geraden an der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ 2 y(x) = 1.116, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für den Wert der Geraden an der Stelle 16 ist gegeben durch [16.677, ] (2) Gesucht ist ein 90% Konfidenzintervall für eine neue Beobachtung der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ 2 ỹ(x) = 23.85, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für eine neue Beobachtung an der Stelle 16 ist gegeben durch 2., lineare Lineare 2.7 Partielle [10.118, ] 44 / 149
45 SPSS Output: Vorhersagen bei linearer in Beispiel 2.1 (schwierig) 2., Linear 2., lineare Lineare 2.7 Partielle 45 / 149
46 SPSS Output: Konfidenzintervalle für Vorhersagen bei linearer in Beispiel , Linear 2., lineare Motivation Lineare 2.7 Partielle Leistungsstreben 46 / 149
47 2.21 Residuenanalyse Unter der Modellannahme des linearen smodells gilt: die Größen ε i = Y i b 0 b 1 x i sind unabhängig normalverteilt mit Erwartungswert 0 Varianz σ 2 > 0. Das bedeutet, dass diese Eigenschaften auch näherungsweise für die Residuen ˆε i = y i ˆb 0 ˆb 1 x i erfüllt sein sollte, falls die Modellannahme zutrifft. Residuenanalyse ist ein deskriptives Verfahren für die Überprüfung der Annahmen an ε 1,..., ε n mit 4 Teilschritten (oft werden auch nicht alle gemacht): A: Das Streudiagramm der Daten mit der slinie B: Ein Streudiagramm der Residuen gegen die vorhergesagten Werte C: Normalverteilungs-QQ-Plot der Residuen D: Histogramm der Residuen mit angepasster Normalverteilungsdichte 2., Linear 2., lineare Lineare 2.7 Partielle 47 / 149
48 Residuenanalyse bei erfüllten Voraussetzungen 2., Linear Abhängige Variable A Residuum B , lineare Lineare Empirische Quantile Unabhängige Variable C f(residuum) Vorhergesagter Wert D 2.7 Partielle Theoretische Quantile der Standardnormalvert Residuum 48 / 149
49 Residuenanalyse bei Abweichungen von der Normalverteilung (Ausreißer) Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2., Linear 2., lineare Lineare 2.7 Partielle 49 / 149
50 Residuenanalyse bei Stratifizierung Beachte: verschiedene Untergruppen (Strata) können ebenfalls zu Abweichungen von den Modellannahmen führen. Für die Strata können dann unterschiedliche sgleichungen gelten. 2., Linear 2., lineare 2.1 Abhängige Variable A Residuum B 2.2 Lineare Unabhängige Variable C Vorhergesagter Wert D Partielle Empirische Quantile f(residuum) Theoretische Quantile der Standardnormalvert Residuum 50 / 149
51 Residuenanalyse bei falscher Modellannahme 2., Linear Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2., lineare Lineare 2.7 Partielle Statt des linearen Modells wäre ein Polynom 3. Grades die bessere Annahme für die Beschreibung des funktionalen Zusammenhangs! 51 / 149
52 Residuenanalyse bei ungleichen Varianzen (Heteroskedastizität) Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2., Linear 2., lineare Lineare 2.7 Partielle 52 / 149
53 SPSS Output: Residuenanalyse in Beispiel , Linear 35 2., lineare 2.1 Motivation R-Quadrat linear = 0, Lineare 2.7 Partielle Leistungsstreben Streudiagramm geschätzte sgerade im Beispiel der Arbeitsmotivation 53 / 149
54 SPSS Output: Residuenanalyse in Beispiel , Linear 3, , lineare 2.1 Standardized Residual 2, ,00000, , Lineare 2.7 Partielle -2, , ,00000, , ,00000 Standardized Predicted Value Streudiagramm der Residuen gegen die vorhergesagten Werte im Beispiel der Arbeitsmotivation 54 / 149
55 SPSS Output für Residuenanalyse 2., Linear 2 Q-Q-Diagramm von Normal von Standardized Residual 2., lineare Lineare Erwarteter Wert von Normal Partielle Beobachteter Wert QQ-Plot im Beispiel der Arbeitsmotivation 55 / 149
56 lineare 2., Linear 2., lineare Es besteht ein enger Zusammenhang zwischen linearer Ist ˆb 1 die Schätzung im linearen smodell r der skoeffizient von Pearson, dann gilt: n i=1 r = (x i x ) 2 n i=1 (y i y ˆb ) Lineare 2.7 Partielle Ist R 2 das Bestimmtheitsmaß r der skoeffizient von Pearson, dann gilt: r 2 = R 2 56 / 149
57 2., Linear 2., lineare Lineare 2.7 Partielle 57 / 149
58 2.22 Beispiel: Arbeitsmotivation mit mehreren Prädiktoren y: Motivation (Einschätzung der Arbeitsmotivation durch Experten) Prädiktoren: Eigenschaften x1: Ehrgeiz (Fragebogen) x2: Kreativität (Fragebogen) x3: Leistungsstreben (Fragebogen) Prädiktoren: Rahmenbedingungen x4: Hierarchie (Position in der Hierarchie des Unternehmens) x5: Lohn (Bruttolohn pro Monat) x6: Arbeitsbedingungen (Zeitsouveränität, Kommunikationsstruktur usw.) 2., Linear 2., lineare Lineare 2.7 Partielle Prädiktoren: Inhalte der Tätigkeit x7: Lernponential (Lernpotential der Tätigkeit) x8: Vielfalt (Vielfalt an Teiltätigkeiten) x9: Anspruch (Komplexität der Tätigkeit) 58 / 149
59 Daten 2., Linear i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x , lineare Lineare 2.7 Partielle 59 / 149
60 Daten 2., Linear i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x , lineare Lineare 2.7 Partielle 60 / 149
61 2.23 Das Modell der multiplen linearen Daten (x 1, y 1 ),..., (x n, y n ) Es gibt k unabhängige Variablen: x i = (x 1i,..., x ki ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen der Variablen Y i dem Vektor x i gilt (im Beispiel ist k = 9): Y i = b 0 + b 1 x 1i + b 2 x 2i b k x ki + ε i k = b 0 + b j x ji + ε i. j=1 ε i bezeichnet hier eine zufällige Störung es wird angenommen, dass die Störungen ε 1,..., ε n unabhängig normalverteilt sind mit Erwartungswert 0 Varianz σ 2 > 0 Deutung: es wird ein linearer Zusammenhang zwischen x Y postuliert, der noch zufälligen Störungen unterliegt 2., Linear 2., lineare Lineare 2.7 Partielle 61 / 149
62 2.24 Schätzung bei multipler linearer Methode der kleinsten Quadrate: Minimiere n (y i b 0 b 1 x 1i b k x ki ) 2 i=1 bzgl. der Wahl von b 0,..., b k Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer ˆb 0, ˆb 1,..., ˆb k für die Parameter b 0,..., b k (Formeln sind kompliziert) Schätzer für die Varianz der Meßfehler 2., Linear 2., lineare Lineare 2.7 Partielle S 2 y x = 1 n k 1 n (y i ˆb 0 ˆb 1 x 1i ˆb k x ki ) 2 i=1 62 / 149
63 Streudiagramm bei multipler linearer (k = 2) sfläche: ŷ(x) = x x 2. 2., Linear 2., lineare Lineare Y Partielle X 1 X 2 63 / 149
64 Fortsetzung von Beispiel 2.22: Schätzer im multiplen linearen smodell Ergebnisse für die Schätzer im multiplen linearen smodel ˆb 0 = ˆb1 = ˆb 2 = ˆb 3 = ˆb 4 = ˆb 5 = ˆb 6 = ˆb7 = ˆb 8 = ˆb9 = Fragen: - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß der unabhängigen Merkmale auf die Motivation H 0 : b 1 = 0 H 0 : b 2 = 0 2., Linear 2., lineare Lineare 2.7 Partielle. - Wie gut beschreibt das multiple lineare smodell die Situation? 64 / 149
65 Genauigkeit der Schätzung bei multipler linearer 2., Linear 2., lineare 2.1 Schätzer ŝ b0,..., ŝ bk für die Standardfehler von ˆb 0,..., ˆb k sind verfügbar (Allgemeines lineares Modell Formeln kompliziert) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto genauer die Schätzungen Damit erhält man Konfidenzintervalle für b 0,..., b k, z.b. (ˆb 0 t n k 1,1 α/2 ŝ b0, ˆb 0 + t n k 1,1 α/2 ŝ b0 ) 2.2 Lineare 2.7 Partielle ist (1 α)-konfidenzintervall für b 0 65 / 149
66 Fortsetzung von Beispiel 2.22: Schätzer für den Standardfehler der Schätzer im multiplen linearen smodell Ergebnisse für den Standardfehler der Schätzer im multiplen linearen smodell Wegen t 15,0.975 = ist ŝ b0 = ŝ b1 = ŝ b2 = ŝ b3 = ŝ b4 = ŝ b5 = ŝ b6 = ŝ b7 = ŝ b8 = ŝ b9 = , Linear 2., lineare Lineare 2.7 Partielle [ 0.089, 0.188] ein 95%-Konfidenzintervall für den Parameter b 3. Man beachte: ) n = 25; k = 9 n k 1 = / 149
67 2.25 Konfidenzintervalle für multiple lineare Modellannahme: multiple lineare Y i = b 0 + k b j x ji + ε i (i = 1,..., n) j=1 Rechterfertigung der Normalverteilungs- Unabhängigkeitsannahme Schätzer ŝ bj für den Standardfehler von ˆb j = (ˆb j t n k 1,1 α/2 ŝ bj, ˆb j + t n k 1,1 α/2 ŝ bj ) ist ein (1 α) -Konfidenzintervall für b j (j = 0,... k) t n k 1,1 α/2 ; (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden (Tabelle oder Software) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto kleiner die Konfidenzintervalle 2., Linear 2., lineare Lineare 2.7 Partielle 67 / 149
68 2.26 Beispiel: Konfidenzintervalle für die Parameter in Beispiel 2.22 (Arbeitsmotivation ) ˆb j Merkmal Schätzung ŝ bj Konfidenzintervall ˆb [ , 6.926] ˆb 1 Ehrgeiz [0.020, 0.365] ˆb 2 Kreativität [0.049, 0.258] ˆb 3 Leistungsstreben [-0.089, 0.188] ˆb 4 Hierarchie [-0.069, 0.561] ˆb 5 Lohn [-0.004, 0.002] ˆb 6 Arbeitsbdg [-0.147, 0.085] ˆb 7 Lernpotential [-0.044, 0.373] ˆb 8 Vielfalt [0.095, 0.316] ˆb 9 Anspruch [-0.070, 0.177] 2., Linear 2., lineare Lineare 2.7 Partielle 68 / 149
69 SPSS Output: Schätzer, Standardabweichung Konfidenzintervalle im Beispiel 2.22 (Arbeitsmotivation mit mehreren Prädiktoren) 2., Linear 2., lineare Lineare Koeffizienten a Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070 Obergrenze 6,926,365,258,188,561,002,085,373,316, Partielle 69 / 149
70 2.27 Vorhersage der multiplen linearen Modellannahme: multiple lineare Y i = b 0 + k j=1 b jx ji + ε i (i = 1,..., n) Rechterfertigung der Normalverteilungs- Unabhängigkeitsannahme Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) ŷ(x) = ˆb 0 + k j=1 ˆb j x j In Beispiel 2.22 ergibt sich z.b. als Vorhersage der multiplen linearen an der Stelle 2., Linear 2., lineare Lineare 2.7 Partielle x 1 = 21, x 2 = 30, x 3 = 15, x 4 = 11,, x 5 = 2900, x 6 = 41, x 7 = 25, x 8 = 55, x 9 = 54 der Wert ŷ(x) = / 149
71 2., Linear Vorhersage der multiplen linearen 2., lineare Wie in Abschnitt gibt es zwei Vorher- Beachte: sagen: Lineare Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Vorhersage für den Wert einer neuen Beobachtung an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Für beide Vorhesagen, kann man den Standardfehler bestimmen (Formeln kompliziert) Konfidenzbereiche angeben (vgl. Abschnitt für den Fall k = 1 ) 2.7 Partielle 71 / 149
72 SPSS Output: Vorhersage bei der multiplen linearen (schwierig) 2., Linear 2., lineare Lineare 2.7 Partielle Beispiel: Schätzung für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): Schätzung für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): / 149
73 SPSS Output: Konfidenzintervalle für Vorhersagen bei mulitpler linearer 2., Linear 2., lineare Lineare 2.7 Partielle Konfidenzintervall für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [12.399, ] Konfidenzintervall für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [9.870, ] 73 / 149
74 2.28 Bestimmtheitsmaß bei multipler linearer Modellvorhersage: ŷ i = ˆb 0 + ˆb 1 x 1i +... ˆb k x ki = ˆb 0 + k ˆb j x ji j=1 Residuum ˆε i = y i ŷ i = y i (ˆb 0 + k j=1 ˆb j x ji ) Beachte: Die Werte der abhängigen Variable zerfallen in Modellvorhersage (ŷ) Residuum (ˆε), d.h. y i = ŷ i + ˆε i i = 1,..., n Die Güte der Modellanpassung wird (wieder) durch das Bestimmtheitsmaß R 2 beschrieben werden (Anteil erklärter Varianz) 2., Linear 2., lineare Lineare 2.7 Partielle R 2 = 1 n i=1 (y i ŷ i ) 2 n i=1 (y i y ) 2 = n i=1 (y ŷ i ) 2 n i=1 (y i y ) / 149
75 Beispiel: das Bestimmtheitsmaß für das Beispiel 2.22 (Arbeitsmotivation) 2., Linear 2., lineare 2.1 In Beispiel 2.22 ist n = 25; k = 9 n i=1 (y i ŷ i ) 2 = n i=1 (y i y ) 2 = R 2 = = Lineare 2.7 Partielle D.h % der Varianz der Variablen Motivation werden durch das multiple lineare smodell erklärt 75 / 149
76 2.29 Statistische Tests bei der multiplen linearer. Zwei wichtige Fragestellungen: Frage A: Hat mindestens eine der Prädiktorvariablen x 1,..., x k einen Einfluß auf die abhängige Variable y (Gesamttest auf Signifikanz). Mathematische Formulierung der Hypothese: Nullhypothese: Alternative: H 0 : b j = 0 für alle j {1, 2,..., k} H 1 : b j 0 für mindestens ein j {1, 2,..., k} 2., Linear 2., lineare Lineare 2.7 Partielle Frage B: Hat die Prädiktorvariable x j (z.b. Ehrgeiz) einen Einfluß auf die abhängige Variable y. Mathematische Formulierung der Hypothese: Nullhypothese: H 0 : b j = 0 Alternative: H 1 : b j 0 76 / 149
77 2.29(A) Gesamttest auf Signifikanz Nullhypothese: H 0 : b j = 0 für alle j {1, 2,..., k} Alternative: H 1 : b j 0 für mindestens ein j {1, 2,..., k} (1) Bestimme S 2 reg = 1 k n (y ŷ i ) 2 i=1 die Varianz der, S 2 y x = 1 n k 1 n (y i ŷ i ) 2 i=1 2., Linear 2., lineare Lineare 2.7 Partielle die Residualvarianz Beachte: man geht genau wie im linearen smodell vor! 77 / 149
78 2., Linear 2.29(A) Gesamttest auf Signifikanz (2) H 0 wird zu Gunsten der Alternative H 1 verworfen, falls F n = S 2 reg S 2 y x > F k;n k 1;1 α gilt (oder der entsprechende p-wert kleiner als α ist). Dabei bezeichnet F k;n k 1;1 α das (1 α)-quantil der F -Verteilung mit (k, n k 1) Freiheitsgraden, Beachte: Wird H 0 durch diesen Test verworfen, dann bleibt aber noch unklar, welches der Merkmale signifikant ist 2., lineare Lineare 2.7 Partielle 78 / 149
79 2.29(B) Tests für die Signifikanz einzelner Merkmale 2., Linear Nullhypothese: Alternative: H 0 : b j = 0 H 1 : b j 0 Die Nullhypothese H 0 wird zu Gunsten der Alternative H 1 verworfen, falls ˆb j T n = > t n k 1;1 α/2 ŝ bj gilt (oder der entsprechende p-wert kleiner als α ist). Dabei ist tn k 1;1 α/2 das (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden ŝbj der Standardfehler von ˆb j Beachte: Werden mehrere Hypothesen gestestet, ist das Niveau entsprechend anzupassen (vgl. Abschntt 1.18). 2., lineare Lineare 2.7 Partielle 79 / 149
80 2., Linear 2.30(A) Test auf Signifikanz im multiplen smodel in Beispiel 2.22 Frage: Hat eine der 9 Prädiktorvariablen einen Einfluß auf die abhängige Variable? Mathematische Hypothesen: H 0 : b j = 0 für alle j = 1,..., 9 H 1 : b j 0 für mindestens ein j {1,..., 9} F n = , F 9,15,0.95 = , lineare Lineare 2.7 Partielle Da F n > > ist, wird die Nullhypothese zum Niveau 5% verworfen. 80 / 149
81 2.30(B) Beispiel: Test auf Signifikanz eines Merkmals im multiplen linearen smodell in Beispiel 2.22 Frage: Hat die Prädiktorvariable Ehrgeiz (x 1 ) einen Einfluß auf die abhängige Variable Motivation (Signifikanz des skoeffizienten b 1 )? Mathematische Hypothesen: H 0 : b 1 = 0; H 1 : b 1 0 ˆb1 = 0.193, ŝ b1 = 0.081, t 25 10,0.975 = , Linear 2., lineare Lineare 2.7 Partielle Da T 25 = T 25 = > 2.13 wird die Nullhypothese H 0 zu Gunsten der Alternative H 1 : b 1 0 verworfen (zum Niveau 5%) 81 / 149
82 SPSS Output: Der Test 2.29(A) für das Beispiel 2.22 (Arbeitsmotivation) 2., Linear 2., lineare Lineare Modell 1 Residuen Gesamt Quadratsumme 707,309 53, ,960 df ANOVA b Mittel der Quadrate a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Abhängige Variable: Y 78,590 3,577 F 21,972 Signifikanz,000 a 2.7 Partielle 82 / 149
83 SPSS Output: Der Test 2.29(B) für das Beispiel 2.22 (Arbeitsmotivation) 2., Linear 2., lineare 2.1 Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Koeffizienten a Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070 Obergrenze 6,926,365,258,188,561,002,085,373,316, Lineare 2.7 Partielle 83 / 149
84 2., Linear 2., lineare Lineare 2.7 Partielle 84 / 149
85 2.31 Das Problem der Multikollinearität 2., Linear Beispiel: Betrachte in dem Beispiel der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 Prädiktorvariablen Y i = b 0 + b 1 x 1i + b 2 x 2i + b 3 x 3i + ε i i = 1,..., 25 (Y : Motivation, x 1 : Ehrgeiz x 2 : Kreativität, x 3 : Leistungsstreben) Schätzer für die Modellparameter i ˆb i ŝ bi p-wert Bestimmtheitsmaß R 2 = Beachte: nur für den Koeffizient b 3 (Leistungsstreben) kann keine Signifikanz (zum Niveau 5%) nachgewiesen werden 2., lineare Lineare 2.7 Partielle 85 / 149
86 smatrix für die Prädiktoren 2., Linear 2., lineare 2.1 Motivation Ehrgeiz Kreativität Leistungsstreben Motivation 1 Ehrgeiz.71 1 Kreativität Leistungsstreben.56.82* Beachte: Der Test 2.5 liefert eine signifikante (zum Niveau 1%) zwischen den Variablen Leistungsstreben Ehrgeiz (SPSS) 2.2 Lineare 2.7 Partielle 86 / 149
87 2., Linear Beachte: Es gibt eine signifikante zwischen den Variablen Leistungsstreben Ehrgeiz Beide Variablen tragen weitgehend identische Information Im Beispiel ist die Variable Leistungsstreben redant wird nicht für die Vorhersage der abhängigen Variablen Motivation benötigt Die Variable Ehrgeiz ist stärker mit der Variablen Motivation korreliert als die Variable Leistungsstreben (aus diesem Gr ist der entsprechende Koeffizient auch signifikant) 2., lineare Lineare 2.7 Partielle Für die Bestimmtheitsmaße in den multiplen linearen smodellen mit drei bzw. zwei Variablen erhält man R 2 = für Modell mit den Prädiktoren x 1, x 2, x 3 R 2 = für Modell mit den Prädiktoren x 1, x 2 87 / 149
88 SPSS Output: Multikollinearität; Schätzer im Modell mit 3 Parametern 2., Linear 2., lineare Lineare Modell B 1 (Konstante) 5,539 x1,393 x2,225 x3,001 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standard fehler 2,618,135,089,123 Standardisierte Koeffizienten Beta Koeffizienten a,688,343,002 T 2,116 2,913 2,528,008 Signifi kanz,046,008,020,994 95%-Konfidenzintervall für B Untergrenze Obergrenze,095 10,983,112,674,040,410 -,255, Partielle 88 / 149
89 SPSS Output: Multilkollinearität; smatrix Y x1 x2 x3 nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N Y 1,000,000 25,379,061, x1,708 **,000,053,802,000 en 25 x2 1,000, x3,559 ** ,708 ** 1,000,053,818 ** 25,802 25, ,016, ,559 **,818 ** -,016 1,000 **. Die ist auf dem Niveau von 0,01 (2-seitig) signifikant.,379,061, , Linear 2., lineare Lineare 2.7 Partielle 89 / 149
90 2.43 Das Problem der 2., Linear Beispiel: Betrachte in dem Beispiel 2.22 der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 anderen Prädiktorvariablen Y i = b 0 + b 4 x 4i + b 5 x 5i + b 6 x 6i + ε i i = 1,..., 25 (Y : Motivation, x 4 : Hierarchie, x 5 : Lohn, x 6 : Arbeitsbedingungen) Schätzungen für die Modellparameter i ˆbi ŝ bi p-wert , lineare Lineare 2.7 Partielle 90 / 149
91 smatrix für die Variablen Motivation, Hierarchie, Lohn Arbeitsbedingungen Motivation Hierarchie Lohn Arbeitsbedingungen Motivation 1 Hierarchie.42* 1 Lohn ** 1 Arbeitsbedingungen Beachte: Zwischen der Prädiktorvariablen Lohn (x 5 ) der abhängigen Variablen Motivation liegt keine signifikante vor Dennoch bekommt diese Variable im multiplen smodell ein signifikantes Gewicht; d.h. die Hypothese H 0 : b 5 = 0 wird zum Niveau 5% verworfen (p-wert: 0.016). Man spricht von einem Suppressionseffekt. 2., Linear 2., lineare Lineare 2.7 Partielle 91 / 149
92 2., Linear Gr für diesen scheinbaren Widerspruch: en sind bivariate Maße für (zwischen zwei Merkmalen). Das Modell der multiplen untersucht aber den Zusammenhang zwischen der Variablen Motivation dem (3-dimensionalen) Prädiktor (x 4, x 5, x 6 ): Motivation ist stark mit der Variablen Hierarchie korreliert Lohn ist ebenfalls stark mit der Variablen Hierarchie korreliert Prädiktorvariable Lohn wird in der multiplen linearen benötigt, um unerwünschte Varianzanteile der Variablen Hierarchie zu kompensieren 2., lineare Lineare 2.7 Partielle Bestimmtheitsmaße für verschiedene Modelle R 2 = für Modell mit x 4, x 5, x 6 R 2 = für Modell mit x 4, x 6 92 / 149
93 SPSS Output: ; Schätzer im Modell mit 4 Parametern 2., Linear 2., lineare Modell 1 (Konstante) x4,884 x5 -,007 x6,125 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten Standard B fehler Beta T Signifikanz 25,076 8,398 2,986,007,257,003,120 Koeffizienten a,843 -,632,179 3,444-2,612 1,045,002,016,308 95%-Konfidenzintervall für B Untergrenze Obergrenze 7,612 42,539,350 1,419 -,013 -,001 -,124, Lineare 2.7 Partielle 93 / 149
94 SPSS Output: ; Schätzung der smatrix Y x4 x5 x6 nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N Y 1,000, ,038,856 25,354, x4,419 *,037 25,717 **,000,163,435 en x5 1, ,060, x ,419 * 1,000,717 **,163 *. Die ist auf dem Niveau von 0,05 (2-seitig) signifikant. **. Die ist auf dem Niveau von 0,01 (2-seitig) signifikant. -,038,856,000 25,354,082, ,060, , , Linear 2., lineare Lineare 2.7 Partielle 94 / 149
95 2., Linear 2., lineare Lineare 2.7 Partielle 95 / 149
96 2.33 Merkmalselektionsverfahren Ziel: mit möglichst wenig Prädiktorvariablen eine gute Vorhersage der abhängigen Variablen zu erzielen. Prinzip: untersuche wie sich durch Weglassen einzelner Variablen das Bestimmtheitsmaß R 2 verändert. Typische Selektionsprozeduren: (A) Rückwärtsverfahren (B) Vorwärtsverfahren (C) Schrittweise Verfahren 2., Linear 2., lineare Lineare 2.7 Partielle Beachte: es handelt sich um explorative Verfahren, die hauptsächlich der Modellbildung dienen (Interpretation nicht einfach). 96 / 149
97 2.34 Das Rückwärtsverfahren 2., Linear 2., lineare Lineare Betrachte das vollständige Modell (mit allen Prädiktorvariablen) berechne das Bestimmtheitsmaß R 2 Entferne sukzessive diejenigen Variablen, die zu dem geringsten Rückgang des Bestimmtheitsmaßes führen würden Das Verfahren wird abgebrochen, falls sich bei dem Entfernen einer Variablen das Bestimmtheitsmaß signifikant verkleinert 2.7 Partielle 97 / 149
98 2.35 Beispiel: Variablenselektion mit dem Rückwärtsverfahren (vgl. Beispiel 2.22) Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 1 Ehrgeiz Kreativität 3.13 Leistungsstreben.76 Hierarchie 1.66 Lohn -.59 Arbeitsbedingungen -.58 Lernpotential 1.68 Vielfalt 3.97 Anspruch.92 2 Ehrgeiz 2.38 Arbeitsbedingungen.928 Kreativität 3.28 Leistungsstreben.79 Hierarchie 1.66 Lohn -.57 Lernpotential 1.66 Vielfalt 4.04 Anspruch.91 2., Linear 2., lineare Lineare 2.7 Partielle 98 / 149
99 Beispiel: Rückwärtsverfahren - Fortsetzung Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 3 Ehrgeiz 2.54 Arbeitsbedingungen.926 Kreativität 3.43 Lohn Leistungsstreben.88 Hierarchie 2.11 Lernpotential 1.59 Vielfalt 4.17 Anspruch Ehrgeiz 5.40 Arbeitsbedingungen.923 Kreativität 3.38 Lohn Hierarchie 2.31 Leistungsstreben Lernpotential 1.55 Vielfalt 4.12 Anspruch , Linear 2., lineare Lineare 2.7 Partielle 5 Ehrgeiz 5.18 Arbeitsbedingungen.916 Kreativität 3.16 Lohn Hierarchie 2.84 Leistungsstreben Lernpotential 3.31 Anspruch Vielfalt / 149
100 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation 2., Linear 2., lineare 2.1 Aufgenommene/Entfernte Variablen b Entfernte Modell Aufgenommene Variablen Variablen Methode 1 x9, x5, x2, x3, x6, x8, x7, x4,. Eingeben 2. x6 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 3. x5 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 4. x3 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 5. x9 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). a. Alle gewünschten Variablen wurden aufgenommen. b. Abhängige Variable: Y 2.2 Lineare 2.7 Partielle 100 / 149
101 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation 2., Linear 2., lineare Lineare Modellzusammenfassung Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,964 a,929,887 1,891,929 21, ,000 2,963 b,928,892 1,851 -,002, ,573 3,963 c,926,896 1,814 -,001, ,575 4,961 d,923,897 1,803 -,003, ,389 5,957 e,916,894 1,837 -,007 1, ,207 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 2.7 Partielle 101 / 149
102 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: ANOVA Modell Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadratsumme 707,309 53, , ,120 54, , ,000 55, , ,422 58, , ,852 64, ,960 df Mittel der Quadrate 78,590 3,577 88,265 3, ,714 3, ,070 3, ,370 3,374 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 f. Abhängige Variable: Y 9 F 21,972 25,752 30,596 35,999 41,306 ANOVA f Signifikanz,000 a,000 b,000 c,000 d,000 e 2., Linear 2., lineare Lineare 2.7 Partielle 102 / 149
103 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell 1 (Konstante) 2 3 x1 x2 x3 x4 x5 x6 x7 x8 x9 (Konstante) x1 x2 x3 x4 x5 x7 x8 x9 (Konstante) x1 x2 x3 x4,193,153,049,246,000 -,031,165,206,053-4,737,187,157,050,240,000,157,205,052-7,154,193,159,055,172 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz -3,842 5,052 -,760,459,081,049,065,148,001,054,098,052,058 4,706,079,048,063,144,001,095,051,057 2,027,076,046,062,081,337,234,095,235 -,077 -,045,199,354,124,326,239,096,228 -,073,190,352,121,338,244,105,164 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920-1,007 2,376 3,285,790 1,660 -,572 1,655 4,040,914-3,529 2,540 3,431,885 2,113 Koeffizienten a,031,007,458,117,564,573,113,001,372,329,030,005,441,116,575,117,001,374,003,021,003,389,050 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070-14,713,020,056 -,084 -,066 -,004 -,044,097 -,068-11,431,033,061 -,076,000 Obergrenze 6,926,365,258,188,561,002,085,373,316,177 5,238,353,258,185,545,002,358,312,172-2,877,354,258,185,344 2., Linear 2., lineare Lineare 2.7 Partielle 103 / 149
104 2.36 Das Vorwärtsverfahren 2., Linear 2., lineare 2.1 Bestimme diejenige Prädiktorvariable, die mit der abhängigen Variablen am stärksten korreliert ist berechne das Bestimmtheitsmaß R 2 Ist R 2 signifikant, wird diese Variable in das Modell aufgenommen Füge sukzessive diejenigen Variablen zu dem Modell hinzu, die zu dem größten Anstieg des Bestimmtheitsmaßes führen Das Verfahren bricht ab, falls sich bei Hinzunahme einer neuen Variablen das Bestimmtheitsmaß R 2 nicht signifikant vergrößert 2.2 Lineare 2.7 Partielle 104 / 149
2. Korrelation, lineare Regression und multiple Regression
multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig
MehrStatistik II für Betriebswirte Vorlesung 11
Statistik II für Betriebswirte Vorlesung 11 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 07. Januar 2019 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 11 Version:
MehrMethodik der multiplen linearen Regression
Methodik der multiplen linearen Regression Sibel Aydemir Statistisches Amt, Direktorium Landeshauptstadt München Name, Stadt Regressionsanalyse: Schritt für Schritt Schritt 1 Schritt 2 Schritt 3 Schritt
MehrBivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154
Bivariate lineare Regression Statistik für SozialwissenschaftlerInnen II p.154 Grundidee und Typen der Regression Die Regressionsanalyse dient zur Quantifizierung des Zusammenhangs und der statistisch
MehrVorlesung Wirtschaftsstatistik 2 (FK 040637) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13
Vorlesung Wirtschaftsstatistik 2 (FK 040637) Multiple lineare Regression Dipl.-Ing. Robin Ristl Wintersemester 2012/13 1 Grundidee: Eine abhängige Variable soll als Linearkombination mehrerer unabhängiger
MehrMultivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167
Multivariate lineare Regression Statistik für SozialwissenschaftlerInnen II p.167 Multivariate Regression Verfahren zur Prüfung des gemeinsamen linearen Einflusses mehrerer unabhängiger Variablen auf eine
MehrWillkommen zur Vorlesung Statistik
Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Das lineare Regressionsmodell Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften
MehrGegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst.
Aufgabe 1 (2 + 4 + 2 + 1 Punkte) Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen X und Y : { 2x + 2y für 0.5 x 0.5, 1 y 2 f(x, y) = 3 0 sonst. a) Berechnen
MehrDas (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
Mehr30. März Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette
Ruhr-Universität Bochum 30. März 2011 1 / 46 Methodenlehre II NA 3/73 Telefon: 0234 322 8284 Email: holger.dette@rub.de Internet: www.ruhr-uni-bochum.de/mathematik3/index.html Vorlesung: Montag, 8.30 10.00
MehrStatistik II für Betriebswirte Vorlesung 8
Statistik II für Betriebswirte Vorlesung 8 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 3. Dezember 2018 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 8 Version:
MehrTEIL 13: DIE EINFACHE LINEARE REGRESSION
TEIL 13: DIE EINFACHE LINEARE REGRESSION Die einfache lineare Regression Grundlagen Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen 1 Sie hat einen
MehrDeskriptive Beschreibung linearer Zusammenhänge
9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,
MehrB. Regressionsanalyse [progdat.sav]
SPSS-PC-ÜBUNG Seite 9 B. Regressionsanalyse [progdat.sav] Ein Unternehmen möchte den zukünftigen Absatz in Abhängigkeit von den Werbeausgaben und der Anzahl der Filialen prognostizieren. Dazu wurden über
MehrProbeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende
Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende im Sommersemester 2012 Prof. Dr. H. Küchenhoff, J. Brandt, G. Schollmeyer, G. Walter Aufgabe 1 Betrachten
MehrLösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die
Statistik für Kommunikationswissenschaftler Wintersemester 2010/2011 Vorlesung Prof. Dr. Nicole Krämer Übung Nicole Krämer, Cornelia Oberhauser, Monia Mahling Lösung Thema 9 Homepage zur Veranstaltung:
MehrPrüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003
Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003. Eine seltene Krankheit trete mit Wahrscheinlichkeit : 0000 auf. Die bedingte Wahrscheinlichkeit, dass ein bei einem Erkrankten durchgeführter
MehrKonfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005
Universität Bielefeld 13. Juni 2005 Einführung Einführung Wie kann die Kenntnis der Wahrscheinlichkeitsverteilung der Parameter einer Stichprobe dazu verhelfen auf die wahren Werte der Grundgesamtheit
MehrHypothesentests mit SPSS
Beispiel für eine einfache Regressionsanalyse (mit Überprüfung der Voraussetzungen) Daten: bedrohfb_v07.sav Hypothese: Die Skalenwerte auf der ATB-Skala (Skala zur Erfassung der Angst vor terroristischen
MehrDie Funktion f wird als Regressionsfunktion bezeichnet.
Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht
MehrTEIL 13: DIE LINEARE REGRESSION
TEIL 13: DIE LINEARE REGRESSION Dozent: Dawid Bekalarczyk GLIEDERUNG Dozent: Dawid Bekalarczyk Lineare Regression Grundlagen Prognosen / Schätzungen Verbindung zwischen Prognose und Zusammenhang zwischen
MehrSchätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO
Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung
MehrInferenzstatistik (=schließende Statistik)
Inferenzstatistik (=schließende Statistik) Grundproblem der Inferenzstatistik: Wie kann man von einer Stichprobe einen gültigen Schluß auf di Grundgesamtheit ziehen Bzw.: Wie groß sind die Fehler, die
MehrEinfaktorielle Varianzanalyse
Kapitel 16 Einfaktorielle Varianzanalyse Im Zweistichprobenproblem vergleichen wir zwei Verfahren miteinander. Nun wollen wir mehr als zwei Verfahren betrachten, wobei wir unverbunden vorgehen. Beispiel
Mehr4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers
4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis
MehrEine zweidimensionale Stichprobe
Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,
MehrBiometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern
Biometrieübung 10 (lineare Regression) - Aufgabe Biometrieübung 10 Lineare Regression Aufgabe 1. Düngungsversuch In einem Düngeversuch mit k=9 Düngungsstufen x i erhielt man Erträge y i. Im (X, Y)- Koordinatensystem
MehrKapitel 2 Wahrscheinlichkeitsrechnung
Definition 2.77: Normalverteilung & Standardnormalverteilung Es sei µ R und 0 < σ 2 R. Besitzt eine stetige Zufallsvariable X die Dichte f(x) = 1 2 πσ 2 e 1 2 ( x µ σ ) 2, x R, so heißt X normalverteilt
MehrÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II
ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II 1.1 Durch welche Elemente lässt sich laut der Formel für die multiple Regression der Wert einer Person auf einer bestimmten abhängigen Variable Y vorhersagen? a)
MehrHypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav
Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav Hypothese: Die Beschäftigung mit Kunst ist vom Bildungsgrad abhängig. 1. Annahmen Messniveau: Modell: Die Skala zur Erfassung der
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
MehrKapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem
MehrStatistik II. Weitere Statistische Tests. Statistik II
Statistik II Weitere Statistische Tests Statistik II - 19.5.2006 1 Überblick Bisher wurden die Test immer anhand einer Stichprobe durchgeführt Jetzt wollen wir die statistischen Eigenschaften von zwei
MehrBiostatistik 101 Korrelation - Regressionsanalysen
Good Data don't need statistics Biostatistik 101 Korrelation - Regressionsanalysen Carl Herrmann IPMB Uni Heidelberg & DKFZ B080 carl.herrmann@uni-heidelberg.de Korrelation Sind Alter und Blutdruck miteinander
Mehr3.3 Konfidenzintervalle für Regressionskoeffizienten
3.3 Konfidenzintervalle für Regressionskoeffizienten Konfidenzintervall (Intervallschätzung): Angabe des Bereichs, in dem der "wahre" Regressionskoeffizient mit einer großen Wahrscheinlichkeit liegen wird
MehrMusterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn
MehrKapitel 5 FRAGESTELLUNG 1. Öffne die Datei alctobac.sav.
Kapitel 5 FRAGESTELLUNG 1 Öffne die Datei alctobac.sav. Zuerst werden wir ein Streudiagramm erstellen, um einen grafischen Überblick von diesem Datensatz zu erhalten. Gehe dazu auf Grafiken / Streudiagramm
MehrDie Korrelation von Merkmalen
Die Korrelation von Merkmalen In der Analse von Datenmaterial ist eines der Hauptziele der Statistik eine Abhängigkeit bzw. einen Zusammenhang zwischen Merkmalen zu erkennen. Die Korrelation ermittelt
MehrStatistik II Übung 4: Skalierung und asymptotische Eigenschaften
Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden
MehrStatistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur
Mehr1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.
0 Einführung 1 Wahrscheinlichkeitsrechnung 2 Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung 5 Hypothesentests 6 Regression Lineare Regressionsmodelle Deskriptive Statistik:
MehrTeil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller
Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
MehrZiel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.
Lineare Regression Einfache Regression Beispieldatensatz: trinkgeld.sav Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X. H0: Y lässt sich nicht durch X erklären, das heißt
MehrStatistik für SozialwissenschaftlerInnen II p.85
Schätzverfahren Statistik für SozialwissenschaftlerInnen II p.85 Schätzverfahren Ziel von Schätzverfahren: Ausgehend von Stichproben Aussagen über Populationskennwerte machen Kenntnis der Abweichung des
MehrPrüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002
Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002 1. Ein Chemiestudent hat ein Set von 10 Gefäßen vor sich stehen, von denen vier mit Salpetersäure Stoff A), vier mit Glyzerin Stoff
MehrSozialwissenschaftlerInnen II
Statistik für SozialwissenschaftlerInnen II Henning Best best@wiso.uni-koeln.de Universität zu Köln Forschungsinstitut für Soziologie Statistik für SozialwissenschaftlerInnen II p.1 Varianzanalyse Statistik
MehrTest auf einen Anteilswert (Binomialtest) Vergleich zweier Mittelwerte (t-test)
Spezielle Tests Test auf einen Anteilswert (Binomialtest) Vergleich zweier Anteilswerte Test auf einen Mittelwert (Ein-Stichproben Gauss bzw. t-test) Vergleich zweier Mittelwerte (t-test) Test auf einen
MehrKapitel 5: Einfaktorielle Varianzanalyse
Kapitel 5: Einfaktorielle Varianzanalyse Durchführung einer einfaktoriellen Varianzanalyse ohne Messwiederholung 1 Berechnung der Effektstärke und der beobachteten Teststärke einer einfaktoriellen Varianzanalyse
MehrEinführung in die Statistik für Politikwissenschaftler Sommersemester 2011
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen
Mehr23. Mai Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette
Ruhr-Universität Bochum 23. Mai 2011 1 / 178 Methodenlehre II NA 3/73 Telefon: 0234 322 8284 Email: holger.dette@rub.de Internet: www.ruhr-uni-bochum.de/mathematik3/index.html Vorlesung: Montag, 8.30 10.00
MehrGeschlecht + Anfangsgehalt. T-Test für das Anfangsgehalt Gruppenstatistiken. Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3
Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3 Geschlecht + Anfangsgehalt 14000 399 403 7000 12000 335 Anfangsgehalt 10000 8000 6000 4000 2000 N = 28 63 185 291 227 52 215 158 88 284 193
MehrVersuchsplanung. Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling
Versuchsplanung Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling Gliederung Grundlagen der Varianzanalyse Streuungszerlegung und Modellschätzer Modellannahmen und Transformationen
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
MehrÜ b u n g s b l a t t 15
Einführung in die Stochastik Sommersemester 07 Dr. Walter Oevel 2. 7. 2007 Ü b u n g s b l a t t 15 Hier ist zusätzliches Übungsmaterial zur Klausurvorbereitung quer durch die Inhalte der Vorlesung. Eine
MehrRegression und Korrelation
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen
MehrKapitel 5: Einfaktorielle Varianzanalyse
Kapitel 5: Einfaktorielle Varianzanalyse Durchführung einer einfaktoriellen Varianzanalyse ohne Messwiederholung Dieser Abschnitt zeigt die Durchführung der in Kapitel 5 vorgestellten einfaktoriellen Varianzanalyse
MehrStatistik II Übung 1: Einfache lineare Regression
Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der
MehrPrüfung aus Statistik 2 für SoziologInnen
Prüfung aus Statistik 2 für SoziologInnen 11. Oktober 2013 Gesamtpunktezahl =80 Name in Blockbuchstaben: Matrikelnummer: Wissenstest (maximal 16 Punkte) Kreuzen ( ) Sie die jeweils richtige Antwort an.
MehrStatistik II für Betriebswirte Vorlesung 12
Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 12 11. Januar 2013 7.3. Multiple parameterlineare Regression Im Folgenden soll die
MehrMethodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 12 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft
MehrInstrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.
Gliederung Grundidee Einfaches lineares Modell KQ-Methode (Suche nach der besten Geraden) Einfluss von Ausreißern Güte des Modells (Bestimmtheitsmaß R²) Multiple Regression Noch Fragen? Lineare Regression
Mehrx(n x) cm 2 ) zweier Betonsorten wird überprüft. Dabei ergaben Sorte 1 185 186 184 186 185 187 186 187 185 Sorte 2 183 182 185 182 181 179
. Aufgabe: Zwei bis drei Millionen deutsche Haushalte sind überschuldet. Einer der Hauptgründe für die Überschuldung privater Haushalte ist eine gescheiterte Selbstständigkeit. In einer Stichprobe von
MehrStatistische Tests (Signifikanztests)
Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)
MehrKapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell
Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften
MehrStatistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
MehrHypothesentests mit SPSS
Beispiel für eine zweifaktorielle Varianzanalyse mit Messwiederholung auf einem Faktor (univariate Lösung) Daten: POKIII_AG4_V06.SAV Hypothese: Die physische Attraktivität der Bildperson und das Geschlecht
Mehr7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien
Statistik 7.1 Korrelationsanalyse Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Sommersemester 2012 7 Regressions- und Korrelationsanalyse Kovarianz Pearson-Korrelation Der (lineare)
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
MehrFormale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung
Übung Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung BACHELOR FT 2013 (HSU) Übung Emp. WiFo FT 2013 1 / 1 Maßzahlen für den Zusammenhang zwischen Merkmalen Kontingenztabelle:
MehrMathematik III - Statistik für MT(Master)
3. Regressionsanalyse Fachbereich Grundlagenwissenschaften Prof. Dr. Viola Weiß Wintersemester 0/03 Mathematik III - Statistik für MTMaster 3. Empirische Regressionsgerade Optimalitätskriterium: Die Summe
MehrTutorial: Regression Output von R
Tutorial: Regression Output von R Eine Firma erzeugt Autositze. Ihr Chef ist besorgt über die Anzahl und die Kosten von Maschinenausfällen. Das Problem ist, dass die Maschinen schon alt sind und deswegen
Mehr3.3 Das allgemeine lineare Modell (ALM), Methode der kleinsten Quadrate
31 und 31 und (), Methode der 33 Das allgemeine (), Methode der kleinsten Quadrate 36 Kovarianzanalyse 37 Modelle mit Messwiederholungen 1 / 85 Eine grundsätzliche Bemerkung zu Beginn Es bestehen viele
MehrÜbung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010
MehrSPSS III Mittelwerte vergleichen
SPSS III Mittelwerte vergleichen A Zwei Gruppen ------------ Zwei-Stichproben t-test Beispieldatei: Seegräser Fragestellung: Unterscheidet sich die Anzahl der Seegräser in Gebieten mit und ohne Seeigelvorkommen
MehrDeskriptive Statistik Beschreiben, Zusammenfassen, Darstellen gegebener Daten (Datenreduktion!)
Deskriptive Statistik Beschreiben, Zusammenfassen, Darstellen gegebener Daten (Datenreduktion!) - Arithmetisches Mittel o Das arithmetische Mittel (auch Durchschnitt) ist ein Mittelwert, der als Quotient
Mehr6.2 Lineare Regression
6.2 Lineare Regression Einfache lineare Regression (vgl. Kap. 4.7) Y i = θ 0 + θ 1 X i + ǫ i ǫ i (0, σ 2 ) ˆθ 1 ˆθ 0 = S XY S 2 X = 1 ( Yi n ˆθ ) 1 Xi als Lösung der Minimumaufgabe n (Y i θ 1 X 1 θ 0 )
MehrSTATISTIK II. Hans-Otfried Müller Institut für Mathematische Stochastik.
STATISTIK II Hans-Otfried Müller Institut für Mathematische Stochastik http://www.math.tu-dresden.de/sto/mueller 1 Ausgewählte Verfahren der multivariaten Datenanalyse und Statistik Werden bei einer Analyse
MehrStatistik II Übung 1: Einfache lineare Regression
Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der
MehrI.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03
I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03 Vorlesung: 12.11.2002 He uses statistics as a drunken man use lampposts - for support rather than for illumination. Andrew Lang Dr. Wolfgang Langer
MehrErmitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:
1. Welche der folgenden Kenngrößen, Statistiken bzw. Grafiken sind zur Beschreibung der Werteverteilung des Merkmals Konfessionszugehörigkeit sinnvoll einsetzbar? A. Der Modalwert. B. Der Median. C. Das
MehrStatistische Methoden in den Umweltwissenschaften
Statistische Methoden in den Umweltwissenschaften Korrelationsanalysen Kreuztabellen und χ²-test Themen Korrelation oder Lineare Regression? Korrelationsanalysen - Pearson, Spearman-Rang, Kendall s Tau
MehrInhaltsverzeichnis. Über die Autoren Einleitung... 21
Inhaltsverzeichnis Über die Autoren.... 7 Einleitung... 21 Über dieses Buch... 21 Was Sie nicht lesen müssen... 22 Törichte Annahmen über den Leser... 22 Wie dieses Buch aufgebaut ist... 23 Symbole, die
MehrEinführung in die Varianzanalyse mit SPSS
Einführung in die Varianzanalyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen 6. Mai 00 Inhalt. Varianzanalyse. Prozedur ONEWAY. Vergleich von k Gruppen 4. Multiple Vergleiche 5. Modellvoraussetzungen
MehrUwe Hassler. Statistik im. Bachelor-Studium. Eine Einführung. für Wirtschaftswissenschaftler. ^ Springer Gabler
Uwe Hassler Statistik im Bachelor-Studium Eine Einführung für Wirtschaftswissenschaftler ^ Springer Gabler 1 Einführung 1 2 Beschreibende Methoden univariater Datenanalyse 5 2.1 Grundbegriffe 5 2.2 Häufigkeitsverteilungen
MehrStatistik II Übung 3: Hypothesentests
Statistik II Übung 3: Hypothesentests Diese Übung beschäftigt sich mit der Anwendung diverser Hypothesentests (zum Beispiel zum Vergleich der Mittelwerte und Verteilungen zweier Stichproben). Verwenden
Mehr1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests
1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests Statistische Tests dienen dem Testen von Vermutungen, so genannten Hypothesen, über Eigenschaften der Gesamtheit aller Daten ( Grundgesamtheit
MehrMittelwertvergleiche, Teil II: Varianzanalyse
FB 1 W. Ludwig-Mayerhofer Statistik II 1 Herzlich willkommen zur Vorlesung Mittelwertvergleiche, Teil II: FB 1 W. Ludwig-Mayerhofer Statistik II 2 : Wichtigste Eigenschaften Anwendbar auch bei mehr als
MehrTeil: lineare Regression
Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
MehrMittelwertvergleiche, Teil I: Zwei Gruppen
FB W. Ludwig-Mayerhofer Statistik II Mittelwertvergleiche Herzlich willkommen zur Vorlesung Mittelwertvergleiche, Teil I: Zwei Gruppen FB W. Ludwig-Mayerhofer Statistik II Mittelwertvergleiche Mittelwertvergleiche:
MehrD-CHAB Frühlingssemester 2017 T =
D-CHAB Frühlingssemester 17 Grundlagen der Mathematik II Dr Marcel Dettling Lösung 13 1) Die relevanten Parameter sind n = 3, x = 1867, σ x = und µ = 18 (a) Die Teststatistik T = X µ Σ x / n ist nach Annahme
Mehr2.5 Lineare Regressionsmodelle
2.5.1 Wiederholung aus Statistik I Gegeben Datenpunkte (Y i, X i ) schätze die beste Gerade Y i = β 0 + β 1 X i, i = 1,..., n. 2 Induktive Statistik 409 Bsp. 2.30. [Kaffeeverkauf auf drei Flohmärkten]
MehrBachelorprüfung: Statistik (1 Stunde)
Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!
MehrVarianzvergleiche bei normalverteilten Zufallsvariablen
9 Mittelwert- und Varianzvergleiche Varianzvergleiche bei zwei unabhängigen Stichproben 9.3 Varianzvergleiche bei normalverteilten Zufallsvariablen Nächste Anwendung: Vergleich der Varianzen σa 2 und σ2
MehrSkript Einführung in SPSS
SPSSinteraktiv Korrelationen & Regression - 1 - Skript Einführung in SPSS Korrelation & Regression Korrelation 1. Bivariate Korrelation 2. Partialkorrelation 3. Semipartialkorrelation Lineare Regression
MehrRegression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate
Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für
MehrStatistik I für Betriebswirte Vorlesung 4
Statistik I für Betriebswirte Vorlesung 4 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 25. April 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung
Mehr