2. Korrelation, lineare Regression und multiple Regression
|
|
|
- Falko Kästner
- vor 10 Jahren
- Abrufe
Transkript
1 multiple 2.2 Lineare 2.2 Lineare 1 / 130
2 2.2 Lineare 2 / 130
3 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) 2.2 Lineare Frage: besteht ein Zusammenhang zwischen der Variablen Motivation und der Variablen Leistungsstreben Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 3 / 130
4 Daten x y x y x y Lineare 4 / 130
5 2.2 Der Korrelationskoeffizient von Pearson Daten (x 1, y 1 ),..., (x n, y n ) Maß für die (lineare) Abhängigkeit zwischen x und y: Korrelationskoeffizient von Pearson ˆρ X,Y = s n x,y i=1 = (x i x )(y i y ) s x,x s n y,y i=1 (x i x ) 2 n i=1 (y i y ) Lineare Dabei ist: x = 1 n n i=1 x i : Mittelwert der Daten x i y = 1 n n i=1 y i : Mittelwert der Daten y i s 2 x,x = 1 n n i=1 (x i x ) 2 : Varianz der Daten x i s 2 y,y = 1 n n i=1 (y i y ) 2 : Varianz der Daten y i s 2 x,y = 1 n n i=1 (x i x )(y i y ) : Kovarianz zwischen den Daten x i, y i 5 / 130
6 2.3 Eigenschaften des Korrelationskoeffizienten (1) 1 ˆρ X,Y 1 (2) ˆρ X,Y = 1 genau dann, wenn ein exakter linearer Zusammenhang y i = b 0 + b 1 x i mit b 1 > 0 besteht (ohne Störgrößen). (3) ˆρ X,Y = 1 genau dann, wenn ein exakter linearer Zusammenhang 2.2 Lineare y i = b 0 + b 1 x i mit b 1 < 0 besteht (ohne Störgrößen). (4) Der Korrelationskoeffizient ist invariant bzgl. linearer Transformationen, d.h. } x i = a 0 + a 1 x i i = 1,..., n ρ ỹ i = c 0 + c 1 y i i = 1,..., n X,Ỹ = ρ X,Y (4) Der Korrelationskoeffizient von Pearson ist ein deskriptives Maß für den linearen Zusammenhang in der Stichprobe (x 1, y 1 ),..., (x n, y n ) 6 / 130
7 2.4 Beispiel: Korrelationskoeffizient für die Daten aus Beispiel 2.1 Variablen x: Leistungsstreben y: Motivation Korrelationskoeffizient von Pearson 2.2 Lineare ˆρ x,y = Fragen: Wie genau ist diese Schätzung? Ist die Korrelation von 0 verschieden (Unkorreliertheit zwischen den Merkmalen Leistungsstreben und Motivation)? 7 / 130
8 2.5 Signifikanztest für Korrelation ρ bezeichne die Korrelation des Merkmals X mit dem Merkmal Y einer Population (x 1, y 1 ),..., (x n, y n ) ist eine Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grundgesamtheit Ein Test zum Niveau α für die Hypothese die Merkmale sind unkorreliert H 0 : ρ = 0 lehnt die Nullhypothese zu Gunsten der Alternative H 1 : ρ 0 ab, falls n 2ˆρx,y > t 1 ˆρ 2 n 2,1 α/2 x,y 2.2 Lineare gilt. 8 / 130
9 2.6(a) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) n = 25; ˆρ x,y = ; t 23,0.95 = Lineare n 2 ˆρx,y = > ˆρ 2 x,y Die Nullhypothese H 0 : ρ = 0 (keine Korrelation zwischen den Merkmalen) wird zum Niveau 10% verworfen. p-wert: / 130
10 SPSS Output für Korrelationskoeffizient Motivation Leistungsstreben Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Motivation Korrelationen 1,000,004 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. 25 Leistungsstreben,559 **, ,559 ** 1, Lineare 10 / 130
11 2.7 Konfidenzintervall für Korrelation ρ: Korrelation zwischen Merkmal x und Merkmal y einer Population (x 1, y 1 ),..., (x n, y n ): Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grundgesamtheit Mathematische Statistik: ˆρ x,y ist näherungsweise (d.h. bei großem Stichprobenumfang) normalverteilt mit Erwartungswert ρ und Varianz 2.2 Lineare γ 2 = Var(ˆρ x,y ) (1 ρ 2 ) 2 /n (1 α)-konfidenzintervall für den Korrelationskoeffizienten (ˆρx,y ˆγz 1 α/2, ˆρ x,y + ˆγz 1 α/2 ) Hier bezeichnet ˆγ = (1 ˆρ 2 x,y )/ n einen Schätzer für die Standardabweichung von ˆρ x,y und z 1 α/2 das (1 α/2) Quantil der Standardnormalverteilung (Tabelle, Software) 11 / 130
12 2.6(b) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) n = 25; ˆρ x,y = Lineare z 0.95 = , ˆγ = % Konfidenzintervall für den Korrelationskoeffizient [0.2739, ] 12 / 130
13 2.8 Hinweise zur Interpretation von Korrelationen Annahme: man hat eine signifikante Korrelation zwischen dem Variablen x und y gefunden Folgende Interpretationen sind möglich (1) x beeinflusst y kausal (2) y beeinflusst x kausal (3) x und y werden von weiteren Variablen kausal beeinflusst (4) x und y beeinflussen sich wechselseitig kausal Die Korrelation zwischen zwei Variablen ist eine notwendige aber keine hinreichende Voraussetzung für einen kausalen Zusammenhang Der Korrelationskoeffizient gibt keine Information welche der vier Interpretationen zutrifft (in vielen Fällen wird das der Typ (3) sein) Korrelationen sollten ohne Zusatzinformation nicht interpretiert werden! 2.2 Lineare 13 / 130
14 Beispiel Annahme: man hat eine signifikante Korrelation zwischen den Merkmalen Ehrlichkeit und Häufigkeit des Kirchgangs gefunden Folgende Interpretationen sind möglich Die in der Kirche vermittelten Werte haben einen positiven Einfluß auf das Merkmal Ehrlichkeit Ehrliche Menschen fühlen sich durch die in der Kirche vermittelten Inhalte eher angesprochen und gehen aus diesem Grund häufiger zur Kirche Die allgemeine familiäre und außerfamiliäre Sozialisation beeinflußt beide Merkmale 2.2 Lineare 14 / 130
15 2.2 Lineare 2.2 Lineare 15 / 130
16 2.9 Beispiel: (Fortsetzung von Beispiel 2.1) Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) 2.2 Lineare Kann man y aus x vorhersagen? 16 / 130
17 Streudiagramm für die Daten aus Beispiel Lineare 25 Motivation Leistungsstreben 17 / 130
18 2.9 Beispiel: (Fortsetzung von Beispiel 2.1) Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) 2.2 Lineare Frage: besteht ein funktionaler Zusammenhang zwischen der Variablen Motivation und der Prädiktorvariablen Leistungsstreben (Kann man y aus x vorhersagen?) Genauer: Gesucht ist Funktion f, die aus der Prädiktorvariablen Leistungsstreben (x) eine Vorhersage für die abhängige Variable (y) Motivation liefert: Motivation = f( Leistungsbereitschaft ) Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 18 / 130
19 Ausgangslage: Von Interesse ist der Zusammenhang zwischen verschiedenen Variablen. Im einfachsten Fall betrachtet man, wie im Beispiel der Arbeitsmotivation, den Zusammenhang zwischen zwei Variablen. Daten: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein kausaler Zusammenhang der Form y = f (x) zwischen der abhängigen Variablen y und der Prädiktorvariablen x. Weitere Annahme: Die Funktion f hat eine bestimmte Form. Beispiele: Lineare (der Zusammenhang ist also durch eine Gerade beschreibbar): y = b 0 + b 1x Quadratische (der Zusammenhang ist also durch eine Parabel beschreibbar): y = b 0 + b 1x + b 2x 2 usw. Beachte: Der Zusammenhang ist in der Regel nicht exakt zu beobachten. Mathematisches Modell Y = b 0 + b 1 x + ε 2.2 Lineare Dabei bezeichnet ε eine zufällige Störgröße. Diese Modell bezeichnet man als Lineare. 19 / 130
20 2.10 Das Modell der linearen Daten (x 1, y 1 ),..., (x n, y n ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen den Variablen Y i und x i gilt: 2.2 Lineare Y i = b 0 + b 1 x i + ε i i = 1,..., n ε i bezeichnet hier eine zufällige Störung und es wird angenommen, dass die Störungen unabhängig und normalverteilt sind mit Erwartungswert 0 und Varianz σ 2 > 0 Deutung: es wird ein linearer Zusammenhang zwischen x und y postuliert, der noch zufälligen Störungen unterliegt 20 / 130
21 Idee der Schätzung bei (linearer) Daten (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein linearer Zusammenhang Y = b 0 + b 1 x + ε 2.2 Lineare Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Y und x am besten beschreibt. Idee: Bestimme die Gerade so, dass die Summe der quadratischen (vertikalen) Abstände zwischen den y-koordinaten der Datenpunkte und den entsprechenden Punkten auf der geschätzten Geraden minimal wird Methode der kleinsten Quadrate 21 / 130
22 y y Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten 2.2 Lineare y=0.2x y=0.5x x x 22 / 130
23 Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten: die Lösung durch die Methode der kleinsten Quadrate 2.2 Lineare y y=0.292x x 23 / 130
24 2.11 Die Methode der kleinsten Quadrate Bestimme die Gerade so, dass die Summe der quadrierten senkrechten Abstände zwischen Gerade und Daten minimal wird - Datum an der Stelle x i : y i - Wert der Geraden an der Stelle x i : b 0 + b 1 x i - Differenz: y i (b 0 + b 1 x i ) 2.2 Lineare Minimiere h(b 0, b 1 ) = n ( i=1 yi (b 0 + b 1 x i ) ) 2 bzgl. der Wahl der Parameter b 0 und b 1. Lösung dieses Extremwertproblems liefert Schätzer für Achsenabschnitt und Steigung der Geraden: ˆb 1 = n i=1 (x i x )(y i y ) n i=1 (x i x ) 2, ˆb 0 = y ˆb 1 x - x = 1 n n i=1 x i: Mittelwert der Prädiktorvariablen - y = 1 n n i=1 y i: Mittelwert der abhängigen Variablen 24 / 130
25 Beispiel Arbeitsmotivation: Streudiagramm und sgerade für die Daten aus Beispiel 2.1 Motivation Lineare R-Quadrat linear = 0, Leistungsstreben Schätzer: ˆb 0 = 13.82, ˆb 1 = 0.29 Fragen: - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß des Leistungsstrebens auf die Motivation H 0 : b 1 = 0 - Wie gut beschreibt das lineare smodell die Situation? 25 / 130
26 Die Genauigkeit der Schätzer für die Parameter Beachte: vor der Datenerhebung sind ˆb 0 und ˆb 1 zufällig Mathematische Statistik (allegmeines lineares Modell) liefert Schätzer für die Varianzen von ˆb 0 und ˆb 1 Schätzer für die Varianz von ˆb 0 : ŝ 2 b 0 = S 2 y x n Schätzer für die Varianz von ˆb 1 : ŝ 2 b 1 = S 2 y x n Dabei bezeichnet S 2 y x = 1 n 2 n i=1 x 2 i n i=1 (x i x ) 2 1 n n (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 1 n i=1 (x i x ) Lineare die Residualvarianz (Schätzer für die Varianz der Störgrößen) Je größer der Stichprobenumfang n, desto genauer sind die Schätzungen! 26 / 130
27 Fortsetzung von Beispiel 2.1: Schätzer für die Daten der Arbeitsmotivation Schätzer für die Parameter ˆb 0 = ˆb 1 = S 2 y x = Lineare Schätzer für die Varianz von ˆb 0 und ˆb 1 ŝ 2 b 0 = ŝ 2 b 1 = Je größer der Stichprobenumfang n, desto genauer sind die Schätzungen! 27 / 130
28 SPSS Output: Schätzer und Standardabweichungen bei linearer in Beispiel Lineare Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Koeffizienten a Standardisierte Nicht standardisierte Koeffizienten Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090,559 3,235, / 130
29 2.12 Konfidenzintervalle bei linearer Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme für ε 1,..., ε n Bestimmung der Schätzer ŝ 2 b 0 und ŝ 2 b 1 für die Varianzen von ˆb 0 und ˆb 1. Damit ist dann 2.2 Lineare = (ˆb 0 t n 2,1 α/2 ŝ b0, ˆb 0 + t n 2,1 α/2 ŝ b0 ) ein (1 α) -Konfidenzintervall für b 0 und = (ˆb 1 t n 2,1 α/2 ŝ b1, ˆb 1 + t n 2,1 α/2 ŝ b1 ) ein (1 α) -Konfidenzintervall für b 1. Hier ist t n 2,1 α/2 das (1 α/2)-quantil der t-verteilung mit n 2 Freiheitsgraden (tabelliert oder mit Software verfügbar) 29 / 130
30 Beispiel 2.13: Konfidenzbereiche im Beispiel 2.1 (Arbeitsmotivation) n = 25, t 23,0975 = Für das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt sich als 95% Konfidenzintervall für 2.2 Lineare b 0 : [9.420, ] b 1 : [0.105, 0.479] Frage: Besteht ein (signifikanter) Einfluß der Prädikorvaraiblen x auf die abhängige Variable Y? Mathematische Formulierung: H 0 : b 1 = 0 30 / 130
31 SPSS Output: Konfidenzintervalle bei linearer Rgeression in Beispiel Lineare Koeffizienten a Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090,559 3,235,004 95%-Konfidenzintervall für B Untergrenze Obergrenze 9,420 18,212,105, / 130
32 2.14 F -test für die Hypothese H 0 : b 1 = 0 Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme für ε 1,..., ε n Hypothesen 2.2 Lineare H 0 : b 1 = 0, H 1 : b 1 0 Die Nullhypothese H 0 : b 1 = 0 wird zu Gunsten der Alternative H 1 : b 1 0 verworfen, falls gilt F n = S 2 reg S 2 y x = n 2 n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 n i=1 (y i (ˆb 0 + ˆb 1 x i )) 2 > F 1;n 2,1 α F 1;n 2,1 α bezeichnet das (1 α)-quantil der F -Verteilung mit (1, n 2) Freiheitsgraden 32 / 130
33 Motivation des F -Tests: Zerlegung der Varianz n (y i y ) 2 = n (y i (ˆb 0 + ˆbx i )) 2 + n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Gesamtvarianz i=1 } {{ } Residualvarianz i=1 } {{ } Varianz der 2.2 Lineare Bezeichnungen: S 2 reg = 1 1 n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 heißt Varianz der (diese hat 1 Freiheitsgrad) und Sy x 2 = 1 n n 2 (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 ist die Residualvarianz (diese hat n 2 Freiheitsgrade). Andere Interpretationen: - Schätzung für die Varianz der Größen ε i - durch das lineare smodell nicht erklärbare Varianz 33 / 130
34 Motivation des F -Tests: Zerlegung der Varianz n (y i y ) 2 = n (y i (ˆb 0 + ˆbx i )) 2 + n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Gesamtvarianz i=1 } {{ } Residualvarianz i=1 } {{ } Varianz der 2.2 Lineare = 1 S 2 reg + (n 2) S 2 y x Beachte: Bei dem F -Test für die Hypothese H 0 : b 1 = 0 bildet man den Quotienten aus der Varianz der der Residualvarianz Man untersucht also, welcher Anteil der Gesamtvarianz durch die Varianz der erklärbar ist 34 / 130
35 2.15 Varianzanalyse (ANOVA; analysis of variance) Art der Freiheits- Quadrat- F -Quotient Abweichung grade (df ) summe schätzer 1 n i=1 (y ŷ i ) 2 F n = S 2 reg /S 2 y x 2.2 Lineare Fehler n 2 n i=1 (y i ŷ i ) 2 Total n 1 n i=1 (y i y ) 2 Bezeichnung: ŷ i = ˆb 0 + ˆb 1 x i 35 / 130
36 SPSS Output: F-Test bei linearer in Beispiel 2.1 Modell 1 Residuen Gesamt Quadratsumme 238, , ,960 a. Einflußvariablen : (Konstante), Leistungsstreben b. Abhängige Variable: Motivation df Mittel der Quadrate 238,015 22,737 F 10,468 ANOVA b Signifikanz,004 a 2.2 Lineare Beachte: F 25 = , F 1,23,0.95 = Da F 25 = > wird die Nullhypothese H 0 : b 1 = 0 zu Gunsten der Alternative H 1 : b 1 0 zum Niveau 5% verworfen (p-wert: 0.004) 36 / 130
37 Modellgüte: wie geeignet ist das Modell für die Beschreibung der Daten Maß für Modellanpassung: Residualvarianz (Summe der quadrierte Abstände von der sgerade): S 2 y x = 1 n 2 n i=1 ( ) 2 y i (ˆb 0 + ˆb 1 x i ) 2.2 Lineare Beachte: Sy x 2 ist ein Schätzer für die Varianz der Meßfehler Je kleiner Sy x 2, desto besser ist das (lineare) smodell Streuung der Daten ohne die Information, dass ein lineares Modell vorliegt: n (y i y ) 2 i=1 Man untersucht welchen Anteil der Streuung n i=1 (y i y ) 2 man durch das lineare Modell erklären kann 37 / 130
38 Varianzzerlegung: ein extremes Beispiel y Abhängige Variable Lineare Unabhängige Variable x Beachte: Die Grafik zeigt eine extreme Situation. Die Streuung der Daten ist durch das lineare smodell zu 100% erklärbar! n i=1 (y i y ) 2 = n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 Residualvarianz (durch das lineare smodell nicht erklärbare Varianz) = 0 38 / 130
39 2.16 Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1): 25 i=1 25 i=1 R 2 = (y i y ) 2 = (y (ˆb 0 + ˆb 1 x i )) 2 = i=1 (y (ˆb 0 + ˆb 1 x i )) 2 25 i=1 (y i y ) 2 = Lineare d.h. 31,3 % der Varianz der Variablen Motivation können durch die Prädiktorvariable Leistungsstreben erklärt werden. 39 / 130
40 2.17 Modellgüte: das Bestimmtheitsmaß Die Größe n (y i (ˆb 0 + ˆb n 1 x i )) 2 (y (ˆb 0 + ˆb 1 x i )) 2 R 2 i=1 i=1 = 1 = n n (y i y ) 2 (y i y ) 2 i=1 i=1 2.2 Lineare ist ein Maß für die Güte der heißt Bestimmtheitsmaß. Beachte: man kann zeigen, dass R 2 genau das Quadrat der Korrelation ist. Je besser das Modell ist, desto kleiner ist die Residualvarianz, bzw. desto größer R 2! Das Bestimmtheitsmaß R 2 liegt immer zwichen 0 und 1 40 / 130
41 Zusammenhang zwischen Bestimmtheitsmaß und F -Test Ist F n die Statistik für den F -Test aus 2.14 und R 2 das Bestimmtheitsmaß, dann gilt: R 2 = 1 n 2 F n n 2 F n 2.2 Lineare In anderen Worten: die Statistik F n des F -Test aus 2.5 kann aus dem Bestimmtheitsmaß berechnet werden (und umgekehrt) Im Beispiel des Zusammenhangs zwischen Motivation und Leistungsstreben ist F n = = R 2 = = C.a. 31.3% der Variation der Variablen Motivation können durch die die Variable Leistungsstreben erklärt werden 41 / 130
42 Vorhersagen: es gibt zwei unterschiedliche 2.18 Vorhersage für den Wert der Geraden an einer Stelle x Schätzung für den Wert der Geraden y(x) = b 0 + b 1 x an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x 2.2 Lineare (1 α)-konfidenzintervall für y(x) (ŷ(x) t n 2;α/2 ŝ y(x), ŷ(x) + t n 2;α/2 ŝ y(x) ) wobei ŝ 2 y(x) = S 2 y x ( 1 n + (x x ) 2 n i=1 (x i x ) 2 ) den Schätzer für die Varianz von Ŷ (x) bezeichnet 42 / 130
43 Vorhersagen: es gibt zwei unterschiedliche 2.19 Vorhersage für eine neue Beobachtung an einer Stelle x Schätzer für eine neue Beobachtung Ỹ (x) = b 0 + b 1 x + ε an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x 2.2 Lineare (1 α)-konfidenzintervall für y(x) (ŷ(x) t n 2;α/2 s y(x), ŷ(x) + t n 2;α/2 s y(x) ) wobei s 2 y(x) = S 2 y x (1 + 1 n + (x x ) 2 n i=1 (x i x ) 2 ) den Schätzer für die Varianz von ŷ(x) + ε bezeichnet Beachte: Diese Varianz wird bei wachsendem Stichprobenumfang nicht beliebig klein! 43 / 130
44 2.20 Beispiel (Fortsetzung von Beispiel 2.1) (1) Gesucht ist ein 90% Konfidenzintervall für den Wert der Geraden an der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ 2 y(x) = 1.116, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für den Wert der Geraden an der Stelle 16 ist gegeben durch 2.2 Lineare [16.677, ] (2) Gesucht ist ein 90% Konfidenzintervall für eine neue Beobachtung der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ 2 ỹ(x) = 23.85, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für eine neue Beobachtung an der Stelle 16 ist gegeben durch [10.118, ] 44 / 130
45 SPSS Output: Vorhersagen bei linearer in Beispiel 2.1 (schwierig) 2.2 Lineare 45 / 130
46 SPSS Output: Konfidenzintervalle für Vorhersagen bei linearer in Beispiel Lineare 25 Motivation Leistungsstreben 46 / 130
47 2.21 Residuenanalyse Unter der Modellannahme des linearen smodells gilt: die Größen ε i = Y i b 0 b 1 x i sind unabhängig und normalverteilt mit Erwartungswert 0 und Varianz σ 2 > 0. Das bedeutet, dass diese Eigenschaften auch näherungsweise für die Residuen 2.2 Lineare ˆε i = y i ˆb 0 ˆb 1 x i erfüllt sein sollte, falls die Modellannahme zutrifft. Residuenanalyse ist ein deskriptives Verfahren für die Überprüfung der Annahmen an ε 1,..., ε n mit 4 Teilschritten (oft werden auch nicht alle gemacht): A: Das Streudiagramm der Daten mit der slinie B: Ein Streudiagramm der Residuen gegen die vorhergesagten Werte C: Normalverteilungs-QQ-Plot der Residuen D: Histogramm der Residuen mit angepasster Normalverteilungsdichte 47 / 130
48 Residuenanalyse bei erfüllten Voraussetzungen Abhängige Variable A Residuum B 2.2 Lineare Unabhängige Variable C 1.0 Vorhergesagter Wert D Empirische Quantile Theoretische Quantile der Standardnormalvert. f(residuum) Residuum 48 / 130
49 Residuenanalyse bei Abweichungen von der Normalverteilung (Ausreißer) Abhängige Variable A Residuum B 2.2 Lineare Empirische Quantile Unabhängige Variable C Theoretische Quantile der Standardnormalvert. f(residuum) Vorhergesagter Wert D Residuum 49 / 130
50 Residuenanalyse bei Stratifizierung Beachte: verschiedene Untergruppen (Strata) können ebenfalls zu Abweichungen von den Modellannahmen führen. Für die Strata können dann unterschiedliche sgleichungen gelten. Abhängige Variable A Unabhängige Variable C Residuum B Vorhergesagter Wert D 2.2 Lineare Empirische Quantile f(residuum) Theoretische Quantile der Standardnormalvert Residuum 50 / 130
51 Residuenanalyse bei falscher Modellannahme Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2.2 Lineare Statt des linearen Modells wäre ein Polynom 3. Grades die bessere Annahme für die Beschreibung des funktionalen Zusammenhangs! 51 / 130
52 Residuenanalyse bei ungleichen Varianzen (Heteroskedastizität) Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2.2 Lineare 52 / 130
53 SPSS Output: Residuenanalyse in Beispiel Lineare Motivation R-Quadrat linear = 0, Leistungsstreben Streudiagramm und geschätzte sgerade im Beispiel der Arbeitsmotivation 53 / 130
54 SPSS Output: Residuenanalyse in Beispiel 2.1 Standardized Residual 3, , ,00000, Lineare -1, , , ,00000, , ,00000 Standardized Predicted Value Streudiagramm der Residuen gegen die vorhergesagten Werte im Beispiel der Arbeitsmotivation 54 / 130
55 SPSS Output für Residuenanalyse 2 Q-Q-Diagramm von Normal von Standardized Residual 2.2 Lineare Erwarteter Wert von Normal Beobachteter Wert QQ-Plot im Beispiel der Arbeitsmotiovation 55 / 130
56 Korrelation und lineare Es besteht ein enger Zusammenhang zwischen linearer Korrelation 2.2 Lineare Ist ˆb 1 die Schätzung im linearen smodell und ˆρ x,y der Korrelationskoeffizient von Pearson, dann gilt: n i=1 ˆρ x,y = (x i x ) 2 n i=1 (y i y ˆb ) 2 1 Ist R 2 das Bestimmtheitsmaß und ˆρ x,y der Korrelationskoeffizient von Pearson, dann gilt: ˆρ 2 x,y = R 2 56 / 130
57 2.2 Lineare 57 / 130
58 2.22 Beispiel: Arbeitsmotivation mit mehreren Prädiktoren y: Motivation (Einschätzung der Arbeitsmotivation durch Experten) Prädiktoren: Eigenschaften x1: Ehrgeiz (Fragebogen) x2: Kreativität (Fragebogen) x3: Leistungsstreben (Fragebogen) 2.2 Lineare Prädiktoren: Rahmenbedingungen x4: Hierarchie (Position in der Hierarchie des Unternehmens) x5: Lohn (Bruttolohn pro Monat) x6: Arbeitsbedingungen (Zeitsouveränität, Kommunikationsstruktur usw.) Prädiktoren: Inhalte der Tätigkeit x7: Lernponential (Lernpotential der Tätigkeit) x8: Vielfalt (Vielfalt an Teiltätigkeiten) x9: Anspruch (Komplexität der Tätigkeit) 58 / 130
59 Daten i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x Lineare 59 / 130
60 Daten i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x Lineare 60 / 130
61 2.23 Das Modell der multiplen linearen Daten (x 1, y 1 ),..., (x n, y n ) Es gibt k unabhängige Variablen: x i = (x 1i,..., x ki ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen der Variablen Y und dem Vektor x 1 gilt (im Beispiel ist k = 9): 2.2 Lineare Y i = b 0 + b 1 x 1i + b 2 x 2i b k x ki + ε i k = b 0 + b j x ji + ε i. j=1 ε i bezeichnet hier eine zufällige Störung und es wird angenommen, dass die Störungen ε 1,..., ε n unabhängig und normalverteilt sind mit Erwartungswert 0 und Varianz σ 2 > 0 Deutung: es wird ein linearer Zusammenhang zwischen x und Y postuliert, der noch zufälligen Störungen unterliegt 61 / 130
62 2.24 Schätzung bei multipler linearer Methode der kleinsten Quadrate: Minimiere n (y i b 0 b 1 x 1i b k x ki ) 2 i=1 2.2 Lineare bzgl. der Wahl von b 0,..., b k Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer ˆb 0, ˆb 1,..., ˆb k für die Parameter b 0,..., b k (Formeln sind kompliziert) Schätzer für die Varianz der Meßfehler S 2 y x = 1 n k 1 n (y i ˆb 0 ˆb 1 x 1i ˆb k x ki ) 2 i=1 62 / 130
63 Streudiagramm bei multipler linearer (k = 2) sfläche: ŷ(x) = x x Lineare Y X 1 X 2 63 / 130
64 Fortsetzung von Beispiel 2.22: Schätzer im multiplen linearen smodell Ergebnisse für die Schätzer im multiplen linearen smodel ˆb 0 = ˆb1 = ˆb 2 = ˆb 3 = ˆb 4 = ˆb 5 = ˆb 6 = ˆb7 = ˆb 8 = ˆb9 = Lineare Fragen: - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß der unabhängigen Merkmale auf die Motivation H 0 : b 1 = 0 H 0 : b 2 = 0. - Wie gut beschreibt das multiple lineare smodell die Situation? 64 / 130
65 Genauigkeit der Schätzung bei multipler linearer Schätzer ŝ b0,..., ŝ bk für die Standardfehler von ˆb 0,..., ˆb k sind verfügbar (Allgemeines lineares Modell Formeln kompliziert) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto genauer die Schätzungen Damit erhält man Konfidenzintervalle für b 0,..., b k, z.b. 2.2 Lineare (ˆb 0 t n k 1,1 α/2 ŝ b0, ˆb 0 + t n k 1,1 α/2 ŝ b0 ) ist (1 α)-konfidenzintervall für b 0 65 / 130
66 Fortsetzung von Beispiel 2.22: Schätzer für den Standardfehler der Schätzer im multiplen linearen smodell Ergebnisse für den Standardfehler der Schätzer im multiplen linearen smodell 2.2 Lineare Wegen t 15,0.975 = ist ŝ b0 = ŝ b1 = ŝ b2 = ŝ b3 = ŝ b4 = ŝ b5 = ŝ b6 = ŝ b7 = ŝ b8 = ŝ b9 = [ 0.089, 0.188] ein 95%-Konfidenzintervall für den Parameter b 3. Man beachte: ) n = 25; k = 9 n k 1 = / 130
67 2.25 Konfidenzintervalle für multiple lineare Modellannahme: multiple lineare Y i = b 0 + k b j x ji + ε i (i = 1,..., n) j=1 Rechterfertigung der Normalverteilungs- und Unabhängigkeitsannahme 2.2 Lineare Schätzer ŝ bj für den Standardfehler von ˆb j = (ˆb j t n k 1,1 α/2 ŝ bj, ˆb j + t n k 1,1 α/2 ŝ bj ) ist ein (1 α) -Konfidenzintervall für b j (j = 0,... k) t n k 1,1 α/2 ; (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden (Tabelle oder Software) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto kleiner die Konfidenzintervalle 67 / 130
68 2.26 Beispiel: Konfidenzintervalle für die Parameter in Beispiel 2.22 (Arbeitsmotivation ) ˆb j Merkmal Schätzung ŝ bj Konfidenzintervall ˆb [ , 6.926] ˆb 1 Ehrgeiz [0.020, 0.365] ˆb 2 Kreativität [0.049, 0.258] ˆb 3 Leistungsstreben [-0.089, 0.188] ˆb 4 Hierarchie [-0.069, 0.561] ˆb 5 Lohn [-0.004, 0.002] ˆb 6 Arbeitsbdg [-0.147, 0.085] ˆb 7 Lernpotential [-0.044, 0.373] ˆb 8 Vielfalt [0.095, 0.316] ˆb 9 Anspruch [-0.070, 0.177] 2.2 Lineare 68 / 130
69 SPSS Output: Schätzer, Standardabweichung und Konfidenzintervalle im Beispiel 2.22 (Arbeitsmotivation mit mehreren Prädiktoren) Koeffizienten a 2.2 Lineare Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze Obergrenze -14,609 6,926,020,365,049,258 -,089,188 -,069,561 -,004,002 -,147,085 -,044,373,095,316 -,070, / 130
70 2.27 Vorhersage der multiplen linearen Modellannahme: multiple lineare Y i = b 0 + k j=1 b jx ji + ε i (i = 1,..., n) Rechterfertigung der Normalverteilungs- und Unabhängigkeitsannahme Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) 2.2 Lineare ŷ(x) = ˆb 0 + k j=1 ˆb j x j In Beispiel 2.22 ergibt sich z.b. als Vorhersage der multiplen linearen an der Stelle x 1 = 21, x 2 = 30, x 3 = 15, x 4 = 11,, x 5 = 2900, x 6 = 41, x 7 = 25, x 8 = 55, x 9 = 54 der Wert ŷ(x) = / 130
71 Vorhersage der multiplen linearen Beachte: Wie in Abschnitt 2.18 und 2.19 gibt es zwei Vorhersagen: 2.2 Lineare Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Vorhersage für den Wert einer neuen Beobachtung an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Für beide Vorhesagen, kann man den Standardfehler bestimmen (Formeln kompliziert) und Konfidenzbereiche angeben (vgl. Abschnitt 2.18 und 2.19 für den Fall k = 1 ) 71 / 130
72 SPSS Output: Vorhersage bei der multiplen linearen (schwierig) 2.2 Lineare Beispiel: Schätzung für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): Schätzung für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): / 130
73 SPSS Output: Konfidenzintervalle für Vorhersagen bei mulitpler linearer 2.2 Lineare Konfidenzintervall für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [12.399, ] Konfidenzintervall für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [9.870, ] 73 / 130
74 2.28 Bestimmtheitsmaß bei multipler linearer Modellvohersage: ŷ i = ˆb 0 + ˆb 1 x 1i +... ˆb k x ki = ˆb 0 + k ˆb j x ji j=1 Residuum ˆε i = y i ŷ i = y i (ˆb 0 + k j=1 ˆb j x ji ) Beachte: Die Werte der abhängigen Variable zerfallen in Modellvorhersage (ŷ) und Residuum (ˆε), d.h. 2.2 Lineare y i = ŷ i + ˆε i i = 1,..., n Die Güte der Modellanpassung wird (wieder) durch das Besimmtheitsmaß R 2 beschrieben werden (Anteil erklärter Varianz) n R 2 i=1 = 1 (y i ŷ i ) 2 n n i=1 (y i y = i=1 (ŷ i y ) 2 ) 2 n i=1 (y i y. ) 2 74 / 130
75 Beispiel: das Bestimmtheitsmaß für das Beispiel 2.22 (Arbeitsmotivation) In Beispiel 2.22 ist 2.2 Lineare n = 25; k = 9 n i=1 (y i ŷ i ) 2 = n i=1 (y i y ) 2 = R 2 = = D.h % der Varianz der Variablen Motivation werden durch das multiple lineare smodell erklärt 75 / 130
76 2.29 Statistische Tests bei der multiplen linearer. Zwei wichtige Fragestellungen: Frage A: Hat mindestens eine der Prädiktorvariablen x 1,..., x k einen Einfluß auf die abhängige Variable y (Gesamttest auf Signifikanz). Mathematische Formulierung der Hypothese: Nullhypothese: 2.2 Lineare H 0 : b j = 0 für alle j {1, 2,..., k} Alternative: H 1 : b j 0 für mindestens ein j {1, 2,..., k} Frage B: Hat die Prädiktorvariablen x j (z.b. Ehrgeiz) einen Einfluß auf die abhängige Variable y. Mathematische Formulierung der Hypothese: Nullhypothese: H 0 : b j = 0 Alternative: H 1 : b j 0 76 / 130
77 2.29(A) Gesamttest auf Signifikanz Nullhypothese: H 0 : b j = 0 für alle j {1, 2,..., k} Alternative: H 1 : b j 0 für mindestens ein j {1, 2,..., k} (1) Bestimme Sreg 2 = 1 k n (ŷ i y ) 2 i=1 die Varianz der, und 2.2 Lineare S 2 y x = die Residualvarianz 1 n k 1 n (y i ŷ i ) 2 i=1 Beachte: man geht genau wie im linearen smodell vor! 77 / 130
78 2.29(A) Gesamttest auf Signifikanz (2) H 0 wird zu Gunsten der Alternative H 1 verworfen, falls F n = S 2 reg S 2 y x > F k;n k 1;1 α 2.2 Lineare gilt (oder der entsprechende p-wert kleiner als α ist). Dabei bezeichnet F k;n k 1;1 α das (1 α) Quantil der F -Verteilung mit (k, n k 1) Freiheitsgraden, Beachte: Wird H 0 durch diesen Test verworfen, dann bleibt aber noch unklar, welches der Merkmale signifikant ist 78 / 130
79 2.29(B) Tests für die Signifikanz einzelner Merkmale Nullhypothese: H 0 : b j = 0 Alternative: H 1 : b j 0 Die Nullhypothese H 0 wird zu Gunsten der Alternative H 1 verworfen, falls ˆb j T n = > t n k 1;1 α/2 ŝ bj 2.2 Lineare gilt (oder der entsprechende p-wert kleiner als α ist). Dabei ist tn k 1;1 α/2 das (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden ŝbj der Standardfehler von ˆb j Beachte: Werden mehrere Hypothesen gestestet, ist das Niveau entsprechend anzupassen (vgl. Abschntt 1.18). 79 / 130
80 2.30(A) Test auf Signifikanz im multiplen smodel in Beispiel 2.22 Frage: Hat einer der 9 Prädiktorvariablen einen Einfluß auf die abhängige Variable? 2.2 Lineare Mathematische Hypothesen: H 0 : b j = 0 für alle j = 1,..., 9 H 1 : b j 0 für mindestens ein j {1,..., 9} F n = , F 9,15,0.95 = Da F n > > ist, wird die Nullhypothese zum Niveau 5% verworfen. 80 / 130
81 2.30(B) Beispiel: Test auf Signifikanz eines Merkmals im multiplen linearen smodell in Beispiel 2.22 Frage: Hat die Prädiktorvariable Ehrgeiz (x 1 ) einen Einfluß auf die abhängige Variable Motivation (Signifikanz des skoeffizienten b 1 )? Mathematische Hypothesen: 2.2 Lineare H 0 : b 1 = 0; H 1 : b 1 0 ˆb1 = 0.193, ŝ b1 = 0.081, t 25 10,0.975 = 2.13 T 25 = Da T 25 = > 2.13 wird die Nullhypothese H 0 zu Gunsten der Alternative H 1 : b 1 0 verworfen (zum Niveau 5%) 81 / 130
82 SPSS Output: Der Test 2.29(A) für das Beispiel 2.22 (Arbeitsmotivation) ANOVA b 2.2 Lineare Modell 1 Residuen Gesamt Quadratsumme 707,309 53, ,960 df Mittel der Quadrate a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Abhängige Variable: Y 78,590 3,577 F 21,972 Signifikanz,000 a 82 / 130
83 SPSS Output: Der Test 2.29(B) für das Beispiel 2.22 (Arbeitsmotivation) Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Koeffizienten a Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070 Obergrenze 6,926,365,258,188,561,002,085,373,316, Lineare 83 / 130
84 2.31 Das Problem der Multikollinearität Beispiel: Betrachte in dem Beispiel der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 Prädiktorvariablen Y i = b 0 + b 1 x 1i + b 2 x 2i + b 3 x 3i + ε i i = 1,..., 25 (Y : Motivation, x 1 : Ehrgeiz x 2 : Kreativität, x 3 : Leistungsstreben) Schätzer für die Modellparameter 2.2 Lineare i ˆb i ŝ bi p-wert Bestimmtheitsmaß R 2 = Beachte: nur für den Koeffizient b 3 (Leistungsstreben) kann keine Signifikanz (zum Niveau 5% ) nachgewiesen werden 84 / 130
85 Korrelationsmatrix für die Prädiktoren Motivation Ehrgeiz Kreativität Leistungsstreben Motivation 1 Ehrgeiz.71 1 Kreativität Leistungsstreben.56.82* Lineare Beachte: Der Test 2.5 liefert eine signifikante Korrelation (zum Niveau 1%) zwischen den Variablen Leistungsstreben und Ehrgeiz (SPSS) 85 / 130
86 Beachte: Es gibt eine signifikante Korrelation zwischen den Variablen Leistungsstreben und Ehrgeiz Beide Variablen tragen weitgehend identische Information Im Beispiel ist die Variable Leistungsstreben redundant und wird nicht für die Vorhersage der abhängigen Variablen Motivation benötigt Die Variable Ehrgeiz ist stärker mit der Variablen Motivation korreliert als die Variable Leistungsstreben (aus diesem Grund ist der entsprechende Koeffizient auch signifikant) 2.2 Lineare Für die Bestimmtheitsmaße in den multiplen linearen smodellen mit drei bzw. zwei Variablen erhält man R 2 = für Modell mit den Prädiktoren x 1, x 2, x 3 R 2 = für Modell mit den Prädiktoren x 1, x 2 86 / 130
87 SPSS Output: Multikollinearität; Schätzer im Modell mit 3 Parametern Koeffizienten a 2.2 Lineare Modell B 1 (Konstante) 5,539 x1,393 x2,225 x3,001 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standard fehler 2,618,135,089,123 Standardisierte Koeffizienten Beta,688,343,002 T 2,116 2,913 2,528,008 Signifi kanz,046,008,020,994 95%-Konfidenzintervall für B Untergrenze Obergrenze,095 10,983,112,674,040,410 -,255, / 130
88 SPSS Output: Multilkollinearität; Korrelationsmatrix Y x1 x2 x3 Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Y 1,000,000 25,379,061, x1,708 **,000,053,802,000 Korrelationen x2,061, ,000, x3,559 **, ,708 ** 1,000,053,818 **, ,016, ,559 **,818 ** -,016 1,000 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant., Lineare 88 / 130
89 2.32 Das Problem der Suppressionseffekte Beispiel: Betrachte in dem Beispiel 2.22 der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 anderen Prädiktorvariablen 2.2 Lineare Y i = b 0 + b 4 x 4i + b 5 x 5i + b 6 x 6i + ε i i = 1,..., 25 (Y : Motivation, x 4 : Hierarchie, x 5 : Lohn, x 6 : Arbeitsbedingungen) Schätzungen für die Modellparameter i ˆbi ŝ bi p-wert / 130
90 Korrelationsmatrix für die Variablen Motivation, Hierarchie, Lohn und Arbeitsbedingungen Motivation Hierarchie Lohn Arbeitsbedingungen Motivation 1 Hierarchie.42* 1 Lohn ** 1 Arbeitsbedingungen Lineare Beachte: Zwischen der Prädiktorvariablen Lohn (x 5 ) und der abhängigen Variablen Motivation liegt keine signifikante Korrelation vor Dennoch bekommt diese Variable im multiplen smodell ein signifikantes Gewicht; d.h. die Hypothese H 0 : b 5 = 0 wird zum Niveau 5% verworfen (p-wert: 0.016). Man spricht von einem Suppressionseffekt. 90 / 130
91 Grund für diesen scheinbaren Widerspruch: Korrelationen sind bivariate Maße für (zwischen zwei Merkmalen). Das Modell der multiplen untersucht aber den Zusammenhang zwischen der Variablen Motivation und dem (3-dimensionalen) Prädiktor (x 4, x 5, x 6 ): 2.2 Lineare Motivation ist stark mit der Variablen Hierarchie korreliert Lohn ist ebenfalls stark mit der Variablen Hierarchie korreliert Prädiktorvariable Lohn wird in der multiplen linearen benötigt, um unerwünschte Varianzanteile der Variablen Hierarchie zu kompensieren Bestimmtheitsmaße für verschiedene Modelle R 2 = für Modell mit x 4, x 5, x 6 R 2 = für Modell mit x 4, x 6 91 / 130
92 SPSS Output: Suppressionseffekte; Schätzer im Modell mit 4 Parametern 2.2 Lineare Koeffizienten a Modell 1 (Konstante) x4,884 x5 -,007 x6,125 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten Standard B fehler Beta T Signifikanz 25,076 8,398 2,986,007,257,003,120,843 -,632,179 3,444-2,612 1,045,002,016,308 95%-Konfidenzintervall für B Untergrenze Obergrenze 7,612 42,539,350 1,419 -,013 -,001 -,124, / 130
93 SPSS Output: Suppressionseffekte; Schätzung der Korrelationsmatrix Y x4 x5 x6 Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Y 1,000, ,038,856 25,354, x4,419 *,037 25,717 **,000 25,163,435 Korrelationen 25 x5, , ,060, x ,419 * 1,000,717 **,163 *. Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant. **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. -,038,856,354,082, ,060, , Lineare 93 / 130
94 2.33 Merkmalselektionsverfahren Ziel: mit möglichst wenig Prädiktorvariablen eine gute Vorhersage der abhängigen Variablen zu erzielen. Prinzip: untersuche wie sich durch Weglassen einzelner Variablen das Bestimmtheitsmaß R 2 verändert. 2.2 Lineare Typische Selektionsprozeduren: (A) Rückwärtsverfahren (B) Vorwärtsverfahren (C) Schrittweise Verfahren Beachte: es handelt sich um explorative Verfahren, die hauptsächlich der Modellbildung dienen (Interpretation nicht einfach). 94 / 130
95 2.34 Das Rückwärtsverfahren Betrachte das vollständige Modell (mit allen Prädiktorvariablen) und berechne das Bestimmtheitsmaß R 2 Entferne sukzessive diejenigen Variablen, die zu dem geringsten Rückgang des Bestimmtheitsmaßes führen würden Das Verfahren wird abgebrochen, falls sich bei dem Entfernen einer Variablen das Bestimmtheitsmaß signifikant verkleinert 2.2 Lineare 95 / 130
96 2.35 Beispiel: Variablenselektion mit dem Rückwärtsverfahren (vgl. Beispiel 2.22) Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 1 Ehrgeiz Kreativität 3.13 Leistungsstreben.76 Hierarchie 1.66 Lohn -.59 Arbeitsbedingungen -.58 Lernpotential 1.68 Vielfalt 3.97 Anspruch Lineare 2 Ehrgeiz 2.38 Arbeitsbedingungen.928 Kreativität 3.28 Leistungsstreben.79 Hierarchie 1.66 Lohn -.57 Lernpotential 1.66 Vielfalt 4.04 Anspruch / 130
97 Beispiel: Rückwärtsverfahren - Fortsetzung Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 3 Ehrgeiz 2.54 Arbeitsbedingungen.926 Kreativität 3.43 Lohn Leistungsstreben.88 Hierarchie 2.11 Lernpotential 1.59 Vielfalt 4.17 Anspruch Lineare 4 Ehrgeiz 5.40 Arbeitsbedingungen.923 Kreativität 3.38 Lohn Hierarchie 2.31 Leistungsstreben Lernpotential 1.55 Vielfalt 4.12 Anspruch Ehrgeiz 5.18 Arbeitsbedingungen.916 Kreativität 3.16 Lohn Hierarchie 2.84 Leistungsstreben Lernpotential 3.31 Anspruch Vielfalt / 130
98 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation Aufgenommene/Entfernte Variablen b Entfernte Modell Aufgenommene Variablen Variablen Methode 1 x9, x5, x2, x3, x6, x8, x7, x4,. Eingeben 2. x6 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 3. x5 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 4. x3 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 5. x9 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). a. Alle gewünschten Variablen wurden aufgenommen. b. Abhängige Variable: Y 2.2 Lineare 98 / 130
99 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation Modellzusammenfassung Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,964 a,929,887 1,891,929 21, ,000 2,963 b,928,892 1,851 -,002, ,573 3,963 c,926,896 1,814 -,001, ,575 4,961 d,923,897 1,803 -,003, ,389 5,957 e,916,894 1,837 -,007 1, ,207 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 2.2 Lineare 99 / 130
100 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: ANOVA Modell Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadratsumme 707,309 53, , ,120 54, , ,000 55, , ,422 58, , ,852 64, ,960 df Mittel der Quadrate 78,590 3,577 88,265 3, ,714 3, ,070 3, ,370 3,374 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 f. Abhängige Variable: Y 9 F 21,972 25,752 30,596 35,999 41,306 ANOVA f Signifikanz,000 a,000 b,000 c,000 d,000 e 2.2 Lineare 100 / 130
101 SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell 1 (Konstante) 2 3 x1 x2 x3 x4 x5 x6 x7 x8 x9 (Konstante) x1 x2 x3 x4 x5 x7 x8 x9 (Konstante) x1 x2 x3 x4,193,153,049,246,000 -,031,165,206,053-4,737,187,157,050,240,000,157,205,052-7,154,193,159,055,172 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz -3,842 5,052 -,760,459,081,049,065,148,001,054,098,052,058 4,706,079,048,063,144,001,095,051,057 2,027,076,046,062,081,337,234,095,235 -,077 -,045,199,354,124,326,239,096,228 -,073,190,352,121,338,244,105,164 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920-1,007 2,376 3,285,790 1,660 -,572 1,655 4,040,914-3,529 2,540 3,431,885 2,113 Koeffizienten a,031,007,458,117,564,573,113,001,372,329,030,005,441,116,575,117,001,374,003,021,003,389,050 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070-14,713,020,056 -,084 -,066 -,004 -,044,097 -,068-11,431,033,061 -,076,000 Obergrenze 6,926,365,258,188,561,002,085,373,316,177 5,238,353,258,185,545,002,358,312,172-2,877,354,258,185, Lineare 101 / 130
102 2.36 Das Vorwärtsverfahren Bestimme diejenige Prädiktorvariable, die mit der abhängigen Variablen am stärksten korreliert ist und berechne das Bestimmtheitsmaß R 2 Ist R 2 signifikant, wird diese Variable in das Modell aufgenommen Füge sukzessive diejenigen Variablen zu dem Modell hinzu, die zu dem größten Anstieg des Bestimmtheitsmaßes führen Das Verfahren bricht ab, falls sich bei Hinzunahme einer neuen Variablen das Bestimmtheitsmaß R 2 nicht signifikant vergrößert 2.2 Lineare 102 / 130
103 SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation Aufgenommene Variablen Entfernte Variablen Modell Methode 1 x1. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) 2 Vorwährts- (Kriterium: Wahrscheinlichkeit x9. von F-Wert für Aufnahme <=,050) 3 x2. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) 4 Vorwährts- (Kriterium: Wahrscheinlichkeit x8. von F-Wert für Aufnahme <=,050) 5 x4. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) a. Abhängige Variable: Y Aufgenommene/Entfernte Variablen a 2.2 Lineare 103 / 130
104 SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation Modellzusammenfassung 2.2 Lineare Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,708 a,501,479 4,065,501 23, ,000 2,863 b,744,721 2,973,244 20, ,000 3,906 c,820,795 2,552,076 8, ,007 4,944 d,891,869 2,039,070 12, ,002 5,955 e,913,890 1,869,022 4, ,041 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 104 / 130
105 SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation: ANOVA Modell Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadrat summe 380, , , , , , , , , ,797 83, , ,596 66, ,960 df Mittel der Quadrate 380,968 16, ,228 8, ,081 6, ,449 4, ,919 3,493 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 f. Abhängige Variable: Y 1 ANOVA f F 23,059 32,035 31,962 40,751 39,773 Signifikanz,000 a,000 b,000 c,000 d,000 e 2.2 Lineare 105 / 130
106 SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell 1 (Konstante) x1 (Konstante) x1 x9 (Konstante) x1 x9 x2 (Konstante) x1 x9 x2 x8 (Konstante) x1 x9 x2 x8 x4,404,063,320,221-2,101,319,203,183-6,502,253,150,192,190-6,833,271,116,177,181,181 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 9,088 2,406 3,778,001,084 2,642,064,048 2,380,055,042,061 2,263,048,037,049,053 2,080,045,037,045,049,083 Koeffizienten a,708,560,515,558,474,279,442,350,293,327,474,271,271,311,173 4,802,024 4,983 4,580 -,883 5,776 4,862 2,979-2,873 5,286 4,101 3,908 3,589-3,285 6,076 3,147 3,903 3,706 2,193,000,981,000,000,387,000,000,007,009,000,001,001,002,004,000,005,001,001,041 95%-Konfidenzintervall für B Untergrenze 4,111,230-5,415,187,121-7,052,204,116,055-11,224,153,074,089,080-11,186,178,039,082,079,008 Obergrenze 14,064,579 5,542,454,321 2,849,433,290,310-1,781,352,226,294,301-2,479,364,193,272,283, Lineare 106 / 130
107 2.37 Das schrittweise Verfahren Rückwärts- und Vorwärtsverfahren werden kombiniert! Man führt ein Vorwärtsverfahren durch, wobei in jedem Schritt untersucht wird, ob bei Entfernen einer bereits aufgenommenen Variable das Bestimmtheitsmaß signifikant abnehmen würde. 2.2 Lineare 107 / 130
108 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation Modell 1 Aufgenommene Variablen Entfernte Variablen Methode x1. Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 2 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x9. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 3 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x2. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 4 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x8. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 5 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x4. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). a. Abhängige Variable: Y Aufgenommene/Entfernte Variablen a 2.2 Lineare 108 / 130
109 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation Modellzusammenfassung 2.2 Lineare Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,708 a,501,479 4,065,501 23, ,000 2,863 b,744,721 2,973,244 20, ,000 3,906 c,820,795 2,552,076 8, ,007 4,944 d,891,869 2,039,070 12, ,002 5,955 e,913,890 1,869,022 4, ,041 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 109 / 130
110 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation: ANOVA Modell Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadratsumme 380, , , , , , , , , ,797 83, , ,596 66, ,960 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 f. Abhängige Variable: Y df Mittel der Quadrate 380,968 16, ,228 8, ,081 6, ,449 4, ,919 3,493 ANOVA f F 23,059 32,035 31,962 40,751 39,773 Signifikanz,000 a,000 b,000 c,000 d,000 e 2.2 Lineare 110 / 130
111 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell (Konstante) x1 (Konstante) x1 x9 (Konstante) x1 x9 x2 (Konstante) x1 x9 x2 x8 (Konstante) x1 x9 x2 x8 x4 Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 9,088,404,063,320,221-2,101,319,203,183-6,502,253,150,192,190-6,833,271,116,177,181,181 2,406,084 2,642,064,048 2,380,055,042,061 2,263,048,037,049,053 2,080,045,037,045,049,083 Koeffizienten a,708,560,515,558,474,279,442,350,293,327,474,271,271,311,173 3,778 4,802,024 4,983 4,580 -,883 5,776 4,862 2,979-2,873 5,286 4,101 3,908 3,589-3,285 6,076 3,147 3,903 3,706 2,193,001,000,981,000,000,387,000,000,007,009,000,001,001,002,004,000,005,001,001,041 95%-Konfidenzintervall für B Untergrenze 4,111,230-5,415,187,121-7,052,204,116,055-11,224,153,074,089,080-11,186,178,039,082,079,008 Obergrenze 14,064,579 5,542,454,321 2,849,433,290,310-1,781,352,226,294,301-2,479,364,193,272,283, Lineare a. Abhängige Variable: Y 111 / 130
112 2.38 Bemerkung zu den verschiedenen Merkmalselektionsverfahren Beachte: Verschiedene Verfahren liefern verschiedene Ergebnisse (es gibt kein richtig oder falsch!) 2.2 Lineare Beispiel (Arbeitsmotivation) Rückwärtsverfahren Vorwärtsverfahren Schrittweises Verfahren Ehrgeiz Ehrgeiz Ehrgeiz Kreativität Kreativität Kreativität Hierarchie Hierarchie Hierarchie Lernpotential Anspruch Anspruch Vielfalt Vielfalt Vielfalt R 2 =.916 R 2 =.913 R 2 = / 130
113 2.2 Lineare 113 / 130
114 Nichtlineare Die (multiplen) linearen smodelle beruhen auf der Annahme, dass der Zusammenhang zwischen jeder Prädiktorvariable und der abhängigen Variablen linear ist, d.h., durch eine Gerade beschrieben werden kann 2.2 Lineare Diese Annahme muss nicht immer erfüllt sein. zwischen Variablen können im Grunde beliebige Form haben Man spricht in diesen Fällen von nichtlinearen n 114 / 130
115 2.39 Beispiel: Gedächtnistest Mehrere Personen machen einen Gedächtnistest 2.2 Lineare 30 Ortsnamen (aus Mongolei) werden vorgegeben y(x): Anzahl der Ortsnamen, die nach x Tagen noch im Gedächtnis geblieben sind (Mittelwerte) x y(x) / 130
116 Das Streudiagramm für die Daten aus Beispiel 2.39 (Gedächtnistest) 30,0 2.2 Lineare Anzahl der Ortsnamen 20,0 10,0, Tage 116 / 130
117 Lineare für die Daten aus Beispiel 2.39 (Gedächtnistest) 30,0 2.2 Lineare Anzahl der Ortsnamen 20,0 10,0, Tage Die Gleichung der geschätzten Geraden: y = x 117 / 130
118 Residuenanalyse bei linearer für die Daten aus Beispiel 2.39 (Gedächtnistest) 2, Lineare Standardized Residual 1,00000, , , , ,50000,00000, , ,50000 Standardized Predicted Value 118 / 130
119 QQ - Plot bei linearer für die Daten aus Beispiel 2.39 (Gedächtnistest) 1,5 Q-Q-Diagramm von Normal von Standardized Residual 2.2 Lineare 1,0 Erwarteter Wert von Normal 0,5 0,0-0,5-1,0-1, Beobachteter Wert 119 / 130
120 Beachte: Ein lineares modell ist für die Beschreibung des Zusammenhangs ungeeignet! Quadratisches smodel 2.2 Lineare Y i = b 0 + b 1 x i + b 2 x 2 i + ε i Schätzung der Parameter mit der Methode der kleinsten Quadrate und die entsprechenden Standardfehler ˆb 0 = ˆb 1 = ˆb 2 = ŝ b0 = ŝ b1 = ŝ b2 = / 130
121 Konfidenzbereiche und Tests Man geht wie in 2.12 und 2.14 bzw vor 90% Konfidenzintervall für b 2 (man beachte: das Modell hat 3 Parameter) t 10 3,0.95 = ˆb2 = ŝ b2 = Lineare [ˆb 2 t 7,0.95 ŝ b2, ˆb 2 + t 7,095 ŝ b2 ] = [0.2092, ] ist 90% Konfidenzintervall für b 2 Die Hypothese H 0.b 2 = 0 wird (zum Niveau 10%) verworfen, fall ˆb 2 > t10 3,0.95 ŝ b2 gilt (im Beispiel wird also H 0 abgelehnt) 121 / 130
122 SPSS-Output: Schätzer für quadratische 2.2 Lineare Nicht standardisierte Koeffizienten Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta t Sig. Tage -4,876,233-2,183-20,927,000 Tage ** 2,249,021 1,257 12,055,000 (Konstante) 29,088,558 52,136, / 130
123 Streudiagramm für die Daten aus Beispiel 2.39 mit der geschätzten Parabel 30,0 Anzahl der Ortsnamen Beobachtet Quadratisch 2.2 Lineare 20,0 10,0 0, Tage 123 / 130
124 SPSS-Output: Residuenanalysefür für die Daten aus Beispiel 2.39 bei quadratischer 2, Lineare 1,00000 Standardized Residual, , , , ,50000,00000, , , ,00000 Standardized Predicted Value 124 / 130
125 SPSS-Output: QQ-Plot für die Daten aus Beispiel 2.39 bei quadratischer 1,5 Q-Q-Diagramm von Normal von Standardized Residual 2.2 Lineare 1,0 Erwarteter Wert von Normal 0,5 0,0-0,5-1,0-1, Beobachteter Wert 125 / 130
126 SPSS-Output: Histogramm für die Residuen aus Beispiel 2.39 bei quadratischer Histogramm Abhängige Variable: Anzahl der Ortsnamen 2.2 Lineare 2,5 Mittelwert =3,96E-16 Std.-Abw. = 0,882 N =10 2,0 Häufigkeit 1,5 1,0 0,5 0, Standardisiertes Residuum 126 / 130
127 2.40 Polynomiale smodelle Modelle zur polynomialen Ordnung Modell 0. Y = b 0 + ε 1. Y = b 0 + b 1 x 1 + ε 2. Y = b 0 + b 1 x 1 + b 2 x 2 + ε.. k. Y = b 0 + b 1 x 1 + b 2 x b k x k + ε 2.2 Lineare Beachte: In der Regel werden nur Modelle von niedrigem Grad verwendet (k 3)! Schätzung der Parmeter erfolgt mit der Methode der kleinsten Quadrate Konfidenzintervalle, Tests und Residuenanalyse werden wie bei der linearen bzw. multiplen durchgeführt (Allgemeines lineares Modell) 127 / 130
128 2.41 Mehrdimensionale Polynome Sind mehrere Prädiktorenvariable verfügbar, so können neben Potenzen auch Produkte von zwei oder mehr Variablen in die sgleichung aufgenommen werden Beispiele: 2.2 Lineare Y (x) = b 0 + b 1 x 1 + b 2 x 2 + b 12 x 1 x 2 + ε Y (x) = b 0 + b 1 x 1 + b 2 x 2 + b 12 x 1 x 2 + b 02 x b 20 x ε Y (x) = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 120 x 1 x 2 + b 103 x 1 x 3 +b 023 x 2 x 3 + b 123 x 1 x 2 x 3 + ε 128 / 130
129 3D-Streudiagramm mit der geschätzten Funktion Lineare Y X X Die geschätzte Funktion ist:. ŷ(x) = x x x 1 x / 130
130 Y 3D-Streudiagramm mit der geschätzten Funktion Polynomiale Terme und Produkte der Prädiktoren können natürlich auch gemeinsam vorkommen. Beispiel: y(x) = b 0 + b 11 x 1 + b 12 x b 21 x 2 + b 23 x b 11;21 x 1 x 2 + ε. 2.2 Lineare X X Die angepasste Funktion hat die Form ŷ(x) = x x x x x 1 x / 130
Korrelation - Regression. Berghold, IMI
Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines
Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":
Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur
Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)
Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang
Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8
1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen
2. Korrelation, lineare Regression und multiple Regression
2., Linear 2., lineare multiple 2., lineare 2.1 2.2 Lineare 2.1 2.2 Lineare 2.7 Partielle 2.7 Partielle 1 / 149 2., Linear 2., lineare 2.1 2.2 Lineare 2.1 2.7 Partielle 2 / 149 2.1 Beispiel: Arbeitsmotivation
Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über
Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion
9. Schätzen und Testen bei unbekannter Varianz
9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,
2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen
4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form
Korrelation (II) Korrelation und Kausalität
Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen
Einfache statistische Auswertungen mit dem Programm SPSS
Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...
90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft
Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte
Quantitative Methoden der Bildungsforschung
Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang
Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.
Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall
METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER
METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede
Fortgeschrittene Statistik Logistische Regression
Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E
Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression
Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen
Varianzanalyse (ANOVA: analysis of variance)
Varianzanalyse (AOVA: analysis of variance) Einfaktorielle VA Auf der Basis von zwei Stichproben wird bezüglich der Gleichheit der Mittelwerte getestet. Variablen müssen Variablen nur nominalskaliert sein.
Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1
LÖSUNG 9B a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Man kann erwarten, dass der Absatz mit steigendem Preis abnimmt, mit höherer Anzahl der Außendienstmitarbeiter sowie mit erhöhten
Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.
Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes
Grundlagen der Inferenzstatistik
Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,
Statistische Auswertung:
Statistische Auswertung: Die erhobenen Daten mittels der selbst erstellten Tests (Surfaufgaben) Statistics Punkte aus dem Punkte aus Surftheorietest Punkte aus dem dem und dem Surftheorietest max.14p.
Einfache Varianzanalyse für abhängige
Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese
Tutorial: Homogenitätstest
Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite
Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Das komplette Material finden Sie hier: Download bei School-Scout.de
Zusammenhänge zwischen metrischen Merkmalen
Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl
5. Schließende Statistik. 5.1. Einführung
5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.
Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.
040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl
Binäre abhängige Variablen
Binäre abhängige Variablen Thushyanthan Baskaran [email protected] Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen
Webergänzung zu Kapitel 10
Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder
Interne und externe Modellvalidität
Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer
In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.
Konstante Modelle: In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert. Der prognostizierte Wert für die Periode T+i entspricht
Statistik II für Betriebswirte Vorlesung 2
PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander
4. Erstellen von Klassen
Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl
Melanie Kaspar, Prof. Dr. B. Grabowski 1
7. Hypothesentests Ausgangssituation: Man muss sich zwischen 2 Möglichkeiten (=Hypothesen) entscheiden. Diese Entscheidung soll mit Hilfe von Beobachtungen ( Stichprobe ) getroffen werden. Die Hypothesen
1.3 Die Beurteilung von Testleistungen
1.3 Die Beurteilung von Testleistungen Um das Testergebnis einer Vp zu interpretieren und daraus diagnostische Urteile ableiten zu können, benötigen wir einen Vergleichsmaßstab. Im Falle des klassischen
Forschungsstatistik I
Prof. Dr. G. Meinhardt. Stock, Nordflügel R. 0-49 (Persike) R. 0- (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike [email protected] WS 008/009 Fachbereich
Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum
Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3
Willkommen zur Vorlesung Statistik
Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang
Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?
Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero? Manche sagen: Ja, manche sagen: Nein Wie soll man das objektiv feststellen? Kann man Geschmack objektiv messen? - Geschmack ist subjektiv
Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1
Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...
Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1
LÖSUNG 3A Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Mit den Berechnungsfunktionen LG10(?) und SQRT(?) in "Transformieren", "Berechnen" können logarithmierte Werte sowie die Quadratwurzel
Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau
1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank
Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge
2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten
Etwas positive Tendenz ist beim Wechsel der Temperatur von 120 auf 170 zu erkennen.
Explorative Datenanalyse Erstmal die Grafiken: Aufreisskraft und Temperatur 3 1-1 N = 1 15 17 Temperatur Diagramm 3 1 95% CI -1 N = 1 15 17 Temperatur Etwas positive Tendenz ist beim Wechsel der Temperatur
Ein möglicher Unterrichtsgang
Ein möglicher Unterrichtsgang. Wiederholung: Bernoulli Experiment und Binomialverteilung Da der sichere Umgang mit der Binomialverteilung, auch der Umgang mit dem GTR und den Diagrammen, eine notwendige
Stichprobenauslegung. für stetige und binäre Datentypen
Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung
Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:
Tangentengleichung Wie Sie wissen, gibt die erste Ableitung einer Funktion deren Steigung an. Betrachtet man eine fest vorgegebene Stelle, gibt f ( ) also die Steigung der Kurve und somit auch die Steigung
Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:
20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie
Aufgabe 1. Zunächst wird die allgemeine Tangentengleichung in Abhängigkeit von a aufgestellt:
Aufgabe 1 1.1. Bestimmung von D max : 1. Bedingung: x >0 ; da ln(x) nur für x > 0 definiert ist. 2. Bedingung: Somit ist die Funktion f a nur für x > 0 definiert und sie besitzt eine Definitionslücke an
QM: Prüfen -1- KN16.08.2010
QM: Prüfen -1- KN16.08.2010 2.4 Prüfen 2.4.1 Begriffe, Definitionen Ein wesentlicher Bestandteil der Qualitätssicherung ist das Prüfen. Sie wird aber nicht wie früher nach der Fertigung durch einen Prüfer,
Zeichen bei Zahlen entschlüsseln
Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren
Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min
Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe
Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln
Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder
Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )
Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels
Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen
Universität Karlsruhe (TH) Forschungsuniversität gegründet 825 Wilcoxon-Rangsummentest oder Mann-Whitney U-Test Motivation In Experimenten ist die Datenmenge oft klein Daten sind nicht normalverteilt Dann
Beurteilung der biometrischen Verhältnisse in einem Bestand. Dr. Richard Herrmann, Köln
Beurteilung der biometrischen Verhältnisse in einem Bestand Dr. Richard Herrmann, Köln Beurteilung der biometrischen Verhältnisse in einem Bestand 1 Fragestellung Methoden.1 Vergleich der Anzahlen. Vergleich
Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test
1/29 Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) Matthias Birkner http://www.staff.uni-mainz.de/birkner/biostatistik1516/ 11.12.2015 2/29 Inhalt 1 t-test
Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: 978-3-446-42033-5. Weitere Informationen oder Bestellungen unter
Leseprobe Wilhelm Kleppmann Versuchsplanung Produkte und Prozesse optimieren ISBN: -3-44-4033-5 Weitere Informationen oder Bestellungen unter http://www.hanser.de/-3-44-4033-5 sowie im Buchhandel. Carl
FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl
FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei
3. LINEARE GLEICHUNGSSYSTEME
176 3. LINEARE GLEICHUNGSSYSTEME 90 Vitamin-C-Gehalt verschiedener Säfte 18,0 mg 35,0 mg 12,5 mg 1. a) 100 ml + 50 ml + 50 ml = 41,75 mg 100 ml 100 ml 100 ml b) : Menge an Kirschsaft in ml y: Menge an
Varianzanalyse ANOVA
Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für
geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen
geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde
Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:
Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y
Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8
. Aufgabe: Für zwei verschiedene Aktien wurde der relative Kurszuwachs (in % beobachtet. Aus den jeweils 20 Quartaldaten ergaben sich die folgenden Box-Plots. Box-and-Whisker Plot Aktie Aktie 2-0,2 0,8,8
Einführung in statistische Analysen
Einführung in statistische Analysen Andreas Thams Econ Boot Camp 2008 Wozu braucht man Statistik? Statistik begegnet uns jeden Tag... Weihnachten macht Deutschen Einkaufslaune. Im Advent überkommt die
Auswertung mit dem Statistikprogramm SPSS: 30.11.05
Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit
Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1
Korrelation Die Korrelationsanalyse zeigt Zusammenhänge auf und macht Vorhersagen möglich Was ist Korrelation? Was sagt die Korrelationszahl aus? Wie geht man vor? Korrelation ist eine eindeutige Beziehung
Dokumentation. estat Version 2.0
Dokumentation estat Version 2.0 Installation Die Datei estat.xla in beliebiges Verzeichnis speichern. Im Menü Extras AddIns... Durchsuchen die Datei estat.xla auswählen. Danach das Auswahlhäkchen beim
Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005
Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Aufgabe 1: Grundzüge der Wahrscheinlichkeitsrechnung 19 P. Als Manager eines großen
Statistik im Versicherungs- und Finanzwesen
Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Grimmer Statistik im Versicherungs- und Finanzwesen Eine anwendungsorientierte Einführung 2014 1. Auflage Übungsaufgaben zu Kapitel
Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.
Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit
Überblick über die Verfahren für Ordinaldaten
Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische
6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)
6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden
12.1 Wie funktioniert ein Signifikanztest?
Sedlmeier & Renkewitz Kapitel 12 Signifikanztests 12.1 Wie funktioniert ein Signifikanztest? Zentrales Ergebnis eine Signifikanztests: Wie wahrscheinlich war es unter der Bedingung dass H0 gilt, diesen
ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?
BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions
Lineargleichungssysteme: Additions-/ Subtraktionsverfahren
Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als
q = 1 p = 0.8 0.2 k 0.8 10 k k = 0, 1,..., 10 1 1 0.8 2 + 10 0.2 0.8 + 10 9 1 2 0.22 1 = 0.8 8 [0.64 + 1.6 + 1.8] = 0.678
Lösungsvorschläge zu Blatt 8 X binomialverteilt mit p = 0. und n = 10: a PX = = 10 q = 1 p = 0.8 0. 0.8 10 = 0, 1,..., 10 PX = PX = 0 + PX = 1 + PX = 10 10 = 0. 0 0.8 10 + 0. 1 0.8 9 + 0 1 10 = 0.8 8 [
Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik
Abitur 8 II. Insektenpopulation LA/AG In den Tropen legen die Weibchen einer in Deutschland unbekannten Insektenpopulation jedes Jahr kurz vor Beginn der Regenzeit jeweils 9 Eier und sterben bald darauf.
Studiendesign/ Evaluierungsdesign
Jennifer Ziegert Studiendesign/ Evaluierungsdesign Praxisprojekt: Nutzerorientierte Evaluierung von Visualisierungen in Daffodil mittels Eyetracker Warum Studien /Evaluierungsdesign Das Design einer Untersuchung
Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)
Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR) Eine Firma stellt USB-Sticks her. Sie werden in der Fabrik ungeprüft in Packungen zu je 20 Stück verpackt und an Händler ausgeliefert. 1 Ein Händler
Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3
Lineare Funktionen Inhaltsverzeichnis 1 Proportionale Funktionen 3 1.1 Definition............................... 3 1.2 Eigenschaften............................. 3 2 Steigungsdreieck 3 3 Lineare Funktionen
B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!
Das folgende System besteht aus 4 Schraubenfedern. Die Federn A ; B funktionieren unabhängig von einander. Die Ausfallzeit T (in Monaten) der Federn sei eine weibullverteilte Zufallsvariable mit den folgenden
Statistik I für Betriebswirte Vorlesung 11
Statistik I für Betriebswirte Vorlesung 11 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 22. Juni 2012 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung
Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung
Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung Bearbeitet von Martina Sümnig Erstauflage 2015. Taschenbuch. 176 S. Paperback ISBN 978 3 95485
Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher
Planen mit mathematischen Modellen 00844: Computergestützte Optimierung Leseprobe Autor: Dr. Heinz Peter Reidmacher 11 - Portefeuilleanalyse 61 11 Portefeuilleanalyse 11.1 Das Markowitz Modell Die Portefeuilleanalyse
Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel
Ausarbeitung zum Proseminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn zum Thema Simulation des Anlagenpreismodels von Simon Uphus im WS 09/10 Zusammenfassung
Messgeräte: Mess-System-Analyse und Messmittelfähigkeit
Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Andreas Berlin 14. Juli 2009 Bachelor-Seminar: Messen und Statistik Inhalt: 1 Aspekte einer Messung 2 Mess-System-Analyse 2.1 ANOVA-Methode 2.2 Maße
Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B
Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben
Formelsammlung zur Kreisgleichung
zur Kreisgleichung Julia Wolters 6. Oktober 2008 Inhaltsverzeichnis 1 Allgemeine Kreisgleichung 2 1.1 Berechnung des Mittelpunktes und Radius am Beispiel..... 3 2 Kreis und Gerade 4 2.1 Sekanten, Tangenten,
7 Rechnen mit Polynomen
7 Rechnen mit Polynomen Zu Polynomfunktionen Satz. Zwei Polynomfunktionen und f : R R, x a n x n + a n 1 x n 1 + a 1 x + a 0 g : R R, x b n x n + b n 1 x n 1 + b 1 x + b 0 sind genau dann gleich, wenn
Die drei Kernpunkte der modernen Portfoliotheorie
Die drei Kernpunkte der modernen Portfoliotheorie 1. Der Zusammenhang zwischen Risiko und Rendite Das Risiko einer Anlage ist die als Varianz oder Standardabweichung gemessene Schwankungsbreite der Erträge
W-Rechnung und Statistik für Ingenieure Übung 11
W-Rechnung und Statistik für Ingenieure Übung 11 Christoph Kustosz ([email protected]) Mathematikgebäude Raum 715 Christoph Kustosz ([email protected]) W-Rechnung und Statistik
Willkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften
i x k k=1 i u i x i v i 1 0,2 24 24 0,08 2 0,4 30 54 0,18 3 0,6 54 108 0,36 4 0,8 72 180 0,60 5 1,0 120 300 1,00 2,22 G = 1 + 1 n 2 n i=1
1. Aufgabe: Der E-Commerce-Umsatz (in Millionen Euro) der fünf größten Online- Shopping-Clubs liegt wie folgt vor: Club Nr. Umsatz 1 120 2 72 3 54 4 30 5 24 a) Bestimmen Sie den Ginikoeffizienten. b) Zeichnen
Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten
DAS THEMA: TABELLEN UND ABBILDUNGEN Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen Standardisierung von Daten z-standardisierung Standardnormalverteilung 1 DIE Z-STANDARDISIERUNG
