23. Mai Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette
|
|
- Wolfgang Schmidt
- vor 6 Jahren
- Abrufe
Transkript
1 Ruhr-Universität Bochum 23. Mai / 178
2 Methodenlehre II NA 3/73 Telefon: Internet: Vorlesung: Montag, Uhr, HGA 10 Thema: Das allgemeine lineare Modell und seine Anwendungen in der Psychologie 2 / 178
3 Statistik-Team Übung: Dienstag, Uhr, HGA 30 Tobias Kley: Tutorium: SPSS Lars Kuchinke: GAFO 04/615 Mo Uhr GAFO 04/615 Mo Uhr Marco Grabemann: GA 1/128 Mo Uhr GAFO 04/271 Fr Uhr Cäcilia Werschmann: cilly GAFO 04/615 Fr Uhr Igor Ivanov: 3 / 178
4 Das allgemeine lineare Modell: Ein mathematisches Modell - viele statistische Verfahren Inhaltsverzeichnis am Beispiel des t-tests 2. Das lineare Regressionsmodell, und Korrelation 3. Das allgemeine lineare Modell 4 / 178
5 Literatur A. Aron, E.N. Aron, E.J. Coups, Statistics for Psychology, 5th Edition, Pearson Prentice Hall J. Bortz, Statistik, 6. Auflage, Springer M. Rudolf, J. Müller, Multivariate Verfahren, Hogrefe P. Zöfel, Statistik für Psychologen, Pearson Studium 5 / 178
6 schließenden Statistik 6 / 178
7 7 / 178
8 1.1 Beispiel: Intelligenzquotient Fragestellung: Haben (15-jährige) Kinder aus Bochum einen höheren Intelligenzquotienten als 100? 10 Kinder (zufällig ausgewählt) machen einen IQ-Test Daten: y 1,..., y 10 i y i i y i Hypothese (IQ der Kinder ist niedriger als 100): H 0 : µ 100 Alternative (IQ ist höher als 100): H 1 : µ > 100 Dabei ist µ der (unbekannte) Erwartungswert der Gesamtpopulation der (15-jährigen) Kinder aus Bochum 8 / 178
9 Prinzip der Auf Grund der y 1,..., y 10 sollen Aussagen über das Merkmal der Grundgesamtheit getroffen werden. Zum Beispiel Wie groß ist µ (Schätzung)? Kann man ein Intervall bestimmen, in dem µ liegt (Konfidenzintervall)? Gilt H 0 : µ 100 (IQ ist nicht höher) oder gilt H 1 : µ > 100 (IQ ist höher)? (statistischer Test) 9 / 178
10 Grundlegende Schwierigkeit: µ ist der Erwartungswert der Population der 15-jährigen Kinder Auf Basis der soll auf die Grundgesamtheit geschlossen werden Fehler, Unsicherheiten sind möglich! Beispiel: zufällig wählen wir 5 hochbegabte Kinder (IQ 130) für die aus. Vermutlich wird dadurch µ überschätzt! Ziel der : Quantifizierung der Unsicherheit, z. B. mit welcher Wahrscheinlichkeit macht ein statistischer Test einen Fehler, falls (aufgrund von Daten) für H 1 (IQ ist höher als 100) entschieden wird, obwohl in Wirklichkeit H 0 gilt? Notwendig für diese Quantifizierung: Mathematische Modellannahmen 10 / 178
11 Zusätzliche Modellannahme: Normalverteilung Allgemein gängige Annahme: Intelligenz in einer bestimmten Altersgruppe der Bevölkerung ist normalverteilt ( 1 ϕ(x) = exp 1 2πσ 2 2 (x µ ) σ )2 µ : Erwartungswert σ 2 : Varianz Deutung: Ist Y der IQ eines zufällig aus der Population ausgewählten Individuums, so gilt P(a Y b) = b a ϕ(x)dx Diese Modellannahme sollte man stets rechtfertigen (wie man das machen kann, sehen wir später) 11 / 178
12 Interpretation der Wahrscheinlichkeiten: a b Die Wahrscheinlichkeit, dass eine Beobachtung zwischen den Werten a und b liegt, entspricht der Fläche unter der Kurve im Intervall [a, b]. In Formeln: P(a Y b) = b a ϕ(x)dx 12 / 178
13 Verschiedene Normalverteilungen N(µ, σ 2 ) Dichten der Normalverteilung mit verschiedenen Parametern N(0,0.707) N(0,1) N(1,1.25) N(2,2) µ: Erwartungswert σ 2 : Varianz Beachte: unter jeder Kurve ist die Fläche genau 1 13 / 178
14 Motivation der Modellannahme der Normalverteilung 14 / 178
15 Zusätzliche Modellannahme: Normalverteilung Mathematisches Modell (hier n = 10): y 1,..., y n sind Realisierungen von Zufallsvariablen Y i = µ + ε i, i = 1,..., m yi: IQ-Messung für i-tes Kind (Realisation der Zufallsvariablen Y i) µ: (unbekannter) Erwartungswert der Population (hier der 15-jährigen Kinder aus Bochum) ε1,..., ε n: unabhängige Zufallsvariable, normalverteilt mit Erwartungswert 0 und Varianz σ 2. Interpretation: Messfehler, genetische Variabilität, Tagesform... Mathematische Statistik z. B. Maximum Likelihood (in diesem Beispiel auch der gesunde Menschenverstand) liefert Schätzer für µ: ˆµ = y = 1 n y i = n Wie genau ist diese Schätzung? Wie sehr streut diese Schätzung? i=1 15 / 178
16 Zusätzliche Modellannahme: Normalverteilung Maß für die Genauigkeit: Varianz (je kleiner die Varianz, desto genauer die Schätzung) Mathematische Statistik (Methodenlehre I): die Varianz des Schätzers ˆµ ist: Beachte: Var(ˆµ) = σ2 n Je größer der numfang n, desto kleiner die Varianz von ˆµ. D.h. desto genauer ist die Schätzung. Für die Beurteilung der Genauigkeit muss man die Varianz σ 2 der Population kennen. Mathematische Statistik: Schätzung für den Parameter σ 2 ˆσ 2 = 1 n 1 n (y i y ) 2 = i=1 ˆσ 2 µ = ˆσ2 n = / 178
17 Zusätzliche Modellannahme: Normalverteilung Oft wird der Schätzer zusammen mit dem Standardfehler angegeben ˆµ = ˆµ + ˆσ µ = ˆµ ˆσ µ = ˆσ µ = ˆσ ˆσ n = 2 n = ist der Standardfehler des Schätzers ˆµ (Schätzung für Streuung des arithmetischen Mittels) ˆσ = ist die aus den Daten geschätzte Standardabweichung (Schätzung für die Streuung einer einzelnen Beobachtung) Deutung: Vor der Datenerhebung ist ˆµ zufällig. Falls die Normalverteilungsannahme korrekt ist, ist auch ˆµ normalverteilt mit: - Erwartungswert µ - Varianz σ2 n 17 / 178
18 Dichte Verschiedene Normalverteilungen Y1 ~ N(104.1, 28.32) (Y1 + Y2) 2 ~ N(104.1, 28.32/2) 10 ( Yi) 10 ~ N(104.1, 2.832) i= x 18 / 178
19 1.2 Schätzverfahren (Erwartungswert einer Population unter Normalverteilungsannahme) Daten y 1,..., y n () mit Erwartungswert µ Rechtfertigung der Unabhängigkeits- und Normalverteilungsannahme ˆµ = 1 n n i=1 y i Schätzung für den Erwartungswert µ der Population ˆσ 2 = 1 n 1 n i=1 (y i y ) 2 Schätzung für die Varianz der Population (ˆσ Schätzung für die Standardabweichung) ˆσ 2 µ = ˆσ2 n Schätzung für die Varianz von ˆµ Schätzung für den Standardfehler von ˆµ : ˆσ µ = ˆσ 2 n = ˆσ n 19 / 178
20 SPSS-Output: die Schätzer für die Daten aus Beispiel 1.1 (Intelligenzquotient) Deskriptive Statistik N Mittelwert Standardabweichung Varianz Intelligenzquotient Gültige Werte (Listenweise) Statistik Statistik Standardfehler Statistik Statistik 104,10 1,683 5,322 28,322 ˆµ = 104.1(Mittelwert) ˆσ µ = 1.683(Standardfehler) ˆσ 2 = (empirische Varianz) ˆσ = 5.322(Standardabweichung) 20 / 178
21 Beachte: ˆµ = 1 n n i=1 y i ; ˆσ 2 = 1 n 1 n ˆσ (y i y ) 2 2 ; ˆσ µ = n i=1 hängen von den Daten y 1,..., y n ab (sind also vor Datenerhebung zufällig) (ˆµ a ˆσ µ, ˆµ + a ˆσ µ ) ist (vor der Datenerhebung) ein zufälliges Intervall, das mit einer bestimmten Wahrscheinlichkeit den Erwartungswert µ enthält a 0 = Wahrscheinlichkeit 0 a = Wahrscheinlichkeit 1 Gesucht: zufälliges Intervall, das den unbekannten Erwartungswert mit einer vorgegebenen Wahrscheinlichkeit enthält: Konfidenzintervall 21 / 178
22 Das Konfidenzintervall Gebe eine Wahrscheinlichkeit 1 α vor (z. B. 1 α = 95%) Bestimme a so, dass das zufällige Intervall (ˆµ a ˆσ µ, ˆµ + a ˆσ µ ) den Parameter µ mit Wahrscheinlichkeit 1 α enthält. Mathematische Statistik liefert a = t n 1,1 α 2 (1 α 2 )-Quantil der t-verteilung mit n 1 Freiheitsgraden Diese Werte sind tabelliert oder durch Software verfügbar. Das Intervall I = ( ˆµ t n 1,1 α 2 ˆσ µ, ˆµ + t n 1,1 α 2 ˆσ µ ) heißt (1 α) Konfidenzintervall für µ. 22 / 178
23 Verschiedene t-verteilungen Dichten der t Verteilung mit verschiedenen Freiheitsgraden t 100 t 4 t f n (t) = 1 πn Γ((n + 1)/2) Γ(n/2) ) (n+1)/2 (1 + t2 n 23 / 178
24 Das Quantil der t-verteilung mit n Freiheitsgraden Dichte der t4 -Verteilung t 4, 0.95 = P(T 4 t 4,0.95 ) = t4,0.95 f 4 (t)dt = / 178
25 Beispiel 1.3 (Fortsetzung von Beispiel 1.1) Berechnung eines 90% Konfidenzintervalls für µ n = 10, ˆµ = 104.1, ˆσ 2 = α = 10% (aus Tabelle bzw. Software) t9,0.95 = % Konfidenzintervall für µ = (101.02, ) Beachte: Ein (1 α)-konfidenzintervall ist ein zufälliges Intervall, das den (unbekannten) Erwartungswert mit Wahrscheinlichkeit 1 α enthält. Die Aussage das Intervall (101.02, ) enthält den unbekannten Erwartungswert der Population mit Wahrscheinlichkeit 90% hat keinen Sinn! 25 / 178
26 Erklärung des Begriffs zufälliges Intervall durch ein fiktives Experiment Annahme: das Experiment (Untersuchung des IQ von 10 Kindern) kann N mal (unabhängig) wiederholt werden (z. B mal) jeweils 10 Daten liefern ein (1 α)-konfidenzintervall (z. B. 95 % Konfidenzintervall) Datensatz 1 Konfidenzintervall I 1 Datensatz 2 Konfidenzintervall I 2. Datensatz N Konfidenzintervall I N ca. (1 α) N (z. B. 95% 1000 = 950) Intervalle enthalten den (unbekannten) Erwartungswert µ der Population 26 / 178
27 1.4 Konfidenzbereich für den Erwartungswert einer Population unter Normalverteilungsannahme Daten y 1,..., y n () mit Erwartungswert µ Rechtfertigung der Unabhängigkeits- und Normalverteilungsannahme Bestimme das t n 1,1 α 2 Quantil der t-verteilung mit n 1 Freiheitsgraden (aus Tabelle oder Software) Das Intervall (ˆµ t n 1,1 α 2 ˆσ µ, ˆµ + t n 1,1 α 2 ˆσ µ) ist ein (1 α) Konfidenzintervall für µ In vielen Softwarepaketen erhält man direkt das Konfidenzintervall als Ausgabe (z. B. in SPSS) 27 / 178
28 SPSS-Output: Konfidenzintervall für die Daten aus Beispiel 1.1 (Intelligenzquotient) T df Sig. (2-seitig) Mittlere Differenz Untere Obere Intelligenzquotient 2,436 9,038 4,100 1,02 7,18 Beachte: Test bei einer Sichprobe Testwert = % Konfidenzintervall der Differenz SPSS liefert nur ein Konfidenzintervall für die Differenz µ 100 = 90% Konfidenzintervall für den Erwartungswert µ (101.02, ) 28 / 178
29 29 / 178
30 Beispiel 1.5 (Fortsetzung von Beispiel 1.1) Frage: Ist der IQ der Kinder aus Bochum höher als 100? H 0 : µ 100 H 1 : µ > 100 H 0 nennt man Nullhypothese und H 1 heißt Alternative. Intuitiv würde man für H 1 entscheiden, falls der Mittelwert der ˆµ = 1 10 y i 10 groß ist Beachte: ˆµ ändert sich, falls man die Daten anders skaliert! i=1 Besser: entscheide für H 1, falls ˆµ groß im Verhältnis zu dem Standardfehler ˆσ µ ist (Invarianz bzgl. unterschiedlicher Skalierungen) 30 / 178
31 Die Nullhypothese H 0 : µ 100 wird abgelehnt falls Fragen: T = ˆµ 100 ˆσ µ > c Wie legt man den kritischen Wert c fest? Bei dem Verfahren können 2 Fehler auftreten Fehler erster Art: Die Nullhypothese H0 wird abgelehnt, obwohl H 0 in Wirklichkeit stimmt (d. h. der IQ ist nicht höher als 100) Fehler zweiter Art: Die Nullhypothese H0 wird nicht abgelehnt, obwohl in Wirklichkeit die Alternative H 1 zutrifft (d. h. der IQ ist höher als 100) Ziel: kleine Wahrscheinlichkeiten für Fehler erster und zweiter Art 31 / 178
32 Grundlegendes Prinzip der Testtheorie Der kritische Wert c wird festgelegt, indem man eine maximal tolerierbare Wahrscheinlichkeit α für einen Fehler erster Art vorgibt (α-fehler)! Diese Wahrscheinlichkeit heißt Niveau des Tests. Damit hat man keine Kontrolle über die Wahrscheinlichkeit eines Fehlers zweiter Art (β-fehler) Z. B. soll die Wahrscheinlichkeit für Fehler erster Art maximal α = 5% = 0.05 sein. = (mathematische Statistik, Tabelle, Software) n = 10, c = t n 1,1 α = t 9,0.95 = T = ˆµ = = > ˆσ µ D. h. die Nullhypothese H 0 : µ 100 wird zum Niveau α = 5% zu Gunsten der Alternative H 1 : µ > 100 verworfen (signifikantes Ergebnis zum Niveau 5 %) 32 / 178
33 Erklärung des Begriffs Niveau durch ein fiktives Experiment Annahme: Das Experiment (Untersuchung des IQ von 10 Kindern) kann N mal (unabhängig) wiederholt werden (z. B mal) jeweils 10 Daten liefern ein Ergebnis für den Test zum Niveau α (z.b. Niveau 5 %) Datensatz 1 Testergebnis 1 Datensatz 2 Testergebnis 2. Datensatz N Testergebnis N Falls die Nullhypothese H 0 : µ 100 wahr ist, so wird maximal in ca. αn (z. B. 5% 1000 = 50) Fällen für die Alternative H 1 : µ > 100 entschieden. 33 / 178
34 Fehler erster und zweiter Art Beachte: in der Population gilt H 0 H 1 Entscheidung auf- richtige β-fehler grund der Stich- H 0 Entscheidung probe zugunsten richtige von: H 1 α-fehler Entscheidung Die Wahrscheinlichkeiten für α-fehler und β-fehler verändern sich gegenläufig. Bei festem Niveau (Wahrscheinlichkeit für α-fehler) kann die Wahrscheinlichkeit für einen β-fehler durch Vergrößerung des numfangs verkleinert werden. Bei festem numfang wird nur der Fehler erster Art kontrolliert. 34 / 178
35 Die Verteilung von T falls µ = 100 ist Dichte der t9 -Verteilung p Wert α = 5 % t 9, 0.95 = T n = Kritischer Wert: t n 1,0.95 = (H 0 wird verworfen, falls T größer als der kritische Wert ist) Blaue Fläche: Niveau (α) Rote Fläche: p-wert: Wahrscheinlichkeit einen Wert größer als zu beobachten: P(T > 2.436) = Beachte: Ist der p-wert < α (wie in diesem Beispiel) dann wird H 0 abgelehnt (signifikantes Ergebnis) 35 / 178
36 Testverfahren für den Erwartungswert einer unter Normalverteilungsannahme 1.6 Einstichproben t-test für rechtsseitige Hypothesen Hypothesen: H 0 : µ µ 0 ; Hypothese) H 1 : µ > µ 0 (rechtsseitige Daten y 1,..., y n () mit Erwartungswert µ Rechtfertigung der Unabhängigkeits- und Normalverteilungsannahme H 0 wird zum Niveau α verworfen, falls T = ˆµ µ 0 ˆσ µ > t n 1,1 α gilt, bzw. falls der p-wert < α ist. ˆµ: Schätzer für µ; ˆσ µ : Schätzer für den Standardfehler von ˆµ 36 / 178
37 Vertauschen der Hypothesen 1.7 Einstichproben t-test für linksseitige Hypothesen Hypothesen: H 0 : µ µ 0 ; Hypothese) H 1 : µ < µ 0 (linksseitige Daten y 1,..., y n () mit Erwartungswert µ Rechtfertigung der Unabhängigkeits- und Normalverteilungsannahme H 0 wird zum Niveau α verworfen, falls T = ˆµ µ 0 ˆσ µ < t n 1,1 α = t n 1,α gilt, bzw. falls der p-wert < α ist. ˆµ: Schätzer für µ; ˆσ µ : Schätzer für den Standardfehler von ˆµ 37 / 178
38 Tests für zweiseitige Hypothesen 1.8 Einstichproben t-test für zweiseitige Hypothesen Hypothesen: H 0 : µ = µ 0 ; Hypothese) H 1 : µ µ 0 (zweiseitige Daten y 1,..., y n () mit Erwartungswert µ Rechtfertigung der Unabhängigkeits- und Normalverteilungsannahme H 0 wird zum Niveau α verworfen, falls T = ˆµ µ 0 > t n 1,1 α/2 ˆσ µ gilt, bzw. falls der p-wert kleiner als α ist. ˆµ: Schätzer für µ; ˆσ µ : Schätzer für den Standardfehler von ˆµ 38 / 178
39 Die Verteilung von T, falls µ = 100 ist p Wert α = 2,5 % Dichte der t9 -Verteilung α = 2,5 % p Wert -T n = t 9, = t 9, = T n = Blaue Fläche: Niveau α; Rote Fläche: p-wert (Wahrscheinlichkeit einen Wert zu beobachten, dessen Betrag größer als ist P( T > 2.436) = Beachte: Ist der p-wert < α (wie in diesem Beispiel), dann wird H 0 abgelehnt! 39 / 178
40 SPSS-Output bei Anwendung des t-tests auf die Daten aus Beispiel 1.1 (Intelligenzquotient) Test bei einer Sichprobe Testwert = % Konfidenzintervall der Differenz T df Sig. (2-seitig) Mittlere Differenz Untere Obere Intelligenzquotient 2,436 9,038 4,100 1,02 7,18 Beachte: SPSS liefert nur den p-wert für den zweiseitigen t-test aus Beispiel 1.8! Den p-wert für den einseitigen Test erhält man als 0.038/2 = / 178
41 Beispiel: t-test für den Vergleich von zwei verbundenen n Eine der wichtigsten Anwendungen der in 1.6, 1.7 und 1.8 vorgestellten Verfahren besteht in dem Vergleich von verbundenen n (vorher - nachher Untersuchungen) Beispiel: Untersuchung der Einstellungen von 9 Jungen gegenüber neutralen Personen vor und nach einem Frustrationserlebnis (Sündenbockfunktion). VPn Einstell- vorher ung nachher / 178
42 Prinzip: Differenzenbildung Prinzip: Falls kein Unterschied zwischen den Einstellungen vor und nach dem Frustrationserlebnis besteht sollten die Differenzen (nachher - vorher) klein sein. Durch Differenzenbildung (nachher - vorher) erhält man die Daten 1,..., 9 Rechtfertigung der Voraussetzungen für den t-test aus 1.8 für diese Daten. Wende den t-test für eine auf die Daten 1,..., 9 an und teste die Hypothesen H 0 : µ = 0, H 1 : µ 0 Wegen T = = 3.27 > 2.31 = t 8,0.975 besteht zum Niveau α = 0.05 ein signifikanter Unterschied. 42 / 178
43 SPSS Output: t-test für gepaarte n Paaren 1 vorher nachher Statistik bei gepaarten n Mittelwert 33,44 30,78 N 9 9 3,358 3,346 Korrelationen bei gepaarten n N Korrelation Signifikanz Paaren 1 vorher & nachher 9,733,025 Test bei gepaarten n Standardfehler des Mittelwertes 1,119 1,115 Gepaarte Differenzen Mittelwert Standardabweichung Standardabweichung Standardfehler des Mittelwertes 95% Konfidenzintervall der Differenz Untere Obere Paaren 1 vorher - nachher 2,667 2,449,816,784 4,550 Test bei gepaarten n Sig. T df (2-seitig) Paaren 1 vorher - nachher 3,266 8, / 178
44 1.9 Bemerkungen (zu den statistischen Verfahren 1.2, 1.4, 1.6, 1.7, 1.8) Mathematische Statistik unter der Normalverteilungsannahme sind alle hier vorgestellten Verfahren optimal Die Normalverteilungsannahme kann (und sollte) man rechtfertigen. Mögliche Verfahren sind: statistische Tests für die Hypothese H 0 : Y 1,..., Y n normalverteilt In SPSS üblich sind - Kolmogorov-Smirnov-Test - Shapiro-Wilk Test Explorative Verfahren. In SPSS üblich: QQ-Plot Besteht die Normalverteilungsannahme diese Überprüfung nicht, so sind z. B. nichtparametrische Verfahren anzuwenden. 44 / 178
45 SPSS Output: QQ-Plot für die Daten aus Beispiel Q-Q-Diagramm von Normal von Intelligenzquotient Erwarteter Wert von Normal Beobachteter Wert 45 / 178
46 Der QQ-Plot Unter der Modellannahme gilt: die Größen Y i sind normalverteilt mit Erwartungswert µ und Varianz σ 2 Der QQ-Plot vergleicht grafisch die empirischen Quantile der Daten y 1,..., y n mit den Quantilen der Normalverteilung mit Erwartungswert ˆµ und Varianz ˆσ 2. (1) 1/n-Quantil der y 1,... y n = kleinste der Beobachtungen y (1) (in Beispiel 1.1 ist y (1) = 97) (1 1/2)/n-Quantil der Normalverteilung mit Erwartungswert ˆµ und Varianz ˆσ 2 = (im Beispiel 1.1 ist z (1) = = 95.37) (2) 2/n-Quantil der y 1,..., y n = zweitkleinste der Beobachtungen y (2) (in Beispiel 1.1 ist y (2) = 98) (2 1/2)/n-Quantil der Normalverteilung mit Erwartungswert ˆµ und Varianz ˆσ 2 = (in Beispiel 1.1 ist z (2) = = 98.57) (3) usw. Der QQ-Plot ist das Streudiagramm der Daten (y (1), z (1) ),..., (y (n), z (n) ) In in vielen Fällen enthält dieses Diagramm noch die Winkelhalbierende des entsprechenden Quadranten. 46 / 178
47 47 / 178
48 1.10 Beispiel: Erkennen von Zahlenreihen Studierende der Fachrichtungen Mathematik (M) und Psychologie (P) machen einen Zahlengedächtnistest Wie viele Ziffern können sich maximal gemerkt werden Wiedergabe in Original und umgekehrter Reihenfolge Daten (P. Zöfel: Statistik für Psychologen) M P M P Frage: Haben Studierende der Mathematik ein besseres Zahlengedächtnis als Studierende der Psychologie? 48 / 178
49 Mathematisches Modell (n 1 = 14, n 2 = 8) Y ij := µ i + ε ij ; j = 1,..., n i ; i = 1, 2 Y ij : Ergebnis der j-ten Versuchsperson in Gruppe i (Mathematik: i = 1, Psychologie i = 2) µ i : unbekannter Erwartungswert in der Population i (Mathematik: i = 1, Psychologie: i = 2) ε ij : Messfehler, Tagesform... n i : numfang in Gruppe i Normalverteilungs- und Unabhängigkeitsannahme in jeder Gruppe (i = 1, 2) liegt eine Normalverteilung mit Erwartungswert µ i und Varianz σi 2 vor in jeder Gruppe sind die Beobachtungen unabhängig unabhängige n 49 / 178
50 Schätzer Schätzer werden wie in 1.2 für jede Gruppe durchgeführt Mathematiker (i = 1): ˆµ 1 = y 1 = 1 n1 n 1 j=1 y 1j = ˆσ 2 1 = 1 n 1 1 n 1 j=1 (y 1j y 1 ) 2 = 3.94 ˆσ µ1 = Psychologen (i = 2): ˆµ 2 = y 2 = 1 n 2 n 2 y 2j = ˆσ 2 2 = 1 n 2 1 n 2 j=1 j=1 (y 2j y 2 ) 2 = 4.79 ˆσ µ2 = ˆσ 2 1 n 1 = 0.53 ˆσ 2 2 n 2 = 0.77 Auch Konfidenzbereiche werden gruppenweise bestimmt z. B. ist unter Normalverteilungsannahme (ˆµ1 t n1 1,1 α 2 ˆσ µ 1, ˆµ 1 + t n1 1,1 α 2 ˆσ µ 1 ) ein 90% Konfidenzintervall für µ 1. Für das spezielle Datenbeispiel ergibt sich [n 1 = 14, α = 10%, t 13,0.95 = 1.77 (aus Tabelle)] (13.70, 15.58) als 90% Konfidenzintervall für µ 1 50 / 178
51 SPSS-Output für die Daten aus Beispiel 1.10 Schätzer für die Parameter in den einzelnen Gruppen Gemerkte Zahlen Studienfach Mittelwert Varianz Mathematik 14,64 3,940 Psychologie 13,75 4,786 Insgesamt 14,32 4,227 Beachte: SPSS liefert hier die Schätzer für Erwartungswert und Varianz der einzelnen Gruppen SPSS liefert außerdem Schätzer für Erwartungswert und Varianz der gesamten 51 / 178
52 Tests zum Vergleich der Erwartungswerte Nullhypothese: Zahlengedächtnis der Psychologiestudenten ist nicht schlechter als das der Mathematikstudenten H 0 : µ 1 µ 2 Alternative: Zahlengedächtnis der Mathematikstudenten ist besser als das der Psychologiestudenten H 1 : µ 1 > µ 2 Rezept: Verwerfe die Nullhypothese H 0 zu Gunsten der Alternative H 1, falls die Differenz y 1 y 2 der Schätzer für die Erwartungswerte groß ist. 52 / 178
53 Rezept im Fall von Varianzhomogenität, d. h. (σ 2 1 = σ 2 2) Verwerfe H 0 zu Gunsten von H 1, falls y 1 y 2 groß ist. Normiere diese Größe mit einem Schätzer für die Standardfehler der Mittelwertdifferenz: ˆσµ1 µ 2 = ( 1 n n 2 )ˆσ 2 ˆσ 2 1 = n 1 +n 2 2 {(n1 1)ˆσ2 1 + (n 2 1)ˆσ 2}: 2 Schätzer für Varianz (die in beiden Gruppen dieselbe ist) Entscheide für die Alternative H 1 : µ 1 > µ 2, falls T n1,n 2 = y 1 y 2 ˆσ µ1 µ 2 > t n1+n 2 2,1 α gilt. Dabei ist t n1+n 2 2,1 α das (1 α)-quantil der t-verteilung mit n 1 + n 2 2 Freiheitsgraden Im Beispiel ergibt sich für einen Test zum Niveau α = 5% ˆσ 2 = 4.24, t 20,0.95 = = T 14,8 = d. h. die Hypothese H 0 kann nicht verworfen werden. 53 / 178
54 Testverfahren für die Erwartungswerte von zwei n unter Normalverteilungsannahme 1.11(a) Einseitiger t-test für zwei unabhängige n (rechtsseitige Hypothese) Daten y 11,..., y 1n1 (Gruppe 1; Erwartungswert µ 1 ; Varianz σ1 2) y 21,..., y 2n2 (Gruppe 2; Erwartungswert µ 2 ; Varianz σ2 2) Rechtfertigung der Voraussetzungen Unabhängigkeit in und zwischen den Gruppen Normalverteilungsannahme (in beiden Gruppen) Varianzhomogenität, d. h. σ 2 1 = σ 2 2 Die Hypothese H 0 : µ 1 µ 2 wird zu Gunsten der Alternative H 1 : µ 1 > µ 2 verworfen, falls T n1,n 2 = y 1 y 2 > t n1+n ˆσ 2 2,1 α µ1 µ 2 gilt, bzw. der p-wert < α ist. ˆσ µ1 µ 2 = ( 1 n n 2 )ˆσ 2 ist der Schätzer für den Standardfehler der Mittelwertdifferenz. 54 / 178
55 1.11(b) Einseitiger t-test für zwei unabhängige n (linksseitige Hypothese) Daten y 11,..., y 1n1 (Gruppe 1; Erwartungswert µ 1 ; Varianz σ1 2) y 21,..., y 2n2 (Gruppe 2; Erwartungswert µ 2 ; Varianz σ2 2) Rechtfertigung der Voraussetzungen Unabhängigkeit in und zwischen den Gruppen Normalverteilungsannahme (in beiden Gruppen) Varianzhomogenität, d. h. σ 2 1 = σ 2 2 Die Hypothese H 0 : µ 1 µ 2 wird zu Gunsten der Alternative H 1 : µ 1 < µ 2 verworfen, falls T n1,n 2 = y 1 y 2 < t n1+n ˆσ 2 2,1 α = t n1+n 2 2,α µ1 µ 2 gilt, bzw. der p-wert < α ist. ˆσ µ1 µ 2 = ( 1 n n 2 )ˆσ 2 ist der Schätzer für den Standardfehler der Mittelwertdifferenz. 55 / 178
56 1.11(c) t-test für zwei unabhängige n (zweiseitige Hypothesen) Daten y 11,..., y 1n1 (Gruppe 1; Erwartungswert µ 1 ; Varianz σ1 2) y 21,..., y 2n2 (Gruppe 2; Erwartungswert µ 2 ; Varianz σ2 2) Rechtfertigung der Voraussetzungen Unabhängigkeit in und zwischen den Gruppen Normalverteilungsannahme (in beiden Gruppen) Varianzhomogenität, d. h. σ 2 1 = σ 2 2 Die Nullhypothese H 0 : µ 1 = µ 2 (kein Unterschied der Erwartungswerte in beiden Gruppen) wird zu Gunsten der Alternative H 1 : µ 1 µ 2 verworfen, falls T n1,n 2 = y 1 y 2 ˆσ µ1 µ 2 > t n1+n 2 2,1 α 2 gilt, bzw. der p-wert < α ist. ˆσ µ1 µ 2 = ( 1 n n 2 )ˆσ 2 ist der Schätzer für den Standardfehler der Mittelwertdifferenz. 56 / 178
57 Bemerkung zur Varianzhomogenität Ist die Annahme der Varianzhomogenität nicht erfüllt, so σ 2 1 = σ 2 2 wird die vorgegebene Wahrscheinlichkeit für einen α-fehler nicht eingehalten (der Test hält sein Niveau nicht) ist die Wahrscheinlichkeit für einen β-fehler größer von Interesse ist daher auch ein Test für die Hypothesen H 0 : σ 2 1 = σ 2 2 H 1 : σ 2 1 σ 2 2 und ein Verfahren, das ohne die Annahme der Varianzhomogenität auskommt. 57 / 178
58 Rezept (für Test auf Varianzhomogenität) Die Nullhypothese H 0 : σ1 2 = σ2 2 gilt genau dann, wenn F = σ2 1 σ 2 2 = 1 Schätze den Quotienten der beiden Varianzen, durch F n1 1,n 2 1 = ˆσ2 1 ˆσ 2 2 = 1 n1 n n 2 1 j=1 (y 1j y 1 ) 2 n2 j=1 (y 2j y 2 ) 2 Die Nullhypothese H 0 wird zu Gunsten der Alternative H 1 : σ1 2 σ2 2 verworfen, falls gilt F n1 1,n 2 1 > c 2 oder F n1 1,n 2 1 < c 1 Die kritischen Werte c 1 und c 2 werden so festgelegt, dass die Wahrscheinlichkeit für einen Fehler erster Art maximal α ist! 58 / 178
59 1.12 F -Max-Test für den Vergleich von zwei nvarianzen Teststatistik Die Nullhypothese F n1 1,n 2 1 = ˆσ2 1 ˆσ 2 H 0 : σ 2 1 = σ 2 2 (die Varianzen sind gleich) wird zu Gunsten der Alternative H 1 : σ 2 1 σ 2 2 verworfen, falls mindestens eine der Ungleichungen F n1 1,n 2 1 < F n1 1,n 2 1, α 2 erfüllt ist F n1 1,n 2 1 > F n1 1,n 2 1,1 α 2 F n1 1,n 2 1,β bezeichnet das β-quantil der F -Verteilung mit (n 1 1, n 2 1) Freiheitsgraden 59 / 178
60 Verschiedene F -Verteilungen Dichten der F Verteilung mit verschiedenen Freiheitsgraden F 2, 10 F 4, 4 F 10, 1 F 20, f m,n (x) = m+n Γ( 2 ) ( m ) m 2 x m 2 1 Γ( m 2 )Γ( n 2 ) 2 (1 + m m+n n x) 2 (x 0) 60 / 178
61 Das Quantil der F -Verteilung mit (n 1, n 2 ) Freiheitsgraden Dichte der F4, 4 -Verteilung F 4, 4; 0.9 = P(F 4,4, F 4,4,0.9 ) = F4,4,0.9 f m,n (x) dx = / 178
62 Der F -Test auf Varianzhomogenität für die Daten aus Beispiel 1.10 (n 1 = 14, n 2 = 8) ˆσ 2 1 = 3.94 ˆσ2 2 = 4.79 F 13,7 = Für das Niveau α = 10% erhält man F 13,7,0.05 = F 13,7,0.95 = und damit kann die Nullhypothese zum Niveau 10% nicht verworfen werden Beachte: Oft wird der Test 1.12 verwendet, um die Voraussetzungen für den t-test zu überprüfen In diesem Fall wählt man oft ein größeres Niveau ( kleinere Wahrscheinlichkeit für β-fehler) Der Gesamttest (erst F -Test, falls H0 nicht verworfen wird, dann t-test) hat nicht das Niveau α. Was macht man, falls F -Test H 0 verwirft? 62 / 178
63 1.13(a) t-test für zwei unabhängige n mit nicht notwendig gleichen Varianzen (Welch-Test) Daten y 11,..., y 1n1 (Gruppe 1; Erwartungswert µ 1 ; Varianz σ1 2) y 21,..., y 2n2 (Gruppe 2; Erwartungswert µ 2 ; Varianz σ2 2) Rechtfertigung der Voraussetzungen Unabhängigkeit in und zwischen den Gruppen Normalverteilungsannahme (in beiden Gruppen) Varianzen in den Gruppen sind nicht notwendig gleich Teststatistik Dabei ist T W n 1,n 2 = y 1 y 2 ˆτ ˆτ = ˆτ 2 = ˆσ 2 1 n 1 + ˆσ2 2 n 2 die Schätzung für den Standardfehler von y 1 y 2 63 / 178
64 1.13(b) t-test für zwei unabhängige n mit nicht notwendig gleichen Varianzen (Welch-Test) Die Nullhypothese H 0 : µ 1 µ 2 (Erwartungswert der ersten Population nicht größer als der der Zweiten) wird zu Gunsten der Alternative falls H 1 : µ 1 > µ 2 Tn W 1,n 2 > tˆf,1 α gilt, bzw. der p-wert < α ist. Dabei bezeichnet ˆf = (ˆσ2 µ 1 + ˆσ 2 µ 2 ) 2 ˆσ 4 µ 1 n ˆσ4 µ 2 n 2 1 die geschätzten Freiheitsgrade der t-verteilung. 64 / 178
65 1.13(c) t-test für zwei unabhängige n mit nicht notwendig gleichen Varianzen (Welch-Test) Die Nullhypothese H 0 : µ 1 µ 2 (Erwartungswert der ersten Population nicht kleiner als der der Zweiten) wird zu Gunsten der Alternative verworfen, falls H 1 : µ 1 < µ 2 T W n 1,n 2 < tˆf,α = tˆf,1 α gilt, bzw. der p-wert < α ist. Dabei bezeichnet ˆf = (ˆσ2 µ 1 + ˆσ 2 µ 2 ) 2 ˆσ 4 µ 1 n ˆσ4 µ 2 n 2 1 die geschätzten Freiheitsgrade der t-verteilung. 65 / 178
66 1.13(d) t-test für zwei unabhängige n mit nicht notwendig gleichen Varianzen (Welch-Test) Die Nullhypothese H 0 : µ 1 = µ 2 (kein Unterschied der Erwartungswerte in beiden Gruppen) wird zu Gunsten der Alternative H 1 : µ 1 µ 2 (es besteht ein Unterschied) verworfen, falls T W n 1,n 2 > tˆf,1 α 2 gilt, bzw. der p-wert < α ist. Dabei bezeichnet ˆf = (ˆσ2 µ 1 + ˆσ 2 µ 2 ) 2 ˆσ 4 µ 1 n ˆσ4 µ 2 n 2 1 die geschätzten Freiheitsgrade der t-verteilung. 66 / 178
67 Bemerkung: t-test oder Welch-Test? Sind die Voraussetzungen für den t-test erfüllt (Normalverteilung, Unabhängigkeit, Varianzhomogenität), so ist dieses Verfahren optimal, d. h. dieser Test minimiert unter allen Tests zum Niveau α die Wahrscheinlichkeit für einen β-fehler. Ist die Voraussetzungen der Varianzhomogenität beim t-test nicht erfüllt, so wird die vorgegebene Wahrscheinlichkeit für einen α-fehler nicht eingehalten. Der Welch-Test ist eine Näherungslösung, d. h. die Wahrscheinlichkeit für einen α-fehler ist nur näherungsweise α. Der Welch-Test hat im Fall der Varianzhomogenität eine größere Wahrscheinlichkeit für einen β-fehler als der t-test. 67 / 178
68 SPSS-Output für die Daten aus Beispiel 1.10 Gemerkte Zahlen Varianzen sind gleich Varianzen sind nicht gleich Test bei unabhängigen n Levene-Test der Varianzgleichheit F,103 Signifikanz,752 T-Test für die Mittelwertgleichheit T,979,952 df 20 13,523 Sig. (2-seitig),339,358 Gemerkte Zahlen Varianzen sind gleich Varianzen sind nicht gleich Test bei unabhängigen n Mittlere Differenz,893,893 T-Test für die Mittelwertgleichheit 95% Konfidenzintervall der Differenz Standardfehler der Differenz,912,938 Untere -1,010-1,125 Obere 2,796 2,911 Beachte: SPSS liefert nicht den in 1.12 dargestellten F -Max Test auf Varianzhomogenität sondern ein robustes Verfahren (Levene-Test) SPSS liefert nur einen p-wert für den zweiseitigen t-test aus Beispiel 1.11(c) bzw. zweiseitigen Welch-Test aus Beispiel 1.13(d) SPSS liefert ein Konfidenzintervall für die Differenz µ 1 µ 2 = 95% Konfidenzintervall für die Differenz der Erwartungswerte (unter der Annahme gleicher Varianzen) ( 1.01, 2.796) 68 / 178
69 69 / 178
70 1.14 Beispiel: Fortsetzung von Beispiel 1.10 An dem Zahlengedächtnistest (vgl. Beispiel 1.10) nehmen auch noch 7 Studierende der Geisteswissenschaften (G) teil. M P G M P G Frage: Existieren Unterschiede hinsichtlich des Zahlengedächtnisses zwischen dem Studierenden der Psychologie, Mathematik und Geisteswissenschaften? 70 / 178
71 Mathematisches Modell (n 1 = 14, n 2 = 8, n 3 = 7) Y ij := µ i + ε ij ; j = 1,..., n i ; i = 1, 2, 3 Y ij : Ergebnis der j-ten Versuchsperson in Gruppe i (Mathematik: i = 1, Psychologie: i = 2, Geisteswissenschaften: i = 3) µ i : unbekannter Erwartungswert in der Population i (Mathematik: i = 1, Psychologie: i = 2, Geisteswissenschaften: i = 3) ε ij : Störgrößen (Erwartungswert 0 und Varianz σ 2 ) Normalverteilungs und Unabhängigkeitsannahme in jeder Gruppe (i = 1, 2, 3) liegt eine Normalverteilung mit Erwartungswert µ i vor in jeder Gruppe sind die Beobachtungen unabhängig unabhängige n Nullhypothese H 0 : µ 1 = µ 2 = µ 3 71 / 178
72 Schätzer und Konfidenzbereiche Schätzer für Erwartungswert und Varianz werden in den einzelnen Gruppen durchgeführt Beispiel: y i ˆσ i 2 ˆσ µi n i Mathematik (i = 1) Psychologie (i = 2) Geisteswissenschaften (i = 3) ˆµ 1 = ist Schätzer für den Erwartungswert der Mathematiker Beachte: t 6,0.95 = 1.943, ˆµ 3 + ˆσ µ3 t 6,0.95 = ˆµ 3 ˆσ µ3 t 6,0.95 = 11.25, also ist das Intervall [11.25, 13.03] ein 90% Konfidenzintervall für den Erwartungswert der Geisteswissenschaftler 72 / 178
73 SPSS Output Gemerkte Zahlen Studienfach Mittelwert Varianz Standardfehler des Mittelwertes N Mathematik 14,64 3,940, Psychologie 13,75 4,786,773 8 Geisteswissenschaften 12,14 1,476,459 7 Insgesamt 13,79 4,384, / 178
74 Prinzip der Ziel: Test für die Hypothese es bestehen keine Unterschiede zwischen den Gruppen H 0 : µ 1 = µ 2 = µ 3 Idee: Bestimme die Streuung der Daten: Mittelwert aus allen Daten: y = 1 n n 3 i wobei n = n 1 + n 2 + n 3 = 29 die Gesamtzahl der Beobachtungen bezeichnet. Varianz (n = n1 + n 2 + n 3) i=1 j=1 y ij 1 n 1 n 3 i (y ij y ) 2 i=1 und versuche Unterschiede in der Merkfähigkeit aufgrund der Gruppenzugehörigkeit durch eine Zerlegung der Streuung bzgl. der Gruppen zu erklären! j=1 74 / 178
75 Prinzip der Zerlegung der Summe der Quadrate Häufig verwendete Abkürzungen: SS Sum of squares; SAQ Summe der Abweichungsquadrate Summe der Quadrate innerhalb der Gruppen (within groups) und SS R = n 3 i (y ij y i ) 2 i=1 y i = 1 n i j=1 n i y ij den Mittelwert aus den Beobachtungen der Grupe i bezeichnet. Summe der Quadrate zwischen den Gruppen (between groups) j=1 SS M = 3 n i(y i y ) 2 i=1 75 / 178
76 Prinzip der Zerlege die Summe der Quadrate in eine durch das Modell erklärte Summe (Varianz zwischen den Gruppen) und eine Summe von Quadraten der nicht erklärten Varianz (Varianz innerhalb der Gruppen) SS T = = 3 n i (y ij y ) 2 i=1 j=1 }{{} Gesamtvarianz (Total) 3 n i i=1 j=1 (y ij y i ) 2 }{{} Gesamtvarianz innerhalb der Gruppen + k n i (y i y ) 2 i=1 }{{} Varianz zwischen den Gruppen 76 / 178
77 F -Test für die Hypothese H 0 : µ 1 = µ 2 = µ 3 (gleiche Erwartungswerte in den drei Gruppen) Vergleiche die Varianz zwischen den Gruppen mit der Varianz innerhalb der Gruppen F = i=1 3 i=1 n i(y i y ) 2 ni j=1 (y ij y i ) 2 Falls F groß ist, wird die Nullhypothese H 0 abgelehnt. Mathematische Statistik Test zum Niveau α verwirft die Nullhypothese H 0, falls F > F 2,26,1 α gilt (Vergleich mit dem (1 α)-quantil der F -Verteilung mit (2, 26) Freiheitsgraden), bzw. falls der zugehörige p-wert des Tests kleiner als α ist. 77 / 178
78 Beispiel 1.15 (Fortsetzung von Beispiel 1.14) Frage: besteht ein Unterschied zwischen den Studierenden der Fächer Psychologie, Mathematik und Geisteswissenschaften bzgl. des Zahlengedächtnisses Genauer: Besteht ein Unterschied zwischen den Erwartungswerten der drei Gruppen: H 0 : µ 1 = µ 2 = µ 3 n 1 = 14, n 2 = 8, n 3 = 7; α = 5% F 2,26,0.95 = 3.37 ˆF = SS M/2 SS R /26 = 14.6 = 4.06 > D. h. die Hypothese: H 0 : µ 1 = µ 2 = µ 3 wird zum Niveau 5% abgelehnt. In anderen Worten: zwischen den Studierenden der verschiedenen Fächer besteht ein Unterschied Beachte: In vielen Fällen ist man an der Frage interessiert, zwischen welchen Gruppen ein Unterschied besteht. Diese Frage beantwortet der F -Test nicht! 78 / 178
79 F -Verteilung Dichte Dichte der F 2,26 Verteilung F 2,26,0.95 = 3.37 F^ = x 79 / 178
80 F -Verteilung Dichte der F 2,26 Verteilung (Zoom) Dichte α = 5% p Wert F 2,26,0.95 = 3.37 F^ = x Blaue Fläche: Niveau des Tests Rote Fläche: p-wert (Wahrscheinlichkeit, dass ein Wert größer als ˆF = 4.06 beobachtet wird) 80 / 178
81 tabelle (k bezeichnet die Anzahl der Gruppen) Variabilität Sum of Squares df SS/df F zwischen SS M k 1 SS M /(k 1) innerhalb SS R n k SS R /(n k) gesamt SS T n 1 SS T /(n 1) SS M k 1 / SS R n k Beispiel (Zahlengedächtnis) Variabilität Sum of Squares df SS/df F zwischen innerhalb gesamt / 178
82 SPSS Output Gemerkte Zahlen Quadratsumme df Zwischen den Gruppen Innerhalb der Gruppen Gesamt 29,187 93, , Mittel der Quadrate 14,594 3,599 F 4,055 Signifikanz, / 178
83 Beispiel 1.16 (Fortsetzung von Beispiel 1.15) Bei signifikantem Ergebnis der (d. h. die Hypothese gleicher Erwartungswerte wird abgelehnt) stellt sich die Frage: Welche Gruppe ist maßgeblich für die Signifikanz verantwortlich? Lösungsvorschlag: paarweise Vergleiche! Gruppe 1 - Gruppe 2; H 12 : µ 1 = µ 2 Gruppe 1 - Gruppe 3; H 13 : µ 1 = µ 3 Gruppe 2 - Gruppe 3; H 23 : µ 2 = µ 3 Jeder Vergleich wird mit dem Zwei-n-t-Test (vgl. 1.11(b)) durchgeführt. Dabei ist zu beachten, dass das Gesamtverfahren: Verwerfe die Hypothese H 0 : µ 1 = µ 2 = µ 3, falls mindestens ein Paarvergleich signifikant ist das Niveau α einhält. Die t-tests für die paarweisen Vergleiche sind mit Niveau α/3 durchzuführen. Man dividiert durch 3, da 3 paarweise Vergleiche durchgeführt werden (Bonferroni-Methode) 83 / 178
84 Paarweise Vergleiche mit Zwei-n t-tests (α = 5%): Test-Statistik für den Vergleich von Gruppe i mit Gruppe j: T i,j = Y i Y j ˆσ ij ( 1 ˆσ ij 2 = + 1 )( 1 ) n i n j n i + n j 2 {(n i 1)ˆσ i 2 + (n j 1)ˆσ j 2 } i j T i,j n i n j t ni +n j 2,1 α /2 p-wert signifikant nein ja nein Beachte: Die paarweisen Vergleiche werden zum Niveau α/3 = 5%/3 = durchgeführt ( 3 Vergleiche). Mit dieser Methode kann man zum Niveau 5% einen signifikanten Unterschied zwischen den Gruppen feststellen. Bonferroni-Methode ist konservativ (d. h. das wirkliche Niveau des Verfahrens wird unterschätzt). Ist die Anzahl der Paarvergleiche groß, so ist dieses Verfahren nicht zu empfehlen. 84 / 178
85 Post-Hoc-Test Bonferroni in SPSS Verwendet andere Schätzung für den Standardfehler der Differenz der Mittelwerte aus Gruppe i und j: ( 1 σ ij 2 = + 1 ) ( ) 1 3 (n k 1)ˆσ k 2 n i n j n 3 An Stelle der Quantile der t-verteilung mit n i + n j 2 Freiheitsgraden müssen dann die Quantile der t-verteilung mit n 3 Freiheitsgraden verwendet werden (n = n 1 + n 2 + n 3 ) k=1 Das Niveau für die Paarvergleiche muss dann wieder durch die Anzahl der Vergleiche dividiert werden (im Beispiel α/3) Adjustierung der p-werte erfolgt durch Multiplikation der p-werte aus den Paarvergleichen mit der Anzahl der Vergleiche. Z. B = 3 P( T 12 > 0.893/0.841) Dabei berechnet sich die Wahrscheinlichkeit mit einer t-verteilung mit 26 = 29 3 Freiheitsgraden. 85 / 178
86 SPSS Output paarweise Vergleiche mit der Bonferroni-Methode Mehrfachvergleiche Gemerkte Zahlen Bonferroni 95%-Konfidenzintervall (I) Studienfach (J) Studienfach Mittlere Differenz (I-J) Standardfehler Signifikanz Untergrenze Obergrenze Mathematik Psychologie,893,841,894-1,26 3,04 Geisteswissenschaften 2,500 *,878,026,25 4,75 Psychologie Mathematik -,893,841,894-3,04 1,26 Geisteswissenschaften 1,607,982,341 -,91 4,12 Geisteswissenschaften Mathematik -2,500 *,878,026-4,75 -,25 Psychologie -1,607,982,341-4,12,91 *. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant. 86 / 178
87 Scheffé-Methode (α = 5%) Für den Vergleich der Gruppe i mit j betrachte: 3 1 d s (i, j) = 29 3 SS R F 2,26,0.95 ( ) n i n j 2 = ( ) = n i n j n i n j und vergleiche diese Größe mit Mittelwertdifferenz y i y j Ergebnis i j y i y j d s (i, j) Ergebnis kein sign. Unterschied y 1 sign. größer als y kein sign. Unterschied 87 / 178
88 Einige Bemerkungen zur Scheffé-Methode: Die Scheffé-Methode garantiert, dass die Wahrscheinlichkeit eines α-fehlers für jeden beliebigen a-posteriori durchgeführten Einzelvergleichstests nicht größer ist als der α-fehler des F -Tests Kurz: Die Signifikanzaussagen gelten simultan für ALLE Paarvergleiche mit dem Gesamtniveau α Die Scheffé-Methode ist ein konservatives Verfahren Die Wahrscheinlichkeit eines α-fehlers ist eher kleiner als das vorgegebene Niveau Man entscheidet tendenziell eher zu oft für H0 88 / 178
89 SPSS Output paarweise Vergleiche mit der Scheffé-Methode Mehrfachvergleiche Gemerkte Zahlen Scheffé-Prozedur 95%-Konfidenzintervall (I) Studienfach (J) Studienfach Mittlere Differenz (I-J) Standardfehler Signifikanz Untergrenze Obergrenze Mathematik Psychologie,893,841,576-1,29 3,08 Geisteswissenschaften 2,500 *,878,029,22 4,78 Psychologie Mathematik -,893,841,576-3,08 1,29 Geisteswissenschaften 1,607,982,279 -,94 4,16 Geisteswissenschaften Mathematik -2,500 *,878,029-4,78 -,22 Psychologie -1,607,982,279-4,16,94 *. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant. 89 / 178
90 1.17 Einfaktorielle (zum Vergleich von k unabhängigen n) Modellannahmen und Hypothese Daten (n = k i=1 n i) y 11,..., y 1n1 (Gruppe 1, Erwartungswert µ 1 ; Varianz σ 2 1 )... y k1,..., y knk (Gruppe k, Erwartungswert µ k ; Varianz σk 2) Nullhypothese: es besteht kein Unterschied zwischen den Erwartungswerten der einzelnen Gruppen: H 0 : µ 1 = µ 2 =... = µ k Rechtfertigung der Voraussetzungen Unabhängigkeit zwischen den Gruppen Unabhängigkeit innerhalb der Gruppen Normalverteilungsannahme Varianzhomogenität: σ 2 1 = σ 2 2 =... = σ 2 k 90 / 178
91 F-Test für die einfaktorielle (zum Vergleich von k unabhängigen n) Die Hypothese H 0 : µ 1 = µ 2 =... = µ k gleicher Erwartungswert in allen Gruppen wird verworfen, falls Dabei ist: F = 1 k 1 SS M 1 n k SS R SS M = > F k 1,n k,1 α k n i (y i y ) 2 i=1 (sum of squares between groups) SS R = k n i (y ij y i ) 2 i=1 j=1 (sum of squares within groups) und F k 1,n k,1 α das (1 α)-quantil der F -Verteilung mit (k 1, n k) Freiheitsgraden 91 / 178
92 1.18 Paarweise Vergleich mit der Scheffé-Methode (Notation wie in 1.15) Wird die Nullhypothese H 0 : µ 1 = µ 2 =... = µ k abgelehnt, so kann mit der Scheffé-Methode festgestellt werden welche Gruppen für die Signifikanz verantwortlich sind! dazu bestimmt man die Größen (n = k i=1 n i) k 1 d s (i, j) = n k SS R F k 1,n k,1 α ( ) n i n j Ist y i y j größer (bzw. kleiner) als d s (i, j) (bzw. als d s (i, j)) so ist y i signifikant größer (bzw. kleiner) als y j Beachte: insgesamt k(k 1) Vergleiche 2 die Scheffé-Methode hält simultan das Niveau α es ist möglich, das F -Test H0 ablehnt, aber keiner der paarweisen Vergleiche signifikant ist! Andere Verfahren (z. B. in SPSS implementiert): Tukey-Methode, Duncan Test 92 / 178
93 1.19 Levene-Test auf Varianzhomogenität von k unabhängigen n Modellannahmen und Hypothese Daten (n = k i=1 n i) y 11,..., y 1n1 (Gruppe 1, Erwartungswert µ 1 ; Varianz σ 2 1 )... y k1,..., y knk (Gruppe k, Erwartungswert µ k ; Varianz σk 2) Nullhypothese: es liegt Varianzhomogenität vor, d. h. H 0 : σ1 2 = σ2 2 =... = σk 2 Rechtfertigung der Voraussetzungen Unabhängigkeit zwischen den Gruppen Unabhängigkeit innerhalb der Gruppen Normalverteilungsannahme 93 / 178
94 Levene-Test auf Varianzhomogenität von k unabhängigen n Die Hypothese der Varianzhomogenität wird verworfen, falls F = 1 k 1 1 k n k i=1 H 0 : σ 2 1 = σ 2 2 =... = σ 2 k k i=1 n i(x i x ) 2 ni j=1 (x ij x i ) 2 > F k 1,n k,1 α Dabei ist: n = n n k der Gesamtstichprobenumfang x i = 1 ni xij, x n i j=1 = 1 k ni n i=1 j=1 xij xij = y ij y i Fk 1,n k,1 α das (1 α)-quantil der F -Verteilung mit (k 1, n k) Freiheitsgraden. Beachte: Der Test ist robust bzgl. der Normalverteilungsannahme. Der Test hält nur näherungsweise das Niveau α. Alternativer Test: Bartlett Test 94 / 178
95 SPSS Output Test der Homogenität der Varianzen Gemerkte Zahlen Levene- Statistik 1,214 df1 2 df2 26 Signifikanz,313 ONEWAY ANOVA Gemerkte Zahlen Quadratsumme df Zwischen den Gruppen Innerhalb der Gruppen Gesamt 29,187 93, , Mittel der Quadrate 14,594 3,599 F 4,055 Signifikanz, / 178
96 multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.3 Multiple Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 96 / 178
97 2.1 Korrelation 2.2 Lineare Regression 2.1 Korrelation 2.3 Multiple lineare Regression 97 / 178
98 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Frage: Besteht ein Zusammenhang zwischen der Variablen Motivation und der Variablen Leistungsstreben Beachte: Es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 98 / 178
99 Daten x y x y x y Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 99 / 178
100 2.2 Der Korrelationskoeffizient von Pearson Daten (x 1, y 1 ),..., (x n, y n ) Maß für die (lineare) Abhängigkeit zwischen x und y: Korrelationskoeffizient von Pearson n r = r X,Y = s2 x,y i=1 = (x i x )(y i y ) s x,x s n y,y i=1 (x i x ) 2 n i=1 (y i y ) Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Dabei ist: x = 1 n xi : Mittelwert der Daten xi n i=1 y = 1 n yi : Mittelwert der Daten yi n i=1 s 2 x,x = 1 n n i=1 (xi x )2 : Varianz der Daten x i s 2 y,y = 1 n n i=1 (yi y )2 : Varianz der Daten y i s 2 x,y = 1 n n i=1 (xi x )(yi y ) : Kovarianz zwischen den Daten x i, y i 100 / 178
101 2.3 Eigenschaften des Korrelationskoeffizienten (1) 1 r 1 (2) r = 1 genau dann, wenn ein exakter linearer Zusammenhang y i = b 0 + b 1 x i mit b 1 > 0 besteht (ohne Störgrößen). (3) r = 1 genau dann, wenn ein exakter linearer Zusammenhang 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression y i = b 0 + b 1 x i mit b 1 < 0 besteht (ohne Störgrößen). (4) Der Korrelationskoeffizient ist invariant bzgl. linearer Transformationen, d. h. } x i = a 0 + a 1 x i i = 1,..., n r ỹ i = c 0 + c 1 y i i = 1,..., n X,Ỹ = r X,Y (5) Der Korrelationskoeffizient von Pearson ist ein deskriptives Maß für den linearen Zusammenhang in der (x 1, y 1 ),..., (x n, y n ) 101 / 178
102 2.4 Beispiel: Korrelationskoeffizient für die Daten aus Beispiel 2.1 Variablen x: Leistungsstreben y: Motivation Korrelationskoeffizient von Pearson 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression r = Fragen: Wie genau ist diese Schätzung? Ist die Korrelation von 0 verschieden (Unkorreliertheit zwischen den Merkmalen Leistungsstreben und Motivation)? 102 / 178
103 2.5 Signifikanztest für Korrelation (x 1, y 1 ),..., (x n, y n ) ist eine (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grundgesamtheit ρ bezeichne die Korrelation des Merkmals X mit dem Merkmal Y einer Population; fünfter Modellparameter neben µ x, µ y, σ 2 x und σ 2 y. Ein Test zum Niveau α für die Hypothese die Merkmale sind unkorreliert H 0 : ρ = 0 lehnt die Nullhypothese zu Gunsten der Alternative H 1 : ρ 0 ab, falls n 2r 1 r 2 > t n 2,1 α Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression gilt. 103 / 178
104 2.6(a) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) n = 25; r = ; t 23,0.975 = n 2 r 1 r 2 = > Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Die Nullhypothese H 0 : ρ = 0 (keine Korrelation zwischen den Merkmalen) wird zum Niveau 5% verworfen. p-wert: / 178
105 SPSS Output für Korrelationskoeffizient Motivation Leistungsstreben Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Motivation Korrelationen 1,000,004 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. 25 Leistungsstreben,559 **, ,559 ** 1, Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 105 / 178
106 2.7 Konfidenzintervall für Korrelation ρ: Korrelation zwischen Merkmal x und Merkmal y einer Population (x 1, y 1 ),..., (x n, y n ): (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grundgesamtheit Mathematische Statistik: r ist näherungsweise (d. h. bei großem numfang) normalverteilt mit Erwartungswert ρ und Varianz 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression γ 2 = Var(r) (1 ρ2 ) 2 (1 α)-konfidenzintervall für den Korrelationskoeffizienten ( r ˆγz1 α, r + ˆγz ) 2 1 α 2 Hier bezeichnet ˆγ = (1 r 2 ) n einen Schätzer für die Standardabweichung von r und z 1 α das (1 α 2 2 ) Quantil der Standardnormalverteilung (Tabelle, Software) n 106 / 178
107 2.6(b) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) n = 25; r = z 0.95 = , ˆγ = Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 90% Konfidenzintervall für den Korrelationskoeffizient [0.2739, ] 107 / 178
108 2.8 Hinweise zur Interpretation von Korrelationen Annahme: Man hat eine signifikante Korrelation zwischen den Variablen x und y gefunden Folgende Interpretationen sind möglich (1) x beeinflusst y kausal (2) y beeinflusst x kausal (3) x und y werden von weiteren Variablen kausal beeinflusst (4) x und y beeinflussen sich wechselseitig kausal Die Korrelation zwischen zwei Variablen ist eine notwendige aber keine hinreichende Voraussetzung für einen kausalen Zusammenhang Der Korrelationskoeffizient gibt keine Information, welche der vier Interpretationen zutrifft (in vielen Fällen wird das der Typ (3) sein) Korrelationen sollten ohne Zusatzinformation nicht interpretiert werden! 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 108 / 178
109 Beispiel Annahme: Man hat eine signifikante Korrelation zwischen den Merkmalen Ehrlichkeit und Häufigkeit des Kirchgangs gefunden Folgende Interpretationen sind möglich Die in der Kirche vermittelten Werte haben einen positiven Einfluss auf das Merkmal Ehrlichkeit. Ehrliche Menschen fühlen sich durch die in der Kirche vermittelten Inhalte eher angesprochen und gehen aus diesem Grund häufiger zur Kirche. Die allgemeine familiäre und außerfamiliäre Sozialisation beeinflusst beide Merkmale. 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 109 / 178
110 2.1 Korrelation 2.2 Lineare Regression 2.2 Lineare Regression 2.3 Multiple lineare Regression 110 / 178
111 2.9 Beispiel: Fortsetzung von Beispiel 2.1 Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Kann man y aus x vorhersagen? 111 / 178
112 Streudiagramm für die Daten aus Beispiel Korrelation 2.2 Lineare Regression Motivation Multiple lineare Regression Leistungsstreben 112 / 178
113 2.9 Beispiel: Fortsetzung von Beispiel 2.1 Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Frage: Besteht ein funktionaler Zusammenhang zwischen der Variablen Motivation und der Prädiktorvariablen Leistungsstreben (Kann man y aus x vorhersagen?) Genauer: Gesucht ist Funktion f, die aus der Prädiktorvariablen 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Leistungsstreben (x) eine Vorhersage für die abhängige Variable (y) Motivation liefert: Motivation = f(leistungsbereitschaft) Beachte: Es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 113 / 178
114 Regression Ausgangslage: Von Interesse ist der Zusammenhang zwischen verschiedenen Variablen. Im einfachsten Fall betrachtet man, wie im Beispiel der Arbeitsmotivation, den Zusammenhang zwischen zwei Variablen. Daten: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein kausaler Zusammenhang der Form y = f (x) zwischen der abhängigen Variablen y und der Prädiktorvariablen x. Weitere Annahme: Die Funktion f hat eine bestimmte Form. Beispiele: Lineare Regression (der Zusammenhang ist also durch eine Gerade beschreibbar): y = b 0 + b 1x Quadratische Regression (der Zusammenhang ist also durch eine Parabel beschreibbar): y = b 0 + b 1x + b 2x 2 usw. Beachte: Der Zusammenhang ist in der Regel nicht exakt zu beobachten. Mathematisches Modell Y = b 0 + b 1 x + ε 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Dabei bezeichnet ε eine zufällige Störgröße. Diese Modell bezeichnet man als Lineare Regression. 114 / 178
115 2.10 Das Modell der linearen Regression Daten (x 1, y 1 ),..., (x n, y n ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen den Variablen Y i und x i gilt: Y i = b 0 + b 1 x i + ε i i = 1,..., n 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression ε i bezeichnet hier eine zufällige Störung und es wird angenommen, dass die Störungen unabhängig und normalverteilt sind mit Erwartungswert 0 und Varianz σ 2 > 0 Deutung: Es wird ein linearer Zusammenhang zwischen x und y postuliert, der noch zufälligen Störungen unterliegt. 115 / 178
116 Idee der Schätzung bei (linearer) Regression Daten (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein linearer Zusammenhang Y = b 0 + b 1 x + ε 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Y und x am besten beschreibt. Idee: Bestimme die Gerade so, dass die Summe der quadratischen (vertikalen) Abstände zwischen den y-koordinaten der Datenpunkte und den entsprechenden Punkten auf der geschätzten Geraden minimal wird Methode der kleinsten Quadrate 116 / 178
117 y y Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten 2.1 Korrelation y=0.2x y=0.5x Lineare Regression 2.3 Multiple lineare Regression x x 117 / 178
118 Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten: die Lösung durch die Methode der kleinsten Quadrate 2.1 Korrelation y y=0.292x Lineare Regression 2.3 Multiple lineare Regression x 118 / 178
119 2.11 Die Methode der kleinsten Quadrate Bestimme die Gerade so, dass die Summe der quadrierten senkrechten Abstände zwischen Gerade und Daten minimal wird Datum an der Stelle xi : y i Wert der Geraden an der Stelle xi : b 0 + b 1x i Differenz: yi (b 0 + b 1x i) Minimiere h(b 0, b 1 ) = n ( i=1 yi (b 0 + b 1 x i ) ) 2 bzgl. der Wahl der Parameter b 0 und b 1. Lösung dieses Extremwertproblems liefert Schätzer für Achsenabschnitt und Steigung der Geraden: 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression ˆb 1 = n i=1 (x i x )(y i y ) n i=1 (x i x ) 2, ˆb0 = y ˆb 1 x x = 1 n xi: Mittelwert der Prädiktorvariablen n i=1 y = 1 n yi: Mittelwert der abhängigen Variablen n i=1 119 / 178
120 Beispiel Arbeitsmotivation: Streudiagramm und Regressionsgerade für die Daten aus Beispiel 2.1 Motivation Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 10 R-Quadrat linear = 0, Leistungsstreben Schätzer: ˆb 0 = 13.82, ˆb 1 = 0.29 Fragen: Wie genau sind diese Schätzungen? Besteht ein (signifikanter) Einfluss des Leistungsstrebens auf die Motivation H 0 : b 1 = 0 Wie gut beschreibt das lineare Regressionsmodell die Situation? 120 / 178
121 Die Genauigkeit der Schätzer für die Parameter Beachte: Vor der Datenerhebung sind ˆb 0 und ˆb 1 zufällig. Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer für die Varianzen von ˆb 0 und ˆb 1 Schätzer für die Varianz von ˆb 0 : ŝ 2 b 0 Schätzer für die Varianz von ˆb 1 : ŝ 2 b 1 Dabei bezeichnet S 2 y x = 1 n 2 = S2 y x n = S2 y x n n i=1 x 2 i n i=1 (x i x ) 2 1 n n (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 1 n i=1 (x i x ) Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression die Residualvarianz (Schätzer für die Varianz der Störgrößen) Je größer der numfang n, desto genauer sind die Schätzungen! 121 / 178
122 Fortsetzung von Beispiel 2.1: Schätzer für die Daten der Arbeitsmotivation Schätzer für die Parameter ˆb 0 = ˆb 1 = S 2 y x = Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Schätzer für die Varianz von ˆb 0 und ˆb 1 ŝ 2 b 0 = ŝ 2 b 1 = Standardfehler von ˆb 0 und ˆb 1 ŝ b0 = = ŝ b1 = = / 178
123 SPSS Output: Schätzer und Standardabweichungen bei linearer Regression in Beispiel Korrelation 2.2 Lineare Regression Koeffizienten a 2.3 Multiple lineare Regression Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Standardisierte Nicht standardisierte Koeffizienten Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090,559 3,235, / 178
124 2.12 bei linearer Regression Modellannahme: lineare Regression Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme für ε 1,..., ε n Bestimmung der Schätzer ŝ 2 b 0 und ŝ 2 b 1 für die Varianzen von ˆb 0 und ˆb 1. Damit ist dann 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression = (ˆb 0 t n 2,1 α 2 ŝb 0, ˆb 0 + t n 2,1 α 2 ŝb 0 ) ein (1 α)-konfidenzintervall für b 0 und = (ˆb 1 t n 2,1 α 2 ŝb 1, ˆb 1 + t n 2,1 α 2 ŝb 1 ) ein (1 α)-konfidenzintervall für b 1. Hier ist t n 2,1 α das (1 α 2 2 )-Quantil der t-verteilung mit n 2 Freiheitsgraden (tabelliert oder mit Software verfügbar) 124 / 178
125 2.13 Beispiel: Konfidenzbereiche im Beispiel 2.1 (Arbeitsmotivation) n = 25, t 23,0.975 = Für das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt sich als 95% Konfidenzintervall für 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression b 0 :[9.420, ] b 1 :[0.105, 0.479] Frage: Besteht ein (signifikanter) Einfluss der Prädiktorvariablen x auf die abhängige Variable Y? Mathematische Formulierung: H 0 : b 1 = / 178
126 SPSS Output: bei linearer Regression in Beispiel Korrelation 2.2 Lineare Regression Koeffizienten a 2.3 Multiple lineare Regression Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090,559 3,235,004 95%-Konfidenzintervall für B Untergrenze Obergrenze 9,420 18,212,105, / 178
127 2.14 F -Test für die Hypothese H 0 : b 1 = 0 Modellannahme: lineare Regression Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme für ε 1,..., ε n Hypothesen H 0 : b 1 = 0, H 1 : b 1 = 0 Die Nullhypothese H 0 : b 1 = 0 wird zu Gunsten der Alternative H 1 : b 1 0 verworfen, falls 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression gilt F n = S2 reg S 2 y x = n 2 n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 n i=1 (y i (ˆb 0 + ˆb 1 x i )) 2 > F 1;n 2,1 α F 1;n 2,1 α bezeichnet das (1 α)-quantil der F -Verteilung mit (1, n 2) Freiheitsgraden 127 / 178
128 Motivation des F -Tests: Zerlegung der Varianz n (y i y ) 2 = i=1 } {{ } Gesamtvarianz Bezeichnungen: n (y i (ˆb 0 + ˆbx i )) 2 + i=1 } {{ } Residualvarianz S 2 reg = 1 1 n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Varianz der Regression heißt Varianz der Regression (diese hat 1 Freiheitsgrad) und S 2 y x = 1 n 2 n (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 ist die Residualvarianz (diese hat n 2 Freiheitsgrade). Andere Interpretationen: - Schätzung für die Varianz der Größen ε i - durch das lineare Regressionsmodell nicht erklärbare Varianz 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 128 / 178
129 Motivation des F -Tests: Zerlegung der Varianz n (y i y ) 2 = i=1 } {{ } Gesamtvarianz n (y i (ˆb 0 + ˆbx i )) 2 + i=1 } {{ } Residualvarianz n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Varianz der Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression = (n 2) S 2 y x + S2 reg Beachte: Bei dem F -Test für die Hypothese H 0 : b 1 = 0 bildet man den Quotienten aus der Varianz der der Residualvarianz Man untersucht also das Verhältnis zwischen erklärbarer und nicht erklärbarer Varianz. 129 / 178
130 2.15 (ANOVA; analysis of variance) Art der Freiheits- Quadrat- F -Quotient Abweichung grade (df ) summe schätzer Regression 1 n i=1 (y ŷ i ) 2 F n = S 2 reg/s 2 y x 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Fehler n 2 n i=1 (y i ŷ i ) 2 Total n 1 n i=1 (y i y ) 2 Bezeichnung: ŷ i = ˆb 0 + ˆb 1 x i Vorhersage an der Stelle x i 130 / 178
131 SPSS Output: F -Test bei linearer Regression in Beispiel 2.1 Modell 1 Regression Residuen Gesamt Quadratsumme 238, , ,960 a. Einflußvariablen : (Konstante), Leistungsstreben b. Abhängige Variable: Motivation df Mittel der Quadrate 238,015 22,737 F 10,468 ANOVA b Signifikanz,004 a 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Beachte: F 25 = , F 1,23,0.95 = Da F 25 = > wird die Nullhypothese H 0 : b 1 = 0 zu Gunsten der Alternative H 1 : b 1 0 zum Niveau 5% verworfen (p-wert: 0.004) 131 / 178
132 Modellgüte: wie geeignet ist das Modell für die Beschreibung der Daten Maß für Modellanpassung: Residualvarianz (Summe der quadrierte Abstände von der Regressionsgerade): S 2 y x = 1 n 2 n i=1 ( ) 2 y i (ˆb 0 + ˆb 1 x i ) 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Beachte: S 2 y x ist ein Schätzer für die Varianz der Messfehler Je kleiner Sy x 2, desto besser ist das (lineare) Regressionsmodell Streuung der Daten ohne die Information, dass ein lineares Modell vorliegt: n (y i y ) 2 i=1 Man untersucht welchen Anteil der Streuung n i=1 (y i y ) 2 man durch das lineare Modell erklären kann. 132 / 178
133 Varianzzerlegung: ein extremes Beispiel y Abhängige Variable Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Unabhängige Variable x Beachte: Die Grafik zeigt eine extreme Situation. Die Streuung der Daten ist durch das lineare Regressionsmodell zu 100% erklärbar! n i=1 (y i y ) 2 = n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 Residualvarianz (durch das lineare Regressionsmodell nicht erklärbare Varianz) = / 178
134 2.16 Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1): 25 i=1 25 i=1 R 2 = (y i y ) 2 = (y (ˆb 0 + ˆb 1 x i )) 2 = i=1 (y (ˆb 0 + ˆb 1 x i )) 2 25 i=1 (y i y ) 2 = d. h. 31.3% der Varianz der Variablen Motivation können durch die Prädiktorvariable Leistungsstreben erklärt werden. 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 134 / 178
135 2.17 Modellgüte: das Bestimmtheitsmaß Die Größe n R 2 i=1 = 1 (y i (ˆb 0 + ˆb 1 x i )) 2 n i=1 n i=1 (y = (y (ˆb 0 + ˆb 1 x i )) 2 i y ) 2 n i=1 (y y i ) 2 ist ein Maß für die Güte der heißt Bestimmtheitsmaß. 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Beachte: Man kann zeigen, dass R 2 genau das Quadrat der Korrelation ist. Je besser das Modell ist, desto kleiner ist die Residualvarianz, bzw. desto größer R 2! Das Bestimmtheitsmaß R 2 liegt immer zwischen 0 und / 178
136 Zusammenhang zwischen Bestimmtheitsmaß und F -Test Ist F n die Statistik für den F -Test aus 2.14 und R 2 das Bestimmtheitsmaß, dann gilt: R 2 = 1 n 2 F n n 2 F n 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression In anderen Worten: die Statistik F n des F -Test aus 2.5 kann aus dem Bestimmtheitsmaß berechnet werden (und umgekehrt) Im Beispiel des Zusammenhangs zwischen Motivation und Leistungsstreben ist F n = = R 2 = = Ca. 31.3% der Variation der Variablen Motivation können durch die Variable Leistungsstreben erklärt werden. 136 / 178
137 Vorhersagen: es gibt zwei unterschiedliche 2.18 Vorhersage für den Wert der Geraden an einer Stelle x Schätzung für den Wert der Geraden y(x) = b 0 + b 1 x an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression (1 α)-konfidenzintervall für y(x) (ŷ(x) t n 2; α 2 ŝ y(x), ŷ(x) + t n 2; α 2 ŝ y(x)) wobei ŝ 2 y(x) = S2 y x ( 1 n + (x x ) 2 n i=1 (x i x ) 2 ) den Schätzer für die Varianz von Ŷ (x) bezeichnet 137 / 178
138 Vorhersagen: es gibt zwei unterschiedliche 2.19 Vorhersage für eine neue Beobachtung an einer Stelle x Schätzer für eine neue Beobachtung Ỹ (x) = b 0 + b 1 x + ε an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x (1 α)-konfidenzintervall für y(x) 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression (ŷ(x) t n 2; α 2 s y(x), ŷ(x) + t n 2; α 2 s y(x)) wobei s 2 y(x) = S2 y x (1 + 1 n + (x x ) 2 n i=1 (x i x ) 2 ) den Schätzer für die Varianz von ŷ(x) + ε bezeichnet. Beachte: Diese Varianz wird bei wachsendem numfang nicht beliebig klein! 138 / 178
139 2.20 Beispiel: Fortsetzung von Beispiel 2.1 (1) Gesucht ist ein 90% Konfidenzintervall für den Wert der Geraden an der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ2 y(x) = 1.116, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für den Wert der Geraden an der Stelle 16 ist gegeben durch [16.677, ] 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression (2) Gesucht ist ein 90% Konfidenzintervall für eine neue Beobachtung der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ2 ỹ(x) = 23.85, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für eine neue Beobachtung an der Stelle 16 ist gegeben durch [10.118, ] 139 / 178
140 SPSS Output: Vorhersagen bei linearer Regression in Beispiel 2.1 (schwierig) 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 140 / 178
141 SPSS Output: für Vorhersagen bei linearer Regression in Beispiel Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 25 Motivation Leistungsstreben 141 / 178
142 2.21 Residuenanalyse Unter der Modellannahme des linearen Regressionsmodells gilt: die Größen ε i = Y i b 0 b 1 x i sind unabhängig und normalverteilt mit Erwartungswert 0 und Varianz σ 2 > 0. Das bedeutet, dass diese Eigenschaften auch näherungsweise für die Residuen ˆε i = y i ˆb 0 ˆb 1 x i erfüllt sein sollte, falls die Modellannahme zutrifft. Residuenanalyse ist ein deskriptives Verfahren für die Überprüfung der Annahmen an ε 1,..., ε n mit 4 Teilschritten (oft werden auch nicht alle gemacht): A: Das Streudiagramm der Daten mit der Regressionslinie B: Ein Streudiagramm der Residuen gegen die vorhergesagten Werte C: Normalverteilungs-QQ-Plot der Residuen D: Histogramm der Residuen mit angepasster Normalverteilungsdichte 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 142 / 178
143 Residuenanalyse bei erfüllten Voraussetzungen Abhängige Variable A Unabhängige Variable C 1.0 Residuum B Vorhergesagter Wert D Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Empirische Quantile Theoretische Quantile der Standardnormalvert. f(residuum) Residuum 143 / 178
144 Residuenanalyse bei Abweichungen von der Normalverteilung (Ausreißer) Abhängige Variable A Residuum B 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Empirische Quantile Unabhängige Variable C Theoretische Quantile der Standardnormalvert. f(residuum) Vorhergesagter Wert D Residuum 144 / 178
145 Residuenanalyse bei Stratifizierung Beachte: verschiedene Untergruppen (Strata) können ebenfalls zu Abweichungen von den Modellannahmen führen. Für die Strata können dann unterschiedliche Regressionsgleichungen gelten. Abhängige Variable A Unabhängige Variable C Residuum B Vorhergesagter Wert D 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Empirische Quantile f(residuum) Theoretische Quantile der Standardnormalvert Residuum 145 / 178
146 Residuenanalyse bei falscher Modellannahme Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Statt des linearen Modells wäre ein Polynom 3. Grades die bessere Annahme für die Beschreibung des funktionalen Zusammenhangs! 146 / 178
147 Residuenanalyse bei ungleichen Varianzen (Heteroskedastizität) Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 147 / 178
148 SPSS Output: Residuenanalyse in Beispiel Korrelation 2.2 Lineare Regression Motivation Multiple lineare Regression R-Quadrat linear = 0, Leistungsstreben Streudiagramm und geschätzte Regressionsgerade im Beispiel der Arbeitsmotivation 148 / 178
149 SPSS Output: Residuenanalyse in Beispiel 2.1 3, ,00000 Standardized Residual 1,00000, Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression -1, , , ,00000, , ,00000 Standardized Predicted Value Streudiagramm der Residuen gegen die vorhergesagten Werte im Beispiel der Arbeitsmotivation 149 / 178
150 SPSS Output für Residuenanalyse 2 Q-Q-Diagramm von Normal von Standardized Residual Erwarteter Wert von Normal Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Beobachteter Wert QQ-Plot im Beispiel der Arbeitsmotivation 150 / 178
151 Korrelation und lineare Regression Es besteht ein enger Zusammenhang zwischen linearer Regression und Korrelation Ist ˆb 1 die Schätzung im linearen Regressionsmodell und r der Korrelationskoeffizient von Pearson, dann gilt: 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression r = n i=1 (x i x ) 2 n i=1 (y i y ) 2 ˆb 1 Ist R 2 das Bestimmtheitsmaß und r der Korrelationskoeffizient von Pearson, dann gilt: r 2 = R / 178
152 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.3 Multiple lineare Regression 152 / 178
153 2.22 Beispiel: Arbeitsmotivation mit mehreren Prädiktoren y: Motivation (Einschätzung der Arbeitsmotivation durch Experten) Prädiktoren: Eigenschaften x 1 : Ehrgeiz (Fragebogen) x 2 : Kreativität (Fragebogen) x 3 : Leistungsstreben (Fragebogen) Prädiktoren: Rahmenbedingungen 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression x 4 : Hierarchie (Position in der Hierarchie des Unternehmens) x 5 : Lohn (Bruttolohn pro Monat) x 6 : Arbeitsbedingungen (Zeitsouveränität, Kommunikationsstruktur usw.) Prädiktoren: Inhalte der Tätigkeit x 7 : Lernpotential (Lernpotential der Tätigkeit) x 8 : Vielfalt (Vielfalt an Teiltätigkeiten) x 9 : Anspruch (Komplexität der Tätigkeit) 153 / 178
154 Daten i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 154 / 178
155 Daten i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 155 / 178
156 2.23 Das Modell der multiplen linearen Regression Daten (x 1, y 1 ),..., (x n, y n ) Es gibt k unabhängige Variablen: x i = (x 1i,..., x ki ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen der Variablen Y i und dem Vektor x i gilt (im Beispiel ist k = 9): Y i = b 0 + b 1 x 1i + b 2 x 2i b k x ki + ε i k = b 0 + b j x ji + ε i. j=1 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression ε i bezeichnet hier eine zufällige Störung und es wird angenommen, dass die Störungen ε 1,..., ε n unabhängig und normalverteilt sind mit Erwartungswert 0 und Varianz σ 2 > 0. Deutung: Es wird ein linearer Zusammenhang zwischen x und Y postuliert, der noch zufälligen Störungen unterliegt. 156 / 178
157 2.24 Schätzung bei multipler linearer Regression Methode der kleinsten Quadrate: Minimiere n (y i b 0 b 1 x 1i... b k x ki ) 2 i=1 bzgl. der Wahl von b 0,..., b k Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer ˆb 0, ˆb 1,..., ˆb k 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression für die Parameter b 0,..., b k (Formeln sind kompliziert) Schätzer für die Varianz der Messfehler S 2 y x = 1 n k 1 n (y i ˆb 0 ˆb 1 x 1i... ˆb k x ki ) 2 i=1 157 / 178
158 Streudiagramm bei multipler linearer Regression (k = 2) Regressionsfläche: ŷ(x) = x x Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Y X 1 X / 178
159 Fortsetzung von Beispiel 2.22: Schätzer im multiplen linearen Regressionsmodell Ergebnisse für die Schätzer im multiplen linearen Regressionsmodell ˆb 0 = ˆb1 = ˆb 2 = ˆb3 = ˆb 4 = ˆb 5 = ˆb 6 = ˆb 7 = ˆb 8 = ˆb9 = Fragen: Wie genau sind diese Schätzungen? Besteht ein (signifikanter) Einfluss der unabhängigen Merkmale auf die Motivation H 0 : b 1 = 0 H 0 : b 2 = 0 Wie gut beschreibt das multiple lineare Regressionsmodell die Situation?. 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 159 / 178
160 Genauigkeit der Schätzung bei multipler linearer Regression Schätzer ŝ b0,..., ŝ bk für die Standardfehler von ˆb 0,..., ˆb k sind verfügbar (Allgemeines lineares Modell Formeln kompliziert) Anmerkung: Für wachsenden numfang konvergieren die Schätzer ŝ bj gegen 0 je größer der numfang, desto genauer die Schätzungen Damit erhält man für b 0,..., b k, z. B. 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression (ˆb 0 t n k 1,1 α 2 ŝ b0, ˆb 0 + t n k 1,1 α 2 ŝ b0 ) ist (1 α)-konfidenzintervall für b / 178
161 Fortsetzung von Beispiel 2.22: Schätzer für den Standardfehler der Schätzer im multiplen linearen Regressionsmodell Ergebnisse für den Standardfehler der Schätzer im multiplen linearen Regressionsmodell ŝ b0 = ŝ b1 = ŝ b2 = ŝ b3 = ŝ b4 = ŝ b5 = ŝ b6 = ŝ b7 = ŝ b8 = ŝ b9 = Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Wegen t 15,0.975 = ist [ 0.089, 0.188] ein 95%-Konfidenzintervall für den Parameter b 3. Man beachte: ) n = 25; k = 9 n k 1 = / 178
162 2.25 für multiple lineare Regression Modellannahme: multiple lineare Regression Y i = b 0 + k b j x ji + ε i (i = 1,..., n) j=1 Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Schätzer ŝ bj für den Standardfehler von ˆb j = (ˆb j t n k 1,1 α 2 ŝb j, ˆb j + t n k 1,1 α 2 ŝb j ) ist ein (1 α)-konfidenzintervall für b j (j = 0,..., k) ; (1 α 2 2 )-Quantil der t-verteilung mit n k 1 Freiheitsgraden (Tabelle oder Software) t n k 1,1 α Anmerkung: Für wachsenden numfang konvergieren die Schätzer ŝ bj gegen 0 je größer der numfang, desto kleiner die 162 / 178
163 2.26 Beispiel: für die Parameter in Beispiel 2.22 (Arbeitsmotivation) ˆb j Merkmal Schätzung ŝ bj Konfidenzintervall ˆb [ , 6.926] ˆb 1 Ehrgeiz [0.020, 0.365] ˆb 2 Kreativität [0.049, 0.258] ˆb 3 Leistungsstreben [-0.089, 0.188] ˆb 4 Hierarchie [-0.069, 0.561] ˆb 5 Lohn [-0.004, 0.002] ˆb 6 Arbeitsbdg [-0.147, 0.085] ˆb 7 Lernpotential [-0.044, 0.373] ˆb 8 Vielfalt [0.095, 0.316] ˆb 9 Anspruch [-0.070, 0.177] 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 163 / 178
164 SPSS Output: Schätzer, Standardabweichung und im Beispiel 2.22 (Arbeitsmotivation mit mehreren Prädiktoren) Koeffizienten a 2.1 Korrelation Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070 Obergrenze 6,926,365,258,188,561,002,085,373,316, Lineare Regression 2.3 Multiple lineare Regression 164 / 178
165 2.27 Vorhersage der multiplen linearen Regression Modellannahme: multiple lineare Regression Y i = b 0 + k b j x ji + ε i (i = 1,..., n) j=1 Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme Vorhersage für den Wert der multiplen Regression an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) ŷ(x) = ˆb 0 + k j=1 ˆb j x j 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression In Beispiel 2.22 ergibt sich z. B. als Vorhersage der multiplen linearen Regression an der Stelle x 1 = 21, x 2 = 30, x 3 = 15, x 4 = 11, x 5 = 2900, x 6 = 41, x 7 = 25, x 8 = 55, x 9 = 54 der Wert ŷ(x) = / 178
166 Vorhersage der multiplen linearen Regression Beachte: Wie in Abschnitt 2.18 und 2.19 gibt es zwei Vorhersagen: Vorhersage für den Wert der multiplen Regression an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Vorhersage für den Wert einer neuen Beobachtung an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Für beide Vorhersagen kann man den Standardfehler bestimmen (Formeln kompliziert) und Konfidenzbereiche angeben (vgl. Abschnitt 2.18 und 2.19 für den Fall k = 1 ) 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 166 / 178
167 SPSS Output: Vorhersage bei der multiplen linearen Regression (schwierig) 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Beispiel: Schätzung für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : Schätzung für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : / 178
168 SPSS Output: für Vorhersagen bei multipler linearer Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Konfidenzintervall für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [12.399, ] Konfidenzintervall für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [9.870, ] 168 / 178
30. März Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette
Ruhr-Universität Bochum 30. März 2011 1 / 46 Methodenlehre II NA 3/73 Telefon: 0234 322 8284 Email: holger.dette@rub.de Internet: www.ruhr-uni-bochum.de/mathematik3/index.html Vorlesung: Montag, 8.30 10.00
Mehr22. Oktober Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette
Ruhr-Universität Bochum 22. Oktober 2011 1 / 374 Methodenlehre II NA 3/73 Telefon: 0234 322 8284 Email: holger.dette@rub.de Internet: www.ruhr-uni-bochum.de/mathematik3/index.html Vorlesung: Montag, 8.30
MehrMethodenlehre II, SoSe 2015
Ruhr-Universität Bochum 2. April 2015 1 / 96 Methodenlehre II Prof. Dr. NA 3/73 Telefon: 0234 322 8284 Email: holger.dette@rub.de Internet: http://www.ruhr-uni-bochum.de/mathematik3/ http://www.ruhr-uni-bochum.de/mathematik3/dette.html
MehrMethodenlehre II, SoSe 2015
Ruhr-Universität Bochum 4. Juni 2015 1 / 282 Methodenlehre II Prof. Dr. NA 3/73 Telefon: 0234 322 8284 Email: holger.dette@rub.de Internet: http://www.ruhr-uni-bochum.de/mathematik3/ http://www.ruhr-uni-bochum.de/mathematik3/dette.html
Mehr7. Mai 2010. Ruhr-Universität Bochum. Methodenlehre II, SS 2009. Prof. Dr. Holger Dette
Ruhr-Universität Bochum 7. Mai 2010 1 / 95 Methodenlehre II NA 3/73 Telefon: 0234 322 8284 Email: holger.dette@rub.de Internet: www.ruhr-uni-bochum.de/mathematik3/index.html Vorlesung: Montag, 8.30-10.00
MehrStatistik II für Betriebswirte Vorlesung 1
Statistik II für Betriebswirte Vorlesung 1 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 16. Oktober 2017 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version:
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
MehrStatistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
MehrStatistik II Übung 3: Hypothesentests
Statistik II Übung 3: Hypothesentests Diese Übung beschäftigt sich mit der Anwendung diverser Hypothesentests (zum Beispiel zum Vergleich der Mittelwerte und Verteilungen zweier Stichproben). Verwenden
MehrEinführung in die Varianzanalyse mit SPSS
Einführung in die Varianzanalyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen 6. Mai 00 Inhalt. Varianzanalyse. Prozedur ONEWAY. Vergleich von k Gruppen 4. Multiple Vergleiche 5. Modellvoraussetzungen
MehrGrundlagen der schließenden Statistik
Grundlagen der schließenden Statistik Schätzer, Konfidenzintervalle und Tests 1 46 Motivation Daten erhoben (Umfrage, Messwerte) Problem: Bei Wiederholung des Experiments wird man andere Beobachtungen
MehrDas (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
Mehr1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...
Inhaltsverzeichnis 1 Grundlagen der Wahrscheinlichkeitsrechnung 1 1.1 Wahrscheinlichkeitsräume Ein erster mathematischer Blick auf Zufallsexperimente.......... 1 1.1.1 Wahrscheinlichkeit, Ergebnisraum,
MehrMusterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn
MehrVarianzvergleiche bei normalverteilten Zufallsvariablen
9 Mittelwert- und Varianzvergleiche Varianzvergleiche bei zwei unabhängigen Stichproben 9.3 Varianzvergleiche bei normalverteilten Zufallsvariablen Nächste Anwendung: Vergleich der Varianzen σa 2 und σ2
MehrEinfaktorielle Varianzanalyse Vergleich mehrerer Mittelwerte
Einfaktorielle Varianzanalyse Vergleich mehrerer Mittelwerte Es wurden die anorganischen Phosphatwerte im Serum (mg/dl) eine Stunde nach einem Glukosetoleranztest bei übergewichtigen Personen mit Hyperinsulinämie,
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 12. Januar 2011 1 Vergleich zweier Erwartungswerte Was heißt verbunden bzw. unverbunden? t-test für verbundene Stichproben
Mehr4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers
4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
Mehr1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.
0 Einführung 1 Wahrscheinlichkeitsrechnung 2 Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung 5 Hypothesentests 6 Regression Lineare Regressionsmodelle Deskriptive Statistik:
Mehr2. Korrelation, lineare Regression und multiple Regression
multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig
MehrStatistik II Übung 3: Hypothesentests Aktualisiert am
Statistik II Übung 3: Hypothesentests Aktualisiert am 12.04.2017 Diese Übung beschäftigt sich mit der Anwendung diverser Hypothesentests (zum Beispiel zum Vergleich der Mittelwerte und Verteilungen zweier
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 9. Dezember 2010 1 Konfidenzintervalle Idee Schätzung eines Konfidenzintervalls mit der 3-sigma-Regel Grundlagen
MehrDeskriptive Beschreibung linearer Zusammenhänge
9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,
MehrMathematische und statistische Methoden II
Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike
MehrPrüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003
Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003. Eine seltene Krankheit trete mit Wahrscheinlichkeit : 0000 auf. Die bedingte Wahrscheinlichkeit, dass ein bei einem Erkrankten durchgeführter
MehrLösung Übungsblatt 5
Lösung Übungsblatt 5 5. Januar 05 Aufgabe. Die sogenannte Halb-Normalverteilung spielt eine wichtige Rolle bei der statistischen Analyse von Ineffizienzen von Produktionseinheiten. In Abhängigkeit von
Mehr3.3 Das allgemeine lineare Modell (ALM), Methode der kleinsten Quadrate
31 und 31 und (), Methode der 33 Das allgemeine (), Methode der kleinsten Quadrate 36 Kovarianzanalyse 37 Modelle mit Messwiederholungen 1 / 85 Eine grundsätzliche Bemerkung zu Beginn Es bestehen viele
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 20. Januar 2011 1 Der F -Test zum Vergleich zweier Varianzen 2 Beispielhafte Fragestellung Bonferroni-Korrektur
MehrAuswertung und Lösung
Dieses Quiz soll Ihnen helfen, Kapitel 4.6 und 4.7 besser zu verstehen. Auswertung und Lösung Abgaben: 59 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 4.78 1 Frage
MehrKapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrTeil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller
Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
MehrBereiche der Statistik
Bereiche der Statistik Deskriptive / Exploratorische Statistik Schließende Statistik Schließende Statistik Inferenz-Statistik (analytische, schließende oder konfirmatorische Statistik) baut auf der beschreibenden
MehrEinfaktorielle Varianzanalyse
Kapitel 16 Einfaktorielle Varianzanalyse Im Zweistichprobenproblem vergleichen wir zwei Verfahren miteinander. Nun wollen wir mehr als zwei Verfahren betrachten, wobei wir unverbunden vorgehen. Beispiel
MehrWahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -
wahrer Sachverhalt: Palette ist gut Palette ist schlecht Entscheidung des Tests: T K; Annehmen von H0 ("gute Palette") positive T > K; Ablehnen von H0 ("schlechte Palette") negative Wahrscheinlichkeit
MehrStatistische Tests für unbekannte Parameter
Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung
MehrStatistische Tests (Signifikanztests)
Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)
MehrZufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential
Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
MehrStatistische Tests für unbekannte Parameter
Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
MehrStatistik-Team. Tobias Kley: Übung: Freitag, Uhr, HGA 10 Tutorium (SPSS) - ab
Statistik-Team Tobias Kley: tobikley@uni-muenster.de Übung: Freitag, 9.00-10.00 Uhr, HGA 10 Tutorium (SPSS) - ab 26.10.2009 Koordination: Dr. Helge Thiemann Helge.Thiemann-i5m@ruhr-uni-bochum.de 0234/
Mehr7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.
7. Übung: Aufgabe 1 b), c), e) Aufgabe a), c), e) Aufgabe 3 c), e) Aufgabe 4 b) Aufgabe 5 a) Aufgabe 6 b) Aufgabe 7 e) Aufgabe 8 c) Aufgabe 9 a), c), e) Aufgabe 10 b), d) Aufgabe 11 a) Aufgabe 1 b) Aufgabe
MehrBereiche der Statistik
Bereiche der Statistik Deskriptive / Exploratorische Statistik Schließende Statistik Schließende Statistik Inferenz-Statistik (analytische, schließende oder konfirmatorische Statistik) baut auf der beschreibenden
MehrSchätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO
Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung
Mehr2.5 Lineare Regressionsmodelle
2.5.1 Wiederholung aus Statistik I Gegeben Datenpunkte (Y i, X i ) schätze die beste Gerade Y i = β 0 + β 1 X i, i = 1,..., n. 2 Induktive Statistik 409 Bsp. 2.30. [Kaffeeverkauf auf drei Flohmärkten]
MehrStatistik Zusätzliche Beispiele SS 2018 Blatt 3: Schließende Statistik
Statistik Zusätzliche Beispiele SS 2018 Blatt 3: Schließende Statistik 1. I Ein Personalchef führt so lange Vorstellungsgespräche durch bis der erste geeignete Bewerber darunter ist und stellt diesen an.
MehrTests für Erwartungswert & Median
Mathematik II für Biologen 26. Juni 2015 Prolog Varianz des Mittelwerts Beispiel: Waage z-test t-test Vorzeichentest Wilcoxon-Rangsummentest Varianz des Mittelwerts Beispiel: Waage Zufallsvariable X 1,...,X
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
MehrSignifikanzprüfung. Peter Wilhelm Herbstsemester 2016
Signifikanzprüfung Peter Wilhelm Herbstsemester 2016 1.) Auswahl des passenden Tests 2.) Begründete Festlegung des Alpha-Fehlers nach Abschätzung der Power 3.) Überprüfung der Voraussetzungen 4.) Durchführung
MehrSo berechnen Sie einen Schätzer für einen Punkt
htw saar 1 EINFÜHRUNG IN DIE STATISTIK: SCHÄTZEN UND TESTEN htw saar 2 Schätzen: Einführung Ziel der Statistik ist es, aus den Beobachtungen eines Merkmales in einer Stichprobe Rückschlüsse über die Verteilung
MehrDie Familie der χ 2 (n)-verteilungen
Die Familie der χ (n)-verteilungen Sind Z 1,..., Z m für m 1 unabhängig identisch standardnormalverteilte Zufallsvariablen, so genügt die Summe der quadrierten Zufallsvariablen χ := m Z i = Z 1 +... +
MehrDie Familie der χ 2 (n)-verteilungen
Die Familie der χ (n)-verteilungen Sind Z 1,..., Z m für m 1 unabhängig identisch standardnormalverteilte Zufallsvariablen, so genügt die Summe der quadrierten Zufallsvariablen χ := m Z i = Z 1 +... +
MehrBachelorprüfung: Statistik (1 Stunde)
Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!
MehrSPSS V Gruppenvergleiche ( 2 Gruppen) abhängige (verbundene) Stichproben
SPSS V Gruppenvergleiche ( 2 Gruppen) abhängige (verbundene) Stichproben ÜBERSICHT: Testverfahren bei abhängigen (verbundenen) Stichproben parametrisch nicht-parametrisch 2 Gruppen t-test bei verbundenen
Mehr3 Grundlagen statistischer Tests (Kap. 8 IS)
3 Grundlagen statistischer Tests (Kap. 8 IS) 3.1 Beispiel zum Hypothesentest Beispiel: Betrachtet wird eine Abfüllanlage für Mineralwasser mit dem Sollgewicht µ 0 = 1000g und bekannter Standardabweichung
MehrRegression und Korrelation
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen
Mehr4.1. Nullhypothese, Gegenhypothese und Entscheidung
rof. Dr. Roland Füss Statistik II SS 8 4. Testtheorie 4.. Nullhypothese, Gegenhypothese und Entscheidung ypothesen Annahmen über die Verteilung oder über einzelne arameter der Verteilung eines Merkmals
Mehr3.Wiederholung: Toleranzbereiche Für EX Geg:
3.Wiederholung: Toleranzbereiche Für EX Geg: Vl. 24.2.2017 Schätzfunktion für Güte: Ist X Problem: Feb 17 13:21 > Wir berechnen Bereiche (Toleranzbereiche) für sind untere und obere Grenzen, berechnet
MehrKapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell
Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften
Mehr7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien
Statistik 7.1 Korrelationsanalyse Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Sommersemester 2012 7 Regressions- und Korrelationsanalyse Kovarianz Pearson-Korrelation Der (lineare)
MehrVergleich von Gruppen I
Vergleich von Gruppen I t-test und einfache Varianzanalyse (One Way ANOVA) Werner Brannath VO Biostatistik im WS 2006/2007 Inhalt Der unverbundene t-test mit homogener Varianz Beispiel Modell Teststatistik
MehrStatistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de
rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent
MehrStochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)
Prof. Dr. P. Embrechts ETH Zürich Winter 2012 Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL) Schreiben Sie für Aufgabe 2-4 stets alle Zwischenschritte und -rechnungen sowie Begründungen auf. Aufgabe
MehrEmpirische Wirtschaftsforschung
Empirische Wirtschaftsforschung Prof. Dr. Bernd Süßmuth Universität Leipzig Institut für Empirische Wirtschaftsforschung Volkswirtschaftslehre, insbesondere Ökonometrie 1 4. Basiskonzepte der induktiven
Mehr5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)
5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte
Mehr0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1
Aufgabe 1 (2 + 2 + 2 + 1 Punkte) Gegeben sei folgende gemeinsame Wahrscheinlichkeitsfunktion f(x, y) = P (X = x, Y = y) der Zufallsvariablen X und Y : 0.2 x = 1, y = 1 0.3 x = 2, y = 1 f(x, y) = 0.45 x
Mehr6. Schätzverfahren für Parameter
6. Schätzverfahren für Parameter Ausgangssituation: Ein interessierender Zufallsvorgang werde durch die ZV X repräsentiert X habe eine unbekannte Verteilungsfunktion F X (x) Wir interessieren uns für einen
Mehr2. Formulieren von Hypothesen. Nullhypothese: H 0 : µ = 0 Gerät exakt geeicht
43 Signifikanztests Beispiel zum Gauß-Test Bei einer Serienfertigung eines bestimmten Typs von Messgeräten werden vor der Auslieferung eines jeden Gerätes 10 Kontrollmessungen durchgeführt um festzustellen,
MehrStatistik II für Betriebswirte Vorlesung 8
Statistik II für Betriebswirte Vorlesung 8 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 3. Dezember 2018 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 8 Version:
Mehrdas Kleingedruckte...
Gepaarte t-tests das Kleingedruckte... Datenverteilung ~ Normalverteilung QQ-plot statistischer Test (Shapiro-Wilk, Kolmogorov-Smirnov) wenn nicht : nicht-parametrische Tests gleiche Varianz (2-Proben
Mehr5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)
5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte
MehrWelche(s) Paar(e) ist(sind) denn nun signifikant verschieden?
Welche(s) Paar(e) ist(sind) denn nun signifikant verschieden? Der F-Test der Varianzanalyse erlaubt lediglich eine Existenzaussage über ein Paar (i,j) mit µ i µ j zum einem Niveau α. In der Praxis interessiert
Mehr3.3 Das allgemeine lineare Modell (ALM), Methode der kleinsten Quadrate
31 und 33 Das allgemeine (), Methode der kleinsten Quadrate 31 und (), Methode der Messwiederholungen 1 / 131 Eine grundsätzliche Bemerkung zu Beginn Es bestehen viele Ähnlichkeiten zwischen den bisher
MehrMathematische Statistik Aufgaben zum Üben. Schätzer
Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch
MehrEinfache Varianzanalyse für unabhängige Stichproben
Einfache Varianzanalyse für unabhängige Stichproben VARIANZANALYSE Die Varianzanalyse ist das dem t-test entsprechende Mittel zum Vergleich mehrerer (k 2) Stichprobenmittelwerte. Sie wird hier mit VA abgekürzt,
MehrSignifikanzprüfung. Peter Wilhelm Herbstsemester 2014
Signifikanzprüfung Peter Wilhelm Herbstsemester 2014 1.) Auswahl des passenden Tests 2.) Begründete Festlegung des Alpha- Fehlers nach Abschätzung der Power 3.) Überprüfung der Voraussetzungen 4.) Durchführung
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine Universität Düsseldorf 13. Januar 2010 Termine Letzte Vorlesung am 28.01.2010 Letzte Übung am 27.01.2010, und zwar für alle Anfangsbuchstaben
Mehr2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.11. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler 2009 war genau 33.7%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau
MehrStatistik II Übung 4: Skalierung und asymptotische Eigenschaften
Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden
MehrÜbung V Lineares Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung
MehrEinführung in Web- und Data-Science
Einführung in Web- und Data-Science Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Tanya Braun (Übungen) P-Wert (einseitiger Ablehnungsbereich) Hypothesentest H 0 vs. H 1
MehrVergleich von Parametern zweier Stichproben
Vergleich von Parametern zweier Stichproben Vergleich von Mittelwerten bei gebundenen Stichproben Vergleich von Mittelwerten bei unabhängigen Stichproben Vergleich von Varianzen bei unabhängigen Stichproben
MehrSchätzung im multiplen linearen Modell VI
Schätzung im multiplen linearen Modell VI Wie im einfachen linearen Regressionsmodell definiert man zu den KQ/OLS-geschätzten Parametern β = ( β 0, β 1,..., β K ) mit ŷ i := β 0 + β 1 x 1i +... β K x Ki,
MehrStatistik II für Betriebswirte Vorlesung 11
Statistik II für Betriebswirte Vorlesung 11 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 07. Januar 2019 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 11 Version:
MehrHypothesentests mit SPSS
Beispiel für eine einfache Regressionsanalyse (mit Überprüfung der Voraussetzungen) Daten: bedrohfb_v07.sav Hypothese: Die Skalenwerte auf der ATB-Skala (Skala zur Erfassung der Angst vor terroristischen
MehrHypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015
Hypothesentests für Erwartungswert und Median Statistik (Biol./Pharm./HST) FS 2015 Normalverteilung X N μ, σ 2 X ist normalverteilt mit Erwartungswert μ und Varianz σ 2 pdf: pdf cdf:??? cdf 1 Zentraler
MehrEvaluation & Forschungsstrategien. B.Sc.-Seminar. Sitzung IV: Konfidenzintervalle // Normalverteilungstests
Evaluation & Forschungsstrategien B.Sc.-Seminar Sitzung V: Konfidenzintervalle // Normalverteilungstests Seminarinhalte Sitzung V: 16.05.2018 Konfidenzintervalle bei bekannter Varianz Konfidenzintervalle
Mehr5. Stichproben und Statistiken
5. Stichproben und Statistiken Problem: Es sei X eine ZV, die einen interessierenden Zufallsvorgang repräsentiere Man möchte die tatsächliche Verteilung von X kennenlernen (z.b. mittels der VF F X (x)
MehrStatistische Messdatenauswertung
Roland Looser Statistische Messdatenauswertung Praktische Einführung in die Auswertung von Messdaten mit Excel und spezifischer Statistik-Software für naturwissenschaftlich und technisch orientierte Anwender
MehrEinführung in die Statistik
Einführung in die Statistik Analyse und Modellierung von Daten von Prof. Dr. Rainer Schlittgen Universität Hamburg 12., korrigierte Auflage Oldenbourg Verlag München Inhaltsverzeichnis 1 Statistische Daten
Mehr