Methodenlehre II, SoSe 2015
|
|
|
- Agnes Raske
- vor 8 Jahren
- Abrufe
Transkript
1 Ruhr-Universität Bochum 4. Juni / 282
2 Methodenlehre II Prof. Dr. NA 3/73 Telefon: Internet: Vorlesung:Montag, Uhr, HGA 10 Thema: Das allgemeine lineare Modell und seine Anwendungen in der Psychologie 2 / 282
3 Statistik-Team Übung: Dienstag, Uhr, HZ0 70 Ria Van Hecke; Tutorium: SPSS Maxi Gödel:: Mo 10:00-12:00 in GAFO 02/365 Mo 12:00-14:00 in GAFO 03/974 Pia Brinkhaus: Di 10:00-12:00 in UFO 01/06 Ricarda Weiland: Mo 14:00-16:00 in GAFO 02/368 Di 08:00-10:00 in GAFO 02/368 Phillip Ozimek: Do 14:00-16:00 in GAFO 03/901 Malte Kobelt: Do 14:00-16:00 in GAFO 03/974 3 / 282
4 E-Learning Zur Unterstützung von Vorlesung und Übung gibt es einen Blackboardkurs: Kurs-ID: ss15 Kursbezeichnung: Statistische Methodenlehre II Passwort: mlehre2. Dort gibt es: Folien zu Vorlesung und Übung, Übungsaufgaben und Tests, mit denen Bonuspunkte für die Klausur erzielt werden können und (zum Semesterende) eine Probeklausur. 4 / 282
5 Das allgemeine lineare Modell: Ein mathematisches Modell - viele statistische Verfahren Inhaltsverzeichnis am Beispiel des t-tests 2. Das lineare smodell, multiple Korrelation 3. Das allgemeine lineare Modell 5 / 282
6 Literatur A. Aron, E.N. Aron, E.J. Coups, Statistics for Psychology, 5th Edition, Pearson Prentice Hall J. Bortz, Statistik, 6. Auflage, Springer M. Rudolf, J. Müller, Multivariate Verfahren, Hogrefe P. Zöfel, Statistik für Psychologen, Pearson Studium 6 / 282
7 schließenden Statistik 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 7 / 282
8 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.1 Schätzer und Konfidenzintervalle 1.4 Einfaktorielle Varianzanalyse 8 / 282
9 keitsverteilungen und all dem drum herum beschäftigt. Meistens waren dabei die Parameter der Verteilungen bekannt und man konnte unmittelbar loslegen; alles ja mehr oder weniger kein Problem. Aber ohne Euch enttäuschen zu wollen, müssen wir leider mitteilen, dass bei praktischen Anwendungen die Parameter der Wahrscheinlichkeitsverteilungen jedoch eher selten bekannt sind. In solch einer Situation kann man mit der beurteilenden Statistik - aufbauend auf der beschreibenden Statistik und der Wahrscheinlichkeits- Beurteilende Statistik " U8ER. PliS LJoUfl.J WiR. WAS /.JiSSHJ: (JI.!!) Wil<. HI/BEI.! ljin,zom 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse f:rjf()liltioij it, 'KüoCSCHwsr G.iGEA/S(j{ltfrEN J)'( fi{,e#./sci(i/ PT!/..) J)ff( <1 X GROM l>6lj Af,rTHEi" i.x)'- 1 gemeinsam mit Herrn Dr. Romberg. (Oestreich & Romberg, 2012) 9 / 282
10 1.1 Beispiel: Intelligenzquotient Fragestellung: Haben (15-jährige) Kinder aus Bochum einen höheren Intelligenzquotienten als 100? 10 Kinder (zufällig ausgewählt) machen einen IQ-Test Daten: y 1,..., y 10 Stichprobe i y i i y i Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Hypothese (IQ der Kinder ist niedriger als 100): H 0 : µ 100 Alternative (IQ ist höher als 100): H 1 : µ > 100 Dabei ist µ der (unbekannte) Erwartungswert der Gesamtpopulation der (15-jährigen) Kinder aus Bochum 10 / 282
11 Prinzip der Auf Grund der Stichprobe y 1,..., y 10 sollen Aussagen über das Merkmal der Grundgesamtheit getroffen werden. Zum Beispiel Wie groß ist µ (Schätzung)? Kann man ein Intervall bestimmen, in dem µ liegt (Konfidenzintervall)? Gilt 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse H 0 : µ 100 (IQ ist nicht höher) oder gilt H 1 : µ > 100 (IQ ist höher)? (statistischer Test) 11 / 282
12 Grundlegende Schwierigkeit: µ ist der Erwartungswert der Population der 15-jährigen Kinder Auf Basis der Stichprobe soll auf die Grundgesamtheit geschlossen werden Fehler, Unsicherheiten sind möglich! Beispiel: zufällig wählen wir 5 hochbegabte Kinder (IQ 130) für die Stichprobe aus. Vermutlich wird dadurch µ überschätzt! 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Ziel der : Quantifizierung der Unsicherheit, z. B. mit welcher Wahrscheinlichkeit macht ein statistischer Test einen Fehler, falls (aufgrund von Daten) für H 1 (IQ ist höher als 100) entschieden wird, obwohl in Wirklichkeit H 0 gilt? Notwendig für diese Quantifizierung: Mathematische Modellannahmen 12 / 282
13 Zusätzliche Modellannahme: Normalverteilung Allgemein gängige Annahme: Intelligenz in einer bestimmten Altersgruppe der Bevölkerung ist normalverteilt ( 1 ϕ(x) = exp 1 2πσ 2 2 (x µ ) σ )2 µ : Erwartungswert σ 2 : Varianz 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Deutung: Ist Y der IQ eines zufällig aus der Population ausgewählten Individuums, so gilt P(a Y b) = b a ϕ(x)dx Diese Modellannahme sollte man stets rechtfertigen (wie man das machen kann, sehen wir später) 13 / 282
14 Interpretation der Wahrscheinlichkeiten: 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse a b Die Wahrscheinlichkeit, dass eine Beobachtung zwischen den Werten a und b liegt, entspricht der Fläche unter der Kurve im Intervall [a, b]. In Formeln: P(a Y b) = b a ϕ(x)dx 14 / 282
15 Verschiedene Normalverteilungen N(µ, σ 2 ) Dichten der Normalverteilung mit verschiedenen Parametern N(0,0.707) N(0,1) N(1,1.25) N(2,2) 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse µ: Erwartungswert σ 2 : Varianz Beachte: unter jeder Kurve ist die Fläche genau 1 15 / 282
16 Motivation der Modellannahme der Normalverteilung 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 16 / 282
17 Zusätzliche Modellannahme: Normalverteilung Mathematisches Modell (hier n = 10): y 1,..., y n sind Realisierungen von Zufallsvariablen Y i = µ + ε i, i = 1,..., n yi: IQ-Messung für i-tes Kind (Realisation der Zufallsvariablen Y i) µ: (unbekannter) Erwartungswert der Population (hier der 15-jährigen Kinder aus Bochum) ε1,..., ε n: unabhängige Zufallsvariable, normalverteilt mit Erwartungswert 0 und Varianz σ 2. Interpretation: Messfehler, genetische Variabilität, Tagesform... Mathematische Statistik z. B. Maximum Likelihood (in diesem Beispiel auch der gesunde Menschenverstand) liefert Schätzer für µ: ˆµ = y = 1 n y i = n Wie genau ist diese Schätzung? Wie sehr streut diese Schätzung? i=1 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 17 / 282
18 Zusätzliche Modellannahme: Normalverteilung Maß für die Genauigkeit: Varianz (je kleiner die Varianz, desto genauer die Schätzung) Mathematische Statistik (Methodenlehre I): die Varianz des Schätzers ˆµ ist: Beachte: Var(ˆµ) = σ2 n Je größer der Stichprobenumfang n, desto kleiner die Varianz von ˆµ. D.h. desto genauer ist die Schätzung. Für die Beurteilung der Genauigkeit muss man die Varianz σ 2 der Population kennen. Mathematische Statistik: Schätzung für den Parameter σ Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse ˆσ 2 = 1 n 1 n (y i y ) 2 = i=1 ˆσ 2 µ = ˆσ2 n = / 282
19 Zusätzliche Modellannahme: Normalverteilung Oft wird der Schätzer zusammen mit dem Standardfehler angegeben ˆµ = ˆµ + ˆσ µ = ˆµ ˆσ µ = ˆσ µ = ˆσ ˆσ n = 2 n = ist der Standardfehler des Schätzers ˆµ (Schätzung für Streuung des arithmetischen Mittels) ˆσ = ist die aus den Daten geschätzte Standardabweichung (Schätzung für die Streuung einer einzelnen Beobachtung) Deutung: Vor der Datenerhebung ist ˆµ zufällig. Falls die Normalverteilungsannahme korrekt ist, ist auch ˆµ normalverteilt mit: 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse - Erwartungswert µ - Varianz σ2 n 19 / 282
20 Dichte Verschiedene Normalverteilungen Y1 ~ N(104.1, 28.32) (Y1 + Y2) 2 ~ N(104.1, 28.32/2) 10 ( Yi) 10 ~ N(104.1, 2.832) i=1 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse x 20 / 282
21 1.2 Schätzverfahren (Erwartungswert einer Population unter Normalverteilungsannahme) Daten y 1,..., y n (Stichprobe) mit Erwartungswert µ Rechtfertigung der Unabhängigkeits- und Normalverteilungsannahme ˆµ = 1 n n i=1 y i Schätzung für den Erwartungswert µ der Population 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse ˆσ 2 = 1 n 1 n i=1 (y i y ) 2 Schätzung für die Varianz der Population (ˆσ Schätzung für die Standardabweichung) ˆσ 2 µ = ˆσ2 n Schätzung für die Varianz von ˆµ Schätzung für den Standardfehler von ˆµ : ˆσ µ = ˆσ 2 n = ˆσ n 21 / 282
22 SPSS-Output: die Schätzer für die Daten aus Beispiel 1.1 (Intelligenzquotient) 1.1 Schätzer und Deskriptive Statistik Konfidenzintervalle 1.2 t-test für eine Intelligenzquotient Gültige Werte (Listenweise) N Statistik Mittelwert Standardabweichung Varianz Statistik Standardfehler Statistik Statistik 104,10 1,683 5,322 28,322 Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse ˆµ = 104.1(Mittelwert) ˆσ µ = 1.683(Standardfehler) ˆσ 2 = (empirische Varianz) ˆσ = 5.322(Standardabweichung) 22 / 282
23 R-Output: die Schätzer für die Daten aus Beispiel 1.1 (Intelligenzquotient) 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe V1 median mean Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse SE. mean CI. mean var std. dev coef. var / 282
24 Beachte: ˆµ = 1 n n i=1 y i ; ˆσ 2 = 1 n 1 n ˆσ (y i y ) 2 2 ; ˆσ µ = n i=1 hängen von den Daten y 1,..., y n ab (sind also vor Datenerhebung zufällig) (ˆµ a ˆσ µ, ˆµ + a ˆσ µ ) ist (vor der Datenerhebung) ein zufälliges Intervall, das mit einer bestimmten Wahrscheinlichkeit den Erwartungswert µ enthält 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse a 0 = Wahrscheinlichkeit 0 a = Wahrscheinlichkeit 1 Gesucht: zufälliges Intervall, das den unbekannten Erwartungswert mit einer vorgegebenen Wahrscheinlichkeit enthält: Konfidenzintervall 24 / 282
25 Das Konfidenzintervall Gebe eine Wahrscheinlichkeit 1 α vor (z. B. 1 α = 95%) Bestimme a so, dass das zufällige Intervall (ˆµ a ˆσ µ, ˆµ + a ˆσ µ ) den Parameter µ mit Wahrscheinlichkeit 1 α enthält. Mathematische Statistik liefert 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse a = t n 1,1 α 2 (1 α 2 )-Quantil der t-verteilung mit n 1 Freiheitsgraden Diese Werte sind tabelliert oder durch Software verfügbar. Das Intervall I = ( ˆµ t n 1,1 α 2 ˆσ µ, ˆµ + t n 1,1 α 2 ˆσ µ ) heißt (1 α) Konfidenzintervall für µ. 25 / 282
26 Verschiedene t-verteilungen Dichten der t Verteilung mit verschiedenen Freiheitsgraden t 100 t 4 t Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse f n (t) = 1 πn Γ((n + 1)/2) Γ(n/2) ) (n+1)/2 (1 + t2 n 26 / 282
27 Das Quantil der t-verteilung mit n Freiheitsgraden Dichte der t4 -Verteilung 1.1 Schätzer und Konfidenzintervalle t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse t 4, 0.95 = P(T 4 t 4,0.95 ) = t4,0.95 f 4 (t)dt = / 282
28 Beispiel 1.3 (Fortsetzung von Beispiel 1.1) Berechnung eines 90% Konfidenzintervalls für µ n = 10, ˆµ = 104.1, ˆσ 2 = α = 10% (aus Tabelle bzw. Software) t9,0.95 = % Konfidenzintervall für µ = (101.02, ) Beachte: Ein (1 α)-konfidenzintervall ist ein zufälliges Intervall, das den (unbekannten) Erwartungswert mit Wahrscheinlichkeit 1 α enthält. Die Aussage das Intervall (101.02, ) enthält den unbekannten Erwartungswert der Population mit Wahrscheinlichkeit 90% hat keinen Sinn! 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 28 / 282
29 Erklärung des Begriffs zufälliges Intervall durch ein fiktives Experiment Annahme: das Experiment (Untersuchung des IQ von 10 Kindern) kann N mal (unabhängig) wiederholt werden (z. B mal) jeweils 10 Daten liefern ein (1 α)-konfidenzintervall (z. B. 95 % Konfidenzintervall) Datensatz 1 Konfidenzintervall I 1 Datensatz 2 Konfidenzintervall I Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse. Datensatz N Konfidenzintervall I N ca. (1 α) N (z. B. 95% 1000 = 950) Intervalle enthalten den (unbekannten) Erwartungswert µ der Population 29 / 282
30 1.4 Konfidenzbereich für den Erwartungswert einer Population unter Normalverteilungsannahme Daten y 1,..., y n (Stichprobe) mit Erwartungswert µ Rechtfertigung der Unabhängigkeits- und Normalverteilungsannahme Bestimme das t n 1,1 α 2 Quantil der t-verteilung mit n 1 Freiheitsgraden (aus Tabelle oder Software) Das Intervall 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse (ˆµ t n 1,1 α 2 ˆσ µ, ˆµ + t n 1,1 α 2 ˆσ µ) ist ein (1 α) Konfidenzintervall für µ In vielen Softwarepaketen erhält man direkt das Konfidenzintervall als Ausgabe (z. B. in SPSS) 30 / 282
31 SPSS-Output: Konfidenzintervall für die Daten aus Beispiel 1.1 (Intelligenzquotient) Test bei einer Sichprobe Testwert = % Konfidenzintervall der Differenz T df Sig. (2-seitig) Mittlere Differenz Untere Obere Intelligenzquotient 2,436 9,038 4,100 1,02 7, Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Beachte: SPSS liefert nur ein Konfidenzintervall für die Differenz µ 100 = 90% Konfidenzintervall für den Erwartungswert µ (101.02, ) 31 / 282
32 R-Output: Konfidenzintervall für die Daten aus Beispiel 1.1 (Intelligenzquotient) One Sample t- test 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme data : IQ t = , df = 9, p- value = alternative hypothesis : true mean is not equal to Einfaktorielle Varianzanalyse 90 percent confidence interval : sample estimates : mean of x / 282
33 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.2 t-test für eine Stichprobe 1.4 Einfaktorielle Varianzanalyse 33 / 282
34 Beispiel 1.5 (Fortsetzung von Beispiel 1.1) Frage: Ist der IQ der Kinder aus Bochum höher als 100? H 0 : µ 100 H 1 : µ > 100 H 0 nennt man Nullhypothese und H 1 heißt Alternative. Intuitiv würde man für H 1 entscheiden, falls der Mittelwert der Stichprobe ˆµ = 1 10 y i 10 groß ist Beachte: ˆµ ändert sich, falls man die Daten anders skaliert! i=1 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Besser: entscheide für H 1, falls ˆµ groß im Verhältnis zu dem Standardfehler ˆσ µ ist (Invarianz bzgl. unterschiedlicher Skalierungen) 34 / 282
35 Die Nullhypothese H 0 : µ 100 wird abgelehnt falls Fragen: T = ˆµ 100 ˆσ µ > c Wie legt man den kritischen Wert c fest? Bei dem Verfahren können 2 Fehler auftreten 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Fehler erster Art: Die Nullhypothese H0 wird abgelehnt, obwohl H 0 in Wirklichkeit stimmt (d. h. der IQ ist nicht höher als 100) Fehler zweiter Art: Die Nullhypothese H0 wird nicht abgelehnt, obwohl in Wirklichkeit die Alternative H 1 zutrifft (d. h. der IQ ist höher als 100) Ziel: kleine Wahrscheinlichkeiten für Fehler erster und zweiter Art 35 / 282
36 Grundlegendes Prinzip der Testtheorie Der kritische Wert c wird festgelegt, indem man eine maximal tolerierbare Wahrscheinlichkeit α für einen Fehler erster Art vorgibt (α-fehler)! Diese Wahrscheinlichkeit heißt Niveau des Tests. Damit hat man keine Kontrolle über die Wahrscheinlichkeit eines Fehlers zweiter Art (β-fehler) Z. B. soll die Wahrscheinlichkeit für Fehler erster Art maximal α = 5% = 0.05 sein. 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse = (mathematische Statistik, Tabelle, Software) n = 10, c = t n 1,1 α = t 9,0.95 = T = ˆµ = = > ˆσ µ D. h. die Nullhypothese H 0 : µ 100 wird zum Niveau α = 5% zu Gunsten der Alternative H 1 : µ > 100 verworfen (signifikantes Ergebnis zum Niveau 5 %) 36 / 282
37 Erklärung des Begriffs Niveau durch ein fiktives Experiment Annahme: Das Experiment (Untersuchung des IQ von 10 Kindern) kann N mal (unabhängig) wiederholt werden (z. B mal) jeweils 10 Daten liefern ein Ergebnis für den Test zum Niveau α (z.b. Niveau 5 %) Datensatz 1 Testergebnis 1 Datensatz 2 Testergebnis Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse. Datensatz N Testergebnis N Falls die Nullhypothese H 0 : µ 100 wahr ist, so wird maximal in ca. αn (z. B. 5% 1000 = 50) Fällen für die Alternative H 1 : µ > 100 entschieden. 37 / 282
38 Fehler erster und zweiter Art Beachte: in der Population gilt H 0 H 1 Entscheidung auf- richtige β-fehler grund der Stich- H 0 Entscheidung probe zugunsten richtige von: H 1 α-fehler Entscheidung 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Die Wahrscheinlichkeiten für α-fehler und β-fehler verändern sich gegenläufig. Bei festem Niveau (Wahrscheinlichkeit für α-fehler) kann die Wahrscheinlichkeit für einen β-fehler durch Vergrößerung des Stichprobenumfangs verkleinert werden. Bei festem Stichprobenumfang wird nur der Fehler erster Art kontrolliert. 38 / 282
39 Die Verteilung von T falls µ = 100 ist Dichte der t9 -Verteilung α = 5 % p Wert 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse t 9, 0.95 = T n = Kritischer Wert: t n 1,0.95 = (H 0 wird verworfen, falls T größer als der kritische Wert ist) Blaue Fläche: Niveau (α) Rote Fläche: p-wert: Wahrscheinlichkeit einen Wert größer als zu beobachten: P(T > 2.436) = Beachte: Ist der p-wert < α (wie in diesem Beispiel) dann wird H 0 abgelehnt (signifikantes Ergebnis) 39 / 282
40 Testverfahren für den Erwartungswert einer Stichprobe unter Normalverteilungsannahme 1.6 Einstichproben t-test für rechtsseitige Hypothesen Hypothesen: H 0 : µ µ 0 ; Hypothese) H 1 : µ > µ 0 (rechtsseitige Daten y 1,..., y n (Stichprobe) mit Erwartungswert µ Rechtfertigung der Unabhängigkeits- und Normalverteilungsannahme H 0 wird zum Niveau α verworfen, falls 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse T = ˆµ µ 0 ˆσ µ > t n 1,1 α gilt, bzw. falls der p-wert < α ist. ˆµ: Schätzer für µ; ˆσ µ : Schätzer für den Standardfehler von ˆµ 40 / 282
41 Vertauschen der Hypothesen 1.7 Einstichproben t-test für linksseitige Hypothesen Hypothesen: H 0 : µ µ 0 ; Hypothese) H 1 : µ < µ 0 (linksseitige Daten y 1,..., y n (Stichprobe) mit Erwartungswert µ Rechtfertigung der Unabhängigkeits- und Normalverteilungsannahme H 0 wird zum Niveau α verworfen, falls 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse T = ˆµ µ 0 ˆσ µ < t n 1,1 α = t n 1,α gilt, bzw. falls der p-wert < α ist. ˆµ: Schätzer für µ; ˆσ µ : Schätzer für den Standardfehler von ˆµ 41 / 282
42 Tests für zweiseitige Hypothesen 1.8 Einstichproben t-test für zweiseitige Hypothesen Hypothesen: H 0 : µ = µ 0 ; Hypothese) H 1 : µ µ 0 (zweiseitige Daten y 1,..., y n (Stichprobe) mit Erwartungswert µ Rechtfertigung der Unabhängigkeits- und Normalverteilungsannahme H 0 wird zum Niveau α verworfen, falls 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse T = ˆµ µ 0 > t n 1,1 α/2 ˆσ µ gilt, bzw. falls der p-wert kleiner als α ist. ˆµ: Schätzer für µ; ˆσ µ : Schätzer für den Standardfehler von ˆµ 42 / 282
43 Die Verteilung von T, falls µ = 100 ist. Dichte der t9 -Verteilung p Wert α = 2,5 % α = 2,5 % p Wert 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse -T n = t 9, = t 9, = T n = Blaue Fläche: Niveau α; Rote Fläche: p-wert (Wahrscheinlichkeit einen Wert zu beobachten, dessen Betrag größer als ist P( T > 2.436) = Beachte: Ist der p-wert < α (wie in diesem Beispiel), dann wird H 0 abgelehnt! 43 / 282
44 SPSS-Output bei Anwendung des t-tests auf die Daten aus Beispiel 1.1 (Intelligenzquotient) Test bei einer Sichprobe Testwert = % Konfidenzintervall der Differenz T df Sig. (2-seitig) Mittlere Differenz Untere Obere Intelligenzquotient 2,436 9,038 4,100 1,02 7, Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Beachte: SPSS liefert nur den p-wert für den zweiseitigen t-test aus Beispiel 1.8! Den p-wert für den einseitigen Test erhält man als 0.038/2 = / 282
45 R-Output bei Anwendung des t-tests auf die Daten aus Beispiel 1.1 (Intelligenzquotient) One Sample t- test 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme data : IQ t = , df = 9, p- value = Einfaktorielle Varianzanalyse alternative hypothesis : true mean is not equal to percent confidence interval : sample estimates : mean of x / 282
46 Beispiel: t-test für den Vergleich von zwei verbundenen Stichproben Eine der wichtigsten Anwendungen der in 1.6, 1.7 und 1.8 vorgestellten Verfahren besteht in dem Vergleich von verbundenen Stichproben (vorher - nachher Untersuchungen) Beispiel: Untersuchung der Einstellungen von 9 Jungen gegenüber neutralen Personen vor und nach einem Frustrationserlebnis (Sündenbockfunktion). 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse VPn Einstell- vorher ung nachher / 282
47 Prinzip: Differenzenbildung Prinzip: Falls kein Unterschied zwischen den Einstellungen vor und nach dem Frustrationserlebnis besteht sollten die Differenzen (nachher - vorher) klein sein. Durch Differenzenbildung (nachher - vorher) erhält man die Daten 1,..., 9 Rechtfertigung der Voraussetzungen für den t-test aus 1.8 für diese Daten. Wende den t-test für eine Stichprobe auf die Daten 1,..., 9 an und teste die Hypothesen 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse H 0 : µ = 0, H 1 : µ 0 Wegen T = = 3.27 > 2.31 = t 8,0.975 besteht zum Niveau α = 0.05 ein signifikanter Unterschied. 47 / 282
48 SPSS-Output: t-test für gepaarte Stichproben Statistik bei gepaarten Stichproben Mittelwert N Standardabweichung Standardfehler des Mittelwertes Paaren 1 vorher nachher 33,44 30, ,358 3,346 1,119 1, Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe Korrelationen bei gepaarten Stichproben N Korrelation Signifikanz Paaren 1 vorher & nachher 9,733,025 Test bei gepaarten Stichproben 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Gepaarte Differenzen Mittelwert Standardabweichung Standardfehler des Mittelwertes 95% Konfidenzintervall der Differenz Untere Obere Paaren 1 vorher - nachher 2,667 2,449,816,784 4,550 Test bei gepaarten Stichproben Sig. T df (2-seitig) Paaren 1 vorher - nachher 3,266 8, / 282
49 R-Output: t-test für gepaarte Stichproben Mittelwert Standardabweichung SA des Mittelwerts vorher nachher Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe data : One Sample t- test Differenzen 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse t = 3.266, df = 8, p- value = alternative hypothesis : true mean is not equal to 0 95 percent confidence interval : sample estimates : mean of x / 282
50 1.9 Bemerkungen (zu den statistischen Verfahren 1.2, 1.4, 1.6, 1.7, 1.8) Mathematische Statistik unter der Normalverteilungsannahme sind alle hier vorgestellten Verfahren optimal Die Normalverteilungsannahme kann (und sollte) man rechtfertigen. Mögliche Verfahren sind: statistische Tests für die Hypothese H 0 : Y 1,..., Y n normalverteilt 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse In SPSS üblich sind - Kolmogorov-Smirnov-Test - Shapiro-Wilk Test Explorative Verfahren. In SPSS üblich: QQ-Plot Besteht die Normalverteilungsannahme diese Überprüfung nicht, so sind z. B. nichtparametrische Verfahren anzuwenden. 50 / 282
51 SPSS Output: QQ-Plot für die Daten aus Beispiel Q-Q-Diagramm von Normal von Intelligenzquotient 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Erwarteter Wert von Normal Beobachteter Wert 51 / 282
52 R Output: QQ-Plot für die Daten aus Beispiel Schätzer und Konfidenzintervalle 1.2 t-test für eine Erwarteter Wert Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Beobachteter Wert 52 / 282
53 Der QQ-Plot Unter der Modellannahme gilt: die Größen Y i sind normalverteilt mit Erwartungswert µ und Varianz σ 2 Der QQ-Plot vergleicht grafisch die empirischen Quantile der Daten y 1,..., y n mit den Quantilen der Normalverteilung mit Erwartungswert ˆµ und Varianz ˆσ 2. (1) 1/n-Quantil der Stichprobe y 1,... y n = kleinste der Beobachtungen y (1) (in Beispiel 1.1 ist y (1) = 97) (1 1/2)/n-Quantil der Normalverteilung mit Erwartungswert ˆµ und Varianz ˆσ 2 = (im Beispiel 1.1 ist z (1) = = 95.37) 1 (2) 2/n-Quantil der Stichprobe y 1,..., y n = zweitkleinste der Beobachtungen y (2) (in Beispiel 1.1 ist y (2) = 98) (2 1/2)/n-Quantil der Normalverteilung mit Erwartungswert ˆµ und Varianz ˆσ 2 = (in Beispiel 1.1 ist z (2) = = 98.57) (3) usw. Der QQ-Plot ist das Streudiagramm der Daten 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse (y (1), z (1) ),..., (y (n), z (n) ) In in vielen Fällen enthält dieses Diagramm noch die Winkelhalbierende des entsprechenden Quadranten / 282
54 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 54 / 282
55 1.10 Beispiel: Erkennen von Zahlenreihen Studierende der Fachrichtungen Mathematik (M) und Psychologie (P) machen einen Zahlengedächtnistest 1.1 Schätzer und Konfidenzintervalle Wie viele Ziffern können sich maximal gemerkt werden Wiedergabe in Original und umgekehrter Reihenfolge 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Daten (P. Zöfel: Statistik für Psychologen) M P M P Frage: Haben Studierende der Mathematik ein besseres Zahlengedächtnis als Studierende der Psychologie? 55 / 282
56 Mathematisches Modell (n 1 = 14, n 2 = 8) Y ij := µ i + ε ij ; j = 1,..., n i ; i = 1, 2 Y ij : Ergebnis der j-ten Versuchsperson in Gruppe i (Mathematik: i = 1, Psychologie i = 2) µ i : unbekannter Erwartungswert in der Population i (Mathematik: i = 1, Psychologie: i = 2) ε ij : Messfehler, Tagesform Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse n i : Stichprobenumfang in Gruppe i Normalverteilungs- und Unabhängigkeitsannahme in jeder Gruppe (i = 1, 2) liegt eine Normalverteilung mit Erwartungswert µ i und Varianz σi 2 vor in jeder Gruppe sind die Beobachtungen unabhängig unabhängige Stichproben 56 / 282
57 Schätzer Schätzer werden wie in 1.2 für jede Gruppe durchgeführt Mathematiker (i = 1): ˆµ 1 = y 1 = 1 n1 n 1 j=1 y 1j = ˆσ 2 1 = 1 n 1 1 n 1 j=1 (y 1j y 1 ) 2 = 3.94 ˆσ µ1 = Psychologen (i = 2): ˆµ 2 = y 2 = 1 n 2 n 2 y 2j = ˆσ 2 2 = 1 n 2 1 n 2 j=1 j=1 (y 2j y 2 ) 2 = 4.79 ˆσ µ2 = ˆσ 2 1 n 1 = 0.53 ˆσ 2 2 n 2 = 0.77 Auch Konfidenzbereiche werden gruppenweise bestimmt z. B. ist unter Normalverteilungsannahme (ˆµ1 t n1 1,1 α 2 ˆσ µ 1, ˆµ 1 + t n1 1,1 α 2 ˆσ µ 1 ) 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse ein 90% Konfidenzintervall für µ 1. Für das spezielle Datenbeispiel ergibt sich [n 1 = 14, α = 10%, t 13,0.95 = 1.77 (aus Tabelle)] (13.70, 15.58) als 90% Konfidenzintervall für µ 1 57 / 282
58 SPSS-Output für die Daten aus Beispiel 1.10 Schätzer für die Parameter in den einzelnen Gruppen Gemerkte Zahlen Studienfach Mittelwert Varianz Mathematik 14,64 3,940 Psychologie 13,75 4,786 Insgesamt 14,32 4, Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Beachte: SPSS liefert hier die Schätzer für Erwartungswert und Varianz der einzelnen Gruppen SPSS liefert außerdem Schätzer für Erwartungswert und Varianz der gesamten Stichprobe 58 / 282
59 R-Output für die Daten aus Beispiel Schätzer und Konfidenzintervalle Schätzer für die Parameter in den einzelnen Gruppen Mittelwert Varianz Mathematik t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Psychologie Insgesamt / 282
60 Tests zum Vergleich der Erwartungswerte Nullhypothese: Zahlengedächtnis der Psychologiestudenten ist nicht schlechter als das der Mathematikstudenten H 0 : µ 1 µ Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Alternative: Zahlengedächtnis der Mathematikstudenten ist besser als das der Psychologiestudenten H 1 : µ 1 > µ 2 Rezept: Verwerfe die Nullhypothese H 0 zu Gunsten der Alternative H 1, falls die Differenz y 1 y 2 der Schätzer für die Erwartungswerte groß ist. 60 / 282
61 Rezept im Fall von Varianzhomogenität, d. h. (σ 2 1 = σ 2 2) Verwerfe H 0 zu Gunsten von H 1, falls y 1 y 2 groß ist. Normiere diese Größe mit einem Schätzer für die Standardfehler der Mittelwertdifferenz: ˆσµ1 µ 2 = ( 1 n n 2 )ˆσ 2 ˆσ 2 1 = n 1 +n 2 2 {(n1 1)ˆσ2 1 + (n 2 1)ˆσ 2}: 2 Schätzer für Varianz (die in beiden Gruppen dieselbe ist) Entscheide für die Alternative H 1 : µ 1 > µ 2, falls 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse T n1,n 2 = y 1 y 2 ˆσ µ1 µ 2 > t n1+n 2 2,1 α gilt. Dabei ist t n1+n 2 2,1 α das (1 α)-quantil der t-verteilung mit n 1 + n 2 2 Freiheitsgraden Im Beispiel ergibt sich für einen Test zum Niveau α = 5% ˆσ 2 = 4.24, t 20,0.95 = = T 14,8 = d. h. die Hypothese H 0 kann nicht verworfen werden. 61 / 282
62 Testverfahren für die Erwartungswerte von zwei Stichproben unter Normalverteilungsannahme 1.11(a) Einseitiger t-test für zwei unabhängige Stichproben (rechtsseitige Hypothese) Daten y 11,..., y 1n1 (Gruppe 1; Erwartungswert µ 1 ; Varianz σ1 2) y 21,..., y 2n2 (Gruppe 2; Erwartungswert µ 2 ; Varianz σ2 2) Rechtfertigung der Voraussetzungen Unabhängigkeit in und zwischen den Gruppen Normalverteilungsannahme (in beiden Gruppen) Varianzhomogenität, d. h. σ 2 1 = σ 2 2 Die Hypothese H 0 : µ 1 µ 2 wird zu Gunsten der Alternative H 1 : µ 1 > µ 2 verworfen, falls 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse T n1,n 2 = y 1 y 2 > t n1+n ˆσ 2 2,1 α µ1 µ 2 gilt, bzw. der p-wert < α ist. ˆσ µ1 µ 2 = ( 1 n n 2 )ˆσ 2 ist der Schätzer für den Standardfehler der Mittelwertdifferenz. 62 / 282
63 1.11(b) Einseitiger t-test für zwei unabhängige Stichproben (linksseitige Hypothese) Daten y 11,..., y 1n1 (Gruppe 1; Erwartungswert µ 1 ; Varianz σ1 2) y 21,..., y 2n2 (Gruppe 2; Erwartungswert µ 2 ; Varianz σ2 2) Rechtfertigung der Voraussetzungen Unabhängigkeit in und zwischen den Gruppen Normalverteilungsannahme (in beiden Gruppen) Varianzhomogenität, d. h. σ 2 1 = σ 2 2 Die Hypothese H 0 : µ 1 µ 2 wird zu Gunsten der Alternative H 1 : µ 1 < µ 2 verworfen, falls 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse T n1,n 2 = y 1 y 2 < t n1+n ˆσ 2 2,1 α = t n1+n 2 2,α µ1 µ 2 gilt, bzw. der p-wert < α ist. ˆσ µ1 µ 2 = ( 1 n n 2 )ˆσ 2 ist der Schätzer für den Standardfehler der Mittelwertdifferenz. 63 / 282
64 1.11(c) t-test für zwei unabhängige Stichproben (zweiseitige Hypothesen) Daten y 11,..., y 1n1 (Gruppe 1; Erwartungswert µ 1 ; Varianz σ1 2) y 21,..., y 2n2 (Gruppe 2; Erwartungswert µ 2 ; Varianz σ2 2) Rechtfertigung der Voraussetzungen Unabhängigkeit in und zwischen den Gruppen Normalverteilungsannahme (in beiden Gruppen) Varianzhomogenität, d. h. σ 2 1 = σ 2 2 Die Nullhypothese H 0 : µ 1 = µ 2 (kein Unterschied der Erwartungswerte in beiden Gruppen) wird zu Gunsten der Alternative H 1 : µ 1 µ 2 verworfen, falls 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse T n1,n 2 = y 1 y 2 ˆσ µ1 µ 2 > t n1+n 2 2,1 α 2 gilt, bzw. der p-wert < α ist. ˆσ µ1 µ 2 = ( 1 n n 2 )ˆσ 2 ist der Schätzer für den Standardfehler der Mittelwertdifferenz. 64 / 282
65 Bemerkung zur Varianzhomogenität Ist die Annahme der Varianzhomogenität nicht erfüllt, so σ 2 1 = σ 2 2 wird die vorgegebene Wahrscheinlichkeit für einen α-fehler nicht eingehalten (der Test hält sein Niveau nicht) 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse ist die Wahrscheinlichkeit für einen β-fehler größer von Interesse ist daher auch ein Test für die Hypothesen H 0 : σ 2 1 = σ 2 2 H 1 : σ 2 1 σ 2 2 und ein Verfahren, das ohne die Annahme der Varianzhomogenität auskommt. 65 / 282
66 Rezept (für Test auf Varianzhomogenität) Die Nullhypothese H 0 : σ1 2 = σ2 2 gilt genau dann, wenn F = σ2 1 σ 2 2 = 1 Schätze den Quotienten der beiden Varianzen, durch F n1 1,n 2 1 = ˆσ2 1 ˆσ 2 2 = 1 n1 n n 2 1 j=1 (y 1j y 1 ) 2 n2 j=1 (y 2j y 2 ) Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Die Nullhypothese H 0 wird zu Gunsten der Alternative H 1 : σ1 2 σ2 2 verworfen, falls gilt F n1 1,n 2 1 > c 2 oder F n1 1,n 2 1 < c 1 Die kritischen Werte c 1 und c 2 werden so festgelegt, dass die Wahrscheinlichkeit für einen Fehler erster Art maximal α ist! 66 / 282
67 1.12 F -Test für den Vergleich von zwei Stichprobenvarianzen Teststatistik Die Nullhypothese F n1 1,n 2 1 = ˆσ2 1 ˆσ 2 2 H 0 : σ 2 1 = σ 2 2 (die Varianzen sind gleich) wird zu Gunsten der Alternative H 1 : σ 2 1 σ Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse verworfen, falls mindestens eine der Ungleichungen F n1 1,n 2 1 < F n1 1,n 2 1, α 2 erfüllt ist F n1 1,n 2 1 > F n1 1,n 2 1,1 α 2 F n1 1,n 2 1,β bezeichnet das β-quantil der F -Verteilung mit (n 1 1, n 2 1) Freiheitsgraden 67 / 282
68 Verschiedene F -Verteilungen Dichten der F Verteilung mit verschiedenen Freiheitsgraden F 2, 10 F 4, 4 F 10, 1 F 20, Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse f m,n (x) = m+n Γ( 2 ) ( m ) m 2 x m 2 1 Γ( m 2 )Γ( n 2 ) 2 (1 + m m+n n x) 2 (x 0) 68 / 282
69 Das Quantil der F -Verteilung mit (n 1, n 2 ) Freiheitsgraden Dichte der F4, 4 -Verteilung 1.1 Schätzer und Konfidenzintervalle t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse F 4, 4; 0.9 = P(F 4,4, F 4,4,0.9 ) = F4,4,0.9 f m,n (x) dx = / 282
70 Der F -Test auf Varianzhomogenität für die Daten aus Beispiel 1.10 (n 1 = 14, n 2 = 8) ˆσ 2 1 = 3.94 ˆσ2 2 = 4.79 F 13,7 = Für das Niveau α = 10% erhält man F 13,7,0.05 = F 13,7,0.95 = und damit kann die Nullhypothese zum Niveau 10% nicht verworfen werden 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Beachte: Oft wird der Test 1.12 verwendet, um die Voraussetzungen für den t-test zu überprüfen In diesem Fall wählt man oft ein größeres Niveau ( kleinere Wahrscheinlichkeit für β-fehler) Der Gesamttest (erst F -Test, falls H0 nicht verworfen wird, dann t-test) hat nicht das Niveau α. Was macht man, falls F -Test H 0 verwirft? 70 / 282
71 1.13(a) t-test für zwei unabhängige Stichproben mit nicht notwendig gleichen Varianzen (Welch-Test) Daten y 11,..., y 1n1 (Gruppe 1; Erwartungswert µ 1 ; Varianz σ1 2) y 21,..., y 2n2 (Gruppe 2; Erwartungswert µ 2 ; Varianz σ2 2) Rechtfertigung der Voraussetzungen Unabhängigkeit in und zwischen den Gruppen Normalverteilungsannahme (in beiden Gruppen) Varianzen in den Gruppen sind nicht notwendig gleich Teststatistik Dabei ist T W n 1,n 2 = y 1 y 2 ˆτ ˆτ = ˆτ 2 = ˆσ 2 1 n 1 + ˆσ2 2 n Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse die Schätzung für den Standardfehler von y 1 y 2 71 / 282
72 1.13(b) t-test für zwei unabhängige Stichproben mit nicht notwendig gleichen Varianzen (Welch-Test) Die Nullhypothese H 0 : µ 1 µ 2 (Erwartungswert der ersten Population nicht größer als der der Zweiten) wird zu Gunsten der Alternative 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse falls H 1 : µ 1 > µ 2 Tn W 1,n 2 > tˆf,1 α gilt, bzw. der p-wert < α ist. Dabei bezeichnet ˆf = (ˆσ2 µ 1 + ˆσ 2 µ 2 ) 2 ˆσ 4 µ 1 n ˆσ4 µ 2 n 2 1 die geschätzten Freiheitsgrade der t-verteilung. 72 / 282
73 1.13(c) t-test für zwei unabhängige Stichproben mit nicht notwendig gleichen Varianzen (Welch-Test) Die Nullhypothese H 0 : µ 1 µ 2 (Erwartungswert der ersten Population nicht kleiner als der der Zweiten) wird zu Gunsten der Alternative 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme verworfen, falls H 1 : µ 1 < µ Einfaktorielle Varianzanalyse T W n 1,n 2 < tˆf,α = tˆf,1 α gilt, bzw. der p-wert < α ist. Dabei bezeichnet ˆf = (ˆσ2 µ 1 + ˆσ 2 µ 2 ) 2 ˆσ 4 µ 1 n ˆσ4 µ 2 n 2 1 die geschätzten Freiheitsgrade der t-verteilung. 73 / 282
74 1.13(d) t-test für zwei unabhängige Stichproben mit nicht notwendig gleichen Varianzen (Welch-Test) Die Nullhypothese H 0 : µ 1 = µ 2 (kein Unterschied der Erwartungswerte in beiden Gruppen) wird zu Gunsten der Alternative H 1 : µ 1 µ 2 (es besteht ein Unterschied) verworfen, falls 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse T W n 1,n 2 > tˆf,1 α 2 gilt, bzw. der p-wert < α ist. Dabei bezeichnet ˆf = (ˆσ2 µ 1 + ˆσ 2 µ 2 ) 2 ˆσ 4 µ 1 n ˆσ4 µ 2 n 2 1 die geschätzten Freiheitsgrade der t-verteilung. 74 / 282
75 Bemerkung: t-test oder Welch-Test? Sind die Voraussetzungen für den t-test erfüllt (Normalverteilung, Unabhängigkeit, Varianzhomogenität), so ist dieses Verfahren optimal, d. h. dieser Test minimiert unter allen Tests zum Niveau α die Wahrscheinlichkeit für einen β-fehler. Ist die Voraussetzungen der Varianzhomogenität beim t-test nicht erfüllt, so wird die vorgegebene Wahrscheinlichkeit für einen α-fehler nicht eingehalten. 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Der Welch-Test ist eine Näherungslösung, d. h. die Wahrscheinlichkeit für einen α-fehler ist nur näherungsweise α. Der Welch-Test hat im Fall der Varianzhomogenität eine größere Wahrscheinlichkeit für einen β-fehler als der t-test. 75 / 282
76 SPSS-Output für die Daten aus Beispiel 1.10 Test bei unabhängigen Stichproben Levene-Test der Varianzgleichheit T-Test für die Mittelwertgleichheit Gemerkte Zahlen Gemerkte Zahlen Varianzen sind gleich Varianzen sind nicht gleich Varianzen sind gleich Varianzen sind nicht gleich F,103 Signifikanz,752 T,979,952 Test bei unabhängigen Stichproben Mittlere Differenz,893,893 Standardfehler der Differenz df 20 13,523 Sig. (2-seitig),339,358 T-Test für die Mittelwertgleichheit 95% Konfidenzintervall der Differenz,912,938 Untere -1,010-1,125 Obere 2,796 2, Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Beachte: SPSS liefert nicht den in 1.12 dargestellten F -Test auf Varianzhomogenität sondern ein robustes Verfahren (Levene-Test) SPSS liefert nur einen p-wert für den zweiseitigen t-test aus Beispiel 1.11(c) bzw. zweiseitigen Welch-Test aus Beispiel 1.13(d) SPSS liefert ein Konfidenzintervall für die Differenz µ 1 µ 2 = 95% Konfidenzintervall für die Differenz der Erwartungswerte (unter der Annahme gleicher Varianzen) ( 1.01, 2.796) 76 / 282
77 R-Output für die Daten aus Beispiel 1.10 Levene s Test for Homogeneity of Variance ( center = mean ) Df F value Pr(>F) group Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Two Sample t- test data : values by ind t = , df = 20, p- value = alternative hypothesis : true difference in means is not equal to 0 95 percent confidence interval : sample estimates : mean in group M mean in group P / 282
78 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 1.4 Einfaktorielle Varianzanalyse 78 / 282
79 1.14 Beispiel: Fortsetzung von Beispiel 1.10 An dem Zahlengedächtnistest (vgl. Beispiel 1.10) nehmen auch noch 7 Studierende der Geisteswissenschaften (G) teil. M P G M P G Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Frage: Existieren Unterschiede hinsichtlich des Zahlengedächtnisses zwischen dem Studierenden der Psychologie, Mathematik und Geisteswissenschaften? 79 / 282
80 Mathematisches Modell (n 1 = 14, n 2 = 8, n 3 = 7) Y ij := µ i + ε ij ; j = 1,..., n i ; i = 1, 2, 3 Y ij : Ergebnis der j-ten Versuchsperson in Gruppe i (Mathematik: i = 1, Psychologie: i = 2, Geisteswissenschaften: i = 3) µ i : unbekannter Erwartungswert in der Population i (Mathematik: i = 1, Psychologie: i = 2, Geisteswissenschaften: i = 3) ε ij : Störgrößen (Erwartungswert 0 und Varianz σ 2 ) 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Normalverteilungs und Unabhängigkeitsannahme in jeder Gruppe (i = 1, 2, 3) liegt eine Normalverteilung mit Erwartungswert µ i vor in jeder Gruppe sind die Beobachtungen unabhängig unabhängige Stichproben Nullhypothese H 0 : µ 1 = µ 2 = µ 3 80 / 282
81 Schätzer und Konfidenzbereiche Schätzer für Erwartungswert und Varianz werden in den einzelnen Gruppen durchgeführt Beispiel: y i ˆσ i 2 ˆσ µi n i Mathematik (i = 1) Psychologie (i = 2) Geisteswissenschaften (i = 3) Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse ˆµ 1 = ist Schätzer für den Erwartungswert der Mathematiker Beachte: t 6,0.95 = 1.943, ˆµ 3 + ˆσ µ3 t 6,0.95 = ˆµ 3 ˆσ µ3 t 6,0.95 = 11.25, also ist das Intervall [11.25, 13.03] ein 90% Konfidenzintervall für den Erwartungswert der Geisteswissenschaftler 81 / 282
82 SPSS-Output Gemerkte Zahlen Studienfach Mittelwert Varianz Standardfehler des Mittelwertes N Mathematik 14,64 3,940, Psychologie 13,75 4,786,773 8 Geisteswissenschaften 12,14 1,476,459 7 Insgesamt 13,79 4,384, Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 82 / 282
83 R-Output 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe Mittelwert Varianz SF des Mittelwerts N Mathematik Psychologie Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Geisteswissenschaften Insgesamt / 282
84 Prinzip der Varianzanalyse Ziel: Test für die Hypothese es bestehen keine Unterschiede zwischen den Gruppen H 0 : µ 1 = µ 2 = µ 3 Idee: Bestimme die Streuung der Daten: Mittelwert aus allen Daten: y = 1 n n 3 i wobei n = n 1 + n 2 + n 3 = 29 die Gesamtzahl der Beobachtungen bezeichnet. Varianz (n = n1 + n 2 + n 3) i=1 j=1 y ij 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 1 n 1 n 3 i (y ij y ) 2 i=1 und versuche Unterschiede in der Merkfähigkeit aufgrund der Gruppenzugehörigkeit durch eine Zerlegung der Streuung bzgl. der Gruppen zu erklären! j=1 84 / 282
85 Prinzip der Varianzanalyse Zerlegung der Summe der Quadrate Häufig verwendete Abkürzungen: SS Sum of squares; SAQ Summe der Abweichungsquadrate Summe der Quadrate innerhalb der Gruppen (within groups) und SS R = n 3 i (y ij y i ) 2 i=1 y i = 1 n i j=1 n i y ij den Mittelwert aus den Beobachtungen der Gruppe i bezeichnet. Summe der Quadrate zwischen den Gruppen (between groups) j=1 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse SS M = 3 n i(y i y ) 2 i=1 85 / 282
86 Prinzip der Varianzanalyse Zerlege die Summe der Quadrate in eine durch das Modell erklärte Summe (Varianz zwischen den Gruppen) und eine Summe von Quadraten der nicht erklärten Varianz (Varianz innerhalb der Gruppen) SS T = = 3 n i (y ij y ) 2 i=1 j=1 }{{} Gesamtvarianz (Total) 3 n i i=1 j=1 (y ij y i ) 2 }{{} Gesamtvarianz innerhalb der Gruppen + 3 n i (y i y ) 2 i=1 }{{} Varianz zwischen den Gruppen 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 86 / 282
87 F -Test für die Hypothese H 0 : µ 1 = µ 2 = µ 3 (gleiche Erwartungswerte in den drei Gruppen) Vergleiche die Varianz zwischen den Gruppen mit der Varianz innerhalb der Gruppen F = i=1 3 i=1 n i(y i y ) 2 ni j=1 (y ij y i ) 2 Falls F groß ist, wird die Nullhypothese H 0 abgelehnt. Mathematische Statistik Test zum Niveau α verwirft die Nullhypothese H 0, falls 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse F > F 2,26,1 α gilt (Vergleich mit dem (1 α)-quantil der F -Verteilung mit (2, 26) Freiheitsgraden), bzw. falls der zugehörige p-wert des Tests kleiner als α ist. 87 / 282
88 Beispiel 1.15 (Fortsetzung von Beispiel 1.14) Frage: besteht ein Unterschied zwischen den Studierenden der Fächer Psychologie, Mathematik und Geisteswissenschaften bzgl. des Zahlengedächtnisses Genauer: Besteht ein Unterschied zwischen den Erwartungswerten der drei Gruppen: H 0 : µ 1 = µ 2 = µ 3 n 1 = 14, n 2 = 8, n 3 = 7; α = 5% F 2,26,0.95 = 3.37 ˆF = SS M/2 SS R /26 = 14.6 = 4.06 > Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse D. h. die Hypothese: H 0 : µ 1 = µ 2 = µ 3 wird zum Niveau 5% abgelehnt. In anderen Worten: zwischen den Studierenden der verschiedenen Fächer besteht ein Unterschied Beachte: In vielen Fällen ist man an der Frage interessiert, zwischen welchen Gruppen ein Unterschied besteht. Diese Frage beantwortet der F -Test nicht! 88 / 282
89 F -Verteilung Dichte Dichte der F 2,26 Verteilung F 2,26,0.95 = 3.37 F^ = Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse x 89 / 282
90 F -Verteilung Dichte der F 2,26 Verteilung (Zoom) Dichte α = 5% p Wert 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse F 2,26,0.95 = 3.37 F^ = x Blaue Fläche: Niveau des Tests Rote Fläche: p-wert (Wahrscheinlichkeit, dass ein Wert größer als ˆF = 4.06 beobachtet wird) 90 / 282
91 Varianzanalysetabelle (k bezeichnet die Anzahl der Gruppen) Variabilität Sum of Squares df SS/df F zwischen SS M k 1 SS M /(k 1) innerhalb SS R n k SS R /(n k) gesamt SS T n 1 SS T /(n 1) SS M k 1 / SS R n k 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Beispiel (Zahlengedächtnis) Variabilität Sum of Squares df SS/df F zwischen innerhalb gesamt / 282
92 SPSS-Output 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe Gemerkte Zahlen Quadratsumme df Zwischen den Gruppen Innerhalb der Gruppen Gesamt 29,187 93, , Mittel der Quadrate 14,594 3,599 F 4,055 Signifikanz, Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 92 / 282
93 R-Output 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe Df Sum Sq Mean Sq F value Pr(>F) ind * Residuals Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse --- Signif. codes : 0 *** ** 0.01 * / 282
94 Beispiel 1.16 (Fortsetzung von Beispiel 1.15) Bei signifikantem Ergebnis der Varianzanalyse (d. h. die Hypothese gleicher Erwartungswerte wird abgelehnt) stellt sich die Frage: Welche Gruppe ist maßgeblich für die Signifikanz verantwortlich? Lösungsvorschlag: paarweise Vergleiche! Gruppe 1 - Gruppe 2; H 12 : µ 1 = µ 2 Gruppe 1 - Gruppe 3; H 13 : µ 1 = µ 3 Gruppe 2 - Gruppe 3; H 23 : µ 2 = µ Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Jeder Vergleich wird mit dem Zwei-Stichproben-t-Test (vgl. 1.11(b)) durchgeführt. Dabei ist zu beachten, dass das Gesamtverfahren: Verwerfe die Hypothese H 0 : µ 1 = µ 2 = µ 3, falls mindestens ein Paarvergleich signifikant ist das Niveau α einhält. Die t-tests für die paarweisen Vergleiche sind mit Niveau α/3 durchzuführen. Man dividiert durch 3, da 3 paarweise Vergleiche durchgeführt werden (Bonferroni-Methode) 94 / 282
95 Paarweise Vergleiche (α = 5%): Zwei-Stichproben t-test-statistik für den Vergleich von Gruppe i mit Gruppe j: T i,j = Y i Y j ˆσ ij ( 1 ˆσ ij 2 = + 1 )( 1 ) n i n j n i + n j 2 {(n i 1)ˆσ i 2 + (n j 1)ˆσ j 2 } i j T i,j n i n j t ni +n j 2,1 α /2 p-wert signifikant nein ja nein Beachte: Die paarweisen Vergleiche werden zum Niveau α = α/3 = 5%/3 = durchgeführt ( 3 Vergleiche). Mit dieser Methode kann man zum Niveau 5% einen signifikanten Unterschied zwischen den Gruppen feststellen. Bonferroni-Methode ist konservativ (d. h. das wirkliche Niveau des Verfahrens wird unterschätzt). Ist die Anzahl der Paarvergleiche groß, so ist dieses Verfahren nicht zu empfehlen. 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 95 / 282
96 Post-Hoc-Test Bonferroni in SPSS Verwendet andere Schätzung für den Standardfehler der Differenz der Mittelwerte aus Gruppe i und j: ( 1 σ ij 2 = + 1 ) ( ) 1 3 (n k 1)ˆσ k 2 n i n j n 3 An Stelle der Quantile der t-verteilung mit n i + n j 2 Freiheitsgraden müssen dann die Quantile der t-verteilung mit n 3 Freiheitsgraden verwendet werden (n = n 1 + n 2 + n 3 ) k=1 Das Niveau für die Paarvergleiche muss dann wieder durch die Anzahl der Vergleiche dividiert werden (im Beispiel α/3) Adjustierung der p-werte erfolgt durch Multiplikation der p-werte aus den Paarvergleichen mit der Anzahl der Vergleiche. Z. B = 3 P( T 12 > 0.893/0.841) Dabei berechnet sich die Wahrscheinlichkeit mit einer t-verteilung mit 26 = 29 3 Freiheitsgraden. 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 96 / 282
97 SPSS-Output paarweise Vergleiche mit der Bonferroni-Methode Mehrfachvergleiche Gemerkte Zahlen Bonferroni 95%-Konfidenzintervall (I) Studienfach (J) Studienfach Mittlere Differenz (I-J) Standardfehler Signifikanz Untergrenze Obergrenze Mathematik Psychologie,893,841,894-1,26 3,04 Geisteswissenschaften 2,500 *,878,026,25 4,75 Psychologie Mathematik -,893,841,894-3,04 1,26 Geisteswissenschaften 1,607,982,341 -,91 4,12 Geisteswissenschaften Mathematik -2,500 *,878,026-4,75 -,25 Psychologie -1,607,982,341-4,12,91 *. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant. 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 97 / 282
98 R-Output paarweise Vergleiche mit der Bonferroni-Methode 1.1 Schätzer und Konfidenzintervalle Pairwise comparisons using t tests with pooled SD 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse data : MPG and group P value adjustment method : bonferroni 98 / 282
99 Scheffé-Methode (α = 5%) Für den Vergleich der Gruppe i mit j betrachte: 3 1 d s (i, j) = 29 3 SS R F 2,26,0.95 ( ) n i n j 2 = ( ) = n i n j n i n j 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse und vergleiche diese Größe mit Mittelwertdifferenz y i y j Ergebnis (Niveau 5%) i j y i y j d s (i, j) Ergebnis kein sign. Unterschied y 1 sign. größer als y kein sign. Unterschied 99 / 282
100 Einige Bemerkungen zur Scheffé-Methode: Die Scheffé-Methode garantiert, dass die Wahrscheinlichkeit eines α-fehlers für jeden beliebigen a-posteriori durchgeführten Einzelvergleichstests nicht größer ist als der α-fehler des F -Tests Kurz: Die Signifikanzaussagen gelten simultan für ALLE Paarvergleiche mit dem Gesamtniveau α 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Die Scheffé-Methode ist ein konservatives Verfahren Die Wahrscheinlichkeit eines α-fehlers ist eher kleiner als das vorgegebene Niveau Man entscheidet tendenziell eher zu oft für H0 100 / 282
101 SPSS-Output paarweise Vergleiche mit der Scheffé-Methode Mehrfachvergleiche Gemerkte Zahlen Scheffé-Prozedur 95%-Konfidenzintervall (I) Studienfach (J) Studienfach Mittlere Differenz (I-J) Standardfehler Signifikanz Untergrenze Obergrenze Mathematik Psychologie,893,841,576-1,29 3,08 Geisteswissenschaften 2,500 *,878,029,22 4,78 Psychologie Mathematik -,893,841,576-3,08 1,29 Geisteswissenschaften 1,607,982,279 -,94 4,16 Geisteswissenschaften Mathematik -2,500 *,878,029-4,78 -,22 Psychologie -1,607,982,279-4,16,94 *. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant. 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 101 / 282
102 R-Output paarweise Vergleiche mit der Scheffé-Methode Scheffe Test for values 1.1 Schätzer und Konfidenzintervalle Mean Square Error : t-test für eine Stichprobe 1.3 Zweistichprobenprobleme ind, means 1.4 Einfaktorielle Varianzanalyse values std r Min Max G M P alpha : 0.05 ; Df Error : 26 Critical Value of F: / 282
103 1.17 Einfaktorielle Varianzanalyse (zum Vergleich von k unabhängigen Stichproben) Modellannahmen und Hypothese Daten (n = k i=1 n i) y 11,..., y 1n1 (Gruppe 1, Erwartungswert µ 1 ; Varianz σ 2 1 )... y k1,..., y knk (Gruppe k, Erwartungswert µ k ; Varianz σk 2) 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Nullhypothese: es besteht kein Unterschied zwischen den Erwartungswerten der einzelnen Gruppen: H 0 : µ 1 = µ 2 =... = µ k Rechtfertigung der Voraussetzungen Unabhängigkeit zwischen den Gruppen Unabhängigkeit innerhalb der Gruppen Normalverteilungsannahme Varianzhomogenität: σ 2 1 = σ 2 2 =... = σ 2 k 103 / 282
104 F-Test für die einfaktorielle Varianzanalyse (zum Vergleich von k unabhängigen Stichproben) Die Hypothese H 0 : µ 1 = µ 2 =... = µ k gleicher Erwartungswert in allen Gruppen wird verworfen, falls Dabei ist: F = 1 k 1 SS M 1 n k SS R SS M = > F k 1,n k,1 α k n i (y i y ) 2 i=1 (sum of squares between groups) 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse SS R = k n i (y ij y i ) 2 i=1 j=1 (sum of squares within groups) und F k 1,n k,1 α das (1 α)-quantil der F -Verteilung mit (k 1, n k) Freiheitsgraden 104 / 282
105 1.18 Paarweise Vergleich mit der Scheffé-Methode (Notation wie in 1.15) Wird die Nullhypothese H 0 : µ 1 = µ 2 =... = µ k abgelehnt, so kann mit der Scheffé-Methode festgestellt werden welche Gruppen für die Signifikanz verantwortlich sind! dazu bestimmt man die Größen (n = k i=1 n i) k 1 d s (i, j) = n k SS R F k 1,n k,1 α ( ) n i n j Ist y i y j größer (bzw. kleiner) als d s (i, j) (bzw. als d s (i, j)) so ist y i signifikant größer (bzw. kleiner) als y j Beachte: insgesamt k(k 1) Vergleiche 2 die Scheffé-Methode hält simultan das Niveau α es ist möglich, das F -Test H0 ablehnt, aber keiner der paarweisen Vergleiche signifikant ist! 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Andere Verfahren (z. B. in SPSS implementiert): Tukey-Methode, Duncan Test 105 / 282
106 1.19 Levene-Test auf Varianzhomogenität von k unabhängigen Stichproben Modellannahmen und Hypothese Daten (n = k i=1 n i) y 11,..., y 1n1 (Gruppe 1, Erwartungswert µ 1 ; Varianz σ 2 1 )... y k1,..., y knk (Gruppe k, Erwartungswert µ k ; Varianz σk 2) 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Nullhypothese: es liegt Varianzhomogenität vor, d. h. H 0 : σ1 2 = σ2 2 =... = σk 2 Rechtfertigung der Voraussetzungen Unabhängigkeit zwischen den Gruppen Unabhängigkeit innerhalb der Gruppen Normalverteilungsannahme 106 / 282
107 Levene-Test auf Varianzhomogenität von k unabhängigen Stichproben Die Hypothese der Varianzhomogenität wird verworfen, falls F = 1 k 1 1 k n k i=1 H 0 : σ 2 1 = σ 2 2 =... = σ 2 k k i=1 n i(x i x ) 2 ni j=1 (x ij x i ) 2 > F k 1,n k,1 α Dabei ist: n = n n k der Gesamtstichprobenumfang x i = 1 ni xij, x n i j=1 = 1 k ni n i=1 j=1 xij xij = y ij y i Fk 1,n k,1 α das (1 α)-quantil der F -Verteilung mit (k 1, n k) Freiheitsgraden. Beachte: Der Test ist robust bzgl. der Normalverteilungsannahme. Der Test hält nur näherungsweise das Niveau α. 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Alternativer Test: Bartlett Test 107 / 282
108 SPSS-Output Gemerkte Zahlen 1.3 Zweistichprobenprobleme Levene- Statistik 1,214 df1 2 df2 26 Test der Homogenität der Varianzen Signifikanz,313 ONEWAY ANOVA 1.1 Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.4 Einfaktorielle Varianzanalyse Gemerkte Zahlen Quadratsumme df Zwischen den Gruppen Innerhalb der Gruppen Gesamt 29,187 93, , Mittel der Quadrate 14,594 3,599 F 4,055 Signifikanz, / 282
109 R-Output Levene s Test for Homogeneity of Variance ( center = mean ) Df F value Pr(>F) group Schätzer und Konfidenzintervalle 1.2 t-test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Df Sum Sq Mean Sq F value Pr(>F) ind * Residuals Signif. codes : 0 *** ** 0.01 * / 282
110 multiple 2.2 Lineare 2.3 Multiple 2.2 Lineare 110 / 282
111 2.2 Lineare 111 / 282
112 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Frage: Besteht ein Zusammenhang zwischen der Variablen Motivation und der Variablen Leistungsstreben Beachte: Es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 2.2 Lineare 112 / 282
113 Daten x y x y x y Lineare 113 / 282
114 2.2 Der Korrelationskoeffizient von Pearson Daten (x 1, y 1 ),..., (x n, y n ) Maß für die (lineare) Abhängigkeit zwischen x und y: Korrelationskoeffizient von Pearson n r = r X,Y = s2 x,y i=1 = (x i x )(y i y ) s x,x s n y,y i=1 (x i x ) 2 n i=1 (y i y ) 2 Dabei ist: x = 1 n xi : Mittelwert der Daten xi n i=1 y = 1 n yi : Mittelwert der Daten yi n i=1 2.2 Lineare s 2 x,x = 1 n 1 n i=1 (xi x )2 : Varianz der Daten x i s 2 y,y = 1 n 1 n i=1 (yi y )2 : Varianz der Daten y i s 2 x,y = 1 n 1 n i=1 (xi x )(yi y ) : Kovarianz zwischen den Daten x i, y i 114 / 282
115 2.3 Eigenschaften des Korrelationskoeffizienten (1) 1 r 1 (2) r = 1 genau dann, wenn ein exakter linearer Zusammenhang y i = b 0 + b 1 x i mit b 1 > 0 besteht (ohne Störgrößen). (3) r = 1 genau dann, wenn ein exakter linearer Zusammenhang y i = b 0 + b 1 x i mit b 1 < 0 besteht (ohne Störgrößen). (4) Der Korrelationskoeffizient ist invariant bzgl. linearer Transformationen, d. h. } x i = a 0 + a 1 x i i = 1,..., n r ỹ i = c 0 + c 1 y i i = 1,..., n X,Ỹ = r X,Y 2.2 Lineare (5) Der Korrelationskoeffizient von Pearson ist ein deskriptives Maß für den linearen Zusammenhang in der Stichprobe (x 1, y 1 ),..., (x n, y n ) 115 / 282
116 2.4 Beispiel: Korrelationskoeffizient für die Daten aus Beispiel 2.1 Variablen x: Leistungsstreben y: Motivation Korrelationskoeffizient von Pearson r = Fragen: Wie genau ist diese Schätzung? Ist die Korrelation von 0 verschieden (Unkorreliertheit zwischen den Merkmalen Leistungsstreben und Motivation)? 2.2 Lineare 116 / 282
117 2.5 Signifikanztest für Korrelation (x 1, y 1 ),..., (x n, y n ) ist eine Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grundgesamtheit ρ bezeichne die Korrelation des Merkmals X mit dem Merkmal Y einer Population; fünfter Modellparameter neben µ x, µ y, σ 2 x und σ 2 y. Ein Test zum Niveau α für die Hypothese die Merkmale sind unkorreliert H 0 : ρ = 0 lehnt die Nullhypothese zu Gunsten der Alternative H 1 : ρ 0 ab, falls n 2 r > t n 2,1 α 1 r Lineare gilt. 117 / 282
118 2.6(a) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) n = 25; r = ; t 23,0.975 = n 2 r = > r 2 Die Nullhypothese H 0 : ρ = 0 (keine Korrelation zwischen den Merkmalen) wird zum Niveau 5% verworfen. 2.2 Lineare p-wert: / 282
119 SPSS Output für Korrelationskoeffizient Motivation Leistungsstreben Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Motivation Korrelationen 1,000,004 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. 25 Leistungsstreben,559 **, ,559 ** 1, Lineare 119 / 282
120 R-Output für Korrelationskoeffizient Motivation Leistungsstreben Motivation Leistungsstreben Lineare n= 25 P Motivation Leistungsstreben Motivation Leistungsstreben / 282
121 2.7 Konfidenzintervall für Korrelation ρ: Korrelation zwischen Merkmal x und Merkmal y einer Population (x 1, y 1 ),..., (x n, y n ): Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grundgesamtheit Mathematische Statistik: r ist näherungsweise (d. h. bei großem Stichprobenumfang) normalverteilt mit Erwartungswert ρ und Varianz γ 2 = Var(r) (1 ρ2 ) 2 (1 α)-konfidenzintervall für den Korrelationskoeffizienten ( r ˆγz1 α, r + ˆγz ) 2 1 α 2 n 2.2 Lineare Hier bezeichnet ˆγ = (1 r 2 ) n einen Schätzer für die Standardabweichung von r und z 1 α das (1 α 2 2 ) Quantil der Standardnormalverteilung (Tabelle, Software) 121 / 282
122 2.6(b) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) n = 25; r = z 0.95 = , ˆγ = % Konfidenzintervall für den Korrelationskoeffizient [0.2739, ] 2.2 Lineare 122 / 282
123 2.8 Hinweise zur Interpretation von Korrelationen Annahme: Man hat eine signifikante Korrelation zwischen den Variablen x und y gefunden Folgende Interpretationen sind möglich (1) x beeinflusst y kausal (2) y beeinflusst x kausal (3) x und y werden von weiteren Variablen kausal beeinflusst (4) x und y beeinflussen sich wechselseitig kausal Die Korrelation zwischen zwei Variablen ist eine notwendige aber keine hinreichende Voraussetzung für einen kausalen Zusammenhang Der Korrelationskoeffizient gibt keine Information, welche der vier Interpretationen zutrifft (in vielen Fällen wird das der Typ (3) sein) Korrelationen sollten ohne Zusatzinformation nicht interpretiert werden! 2.2 Lineare 123 / 282
124 Beispiel Annahme: Man hat eine signifikante Korrelation zwischen den Merkmalen Ehrlichkeit und Häufigkeit des Kirchgangs gefunden Folgende Interpretationen sind möglich Die in der Kirche vermittelten Werte haben einen positiven Einfluss auf das Merkmal Ehrlichkeit. Ehrliche Menschen fühlen sich durch die in der Kirche vermittelten Inhalte eher angesprochen und gehen aus diesem Grund häufiger zur Kirche. Die allgemeine familiäre und außerfamiliäre Sozialisation beeinflusst beide Merkmale. 2.2 Lineare 124 / 282
125 2.2 Lineare 2.2 Lineare 125 / 282
126 2.9 Beispiel: Fortsetzung von Beispiel 2.1 Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) 2.2 Lineare Kann man y aus x vorhersagen? 126 / 282
127 Streudiagramm für die Daten aus Beispiel Lineare Motivation Leistungsstreben 127 / 282
128 2.9 Beispiel: Fortsetzung von Beispiel 2.1 Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Frage: Besteht ein funktionaler Zusammenhang zwischen der Variablen Motivation und der Prädiktorvariablen Leistungsstreben (Kann man y aus x vorhersagen?) Genauer: Gesucht ist Funktion f, die aus der Prädiktorvariablen Leistungsstreben (x) eine Vorhersage für die abhängige Variable (y) Motivation liefert: 2.2 Lineare Motivation = f(leistungsbereitschaft) Beachte: Es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 128 / 282
129 Ausgangslage: Von Interesse ist der Zusammenhang zwischen verschiedenen Variablen. Im einfachsten Fall betrachtet man, wie im Beispiel der Arbeitsmotivation, den Zusammenhang zwischen zwei Variablen. Daten: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein kausaler Zusammenhang der Form y = f (x) zwischen der abhängigen Variablen y und der Prädiktorvariablen x. Weitere Annahme: Die Funktion f hat eine bestimmte Form. Beispiele: Lineare (der Zusammenhang ist also durch eine Gerade beschreibbar): y = b 0 + b 1x Quadratische (der Zusammenhang ist also durch eine Parabel beschreibbar): y = b 0 + b 1x + b 2x 2 usw. Beachte: Der Zusammenhang ist in der Regel nicht exakt zu beobachten. Mathematisches Modell Y = b 0 + b 1 x + ε 2.2 Lineare Dabei bezeichnet ε eine zufällige Störgröße. Diese Modell bezeichnet man als Lineare. 129 / 282
130 2.10 Das Modell der linearen Daten (x 1, y 1 ),..., (x n, y n ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen den Variablen Y i und x i gilt: 2.2 Lineare Y i = b 0 + b 1 x i + ε i i = 1,..., n ε i bezeichnet hier eine zufällige Störung und es wird angenommen, dass die Störungen unabhängig und normalverteilt sind mit Erwartungswert 0 und Varianz σ 2 > 0 Deutung: Es wird ein linearer Zusammenhang zwischen x und y postuliert, der noch zufälligen Störungen unterliegt. 130 / 282
131 Idee der Schätzung bei (linearer) Daten (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein linearer Zusammenhang Y = b 0 + b 1 x + ε Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Y und x am besten beschreibt. Idee: Bestimme die Gerade so, dass die Summe der quadratischen (vertikalen) Abstände zwischen den y-koordinaten der Datenpunkte und den entsprechenden Punkten auf der geschätzten Geraden minimal wird Methode der kleinsten Quadrate 2.2 Lineare 131 / 282
132 y y Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten 2.2 Lineare y=0.2x y=0.5x x x 132 / 282
133 Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten: die Lösung durch die Methode der kleinsten Quadrate 2.2 Lineare y y=0.292x x 133 / 282
134 2.11 Die Methode der kleinsten Quadrate Bestimme die Gerade so, dass die Summe der quadrierten senkrechten Abstände zwischen Gerade und Daten minimal wird Datum an der Stelle xi : y i Wert der Geraden an der Stelle xi : b 0 + b 1x i Differenz: yi (b 0 + b 1x i) Minimiere h(b 0, b 1 ) = n ( i=1 yi (b 0 + b 1 x i ) ) 2 bzgl. der Wahl der Parameter b 0 und b 1. Lösung dieses Extremwertproblems liefert Schätzer für Achsenabschnitt und Steigung der Geraden: 2.2 Lineare ˆb 1 = n i=1 (x i x )(y i y ) n i=1 (x i x ) 2, ˆb0 = y ˆb 1 x x = 1 n xi: Mittelwert der Prädiktorvariablen n i=1 y = 1 n yi: Mittelwert der abhängigen Variablen n i=1 134 / 282
135 Beispiel Arbeitsmotivation: Streudiagramm und sgerade für die Daten aus Beispiel Motivation Lineare R-Quadrat linear = 0, Leistungsstreben Schätzer: ˆb 0 = 13.82, ˆb 1 = 0.29 Fragen: Wie genau sind diese Schätzungen? Besteht ein (signifikanter) Einfluss des Leistungsstrebens auf die Motivation H 0 : b 1 = 0 Wie gut beschreibt das lineare smodell die Situation? 135 / 282
136 Die Genauigkeit der Schätzer für die Parameter Beachte: Vor der Datenerhebung sind ˆb 0 und ˆb 1 zufällig. Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer für die Varianzen von ˆb 0 und ˆb 1 Schätzer für die Varianz von ˆb 0 : ŝ 2 b 0 Schätzer für die Varianz von ˆb 1 : ŝ 2 b 1 Dabei bezeichnet S 2 y x = 1 n 2 = S2 y x n = S2 y x n n i=1 x 2 i n i=1 (x i x ) 2 1 n n (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 1 n i=1 (x i x ) Lineare die Residualvarianz (Schätzer für die Varianz der Störgrößen) Je größer der Stichprobenumfang n, desto genauer sind die Schätzungen! 136 / 282
137 Fortsetzung von Beispiel 2.1: Schätzer für die Daten der Arbeitsmotivation Schätzer für die Parameter ˆb 0 = ˆb 1 = S 2 y x = Lineare Schätzer für die Varianz von ˆb 0 und ˆb 1 ŝ 2 b 0 = ŝ 2 b 1 = Standardfehler von ˆb 0 und ˆb 1 ŝ b0 = = ŝ b1 = = / 282
138 SPSS Output: Schätzer und Standardabweichungen bei linearer in Beispiel Lineare Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Koeffizienten a Standardisierte Nicht standardisierte Koeffizienten Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090,559 3,235, / 282
139 R-Output: Schätzer und Standardabweichungen bei linearer in Beispiel 2.1 Call : lm( formula = y x) Residuals : Min 1Q Median 3Q Max Lineare Coefficients : Estimate Std. Error t value Pr ( > t ) ( Intercept ) e -06 *** x ** --- Signif. codes : 0 *** ** 0.01 * / 282
140 2.12 Konfidenzintervalle bei linearer Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme für ε 1,..., ε n Bestimmung der Schätzer ŝ 2 b 0 und ŝ 2 b 1 für die Varianzen von ˆb 0 und ˆb 1. Damit ist dann = (ˆb 0 t n 2,1 α 2 ŝb 0, ˆb 0 + t n 2,1 α 2 ŝb 0 ) ein (1 α)-konfidenzintervall für b 0 und 2.2 Lineare = (ˆb 1 t n 2,1 α 2 ŝb 1, ˆb 1 + t n 2,1 α 2 ŝb 1 ) ein (1 α)-konfidenzintervall für b 1. Hier ist t n 2,1 α das (1 α 2 2 )-Quantil der t-verteilung mit n 2 Freiheitsgraden (tabelliert oder mit Software verfügbar) 140 / 282
141 2.13 Beispiel: Konfidenzbereiche im Beispiel 2.1 (Arbeitsmotivation) n = 25, t 23,0.975 = Für das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt sich als 95% Konfidenzintervall für b 0 :[9.420, ] b 1 :[0.105, 0.479] 2.2 Lineare Frage: Besteht ein (signifikanter) Einfluss der Prädiktorvariablen x auf die abhängige Variable Y? Mathematische Formulierung: H 0 : b 1 = / 282
142 SPSS Output: Konfidenzintervalle bei linearer in Beispiel 2.1 Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090 Koeffizienten a,559 3,235,004 95%-Konfidenzintervall für B Untergrenze Obergrenze 9,420 18,212,105, Lineare 142 / 282
143 R-Output: Konfidenzintervalle bei linearer in Beispiel 2.1 Call : lm( formula = y x) Residuals : Min 1Q Median 3Q Max Lineare Coefficients : Estimate Std. Error t value Pr ( > t ) ( Intercept ) e -06 *** x ** --- Signif. codes : 0 *** ** 0.01 * / 282
144 2.14 F -Test für die Hypothese H 0 : b 1 = 0 Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme für ε 1,..., ε n Hypothesen H 0 : b 1 = 0, H 1 : b 1 = 0 Die Nullhypothese H 0 : b 1 = 0 wird zu Gunsten der Alternative H 1 : b 1 0 verworfen, falls 2.2 Lineare gilt F n = S2 reg S 2 y x = n 2 n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 n i=1 (y i (ˆb 0 + ˆb 1 x i )) 2 > F 1;n 2,1 α F 1;n 2,1 α bezeichnet das (1 α)-quantil der F -Verteilung mit (1, n 2) Freiheitsgraden 144 / 282
145 Motivation des F -Tests: Zerlegung der Varianz n (y i y ) 2 = i=1 } {{ } Gesamtvarianz Bezeichnungen: n (y i (ˆb 0 + ˆbx i )) 2 + i=1 } {{ } Residualvarianz S 2 reg = 1 1 n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Varianz der heißt Varianz der (diese hat 1 Freiheitsgrad) und S 2 y x = 1 n 2 n (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 ist die Residualvarianz (diese hat n 2 Freiheitsgrade). Andere Interpretationen: - Schätzung für die Varianz der Größen ε i - durch das lineare smodell nicht erklärbare Varianz 2.2 Lineare 145 / 282
146 Motivation des F -Tests: Zerlegung der Varianz n (y i y ) 2 = i=1 } {{ } Gesamtvarianz Beachte: n (y i (ˆb 0 + ˆbx i )) 2 + i=1 } {{ } Residualvarianz = (n 2) S 2 y x + S2 reg n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Varianz der 2.2 Lineare Bei dem F -Test für die Hypothese H 0 : b 1 = 0 bildet man den Quotienten aus der Varianz der der Residualvarianz Man untersucht also das Verhältnis zwischen erklärbarer und nicht erklärbarer Varianz. 146 / 282
147 2.15 Varianzanalyse (ANOVA; analysis of variance) Art der Freiheits- Quadrat- F -Quotient Abweichung grade (df ) summe schätzer 1 n i=1 (y ŷ i ) 2 F n = S 2 reg/s 2 y x 2.2 Lineare Fehler n 2 n i=1 (y i ŷ i ) 2 Total n 1 n i=1 (y i y ) 2 Bezeichnung: ŷ i = ˆb 0 + ˆb 1 x i Vorhersage an der Stelle x i 147 / 282
148 SPSS Output: F -Test bei linearer in Beispiel 2.1 Modell 1 Residuen Gesamt Quadratsumme 238, , ,960 a. Einflußvariablen : (Konstante), Leistungsstreben b. Abhängige Variable: Motivation df Mittel der Quadrate 238,015 22,737 F 10,468 ANOVA b Signifikanz,004 a 2.2 Lineare Beachte: F 25 = , F 1,23,0.95 = Da F 25 = > wird die Nullhypothese H 0 : b 1 = 0 zu Gunsten der Alternative H 1 : b 1 0 zum Niveau 5% verworfen (p-wert: 0.004) 148 / 282
149 R-Output: F -Test bei linearer in Beispiel 2.1 Analysis of Variance Table Response : y Df Sum Sq Mean Sq F value Pr(>F) x ** Residuals Lineare Signif. codes : 0 *** ** 0.01 * Beachte: F 25 = , F 1,23,0.95 = Da F 25 = > wird die Nullhypothese H 0 : b 1 = 0 zu Gunsten der Alternative H 1 : b 1 0 zum Niveau 5% verworfen (p-wert: 0.004) 149 / 282
150 Modellgüte: wie geeignet ist das Modell für die Beschreibung der Daten Maß für Modellanpassung: Residualvarianz (Summe der quadrierte Abstände von der sgerade): Beachte: S 2 y x S 2 y x = 1 n 2 n i=1 ( ) 2 y i (ˆb 0 + ˆb 1 x i ) ist ein Schätzer für die Varianz der Messfehler Je kleiner Sy x 2, desto besser ist das (lineare) smodell Streuung der Daten ohne die Information, dass ein lineares Modell vorliegt: n (y i y ) 2 i=1 Man untersucht welchen Anteil der Streuung n i=1 (y i y ) 2 man durch das lineare Modell erklären kann. 2.2 Lineare 150 / 282
151 Varianzzerlegung: ein extremes Beispiel y Abhängige Variable Lineare Unabhängige Variable x Beachte: Die Grafik zeigt eine extreme Situation. Die Streuung der Daten ist durch das lineare smodell zu 100% erklärbar! n i=1 (y i y ) 2 = n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 Residualvarianz (durch das lineare smodell nicht erklärbare Varianz) = / 282
152 2.16 Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1): 25 i=1 25 i=1 R 2 = (y i y ) 2 = (y (ˆb 0 + ˆb 1 x i )) 2 = i=1 (y (ˆb 0 + ˆb 1 x i )) 2 25 i=1 (y i y ) 2 = d. h. 31.3% der Varianz der Variablen Motivation können durch die Prädiktorvariable Leistungsstreben erklärt werden. 2.2 Lineare 152 / 282
153 2.17 Modellgüte: das Bestimmtheitsmaß Die Größe n R 2 i=1 = 1 (y i (ˆb 0 + ˆb 1 x i )) 2 n i=1 n i=1 (y = (y (ˆb 0 + ˆb 1 x i )) 2 i y ) 2 n i=1 (y y i ) 2 ist ein Maß für die Güte der heißt Bestimmtheitsmaß. Beachte: Man kann zeigen, dass R 2 genau das Quadrat der Korrelation ist. 2.2 Lineare Je besser das Modell ist, desto kleiner ist die Residualvarianz, bzw. desto größer R 2! Das Bestimmtheitsmaß R 2 liegt immer zwischen 0 und / 282
154 Zusammenhang zwischen Bestimmtheitsmaß und F -Test Ist F n die Statistik für den F -Test aus 2.14 und R 2 das Bestimmtheitsmaß, dann gilt: R 2 = 1 n 2 F n n 2 F n In anderen Worten: die Statistik F n des F -Test aus 2.5 kann aus dem Bestimmtheitsmaß berechnet werden (und umgekehrt) Im Beispiel des Zusammenhangs zwischen Motivation und Leistungsstreben ist 2.2 Lineare F n = = R 2 = = Ca. 31.3% der Variation der Variablen Motivation können durch die Variable Leistungsstreben erklärt werden. 154 / 282
155 Vorhersagen: es gibt zwei unterschiedliche 2.18 Vorhersage für den Wert der Geraden an einer Stelle x Schätzung für den Wert der Geraden y(x) = b 0 + b 1 x an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x (1 α)-konfidenzintervall für y(x) (ŷ(x) t n 2;1 α 2 ŝ y(x), ŷ(x) + t n 2;1 α 2 ŝ y(x)) 2.2 Lineare wobei ŝ 2 y(x) = S2 y x ( 1 n + (x x ) 2 n i=1 (x i x ) 2 ) den Schätzer für die Varianz von Ŷ (x) bezeichnet 155 / 282
156 Vorhersagen: es gibt zwei unterschiedliche 2.19 Vorhersage für eine neue Beobachtung an einer Stelle x Schätzer für eine neue Beobachtung Ỹ (x) = b 0 + b 1 x + ε an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x (1 α)-konfidenzintervall für y(x) wobei (ŷ(x) t n 2;1 α 2 s y(x), ŷ(x) + t n 2;1 α 2 s y(x)) s 2 y(x) = S2 y x (1 + 1 n + (x x ) 2 n i=1 (x i x ) 2 ) 2.2 Lineare den Schätzer für die Varianz von ŷ(x) + ε bezeichnet. Beachte: Diese Varianz wird bei wachsendem Stichprobenumfang nicht beliebig klein! 156 / 282
157 2.20 Beispiel: Fortsetzung von Beispiel 2.1 (1) Gesucht ist ein 90% Konfidenzintervall für den Wert der Geraden an der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ2 y(x) = 1.116, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für den Wert der Geraden an der Stelle 16 ist gegeben durch [16.677, ] (2) Gesucht ist ein 90% Konfidenzintervall für eine neue Beobachtung der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = , ŝ2 ỹ(x) = 23.85, ŷ(16) = ˆb ˆb 1 = Das 90% Konfidenzintervall für eine neue Beobachtung an der Stelle 16 ist gegeben durch 2.2 Lineare [10.118, ] 157 / 282
158 SPSS Output: Vorhersagen bei linearer in Beispiel 2.1 (schwierig) 2.2 Lineare 158 / 282
159 SPSS Output: Konfidenzintervalle für Vorhersagen bei linearer in Beispiel Lineare Motivation Leistungsstreben 159 / 282
160 2.21 Residuenanalyse Unter der Modellannahme des linearen smodells gilt: die Größen ε i = Y i b 0 b 1 x i sind unabhängig und normalverteilt mit Erwartungswert 0 und Varianz σ 2 > 0. Das bedeutet, dass diese Eigenschaften auch näherungsweise für die Residuen ˆε i = y i ˆb 0 ˆb 1 x i erfüllt sein sollte, falls die Modellannahme zutrifft. Residuenanalyse ist ein deskriptives Verfahren für die Überprüfung der Annahmen an ε 1,..., ε n mit 4 Teilschritten (oft werden auch nicht alle gemacht): A: Das Streudiagramm der Daten mit der slinie B: Ein Streudiagramm der Residuen gegen die vorhergesagten Werte C: Normalverteilungs-QQ-Plot der Residuen D: Histogramm der Residuen mit angepasster Normalverteilungsdichte 2.2 Lineare 160 / 282
161 Residuenanalyse bei erfüllten Voraussetzungen Abhängige Variable A Residuum B 2.2 Lineare Unabhängige Variable C 1.0 Vorhergesagter Wert D Empirische Quantile f(residuum) Theoretische Quantile der Standardnormalvert Residuum 161 / 282
162 Residuenanalyse bei Abweichungen von der Normalverteilung (Ausreißer) Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2.2 Lineare 162 / 282
163 Residuenanalyse bei Stratifizierung Beachte: verschiedene Untergruppen (Strata) können ebenfalls zu Abweichungen von den Modellannahmen führen. Für die Strata können dann unterschiedliche sgleichungen gelten. Abhängige Variable A Unabhängige Variable C Residuum B Vorhergesagter Wert D 2.2 Lineare Empirische Quantile f(residuum) Theoretische Quantile der Standardnormalvert Residuum 163 / 282
164 Residuenanalyse bei falscher Modellannahme Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2.2 Lineare Statt des linearen Modells wäre ein Polynom 3. Grades die bessere Annahme für die Beschreibung des funktionalen Zusammenhangs! 164 / 282
165 Residuenanalyse bei ungleichen Varianzen (Heteroskedastizität) Abhängige Variable Empirische Quantile A Unabhängige Variable C Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B Vorhergesagter Wert D Residuum 2.2 Lineare 165 / 282
166 SPSS Output: Residuenanalyse in Beispiel Motivation Lineare 10 R-Quadrat linear = 0, Leistungsstreben Streudiagramm und geschätzte sgerade im Beispiel der Arbeitsmotivation 166 / 282
167 R-Output für Residuenanalyse Motivation Lineare Leistungsstreben QQ-Plot im Beispiel der Arbeitsmotivation 167 / 282
168 SPSS Output: Residuenanalyse in Beispiel 2.1 3, ,00000 Standardized Residual 1,00000, Lineare -1, , , ,00000, , ,00000 Standardized Predicted Value Streudiagramm der Residuen gegen die vorhergesagten Werte im Beispiel der Arbeitsmotivation 168 / 282
169 R-Output: Residuenanalyse in Beispiel 2.1 Residuals vs Fitted Residuals Lineare Fitted values lm(y ~ x) Streudiagramm und geschätzte sgerade im Beispiel der Arbeitsmotivation 169 / 282
170 SPSS Output für Residuenanalyse 2 Q-Q-Diagramm von Normal von Standardized Residual 2.2 Lineare Erwarteter Wert von Normal Beobachteter Wert QQ-Plot im Beispiel der Arbeitsmotivation 170 / 282
171 R-Output: Residuenanalyse in Beispiel 2.1 Standardized residuals Normal Q Q Lineare Theoretical Quantiles lm(y ~ x) Streudiagramm der Residuen gegen die vorhergesagten Werte im Beispiel der Arbeitsmotivation 171 / 282
172 Korrelation und lineare Es besteht ein enger Zusammenhang zwischen linearer und Korrelation Ist ˆb 1 die Schätzung im linearen smodell und r der Korrelationskoeffizient von Pearson, dann gilt: n i=1 r = (x i x ) 2 n i=1 (y i y ˆb ) Lineare Ist R 2 das Bestimmtheitsmaß und r der Korrelationskoeffizient von Pearson, dann gilt: r 2 = R / 282
173 2.2 Lineare 173 / 282
174 2.22 Beispiel: Arbeitsmotivation mit mehreren Prädiktoren y: Motivation (Einschätzung der Arbeitsmotivation durch Experten) Prädiktoren: Eigenschaften x 1 : Ehrgeiz (Fragebogen) x 2 : Kreativität (Fragebogen) x 3 : Leistungsstreben (Fragebogen) Prädiktoren: Rahmenbedingungen x 4 : Hierarchie (Position in der Hierarchie des Unternehmens) x 5 : Lohn (Bruttolohn pro Monat) 2.2 Lineare x 6 : Arbeitsbedingungen (Zeitsouveränität, Kommunikationsstruktur usw.) Prädiktoren: Inhalte der Tätigkeit x 7 : Lernpotential (Lernpotential der Tätigkeit) x 8 : Vielfalt (Vielfalt an Teiltätigkeiten) x 9 : Anspruch (Komplexität der Tätigkeit) 174 / 282
175 Daten i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x Lineare 175 / 282
176 Daten i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x Lineare 176 / 282
177 2.23 Das Modell der multiplen linearen Daten (x 1, y 1 ),..., (x n, y n ) Es gibt k unabhängige Variablen: x i = (x 1i,..., x ki ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen der Variablen Y i und dem Vektor x i gilt (im Beispiel ist k = 9): Y i = b 0 + b 1 x 1i + b 2 x 2i b k x ki + ε i k = b 0 + b j x ji + ε i. j=1 2.2 Lineare ε i bezeichnet hier eine zufällige Störung und es wird angenommen, dass die Störungen ε 1,..., ε n unabhängig und normalverteilt sind mit Erwartungswert 0 und Varianz σ 2 > 0. Deutung: Es wird ein linearer Zusammenhang zwischen x und Y postuliert, der noch zufälligen Störungen unterliegt. 177 / 282
178 2.24 Schätzung bei multipler linearer Methode der kleinsten Quadrate: Minimiere n (y i b 0 b 1 x 1i... b k x ki ) 2 i=1 bzgl. der Wahl von b 0,..., b k Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer ˆb 0, ˆb 1,..., ˆb k für die Parameter b 0,..., b k (Formeln sind kompliziert) Schätzer für die Varianz der Messfehler 2.2 Lineare S 2 y x = 1 n k 1 n (y i ˆb 0 ˆb 1 x 1i... ˆb k x ki ) 2 i=1 178 / 282
179 Streudiagramm bei multipler linearer (k = 2) sfläche: ŷ(x) = x x Lineare Y X 1 X / 282
180 Fortsetzung von Beispiel 2.22: Schätzer im multiplen linearen smodell Ergebnisse für die Schätzer im multiplen linearen smodell ˆb 0 = ˆb1 = ˆb 2 = ˆb3 = ˆb 4 = ˆb 5 = ˆb 6 = ˆb 7 = ˆb 8 = ˆb9 = Fragen: Wie genau sind diese Schätzungen? Besteht ein (signifikanter) Einfluss der unabhängigen Merkmale auf die Motivation H 0 : b 1 = 0 H 0 : b 2 = 0 Wie gut beschreibt das multiple lineare smodell die Situation?. 2.2 Lineare 180 / 282
181 Genauigkeit der Schätzung bei multipler linearer Schätzer ŝ b0,..., ŝ bk für die Standardfehler von ˆb 0,..., ˆb k sind verfügbar (Allgemeines lineares Modell Formeln kompliziert) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto genauer die Schätzungen Damit erhält man Konfidenzintervalle für b 0,..., b k, z. B. 2.2 Lineare (ˆb 0 t n k 1,1 α 2 ŝ b0, ˆb 0 + t n k 1,1 α 2 ŝ b0 ) ist (1 α)-konfidenzintervall für b / 282
182 Fortsetzung von Beispiel 2.22: Schätzer für den Standardfehler der Schätzer im multiplen linearen smodell Ergebnisse für den Standardfehler der Schätzer im multiplen linearen smodell 2.2 Lineare ŝ b0 = ŝ b1 = ŝ b2 = ŝ b3 = ŝ b4 = ŝ b5 = ŝ b6 = ŝ b7 = ŝ b8 = ŝ b9 = Wegen t 15,0.975 = ist [ 0.089, 0.188] ein 95%-Konfidenzintervall für den Parameter b 3. Man beachte: ) n = 25; k = 9 n k 1 = / 282
183 2.25 Konfidenzintervalle für multiple lineare Modellannahme: multiple lineare Y i = b 0 + k b j x ji + ε i (i = 1,..., n) j=1 Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme Schätzer ŝ bj für den Standardfehler von ˆb j = (ˆb j t n k 1,1 α 2 ŝb j, ˆb j + t n k 1,1 α 2 ŝb j ) ist ein (1 α)-konfidenzintervall für b j (j = 0,..., k) ; (1 α 2 2 )-Quantil der t-verteilung mit n k 1 Freiheitsgraden (Tabelle oder Software) t n k 1,1 α Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto kleiner die Konfidenzintervalle 2.2 Lineare 183 / 282
184 2.26 Beispiel: Konfidenzintervalle für die Parameter in Beispiel 2.22 (Arbeitsmotivation) ˆb j Merkmal Schätzung ŝ bj Konfidenzintervall ˆb [ , 6.926] ˆb 1 Ehrgeiz [0.020, 0.365] ˆb 2 Kreativität [0.049, 0.258] ˆb 3 Leistungsstreben [-0.089, 0.188] ˆb 4 Hierarchie [-0.069, 0.561] ˆb 5 Lohn [-0.004, 0.002] ˆb 6 Arbeitsbdg [-0.147, 0.085] ˆb 7 Lernpotential [-0.044, 0.373] ˆb 8 Vielfalt [0.095, 0.316] ˆb 9 Anspruch [-0.070, 0.177] 2.2 Lineare 184 / 282
185 SPSS Output: Schätzer, Standardabweichung und Konfidenzintervalle im Beispiel 2.22 (Arbeitsmotivation mit mehreren Prädiktoren) Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Koeffizienten a Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070 Obergrenze 6,926,365,258,188,561,002,085,373,316, Lineare 185 / 282
186 R-Output: Schätzer, Standardabweichung und Konfidenzintervalle im Beispiel 2.22 (Arbeitsmotivation mit mehreren Prädiktoren) Call : lm( formula = y x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9) 2.2 Lineare Residuals : Min 1Q Median 3Q Max Coefficients : Estimate Std. Error t value Pr ( > t ) ( Intercept ) x * x ** x / 282
187 2.27 Vorhersage der multiplen linearen Modellannahme: multiple lineare Y i = b 0 + k b j x ji + ε i (i = 1,..., n) j=1 Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) ŷ(x) = ˆb 0 + k j=1 ˆb j x j 2.2 Lineare In Beispiel 2.22 ergibt sich z. B. als Vorhersage der multiplen linearen an der Stelle x 1 = 21, x 2 = 30, x 3 = 15, x 4 = 11, x 5 = 2900, x 6 = 41, x 7 = 25, x 8 = 55, x 9 = 54 der Wert ŷ(x) = / 282
188 Vorhersage der multiplen linearen Beachte: Wie in Abschnitt 2.18 und 2.19 gibt es zwei Vorhersagen: Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Vorhersage für den Wert einer neuen Beobachtung an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Für beide Vorhersagen kann man den Standardfehler bestimmen (Formeln kompliziert) und Konfidenzbereiche angeben (vgl. Abschnitt 2.18 und 2.19 für den Fall k = 1 ) 2.2 Lineare 188 / 282
189 SPSS Output: Vorhersage bei der multiplen linearen (schwierig) 2.2 Lineare Beispiel: Schätzung für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : Schätzung für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : / 282
190 SPSS Output: Konfidenzintervalle für Vorhersagen bei multipler linearer 2.2 Lineare Konfidenzintervall für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [12.399, ] Konfidenzintervall für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [9.870, ] 190 / 282
191 2.28 Bestimmtheitsmaß bei multipler linearer Modellvorhersage: ŷ i = ˆb 0 + ˆb 1 x 1i +... ˆb k x ki = ˆb 0 + k ˆb j x ji j=1 Residuum ˆε i = y i ŷ i = y i (ˆb 0 + k j=1 ˆb j x ji ) Beachte: Die Werte der abhängigen Variable zerfallen in Modellvorhersage (ŷ) und Residuum (ˆε), d. h. y i = ŷ i + ˆε i i = 1,..., n 2.2 Lineare Die Güte der Modellanpassung wird (wieder) durch das Bestimmtheitsmaß R 2 beschrieben (Anteil erklärter Varianz) n R 2 i=1 = 1 (y i ŷ i ) 2 n n i=1 (y i y = i=1 (y ŷ i ) 2 ) 2 n i=1 (y i y. ) / 282
192 Beispiel: Das Bestimmtheitsmaß für das Beispiel 2.22 (Arbeitsmotivation) In Beispiel 2.22 ist n = 25; k = 9 n i=1 (y i ŷ i ) 2 = n i=1 (y i y ) 2 = R 2 = = Lineare D. h % der Varianz der Variablen Motivation werden durch das multiple lineare smodell erklärt. 192 / 282
193 2.29 Statistische Tests bei der multiplen linearen. Zwei wichtige Fragestellungen: Frage A: Hat mindestens eine der Prädiktorvariablen x 1,..., x k einen Einfluss auf die abhängige Variable y (Gesamttest auf Signifikanz). Mathematische Formulierung der Hypothese: Nullhypothese: Alternative: H 0 : b j = 0 für alle j {1, 2,..., k} H 1 : b j 0 für mindestens ein j {1, 2,..., k} 2.2 Lineare Frage B: Hat die Prädiktorvariable x j (z. B. Ehrgeiz) einen Einfluss auf die abhängige Variable y. Mathematische Formulierung der Hypothese: Nullhypothese: H 0 : b j = 0 Alternative: H 1 : b j / 282
194 2.29(A) Gesamttest auf Signifikanz Nullhypothese: H 0 : b j = 0 für alle j {1, 2,..., k} Alternative: H 1 : b j 0 für mindestens ein j {1, 2,..., k} (1) Bestimme S 2 reg = 1 k n (y ŷ i) 2 i=1 die Varianz der, und S 2 y x = 1 n k 1 n (y i ŷ i) 2 i=1 2.2 Lineare die Residualvarianz Beachte: Man geht genau wie im linearen smodell vor! 194 / 282
195 2.29(A) Gesamttest auf Signifikanz (2) H 0 wird zu Gunsten der Alternative H 1 verworfen, falls F n = S2 reg S 2 y x > F k;n k 1;1 α gilt (oder der entsprechende p-wert kleiner als α ist). Dabei bezeichnet F k;n k 1;1 α das (1 α)-quantil der F -Verteilung mit (k, n k 1) Freiheitsgraden. 2.2 Lineare Beachte: Wird H 0 durch diesen Test verworfen, dann bleibt aber noch unklar, welches der Merkmale signifikant ist. 195 / 282
196 2.29(B) Tests für die Signifikanz einzelner Merkmale Nullhypothese: H 0 : b j = 0 Alternative: H 1 : b j 0 Die Nullhypothese H 0 wird zu Gunsten der Alternative H 1 verworfen, falls ˆb j T n = > t n k 1;1 α 2 ŝ bj 2.2 Lineare gilt (oder der entsprechende p-wert kleiner als α ist). Dabei ist tn k 1;1 α 2 das (1 α )-Quantil der t-verteilung mit 2 n k 1 Freiheitsgraden ŝbj der Standardfehler von ˆb j Beachte: Werden mehrere Hypothesen getestet, ist das Niveau entsprechend anzupassen (vgl. Abschnitt 2.18). 196 / 282
197 2.30(A) Test auf Signifikanz im multiplen smodell in Beispiel 2.22 Frage: Hat eine der 9 Prädiktorvariablen einen Einfluss auf die abhängige Variable? Mathematische Hypothesen: H 0 : b j = 0 für alle j = 1,..., 9 H 1 : b j 0 für mindestens ein j {1,..., 9} 2.2 Lineare F n = , F 9,15,0.95 = Da F n > > ist, wird die Nullhypothese zum Niveau 5% verworfen. 197 / 282
198 2.30(B) Beispiel: Test auf Signifikanz eines Merkmals im multiplen linearen smodell in Beispiel 2.22 Frage: Hat die Prädiktorvariable Ehrgeiz (x 1 ) einen Einfluss auf die abhängige Variable Motivation Signifikanz des skoeffizienten b 1 )? Mathematische Hypothesen: H 0 : b 1 = 0; H 1 : b 1 0 ˆb 1 = 0.193, ŝ b1 = 0.081, t 25 10,0.975 = Lineare T 25 = Da T 25 = > 2.13 wird die Nullhypothese H 0 zu Gunsten der Alternative H 1 : b 1 0 verworfen (zum Niveau 5%) 198 / 282
199 SPSS Output: Der Test 2.29(A) für das Beispiel 2.22 (Arbeitsmotivation) ANOVA b 2.2 Lineare Modell 1 Residuen Gesamt Quadratsumme 707,309 53, ,960 df 24 Mittel der Quadrate a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x ,590 3,577 F 21,972 Signifikanz,000 a b. Abhängige Variable: Y 199 / 282
200 SPSS Output: Der Test 2.29(B) für das Beispiel 2.22 (Arbeitsmotivation) Koeffizienten a Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070 Obergrenze 6,926,365,258,188,561,002,085,373,316, Lineare 200 / 282
201 R-Output: Der Test 2.29(B) für das Beispiel 2.22 (Arbeitsmotivation) Call : lm( formula = y x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9) Residuals : Min 1Q Median 3Q Max Lineare Coefficients : Estimate Std. Error t value Pr ( > t ) ( Intercept ) x * x ** x x / 282
202 Residual standard error : on 15 degrees of freedom Multiple R- squared : , Adjusted R- squared : F- statistic : on 9 and 15 DF, p- value : 4.492e % 97.5 % ( Intercept ) x x x x Lineare x x x x x / 282
203 2.2 Lineare 203 / 282
204 2.31 Das Problem der Multikollinearität Beispiel: Betrachte in dem Beispiel der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 Prädiktorvariablen Y i = b 0 + b 1 x 1i + b 2 x 2i + b 3 x 3i + ε i i = 1,..., 25 (Y : Motivation, x 1 : Ehrgeiz, x 2 : Kreativität, x 3 : Leistungsstreben) Schätzer für die Modellparameter i ˆb i ŝ bi p-wert Bestimmtheitsmaß R 2 = Lineare Beachte: Nur für den Koeffizient b 3 (Leistungsstreben) kann keine Signifikanz (zum Niveau 5%) nachgewiesen werden. 204 / 282
205 Korrelationsmatrix für die Prädiktoren Motivation Ehrgeiz Kreativität Leistungsstreben Motivation 1 Ehrgeiz.71 1 Kreativität Leistungsstreben.56.82* Beachte: Der Test 2.5 liefert eine signifikante Korrelation (zum Niveau 1%) zwischen den Variablen Leistungsstreben und Ehrgeiz (SPSS) 2.2 Lineare 205 / 282
206 Beachte: Es gibt eine signifikante Korrelation zwischen den Variablen Leistungsstreben und Ehrgeiz Beide Variablen tragen weitgehend identische Information. Im Beispiel ist die Variable Leistungsstreben redundant und wird nicht für die Vorhersage der abhängigen Variablen Motivation benötigt. Die Variable Ehrgeiz ist stärker mit der Variablen Motivation korreliert als die Variable Leistungsstreben (aus diesem Grund ist der entsprechende Koeffizient auch signifikant). Für die Bestimmtheitsmaße in den multiplen linearen smodellen mit drei bzw. zwei Variablen erhält man 2.2 Lineare R 2 = für Modell mit den Prädiktoren x 1, x 2, x 3 R 2 = für Modell mit den Prädiktoren x 1, x / 282
207 SPSS Output: Multikollinearität; Schätzer im Modell mit 3 Parametern Modell B 1 (Konstante) 5,539 x1,393 x2,225 x3,001 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standard fehler 2,618,135,089,123 Standardisierte Koeffizienten Beta Koeffizienten a,688,343,002 T 2,116 2,913 2,528,008 Signifi kanz,046,008,020,994 95%-Konfidenzintervall für B Untergrenze Obergrenze,095 10,983,112,674,040,410 -,255, Lineare 207 / 282
208 R-Output: Multikollinearität; Schätzer im Modell mit 3 Parametern Call : lm( formula = y x1 + x2 + x3) Residuals : Min 1Q Median 3Q Max Lineare Coefficients : Estimate Std. Error t value Pr ( > t ) ( Intercept ) * x ** x * x / 282
209 SPSS Output: Multikollinearität; Korrelationsmatrix Y x1 x2 x3 Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Y 1,000,000 25,379,061, x1,708 **,000,053,802,000 Korrelationen 25 x2 1,000, x3,559 ** ,708 ** 1,000,053,818 ** 25,802 25, ,016, ,559 **,818 ** -,016 1,000 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.,379,061, Lineare 209 / 282
210 R-Output: Multikollinearität; Korrelationsmatrix Y x1 x2 x3 Y x x x Lineare n= 25 P Y x1 x2 x3 Y x x x / 282
211 2.32 Das Problem der Beispiel: Betrachte in dem Beispiel 2.22 der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 anderen Prädiktorvariablen Y i = b 0 + b 4 x 4i + b 5 x 5i + b 6 x 6i + ε i i = 1,..., 25 (Y : Motivation, x 4 : Hierarchie, x 5 : Lohn, x 6 : Arbeitsbedingungen) Schätzungen für die Modellparameter i ˆbi ŝ bi p-wert Lineare 211 / 282
212 Korrelationsmatrix für die Variablen Motivation, Hierarchie, Lohn und Arbeitsbedingungen Motivation Hierarchie Lohn Arbeitsbedingungen Motivation 1 Hierarchie.42* 1 Lohn ** 1 Arbeitsbedingungen Lineare Beachte: Zwischen der Prädiktorvariablen Lohn (x 5 ) und der abhängigen Variablen Motivation liegt keine signifikante Korrelation vor. Dennoch bekommt diese Variable im multiplen smodell ein signifikantes Gewicht; d. h. die Hypothese H 0 : b 5 = 0 wird zum Niveau 5% verworfen (p-wert: 0.016). Man spricht von einem Suppressionseffekt. 212 / 282
213 Grund für diesen scheinbaren Widerspruch: Korrelationen sind bivariate Maße für (zwischen zwei Merkmalen). Das Modell der multiplen untersucht aber den Zusammenhang zwischen der Variablen Motivation und dem (3-dimensionalen) Prädiktor (x 4, x 5, x 6 ): Motivation ist stark mit der Variablen Hierarchie korreliert. Lohn ist ebenfalls stark mit der Variablen Hierarchie korreliert. Prädiktorvariable Lohn wird in der multiplen linearen benötigt, um unerwünschte Varianzanteile der Variablen Hierarchie zu kompensieren. 2.2 Lineare Bestimmtheitsmaße für verschiedene Modelle R 2 = für Modell mit x 4, x 5, x 6 R 2 = für Modell mit x 4, x / 282
214 SPSS Output: ; Schätzer im Modell mit 4 Parametern Modell 1 (Konstante) x4,884 x5 -,007 x6,125 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten Standard B fehler Beta T Signifikanz 25,076 8,398 2,986,007,257,003,120 Koeffizienten a,843 -,632,179 3,444-2,612 1,045,002,016,308 95%-Konfidenzintervall für B Untergrenze Obergrenze 7,612 42,539,350 1,419 -,013 -,001 -,124, Lineare 214 / 282
215 R-Output: ; Schätzer im Modell mit 4 Parametern Call : lm( formula = y x4 + x5 + x6) Residuals : Min 1Q Median 3Q Max Lineare Coefficients : Estimate Std. Error t value Pr ( > t ) ( Intercept ) ** x ** x * x / 282
216 SPSS Output: ; Schätzung der Korrelationsmatrix Y x4 x5 x6 Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Y 1,000, ,038,856 25,354, x4,419 *,037 25,717 **,000,163,435 Korrelationen x5 1, ,060, x ,419 * 1,000,717 **,163 *. Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant. **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. -,038,856,000 25,354,082, ,060, , Lineare 216 / 282
217 R-Output: ; Schätzung der Korrelationsmatrix Y x4 x5 x6 Y x x x Lineare n= 25 P Y x4 x5 x6 Y x x / 282
218 2.2 Lineare 218 / 282
219 2.33 Merkmalselektionsverfahren Ziel: Mit möglichst wenig Prädiktorvariablen eine gute Vorhersage der abhängigen Variablen zu erzielen. Prinzip: Untersuche wie sich durch Weglassen einzelner Variablen das Bestimmtheitsmaß R 2 verändert. Typische Selektionsprozeduren: Rückwärtsverfahren Vorwärtsverfahren Schrittweise Verfahren 2.2 Lineare Beachte: Es handelt sich um explorative Verfahren, die hauptsächlich der Modellbildung dienen (Interpretation nicht einfach). 219 / 282
220 2.34 Das Rückwärtsverfahren Betrachte das vollständige Modell (mit allen Prädiktorvariablen) und berechne das Bestimmtheitsmaß R 2. Entferne sukzessive diejenigen Variablen, die zu dem geringsten Rückgang des Bestimmtheitsmaßes führen würden. Das Verfahren wird abgebrochen, falls sich bei dem Entfernen einer Variablen das Bestimmtheitsmaß signifikant verkleinert. 2.2 Lineare 220 / 282
221 2.35 Beispiel: Variablenselektion mit dem Rückwärtsverfahren (vgl. Beispiel 2.22) Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 1 Ehrgeiz Kreativität 3.13 Leistungsstreben.76 Hierarchie 1.66 Lohn -.59 Arbeitsbedingungen -.58 Lernpotential 1.68 Vielfalt 3.97 Anspruch Lineare 2 Ehrgeiz 2.38 Arbeitsbedingungen.928 Kreativität 3.28 Leistungsstreben.79 Hierarchie 1.66 Lohn -.57 Lernpotential 1.66 Vielfalt 4.04 Anspruch / 282
222 Beispiel: Rückwärtsverfahren - Fortsetzung Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 3 Ehrgeiz 2.54 Arbeitsbedingungen.926 Kreativität 3.43 Lohn Leistungsstreben.88 Hierarchie 2.11 Lernpotential 1.59 Vielfalt 4.17 Anspruch Ehrgeiz 5.40 Arbeitsbedingungen.923 Kreativität 3.38 Lohn Hierarchie 2.31 Leistungsstreben Lernpotential 1.55 Vielfalt 4.12 Anspruch Lineare 5 Ehrgeiz 5.18 Arbeitsbedingungen.916 Kreativität 3.16 Lohn Hierarchie 2.84 Leistungsstreben Lernpotential 3.31 Anspruch Vielfalt / 282
223 SPSS Output: Rückwärtsverfahren im Beispiel der Arbeitsmotivation Aufgenommene/Entfernte Variablen b Entfernte Modell Aufgenommene Variablen Variablen Methode 1 x9, x5, x2, x3, x6, x8, x7, x4,. Eingeben 2. x6 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 3. x5 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 4. x3 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 5. x9 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). a. Alle gewünschten Variablen wurden aufgenommen. b. Abhängige Variable: Y 2.2 Lineare 223 / 282
224 SPSS Output: Rückwärtsverfahren im Beispiel der Arbeitsmotivation Modellzusammenfassung Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,964 a,929,887 1,891,929 21, ,000 2,963 b,928,892 1,851 -,002, ,573 3,963 c,926,896 1,814 -,001, ,575 4,961 d,923,897 1,803 -,003, ,389 5,957 e,916,894 1,837 -,007 1, ,207 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 2.2 Lineare 224 / 282
225 SPSS Output: Rückwärtsverfahren im Beispiel der Arbeitsmotivation: ANOVA Modell Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadratsumme 707,309 53, , ,120 54, , ,000 55, , ,422 58, , ,852 64, ,960 df Mittel der Quadrate 78,590 3,577 88,265 3, ,714 3, ,070 3, ,370 3,374 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 f. Abhängige Variable: Y 9 F 21,972 25,752 30,596 35,999 41,306 ANOVA f Signifikanz,000 a,000 b,000 c,000 d,000 e 2.2 Lineare 225 / 282
226 SPSS Output: Rückwärtsverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell 1 (Konstante) 2 3 x1 x2 x3 x4 x5 x6 x7 x8 x9 (Konstante) x1 x2 x3 x4 x5 x7 x8 x9 (Konstante) x1 x2 x3 x4,193,153,049,246,000 -,031,165,206,053-4,737,187,157,050,240,000,157,205,052-7,154,193,159,055,172 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz -3,842 5,052 -,760,459,081,049,065,148,001,054,098,052,058 4,706,079,048,063,144,001,095,051,057 2,027,076,046,062,081,337,234,095,235 -,077 -,045,199,354,124,326,239,096,228 -,073,190,352,121,338,244,105,164 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920-1,007 2,376 3,285,790 1,660 -,572 1,655 4,040,914-3,529 2,540 3,431,885 2,113 Koeffizienten a,031,007,458,117,564,573,113,001,372,329,030,005,441,116,575,117,001,374,003,021,003,389,050 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070-14,713,020,056 -,084 -,066 -,004 -,044,097 -,068-11,431,033,061 -,076,000 Obergrenze 6,926,365,258,188,561,002,085,373,316,177 5,238,353,258,185,545,002,358,312,172-2,877,354,258,185, Lineare 226 / 282
227 2.36 Das Vorwärtsverfahren Bestimme diejenige Prädiktorvariable, die mit der abhängigen Variablen am stärksten korreliert ist und berechne das Bestimmtheitsmaß R 2. Ist R 2 signifikant, wird diese Variable in das Modell aufgenommen. Füge sukzessive diejenigen Variablen zu dem Modell hinzu, die zu dem größten Anstieg des Bestimmtheitsmaßes führen. Das Verfahren bricht ab, falls sich bei Hinzunahme einer neuen Variablen das Bestimmtheitsmaß R 2 nicht signifikant vergrößert. 2.2 Lineare 227 / 282
228 SPSS Output: Vorwärtsverfahren im Beispiel der Arbeitsmotivation Aufgenommene Variablen Entfernte Variablen Modell Methode 1 x1. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) 2 Vorwährts- (Kriterium: Wahrscheinlichkeit x9. von F-Wert für Aufnahme <=,050) 3 x2. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) 4 Vorwährts- (Kriterium: Wahrscheinlichkeit x8. von F-Wert für Aufnahme <=,050) 5 x4. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) a. Abhängige Variable: Y Aufgenommene/Entfernte Variablen a 2.2 Lineare 228 / 282
229 SPSS Output: Vorwärtsverfahren im Beispiel der Arbeitsmotivation Modellzusammenfassung Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,708 a,501,479 4,065,501 23, ,000 2,863 b,744,721 2,973,244 20, ,000 3,906 c,820,795 2,552,076 8, ,007 4,944 d,891,869 2,039,070 12, ,002 5,955 e,913,890 1,869,022 4, ,041 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 2.2 Lineare 229 / 282
230 SPSS Output: Vorwärtsverfahren im Beispiel der Arbeitsmotivation: ANOVA Modell Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadrat summe 380, , , , , , , , , ,797 83, , ,596 66, ,960 df Mittel der Quadrate 380,968 16, ,228 8, ,081 6, ,449 4, ,919 3,493 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 f. Abhängige Variable: Y 1 ANOVA f F 23,059 32,035 31,962 40,751 39,773 Signifikanz,000 a,000 b,000 c,000 d,000 e 2.2 Lineare 230 / 282
231 SPSS Output: Vorwärtsverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell 1 (Konstante) x1 (Konstante) x1 x9 (Konstante) x1 x9 x2 (Konstante) x1 x9 x2 x8 (Konstante) x1 x9 x2 x8 x4,404,063,320,221-2,101,319,203,183-6,502,253,150,192,190-6,833,271,116,177,181,181 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 9,088 2,406 3,778,001,084 2,642,064,048 2,380,055,042,061 2,263,048,037,049,053 2,080,045,037,045,049,083 Koeffizienten a,708,560,515,558,474,279,442,350,293,327,474,271,271,311,173 4,802,024 4,983 4,580 -,883 5,776 4,862 2,979-2,873 5,286 4,101 3,908 3,589-3,285 6,076 3,147 3,903 3,706 2,193,000,981,000,000,387,000,000,007,009,000,001,001,002,004,000,005,001,001,041 95%-Konfidenzintervall für B Untergrenze 4,111,230-5,415,187,121-7,052,204,116,055-11,224,153,074,089,080-11,186,178,039,082,079,008 Obergrenze 14,064,579 5,542,454,321 2,849,433,290,310-1,781,352,226,294,301-2,479,364,193,272,283, Lineare 231 / 282
232 2.37 Das schrittweise Verfahren Rückwärts- und Vorwärtsverfahren werden kombiniert! Man führt ein Vorwärtsverfahren durch, wobei in jedem Schritt untersucht wird, ob bei Entfernen einer bereits aufgenommenen Variable das Bestimmtheitsmaß signifikant abnehmen würde. 2.2 Lineare 232 / 282
233 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation Modell 1 Aufgenommene Variablen Entfernte Variablen Methode x1. Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 2 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x9. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 3 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x2. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 4 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x8. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 5 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x4. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). a. Abhängige Variable: Y Aufgenommene/Entfernte Variablen a 2.2 Lineare 233 / 282
234 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation Modellzusammenfassung Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,708 a,501,479 4,065,501 23, ,000 2,863 b,744,721 2,973,244 20, ,000 3,906 c,820,795 2,552,076 8, ,007 4,944 d,891,869 2,039,070 12, ,002 5,955 e,913,890 1,869,022 4, ,041 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 2.2 Lineare 234 / 282
235 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation: ANOVA Modell Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadratsumme 380, , , , , , , , , ,797 83, , ,596 66, ,960 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 f. Abhängige Variable: Y df Mittel der Quadrate 380,968 16, ,228 8, ,081 6, ,449 4, ,919 3,493 ANOVA f F 23,059 32,035 31,962 40,751 39,773 Signifikanz,000 a,000 b,000 c,000 d,000 e 2.2 Lineare 235 / 282
236 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation: Koeffizienten Nicht standardisierte Koeffizienten Koeffizienten a Standardisierte Koeffizienten 95%-Konfidenzintervall für B Modell B Standardfehler Beta T Signifikanz Untergrenze Obergrenze (Konstante) x1 (Konstante) x1 x9 (Konstante) x1 9,088,404,063,320,221-2,101,319 2,406,084 2,642,064,048 2,380,055,708,560,515,558 3,778 4,802,024 4,983 4,580 -,883 5,776,001,000,981,000,000,387,000 4,111,230-5,415,187,121-7,052,204 14,064,579 5,542,454,321 2,849, Lineare x9,203,042,474 4,862,000,116,290 x2,183,061,279 2,979,007,055,310 4 (Konstante) -6,502 2,263-2,873,009-11,224-1,781 x1,253,048,442 5,286,000,153,352 x9,150,037,350 4,101,001,074,226 x2,192,049,293 3,908,001,089,294 x8,190,053,327 3,589,002,080,301 5 (Konstante) -6,833 2,080-3,285,004-11,186-2,479 x1,271,045,474 6,076,000,178,364 x9,116,037,271 3,147,005,039,193 x2,177,045,271 3,903,001,082,272 x8,181,049,311 3,706,001,079,283 x4,181,083,173 2,193,041,008,354 a. Abhängige Variable: Y 236 / 282
237 2.38 Bemerkung zu den verschiedenen Merkmalselektionsverfahren Beachte: Verschiedene Verfahren liefern verschiedene Ergebnisse (es gibt kein richtig oder falsch!) Beispiel (Arbeitsmotivation) 2.2 Lineare Rückwärtsverfahren Vorwärtsverfahren Schrittweises Verfahren Ehrgeiz Ehrgeiz Ehrgeiz Kreativität Kreativität Kreativität Hierarchie Hierarchie Hierarchie Lernpotential Anspruch Anspruch Vielfalt Vielfalt Vielfalt R 2 =.916 R 2 =.913 R 2 = / 282
238 2.2 Lineare 238 / 282
239 Nichtlineare Die (multiplen) linearen smodelle beruhen auf der Annahme, dass der Zusammenhang zwischen jeder Prädiktorvariable und der abhängigen Variablen linear ist, d. h. durch eine Gerade beschrieben werden kann. Diese Annahme muss nicht immer erfüllt sein. zwischen Variablen können im Grunde beliebige Form haben. 2.2 Lineare Man spricht in diesen Fällen von nichtlinearen n 239 / 282
240 2.39 Beispiel: Gedächtnistest Mehrere Personen machen einen Gedächtnistest 30 Ortsnamen (aus Mongolei) werden vorgegeben y(x): Anzahl der Ortsnamen, die nach x Tagen noch im Gedächtnis geblieben sind (Mittelwerte) 2.2 Lineare x y(x) / 282
241 Das Streudiagramm für die Daten aus Beispiel 2.39 (Gedächtnistest) 30,0 Anzahl der Ortsnamen 20,0 10,0 2.2 Lineare, Tage 241 / 282
242 Das Streudiagramm für die Daten aus Beispiel 2.39 (Gedächtnistest) Anzahl der Ortsnamen Lineare Tage 242 / 282
243 Lineare für die Daten aus Beispiel 2.39 (Gedächtnistest) 30,0 Anzahl der Ortsnamen 20,0 10,0 2.2 Lineare, Tage Die Gleichung der geschätzten Geraden: y = x 243 / 282
244 Lineare für die Daten aus Beispiel 2.39 (Gedächtnistest) Anzahl der Ortsnamen Lineare Tage Die Gleichung der geschätzten Geraden: y = x 244 / 282
245 Residuenanalyse bei linearer für die Daten aus Beispiel 2.39 (Gedächtnistest) 2,00000 Standardized Residual 1,00000, Lineare -1, , , ,50000,00000, , ,50000 Standardized Predicted Value 245 / 282
246 Residuenanalyse bei linearer für die Daten aus Beispiel 2.39 (Gedächtnistest) Residuals vs Fitted 2.2 Lineare Residuals Fitted values lm(y ~ x) 246 / 282
247 QQ - Plot bei linearer für die Daten aus Beispiel 2.39 (Gedächtnistest) Erwarteter Wert von Normal 1,5 1,0 0,5 0,0-0,5-1,0 Q-Q-Diagramm von Normal von Standardized Residual 2.2 Lineare -1, Beobachteter Wert 247 / 282
248 QQ - Plot bei linearer für die Daten aus Beispiel 2.39 (Gedächtnistest) Normal Q Q 2.2 Lineare Standardized residuals Theoretical Quantiles lm(y ~ x) 248 / 282
249 Beachte: Ein lineares smodell ist für die Beschreibung des Zusammenhangs ungeeignet! Quadratisches smodell Y i = b 0 + b 1 x i + b 2 x 2 i + ε i 2.2 Lineare Schätzung der Parameter mit der Methode der kleinsten Quadrate und die entsprechenden Standardfehler ˆb 0 = ˆb1 = ˆb2 = ŝ b0 = ŝ b1 = ŝ b2 = / 282
250 Konfidenzbereiche und Tests Man geht wie in 2.12 und 2.14 bzw vor. 90% Konfidenzintervall für b 2 (man beachte: das Modell hat 3 Parameter) t 10 3,0.95 = ˆb2 = ŝ b2 = [ˆb 2 t 7,0.95 ŝ b2, ˆb 2 + t 7,0.95 ŝ b2 ] = [0.2092, ] ist 90% Konfidenzintervall für b 2. Die Hypothese H 0 : b 2 = 0 wird (zum Niveau 10%) verworfen, falls ˆb 2 > t10 3,0.95 ŝ b2 gilt (im Beispiel wird also H 0 abgelehnt). Beachte: 10 3 Freiheitsgrade, da 10 Daten und 3 Parameter in der Parabelgleichung 2.2 Lineare 250 / 282
251 SPSS-Output: Schätzer für quadratische 2.2 Lineare Nicht standardisierte Koeffizienten Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta t Sig. Tage -4,876,233-2,183-20,927,000 Tage ** 2,249,021 1,257 12,055,000 (Konstante) 29,088,558 52,136, / 282
252 R-Output: Schätzer für quadratische Call : lm( formula = y x + x2) Residuals : Min 1Q Median 3Q Max Lineare Coefficients : Estimate Std. Error t value Pr ( > t ) ( Intercept ) e -10 *** x e -07 *** x e -06 *** --- Signif. codes : 0 *** ** 0.01 * / 282
253 Streudiagramm für die Daten aus Beispiel 2.39 mit der geschätzten Parabel Anzahl der Ortsnamen 30,0 20,0 Beobachtet Quadratisch 2.2 Lineare 10,0 0, Tage 253 / 282
254 Streudiagramm für die Daten aus Beispiel 2.39 mit der geschätzten Parabel Anzahl der Ortsnamen Lineare Tage 254 / 282
255 SPSS-Output: Residuenanalyse für die Daten aus Beispiel 2.39 bei quadratischer 2, Lineare Standardized Residual 1,00000, , , , ,50000,00000, , , ,00000 Standardized Predicted Value 255 / 282
256 R-Output: Residuenanalyse für die Daten aus Beispiel 2.39 bei quadratischer Residuals vs Fitted 2.2 Lineare 7 Residuals Fitted values lm(y ~ x + x2) 256 / 282
257 SPSS-Output: QQ-Plot für die Daten aus Beispiel 2.39 bei quadratischer Erwarteter Wert von Normal 1,5 1,0 0,5 0,0-0,5-1,0 Q-Q-Diagramm von Normal von Standardized Residual 2.2 Lineare -1, Beobachteter Wert 257 / 282
258 R-Output: QQ-Plot für die Daten aus Beispiel 2.39 bei quadratischer Normal Q Q 2.2 Lineare Standardized residuals Theoretical Quantiles lm(y ~ x + x2) 258 / 282
259 SPSS-Output: Histogramm für die Residuen aus Beispiel 2.39 bei quadratischer Histogramm Abhängige Variable: Anzahl der Ortsnamen 2.2 Lineare Häufigkeit 2,5 2,0 1,5 1,0 Mittelwert =3,96E-16 Std.-Abw. = 0,882 N =10 0,5 0, Standardisiertes Residuum 259 / 282
260 2.40 Polynomiale smodelle Beachte: Modelle zur polynomialen Ordnung Modell 0. Y = b 0 + ε 1. Y = b 0 + b 1 x 1 + ε 2. Y = b 0 + b 1 x 1 + b 2 x 2 + ε.. k. Y = b 0 + b 1 x 1 + b 2 x b k x k + ε In der Regel werden nur Modelle von niedrigem Grad verwendet (k 3)! Schätzung der Parameter erfolgt mit der Methode der kleinsten Quadrate. Konfidenzintervalle, Tests und Residuenanalyse werden wie bei der linearen bzw. multiplen durchgeführt (Allgemeines lineares Modell) 2.2 Lineare 260 / 282
261 2.41 Mehrdimensionale Polynome Sind mehrere Prädiktorvariablen verfügbar, so können neben Potenzen auch Produkte von zwei oder mehr Variablen in die sgleichung aufgenommen werden. Beispiele: Y (x) = b 0 + b 1 x 1 + b 2 x 2 + b 12 x 1 x 2 + ε Y (x) = b 0 + b 1 x 1 + b 2 x 2 + b 12 x 1 x 2 + b 02 x b 20 x ε 2.2 Lineare Y (x) = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 120 x 1 x 2 + b 103 x 1 x 3 + b 023 x 2 x 3 + b 123 x 1 x 2 x 3 + ε 261 / 282
262 3D-Streudiagramm mit der geschätzten Funktion Y Lineare X X Die geschätzte Funktion ist: ŷ(x) = x x x 1 x / 282
263 Y 3D-Streudiagramm mit der geschätzten Funktion Polynomiale Terme und Produkte der Prädiktoren können natürlich auch gemeinsam vorkommen. Beispiel: y(x) = b 0 + b 11 x 1 + b 12 x b 21 x 2 + b 23 x b 11;21 x 1 x 2 + ε Lineare X X Die angepasste Funktion hat die Form ŷ(x) = x x x x x 1 x / 282
264 2.2 Lineare 264 / 282
265 2.42 Beispiel: Entwicklungspsychologie Im Rahmen einer Studie in der Entwicklungspsychologie soll der Zusammenhang zwischen Abstraktionsfähigkeit (x) und sensomotorischer Koordination (y) untersucht werden. Zusätzlich wird das Alter der Kinder erhoben (z) 2.2 Lineare Insgesamt werden 15 Kinder im Alter von 6-10 Jahren untersucht. 265 / 282
266 Daten Kind Abstraktions- sensomotor. Alter fähigkeit (x) Koord. (y) (z) Lineare 266 / 282
267 Auswertung: Für den Korrelationskoeffizient von Pearson (vgl. 2.2) erhält man für die Korrelation der Variablen x (Abstraktionsfähigkeit) und y (sensomotorische Koordination) r x,y = 0.89 Obwohl der Korrelationskoeffizient sehr hoch ist, ist es in vielen Fällen sinnvoll zu untersuchen, ob dieser hohe Wert auf einen Einfluss der dritten Variablen (Alter) zurückführbar ist. In einem solchen Fall spricht man von einer Scheinkorrelation. D. h. r x,y ist zwar im mathematischen Sinn eine Korrelation, aber der gefundene Zusammenhang zwischen Abstraktionsfähigkeit und sensomotorischer Koordination ist (teilweise) durch eine dritte Variable erklärbar und kann nicht als kausal interpretiert werden. 2.2 Lineare Ziel: Berechnung einer Korrelation, die von dem Einfluss der dritten Variablen Alter bereinigt ist. = Partialkorrelation. 267 / 282
268 2.43 Partialkorrelation Modell: Daten (x i, y i, z i ) i=1,...,n. Im Beispiel ist x i die Abstraktionsfähigkeit, y i die sensomotorische Koordination und z i das Alter des i-ten Kindes Gesucht: Ein um den Einfluss der Variablen z bereinigtes Abhängigkeitsmaß zwischen den Variablen x und y Methode: Berechne die (lineare) sgerade für die Daten (x 1, z 1),..., (x n, z n): (vgl. 2.11) und die Residuen x = â 0 + â 1z x i = x i (â 0 + â 1z i) i = 1,..., n Berechne die (lineare) sgerade für die Daten (y 1, z 1),..., (y n, z n): (vgl. 2.11) und die Residuen y = ˆb 0 + ˆb 1z y i = y i (ˆb 0 + ˆb 1z i) i = 1,..., n 2.2 Lineare 268 / 282
269 Bestimme die Korrelation zwischen den Residuen (x 1, y 1 ),..., (x n, y n ) n r x,y z = r x,y = i=1 (x i n i=1 (x i Die Größe x )(y i y ) x ) 2 n i=1 (y i y ) 2 r x,y z heißt Partialkorrelation zwischen x und y, aus der das Merkmal z herauspartialisiert wurde. 2.2 Lineare Die Partialkorrelation ist also eine bivariate Korrelation zwischen sresiduen. 269 / 282
270 2.44 Bemerkung Man kann zeigen, dass gilt: r x,y r x,z r y,z r x,y z = (1 rx,z)(1 2 ry,z) 2 Dabei ist rx,y der Korrelationskoeffizient zwischen den Variablen x und y rx,z der Korrelationskoeffizient zwischen den Variablen x und z ry,z der Korrelationskoeffizient zwischen den Variablen y und z Die Partialkorrelation ist ein Maß für den linearen Zusammenhang von zwei Variablen x und y, aus dem der lineare Einfluss einer dritten Variablen z eliminiert wurde. Genauer: Die Partialkorrelation bemisst, inwieweit man aus den Vorhersagefehlern bei der linearen Prognose von x durch z die Vorhersagefehler bei der linearen Prognose von y durch z linear vorhersagen kann - und umgekehrt. Gibt es mehr als drei Variablen, so können Partialkorrelationen höherer Ordnung gebildet werden, indem die Residuen xi, yi mit Hilfe des multiplen linearen smodells (vgl. 2.23) bestimmt werden. (1) 2.2 Lineare 270 / 282
271 Beispiel (Fortsetzung von Beispiel 2.42) Lineare von x bzgl. z Lineare von y bzgl. z sresiduen x = 1.246z y = 1.420z 1.13 x y 1,06 0,61 0,57 1,77 1,32 2,35 1,32 1,35 1,07 0,93-0,19-0,81-0,43-1,23-0,68 0,35-0,43-2,23-1,19 0,19 0,07 0,93-0,94-0,39-3,92-3,07 0,07-1,07 2,32 0, Lineare 271 / 282
272 r x,y z = 0.72 Die Korrelation zwischen Abstraktionsfähigkeit und sensomotorischen Koordinationsleistungen der Kinder ist somit von 0.89 auf 0.72 gesunken. Die Differenz ist auf das Alter der Kinder zurückzuführen Beachte: Mit den Werten rx,y = 0.89 rx,z = 0.77 ry,z = Lineare kann man die Partialkorrelation r x,y z auch mit Hilfe der Formel (1) berechnen. 272 / 282
273 Signifikanztest für partielle Korrelationen Ein Test zum Niveau α für die Hypothese die Merkmale X und Y unter Z sind unkorreliert H 0 : ρ x,y.z = 0 lehnt die Nullhypothese zu Gunsten der Alternative ab, falls H 1 : ρ x,y.z 0 n 3rx,y.z 1 rx,y.z 2 > t n 3,1 α Lineare gilt. Man vergleiche diesen Test mit dem Test auf eine signifikante Korrelation zwischen zwei Merkmalen (vgl. 2.5) 273 / 282
274 Partielle Korrelationen in SPSS Kontrollvariablen Alter Abstraktionsfähigkeit sensomotorische Koordination Korrelationen Korrelation Signifikanz (zweiseitig) Freiheitsgrade Korrelation Signifikanz (zweiseitig) Freiheitsgrade Abstraktions fähigkeit 1,000. 0,722, sensomotorische Koordination,722, , Lineare 274 / 282
275 Partielle Korrelationen in R $estimate x y z x y z Lineare $p. value x y z x y z $statistic x y z x / 282
276 2.45 Semipartialkorrelationen Wird die dritte Variable z nur aus einer Variablen (z.b. x) herauspartialisiert, so spricht man von einer Semipartialkorrelation. Man berechnet die (lineare) sgerade für die Daten (x 1, z 1 ),..., (x n, z n ): x = â 0 + â 1 z und betrachtet die Vorhersagefehler x i = x i â 0 â 1 z i 2.2 Lineare Dann bestimmt man die Korrelation zwischen (x1, y 1),..., (xn, y n ): n i=1 r y(x z) = r x,y = (x i x )(y i y ) n i=1 (x i x ) 2 n i=1 (y i y ) / 282
277 Alternative Darstellung für die Semipartialkorrelationen Man kann zeigen dass gilt: Dabei ist r y(x z) = r x,y r x,z r y,z 1 rx,z 2 rx,y der Korrelationskoeffizient zwischen den Variablen x und y rx,z der Korrelationskoeffizient zwischen den Variablen x und z ry,z der Korrelationskoeffizient zwischen den Variablen y und z Bemerkung: Die Semipartialkorrelation bemisst, inwieweit man aus den Vorhersagefehlern bei der linearen Prognose von x durch z die Werte von y linear vorhersagen kann. Die quadrierte Semipartialkorrelation ist der Anteil der Varianz von y, der durch die Variable x zusätzlich zu der Variablen z erklärt werden kann. Die Semipartialkorrelation ist immer kleiner als die Partialkorrelation. (2) 2.2 Lineare 277 / 282
278 Berechnung der Semipartialkorrelationen in Beispiel 2.42 Lineare von x bzgl. z x = 1.246z sresiduen und Beobachtungen x y 1,06 8 0, , , , ,19 8-0,43 9-0, ,43 8-1,19 9 0, ,94 7-3, , , Lineare 278 / 282
279 r y(x z) = 0.43 Die Korrelation zwischen Abstraktionsfähigkeit und sensomotorischen Koordinationsleistungen der Kinder ist somit von 0.89 auf 0.43 gesunken. Die Differenz ist auf das Alter der Kinder zurückzuführen. Beachte: Mit den Werten rx,y = 0.89 rx,z = 0.77 ry,z = Lineare kann man die Semipartialkorrelation r y(x z) auch mit Hilfe der Formel (2) berechnen. 279 / 282
280 Semipartialkorrelationen in SPSS Die Semipartialkorrelationen (in SPSS heißen diese Teil-Korrelationen) werden (auf Wunsch) als Ergänzung zu den Kleinsten Quadrate-Schätzungen im multiplen linearen smodell (vgl. 2.23) ausgegeben. Signifikanztest für die Semipartialkorrelationen fehlen. Modell 1 (Konstante) Alter Abstraktionsfähigkeit Nicht standardisierte Koeffizienten Standardisierte Koeffizienten s koeffizientb Standardfehler Beta T Sig. -1,469 1,795 -,818,429,510,730 Koeffizienten a a. Abhängige Variable: sensomotorische Koordination,328,202,289,671 1,555 3,615,146, Lineare Koeffizienten a Modell 1 Korrelationen Nullter Ordnung Partiell Alter Abstraktionsfähigkeit,803,892,410,722 a. Abhängige Variable: sensomotorische Koordination Teil,185, / 282
281 Semipartialkorrelationen in R Call : lm( formula = y x + z) Residuals : Min 1Q Median 3Q Max Lineare Coefficients : Estimate Std. Error t value Pr ( > t ) ( Intercept ) x ** z Signif. codes : 0 *** ** 0.01 * / 282
282 Bemerkung: Ob ein Partial- oder Semipartialkorrelationskoeffizient zur Beschreibung eines Zusammenhangs gewählt wird, hängt von theoretischen Überlegungen ab: Beeinflusst eine dritte Variable (z) ursächlich beide Variablen x und y Partialkorrelation Wird der Zusammenhang zwischen den Variablen x und y durch die dritte Variable z vermittelt (z ist mit y korreliert und beeinflusst x) Semipartialkorrelation 2.2 Lineare 282 / 282
7. Mai 2010. Ruhr-Universität Bochum. Methodenlehre II, SS 2009. Prof. Dr. Holger Dette
Ruhr-Universität Bochum 7. Mai 2010 1 / 95 Methodenlehre II NA 3/73 Telefon: 0234 322 8284 Email: [email protected] Internet: www.ruhr-uni-bochum.de/mathematik3/index.html Vorlesung: Montag, 8.30-10.00
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
Mathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 9. Dezember 2010 1 Konfidenzintervalle Idee Schätzung eines Konfidenzintervalls mit der 3-sigma-Regel Grundlagen
1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest.
Statistik II Übung 3: Hypothesentests Diese Übung beschäftigt sich mit der Anwendung diverser Hypothesentests (zum Beispiel zum Vergleich der Mittelwerte und Verteilungen zweier Stichproben). Verwenden
Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de
rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent
Schließende Statistik
Schließende Statistik Die schließende Statistik befasst sich mit dem Rückschluss von einer Stichprobe auf die Grundgesamtheit (Population). Die Stichprobe muss repräsentativ für die Grundgesamtheit sein.
Statistische Tests für unbekannte Parameter
Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung
Eine Einführung in R: Statistische Tests
Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws11/r-kurs/
Dipl.-Volksw. Markus Pullen Wintersemester 2012/13
Statistische Auswertungen mit R Universität Kassel, FB 07 Wirtschaftswissenschaften Dipl.-Volksw. Markus Pullen Wintersemester 2012/13 Beispiele 8. Sitzung Konfidenzintervalle, Hypothesentests > # Anwendungsbeispiel
Kapitel 10 Mittelwert-Tests Einstichproben-Mittelwert-Tests 10.2 Zweistichproben Mittelwert-Tests
Kapitel 10 Mittelwert-Tests 10.1 Einstichproben-Mittelwert-Tests 10.2 Zweistichproben Mittelwert-Tests 10.1 Einstichproben- Mittelwert-Tests 10.1.1 Einstichproben- Gauß-Test Dichtefunktion der Standard-Normalverteilung
Analyse von Querschnittsdaten. Signifikanztests I Basics
Analyse von Querschnittsdaten Signifikanztests I Basics Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004
Biostatistik, Winter 2011/12
Biostatistik, Winter 2011/12 / Übungsaufgaben Prof. Dr. Achim Klenke http://www.aklenke.de 13. Vorlesung: 10.02.2012 1/51 Aufgabe 1 Aufgabenstellung Übungsaufgaben Ein Pharmakonzern möchte ein neues Schlankheitsmedikament
Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.
Aufgabenblock 4 Aufgabe ) Da s = 8. cm nur eine Schätzung für die Streuung der Population ist, müssen wir den geschätzten Standardfehler verwenden. Dieser berechnet sich als n s s 8. ˆ = = =.88. ( n )
Kapitel 3 Schließende Statistik
Beispiel 3.4: (Fortsetzung Bsp. 3.) bekannt: 65 i=1 X i = 6, also ˆp = X = 6 65 = 0, 4 Überprüfen der Voraussetzungen: (1) n = 65 30 () n ˆp = 6 10 (3) n (1 ˆp) = 39 10 Dr. Karsten Webel 194 Beispiel 3.4:
Einfache Varianzanalyse für unabhängige Stichproben
Einfache Varianzanalyse für unabhängige Stichproben VARIANZANALYSE Die Varianzanalyse ist das dem t-test entsprechende Mittel zum Vergleich mehrerer (k 2) Stichprobenmittelwerte. Sie wird hier mit VA abgekürzt,
Lösungen zu den Übungsaufgaben in Kapitel 10
Lösungen zu den Übungsaufgaben in Kapitel 10 (1) In einer Stichprobe mit n = 10 Personen werden für X folgende Werte beobachtet: {9; 96; 96; 106; 11; 114; 114; 118; 13; 14}. Sie gehen davon aus, dass Mittelwert
Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests
ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen
2. Korrelation, lineare Regression und multiple Regression
multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig
Übungsaufgaben zu Statistik II
Übungsaufgaben zu Statistik II Prof. Dr. Irene Prof. Dr. Albrecht Ungerer Die Kapitel beziehen sich auf das Buch: /Ungerer (2016): Statistik für Wirtschaftswissenschaftler Springer Gabler 4 Übungsaufgaben
Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007
Mathematik IV für Maschinenbau und Informatik Stochastik Universität Rostock, Institut für Mathematik Sommersemester 007 Prof. Dr. F. Liese Dipl.-Math. M. Helwich Serie Termin: 9. Juni 007 Aufgabe 3 Punkte
Statistische Tests zu ausgewählten Problemen
Einführung in die statistische Testtheorie Statistische Tests zu ausgewählten Problemen Teil 4: Nichtparametrische Tests Statistische Testtheorie IV Einführung Beschränkung auf nichtparametrische Testverfahren
Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe
Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,
Jost Reinecke. 7. Juni 2005
Universität Bielefeld 7. Juni 2005 Testtheorie Test für unabhängige Stichproben Test für abhängige Stichproben Testtheorie Die Testtheorie beinhaltet eine Reihe von Testverfahren, die sich mit der Überprüfung
ANalysis Of VAriance (ANOVA) 2/2
ANalysis Of VAriance (ANOVA) 2/2 Markus Kalisch 22.10.2014 1 Wdh: ANOVA - Idee ANOVA 1: Zwei Medikamente zur Blutdrucksenkung und Placebo (Faktor X). Gibt es einen sign. Unterschied in der Wirkung (kontinuierlich
THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ
WEBINAR@LUNCHTIME THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ EINLEITENDES BEISPIEL SAT: Standardisierter Test, der von Studienplatzbewerbern an amerikanischen Unis gefordert
Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell
Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften
Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)
Statistik I Sommersemester 2009 Statistik I I (1/36) Wiederholung Grenzwertsatz Konfidenzintervalle Logik des 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 Statistik I I (2/36) Zum Nachlesen Agresti/Finlay: Kapitel 6+7
3. Das Prüfen von Hypothesen. Hypothese?! Stichprobe Signifikanztests in der Wirtschaft
3. Das Prüfen von Hypothesen Hypothese?! Stichprobe 3.1. Signifikanztests in der Wirtschaft Prüfung, ob eine (theoretische) Hypothese über die Verteilung eines Merkmals X und ihre Parameter mit einer (empirischen)
Mathematische und statistische Methoden II
Statistik & Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte
Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO
Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung
Grundlagen der Statistik
Grundlagen der Statistik Übung 15 009 FernUniversität in Hagen Alle Rechte vorbehalten Fachbereich Wirtschaftswissenschaft Übersicht über die mit den Übungsaufgaben geprüften Lehrzielgruppen Lehrzielgruppe
Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten
Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 4.1 4. Statistische Entscheidungsverfahren Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten Beispiel:
Statistischer Rückschluss und Testen von Hypothesen
Statistischer Rückschluss und Testen von Hypothesen Statistischer Rückschluss Lerne von der Stichprobe über Verhältnisse in der Grundgesamtheit Grundgesamtheit Statistischer Rückschluss lerne aus Analyse
Klausur zu Statistik II
GOETHE-UNIVERSITÄT FRANKFURT FB Wirtschaftswissenschaften Statistik und Methoden der Ökonometrie Prof. Dr. Uwe Hassler Wintersemester 03/04 Klausur zu Statistik II Matrikelnummer: Hinweise Hilfsmittel
Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren
Hypothesenprüfung Teil der Inferenzstatistik Befaßt sich mit der Frage, wie Hypothesen über eine (in der Regel unbekannte) Grundgesamtheit an einer Stichprobe überprüft werden können Behandelt werden drei
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen
Inhaltsverzeichnis. 2 Kurzbeschreibung von SPSS Der SPSS-Dateneditor Statistische Analysen mit SPSS DieDaten...
Inhaltsverzeichnis Teil I Einführung 1 Kleine Einführung in R... 3 1.1 Installieren und Starten von R... 3 1.2 R-Befehleausführen... 3 1.3 R-Workspace speichern... 4 1.4 R-History sichern........ 4 1.5
Willkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Punkt- und Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr.
Statistik für Ökonomen
Wolfgang Kohn Riza Öztürk Statistik für Ökonomen Datenanalyse mit R und SPSS 2., überarbeitete Auflage 4ü Springer Gabler Inhaltsverzeichnis Teil I Einführung 1 Kleine Einführung in R '! 3 1.1 Installieren
Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen
Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen Induktive Statistik Prof. Dr. W.-D. Heller
8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)
8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme) Annahme B4: Die Störgrößen u i sind normalverteilt, d.h. u i N(0, σ 2 ) Beispiel: [I] Neoklassisches Solow-Wachstumsmodell Annahme einer
Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade
Version 2015 Formelsammlung für das Modul Statistik 2 Bachelor Sven Garbade Prof. Dr. phil. Dipl.-Psych. Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg [email protected]
Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden
Inhaltsverzeichnis Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3 Warum Statistik? 3 Checkpoints 4 Daten 4 Checkpoints 7 Skalen - lebenslang wichtig bei der Datenanalyse
1 Dichte- und Verteilungsfunktion
Tutorium Yannick Schrör Klausurvorbereitungsaufgaben Statistik Lösungen [email protected] 9.2.26 ID /455 Dichte- und Verteilungsfunktion Ein tüchtiger Professor lässt jährlich 2 Bücher drucken. Die
Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1
Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester 2013 Aufgabe 1 In einer Urne
10. Die Normalverteilungsannahme
10. Die Normalverteilungsannahme Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Bisher haben wir vorausgesetzt, daß die Beobachtungswerte normalverteilt sind. In diesem Fall kann man
Inhaltsverzeichnis. Teil I Einführung
Inhaltsverzeichnis Teil I Einführung 1 Statistik-Programme... 1.1 Kleine Einführung in R... 1.1.1 Installieren und Starten von R. 1.1.2 R-Konsole... 1.1.3 R-Workspace... 1.1.4 R-History... 1.1.5 R-Skripteditor...
Tests einzelner linearer Hypothesen I
4 Multiple lineare Regression Tests einzelner linearer Hypothesen 4.5 Tests einzelner linearer Hypothesen I Neben Tests für einzelne Regressionsparameter sind auch Tests (und Konfidenzintervalle) für Linearkombinationen
Allgemeines zu Tests. Statistische Hypothesentests
Statistische Hypothesentests Allgemeines zu Tests Allgemeines Tests in normalverteilten Grundgesamtheiten Asymptotische Tests Statistischer Test: Verfahren Entscheidungsregel), mit dem auf Basis einer
Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1
Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1 Aufgabe 1 (10 Punkte). 10 Schüler der zehnten Klasse unterziehen sich zur Vorbereitung auf die Abschlussprüfung einem Mathematiktrainingsprogramm.
11. Nichtparametrische Tests
11. Nichtparametrische Tests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 In Kapitel 8 und 9 haben wir vorausgesetzt, daß die Beobachtungswerte normalverteilt sind. In diesem Fall kann
8. Konfidenzintervalle und Hypothesentests
8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars
Prüfgröße: Ist die durch eine Schätzfunktion zugeordnete reelle Zahl (etwa Mittelwert 7 C).
Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Aus praktischen Gründen
Zufallsvariablen [random variable]
Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden
3 Konfidenzintervalle
3 Konfidenzintervalle Konfidenzintervalle sind das Ergebnis von Intervallschätzungen. Sicheres Wissen über Grundgesamtheiten kann man anhand von Stichproben nicht gewinnen. Aber mit Hilfe der Statistik
Statistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Kurze Zusammenfassung der letzten Vorlesung Schätzung und Modellentwicklung Überblick Statistische Signifikanztests
10 Der statistische Test
10 Der statistische Test 10.1 Was soll ein statistischer Test? 10.2 Nullhypothese und Alternativen 10.3 Fehler 1. und 2. Art 10.4 Parametrische und nichtparametrische Tests 10.1 Was soll ein statistischer
Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010
1.8 Kolmogorov-Smirnov-Test auf Normalverteilung
1.8 Kolmogorov-Smirnov-Test auf Normalverteilung Der Kolmogorov-Smirnov-Test ist einer der klassischen Tests zum Überprüfen von Verteilungsvoraussetzungen. Der Test vergleicht die Abweichungen der empirischen
Statistik II Übung 1: Einfache lineare Regression
Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der
Einführung in die Induktive Statistik: Testen von Hypothesen
Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte
4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)
4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 4.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte
2.1 Einführung in das Testen von Hypothesen
2.1 Einführung in das Testen von Hypothesen 1 Gliederung 2.1 Einführung in das Testen von Hypothesen 2.1.1 Typische Fragestellungen 2.1.2 Mittelwertvergleich 2.1.2.1 Einstichprobenproblem 2.1.2.2 Zweistichprobenproblem
Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test
1/29 Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) Matthias Birkner http://www.staff.uni-mainz.de/birkner/biostatistik1516/ 11.12.2015 2/29 Inhalt 1 t-test
3. Das einfache lineare Regressionsmodell
3. Das einfache lineare Regressionsmodell Ökonometrie: (I) Anwendung statistischer Methoden in der empirischen Forschung in den Wirtschaftswissenschaften Konfrontation ökonomischer Theorien mit Fakten
Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5
Inhaltsverzeichnis Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite 1.0 Erste Begriffsbildungen 1 1.1 Merkmale und Skalen 5 1.2 Von der Urliste zu Häufigkeitsverteilungen 9 1.2.0 Erste Ordnung
Chi-Quadrat Verfahren
Chi-Quadrat Verfahren Chi-Quadrat Verfahren werden bei nominalskalierten Daten verwendet. Die einzige Information, die wir bei Nominalskalenniveau zur Verfügung haben, sind Häufigkeiten. Die Quintessenz
Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz
Grundlage: Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz Die Testvariable T = X µ 0 S/ n genügt der t-verteilung mit n 1 Freiheitsgraden. Auf der Basis
Statistik II. Statistische Tests. Statistik II
Statistik II Statistische Tests Statistik II - 12.5.2006 1 Test auf Anteilswert: Binomialtest Sei eine Stichprobe unabhängig, identisch verteilter ZV (i.i.d.). Teile diese Stichprobe in zwei Teilmengen
11 Tests zur Überprüfung von Mittelwertsunterschieden
11 Tests zur Überprüfung von Mittelwertsunterschieden 11.1 Der z Test (t Test) für verbundene Stichproben 11.2 Der z Test (t Test) für unabhängige Stichproben 11.3 Fehler 1. Art und 2. Art 11.4 Typische
Klausur Statistik I. Dr. Andreas Voß Wintersemester 2005/06
Klausur Statistik I Dr. Andreas Voß Wintersemester 2005/06 Hiermit versichere ich, dass ich an der Universität Freiburg mit dem Hauptfach Psychologie eingeschrieben bin. Name: Mat.Nr.: Unterschrift: Bearbeitungshinweise:
Biostatistik Erne Einfuhrung fur Biowissenschaftler
Matthias Rudolf Wiltrud Kuhlisch Biostatistik Erne Einfuhrung fur Biowissenschaftler PEARSON Studium Inhaltsverzeichnis Vorwort xi Kapitel 1 Einfiihrung 1 1.1 Biostatistik als Bestandteil biowissenschafllicher
Einführung in Quantitative Methoden
Einführung in Quantitative Methoden Pantelis Christodoulides & Karin Waldherr 4. Juni 2014 Christodoulides / Waldherr Einführung in Quantitative Methoden 1/35 Ein- und Zweiseitige Hypothesen H 0 : p =
Hypothesentests mit SPSS. Beispiel für einen t-test
Beispiel für einen t-test Daten: museum-f-v04.sav Hypothese: Als Gründe, in ein Museum zu gehen, geben mehr Frauen als Männer die Erweiterung der Bildung für Kinder an. Dies hängt mit der Geschlechtsrolle
Übungen mit dem Applet Vergleich von zwei Mittelwerten
Vergleich von zwei Mittelwerten 1 Übungen mit dem Applet Vergleich von zwei Mittelwerten 1 Statistischer Hintergrund... 2 1.1 Typische Fragestellungen...2 1.2 Fehler 1. und 2. Art...2 1.3 Kurzbeschreibung
Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen
Zusammenfassung Mathe II Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen Zufallsexperiment: Ein Vorgang, bei dem mindestens zwei Ereignisse möglich sind
1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...
Inhaltsverzeichnis 0 Einführung 1 1 Zufallsvorgänge und Wahrscheinlichkeiten 5 1.1 Zufallsvorgänge.......................... 5 1.1.1 Ergebnismengen..................... 6 1.1.2 Ereignisse und ihre Verknüpfung............
e) Beim klassischen Signifikanztest muß die Verteilung der Prüfgröße unter der Nullhypothese
9 Hypothesentests 1 Kapitel 9: Hypothesentests A: Übungsaufgaben: [ 1 ] Bei Entscheidungen über das Ablehnen oder Nichtablehnen von Hypothesen kann es zu Irrtümern kommen. Mit α bezeichnet man dabei die
Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1
Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester 2010 Aufgabe 1 Die Inhaberin
Test auf den Erwartungswert
Test auf den Erwartungswert Wir interessieren uns für den Erwartungswert µ einer metrischen Zufallsgröße. Beispiele: Alter, Einkommen, Körpergröße, Scorewert... Wir können einseitige oder zweiseitige Hypothesen
Mathematische und statistische Methoden II
Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike [email protected]
Aussagen hierzu sind mit einer unvermeidbaren Unsicherheit behaftet, die statistisch über eine Irrtumswahrscheinlichkeit bewertet wird.
Stichprobenumfang Für die Fragestellung auf Gleichheit von ein oder zwei Stichproben wird auf Basis von Hypothesentests der notwendige Stichprobenumfang bestimmt. Deshalb werden zunächst die Grundlagen
Grundlegende Eigenschaften von Punktschätzern
Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur
SPSS V Gruppenvergleiche ( 2 Gruppen) abhängige (verbundene) Stichproben
SPSS V Gruppenvergleiche ( 2 Gruppen) abhängige (verbundene) Stichproben ÜBERSICHT: Testverfahren bei abhängigen (verbundenen) Stichproben parametrisch nicht-parametrisch 2 Gruppen t-test bei verbundenen
Ablaufschema beim Testen
Ablaufschema beim Testen Schritt 1 Schritt 2 Schritt 3 Schritt 4 Schritt 5 Schritt 6 Schritt 7 Schritt 8 Schritt 9 Starten Sie die : Flashanimation ' Animation Ablaufschema Testen ' siehe Online-Version
Beurteilende Statistik
Beurteilende Statistik Wahrscheinlichkeitsrechnung und Beurteilende Statistik was ist der Unterschied zwischen den beiden Bereichen? In der Wahrscheinlichkeitstheorie werden aus gegebenen Wahrscheinlichkeiten
Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg
Übungsklausur Lineare le Prof. Dr. H. Toutenburg Aufgabe Ein lineares Regressionsmodell mit der abhängigen Variablen Körpergröße und der unabhängigen Variablen Geschlecht wurde einmal mit der dummykodierten
Testen von Hypothesen:
Testen von Hypothesen: Ein Beispiel: Eine Firma produziert Reifen. In der Entwicklungsabteilung wurde ein neues Modell entwickelt, das wesentlich ruhiger läuft. Vor der Markteinführung muss aber auch noch
Willkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Mittelwertvergleiche Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften
Prüfen von Mittelwertsunterschieden: t-test
Prüfen von Mittelwertsunterschieden: t-test Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg [email protected] Statistik 1 S. Garbade (SRH Heidelberg) t-test
Inhaltsverzeichnis. Vorwort
V Vorwort XI 1 Zum Gebrauch dieses Buches 1 1.1 Einführung 1 1.2 Der Text in den Kapiteln 1 1.3 Was Sie bei auftretenden Problemen tun sollten 2 1.4 Wichtig zu wissen 3 1.5 Zahlenbeispiele im Text 3 1.6
Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1
Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester 2009 Aufgabe 1 Nach dem von
STATISTIK Teil 2 Wahrscheinlichkeitsrechnung und schließende Statistik
Kapitel 15 Statistische Testverfahren 15.1. Arten statistischer Test Klassifikation von Stichproben-Tests Einstichproben-Test Zweistichproben-Test - nach der Anzahl der Stichproben - in Abhängigkeit von
I. Deskriptive Statistik 1
I. Deskriptive Statistik 1 1. Einführung 3 1.1. Grundgesamtheit und Stichprobe.................. 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................
Unterschiedshypothesen Vergleiche von Häufigkeiten bzw. Mittelwerten zwischen (mindestens) zwei Gruppen Zusammenhangshypothesen Korrelationsanalysen
Statistische Überprüfung von Hypothesen Hypothesen sind allgemeine Aussagen über Zusammenhänge zwischen empirischen und logischen Sachverhalten.Allgemein bezeichnet man diejenigen Aussagen als Hypothesen,
Vertiefung der. Wirtschaftsmathematik. und Statistik (Teil Statistik)
Selbstkontrollarbeit 1 Vertiefung der Wirtschaftsmathematik und Statistik (Teil Statistik) 18. Januar 2011 Aufgaben Aufgabe 1 Gegeben sei eine binomialverteilte Zufallsvariablen X mit den Parametern N
