Statistik 2 für SoziologInnen Modelle diskreter Zufallsvariablen Univ.Prof. Dr. Marcus Hudec
Zufallsvariable Eine Variable (Merkmal) X, deren numerische Werte als Ergebnisse eines Zufallsvorgangs aufgefasst werden können, bezeichnet man als Zufallsvariable. Die Zahl x den X annimmt nennen wir die Realisierung von X. Diskrete Zufallsvariable: X kann nur endlich oder abzählbar unendlich viele unterschiedliche Werte annehmen. Modelle diskreter Zufallsvariablen beschreiben in Abhängigkeit von einem oder mehreren Parametern typische Situationen, die zu Werten von diskreten ZV führen. 2 Statistik 2 - Modelle diskreter Zufallsvariablen
Zufallsvariable Beispiel: In einer empirischen Untersuchung interessieren wir uns für die Haushaltsgröße (Anzahl der Personen pro Haushalt). Dazu ziehen wir eine Zufallsstichprobe aus der Grundgesamtheit aller Haushalte und erheben für die Stichprobe das interessierende Merkmal. Da die Auswahl der Haushalte zufällig erfolgt, können wir die Beobachtungen des Merkmals Haushaltsgröße als Realisierung einer Zufallsvariable auffassen. 3 Statistik 2 - Modelle diskreter Zufallsvariablen
Binomialverteilung Jakob Bernoulli (1654-1705) Ars Conjectandi Klassisches Verteilungsmodell für die Berechnung der Wahrscheinlichkeit für die Häufigkeit des Eintretens von Ereignissen in bestimmten noch näher zu charakterisierenden Situationen Situationen: Fixe Anzahl von unabhängigen Wiederholungen eines Zufallsexperiments mit genau 2 möglichen Ausgängen 4 Statistik 2 - Modelle diskreter Zufallsvariablen
Ausgangspunkt: Bernoulli-Versuch Zufallsexperiment mit 2 möglichen Ausgängen Münzwurf: Kopf - Adler Geburt: Mädchen - Knabe Allgemein: Erfolg - Misserfolg Erfolgswahrscheinlichkeit: Wahrscheinlichkeit für Misserfolg: Von Interesse ist die Zufallsvariable X X {0, 1}, p q=1-p wobei 1 bedeutet, dass ein Erfolg vorliegt und 0, dass ein Misserfolg vorliegt 5 Statistik 2 - Modelle diskreter Zufallsvariablen
Bernoulli-Versuch X Prob X² X Prob(X) X² Prob(X) 0 1-p 0 0 0 1 p 1 p p EX ( ) i xp i i E(X)=p E(X²)=p p V(X)=E(X²)-E(X)² = p-p² = p(1-p) 6 Statistik 2 - Modelle diskreter Zufallsvariablen p
Bernoulli-Versuch (Beispiel) Würfeln eines 6-ers X Prob(X=x) X² X Prob(X=x) X² Prob(X=x) 0 5/6 0 0 0 1 1/6 1 1/6 1/6 1/6 1/6 V(X) = E(X²) - E(X)² E(X)=1/6 V(X)=1/6-1/36 = 5/36=1/6*5/6 7 Statistik 2 - Modelle diskreter Zufallsvariablen
Bernoulli-Versuch (Beispiel) Würfeln einer geraden Augenzahl X Prob(X=x) X² X Prob(X=x) X² Prob(X=x) 0 3/6 0 0 0 1 3/6 1 3/6 3/6 In diesem Fall ist die Unsicherheit über das 3/6 3/6 Ergebnis des nächsten Wurfs größer als zuvor, was sich in der größeren Varianz ausdrückt E(X)=3/6 V(X)=3/6-9/36 = 9/36=3/6*3/6 8 Statistik 2 - Modelle diskreter Zufallsvariablen
Binomial-Experiment Ein Binomial-Experiment besteht aus einer Folge von Bernoulli-Experimenten, wobei folgende 4 Bedingungen gelten müssen: fixe vorgegebene Anzahl von Versuchen bei jedem einzelnen Versuch gibt es nur 2 mögliche Ausgänge "Erfolg" - "Misserfolg" alle Versuche haben eine konstante Erfolgswahrscheinlichkeit (p) die einzelnen Versuche müssen voneinander unabhängig erfolgen 9 Statistik 2 - Modelle diskreter Zufallsvariablen
Beispiel zur Binomialverteilung 3 unabhängige Würfelwürfe Erfolg (E): 6-er p=1/6 Misserfolg (M): 1,...,5 q=1-p=5/6 Bei jedem einzelnen Wurf 2 Ausgänge Der Ereignisraum von 3 Würfen umfasst daher 2³=8 mögliche Ereignisse X... Anzahl der Erfolge X {0, 1, 2, 3} 10 Statistik 2 - Modelle diskreter Zufallsvariablen
Struktur des Stichprobenraums Ergebnis X (Anzahl Erfolge) Prob.. MMM 0 q³ (5/6)³ = 0,58 MME 1 pq² 1/6*(5/6)² = 0,12 MEM 1 pq² 1/6*(5/6)² = 0,12 EMM 1 pq² 1/6*(5/6)² = 0,12 MEE 2 p²q (1/6)²*5/6 = 0,02 EME 2 p²q (1/6)²*5/6 = 0,02 EEM 2 p²q (1/6)²*5/6 = 0,02 EEE 3 p³ (1/6)³ = 0,004 11 Statistik 2 - Modelle diskreter Zufallsvariablen
Struktur des Stichprobenraums Ergebnis X (Anzahl Erfolge) Prob.. MMM 0 q³ (5/6)³ = 0,5787 MME 1 pq² 1/6*(5/6)² = 0,1157 MEM 1 pq² 1/6*(5/6)² = 0,1157 EMM 1 pq² 1/6*(5/6)² = 0,1157 MEE 2 p²q (1/6)²*5/6 = 0,0231 EME 2 p²q (1/6)²*5/6 = 0,0231 EEM 2 p²q (1/6)²*5/6 = 0,0231 EEE 3 p³ (1/6)³ = 0,0046 12 Statistik 2 - Modelle diskreter Zufallsvariablen
Wahrscheinlichkeitsfunktion von X X=x Prob Beispiel 0 1*p 0* q³ 0,5787 1 3*p*q² 0,3472 2 3*p²*q 1 0,0694 3 1*p³*q 0 0,0046 Formel: PX x x p x q x ( ), x,,, 3 3 0123 mögliche Anordnungen der x Erfolge bei 3 Versuchen Wahrscheinlichkeit der x Erfolge Wahrscheinlichkeit der 3-x Misserfolge 13 Statistik 2 - Modelle diskreter Zufallsvariablen
Binomialverteilung Allgemein n- Versuche Die Zufallsvariable X heißt binomialverteilt mit den Parametern n (fixe Anzahl der Versuche) und p (konstante Erfolgswahrscheinlichkeit) X ~ B(n,p), wenn ihre Wahrscheinlichkeitsfunktion durch folgende Formel bestimmt ist: n PX x x p x q n x ( ), x,,, n, 01 1 n 14 Statistik 2 - Modelle diskreter Zufallsvariablen
Wahrscheinlichkeitsfunktion Wahrscheinlichkeit 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Anzahl der 6-er 3-facher Wurf 15 Statistik 2 - Modelle diskreter Zufallsvariablen
Verteilungsfunktion von X Wahrscheinlichkeitsfunktion Verteilungsfunktion X Prob(X=x) Prob(X x) 0 0,579 0,579 1 0,347 0,926 2 0,069 0,995 3 0,005 1,000 16 Statistik 2 - Modelle diskreter Zufallsvariablen
17 Verteilungsfunktion 0 1 2 3 Anzahl der 6-er Statistik 2 - Modelle diskreter Zufallsvariablen kumulierte Wahrscheinlichkeit 0.0 0.2 0.4 0.6 0.8 1.0
Vergleich mit empirischen Daten X=x n i 0 179 1 298 2 141 3 30 648 3-fach Würfe Eine Gruppe von Schülern wurde gebeten, immer wieder 3 Würfel zu werfen und die Ergebnisse in Bezug auf die Zahl der aufgetretenen Sechser aufzuzeichnen Stimmen die Beobachtungen mit dem theoretischen Modell überein? 18 Statistik 2 - Modelle diskreter Zufallsvariablen
Vergleich mit empirischen Daten X=x Prob(X=x) n i h i e i 0 0,579 179 0,28 375 1 0,347 298 0,46 225 2 0,069 141 0,22 45 3 0,005 30 0,05 3 648 648 beobachtete Häufigkeiten "observed" erwartete (theoretische) Häufigkeiten "expected n*prob(x=x) Offensichtlich besteht eine deutliche Diskrepanz zwischen theoretisch erwarteten Häufigkeiten und den empirischen Daten 19 Statistik 2 - Modelle diskreter Zufallsvariablen
Erwartungswert & Varianz X~B(n, p) X ergibt sich laut Definition als Summe von n unabhängigen Bernoulli Zufallsvariablen X i welche jede die Werte 0 oder 1 annehmen kann X n i 1 X i n n EX E X EX n p i i ( ) i 1 i 1 n n VX V X VX i i n p p ( ) ( 1 ) i 1 i 1 Unabhängigkeit 20 Statistik 2 - Modelle diskreter Zufallsvariablen
Interaktive Demonstration zur Binomial-Verteilung p1= 0,5 p2= 0,50 0,3000 5 n= 10 Anzahl Erfolge Bi(n, p1) Bi(n, p2) 0 0,0010 0,0010 1 0,0098 0,0098 2 0,0439 0,0439 3 0,1172 0,1172 4 0,2051 0,2051 5 0,2461 0,2461 6 0,2051 0,2051 7 0,1172 0,1172 8 0,0439 0,0439 9 0,0098 0,0098 10 0,0010 0,0010 1 1 0,2500 0,2000 0,1500 0,1000 0,0500 E(X) 5 5 Var(X) 2,50 2,50 0,0000 0 1 2 3 4 5 6 7 8 9 10 21 Statistik 2 - Modelle diskreter Zufallsvariablen
Beispiel: Urnenmodell In einer Urne befinden sich nur rote und schwarze Kugeln Der Anteil der roten Kugeln sei 0,25, der der schwarzen Kugeln sei 0,75 Beim Ziehen mit Zurücklegen bleibt die Wahrscheinlichkeit des Ziehens einer roten Kugel (Erfolg) konstant p=0,25. Wir ziehen n=4 Kugeln Der Erwartungswert für die Anzahl roter Kugeln ist: n*p = 4*0,25 = 1. Cave: d.h. absolut nicht, dass wir mit Sicherheit eine rote Kugel ziehen 22 Statistik 2 - Modelle diskreter Zufallsvariablen
Wahrscheinlichkeitsfunktion von X X=x Prob(X=x) X.Prob(X=x) 0 0,316 1*0,25 0 *0,75 4 0,000 1 0,422 4*0,25 1 *0,75³ 0,422 2 0,211 6*0,25²*0,75² 0,422 3 0,047 4*0,25³*0,75 1 0,141 4 0,004 1*0,25 4 *0,75 0 0,015 E(X) = 1,000 Prob(X 1)=0,684 V(X) = n*p*(1-p)=4*0,25*0,75=0,75 Standardabw: = 0,87 23 Statistik 2 - Modelle diskreter Zufallsvariablen
4 Ziehungen mit Zurücklegen p=1/4 Wahrscheinlichkeit 0.0 0.1 0.2 0.3 0.4 0 1 2 3 4 24 Anzahl roter Kugeln Statistik 2 - Modelle diskreter Zufallsvariablen
Anwendung in der Umfrageforschung Unterschiedliche Stichprobenverteilungen (n=20) in Abhängigkeit vom Anteil in der Grundgesamtheit 0,20000 0,18000 0,16000 0,14000 0,12000 0,10000 0,08000 0,06000 0,04000 0,02000 0,00000 0 =0,50 2 4 6 8 10 12 14 16 18 20 0,20000 0,18000 0,16000 0,14000 0,12000 0,10000 0,08000 0,06000 0,04000 0,02000 0,00000 0 2 4 6 8 10 12 =0,35 14 16 18 20 0,25000 0,20000 0,15000 0,10000 =0,70 0,05000 0,00000 0 2 4 6 8 10 12 14 16 18 20 25 Statistik 2 - Modelle diskreter Zufallsvariablen