Grudproblem der Iferezstatistik Grudgesamtheit Stichprobeziehug Zufalls- Stichprobe... "wahre", ubekate Ateil icht zufällig p... beobachtete Ateil zufällig Statistik für SoziologIe 1 Iferez für Ateile? Iferezschluss Stichprobeziehug Teilerhebug (sample survey versus Vollerhebug g( (cesus Grüde für Stichprobeerhebug Kosteersparis Zeitgewi Praktische Umöglichkeit eier Vollerhebug Statistik für SoziologIe 2 Iferez für Ateile 1
Stichprobetechike Arte der Stichprobeziehug Zufallsauswahlverfahre Jedes Elemet der Grudgesamtheit besitzt eie bestimmte, vo ull verschiedee Wahrscheilichkeit i die Stichprobe zu gelage Verfahre der bewußte Auswahl Vorgabe vo Quotemerkmale, durch die die Stichprobestruktur i wichtige Variable der Struktur der Grudgesamtheit etspricht Problem: Verbleibeder subjektiver Spielraum läßt keie wahrscheilichkeitstheoretisch abgesicherte Aussage über die Zuverlässigkeit der Ergebisse zu Statistik für SoziologIe 3 Iferez für Ateile Zufallsauswahlverfahre Eifachste Variate: Jedes Elemet besitzt die gleiche Wahrscheilichkeit gezoge zu werde Ueigeschräkte Zufallsauswahl (simple radom samplig I der Praxis: Geschichtete Zufallsstichprobe (stratified radom samplig ermöglicht geauere Aussage i heterogee Populatioe Klumpestichprobe (cluster samplig reduziert Erhebugskoste; oft aus praktische Grüde erforderlich Statistik für SoziologIe 4 Iferez für Ateile 2
Voraussetzug eier echte Zufallsauswahl "samplig frame" Register (Datebak aller Elemete der Grudgesamtheit (samplig uits Typische Probleme: Gallup 1936 US-Presidet Electio 10 Mio Frageboge Adresse aus Telefobuch "Selectio Bias" auch große Stichprobe hilft hier icht "Household Bias" populatio uits: Perso samplig uits: Haushalt Pro Haushalt wird ei Mitglied i die Stichprobe aufgeomme > Mitglieder vo Großfamilie sid systematisch uterrepräsetiert Statistik für SoziologIe 5 Iferez für Ateile Adere Probleme o-respose Bias icht-atworter köe sich vo de Atworter systematisch uterscheide Respose Bias - Befragte wolle sich icht deklariere - Gestaltug der Frage ka Atwort beeiflusse (z.b. hat i eier Studie das Veräder der Reihefolge vo Atwortalterative zu eier 5% Veräderug des Ergebisses geführt Statistik für SoziologIe 6 Iferez für Ateile 3
Fehlerstruktur bei Stichprobeerhebuge Stichprobeschätzug Wahre Parameter + Erhebugs-Bias (Verzerrug aufgrud der Befragugstechik + Stichprobefehler (Usicherheit aufgrud der Teilerhebug Statistik für SoziologIe 7 Iferez für Ateile Mögliche Iferezaussage Puktschätzug Agabe eies quatitative Wertes für de ubekate Parameter Itervallschätzug Agabe eies Itervalls, das mit eier bestimmte Wahrscheilichkeit de ubekate Parameter überdeckt Hypotheseteste Aahme bzw. Zurückweisug vo Aussage über de ubekate Parameter bei eier vorgegebee Irrtumswahrscheilichkeit Statistik für SoziologIe 8 Iferez für Ateile 4
Awedugskotext Wir betrachte eie Grudgesamtheit mit eiem biärem Merkmal Wie ka ma vo der Stichprobe auf die Grudgesamtheit schließe? Bei Ketis der Parameter der Grudgesamtheit <Azahl iteressiereder Ereigisse (M ud Umfag der Grudgesamtheit ( bzw. des Ateils M/> wisse wir bereits, wie Aussage über zetrale Schwakugsitervalle für die Azahl (X bzw. de Ateil (p i der Stichprobe gemacht werde köe. Statistik für SoziologIe 9 Iferez für Ateile Theoretisches Vorwisse (1 Ziehe ohe Zurücklege Grudgesamtheit mit Elemete davo M iteressierde Stichrobe vom Umfag 1. Exakte Bestimmug der Wahrscheilichkeite aller mögliche Stichprobeergebisse mittels der Hypergeometrische Verteilug 2. äherug der Hypergeometrische Verteilug durch die Biomialverteilug 3. Approximatio durch die ormalverteilug mit Variazformel der Hypergeometrische oder der Biomialverteilug Statistik für SoziologIe 10 Iferez für Ateile 5
6 Theoretisches Vorwisse (2 Ziehe ohe Zurücklege aus eier Grudgesamtheit mit Elemete davo M iteressierede Elemete Stichrobe vom Umfag 1 (1 ( ( X V M X E 1 (1 ( ( p V M p E X Azahl p Ateil Statistik für SoziologIe 11 Iferez für Ateile (0;1 1 (1 X (0;1 1 (1 p Theoretisches Vorwisse (3 Ziehe mit Zurücklege bzw. kleier Auswahlsatz Stichrobe vom Umfag V i f h B h d V i Vereifachte Berechug der Variaz (1 ( ( p V p E (1 ( ( X V M X E Statistik für SoziologIe 12 Iferez für Ateile (0;1 (1 p (0;1 (1 X
Beispiel Parameter der Grudgesamtheit 10.000 M 6.000 0,60 Parameter der Stichprobe 100 E(X 60 E(p 0,60 Mit Stichprobekorrektur Mit Stichprobekorrektur V(X 23,7624 V(X 0,0024 s(x 4,8747 s(x 0,0487 Ohe Stichprobekorrektur Ohe Stichprobekorrektur V(X 24,0000 V(X 0,0024 s(x 4,8990 s(x 0,0490 Statistik für SoziologIe 13 Iferez für Ateile Optisch kaum uterscheidbar Prob Hy Prob Bi 0,1 0,08 0,06 0,04 0,02 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0,1 0,08 0,06 0,04 0,02 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 orm mit 0,1 0,08 0,06 0,04 0,02 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 orm mit 0,1 0,08 0,06 0,04 0,02 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Statistik für SoziologIe 14 Iferez für Ateile 7
Ergebisvergleich Hy Bi orm mit orm ohe Prob(p<0,5 0,0163 0,0168 0,0156 0,0160 Prob(p<0,6 0,4565 0,4567 0,4592 0,4594 Prob(p0,6 0,0816 0,0812 0,0817 0,0813 Prob(0,55<p<0,65 0,6440 0,6416 0,6441 0,6417 Prob(p>0,6 0,4618 0,4621 0,4592 0,4594 Exakte Ergebisse Approximatio i der Praxis Statistik für SoziologIe 15 Iferez für Ateile Iklusios- bzw. Repräsetatiosschluß Bei bekatem Parameter der Grudgesamtheit habe wir bislag Aussage über die Verteilug der Stichprobegröße getroffe (Iklusio; direkter Schluß durch Umkehrug gelage wir zur eue Aufgabe: ausgehed vo eiem Stichprobeergebis soll auf die Parameter der Grudgesamtheit geschlosse werde (Repräsetatios- oder Iferez-Schluss; idirekter Schluss Statistik für SoziologIe 16 Iferez für Ateile 8
Puktschätzug Da wir wisse, dass der Erwartugswert für de Ateilswert der Stichprobe (p gleich ist dem wahre Wert für de Parameter i der Grudgesamtheit, erscheit es bei Vorliege eier kokrete Stichprobe sivoll, de Stichprobeateil p als Schätzug für zu verwede. Statistik für SoziologIe 17 Iferez für Ateile Kozept der Kofidezitervalle - Beispiel Grudgesamtheit mit biärem Merkmal z.b.: Kadidat-A... Erfolg Kadidat-B... Misserfolg Stichprobe mit 500 Ageomme der wahre Wert i der Grudgesamtheit sei 0.5 ud wir wähle eie Sicherheitswahrscheilichkeit vo (1-α0,99: X sei die Azahl der Erfolge i der Stichprobe p sei der Ateil der Erfolge i der Stichprobe Statistik für SoziologIe 18 Iferez für Ateile 9
Zetrales Schwakugsitervall - Beispiel Für das zetrale Schwakugsitervall vo X ergibt sich da P(.-2,58*σ < X <.+2,58*σ 0,99 Mit σ²..(1-.500.0,5250 σ²..(1-500.0,5.0,5125 σ11,18 P(250-2.58*11,18< X < 250+2.58*11,18 0,99 P(221,15 < X <278,85 0.99 Falls der wahre Wert i der Grudgesamtheit 0.5 beträgt wird die Azahl der Befragte für Kadidat A mit eier Wahrscheilichkeit vo 99% im Itervall vo 221 bis 279 liege. Statistik für SoziologIe 19 Iferez für Ateile Kozept der Kofidezitervalle Für uterschiedliche Werte vo ergebe sich atürlich verschiedee zetrale Schwakugsitervalle 500 α 0,01 2,5758 Quatilswert Zetrales Schwakugsitervall für die Azahl Zetrales Schwakugsitervall für de Ateil E(X Var(X UG(X OG(X E(p Var(p UG(p OG(p 0,10 50 45,0 33 67 0,10 0,0002 6,5% 13,5% 0,15 75 63,8 54 96 0,15 0,0003 10,9% 19,1% 0,20 100 80,0 77 123 0,20 0,0003 15,4% 24,6% 0,25 125 93,8 100 150 0,25 0,0004 20,0% 30,0% 0,30 150 105,0 124 176 0,30 0,0004 24,7% 35,3% 0,35 175 113,8 148 202 0,35 0,0005 29,5% 40,5% 0,40 200 120,0 172 228 0,40 0,0005 34,4% 45,6% 0,45 225 123,8 196 254 0,45 0,0005 39,3% 50,7% 0,50 250 125,0 221 279 0,50 0,0005 44,2% 55,8% 0,55 275 123,8 246 304 0,55 0,0005 49,3% 60,7% 0,60 300 120,0 272 328 0,60 0,0005 54,4% 65,6% 0,65 325 113,8 298 352 0,65 0,0005 59,5% 70,5% 0,70 350 105,0 324 376 0,70 0,0004 64,7% 75,3% 0,75 375 93,8 350 400 0,75 0,0004 70,0% 80,0% 0,80 400 80,0 377 423 0,80 0,0003 75,4% 84,6% 0,85 425 63,8 404 446 0,85 0,0003 80,9% 89,1% 0,90 450 45,0 433 467 0,90 0,0002 86,5% 93,5% Statistik für SoziologIe 20 Iferez für Ateile 10
Beachte: Hiweis: Die zetrale Schwakugsitervalle i der ähe vo 0,5 sid deutlich größer als die für Radwerte vo (z.b. 0,1 bzw. 0,9 Beobachte, wie sich das Schwakugsitervall bei Äderug der Fallzahl bzw. der Sicherheitswahrscheilichkeit verädert: Größere Werte vo α bedige ei kleieres Schwakugsitervall (präziser aber mir gerigerer Sicherheit Größere Fallzahle reduziere das Schwakugsitervall für de Ateil icht aber für die Azahl Statistik für SoziologIe 21 Iferez für Ateile Die Graphik stellt für uterschiedliche Werte vo die zetrale Schwakugsitervalle durch horizotale Liie dar. 0.7 0.6 0.5 0.4 Ate eil i der Grudgesamtheit 0.3 100 150 200 250 300 350 400 Azahl i der Stichprobe Statistik für SoziologIe 22 Iferez für Ateile 11
Kofidezitervalle Trägt ma i diese Graphik de kokrete real beobachtete Stichprobewert (z.b. 260 mittels eier vertikale Liie ei, so ka ma ablese, dass ei solches Stichprobeergebis bei eier Sicherheitswahrscheilichkeit vo 99% mit eiem -Wert i der Grudgesamtheit vo 0,46 bis 0,58 koform geht. Higege erscheie Werte vo beispielsweise 0,7 bzw. 0,4 für de Ateil i der Grudgesamtheit mit dem Stichprobeergebis icht verträglich. Statistik für SoziologIe 23 Iferez für Ateile Ateil i der Grudgesamth heit 0.4 0.5 0.6 0.7 Kofidezitervall 0.3 100 150 200 250 300 350 400 Azahl i der Stichprobe Statistik für SoziologIe 24 Iferez für Ateile 12
Formel für das Kofidezitervall Ausgagspukt: P p z z φ( z φ( z 1 α ( 1 Auflösug ach ( 1 ( 1 Pp z p+ z 1α σ ( 1 p( 1 p ersetze durch s σ 1 p p p Statistik für SoziologIe 25 Iferez für Ateile Approximative Kofidezitervall für Ateile Liefert eie Stichprobe de empirische Ateilswert p, so überdeckt das folgede Kofidezitervall de wahre Paramter mit eier Wahrscheilichkeit vo 1-α. (z sei das (1-α/2-Quatil der Stadard-ormalverteilug Pp z p ( 1 p p z p ( 1 + p 1α 1 1 bzw. bei große Pp z p ( 1 p p+ z p ( 1 p 1α Statistik für SoziologIe 26 Iferez für Ateile 13
Korrekturfaktor Bei eiem relativ große Auswahlsatz ud Ziehe ohe Zurücklege ist der Korrekturfaktor zu berücksichtige: Pp z p ( 1 p p z p ( 1 p + 1α 1 1 Statistik für SoziologIe 27 Iferez für Ateile Beispiel 10.000 Haushalte Stichprobe: 100 davo 30 Haushalte mit mehr als 1 Auto Gesucht 95% (α0,05 05 Kofidezitervall i für de ubekate Ateil i der Grudgesamtheit p0,3 s p2 0,3*0,7/990,0021 s p 0,046 z1,96 0,3-1,96*0,046 < < 0,3 + 1,96*0,046 P(0,21 < < 0,39 095 0,95 Die Wahrscheilichkeit, dass der ubekate Ateilswert der Grudgesamtheit durch ei Itervall vo 21% bis 39% überdeckt wird, beträgt approximativ 95%. Statistik für SoziologIe 28 Iferez für Ateile 14
Beispiel Selbes Beispiel aber höhere Sicherheit der Aussage wird gewüscht: Gesucht 99% (α0,01 Kofidezitervall für p0,3 03 s 2 p2 0,3*0,7/990,0021 0 0021 s p 0,046 046 z2,58 0,3 2,58*0,046 < < 0,3 + 2,58*0,046 P(0,18 < < 0,42 0,99 Die Wahrscheilichkeit, dass der ubekate Ateilswert der Grudgesamtheit durch ei Itervall vo 18% bis 42% überdeckt wird, beträgt 99%. Höhere Sicherheit bedigt eie weiger Präzise Aussage bzw. Hohe Präzisio impliziert häufige Fehlaussage Statistik für SoziologIe 29 Iferez für Ateile Beispiel Selbes Beispiel aber vierfach so große Stichprobe 10.000 Haushalte 400 mit 120 Haushalte mit mehr als 1 Auto Gesucht 95% (α0,05 Kofidezitervall für p0,3 s p2 0,3*0,7/3990,0005 s p 0,023 z1,96 0,3-1,96*0,023 < < 0,3 + 1,96*0,023 P(0,26 < < 0,34 0,95 Gesucht 99% (α0,01 01 Kofidezitervall i für 0,3-2,58*0,023 < < 0,3 + 2,58*0,023 P(0,24 < < 0,36 0,99 Vierfache Stichprobe halbiert die Läge des Kofidezitervalls Statistik für SoziologIe 30 Iferez für Ateile 15
Läge des Kofidezitervalls Pp z p ( 1 p p+ z p ( 1 p 1α L 2 z Hägt ab: 1 α/ 2 p ( 1 p vo der Wahl vo α (mit größerem α [~Irrtumswahrscheilichkeit] wird Läge kleier vom Stichprobeumfag (mit größerem wird Läge kleier; Wurzelgesetz! vo der Größe vo p bzw. (bei p1/2 maximal Statistik für SoziologIe 31 Iferez für Ateile Kofidezitervall mit wachsedem Stichprobeumfag Beobachtete Resposerate p 50% Irrtumswahrscheilichkeit. alpha 0,05 Kofideziveau... 1-alpha 0,95 KOFIDEZITERVALL Fall Stadard- Uter- Ober- Maximaler zahl fehler greze greze Fehler 30 0,091 32,1% 67,9% 17,9% 40 0,079 34,5% 65,5% 15,5% 50 0,071 36,1% 63,9% 13,9% 60 0,065 37,3% 62,7% 12,7% 70 0,060 38,3% 61,7% 11,7% 80 0,056 39,0% 61,0% 11,0% 90 0,053 39,7% 60,3% 10,3% 100 0,050 40,2% 59,8% 9,8% 200 0,035 43,1% 56,9% 6,9% 300 0,029 44,3% 55,7% 5,7% 400 0,025 45,1% 54,9% 4,9% 500 0,022 45,6% 54,4% 4,4% 600 0,020 46,0% 54,0% 4,0% 700 0,019 46,3% 53,7% 3,7% 800 0,018 46,5% 53,5% 3,5% 900 0,017 46,7% 53,3% 3,3% 1000 0,016 46,9% 53,1% 3,1% 1500 0,013 47,5% 52,5% 2,5% 2000 0,011 47,8% 52,2% 2,2% 2500 0,010 48,0% 52,0% 2,0% 3000 0,009 48,2% 51,8% 1,8% 3500 0,008 48,3% 51,7% 1,7% 4000 0,008 48,5% 51,5% 1,5% 70,0% 0% 60,0% 50,0% 40,0% 30,0% 0 400 800 1200 1600 2000 2400 2800 3200 3600 4000 Statistik für SoziologIe 32 Iferez für Ateile 16
Bestimmug des Stichprobeumfages (1 4 z 2 1α / 2 p( 1 2 L p Falls keie a-priori Ketis bezüglich p besteht, geht ma vom worst case p1/2 aus [p(1-p wird da maximal], wodurch sich die Formel wie folgt vereifacht: z 2 1α / 2 2 L Statistik für SoziologIe 33 Iferez für Ateile Bestimmug des Stichprobeumfages (2 L 2 e max e max... Maximaler Fehler, des Kofidezitervalls; bezeichet bei vorgegebeem Sigifikaziveau, die maximale plus/mius Abweichug vom wahre Parameter Bestimme, so dass der maximaler Fehler 5 Prozetpukte beträgt > Läge des Kofidezitervalls also maximal 10% L0,10 Bei α0,05: >1,96²/0,01384,1 > 385 Bei α0,01: >2,58²/0,01663,5 > 664 Statistik für SoziologIe 34 Iferez für Ateile 17
Beispiel Umfrage bei 2.000 Wahlberechtigte Wie geau ka ei Ateil bei eiem Kofideziveau vo 95% vorhergesagt werde? p Wurzel[p(1-p/] max. Fehler Läge des KI 0,1 0,0067 ±1,31% 2,62% 0,2 0,0089 ± 1,75% 3,50% 0,3 0,0102 ± 2,01% 4,02% 0,4 0,0110 ± 2,15% 4,30% 0,5 0,0112 ± 2,19% 4,38% Statistik für SoziologIe 35 Iferez für Ateile Beispiel Gesucht ist eie Stichprobe vom Umfag, mit der der Ateil der Ja-Wähler bei eier Volksabstimmug auf 1% geau geschätzt werde ka (L0,02 Sicherheitsiveau 0,95 a bei Vorketis, dass ~0,25 sei: 4*3,84*0,1875/0,00047.203,, b ohe Vorketis über de Ateil 3,84/0,00049.604 Statistik für SoziologIe 36 Iferez für Ateile 18