Zentraler Grenzwertsatz

Ähnliche Dokumente
von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.

Zentraler Grenzwertsatz

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.

Verteilung von Summen

Modelle diskreter Zufallsvariablen

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Binomialverteilung. Statistik für SoziologInnen 1 Diskrete Verteilungsmodelle. Marcus Hudec

Wahrscheinlichkeitsverteilungen

Statistik 2 für SoziologInnen. Stetige Zufallsvariable Normalverteilung & Exponentialverteilung

Standardnormalverteilung

Hypergeometrische Verteilung

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Konzept diskreter Zufallsvariablen

Programm. Wiederholung. Gleichverteilung Diskrete Gleichverteilung Stetige Gleichverteilung. Binomialverteilung. Hypergeometrische Verteilung

7. Grenzwertsätze. Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012

Willkommen zur Vorlesung Statistik (Master)

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Beispiel: Zufallsvariable

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6

Zufallsvariablen [random variable]

Einführung in Quantitative Methoden

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Tabelle 11.2 zeigt die gemeinsame Wahrscheinlichkeitsfunktion und die Randverteilungen

Exponentialverteilung

1 Stochastische Konvergenz 2

Abiturvorbereitung Stochastik. neue friedländer gesamtschule Klasse 12 GB Holger Wuschke B.Sc.

Statistik Einführung // Stichprobenverteilung 6 p.2/26

Statistik I für Betriebswirte Vorlesung 4

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

Korollar 116 (Grenzwertsatz von de Moivre)

Fit for Abi & Study Stochastik

Standardnormalverteilung

Stichproben Parameterschätzung Konfidenzintervalle:

Grundlegende Eigenschaften von Punktschätzern

A3.Die Lebensdauer eines elektronischen Gerätes werde als normalverteilt angenommen. Der Erwartungswert betrage

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen

Kapitel 2 Wahrscheinlichkeitsrechnung

Weierstraß-Institut für Angewandte Analysis und Stochastik Universalität der Fluktuationen: Warum ist alles Gauß-verteilt?

Wirtschaftsmathematik

Prüfung aus Statistik 1 für SoziologInnen

1.5 Erwartungswert und Varianz

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Mathematik 3 für Informatik

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Klausur (Modulprüfung) zum Lehrerweiterbildungskurs Stochastik am von 10:00 bis 11:00 Uhr

Einführung in die (induktive) Statistik

Statistik für NichtStatistiker

1 Dichte- und Verteilungsfunktion

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

M13 Übungsaufgaben / pl

Vorlesung: Statistik II für Wirtschaftswissenschaft

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Prüfung aus Statistik 1 für SoziologInnen. Musterlösung

Handelt es sich bei den folgenden um diskrete oder stetige Zufallsvariablen?

Wird ein Bernoulli- Versuch, bei dem die Trefferwahrscheinlichkeit p = 0,2 ist, n = 40 mal durchgeführt, dann erwarten wir im Mittel 8 Treffer.


Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Statistische Inferenz

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

Mathematik für Biologen

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Wahrscheinlichkeitsrechnung und schließende Statistik

Biostatistik, Sommer 2017

1.6 Der Vorzeichentest

7.5 Erwartungswert, Varianz

Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist.

Ausgewählte spezielle Verteilungen

Wahrscheinlichkeit und Statistik: Zusammenfassung

Transkript:

Statistik 2 für SoziologInnen Zentraler Grenzwertsatz Univ.Prof. Dr. Marcus Hudec Statistik für SoziologInnen 1 Zentraler Grenzwertsatz

Inhalte Themen dieses Kapitels sind: Der zentrale Grenzwertsatz und seine Bedeutung für die angewandte Statistik Standardfehler versus Standardabweichung Simulation von Stichprobenziehungen und Anwendungsbeispiele aus der empirischen Sozialforschung Das Gesetz der großen Zahl Die Approximation der Binomialverteilung durch die Normalverteilung (Grenzwertsatz von Moivre Laplace) Statistik für SoziologInnen 2 Zentraler Grenzwertsatz

Zentraler Grenzwertsatz Die Normalverteilung verdankt ihre universelle theoretische und praktische Bedeutung dem zentralen Grenzwertsatz. Unabhängig von der konkreten Ausgangsverteilung konvergiert nämlich die Verteilungsfunktion einer Summe gegen die Normalverteilung. (sehr grob formuliert) Ist die Anzahl der Summanden (n) hinreichend groß, so kann in der Praxis die Verteilung einer Summe durch die Normalverteilung approximiert werden. Die Frage, ab wann n hinreichend groß ist, hängt von der gewünschten Genauigkeit und der Form der Ausgangsverteilung ab. Statistik für SoziologInnen 3 Zentraler Grenzwertsatz

Verteilung von Summen Beispiel: Würfelwurf Frage: Wie verhält sich die Verteilung der Augensumme von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch. 6 Würfe mit 1 Würfel 6 Würfe mit 2 Würfel 6 Würfe mit 3 Würfel etc. http://www.stat.sc.edu/~west/javahtml/clt.html Statistik für SoziologInnen 4 Zentraler Grenzwertsatz

Augensumme von 1 Wuerfel - n=6 2 4 6 8 1 1 2 3 4 5 6 x Wahrscheinlichkeitsfunktion der Augensumme Statistik für SoziologInnen 5 Zentraler Grenzwertsatz

Augensumme von 2 Wuerfel - n=6 2 4 6 8 2 4 6 8 1 12 x Wahrscheinlichkeitsfunktion der Augensumme Statistik für SoziologInnen 6 Zentraler Grenzwertsatz

Augensumme von 3 Wuerfel - n=6 2 4 6 8 5 1 15 x Wahrscheinlichkeitsfunktion der Augensumme Statistik für SoziologInnen 7 Zentraler Grenzwertsatz

Augensumme von 5 Wuerfel - n=6 2 4 6 1 15 2 25 x Wahrscheinlichkeitsfunktion der Augensumme Statistik für SoziologInnen 8 Zentraler Grenzwertsatz

1 2 3 4 5 Augensumme von 1 Wuerfel - n=6 2 25 3 35 4 45 5 x Wahrscheinlichkeitsfunktion der Augensumme Statistik für SoziologInnen 9 Zentraler Grenzwertsatz

2 4 6 8 1 Augensumme von 5 Wuerfel - n=6 14 16 18 2 x Wahrscheinlichkeitsfunktion der Augensumme Statistik für SoziologInnen 1 Zentraler Grenzwertsatz

Zentraler Grenzwertsatz Seien X 1, X 2,..., X n identisch verteilte, unabhängige Zufallsvariablen mit E(X i ) = und V(X i ) = ²> Dann gilt für die Verteilung Summe S n = X 1 + X 2 +... + X n Erwartungswert E(S n ) = n und Varianz V(S n ) = n ². Statistik für SoziologInnen 11 Zentraler Grenzwertsatz

Zentraler Grenzwertsatz Seien X 1, X 2,..., X n identisch verteilte, unabhängige Zufallsvariablen mit E(X i ) = und V(X i ) = ²> Dann konvergiert die Verteilung der standardisierten Summe Xi n Zn n 2 mit wachsendem n gegen eine Normalverteilung mit Erwartungswert E(Z n ) = und Varianz V(Z n ) = 1. Z n ~ N(, 1²) Statistik für SoziologInnen 12 Zentraler Grenzwertsatz

Simulation.xls Theoretische Verteilung: Eine Simulation Wiederholte Simulationen Verteilung der Summe X Prob(X=x) Prob(X x) Index Zufallszahl Nachfrage Index Summe Bereich Häufigkeit Theorie,4,4 1,63239343 1 1 121 58 62 58 bis 62, 1,3,7 2,1833957 2 99 63 67 63 bis 67,2 2,2,9 3,6314985 1 3 116 68 72 68 bis 72 1,2 3,1 1 4,59476274 1 4 12 73 77 73 bis 77 3 4,6 5,2782577 5 92 78 82 78 bis 82 16 13,9 Empirischische Verteilung: 6,99244714 3 6 12 83 87 83 bis 87 27 32,8 X Anzahl Rel. Häuf. 7,6125841 1 7 93 88 92 88 bis 92 72 6,5 34,34 8,718634 8 86 93 97 93 bis 97 74 87,3 1 29,29 9,142279 9 1 98 12 98 bis 12 11 98,7 2 19,19 1,8477959 2 1 84 13 17 13 bis 17 84 87,3 3 18,18 11,3833616 11 19 18 112 18 bis 112 66 6,5 1 12,7587694 2 12 114 113 117 113 bis 117 36 32,8 Summe: 121 13,9549778 3 13 95 118 122 118 bis 122 19 13,9 14,9482995 3 14 94 123 127 123 bis 127 1 4,6 15,93719852 3 15 13 128 132 128 bis 132 1 1,2 16,46728341 1 16 11 133 137 133 bis 137,2 17,8837425 2 17 114 138 142 138 bis 142, 18,13575523 18 129 143 147 143 bis 147, 19,57372722 1 19 1 148 152 148 bis 152, 2,5995231 1 2 17 153 157 153 bis 157, 21,6866987 21 12 158 162 158 bis 162 2,12847E 6,5 12 22,2292798 22 93 Prob(X=x) 23,78913 23 91 Häufigkeit der Summe 24,91835563 Rel. Häuf. 1 3 24 16,4 Theorie 25,7155687 2 25 78 26,17629 8 26 99,3 27,165119 27 91 28,71598481 2 6 28 92 29,685857 1 29 92,2 3,46666852 1 4 3 96 31,4667514 1 31 119,1 32,7654162 2 2 32 15 33,3119526 33 11 34,28168516 34 91 35,9366873 3 5835 63 68 73 78 95 83 88 93 98 1318113118123128133138143148153158 1 2 36,7423363 3 2 bis36 bis bis bis bis 96 bis bis bis bis bis bis bis bis bis bis bis bis bis bis bis bis 37,72757818 2 6237 67 72 77 82 81 87 92 97 1217112117122127132137142147152157162 38,9881726 3 38 98 Statistik für SoziologInnen 13 Zentraler Grenzwertsatz

Erkenntnis Wir haben ein Merkmal, das eindeutig nicht normalverteilt ist. Wenn wir viele Stichproben ziehen und uns dabei von jeder Stichprobe die Merkmalsumme merken, beobachten wir, dass die Verteilung der Mittelwerte sich sehr gut an eine Normalverteilung annähert. Statistik für SoziologInnen 14 Zentraler Grenzwertsatz

Beispiel Wahrscheinlichkeitsfunktion für die Anzahl der Verkäufe pro Tag eines bestimmten Produkts sei,5 bekannt,4 X 1 2 3,3,2 Prob,4,3,2,1,1 Wie ist die Anzahl der Verkäufe pro 1 Tage (X1) verteilt, wenn die einzelnen Verkaufstage als unabhängig angesehen werden können? Wie groß ist die Wahrscheinlichkeit, dass X1 > 12 ist? X1=X 1 +X 2 +...X 1 1 2 3 Statistik für SoziologInnen 15 Zentraler Grenzwertsatz

Beispiel (Fortsetzung) X 1 2 3 Prob,4,3,2,1 X*Prob,3,4,3 ==> E(X)=1 X²*Prob,3,8,9 ==> E(X²)=2 V(X) = 2-1² = 1 E(X1)=1 V(X1)=1 X1~N(1, 1) z.b.: P(X1>12) = 1-F N ((12-1)/1) = 1-F N (2)=,23 Statistik für SoziologInnen 16 Zentraler Grenzwertsatz

Beispiel (Fortsetzung) Wie lautet das zentrale Schwankungsintervall, für das gilt, dass der Verkauf an 1 Tagen mit einer Wahrscheinlichkeit von 5% in diesem Intervall zu liegen kommt? P(x u <X1<x o )=,5 P(z,25 <(X1-1)/1<z,75 )=,5 P(-,674<(X1-1)/1<,674)=,5 P(93,26<X<16,74)=,5 93,26,5 16,74 Statistik für SoziologInnen 17 Zentraler Grenzwertsatz

Anwendung des zentralen Grenzwertsatzes auf Mittelwert Seien X 1, X 2,..., X n identisch verteilte, unabhängige Zufallsvariablen mit E(X i ) = und V(X i ) = ²> Dann gilt für die Verteilung des arithmetischen Mittels x n = 1/n(X 1 + X 2 +... + X n ) Erwartungswert E(x n ) = und Varianz V(x n ) = ²/n. i) Auch das arithmetisch Mittel ist der Stichprobe ist eine Zufallsvariable ii) Die Standardabweichung des arithm. Mittels wird auch Standardfehler bezeichnet Statistik für SoziologInnen 18 Zentraler Grenzwertsatz

Anwendung des zentralen Grenzwertsatzes auf Mittelwert Seien X 1, X 2,..., X n identisch verteilte, unabhängige Zufallsvariablen mit E(X i ) = und V(X i ) = ²> Dann konvergiert die Verteilung des standardisierten Mittelwertes 1 X n i x Zn 2 2 / n / n mit wachsendem n gegen eine Normalverteilung mit Erwartungswert E(Z n ) = und Varianz V(Z n ) = 1. Z n ~ N(, 1²) Statistik für SoziologInnen 19 Zentraler Grenzwertsatz

Standardfehler Die Varianz bzw. die Standardabweichung des arithmetischen Mittels ergibt sich also durch: 2 2 x / 2 / n / x n n Der Mittelwert schwankt weniger stark als die Einzelwerte Die Standardabweichung des Mittelwertes wird auch als Standardfehler (standard error) bezeichnet. Wurzel-n Gesetz: Doppelte Genauigkeit benötigt vierfachen Stichprobenumfang! Statistik für SoziologInnen 2 Zentraler Grenzwertsatz

Standard Error.xls Scorewerte zwischen und 1 bei n=1 Personen gemessen 12 93 17 93 17 57 93 1 14 81 8 86 82 42 91 65 13 68 4 1 73 28 57 53 56 3 8 68 25 5 94 67 43 18 86 94 78 73 46 66 61 98 7 38 97 94 62 11 7 2 8 25 9 76 79 85 1 12 55 6 15 42 64 8 5 26 4 6 36 89 69 38 95 1 32 3 73 53 11 21 79 25 79 96 36 86 7 23 86 7 37 3 6 85 23 96 29 93 73 Arithmetisches Mittel 49,6 Standardabweichung 31,8 Drücken Sie F9 für eine neue Stichprobenziehung Wir ziehen 1 mal eine zufällige Stichprobe von 9 Beobachtungen Sample 1 Sample 2 Sample 3 Sample 4 Sample 5 Sample 6 Sample 7 Sample 8 Sample 9 Sample 1 36 26 12 7 3 78 42 21 5 25 14 94 38 32 3 64 64 4 91 98 8 93 81 8 79 1 21 53 38 14 37 17 8 64 29 25 65 25 2 57 7 5 96 17 3 14 43 64 94 36 12 43 68 26 17 18 23 17 53 79 25 96 1 79 46 65 93 1 73 79 1 3 5 36 25 73 89 1 1 6 57 25 62 79 3 81 14 1 53 57 arithm. Mittel 22,9 49,7 57,2 46,7 29,1 47,6 5,4 33,8 5,6 56,1 Standardfehler 1,6 Std.Abw. der 1 Stichprobenmittelwerte 11,1 Statistik für SoziologInnen 21 Zentraler Grenzwertsatz

Beispiel: Analyse der Grundgesamtheit (1) Canadian Survey of Labour and Income Dynamics Stundenlohn von n = 4.147 Angestellten Min. 2.3 1st Qu. 9.23 Median 14.9 Mean 15.55 3rd Qu. 19.8 Max. 49.92 Frequency 2 4 6 8 1 12 1 2 3 4 5 Lohn Statistik für SoziologInnen 22 Zentraler Grenzwertsatz

Beispiel: Analyse der Grundgesamtheit (2) Var(Lohn) = 62,14 Std.Abw.(Lohn) = 7,88 VC = 5,7% 1 2 3 4 5 Gedanken-Experiment: Angenommen anstelle der Gesamtheit hätten wir nur eine Stichprobe des Umfangs von n=1 Was könnten wir daraus über den Durchschnittslohn lernen? Statistik für SoziologInnen 23 Zentraler Grenzwertsatz

Eine konkrete Stichprobe sample(lohn, 1) 7. 28.32 14.89 23.81 9.2 28.8 7.8 2. 24.96 1. 13.6 11.5 11.71 6.3 25.8 1. 9.49 13.9 23.81 25.81 11.52 6.49 6.75 28.32 21.94 29.24 17.76 19.2 15.12 13. 13.44 16.3 27.36 18.25 29.54 11.43 14.21 17. 33.18 6.65 9.25 14.73 9.1 4.2 16.22 6.35 41.28 7. 9.61 24. 18.57 1.11 6.97 2.88 23.46 12.65 14.85 12. 19.68 18.2 19.84 28.56 27.9 14. 6.8 21.6 14.4 14. 11.64 39. 11.9 19.2 12. 1. 9.33 17.4 18. 21.88 13.56 22.77 6.7 15. 7.4 2.64 2. 3.88 25.6 19.68 7.45 36.25 13.62 14.36 19.2 1.56 7.5 18.92 17.55 6.5 14.51 11.5 Mean = 16.5651 Wir haben für die Stichprobe zufällig n=1 von 4.147 Personen ausgewählt. Der Stichprobenmittelwert liegt rund 1$ über dem wahren Mittelwert. Offensichtlich waren in dieser konkreten Stichprobe gut verdienende Personen eher überrepräsentiert. Was würde nun passieren, wenn wir nicht eine Stichprobe sondern viele verschiedene Stichproben ziehen würden? Wir bekommen dann natürlich viele verschiedene Stichprobenmittelwerte! Statistik für SoziologInnen 24 Zentraler Grenzwertsatz

Wiederholte Stichproben In der Folge betrachten wir 1. zufällige Stichproben vom Umfang n=1. Jeder dieser Stichproben liefert natürlich im allgemeinen einen individuellen Wert für den Durchschnittslohn. Aus der Analyse dieser 1. verschiedenen Schätzwerte für den Durchschnittslohn können wir allgemeine Eigenschaften erkennen, die die zuvor dargestellten theoretischen Ergebnisse bestätigen und transparent machen. In der Praxis liegt natürlich nur eine Stichprobe vor, weshalb wir uns auf die Theorie verlassen müssen! Statistik für SoziologInnen 25 Zentraler Grenzwertsatz

Analyse von 1. Stichproben mit Umfang n=1 Density..1.2.3.4.5 Histogramm der 1. Mittelwerte 13 14 15 16 17 18 19 smx Min. 13.37 Mean 15.53 Max. 18.77 Var.6 Stand.Abw..77 Die Standard-Abweichung der Mittelwerte bezeichnen wir als Standardfehler. Er quantifiziert wie genau wir mit einer Stichprobe von n Elementen liegen! Im Beispiel gilt n=1 Statistik für SoziologInnen 26 Zentraler Grenzwertsatz

Analyse von 1. Stichproben mit Umfang n=1 Im Durchschnitt treffen wir mit unseren 1. Stichproben den unbekannten Durchschnittslohn der Gesamtheit (15,55) mit 15,53 sehr genau. ( Erwartungstreue) Im Einzelfall einer Stichprobe können wir aber auch deutlich daneben liegen (13,37 bis 18,77), daher sollten wir bei einer Stichprobe nicht einfach nur den Mittelwert kommunizieren, sondern auch die Unsicherheit aufgrund der Tatsache, dass es sich um ein Stichprobenergebnis handelt. Die Verteilung der arithmetischen Mittelwerte entspricht einer Normalverteilung. Die Standard-Abweichung der Mittelwerte (,77) bezeichnen wir als Standardfehler. Er erlaubt uns zu quantifizieren, wie genau wir mit einer Stichprobe von n Elementen liegen. Beachte: die Standard-Abweichung der Einzelwerte beträgt 7.88. Die Formel für den Standardfehler ist die Standard-Abweichung der Einzelwerte dividiert durch die Wurzel aus dem Stichprobenumfang 7,78/Wurzel(1)=,778 was sehr nahe an unserem Wert liegt Statistik für SoziologInnen 27 Zentraler Grenzwertsatz

Beispiel Das mittlere Haushaltseinkommen in einer Stadt betrage 32.6,- mit einer Standardabweichung von 6.2,-. Für eine empirische Untersuchung wird eine Zufallsstichprobe von n=4 Haushalten gezogen. Wie hoch ist die Wahrscheinlichkeit, in der Stichprobe ein mittleres Jahreseinkommen von weniger als 32.,- zu beobachten? x4 ~ N(32.6;6.2² / 4) Ex ( ) 32.6 Vx ( ) 6.2² / 4 96.1 4 4 x 96.1 31 32. 32.6 Px ( 4 32.) ( ) ( 1,935), 26 31 Beachte: Einkommen sind typischerweise rechtsschief verteilt, dennoch können wir unter der Annahme von n identisch verteilten unabhängigen Realisierungen einer ZV für das arithmetische Mittel die Normalverteilung heranziehen Statistik für SoziologInnen 28 Zentraler Grenzwertsatz

Beispiel Wie hoch ist die Wahrscheinlichkeit, in der Stichprobe von n=4 Haushalten ein mittleres Jahreseinkommen zu beobachten, dass nur um 5 vom wahren Wert in der Grundgesamtheit abweicht? [- also zwischen 32.1,- und 33.1,- zu liegen kommt] x 4 ~ N(32.6;6.2² / 4) Ex ( ) 32.6 Vx ( ) 6.2² / 4 96.1 x 4 4 96.1 31 33.1 32.6 32.1 32.6 P(32.1 x4 33.1) ( ) ( ) 31 31 (1,613) ( 1,613),893 Statistik für SoziologInnen 29 Zentraler Grenzwertsatz

Beispiel Wie hoch ist die Wahrscheinlichkeit, in der Stichprobe von n=4 Haushalten ein mittleres Jahreseinkommen zu beobachten, dass nur um 25 vom wahren Wert in der Grundgesamtheit abweicht? [- also zwischen 32.35,- und 32.85,- zu liegen kommt] x 4 N(32.6;6.2² / 4) Ex ( ) 32.6 Vx ( ) 6.2² / 4 96.1 x 4 4 96.1 31 32.85 32.6 32.35 32.6 P(32.35 x4 32.85) ( ) ( ) 31 31 (,86) (,86),58 Statistik für SoziologInnen 3 Zentraler Grenzwertsatz

http://onlinestatbook.com/stat_sim/sampling_dist/index.html Statistik für SoziologInnen 31 Zentraler Grenzwertsatz

Grenzwertsatz von De Moivre und Laplace Falls X binomialverteilt ist mit den Parametern n und p [es sei also X~Bi(n, p)] so gilt: X n p np ( 1 p) N(,) 1 Beachte E(X) = n. p und V(X) = n. p. (1-p) Die Güte der Anpassung hängt dabei von n und p ab. (Wenn p nahe 1/2 und n möglichst groß ist, so steigt die Güte) Faustregel: np>1 und n(1-p)>1 Statistik für SoziologInnen 32 Zentraler Grenzwertsatz

..2.4.6.8 1. n= 1 p=.5 2 4 6 8 1 x Statistik für SoziologInnen 33 Zentraler Grenzwertsatz

..2.4.6.8 1. Im Vergleich zum vorherigen Bild hat sich die Anpassung verbessert. n= 2 p=.5 4 6 8 1 12 14 16 Statistik für SoziologInnen 34 Zentraler Grenzwertsatz

.2.4.6.8 1. Im Vergleich zum vorherigen Bild hat sich die Anpassung wieder verschlechtert. n= 2 p=.1 1 2 3 4 5 6 Statistik für SoziologInnen 35 Zentraler Grenzwertsatz

n= 1 p=.1..2.4.6.8 1. Sehr gute Anpassung 5 1 15 2 Statistik für SoziologInnen 36 Zentraler Grenzwertsatz

Beispiel: Prognose des Rücklaufs Bei einer bestimmten schriftlichen Befragung weiß man aus Erfahrung, dass etwa 2% der Befragten tatsächlich antworten. Es werden n=5. Fragebogen versandt. X sei die Anzahl der Antworter E(X) = 5.*,2 = 1. Var(X)=5.*,2*,8 = 8 X~N(1., 8) Std.Abw. =28 Mehr als 1. Antworten: P(X>1.) =,5 Mehr als 1.2 Antworten: P(X>1.2) =, 95% Intervall für die Anzahl der zu erwartenden Antworten: P(1-1,96*28<X<1+1,96*28) =,95 P(945<X<155) =,95 Statistik für SoziologInnen 37 Zentraler Grenzwertsatz

n= 5 p=.2 n= 5 p=.2 y..2.4.6.8.1.12.14 y..2.4.6.8 1. 95 1 15 95 1 15 x x Statistik für SoziologInnen 38 Zentraler Grenzwertsatz

y..1.2.3.4 n= 5 p=.2 y..2.4.6.8 1. n= 5 p=.2 7 8 9 1 11 12 13 x 7 8 9 1 11 12 13 x Statistik für SoziologInnen 39 Zentraler Grenzwertsatz

n= 5 p=.2 n= 5 p=.2..2.4.6.8.1.12.14 y..2.4.6.8 1. 5 1 15 x Statistik für SoziologInnen 4 Zentraler Grenzwertsatz y 5 1 15 x

n= 5 p=.2 n= 5 p=.2..1.2.3.4 y..2.4.6.8 1. -2-1 1 2 3 4 x Statistik für SoziologInnen 41 Zentraler Grenzwertsatz y -2-1 1 2 3 4 x

Stetigkeitskorrektur Bei der Approximation der Binomialverteilung (diskrete ZV) durch die Normalverteilung (stetige ZV) ist eine Stetigkeitskorrektur (Kontinuitätskorrektur) zu berücksichtigen. Die diskrete P(X=x) entspricht im stetigen Fall P(X<x+,5) - P(X<x-,5) P( X bzw. P( X x,5 np x,5 np x) np(1 p) np(1 p) x,5 np x) np(1 p) Statistik für SoziologInnen 42 Zentraler Grenzwertsatz

Beispiel: In einer Bevölkerung sind 6% der Bürger für die Einführung eines neuen Gesetzes. Wie wahrscheinlich ist es, genau 5 Befürworter in einer Stichprobe vom Umfang n=1 zu haben? Binomialverteilung PX ( ) *, *,, 1 5 5 5 6 4 13 5 Normalverteilung 5. 5 6 5. 5 6 PX ( 5) 24 24 ( 1939, ) ( 2, 143), 262, 16, 12 Statistik für SoziologInnen 43 Zentraler Grenzwertsatz

Beispiel: In einer Bevölkerung sind 6% der Bürger für die Einführung eines neuen Gesetzes. Wie groß ist die Wahrscheinlichkeit, dass sich in einer Stichprobe von 1 (1) Personen, weniger als 5 (5) Befürworter des Gesetzes finden? a) Binomialverteilung mit n=1 und p=.6 P(X<5)=P(X=) + P(X=1) +... + P(X=4)=.+.2 +.11+.42+.111=.166 (Exaktes Ergebnis durch Einsetzen in die Formel der Binomialverteilung) Statistik für SoziologInnen 44 Zentraler Grenzwertsatz

Beispiel: b) Bei einer Stichprobe von n=1 gibt es 2 Lösungswege: b1) Einsetzen in die Formel der Binomialverteilung mit n=1 und p=.6 P(X<5)=P(X=) + P(X=1) +... + P(X=49)=.168 b2) Approximation durch Normalverteilung X~N(6; 24) n.p=1*,6=6 n.p.(1-p)=6*,4=24 Wurzel(n.p.(1-p))=4,899 P(X 49) = F N ((49+,5-6)/4,899)= F N (-2,14)=,16 Statistik für SoziologInnen 45 Zentraler Grenzwertsatz

,3,3,25,25,2,2,15,15,1,1,5,5 1 2 3 4 5 6 7 8 9 1, 6 12 18 24 3 36 42 48 54 6 66 72 78 84 9 96 Normalverteilung Binomialverteilung Anzahl Prob. kum. Prob. Anzahl kum. Prob. 49,,68,168 49,,124 49,5,16 5,,13,271 5,,26 Statistik für SoziologInnen 46 Zentraler Grenzwertsatz

Gesetz der großen Zahlen Eng verwandt mit dem zentralen Grenzwertsatz ist, das Gesetz der großen Zahl Das schwache Gesetz der großen Zahlen lautet: Px ( ) für n n Vereinfacht formuliert bedeutet das Gesetz der großen Zahlen, dass mit wachsendem n (Stichprobenumfang), die Wahrscheinlichkeit für eine Abweichung des Stichprobenmittelwertes vom Erwartungswert der Grundgesamtheit ( ), welche absolut größer als ist, gegen null geht. Statistik für SoziologInnen 47 Zentraler Grenzwertsatz

Beispiel: Die durchschnittliche Lottozahl Beim Lotto 6 aus 45 werden die Zahlen 1-45 gleichverteilt gezogen. Der Mittelwert einer Ziehung liegt theoretisch bei 23 [(45+1)/2] Bei einzelnen Ziehungen schwankt dieser Mittelwert deutlich. Der Mittelwert über alle 9 Ziehungen des Jahres 23 beträgt 23,7. Der Mittelwert über alle 1218 Ziehungen beträgt 23,9. LOTTO Zahlen 23 Datum Rd Zahlen Mittelwert 1.1. Mi 6 7 13 15 23 33 16,17 5.1. So 5 13 19 25 4 41 23,83 8.1. Mi 7 1 12 22 34 43 21,33 12.1. So 2 7 12 25 4 42 21,33 15.1. Mi 12 14 16 24 31 34 21,83 19.1. So 8 13 28 32 34 39 25,67 22.1. Mi 8 1 2 23 38 41 23,33 26.1. So 17 18 29 38 4 44 31, 29.1. Mi 6 7 12 18 3 43 19,33 2.2. So 2 3 13 15 3 36 16,5 5.2. Mi 3 9 14 18 28 3 17, 9.2. So 17 19 27 31 4 45 29,83 12.2. Mi 4 11 24 33 34 41 24,5 16.2. So 7 8 12 19 25 38 18,17 19.2. Mi 2 5 19 29 4 44 23,17 Statistik für SoziologInnen 48 Zentraler Grenzwertsatz

Bernoullis Gesetz der großen Zahlen Überträgt man das schwache Gesetz der großen Zahlen auf die n-malige Durchführung eines Bernouilli-Experimentes mit konstanter Wahrscheinlichkeit p, dann gilt für die relative Häufigkeit f n : P( f p ) für n n Vereinfacht formuliert bedeutet dies, dass mit wachsendem n (Stichprobenumfang), die Wahrscheinlichkeit für eine Abweichung der relativen Häufigkeit von der konstanten Erfolgswahrscheinlichkeit, welche absolut größer als ist, gegen null geht. Statistik für SoziologInnen 49 Zentraler Grenzwertsatz

Gesetz der großen Zahlen Das Gesetz der großen Zahlen besagt, dass sich die relative Häufigkeit der Erfolge bei Wiederholung eines Bernoulli-Zufallsexperiments immer weiter an die theoretisch erwartete Erfolgswahrscheinlichkeit p annähert, je häufiger das Zufallsexperiment durchgeführt wird. Beachte: Dies gilt nicht für die absolute Anzahl der Erfolge! Sei X n die Anzahl der Erfolge bei n unabhängigen Wiederholungen, so gilt V(X n )=n.p.(1-p). Sei f n die relative Häufigkeit der Erfolge bei n unabhängigen Wiederholungen, so gilt f n =X n /n V(f n )=p.(1-p)/n Statistik für SoziologInnen 5 Zentraler Grenzwertsatz

Kein absoluter Ausgleich Entwicklung des Anteils der Erfolge 7,% 65,% 6,% 55,% 5,% 45,% Die Schwankungsbreite für die absolute Abweichung nimmt beständig zu. 4,% 35,% beobachteter Anteil UG ANTEIL OG ANTEIL 6 Entwicklung der Anzahl der Erfolge 3,% 2 4 6 8 1 12 5 Die relative Häufigkeit wird immer genauer. Anzahl der Erfolge 4 3 2 1 beobachtete Anzahl UG ANZAHL OG ANZAHL ERWARTUNG 4 8 12 Anzahl der Münzwürfe Statistik für SoziologInnen 51 Zentraler Grenzwertsatz

,5 5, 4,,25 3, 2, 1,,, -1, -,25-2, -3, relative Abweichung absolute Abweichung -4, -,5-5, 2 4 6 8 1 12 Statistik für SoziologInnen 52 Zentraler Grenzwertsatz

Was wir uns merken sollten Summen und Mittelwerte sind aufgrund des zentralen Grenzwertsatzes normalverteilt Der Standardfehler (Standardabweichung des Mittelwertes) ist die Standardabweichung der Einzelwerte dividiert durch die Wurzel des Stichprobenumfangs Das Gesetz der großen Zahl gilt für relative Häufigkeiten nicht für absolute Häufigkeiten Falls np>1 und n(1-p)>1 kann die Binomialverteilung durch die Normalverteilung approximiert werden (beachte die Stetigkeitskorrektur) Statistik für SoziologInnen 53 Zentraler Grenzwertsatz