1/39 Biostatistik, Sommer 2017 Wahrscheinlichkeitstheorie: Gesetz der großen Zahl, Zentraler Grenzwertsatz Schließende Statistik: Grundlagen Prof. Dr. Achim Klenke http://www.aklenke.de 9. Vorlesung: 16.06.2017
2/39 Inhalt 1 Asymptotik Gesetz der großen Zahl Zentraler Grenzwertsatz 2 Schließende Statistik: Grundlagen Einführendes Beispiel Formaler Rahmen Schätzproblem
3/39 Fragestellung Asymptotik Seien X 1, X 2,... unabhängige reelle Zufallsvariablen. Welche Regelmäßigkeiten findet man für die Summe für große n? S n = X 1 +... + X n
Asymptotik Gesetz der großen Zahl Seien X 1, X 2,... unabhängige reelle Zufallsvariablen mit gleicher Verteilung und mit Erwartungswert µ = E[X 1 ]. Sei Satz (Gesetz der großen Zahl) Es gilt S n lim n n Für jedes ε > 0 gilt S n = X 1 +... + X n. = µ mit Wahrscheinlichkeit 1. Grob gesagt gilt also: lim P[ S n /n µ > ε ] = 0. n S n µn für große n. Dieser Satz rechtfertigt die Bedeutung des Erwartungswertes als Lagemaß. 4/39
5/39 Asymptotik Gesetz der großen Zahl Beispiel Seien X 1, X 2,... die Augenzahlen unabhängiger Würfelwürfe. Dann gilt E[X 1 ] = 3.5. Wir erwarten also für 1000 Würfe und für 1 000 000 Würfe S 1000 1000 3.5 S 1000000 1000000 3.5.
6/39 Asymptotik Gesetz der großen Zahl Beispiel Würfelwürfe (Fortsetzung) Mit R kann man zwanzig Würfelwürfe erzeugen: > sample(c(1,2,3,4,5,6), c(1/6,1/6,1/6,1/6,1/6,1/6), replace=true, size=20) [1] 6 3 5 6 6 1 5 2 2 5 4 3 5 1 2 2 5 4 2 2 Kurzform > sample(1:6, replace=true, size=20) [1] 1 6 6 5 2 6 5 4 5 3 6 2 2 6 1 5 5 5 1 5 Gefälschter Würfel: > sample(c(1,2,3,4,5,6), c(1/10,1/10,1/10,1/10,1/10,1/2), replace=true, size=20) [1] 6 6 5 2 6 1 6 6 5 2 6 6 6 6 6 6 6 6 2 6
7/39 Asymptotik Gesetz der großen Zahl Beispiel Würfelwürfe (Fortsetzung/2) 1000 Würfe: > n <- 1000 > sum(sample(1:6, replace=true, size = n)) / n [1] 3.473 Nochmal... > sum(sample(1:6, replace=true, size = n)) / n [1] 3.556 1 000 000 Würfe > n <- 1000000 > sum(sample(1:6, replace=true, size = n)) / n [1] 3.497958 Nochmal... > sum(sample(1:6, replace=true, size = n)) / n [1] 3.499894
8/39 Asymptotik Gesetz der großen Zahl Beispiel Würfelwürfe (Fortsetzung/3) R-Befehl für Partialsummen: > cumsum( 1:10 ) [1] 1 3 6 10 15 21 28 36 45 55 Gemittelte Partialsummen > n <- 10 > cumsum( 1:n )/(1:n) [1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 Gemittelte Partialsummen beim 10 000-fachen Würfelwurf S 1 /1, S 2 /2, S 3 /3,..., S 10000 /10000: > n <- 10000 > plot( cumsum( sample(1:6, replace=true, size = n) ) / ( 1:n ))
Asymptotik Gesetz der großen Zahl Würfelsumme, 10 000 Würfe, S n /n S n n 3.3 3.4 3.5 3.6 0 2000 4000 6000 8000 10000 Anzahl Wuerfe 9/39
Asymptotik Gesetz der großen Zahl Würfelsumme, 1 000 Würfe, 10 000 Versuche 0.00 0.02 0.04 0.06 0.08 3.3 3.33 3.37 3.4 3.43 3.47 3.5 3.53 3.57 3.6 3.63 3.67 3.7 10/39
Asymptotik Gesetz der großen Zahl Würfelsumme, 10 000 Würfe, 10 000 Versuche 0.00 0.05 0.10 0.15 0.20 0.25 3.3 3.33 3.37 3.4 3.43 3.47 3.5 3.53 3.57 3.6 3.63 3.67 3.7 11/39
Asymptotik Gesetz der großen Zahl Würfelsumme, 100 000 Würfe, 10 000 Versuche 0.0 0.2 0.4 0.6 0.8 3.3 3.33 3.37 3.4 3.43 3.47 3.5 3.53 3.57 3.6 3.63 3.67 3.7 12/39
13/39 Asymptotik Gesetz der großen Zahl Erzeugung Histogramme der letzten Folien Mit replicate wird der nachfolgende Befehl mehrfach ausgeführt. Anwendung: 10 Versuche mit 500 Würfelwürfen: > m <- 10 > n <- 500 > ww <- replicate(m, sum( sample(1:6, replace=true, size=n) )) > ww [1] 1687 1750 1747 1735 1795 1740 1744 1772 1707 1741 > sum(ww<1730) # Anzahl der Werte <1730 [1] 2 > sum(ww>1740 & ww<=1750) # Logisches UND [1] 4
14/39 Asymptotik Gesetz der großen Zahl Erzeugung Histogramme der letzten Folien 10 000 Versuche mit 1000 Würfelwürfen: > m <- 10000 > n <- 1000 > ww <- replicate(m, sum( sample(1:6, replace=true, size=n) )) > hist(ww) # Erzeugt ein Histogramm Mittelwert > mean(ww) [1] 3499.847 Standardabweichung > sd(ww) [1] 54.08058
15/39 Asymptotik Zentraler Grenzwertsatz Seien X 1, X 2,... unabhängige reelle Zufallsvariablen mit gleicher Verteilung, mit Erwartungswert µ = E[X 1 ] und Varianz σ 2 = Var[X 1 ]. Sei S n = X 1 +... + X n und S n := S n µn nσ 2. Sei Φ die Verteilungsfunktion der Standardnormalverteilung. Satz (Zentraler Grenzwertsatz) Für jedes x R gilt lim n P[S n x] = Φ(x). Grob gesprochen ist also S n ungefähr N 0,1 -verteilt und S n ist ungefähr N µn,σ 2 n-verteilt.
16/39 Asymptotik Zentraler Grenzwertsatz Beispiel: Augensumme S 1000 bei 1000 Würfelwürfen X 1,..., X 1000 unabhängig, P[X i = k] = 1 für k = 1,..., 6. Also 6 µ = E[X 1 ] = 7/2 und E[X 2 1 ] = 6 k 2 1 6 k=1 = 1 + 4 + 9 + 16 + 25 + 36 6 = 91 6 und σ 2 = Var[X 1 ] = E[X 2 1 ] E[X 1 ] 2 = 91 6 ( 7 2 ) 2 = 35 12. Also ist S 1000 ungefähr normalverteilt mit Mittelwert 1000 µ = 3500 und Varianz 1000 σ 2 = 35000/12 = 2917. Also mit Streuung 1000 σ 2 = 54.
Asymptotik Zentraler Grenzwertsatz Vergleich: Würfelsumme, 1 000 Würfe - Normalverteilung 0.00 0.02 0.04 0.06 0.08 3.3 3.33 3.37 3.4 3.43 3.47 3.5 3.53 3.57 3.6 3.63 3.67 3.7 17/39
18/39 Asymptotik Zentraler Grenzwertsatz Beispiel (Fortsetzung) Wie groß ist die Wahrscheinlichkeit, bei 1000 Würfelwürfen eine Augensumme von höchstens 3400 zu erhalten? Es ist σ = 35/12, also S1000 = S n 3500. Somit 1000 35/12 [ P[S 1000 3400] = P S1000 Symmetrie: Φ(x) = 1 Φ( x) liefert ] 3400 3500 54 Φ( 100/54) = Φ( 1.85). P[S 1000 3400] 1 Φ(1.85) = 1 0.9678 = 0.0322. Die Wahrscheinlichkeit ist also etwa 3.2%.
Asymptotik Zentraler Grenzwertsatz Anteil Würfelsumme 3400 1 000 Würfe, 10 000 Durchgänge 0.00 0.02 0.04 0.06 0.08 Anteil 0.031 3.3 3.33 3.37 3.4 3.43 3.47 3.5 3.53 3.57 3.6 3.63 3.67 3.7 19/39
20/39 Asymptotik Empirisches Vorgehen Zentraler Grenzwertsatz 10 000 Versuche mit 1000 Würfelwürfen: > m <- 10000 > n <- 1000 > ww <- replicate(m, sum( sample(1:6, replace=true, size=n) )) Anteil der Versuche mit Augensumme 3400: > sum( ww<=3400 ) / m [1] 0.0329 Anteil der Versuche mit Augensumme 3420 oder 3580: > sum(ww<=3420 ww >= 3580) / m # Logisches ODER [1] 0.1439
21/39 Asymptotik Zentraler Grenzwertsatz Beispiel (Fortsetzung) Wie groß ist die Wahrscheinlichkeit, bei 1000 Würfelwürfen eine Augensumme zu erhalten, die um mindestens 80 von 3500 abweicht? P[ S 1000 3500 80] [ ] = P S1000 3420 3500 54 [ + P S1000 ] 3580 3500 54 Φ( 80/54) + 1 Φ(80/54) = 2 (1 Φ(1.48)). Tabelle: Φ(1.48) = 0.9306. Also P[ S 1000 3500 80] 2(1 0.9306) = 0.1388. Die Wahrscheinlichkeit ist also etwa 13.9%.
Asymptotik Zentraler Grenzwertsatz Anteil Würfelsumme 3420 oder 3580 1 000 Würfe, 10 000 Durchgänge 0.00 0.02 0.04 0.06 0.08 Anteil 0.14 3.3 3.33 3.37 3.4 3.43 3.47 3.5 3.53 3.57 3.6 3.63 3.67 3.7 22/39
23/39 Schließende Statistik: Grundlagen Einführendes Beispiel Beispiel: Kindergarten Familie mit zwei Kindern im Kindergartenalter. Beim Packen der Kindergartentasche eines Kindes vergisst der Vater in 10% die Mutter in 40% der Fälle, das Pausenbrot mitzugeben. Der Kindergärtner findet eines der beiden Kinder ohne Pausenbrot. War heute Vater oder Mutter zuständig?
24/39 Schließende Statistik: Grundlagen Beispiel: Kindergarten Einführendes Beispiel Idee: Aus einer Menge von plausiblen Hypothesen Θ = {Vater, Mutter} diejenige auswählen, unter der die Beobachtung am wahrscheinlichsten ist. Mögliche Beobachtungen (Anzahl der fehlenden Pausenbrote) X = {0, 1, 2}. Tatsächliche Beobachtung: x = 1. Annahme: Das Pausenbrot wird bei beiden Kindern unabhängig vergessen. Dann ist X = 0 X = 1 X = 2 p Vater 0.9 2 = 0.81 2 0.1 0.9 = 0.18 0.1 2 = 0.01 p Mutter 0.6 2 = 0.36 2 0.4 0.6 = 0.48 0.4 2 = 0.16
25/39 Schließende Statistik: Grundlagen Beispiel: Kindergarten Einführendes Beispiel X = 0 X = 1 X = 2 p Vater 0.9 2 = 0.81 2 0.1 0.9 = 0.18 0.1 2 = 0.01 p Mutter 0.6 2 = 0.36 2 0.4 0.6 = 0.48 0.4 2 = 0.16 Ergebnis: Unter der Hypothese ϑ =Mutter ist die Beobachtung x = 1 (hungrige Kinder) wahrscheinlicher (0.48) als unter der Hypothese ϑ =Vater (0.18).
26/39 Schließende Statistik: Grundlagen Beispiel: Kindergarten Einführendes Beispiel Die Schlussfolgerung hängt stark an den Modellannahmen. Nehmen wir an, dass die Mutter mit Wahrscheinlichkeit 40% vergisst, beiden Kindern das Pausenbrot mitzugeben, sonst aber beiden eines mitgibt,- der Vater hingegen unabhängig voneinander die beiden Pausenbrote vergisst, so erhalten wir X = 0 X = 1 X = 2 p Vater 0.81 0.18 0.01 p Mutter 0.6 0 0.4 In diesem Fall wäre die Beobachtung x = 1 unter der Hypothese ϑ = Mutter unmöglich, also müsste man wohl ϑ = Vater annehmen.
27/39 Schließende Statistik: Grundlagen Beispiel: Kindergarten Einführendes Beispiel Die Vermutung ϑ = Mutter gibt nicht die wahrscheinlichste Hypothese zu einer gegebenen Beobachtung an, sondern diejenige Hypothese, bei der die Beobachtung am wahrscheinlichsten auftritt. Man nennt dies das Likelihood-Prinzip.
28/39 Schließende Statistik: Grundlagen Einführendes Beispiel Beispiel: Kindergarten Irrtumswahrscheinlichkeit Irrtumswahrscheinlichkeit? Darüber kann man grundsätzlich keine Aussage machen, wenn man keine Vorurteile zur Wahrscheinlichkeit der Hypothesen hat.
29/39 Schließende Statistik: Grundlagen Beispiel: Kindergarten Irrtumswahrscheinlichkeit Einführendes Beispiel Angenommen, der Vater ist an 75% der Tage für die Kinder zuständig. Bayes sche Formel liefert P[Mutter X = 1] P[X = 1 Mutter] P[Mutter] = P[X = 1 Mutter] P[Mutter] + P[X = 1 Vater] P[Vater] 0.48 0.25 = 0.48 0.25 + 0.18 0.75 = 0.47. In 47% der Fälle, in denen exakt ein hungriges Kind im Kindergarten ist, war also die Mutter schuld.
30/39 Schließende Statistik: Grundlagen Beispiel: Kindergarten Einführendes Beispiel Wir halten fest: Aussagen über die Wahrscheinlichkeit, dass eine Hypothese wahr ist, lassen sich nur treffen, wenn man Vorurteile über die Wahrscheinlichkeiten der Hypothesen hat (Bayes sche Statistik). Ein Teil der Vorurteile fließt stets in die Auswahl des Modells, also bei der Festlegung der Menge plausibler Hypothesen ein. (Es könnte ja auch die Oma gewesen sein.)
31/39 Schließende Statistik: Grundlagen Statistisches Modell Formaler Rahmen X Menge möglicher Beobachtungswerte der gesamten Stichprobe. Oft: n einzelne Stichproben mit Werten in einer Menge W. Dann X = W n = { x = (x 1,..., x n ) : x 1,..., x n W }. Θ = Parametermenge für die Wahrscheinlichkeitsverteilungen p ϑ, ϑ Θ, (=Hypothesen), die für die Beobachtungen auf X in Frage kommen. Ein statistisches Modell ist durch die Angabe von X und (p ϑ ) ϑ Θ festgelegt.
32/39 Schließende Statistik: Grundlagen Formaler Rahmen Beispiel Im Kindergartenbeispiel ist X = {0, 1, 2}, Θ = { Vater, Mutter} und p Vater = b 2, 0.1, p Mutter = b 2, 0.4.
33/39 Schätzer Schließende Statistik: Grundlagen Schätzproblem Statistisches Modell mit X und (p ϑ ) ϑ Θ. Zu einer Beobachtung x X wollen wir das plausibelste ϑ = ˆϑ(x) Θ angeben. Definition Ein solches ˆϑ(x) nennen wir Schätzwert. Die Abbildung ˆϑ : X Θ heißt Schätzer.
34/39 Schließende Statistik: Grundlagen Likelihood Prinzip Schätzproblem Ist X diskret, so ist p ϑ (x) die Wahrscheinlichkeit, dass die Beobachtung x X gemacht wird, falls die Hypothese ϑ Θ richtig ist. Dann heißt ϑ L x (ϑ) = p ϑ (x) die Likelihoodfunktion für die Beobachtung x. Ist X = R und f ϑ (x) die Dichte der Verteilung p ϑ, so ist L x (ϑ) = f ϑ (x) die Likelihoodfunktion für die Beobachtung x. Maximum Likelihood Prinzip Wähle Schätzwert ϑ = ˆϑ(x) so, dass L x (ϑ) maximal wird.
Schließende Statistik: Grundlagen Likelihood Prinzip Schätzproblem Beispiel: Gartenkresse X = {0, 1,..., 100} mögliche Beobachtungen. ϑ Θ = [0, 1] Keimungswahrscheinlichkeit Unabhängigkeitsannahme: p ϑ = b 100,ϑ. Likelihood ( ) 100 L x (ϑ) = ϑ x (1 ϑ) 100 x x maximal, wenn Ableitung L x(ϑ) = 0 ist. Rechnung: L x(ϑ) = 0 =... = ϑ = x 100. Der plausibelste Schätzwert (Maximum Likelihood) für die Keimungswahrscheinlichkeit ist also der Anteil der gekeimten Samen. 35/39
36/39 Unverzerrtheit Schließende Statistik: Grundlagen Schätzproblem Oft ist Θ R. Dann können wir Erwartungswerte bilden. Definition Ein Schätzer ˆϑ heißt unverzerrt oder erwartungstreu, wenn für die zufällige Beobachtung X gilt Die Differenz E ϑ [ ˆϑ(X)] = ϑ für jedes ϑ Θ. E ϑ [ ˆϑ(X)] ϑ heißt Bias (oder Verzerrung) des Schätzers.
37/39 Schließende Statistik: Grundlagen Schätzproblem Unverzerrtheit Beispiel: Gartenkresse Die zufällige Beobachtung X ist binomialverteilt b 100,ϑ, wenn ϑ [0, 1] wahr ist. Daher ist E ϑ [ ˆϑ(X)] = E ϑ [X/100] = 100ϑ/100 = ϑ. Also ist der Maximum-Likelihood Schätzer ˆϑ(x) = x 100 ein unverzerrter Schätzer für die Keimungswahrscheinlichkeit.
Also ist ˆµ unverzerrt. 38/39 Schließende Statistik: Grundlagen Schätzproblem Unverzerrtheit Beispiel: Normalverteilung Seien X 1,..., X n unabhängig und normalverteilt N µ,σ 2 mit bekanntem σ 2 und unbekanntem µ. Wir wollen µ aus der Beobachtung schätzen. Formal: X = R n, Θ = R und für µ Θ sind X 1,..., X n unabhängig N µ,σ 2. Man kann zeigen, dass der Mittelwert ˆµ(x 1,..., x n ) = x = x 1 +... + x n n der Maximum-Likelihood Schätzer ist. Außerdem ist [ ] 1( E µ [ˆµ(X 1,..., X n )] = E µ X = Eµ [X 1 ] +... + E µ [X n ] ) = µ. n
39/39 Schließende Statistik: Grundlagen Schätzproblem Unverzerrtheit Beispiel: Normalverteilung Seien X 1,..., X n unabhängig und normalverteilt N µ,σ 2 mit unbekanntem σ 2 und unbekanntem µ. Wir wollen σ 2 aus der Beobachtung schätzen. ˆσ 2 (x 1,..., x n ) = 1 n 1 n (x i x) 2 ist ein unverzerrter Schätzer für σ 2. Dies erklärt den anfangs überraschenden Nenner n 1 statt n. i=1