Vorlesung 7b Der Zentrale Grenzwertsatz 1
Zentraler Grenzwertsatz (Tschebyscheff) Die standardisierte Summe von unabhängigen, identisch verteilten R-wertigen Zufallsvariablen konvergiert in Verteilung gegen eine standard-normalverteilte Zufallsvariable. 2
Formal: Seien X 1, X 2,... unabhängige und identisch verteilte Zufallsvariable mit endlichem Erwartungswert µ und endlicher Varianz σ 2 > 0. Dann gilt für alle a < b R { X P 1 + + X n nµ nσ 2 } [a, b] P{Z [a, b]}. n Dabei ist Z standard-normalverteilt. Noch zu klären ist: Was heißt: X 1, X 2,... unabhängig? 3
Die Zufallsvariablen X 1,..., X n heißen (stochastisch) unabhängig, wenn ihre gemeinsame Verteilung die folgende Produktgestalt hat: P{X 1 A 1,..., X n A n } = P{X 1 A 1 } P{X n A n }. 4
Sind die Zufallsvariablen X i diskret, dann ist notwendig und hinreichend für ihre Unabhängigkeit, dass P{X 1 = a 1,..., X n = a n } = P{X 1 = a 1 } P{X n = a n }. M.a. W.: Die gemeinsamen Verteilungsgewichte sind die Produkte der Randverteilungsgewichte: ν(a 1,..., a n ) = ν 1 (a 1 ) ν n (a n ). 5
Wenn die Zufallsvariablen X 1,..., X n eine gemeinsame Dichte besitzen, dann ist die Unabhängigkeit gleichbedeutend damit, dass diese Dichte das Produkt über die Dichten der Randverteilungen ist: f(x 1,..., x n ) d(x 1,..., x n ) = f 1 (x 1 ) f n (x n ) dx 1 dx n 6
Beispiel: Unabhängige standard-normalverteilte Z 1,..., Z n haben die gemeinsame Dichte 1 (2π) n/2e (z2 1 + +z2 n)/2 dz = 1 /2 dz. (2π) n/2e z 2 7
Sind Z 1,..., Z n unabhängig und standard-normalverteilt, dann ist auch Y := 1 n (Z 1 +... + Z n ) standard-normalverteilt. Am elegantesten sieht man das geometrisch (vgl. Vorlesung 6a für den Fall n = 2): 8
Wir betrachten im R n den Einheitsvektor a := 1 n (1,...,1). Y := 1 n (Z 1 +... + Z n ) lässt sich auffassen als a-koordinate des zufälligen Vektors Z := (Z 1,..., Z n ). Wegen der Rotationsinvarianz der Verteilung von Z ist Y so verteilt wie die erste Standardkoordinate Z 1. 9
Die folgende einfache Bemerkung wird uns auch hilfreich sein beim Beweis des Zentralen Grenzwertsatzes: Sind Y 1,..., Y n unabhängig, dann sind für m < n auch die beiden Tupel (Y 1,..., Y m ) und (Y m+1,..., Y n ) voneinander unabhängig. 10
Inbesondere folgt aus der Unabhängigkeit der Y 1,..., Y n, für reellwertige g und h die folgende Produktformel: E[g(Y 1,..., Y m ) h(y m+1,..., Y n )] = E[g(Y 1,..., Y m )]E[h(Y m+1,..., Y n )], vorausgesetzt die Erwartungswerte sind endlich. (Vgl. dazu auch Vorlesung 5a.) 11
Definition: Eine Folge von Zufallsvariablen Y 1, Y 2,... heißt unabhängig, wenn je endlich viele Y 1,..., Y n unabhängig sind. 12
Wir sind jetzt vorbereitet auf eine Beweisskizze des Zentralen Grenzwertsatzes. Dieser besagt: Seien X 1, X 2,... unabhängige und identisch verteilte Zufallsvariable mit endlichem Erwartungswert µ und endlicher Varianz σ 2 > 0. Dann gilt für alle a < b R { X P 1 + + X n nµ nσ 2 } [a, b] P{Z [a, b]}. n Dabei ist Z standard-normalverteilt. 13
X 1, X 2,... seien identisch verteilte rellwertige Zufallsvariable mit endlicher Varianz. Ohne Einschränkung können wir annehmen: E[X i ] = 0, VarX i = 1. (Denn sonst gehen wir einfach zu den standardisierten Zufallsvariablen X i µ σ über.) 14
Die Behauptung ist dann: [ (X E 1 1 + + X n ) ] [a,b] n n E[1 [a,b] (Z)] mit standard-normalverteiltem Z. 15
Weil man Indikatorfunktionen 1 [a,b] durch glatte Funktionen h approximieren kann, reicht es (wie man zeigen kann, mehr dazu später), diese Konvergenz nur für solche h zu beweisen. 1 a b 16
Satz. Sei h : R R dreimal stetig differenzierbar und seien h, h, h und h beschränkt. Dann gilt [ E h ( X 1 + + X n ) ] n n E[h(Z)] 17
Beweisskizze: Die Hauptidee besteht darin, eine Folge von unabhängigen standard-normalverteilten Zufallsvariablen (Z 1, Z 2,...) ins Spiel zu bringen, die zusammen mit (X 1, X 2,...) ein zufälliges Paar von Folgen bilden. Dabei seien alle Z 1, Z 2,..., X 1, X 2,... unabhängig. Wir wissen schon, dass gilt: [ E[h(Z)] = E h ( Z 1 + + Z n ) ]. n Wir folgen einem im Klassiker Probability von Leo Breiman (SIAM 1992) angegebenen Beweis. 18
Außerdem ergibt sich mit der Linearität des Erwartungswertes: [ E h ( X 1 + + X n n ) ] [ E h ( Z 1 + + Z n ) ] n [ = E h ( X 1 + + X n n ) (Z h 1 + + Z n ) ] n 19
Außerdem ergibt sich mit der Linearität des Erwartungswertes: [ E h ( X 1 + + X n n ) ] [ E h ( Z 1 + + Z n ) ] n [ = E h ( X 1 + + X n n ) h (Z 1 + + Z n n ) ] ). Es reicht also zu zeigen, dass letzteres für n gegen Null konvergiert. 20
Eine clevere Idee ist es jetzt, die Differenz als Teleskopsumme darzustellen: h ( X 1 + + X n ) (Z h 1 + + Z n ) n n = n i=1 ( h ( X 1 + + X i 1 + X i + Z i+1 + + Z n ) n h ( X 1 + + X i 1 + Z i + Z i+1 + + Z n ) ) n 21
Taylorentwicklung ergibt: = n i=1 X i Z i h ( X 1 + + X i 1 + Z i+1 + + Z n ) n n + n i=1 X 2 i Z2 i 2n h ( X 1 + + X i 1 + Z i+1 + + Z n ) n + n i=1 ( X 3 i 6n 3/2h (Y i ) Z3 ) i 6n 3/2h (Ỹ i ) mit passenden Zwischenstellen Y i, Ỹ i. 22
Wir nehmen der Einfachheit halber an: E[ X 1 3 ] <. Ist C eine obere Schranke von h, so folgt E [ h ( X 1 + + X n ) (Z h 1 + + Z n ) ] n n n 1 6n 3/2(E[ X 1 3 ] + E[ Z 1 3 ])C 0, denn die Erw. werte der ersten beiden Summen sind Null wegen E[X 1 ] = E[Z 1 ] = 0 und E[X 2 1 ] = E[Z2 1 ] = 1, zusammen mit der Unabhängigkeit der X i, Z i und der oben festgestellten Produktformel. 23
Hier ist die (oben präzisierte) Botschaft der Stunde: Summen (und Mittelwerte) von vielen unabhängigen, identisch verteilten ZV mit endlicher Varianz sind annähernd normalverteilt. Diese Aussage bleibt übrigens auch unter schwächeren Bedingungen bestehen, sowohl was die Unabhängigkeit, als auch was die identische Verteiltheit betrifft. Zu letzterem vgl Skript Kersting, Abschnitt 6.3. 24
Eine gängige und nützliche Variante unseres Zentralen Grenzwertsatzes ist: Seien X 1, X 2,... unabhängig und identisch verteilt mit endlichem Erwartungswert µ und endlicher Varianz σ 2. Dann gilt für die standardisierten Summen V n := X 1 + + X n nµ : nσ 2 E[g(V n )] n E[g(Z)] für jede stetige und beschränkte Abbildung g : R R. Dabei ist Z standard-normalverteilt. 25
(Auch beim Beweis dieser Variante kann man verwenden, dass sich eine stetige und beschränkte Abbildung g geeignet durch glatte Abbildungen h approximieren lässt; mehr dazu später.) 26
Das folgende (auch für sich interessante) Beispiel wird uns einen hübschen Beweis der Stirling-Formel liefern. Beispiel: Y n sei Poisson-verteilt mit Parameter n. Dann konvergiert für n V n := Y n n n in Verteilung gegen ein standardnormalverteiltes Z. 27
Denn: Die Summe von n unabhängigen Poisson(1)-verteilten Zufallsvariablen ist Poisson(n)-verteilt (vgl. Übungsaufgabe). Damit folgt die behauptete Verteilungskonvergenz aus dem Zentralen Grenzwertsatz. (Zur Erinnerung: Die Varianz einer Poisson(λ)-verteilten Zufallsvariable ist λ.) 28
Für l N sei g l (x) := x + l, x R. Dabei verwenden wir die Notation a b := min(a, b), a b := max(a, b), x + := x 0. x + = x 0 l x + l l AAAAAAAAAAAAAAA 29
Weil x g l (x) eine beschränkte, stetige Funktion ist, liefert der Zentrale Grenzwertsatz: E[g l (V n )] n E[g l (Z)] Mit anderen Worten: E[V n + l] n E[Z+ l] Behauptung: Es gilt auch E[V + n ] n E[Z+ ] Dazu schätzen wir die Differenzen ab: 30
E[Z + ] E[Z + l] = E[Z + Z + l] E[Z 1 [l, ) (Z)] = 1 2π l xe x2 /2 dx 0. l 31
E[V + n ] E[V + n l] = E[V + n V + n l] E[V n 1 [l, ) (V n )] Mit der Cauchy-Schwarz-Ungleichung E[XY ] E[X 2 ] E[Y 2 ] (siehe unten) können wir weiter abschätzen: E[V 2 n ] E[1 [l, ) (V n )] = 1 P{V n l}. 32
Mit der Tschebyscheff-Ungleichung ergibt sich (man beachte E[V n ] = 0, Var V n = 1): P{V n l} 1 l 2. Insgesamt also: E[V + n ] E[V + n l] 1 l. 33
Aus dem eben Bewiesenen, E[V + n l] n E[Z+ l], E[Z + ] E[Z + l] l 0, E[V + n ] E[V + n l] 1 l, folgt E[V + n ] n E[Z + ] 34
Für das standard-normalverteilte Z gilt: E[Z + ] = 1 2π 0 xe x2 /2 dx = 1 2π Andererseits gilt für das Poisson(n)-verteilte Y n (Übungsaufgabe!) E[(Y n n) + n nn+1 ] = e n! Also: E[V n + ] = 1 E[(Y n n) + ( n ] = n e ) n n 1/2 n! 35
Unser Grenzwertsatz E[V + n ] n E[Z + ] besagt also: ( n e ) n n 1/2 n! n 1 2π. Das ist aber nichts anderes als eine Umstellung der Stirling-Formel, die wir damit aus dem Zentralen Grenzwertsatz hergeleitet haben. 36
Wir tragen nach: Cauchy-Schwarz-Ungleichung: Für zwei reellwertige Zufallsvariable U, V gilt: E[ UV ] E[U 2 ] E[V 2 ] Beweis: Ist E[U 2 ] = 0, so folgt P{U = 0} = 1, E[ UV ] = 0. (Im diskreten Fall ist das klar, für den allgemeinen Fall kommen wir hierauf zurück.) Wir können also annehmen: 0 < E[U 2 ], 0 < E[V 2 ]. 37
Für E[U 2 ] = oder E[V 2 ] = gilt dann die CS-Ungleichung klarerweise. Bleibt der Fall 0 < E[U 2 ] <, 0 < E[V 2 ] <. Setzen wir X := U/ E[U 2 ], Y := V/ E[V 2 ]. Dann gilt E[X 2 ] = E[Y 2 ] = 1, und zu zeigen bleibt E[ XY ] 1. Dies folgt durch Bilden des Erwartungswertes über XY 1 2 (X2 + Y 2 ). 38