Wahrscheinlichkeitsrechnung

Transkript

1 Wahrscheinlichkeitsrechnung Vorlesungsskript Prof. Dr. Evgeny Spodarev Ulm 2008

2 Vorwort Das vorliegende Skript der Vorlesung Wahrscheinlichkeitsrechnung gibt eine Einführung in die Problemstellungen der Wahrscheinlichkeitstheorie. Es entstand in den Jahren , in denen ich diesen Vorlesungskurs für Studierende der Diplom Studiengänge Mathematik und Wirtschaftsmathematik sowie Lehramt Mathematik an der Universität Ulm gehalten habe. Ich bedanke mich für die freundliche Unterstützung dieses Vorhabens bei meinen Kollegen aus dem Institut für Stochastik, die mir in der Vorbereitungsphase der Vorlesung mit Rat und Tat zur Seite gestanden sind. Insbesondere möchte ich Herrn Prof. Dr. Volker Schmidt und Herrn Dipl. Math. oec. Wolfgang Karcher für zahlreiche Diskussionen und Anregungen danken. Herrn Tobias Brosch verdanke ich die schnelle und verantwortungsvolle Umsetzung meiner Vorlesungsnotizen in L A TEX, die er insbesondere mit vielen schönen Grafiken versehen hat. Ulm, den 8. März 2008 Evgeny Spodarev

3 Inhaltsverzeichnis Inhaltsverzeichnis i Einführung. Über den Begriff Stochastik Geschichtliche Entwicklung der Stochastik Typische Problemstellungen der Stochastik Wahrscheinlichkeiten 6 2. Ereignisse Wahrscheinlichkeitsräume Beispiele Klassische Definition der Wahrscheinlichkeiten Geometrische Wahrscheinlichkeiten Bedingte Wahrscheinlichkeiten Zufallsvariablen Definition und Beispiele Verteilungsfunktion Grundlegende Klassen von Verteilungen Diskrete Verteilungen Absolut stetige Verteilungen Singuläre Verteilungen Mischungen von Verteilungen Verteilungen von Zufallsvektoren Stochastische Unabhängigkeit Unabhängige Zufallsvariablen Unabhängigkeit von Klassen von Ereignissen Funktionen von Zufallsvektoren Momente von Zufallsvariablen Lebesguesches Integral Erwartungswert Alternative Darstellung des Erwartungswertes Varianz i

4 INHALTSVERZEICHNIS ii 4.5 Kovarianz und Korrelationskoeffizient Höhere und gemischte Momente Ungleichungen Analytische Hilfsmittel Charakterisitische Funktionen Erzeugende Funktionen Konvergenz von Folgen von Zufallsvariablen Konvergenz mit Wahrscheinlichkeit und stochastische Konvergenz L r Konvergenz Konvergenz in Verteilung Konvergenz der Funktionale von Zufallsvariablen Grenzwertsätze Gesetzte der großen Zahlen Schwaches Gesetz der großen Zahlen Starkes Gesetz der großen Zahlen Anwendung der Gesetze der großen Zahlen Zentraler Grenzwertsatz Klassischer zentraler Grenzwertsatz Grenzwertsatz von Lindeberg Konvergenzgeschwindigkeit im zentralen Grenzwertsatz Gesetz des iterierten Logarithmus Tabelle: Verteilungsfunktion der Standardnormalverteilung 77 Literatur 78 Index 79

5 Kapitel Einführung. Über den Begriff Stochastik Wahrscheinlichkeitsrechnung ist eine Teildisziplin von Stochastik. Dabei kommt das Wort Stochastik aus dem Griechischen στ ωχαστ ικη- die Kunst des Vermutens (von στ ωχωξ - Vermutung, Ahnung, Ziel ). Dieser Begriff wurde von Jacob Bernoulli in seinem Buch Ars conjectandi geprägt (773), in dem das erste Gesetz der großen Zahlen bewiesen wurde. Stochastik beschäftigt sich mit den Ausprägungen und quantitativen Merkmalen von Zufall. Aber was ist Zufall? Gibt es Zufälle überhaupt? Das ist eine philosophische Frage, auf die jeder seine eigene Antwort suchen muss. Für die moderne Mathematik ist der Zufall eher eine Arbeitshypothese, die viele Vorgänge in der Natur und in der Technik ausreichend gut zu beschreiben scheint. Insbesondere kann der Zufall als eine Zusammenwirkung mehrerer Ursachen aufgefasst werden, die sich dem menschlichen Verstand entziehen (z.b. Brownsche Bewegung). Andererseits gibt es Studienbereiche Abbildung.: Jacob Bernoulli ( ) (wie z.b. in der Quantenmechanik), in denen der Zufall eine essentielle Rolle zu spielen scheint (die Unbestimmtheitsrelation von Heisenberg). Wir werden die Existenz des Zufalls als eine wirkungsvolle Hypothese annehmen, die für viele Bereiche des Lebens zufriedenstellende Antworten liefert. Stochastik kann man in folgende Gebiete unterteilen: Wahrscheinlichkeitsrechnung oder Wahrscheinlichkeitstheorie (Grundlagen) Statistik (Umgang mit den Daten) Stochastische Prozesse (Theorie zufälliger Zeitreihen und Felder)

6 KAPITEL. EINFÜHRUNG 2 Diese Vorlesung ist nur dem ersten Teil gewidmet..2 Geschichtliche Entwicklung der Stochastik. Vorgeschichte: Die Ursprünge der Wahrscheinlichkeitstheorie liegen im Dunklen der alten Zeiten. Ihre Entwicklung ist in der ersten Phase den Glücksspielen zu verdanken. Die ersten Würfelspiele konnte man in Altägypten, I. Dynastie (ca v. Chr.) nachweisen. Abbildung.2: Gerolamo Cardano (50-576) Auch später im klassischen Griechenland und im römischen Reich waren solche Spiele Mode (Kaiser August (63 v. Chr. -4 n. Chr.) und Claudius (0 v.chr n. Chr.). Gleichzeitig gab es erste wahrscheinlichkeitstheoretische Überlegungen in der Versicherung und im Handel. Die älteste uns bekannte Form der Versicherungsverträge stammt aus dem Babylon (ca. 4-3 T. J. v.chr., Verträge über die Seetransporte von Gütern). Die ersten Sterbetafeln in der Lebensversicherung stammen von dem römischen Juristen Ulpian (220 v.chr.). Die erste genau datierte Lebensversicherungspolice stammt aus dem Jahre 347, Genua. Der erste Wissenschaftler, der sich mit diesen Aufgabenstellungen aus der Sicht der Mathematik befasst hat, war G. Cardano, der Erfinder der Cardan Welle. In seinem Buch Liber de ludo alea sind zum ersten Mal Kombinationen von Ereignissen beim Würfeln beschrieben, die vorteilhaft für den Spieler sind. Er hat auch als erster die Anzahl vorteilhafter Ereignisse Anzahl aller Ereignisse als Maß für Wahrscheinlichkeit entdeckt. 2. Klassische Wahrscheinlichkeiten (XVII-XVIII Jh.): Diese Entwicklungsperiode beginnt mit dem Briefwechsel zwischen Blaise Pascal und Pierre de Fermat. Sie diskutierten Probleme, die von Chevalier de Méré (Antoine Gombaud ( )) gestellt wurden. Anbei ist eines seiner Probleme: Was ist wahrscheinlicher: mindestens eine 6 bei 4 Würfen eines Würfels oder mindestens ein Paar (6,6) bei 24 Würfen von 2 Würfeln zu bekommen?

7 KAPITEL. EINFÜHRUNG 3 Abbildung.3: Blaise Pascal ( ), Pierre de Fermat (60-665) und Christianus Huygens Die Antwort: P (mind. eine 6 in 4 Würfen) P (keine 6) ( 5 6 )4 0, 56 > ( )24 0, 49 P (mind. (6,6) in 24 Würfen von 2 Würfeln) Weitere Entwicklung: 657 Christianus Huygens De Ratiociniis in Ludo Alea (Operationen mit Wahrscheinlichkeiten) 73 Jacob Bernoulli Ars Conjectandi (Wahrscheinlichkeit eines Ereignisses und Häufigkeit seines Eintretens) 3. Entwicklung analytischer Methoden (XVIII-XIX Jh.) von Abraham de Moivre, Thomas Bayes (702-76), Pierre Simon de Laplace, Carl Friedrich Gauß, Simeon Denis Poisson (vgl. Abb..4). Entwicklung der Theorie Beobachtungsfehler und Theorie des Schießens (Artilleriefeuer). Erste nicht klassische Verteilungen wie Binomial und Normalverteilung, Poisson Verteilung, zentraler Grenzwertsatz von De Moivre. St. Petersburger Schule von Wahrscheinlichkeiten: (P.L. Tschebyschew, A.A. Markow, A.M. Ljapunow) Einführung

8 KAPITEL. EINFÜHRUNG 4 Abbildung.4: Abraham de Moivre ( ), Pierre Simon de Laplace ( ) und Karl Friedrich Gauß ( ) Abbildung.5: Simeon Denis Poisson (78-840), P. L. Tschebyschew (82-894) und A. A. Markow ( ) Abbildung.6: A. M. Ljapunow (857-98) und A. H. Kolmogorow ( )

9 KAPITEL. EINFÜHRUNG 5 von Zufallsvariablen, Erwartungswerten, Wahrscheinlichkeitsfunktionen, Markow Ketten, abhängigen Zufallsvariablen. 4. Moderne Wahrscheinlichkeitstheorie (XX Jh.) David Hilbert, , II. Mathematischer Kongress in Paris, Problem Nr. 6: Axiometrisierung von physikalischen Disziplinen, wie z.b. Wahrscheinlichkeitstheorie. Antwort darauf: A.N. Kolmogorow führt Axiome der Wahrscheinlichkeitstheorie basierend auf der Maß und Integrationstheorie von Borel und Lebesgue (933) ein..3 Typische Problemstellungen der Stochastik statistische Datenanalyse Modellbildung Vorhersage Simulation. Modellierung von Zufallsexperimenten, d.h. deren adäquate theoretische Beschreibung. 2. Bestimmung von Wahrscheinlichkeiten von Ereignissen Mittelwerten und Varianzen von Zufallsvariablen Verteilungsgesetzen von Zufallsvariablen 3. Näherungsformel und Lösungen mit Hilfe von Grenzwertsätzen 4. Schätzung von Modellparametern in der Statistik, Prüfung statistischer Hypothesen

10 Kapitel 2 Wahrscheinlichkeiten Wahrscheinlichkeitstheorie befasst sich mit (im Prinzip unendlich oft) wiederholbaren Experimenten, in Folge derer ein Ereignis auftreten kann(oder nicht). Solche Ereignisse werden zufällige Ereignisse genannt. Sei A ein solches Ereignis. Wenn n(a) die Häufigkeit des Auftretens von A in n Experimenten ist, so hat man bemerkt, dass n(a) n c geht. Diese Konstante c nennt man Wahrscheinlichkeit von A und bezeichnet sie mit P (A). Beispiel: n maliger Münzwurf: (siehe Abbildung 2.) faire Münze, d.h. n(a) n(ā), A {Kopf}, Ā {Zahl} Muenzwurf 0.8 n(a) n n Abbildung 2.: Relative Häufigkeit n(a) n des Ereignisses Kopf beim n maligen Münzwurf 6

11 KAPITEL 2. WAHRSCHEINLICHKEITEN 7 Man kann leicht feststellen, dass n(a) n 2 für große n. P (A) 2. Um dies zu verifizieren, hat Buffon in XVIII Jh mal eine faire Münze geworfen, davon war 2048 mal Kopf, so dass n(a) n 0, 508. Pierson hat es mal gemacht: es ergab n(a) 202 und somit n(a) n In den Definitionen, die wir bald geben werden, soll diese empirische n(a) Begriffsbildung P (A) lim n ihren Ausdruck finden. Zunächst definieren wir, für welche Ereignisse A die Wahrscheinlichkeit P (A) überhaupt eingeführt werden kann. offene Fragen:. Was ist P (A)? 2. Für welche A ist P (A) definiert? 2. Ereignisse Sei E ein Grundraum und Ω E sei die Menge von Elementarereignissen ω (Grundmenge). Ω kann als Menge der möglichen Versuchsergebnisse interpretiert werden. Man nennt Ω manchmal auch Grundgesamtheit oder Stichprobenraum. Definition 2.. Eine Teilmenge A von Ω (A Ω) wird Ereignis genannt. Dabei ist {ω} Ω ein Elementarereignis, das das Versuchsergebnis ω darstellt. Falls bei einem Versuch das Ergebnis ω A erzielt wurde, so sagen wir, dass A eintritt. Beispiel 2... Einmaliges Würfeln: Ω {, 2, 3, 4, 5, 6}, E N 2. n maliger Münzwurf: { Ω {(ω,..., ω n ) : ω i {0, } E N n, falls ein Kopf im i ten Wurf. ω i 0, sonst Weiter werden wir E nicht mehr spezifizieren. Anmerkung: A B C (B\C) (C\B) (symmetrische Differenz) Definition 2..2 Ereignisse A, A 2, A 3,... heißen paarweise disjunkt oder unvereinbar, wenn A i A j i / j Bemerkung 2.. Für jede Folge von Ereignissen {A i } i Ω gibt es eine Folge {B i } i von paarweise disjunkten Ereignissen mit der Eigenschaft

12 KAPITEL 2. WAHRSCHEINLICHKEITEN 8 Tabelle 2.: Wahrscheinlichkeitstheoretische Bedeutung von Mengenoperationen A unmögliches Ereignis A Ω A B A B A n i A i A n i A i Ā A C A B\C A B C wahres Ereignis aus dem Eintreten von A folgt auch, dass B eintritt. (disjunkte, unvereinbare Ereignisse): A und B können nicht gleichzeitig eintreten. Ereignis A Es tritt mindestens ein Ereignis A i ein Ereignis A Es treten alle Ereignisse A,..., A n ein Das Ereignis A tritt nicht ein. Ereignis A tritt genau dann ein, wenn B eintritt, aber nicht C Ereignis A tritt genau dann ein, wenn B oder C eintreten (nicht gleichzeitig! ) i A i i B i. In der Tat wähle B A 2, B 2 A 2 \A, B 3 A 3 \(B B 2 ), usw. Übungsaufgabe 2.. Bitte prüfen Sie, dass B i B j, i / j und i A i i B i. Beispiel 2..2 Zweimaliges Würfeln: Ω {(ω, ω 2 ) : ω i {,..., 6}, i, 2}, A die Summe der Augenzahlen ist 6 {(, 5), (2, 4), (3, 3), (4, 2), (5, )}. Die Ereignisse B Die Summe der Augenzahlen ist ungerade und C {(3, 5)} sind unvereinbar. Oft sind nicht alle Teilmengen von Ω als Ereignisse sinnvoll. Deswegen beschränkt man sich auf ein Teilsystem von Ereignissen mit bestimmten Eigenschaften; und zwar soll dieses Teilsystem abgeschlossen bezüglich Mengenoperationen sein. Definition 2..3 Eine nicht leere Familie F von Ereignissen aus Ω heißt Algebra, falls. A F Ā F 2. A, B F A B F

13 KAPITEL 2. WAHRSCHEINLICHKEITEN 9 Beispiel Die Potenzmenge P(Ω) von Ω (die Menge aller Teilmengen von Ω) ist eine Algebra. 2. Im Beispiel 2..2 ist F {, A, Ā, Ω} eine Algebra. Dagegen ist F {, A, B, C, Ω} keine Algebra: z.b. A C / F. Lemma 2.. (Eigenschaften einer Algebra:) Sei F eine Algebra von Ereignissen aus Ω. Es gelten folgende Eigenschaften:., Ω F 2. A, B F A\B F 3. A,..., A n F n i A i F und n i A i F Beweis. F / A F Ā F nach Definition A Ā Ω F; Ω F. 2. A, B F, A\B A B (Ā B) F. 3. Induktiver Beweis: n 2: A, B F A B (Ā B) F n k n k + : k+ i A i ( k i A i) A k+ F. Für die Entwicklung einer gehaltvollen Theorie sind aber Algebren noch zu allgemein. Manchmal ist es auch notwendig, unendliche Vereinigungen i A i oder unendliche Schnitte i A i zu betrachten, um z.b. Grenzwerte von Folgen von Ereignissen definieren zu können. Dazu führt man Ereignissysteme ein, die σ Algebren genannt werden: Definition Eine Algebra F heißt σ Algebra, falls aus A, A 2,..., F i A i F folgt. 2. Das Paar (Ω, F) heißt Messraum, falls F eine σ Algebra der Teilmengen von Ω ist. Beispiel F P(Ω) ist eine σ Algebra. 2. Beispiel einer Algebra F, die keine σ Algebra ist: Sei F die Klasse von Teilmengen aus Ω R, die aus endlichen Vereinigungen von disjunkten Intervallen der Form (, a], (b, c] und (d, )

14 KAPITEL 2. WAHRSCHEINLICHKEITEN 0 a, b, c, d R, besteht. Offensichtlich ist F eine Algebra. Dennoch ist F keine σ Algebra, denn [b, c] n (b n, c] / F. }{{} F Bemerkung 2..2 Die Ereignisse einer Algebra nennt man beobachtbar, weil sie in Folge eines Experimentes normalerweise zu beobachten sind. Im Gegensatz dazu sind manche Ereignisse einer σ Algebra nicht beobachtbar, weil sie aus einer unendlichen Folge von beobachtbaren Ereignissen zusammengestellt sind. Beispiel: A in einem unendlich langen Münzwurf tritt Kopf nie ein ist nicht beobachtbar. Definition 2..5 (Limesbildung): Seien {A n } n beliebige Ereignisse aus Ω.. Das Ereignis lim sup A n k nk A n {ω Ω : k N n k : ω A n } heißt Limes Superior der Folge {A n }. Es kann als {es geschehen unendlich viele Ereignisse A n } gedeutet werden. Bezeichnung: lim sup A n 2. Das Ereignis lim inf A n k nk A n {ω Ω : k N, n k : ω A n } heißt Limes Inferior der Folge {A n }. Es kann als { ab einem gewissen Moment treten alle Ereignisse A n ein } interpretiert werden. Bezeichnung: lim inf A n. 3. Falls lim sup A n lim inf A n, dann sagt man, dass die Folge {A n } gegen A konvergiert: A n A (n ) oder A lim A n. Lemma 2..2 (Monotone Konvergenz): Seien {A n } n N beliebige Ereignisse von Ω.. Falls A A 2 A 3..., dann gilt lim A n A n A n. Schreibweise: A n A.

15 KAPITEL 2. WAHRSCHEINLICHKEITEN 2. Falls A A 2..., dann gilt lim A n A n A n. Schreibweise: A n A Beweis. Sei A n A n. Dann gilt lim sup A n lim inf A n n A k kn }{{} A n A k kn }{{} A n n A A n A n A lim sup A n lim inf A n lim A. 2.2 Wahrscheinlichkeitsräume Auf einem Messraum (Ω, F) wird ein Wahrscheinlichkeitsmaß durch folgende Axiome von Kolmogorow eingeführt: Definition Die Mengenfunktion P : F [0, ] heißt Wahrscheinlichkeitsmaß auf F, falls (a) P (Ω) (Normiertheit) (b) {A n } n F, A n paarweise disjunkt P ( n A n) n P (A n) (σ Additivität) 2. Das Tripel (Ω, F, P ) heißt Wahrscheinlichkeitsraum. 3. A F heißt P (A) Wahrscheinlichkeit des Ereignisses A. Bemerkung Diese Definition kommt aus der Maßtheorie. Der einzige Unterschied zu einem endlichen σ additiven Maß auf Ω besteht in der Normiertheit. Somit kann man aus einem bestehenden σ endlichen Maß µ auf (Ω, F) ein Wahrscheinlichkeitsmaß durch konstruieren. P (A) µ(a) µ(ω)

16 KAPITEL 2. WAHRSCHEINLICHKEITEN 2 2. Nachfolgend werden nur solche A Ω Ereignisse genannt, die zu der ausgewählten σ Algebra F von Ω gehören. Alle anderen Teilmengen A Ω sind demnach keine Ereignisse. 3. F kann nicht immer als P(Ω) gewählt werden. Falls Ω endlich oder abzählbar ist, ist dies jedoch möglich. Dann kann P (A) auf (Ω, P(Ω)) als P (A) ω A P ({ω}) definiert werden (klassische Definition der Wahrscheinlichkeiten). Falls z.b. Ω R ist, dann kann F nicht mehr als P(R) gewählt werden, weil ansonsten F eine große Anzahl von pathologischen Ereignissen enthalten würde, für die z.b. der Begriff der Länge nicht definiert ist. Definition Sei U eine beliebige Klasse von Teilmengen aus Ω. Dann ist durch σ(u) F U F, F σ Alg. von Ω eine σ Algebra gegeben, die minimale σ Algebra, die U enthält, genannt wird. Übungsaufgabe 2.2. Zeigen Sie bitte, dass die in Definition definierte Klasse σ(u) tatsächlich eine σ Algebra darstellt. Definition Sei Ω R d. Sei U Klasse aller offenen Teilmengen von R d. Dann heißt σ(u) die Borel σ Algebra auf R d und wird mit B R d bezeichnet. Elemente von B R d heißen Borel Mengen. Diese Definition kann auch für einen beliebigen topologischen Raum Ω (nicht unbedingt R d ) gegeben werden. Bemerkung Es sei darauf hingewiesen, dass B R d auch andere (äquivalente) Definitionen zulässt. Wir geben so eine Definition für den Fall d an. Sei A die Klasse von Teilmengen aus R, die eine endliche Vereinigung von disjunkten Intervallen der Form(a, b] sind, a < b + : A A A n (a i, b i ], für ein n N. Sei auch ein Element von A. Diese Klasse A ist dann offensichtlich eine Algebra (beweisen Sie es!), jedoch keine σ Algebra. Dann ist B R σ(a). Übungsaufgabe Zeigen Sie die letzte Behauptung! (vgl. [2], S.43) Des weiteren werden wir eine Definition eines Wahrscheinlichkeitsmaßes auf Algebren brauchen: Definition Sei A eine Algebra von Teilmengen aus Ω. Ein Wahrscheinlichkeitsmaß auf (Ω, A) ist eine Mengenfunktion P : A [0, ] mit den Eigenschaften: i

17 KAPITEL 2. WAHRSCHEINLICHKEITEN 3. P (Ω) 2. Falls {A n } n N A, A n paarweise disjunkt und n A n A, dann gilt die σ Additivität: ( ) P A j P (A i ) n Satz 2.2. Satz von Carathéodory über die Fortsetzung von Wahrscheinlichkeitsmaßen (vgl. Beweis in [3]). Sei Ω die Grundgesamtheit der Elementarereignisse und A eine Algebra von Teilmengen von Ω. Sei P 0 ein Wahrscheinlichkeitsmaß auf (Ω, A). Dann existiert ein eindeutig bestimmtes Wahrscheinlichkeitsmaß P auf (Ω, σ(a)), das die Fortsetzung von P 0 auf σ(a) darstellt: n P (A) P 0 (A), A A Satz Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und A,..., A n, A, B F. Dann gilt:. P ( ) P ( n i A i) n i P (A i), falls A i paarweise disjunkt sind. 3. Falls A B, dann ist P (B\A) P (B) P (A). A B A B Abbildung 2.2: Illustration zu Satz 2.2.2, 3) und 4) 4. P (A B) P (A) + P (B) P (A B) A, B F Beweis. i P ( ) i P ( ) P ( ) 0 2. P ( n i ) P ( n i A i kn+ ) n i P (A i)+ in+ 0 n i P (A i) 3. P (B) P (A (B\A)) P (A) + P (B\A) geht.

18 KAPITEL 2. WAHRSCHEINLICHKEITEN 4 4. Benutze 2), 3) und A B [A\(A B)] [A B] [B\(A B)] P (A B) P (A) P (A B) + P (A B) + P (B) P (A B) (vgl. Abb. 2.2 ). P (A) + P (B) P (A B) Folgerung 2.2. Es gelten folgende Eigenschaften von P für A,..., A n, A, B F:. P (A C ) P (A) 2. A B P (A) P (B) 3. P ( n i A i) n i P (A i), A,..., A n F 4. Siebformel: P ( n ia i ) n ( ) i P (A k A ki ) i k k i n Beweis. P (Ω) P (A A C ) P (A) + P (A C ) P (A C ) P (A) 2. (Folgt aus Satz 2.2.2) P (B) P (A) + P (B\A) P (A) }{{} 0 3. Induktion nach n: n2: P (A A 2 ) P (A ) + P (A 2 ) P (A A 2 )) P (A ) + P (A 2 ) 4. Induktion auf n: Der Fall n 2 folgt aus Satz 2.2.2, 4). Der Rest ist klar. Übungsaufgabe Führen Sie die Induktion bis zum Ende durch. Folgerung Sei {A n } F. Dann gilt lim P (A n ) P (A), wobei { n A n, falls A A 2 A 3..., also A n A A n A n, falls A A 2 A 3..., also A n A

19 KAPITEL 2. WAHRSCHEINLICHKEITEN 5 Abbildung 2.3: Mengenschachtelung Beweis. Sei A A 2 A 3... Mit A 0, A n A n gilt (vgl. Abb. 2.3) P (A) P ( A n ) P ( (A n \A n )) n n P (A n \A n ) lim n lim P (A n) k n k P (A n \A n ) 2. P ( A n ) P ( n n Ā n ) lim P (Ān) lim ( P (A n)) lim P (A n) Die Eigenschaft P ( k n A n) k n P (A n) heißt Subadditivität des Wahrscheinlichkeitsmaßes P. Diese Eigenschaft gilt jedoch auch für unendlich viele A n, wie folgendes Korollar zeigt: Folgerung σ Subadditivität: Sei (Ω, F, P ) ein Wahrscheinlichkeitsmaß und {A n } n N eine Folge von Ereignissen. Dann gilt P ( n A n) n P (A n), wobei die rechte Seite nicht unbedingt endlich sei soll (dann ist die Aussage trivial). Beweis Machen wir aus {A n } n N eine paarweise disjunkte Folge {A n} n N mit A n A n \ n k A k, A A. Dann gilt P ( n ) P ( n A n) n P (A n) n P (A n), da A n A n und P (A n) P (A n ) n N. Um folgendes 0 Gesetz von Borel einführen zu können, brauchen wir den Begriff der Unabhängigkeit von Ereignissen: Definition Ereignisse A und B heißen (stochastisch) unabhängig, falls P (A B) P (A)P (B).

20 KAPITEL 2. WAHRSCHEINLICHKEITEN 6 2. Eine Folge von Ereignissen {A n } n N (diese Folge kann auch endlich viele Ereignisse enthalten!) heißt (stochastisch) unabhängig in ihrer Gesamtheit, falls n i i 2 i n P (A i A i2 A in ) n P (A ik ) Die Diskussion von unabhängigen Ereignissen werden wir auf später verschieben. Jetzt formulieren wir folgendes Lemma: Lemma 2.2. (Borel Cantelli, 0 Gesetz von Borel) Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und {A n } n N eine Folge von Ereignissen aus F. Es gilt folgendes 0 Gesetz: Beweis P (lim sup A n ). Falls n P (A n) <, dann P (lim sup k { 0 falls n P (A n) <, falls n P (A n) und {A n } n N unabh. A n ) P ( }{{} Folg B n+ B n n k n A k }{{} B n lim P (B n) lim P ( A k ) k n ) }{{} Folg lim kn P (A k ) 0 weil k P (A k) <. Damit folgt 0 P (A) 0 P (A) Falls n P (A n), dann

21 KAPITEL 2. WAHRSCHEINLICHKEITEN 7 P (lim sup A n ) }{{} wie in ) lim P ( A n ) lim P ( Ā n ) k nk nk lim P ( k }{{} Folg }{{} Unabh. von {A n} Daraus folgt P (A). lim k lim k nk lim e nk Ā n ) lim P ( m Ā n ) m nk ( P (A n )) P nk P (An) e Anmerkung: log( x) x ( x) e x P (A k ) e P (A k) Satz (Äquivalente Formulierungen der σ Additivität) Sei (Ω, F) ein Messraum. Sei P : F [0, ] eine Mengenfunktion mit den Eigenschaften. P (Ω) 2. A,..., A n F, A i A j, i / j gilt P ( n k A k) n k P (A k). Folgendes ist äquivalent: 3. P ist ein Wahrscheinlichkeitsmaß auf (Ω, F) (also σ additiv). 4. P (A n ) P (A) (n ) für eine Folge {A n } n N F mit A n A F. 5. P (A n ) P (A) (n ) für eine Folge {A n } n N F mit A n A. 6. P (A n ) 0 (n ) für eine Folge {A n } n N F mit A n. Dabei heißen 3) bis 6) Stetigkeitsaxiome. Bemerkung Ein Wahrscheinlichkeitsmaß kann somit axiomatisch durch die Eigenschaften )-3), ),2),4), ),2),5) oder ),2),6) eingeführt werden.

22 KAPITEL 2. WAHRSCHEINLICHKEITEN 8 Beweis Zyklischer Beweis: 3) 4) 5) 6) 3) 3) 4) siehe Folgerung 2.2.2, Teil. 4) 5) A n A F Ān Ā und die Aussage ergibt sich aus 4), da P (A n ) P (Ān) P (Ā) P (A). 5) 6) folgt offensichtlich für A 6) 3) Sei {A n } n N F, A n paarweise unvereinbar. Zu zeigen: P ( n A n) n P (A n). Führen wir B n : kn+ A k ein, so folgt B n B n+ somit P (B n ) 0 aus 4 Dann gilt B n und n P ( A k ) P ( A k B n ) k }{{} Add. von P Die σ Additivität ist somit bewiesen. k n P (A k ) + P (B n ) k P (A k ) + 0 k P (A k ) k Übungsaufgabe Konstruieren Sie eine Mengenfunktion P auf F, die additiv, aber nicht σ additiv ist (vgl. [3] S.23). Satz (Stetigkeit von Wahrscheinlichkeitsmaßen) Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum, dann folgt aus A n A (n ), {A n } n N, A F die Tatsache, dass lim P (A n ) P (A). Beweis z.z.: P (A) lim inf P (A n) lim sup P (A n ) P (A) }{{} }{{} Teil Teil 2 Wir zeigen Teil. Der Beweis des Teil 2 verläuft analog.

23 KAPITEL 2. WAHRSCHEINLICHKEITEN 9 A lim inf A n lim sup A n A n A k k n }{{} :B n n B n, wobei B n B n+ n, B n A(n ) B n A k, k n. Daraus folgt, dass P (B n ) P (A k ), und somit P (B n ) inf k n P (A k ) k n. Nach dem Satz 2.2.3, 2) gilt P (A) P ( B n ) }{{} Folg n lim P (B n) lim inf P (A k) k n lim inf P (A n) Damit ist bewiesen, dass P (A) lim inf P (A n ). Übungsaufgabe Zeigen Sie Teil Beispiele In diesem Abschnitt betrachten wir die wichtigsten Beispiele für Wahrscheinlichkeitsräume (Ω, F, P ). Wir beginnen mit 2.3. Klassische Definition der Wahrscheinlichkeiten Hier wird ein Grundraum Ω mit Ω < ( A #A die Anzahl von Elementen in A) betrachtet. Dann kann F als P(Ω) gewählt werden. Die klassische Definition von Wahrscheinlichkeiten geht von der Annahme aus, dass alle Elementarereignisse ω gleich wahrscheinlich sind: Definition Ein Wahrscheinlichkeitsraum (Ω, F, P ) mit Ω < ist endlicher Wahrscheinlichkeitsraum. 2. Ein endlicher Wahrscheinlichkeitsraum (Ω, F, P ) mit F P(Ω) und ω Ω P ({ω}) Ω heißt Laplacescher Wahrscheinlichkeitsraum. Das eingeführte Maß heißt klassisches oder laplacesches Wahrscheinlichkeitsmaß.

24 KAPITEL 2. WAHRSCHEINLICHKEITEN 20 Bemerkung 2.3. Für die klassische Definition der Wahrscheinlichkeit sind alle Elementarereignisse {ω} gleich wahrscheinlich: ω Ω P ({ω}) Ω. Nach der Additivität von Wahrscheinlichkeitsmaßen gilt P (A) A Ω A Ω. (Beweis: P (A) ω A P ({ω}) ω A Ω A Ω ). Dabei heißt Beispiel 2.3. P (A) Anzahl günstiger Fälle Anzahl aller Fälle.. Problem von Galilei: Ein Landsknecht hat Galilei (manche sagen, es sei Huygens passiert) folgende Frage gestellt: Es werden 3 Würfel gleichzeitig geworfen. Was ist wahrscheinlicher: Die Summe der Augenzahlen ist oder 2? Nach Beobachtung sollte öfter vorkommen als 2. Doch ist es tatsächlich so? Definieren wir den Wahrscheinlichkeitsraum Ω {ω (ω, ω 2, ω 3 ) : ω i {,..., 6}}, Ω <, F P(Ω); sei B : {Summe der Augenzahlen } {ω Ω : ω + ω 2 + ω 3 } C : {Summe der Augenzahlen 2} {ω Ω : ω + ω 2 + ω 3 2} Lösung des Landknechtes: und 2 können folgendermaßen in die Summe von 3 Summanden zerlegt werden: B 6 P (B) P (C) Dies entspricht jedoch nicht der Erfahrung. Die Antwort von Galilei war, dass der Landsknecht mit nicht unterscheidbaren Würfeln gearbeitet hat, somit waren Kombinationen wie (,5,5), (5,,5) und (5,5,) identisch und wurden nur einmal gezählt. In der Tat ist es anders: Jeder Würfel hat eine Nummer, ist also von

25 KAPITEL 2. WAHRSCHEINLICHKEITEN 2 n P (A n ) 0,06 0,284 0,476 0,507 0,89 0,997 Tabelle 2.2: Geburtstagsproblem den anderen Zwei zu unterscheiden. Daher gilt B 27 und C 25, was daran liegt, das (4,4,4) nur einmal gezählt wird. Also P (B) B Ω 27 C > P (C) 26 Ω Geburtstagsproblem: Es gibt n Studenten in einem Jahrgang an der Uni, die dieselbe Vorlesung WR besuchen. Wie groß ist die Wahrscheinlichkeit, dass mindestens 2 Studenten den Geburstag am selben Tag feiern? Sei M 365 Die Anzahl der Tage im Jahr. Dann gilt Sei Ω {ω (ω,..., ω n ) : ω i {,..., M}}, Ω M n <. A n {min. 2 Studenten haben am gleichen Tag Geb.} Ω, A n {ω Ω : i, j {,..., n}, i / j : ω i ω j }, P (A n )? Ansatz: P (A n ) P (Ān), wobei Ā n {ω Ω : ω i / ω j i / j in ω (ω,..., ω n )} Ān M(M )(M 2)... (M n + ). Somit gilt M(M )... (M n + ) P (Ān) ( M n ) ( 2 ) (... n ) M M M und ( P (A n ) ) (... n ) M M Für manche n gibt Tabelle 2.2 die numerischen Wahrscheinlichkeiten von P (A n ) an. Es gilt offensichtlich P (A n ) für n. Interessanterweise ist P (A n ) 0, 5 für n 23. Dieses Beispiel ist ein Spezialfall eines so

26 KAPITEL 2. WAHRSCHEINLICHKEITEN 22 genannten Urnenmodells: In einer Urne liegen M durchnummerierte Bälle. Aus dieser Urne werden n Stück auf gut Glück mit Zurücklegen entnommen. Wie groß ist die Wahrscheinlichkeit, dass in der Stichprobe mindestens 2 Gleiche vorkommen? 3. Urnenmodelle: In einer Urne gibt es M durchnummerierte Bälle. Es werden n Stück zufällig entnommen. Das Ergebnis dieses Experimentes ist eine Stichprobe (j,..., j n ), wobei j m die Nummer des Balls in der m ten Ziehung ist. Es werden folgende Arten der Ziehung betrachtet: mit Zurücklegen ohne Zurücklegen mit Reihenfolge ohne Reihenfolge Das Geburtstagsproblem ist somit ein Urnenproblem mit Zurücklegen und mit Reihenfolge. Demnach werden auch folgende Grundräume betrachtet: (a) Ziehen mit Reihenfolge und mit Zurücklegen: Ω {ω (ω,..., ω n ) : ω i {,..., M} } K n, Ω M n }{{} K (b) Ziehen mit Reihenfolge und ohne Zurücklegen: Ω {ω (ω,..., ω n ) : ω i K, ω i / ω j, i / j}, Ω M(M )... (M n + ) Spezialfall: Mn (Permutationen): Ω M! (c) Ziehen ohne Reihenfolge und mit Zurücklegen: M! (M n)! Ω {ω (ω,..., ω n ) : ω i K, ω ω 2 ω n } Dies ist äquivalent zu der Verteilung von n Teilchen auf M Zellen ohne Reihenfolge das Verteilen von M Trennwänden der Zellen unter n Teilchen (vgl. Abb. 2.4). Daher ist Ω (M + n )! n!(m )! ( ) M + n n

27 KAPITEL 2. WAHRSCHEINLICHKEITEN 23 Teilchen Trennwand Abbildung 2.4: Ziehen ohne Reihenfolge und mit Zurücklegen (d) Ziehen ohne Reihenfolge und ohne Zurücklegen: Ω {ω (ω,..., ω n ); ω i K, ω < ω 2 < < ω n } ( ) M! M Ω (M n)!n! n Ein Experiment der Mehrfachziehung aus einer Urne entspricht der Verteilung von n (unterschiedlichen oder nicht unterscheidbaren) Teilchen (wie z.b. Elektronen, Protonen, usw.) auf M Energieebenen oder Zellen (mit oder ohne Mehrfachbelegung dieser Ebenen) in der statistischen Physik. Die entsprechenden Namen der Modelle sind in Tabelle 2.3 zusammengeführt. So folgen z.b. Elektronen, Protonen und Neutronen der so genannten Fermi Dirac Statistik (nicht unterscheidbare Teilchen ohne Mehrfachbelegung). Photonen und Prionen folgen der Bose Einstein Statistik (nicht unterscheidbare Teilchen mit Mehrfachbelegung). Unterscheidbare Teilchen, die dem Exklusionsprinzip von Pauli folgen (d.h. ohne Mehrfachbelegung), kommen in der Physik nicht vor. 4. Lotterie Beispiele ein Urnenmodell: ohne Reihenfolge und ohne Zurücklegen: In einer Lotterie gibt es M Lose (durchnummeriert von bis M), davon n Gewinne (M 2n). Man kauft n Lose. Mit welcher Wahrscheinlichkeit gewinnt man mindestens einen Preis? Laut Tabelle 2.3 ist Ω ( M n ), Ω {ω (ω,..., ω n ) : ω i / ω j, i / j, ω i {... M}}. Sei A {es gibt mind. Preis}. P (A) P (Ā) P (es werden keine Preise gewonnen) ) ( M n k Ω (M n)! n!(m 2n)! n! n!(m n)! (M n)(m n )... (M 2n) M(M )... (M n + ) ( n ) ( n ) ( ) n... M M M n +

28 KAPITEL 2. WAHRSCHEINLICHKEITEN 24 Auswahl von n aus M Kugeln in einer Urne mit Zurücklegen ohne Zurücklegen mit Reihenfolge M n (Maxwell Boltzmann Statistik) M! (M n)! unterscheidbare Teilchen ohne Reihenfolge ( M+n n ) (Bose Einstein Statistik) ( M ) n (Fermi Dirac Statistik) nicht unterscheidbare Teilchen mit Mehrfachbelegung ohne Mehrfachbelegung Verteilung von n Teilchen auf M Zellen. Tabelle 2.3: Die Potenz Ω der Grundgesamtheit Ω in Urnenmodellen. Um ein minimales Beispiel zu geben, sei M n 2. Dann gilt: P (A) e 0, 632, denn e x lim ( + x n )n. Die Konvergenz ist schnell, P (A) 0, 670 schon für n Hypergeometrische Verteilung: Nehmen wir jetzt an, dass M Kugeln in der Urne zwei Farben tragen können: schwarz und weiß. Seien S schwarze und W weiße Kugeln gegeben (M S + W ). Wie groß ist die Wahrscheinlichkeit, dass aus n zufällig entnommenen Kugeln (ohne Reihenfolge und ohne Zurücklegen) s schwarz sind? Sei A {unter n entnommenen Kugeln s schwarze}. Dann ist ( S W ) P (A) s)( n s ( M ). n Diese Wahrscheinlichkeiten bilden die so genannte hypergeometrische Verteilung. Um ein numerisches Beispiel zu geben, seien 36 Spielkarten gegeben. Sie werden zufällig in zwei gleiche Teile aufgeteilt. Wie groß ist die Wahrscheinlichkeit, dass die Anzahl von roten und schwarzen Karten in diesen beiden Teilen gleich ist? Lösung: hypergeometrische Wahrscheinlichkeiten mit M 36,

29 KAPITEL 2. WAHRSCHEINLICHKEITEN 25 S W n 8, s 8 2 9, w s 9. Dann ist ( 8 )( 8 ) 9 9 P (A) ( 36 ) (8!)4 36!(9!) n. 8 Wenn man die Formel von Stirling benutzt, so kommt man auf P (A) n! 2πn n n e n ( 2π8 8 8 e 8 ) 4 2π e 36 ( 2π9 9 9 e 9 ) 4 2 8π Geometrische Wahrscheinlichkeiten Hier sei ein Punkt π zufällig auf eine beschränkte Teilmenge Ω von R d geworfen. Wie groß ist die Wahrscheinlichkeit, dass π die Teilmenge A Ω trifft? Um dieses Experiment formalisieren zu können, dürfen wir nur solche Ω und A zulassen, für die der Begriff des d dimensionalen Volumens (Lebesgue Maß) wohl definiert ist. Daher werden wir nur Borelsche Teilmengen von R d betrachten. Also sei Ω B R d und das Lebesgue Maß auf R d, Ω <. Sei F B R d Ω (vgl. Abb. 2.5). Abbildung 2.5: Zufälliger Punkt π auf Ω. Definition Das Wahrscheinlichkeitsmaß auf (Ω, F) gegeben durch P (A) A Ω, A F heißt geometrische Wahrscheinlichkeit auf Ω. 2. Das Tripel (Ω, F, P ) heißt geometrischer Wahrscheinlichkeitsraum.

30 KAPITEL 2. WAHRSCHEINLICHKEITEN 26 Im Folgenden betrachten wir ein paar berühmte Probleme, die mit der geometrischen Wahrscheinlichkeit zu tun haben:. Buffonsches Nadelproblem: Graf Buffon war ein vielseitig begabter Gelehrter und Naturphilosoph seiner Zeit (z.b. ist er Direktor des Botanischen Gartens (Jardin des Plantes) in Paris gewesen), der sich unter Anderem auch für Wahrscheinlichkeitstheorie interessierte. Er hat folgendes Problem gestellt: Es sei ein Geradengitter G von parallelen Geraden (getrennt durch den Gitterabstand a) auf der Ebene R 2 gegeben. Auf diese Ebene wird eine Nadel N der Länge l a auf gut Glück geworfen. Wie groß ist die Wahrscheinlichkeit, dass die Nadel N eine der Geraden schneidet? Mit anderen Worten: P (N G / )? Abbildung 2.6: Georges Louis Leclerc Comte de Buffon ( ) Wir wollen die Lösung von Buffon P (N G / ) 2l aπ jetzt begründen. Als erstes muss der Begriff auf gut Glück durch die Einführung des entsprechenden Wahrscheinlichkeitsraumes formalisiert werden. Die Position von N wird eindeutig durch den Abstand x zwischen dem Mittelpunkt der Nadel und der nächststehenden linken Geraden sowie durch den Winkel α zwischen N und dem Lot x festgelegt. Somit ist Ω {(x, α) : x [0, a], α [0, π)} [0, ] [0, π), F B R 2 Ω und P (A) A Ω A a π (vgl. Abb. 2.7). In Koordinaten (x, α) kann das Ereignis A {N G / } folgendera G N x l Abbildung 2.7: Buffonsches Nadelproblem maßen dargestellt werden:

31 KAPITEL 2. WAHRSCHEINLICHKEITEN 27 A {(x, α) Ω : 0 < x < l 2 cos α oder 0 < a x < l cos α } 2 l {(x, α) Ω : a {(x, α) Ω : 0 < x < l cos α } }{{ 2 } A A A 2. cos α < x < a}, }{{ 2 } A 2 P (A) P (A A 2 ) P (A ) + P (A 2 ) A + A 2 A Ω aπ + A 2 aπ aπ l 2aπ l aπ π l/2 cos α 0 0 π 0 π 0 dx dα + aπ cos α dα + l 2aπ cos α dα 2l aπ π 0 π π 0 cos α dα a l/2 cos α dx dα Mit Hilfe des Buffonschen Nadelexperiments kann die Zahl π mit guter Genauigkeit bestimmt werden. Dazu wird die Nadel N n mal unabhängig voneinander auf G geworfen. Sei A n {N G / im Wurf n}, {, falls A n passiert ist, I(A n ) 0, sonst. Nach dem Gesetz der großen Zahlen gilt n n I(A k ) k Anzahl der Treffer n 2l P (A) aπ Somit kann π als 2l π a n #{Treffer} bestimmt werden. Die Genauigkeit wächst mit n. Z.B. falls l a für n 0000 gilt π 3, Paradoxon von J. Bertrand: Folgendes Problem wurde von J. Bertrand als Beweis angeboten, dass die Fundamente der Wahrscheinlichkeitstheorie widersprüchlich seien:

32 KAPITEL 2. WAHRSCHEINLICHKEITEN 28 Auf gut Glück wird in einem Kreis K B r (0) mit Radius r eine Sehne S gezogen (vgl. Abb. 2.9). Sei S die Länge dieser Sehne. Sei a D 3r die Seitenlänge des einbeschriebenen gleichseitigen Dreiecks D. Wie groß ist die Wahrscheinlichkeit, dass S > a D? Sei A { S > a D }. P (A)? J. Bertrand hat drei Varianten der Antwort gegeben: P ( S > a D ) 2, 3, 4, indem er auf gut Glück unterschiedlich verstanden hat. Heutzutage würde man sagen, dass das Problem von Bertrand inkorrekt gestellt wurde. Die Lösung hängt davon ab, wie man ein Modell des obigen Experiments wählt. Davon hängt die Wahl des entsprechenden Wahrscheinlichkeitsraumes ab und daher die Antwort. Abbildung 2.8: Joseph Louis Francois Bertrand ( ) K r D S Abbildung 2.9: Problem von Bertrand (a) Die Richtung der Sehne kann man o.b.d.a. festlegen. Nur die Position des Mittelpunktes der Sehne wird zufällig auf dem Diameter von K gewählt (vgl. Abb. 2.0). Dann gilt Ω ( r, r), A ( r 2 ; r 2 ), P (A) r 2r 2. (b) Ein Endpunkt der Sehne ist fixiert, es wird der Winkel zwischen der Sehne und der Tangente im fixierten Punkt auf gut Glück im Intervall (0, π) gewählt (vgl. Abb. 2.). Dann gilt: Ω (0, π), A ( π 3, 2π 3 ), P (A) A Ω π/3 π 3.

33 KAPITEL 2. WAHRSCHEINLICHKEITEN 29 K r S D Abbildung 2.0: Paradoxon von J. Bertrand:. Lösung K r S D Abbildung 2.: Paradoxon von J. Bertrand: 2. Lösung (c) Der Mittelpunkt der Sehne wird zufällig in B r (0) gelegt. Die Orientierung der Sehne bleibt dabei aus Symmetriegründen unbeachtet (vgl. Abb. 2.2). Dann gilt Ω B r (0), A B r/2 (0), P (A) A Ω πr2 /4 πr 2 4. r K r/2 D S Abbildung 2.2: Paradoxon von J. Bertrand: 3. Lösung 3. Die Koeffizienten p und q einer quadratischen Gleichung x 2 + px + q 0 werden zufällig im Intervall (0, ) gewählt. Wie groß ist die Wahrscheinlichkeit, dass die Lösungen x, x 2 dieser Gleichung reelle

34 KAPITEL 2. WAHRSCHEINLICHKEITEN 30 Zahlen sind? Hier ist Ω {(p, q) : p, q (0, )} [0, ] 2, F B R 2 Ω. A {x, x 2 Ω} {(p, q) Ω : p 2 4q}, denn x, x 2 R genau dann, wenn die Diskriminante D p 2 4q 0. Also gilt A {(p, q) [0, ] 2 : q 4 p2 } und vgl. Abb P (A) A Ω 0 4 p2 dp 2, 0 Abbildung 2.3: Wahrscheinlichkeit für reelle Lösungen einer quadratischen Gleichung Bedingte Wahrscheinlichkeiten Um den Begriff der bedingten Wahrscheinlichkeit intuitiv einführen zu können, betrachten wir zunächst das Beispiel der klassischen Wahrscheinlichkeiten: Sei (Ω, F, P ) ein Laplacscher Wahrscheinlichkeitsraum mit Ω N. Seien A und B Ereignisse aus F. Dann gilt P (A) A A B, P (A B) N N. Wie groß ist die Wahrscheinlichkeit P (A B) von A unter der Bedingung, dass B eintritt? Da B eingetreten ist, ist die Gesamtanzahl aller Elementarereignisse hier gleich B. Die Elementarereignisse, die zu A beim Eintreten von B führen,

35 KAPITEL 2. WAHRSCHEINLICHKEITEN 3 liegen alle in A B. Somit ist die Anzahl der günstigen Fälle hier A B und wir bekommen P (A B) A B B Dies führt zu folgender Definition: A B /N B /N P (A B) P (B) Definition Sei (Ω, F, P ) ein beliebiger Wahrscheinlichkeitsraum, A, B F, P (B) > 0. Dann ist die bedingte Wahrscheinlichkeit von A unter der Bedingung B gegeben durch P (A B) P (A B). P (B) Diese Definition kann in Form des sogenannten Multiplikationssatzes gegeben werden: P (A B) P (A B) P (B). Übungsaufgabe 2.3. Zeigen Sie, dass P ( B) für B F, P (B) > 0 ein Wahrscheinlichkeitsmaß auf (Ω, F) ist. Satz 2.3. Seien A,..., A n F Ereignisse mit P (A A n ) > 0, dann gilt P (A A n ) P (A ) P (A 2 A ) P (A 3 A A 2 ) P (A n A A n ). Übungsaufgabe Beweisen Sie den Satz Beweisidee: Induktion bezüglich n. Beispiel (Urnenmodell:) Es gibt eine Urne mit a weißen und b schwarzen Kugeln. Aus dieser Urne wird zufällig eine Kugel gezogen, danach legt man c Kugeln der gleichen Farbe (wie die der gezogenenen Kugel) und d Kugeln der anderen Farbe wieder in die Urne zurück. Die gezogene Kugel wird ebenfalls zurückgelegt. Dabei können die Parameter c und d auch negativ sein, dies entspricht der zusätzlichen Entnahme entsprechender Kugeln. Sei A i {in Ziehung i wird eine weiße Kugel gezogen}, B i {in Ziehung i wird eine schwarze Kugel gezogen}, i, 2. Bestimme P (A 2 A ), P (B 2 A ), P (A 2 B ), P (B 2 B ). Es gilt: denn P (A ) P (A 2 A ) P (A A 2 ) P (A ) a a + b, P (A A 2 ) Genauso kann gezeigt werden, dass P (B 2 A ) a + c a + b + c + d, a(a + c) (a + b)(a + b + c + d). b + d a + b + c + d,

36 KAPITEL 2. WAHRSCHEINLICHKEITEN 32 gilt. a + d P (A 2 B ) a + b + c + d, b + c P (B 2 B ) a + b + c + d Beispiel (Diffusionsmodell): Es gibt zwei verbundene Gasbehälter A und B, die im Zeitpunkt t 0 mit N Molekülen eines Gases befüllt sind. Für t > 0 beginnt der Diffusionsprozess zwischen den Behältern A und B (vgl. Abb. 2.4). Es wird angenommen, dass A B a b Abbildung 2.4: Diffusionsproblem zu jedem Zeitpunkt k N der Übergang eines einzigen Moleküls von A nach B oder von B nach A möglich ist (der gleichzeitige Übergang von zwei oder mehr Molekülen ist unmöglich). Die Wahrscheinlichkeit eines Übergangs von A nach B (oder von B nach A) sei proportional zu der Anzahl der Moleküle in A (B entsprechend). Es sei C k a {zum Zeitpunkt t k gibt es a Molkeüle in Behälter A}, C k b {zum Zeitpunkt t k gibt es b Moleküle in Behälter B} mit N a + b. Bestimme die bedingten Wahrscheinlichkeiten ( ) ( ) P Ca k+ Ck a Cb k, P C k+ k+ Ck a Cb k Lösung: Es gilt P ( ) Ca k+ Ck a Cb k }{{} A B a N

37 KAPITEL 2. WAHRSCHEINLICHKEITEN 33 P ( ) Ca+ k+ Ck a Cb k }{{} B A Dies ist gerade das Urnenmodell aus Beispiel mit c, d. An dieser Stelle sollte man zu den unabhängigen Ereignissen zurückkehren. A und B sind nach Definition unabhängig, falls P (A B) P (A) P (B). Dies ist äquivalent zu P (A B) P (A), falls P (B) > 0. Es sei allerdings an dieser Stelle angemerkt, dass die Definition allgemeiner ist, weil sie auch den Fall P (B) 0 zulässt. Übungsaufgabe Zeigen Sie folgendes:. Seien A, B F. A und B sind (stochastisch) unabhängig genau dann, wenn A und B oder (Ā und B) unabhängig sind. 2. Seien A,..., A n F. Ereignisse A,..., A n sind stochastisch unabhängig in ihrer Gesamtheit genau dann, wenn B,..., B n unabhängig in ihrer Gesamtheit sind, wobei B i A i oder B i Āi für i... n. 3. Seien A, B, B 2 F mit B B 2. Sei A und B, A und B 2 unabhängig. Zeigen Sie, dass A und B B 2 ebenfalls unabhängig sind. Bemerkung Der in Definition gegebene Begriff der stochastischen Unabhängigkeit ist viel allgemeiner als die sogenannte Unabhängigkeit im Sinne des Gesetzes von Ursache und Wirkung. In den folgenden Beispielen wird man sehen, dass zwei Ereignisse stochastisch unabhängig sein können, obwohl ein kausaler Zusammenhang zwischen ihnen besteht. Somit ist die stochastische Unabhängigkeit allgemeiner und nicht an das Gesetz von Ursache und Wirkung gebunden. In der Praxis allerdings ist man gut beraten, Ereignisse, die keinen kausalen Zusammenhang haben als stochastisch unabhängig zu deklarieren. Beispiel Abhängige und unabhängige Ereignisse: Es werde ein Punkt π (X, Y ) zufällig auf [0, ] 2 geworfen. Ω [0, ] 2, F B R 2 [0, ]. Betrachten wir A {X a} und B {Y b}. Dann gilt b N P (A B) P (X a, Y b) ( a)( b) P (A) P (B), insofern sind A und B stochastisch unabhängig. Allerdings kann für B {π CDE} leicht gezeigt werden, dass A und B voneinander abhängig sind (vgl. Abb. 2.5).

38 KAPITEL 2. WAHRSCHEINLICHKEITEN 34 a Abbildung 2.5: Zufälliger Punkt auf [0, ] 2 Abbildung 2.6: Beispiel von Bernstein 2. Beispiel von Bernstein: (Ereignisse, die paarweise unabhängig, jedoch in ihrer Gesamtheit abhängig sind) Ein Tetraeder mit gefärbten Seitenflächen wird zufällig auf den Tisch geworfen. Dabei tragen seine Seitenflächen folgende Farben (vgl. Abb. 2.6):. Seitenfläche: rot 2. Seitenfläche: grün 3. Seitenfläche: blau 4. Seitenfläche: rot, grün und blau Wir gehen davon aus, dass die Wahrscheinlichkeit, dass eine Seitenfläche auf den Tisch fällt, 4 ist (Laplacescher Wahrscheinlichkeitsraum). Führen wir folgende Ereignisse ein: A {auf der Seitenfläche, die auf den Tisch fällt, kommt Farbe rot vor} B {auf der Seitenfläche, die auf den Tisch fällt, kommt Farbe grün vor} C {auf der Seitenfläche, die auf den Tisch fällt, kommt Farbe blau vor} A, B, C sind paarweise unabhängig, denn P (A B) 4 P (A) P (B) 2 2

39 KAPITEL 2. WAHRSCHEINLICHKEITEN 35 P (A C) 4 P (A) P (C) 2 2 P (B C) 4 P (B) P (C). 2 2 Sie sind jedoch nicht unabhängig in ihrer Gesamtheit, denn P (A B C) 4 / P (A) P (B) P (C) Es können n+ Ereignisse konstruiert werden, die abhängig sind, wobei beliebige n von ihnen unabhängig sind (vgl. [3], S ), n N. 4. Kausale und stochastische Unabhängigkeit: Auf das Intervall (0, ) wird auf gut Glück ein Punkt π geworfen. Sei x die Koordinate von π in (0, ). Betrachten wir die binäre Zerlegung der Zahl x: a k x 2 k. k Dann ist klar, dass es einen starken kausalen Zusammenhang zwischen {a n } n gibt, weil sie alle durch x verbunden sind. Man kann jedoch zeigen, dass die Ereignisse {a k B k } k N für alle Borelmengen B k (0, ) unabhängig in ihrer Gesamtheit sind (vgl. [3], S. 62). Definition Sei {B n } eine endliche oder abzählbare Folge von Ereignissen aus F. Sie heißt eine messbare Zerlegung von Ω, falls. B n paarweise disjunkt sind: B i B j, i / j 2. n B n Ω 3. P (B n ) > 0 n. Satz (Formel der totalen Wahrscheinlichkeit, Bayes sche Formel): Sei {B n } F eine messbare Zerlegung von Ω und A F ein beliebiges Ereignis, dann gilt. Die Formel der totalen Wahrscheinlichkeit: P (A) n P (A B n ) P (B n ) 2. Bayes sche Formel: P (B i A) P (B i) P (A B i ) n P (A B n) P (B n ) i falls P (A) > 0. Die Summen in ) und 2) können endlich oder unendlich sein, je nach Anzahl der B n.

40 KAPITEL 2. WAHRSCHEINLICHKEITEN 36 Beweis. Da Ω n B n, ist A A Ω A ( n B n) n (A B n) eine disjunkte Vereinigung von Ereignissen A B n, und es gilt P (A) P ( (A B n )) }{{} P (A B n ) }{{} P (A B n )P (B n ) n σ Add. v. P n S n 2. P (B i A) P (B i A) }{{} P (A) Def }{{} S u ) P (B i )P (A B i ) n P (A B n)p (B n ) Bemerkung Die Ereignisse B n heißen oft Hypothesen. Dann ist P (B n ) die so genannte a priori Wahrscheinlichkeit von B n, also vor dem Experiment A. Die Wahrscheinlichkeiten P (B n A) werden als Wahrscheinlichkeiten des Auftretens von B n nach dem Experiment A interpretiert. Daher heißen sie auch oft a posteriori Wahrscheinlichkeiten von B n. Die Formel von Bayes verbindet also die a posteriori Wahrscheinlichkeiten mit den a priori Wahrscheinlichkeiten. Beispiel Routing Problem: Im Internet muss ein Paket von Rechner S (Sender) auf den Rechner E (Empfänger) übertragen werden. In Abb. 2.7 ist die Geometrie des Computernetzes zwischen S und E schematisch dargestellt, wobei R, R 2, R 3 und R 4 (und andere Knoten des Graphen) jeweils andere Rechner sind, die sich an der Übertragung beteiligen können. Wir gehen davon aus, dass die Richtung der weiteren Übertragung des Paketes in den Knoten zufällig aus allen möglichen Knoten gewählt wird (mit gleicher Wahrscheinlichkeit). So ist z.b. P (von S wird Router R i gewählt) }{{} 4, i,..., n. A i Offensichtlich stellen die Ereignisse A, A 2, A 3, A 4 eine messbare Zerlegung von Ω dar. Nach Satz 2.3.2, ) gilt also für A {das Paket erreicht E aus S} P (A) 4 P (A A i ) P (A i ) 4 i 4 P (A A i ). Dabei können P (A A i ) aus dem Graphen eindeutig bestimmt werden: i P (A A ) 3, P (A A 2) 2,

41 KAPITEL 2. WAHRSCHEINLICHKEITEN 37 Abbildung 2.7: Routing Problem: Computernetzwerk P (A A 3 ), P (A A 4 ) 2 5. Es gilt also P (A) 4 ( ) , In einer Urne gibt es zwei Münzen. Die erste ist fair (Wahrscheinlichkeit des Kopfes und der Zahl 2 ), die zweite ist allerdings nicht fair mit P (Kopf) 3. Aus der Urne wird eine Münze zufällig genommen und geworfen. In diesem Wurf bekommt man einen Wappen. Wie groß ist die Wahrscheinlichkeit, dass die Münze fair war? Sei A {Faire Münze ausgewählt} A 2 {Nicht faire Münze ausgewählt} A 3 {Es kommt ein Wappen im Münzwurf} P (A A )? Dann gilt P (A ) P (A 2 ) 2, P (A A ) 2, gilt nach der Bayeschen Formel P (A ) P (A A ) P (A A) P (A ) P (A A ) + P (A 2 ) P (A A 2 ) P (A A 2) 3, daher ( ) 3 5.

42 Kapitel 3 Zufallsvariablen 3. Definition und Beispiele Definition 3... Eine Abbildung X : Ω R heißt Zufallsvariable, falls sie B R messbar ist, mit anderen Worten, B B R X (B) {ω Ω : X(ω) B} F. 2. Eine Abbildung X : Ω R n, n heißt Zufallsvektor, falls sie B R n messbar ist, mit anderen Worten, B B R n X (B) {ω Ω : X(ω) B} F. Offensichtlich bekommt man aus Definition 3.., 2) auch 3.., ) für n. Viel allgemeiner kann ein Zufallselement X als eine messbare Abbildung von Ω in einen topologischen Raum T eingeführt werden, wobei die Messbarkeit von X bzgl. der Borelschen σ Algebra in T verstanden wird. Beispiel 3... Indikator Funktion eines Ereignisses: Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und A ein Ereignis aus F. Betrachten wir {, ω A X(ω) I A (ω) 0, ω / A. Diese Funktion von ω nennt man Indikator Funktion des Ereignisses A. Sie ist offensichtlich messbar und somit eine Zufallsvariable: A falls B, 0 / B X Ā falls / B, 0 B (B) F B B Ω falls 0, B R falls 0, / B 38

43 KAPITEL 3. ZUFALLSVARIABLEN n maliger Münzwurf: Sei Ω {ω (ω,..., ω n ) : ω i {0, }} {0, } n mit {, falls Kopf im i ten Münzwurf ω i 0, sonst für i... n. Sei F P(Ω). Definieren wir X(ω) X((ω,..., ω n )) n i ω i als die Anzahl der Wappen im n maligen Münzwurf, so kann man zeigen, dass X F messbar ist und somit eine Zufallsvariable. y (x,y) Z 0 3. Koordinaten eines zufälligen Punktes im [0, ] 2 : Ein Punkt π sei zufällig auf das Quadrat [0, ] 2 geworfen. Seien (x, y) die Koordinaten des Punktes. Definieren wir Ω {ω (x, y) : x, y [0, ]} und F B R 2 [0, ] 2. Sei Z(ω) x 2 + y 2 die Distanz von dem zufälligen Punkt zum Koordinatenursprung (vgl. Abb. 3.). Dann ist Z eine Zufallsvariable, π(ω) ω (x, y) ist ein Zufallsvektor. Geben wir im Zusammenhang mit diesem Beispiel ein zufälliges Elex Abbildung 3.: Zufälliger Punkt in [0, ] 2 ment an, genauer gesagt, eine Zufallsmenge. Sei T die Menge aller kompakten Teilmengen in R 2. Sei G σ({{k T : K C / }, C kompakte Menge in T}). Dann ist Ξ(ω) B Z (π) {x R 2 x π Z} eine zufällige kompakte Menge (ein Kreis mit Zentrum in π, der durch den Ursprung geht). Ξ ist formal als Zufallselement Ξ (Ω, F) (T, G) anzugeben.

44 KAPITEL 3. ZUFALLSVARIABLEN 40 Die Definition 3.. im Falle einer Zufallsvariablen (also mit Wahrscheinlichkeitsbereich R) lässt sich in äquivalenter Form leichter prüfen: Satz 3.. Sie Abbildung X : Ω R ist genau dann eine Zufallsvariable, wenn {ω Ω : X(ω) x} F x R. Beweis B (, x] ist eine Borel Menge. Daher gilt nach Definition 3.. weil X eine Zufallsvariable ist. {ω Ω : X(ω) x} X (B) F, Falls {ω Ω : X(ω) x} F x R, sollen wir zeigen, dass X (B) F B B R. Bezeichnen wir mit G {B R : X (B) F}. Zeigen wir, dass G eine σ Algebra der Teilmengen von R ist. (a) R G, weil X (R) Ω F (b) B G B G, weil X ( B) X (B C ) (X (B)) C F (c) A, B G A B G, weil X (A B) X (A) X (B) }{{}}{{} F. Dasselbe gilt für Vereinigungen in unendlicher Anzahl. Somit ist G der Definition nach eine σ Algebra. Weiterhin gehört (, x] zu G x. Daraus folgt, dass (x, ) (, x] C G und (, x) n F F (, x ] G, [a, b] (, b) (a, + ) G n a b R; dasselbe soll auch für beliebige endliche Vereinigungen dieser Intervalle gelten. Somit gehört die Algebra A (vgl. Bemerkung 2.2.2) zu G, A G σ(a) G, wobei σ(a) B R B B R X (B) F, und X ist eine Zufallsvariable.

45 KAPITEL 3. ZUFALLSVARIABLEN Verteilungsfunktion Definition 3.2. Sei (Ω, F, P ) ein beliebiger Wahrscheinlichkeitsraum und X : Ω R eine Zufallsgröße.. Die Funktion F X (x) P ({ω Ω : X(ω) x}), x R heißt Verteilungsfunktion von X. Offensichtlich ist F X : R [0, ]. 2. Die Mengenfunktion P X : B R [0, ] gegeben durch heißt Verteilung von X. Bemerkung 3.2. P X (B) P ({ω Ω : X(ω) B}), B B R. Folgende gekürzte Schreibweise wird benutzt: F X (x) P (X x), P X (B) P (X B). 2. Die Mengenfunktion P X ist ein Wahrscheinlichkeitsmaß auf (R, B R ) (Zeigen Sie es!). Der Übergang P P X nennt man Maßtransport von (Ω, F) auf (B, B R ). 3. Nach Definition 3.2. ist die Begriffsbildung in Definition 3.. klar geworden. Warum fordert man also, dass eine Zufallsvariable X unbedingt messbar sein soll? Ganz einfach, um Wahrscheinlichkeiten von Ereignissen {X B} überhaupt definieren und messen zu können. Ein weiterer Grund wird später klar: Die Zufallsvariablen X werden integriert (nach Lebesgue), um ihre Mittelwerte zu definieren. Für diese Integration braucht man selbstverständlich die Messbarkeit dieser Funktion als Funktion von ω Ω. Beispiel 3.2. Hier geben wir Verteilungsfunktionen für Zufallsvariablen aus dem Beispiel Indikator Funktion: Sei X(ω) I A (ω). Dann ist vgl. Abb. 3.2., x, F X (x) P (I A x) P (A), x [0, ), 0, x < 0

46 KAPITEL 3. ZUFALLSVARIABLEN 42 Abbildung 3.2: Verteilungsfunktion von I A 2. n maliger Münzwurf: Sei X Anzahl der Wappen in n Münzwürfen. P (Wappen in einem Wurf) p, p (0, ). Dann gilt ( ) n P (X k) p k ( p) n k, k 0... n, k und somit F X (x) P (X x) 0 k [x] x [0, n], vgl. Abb Es gilt y [x] ( ) n P (x k) p k ( p) n k, k k0 2 n- n x Abbildung 3.3: Verteilungsfunktion einer Bin(n, p) Verteilung

47 KAPITEL 3. ZUFALLSVARIABLEN 43 F X (0) P (X 0) P (X 0) ( p) n, F X (x) P (X x) 0 für x < 0, F X (n) P (X n). Diese Verteilung wird später Binomial Verteilung mit Parametern n, p genannt: Bin(n, p) 3. Z Abstand von zufälligem Punkt π auf [0, ] 2 zum Ursprung. F Z (t) P (Z t) {(x, y) [0, ]2 : x 2 + y 2 t} [0, ] 2 dx dy π 2 0 (x,y) [0,] 2 : x 2 +y 2 t t 0 rdrdϕ π t πt2, 4 t [0, ]. { F Z (t) 0, t < 0, t 2. Für t (, 2] ist die Berechnung komplizierter: Man muss die Fläche A berechnen können (vgl. Abb. 3.4). y A 0 t x Abbildung 3.4: Berechnung von F Z (t) für t (, 2].

48 KAPITEL 3. ZUFALLSVARIABLEN 44 Übungsaufgabe 3.2. Bitte führen Sie die Berechnung der Fläche A aus Beispiel 3.2., 3) durch und zeigen Sie, dass F Z (t) π 4 t2 + ( ) t 2 t 2 arccos, t (, 2). t Mit Übungsaufgabe 3.2. gilt dann Abb Abbildung 3.5: Die Verteilungsfunktion der Zufallsvariablen Z im Beispiel 3.2., 3) Jetzt diskutieren wir die grundlegenden Eigenschaften einer Verteilungsfunktion: Satz 3.2. Sei X eine beliebige Zufallsvariable und F X : R [0, ] ihre Verteilungsfunktion. F X besitzt folgende Eigenschaften:. Asymptotik: lim x F X (x) 0, lim x + F X (x). 2. Monotonie: F X (x) F X (x + h), x R, h Rechtsseitige Stetigkeit: lim x x0 +0 F X (x) F X (x 0 ) x 0 R. Beweis. Für eine beliebige Folge {x n }, x n gilt F X (x n ) P (X (, x n ]) P X ((, x n ]), (, x n ]. Nach der Stetigkeit des Wahrscheinlichkeitsmaßes P X gilt P X (( ; x n ]) 0 (n ) und damit lim x F X (x) 0.

49 KAPITEL 3. ZUFALLSVARIABLEN 45 Genauso zeigt man, dass lim F X(x) : x + Für x n + (, x n ] R und somit F X (x n ) P X ((, x n ]) P X (R). 2. folgt aus der Monotonie des Wahrscheinlichkeitsmaßes P X : F X (x) P X ((, x]) P X ((, x + h]) F X (x + h), weil (, x] (, x + h], h folgt ebenso wie ) aus der Stetigkeit des Wahrscheinlichkeitsmaßes P X : lim F X(x) lim F X(x 0 + h n ) x x 0 +0 lim P X((, x 0 + h n ]) P X ((, x 0 ]) für beliebiges h n 0, h n 0, weil (, x 0 + h n ] (, x 0 ]. Bemerkung Im Satz 3.2. wurde gezeigt, dass eine Verteilungsfunktion F X monoton nicht fallend, rechtsseitig stetig und beschränkt auf [0, ] ist. Diese Eigenschaften garantieren, dass F X höchstens abzählbar viele Sprungstellen haben kann. In der Tat kann F X wegen F X und 0 F X nur eine endliche Anzahl von Sprungstellen mit Sprunghöhe > ε besitzen, ε > 0. Falls ε n die Menge Q aller rationaler Zahlen durchläuft, wird somit gezeigt, dass die Anzahl aller möglichen Sprungstellen höchstens abzählbar sein kann. Die Grafik einer typischen Verteilungsfunktion ist in Abb. 3.6 dargestellt. 2. Mit Hilfe von F X können folgende Wahrscheinlichkeiten leicht berechnet werden: a < b + P (a < X b) F X (b) F X (a), P (a X b) F X (b) lim F X(x), x a o

50 KAPITEL 3. ZUFALLSVARIABLEN 46 0 x Abbildung 3.6: Typische Verteilungsfunktion denn P (a < X b) P ({X b}\{x a}) P (X b) P (X a) F X (b) F X (a), P (a X b) P (X b) P (X < a) F X (b) lim F X(x) x a 0 mit P (X < a) P (X a) P (X a) lim x a 0 F X (x) nach Stetigkeit von P X. Da P (X < a) F (X a) P (X a) gilt, ist somit lim F X(x) / F X (a) x a 0 und F X im Allgemeinen nicht linksseitig stetig. Übungsaufgabe Drücken Sie die Wahrscheinlichkeiten P (a < X < b) und P (a X < b) mit Hilfe von F X aus. Satz Falls eine Funktion F (x) die Eigenschaften ) bis 3) des Satzes 3.2. erfüllt, dann existiert ein Wahrscheinlichkeitsraum (Ω, F, P ) und eine Zufallsvariable X, definiert auf diesem Wahrscheinlichkeitsraum, derart, dass F X (x) F (x), x R. Beweis Sei Ω R, F B R. Sei A eine Algebra, die von Intervallen (a, b], a < b + erzeugt wird. Definieren wir ein Wahrscheinlichkeitsmaß P additiv auf A durch P ((a, b]) F (b) F (a). Aufgrund der Eigenschaften ) bis 3) von Satz 3.2. ist P ein Wahrscheinlichkeitsmaß auf (Ω, A). Da B R σ(a), kann P nach dem Satz 2.2. von Carathéodory eindeutig

51 KAPITEL 3. ZUFALLSVARIABLEN 47 von A auf σ(a) B R fortgesetzt werden, d.h. es existiert ein Wahrscheinlichkeitsmaß P auf (Ω, B R ) mit P (A) P (A), A A. Somit ist unser Wahrscheinlichkeitsraum (Ω, F, P ) (R, B R, P ) konstruiert. Jetzt definieren wir die Zufallsvariable X(ω) ω, ω R. Dann gilt F X (x) P (X x) P ({ω R : X(ω) x}) P ((, x]) F (x) 0 F (x), x X. Satz Die Verteilung P X einer Zufallsvariable X wird eindeutig durch die Verteilungsfunktion F X von X bestimmt. Beweis Wir sollen zeigen, dass für Zufallsvariablen X und Y auf (Ω, F, P ) mit F X F Y P X P Y folgt. Es ist leicht zu sehen, dass P X P Y auf der Algebra A. Da A A A n i (a i, b i ] ((a i, b i ] paarweise disjunkt) dargestellt werden kann, folgt daraus P X (A) n P X ((a i, b i ]) i n F X (b i ) F X (a i ) i n F Y (b i ) F Y (a i ) i n P Y ((a i, b i ]) P Y (A) i (vgl. Beweis des Satzes 3.2.2). Nach dem Satz 2.2. von Carathéodory folgt P X P Y auf B R σ(a). 3.3 Grundlegende Klassen von Verteilungen In diesem Abschnitt werden wir Grundtypen von Verteilungen betrachten, die dem Schema aus Abbildung 3.7 zu entnehmen sind.

52 KAPITEL 3. ZUFALLSVARIABLEN 48 Verteilungen diskrete Mischung der ersten drei Typen absolut stetige singuläre Abbildung 3.7: Verteilungstypen 3.3. Diskrete Verteilungen Definition Die Verteilung einer Zufallsvariablen X heißt diskret, falls eine höchstens abzählbare Teilmenge C R (Wertebereich von X) mit P (X C) existiert. Manchmal wird auch die Zufallsvariable X selbst als diskret bezeichnet. 2. Falls X eine diskrete Zufallsvariable mit Wertebereich C {x, x 2, x 3,... } ist, dann heißt {p k } mit p k P (X x k ), k, 2,... Wahrscheinlichkeitsfunktion oder Zähldichte von X. Bemerkung Beispiele für diskrete Wertebereiche C sind N, Z, Q, {0,,..., n}, n N. 2. Für die Zähldichte {p k } einer diskreten Zufallsvariable X gilt offenbar 0 p k n und k p k. Diese Eigenschaften sind für eine Zähldichte charakteristisch. 3. Die Verteilung P X einer diskreten Zufallsvariable X wird eindeutig durch ihre Zähldichte {p k } festgelegt: P X (B) P X (B C) P X ( i }) x i B{x P (X x i ) x i B p i, B B R. x i B Insbesondere gilt F X (x) x k x p k P X festgelegt nach Satz Wichtige diskrete Verteilungen: Die Beispiele 3.. und 3.2. liefern uns zwei wichtige diskrete Verteilungen mit Wertebereichen {0, } und {0,,..., n}. Das sind

53 KAPITEL 3. ZUFALLSVARIABLEN 49. Bernoulli Verteilung: X Ber(p), p [0, ] (abkürzende Schreibweise für Zufallsvariable X ist Bernoulli verteilt mit Parameter p ), falls {, mit Wahrscheinlichkeit p, X 0, mit Wahrscheinlichkeit -p. Dann gilt C {0, } und p 0 p, p p (vgl. Beispiel 3.., ) mit X I A ). 2. Binomialverteilung: X Bin(n, p), p [0, ], n N, falls C {0,..., n} und ( ) n P (X k) p k p k ( p) n k, k 0,..., n. k Interpretation: X #{ Erfolge in einem n mal unabhängig wiederholten Versuch}, wobei p Erfolgswahrscheinlichkeit in einem Versuch (vgl. Beispiel 3.2., 2) mit X #{Wappen}. 3. Geometrische Verteilung: X Geo(p), p [0, ], falls C N, und P (X k) p k ( p)p k, k N. Interpretation: X #{unabhängige Versuche bis zum ersten Erfolg}, wobei p Erfolgswahrscheinlichkeit in einem Versuch. 4. Hypergeometrische Verteilung: X HG(M, S, n), M, S, n N, S, n M, falls X : Ω {0,, 2,..., min{n, S}} und P (X k) p k ( S M S ) k)( n k ( M ), k 0,,..., min{n, S}. n Interpretation: Urnenmodell aus Beispiel 2.3., 5) mit X #{schwarze Kugeln bei n Entnahmen aus einer Urne} mit insgesamt S schwarzen und M S weißen Kugeln. 5. Gleichverteilung: X U{x,..., x n }, n N, falls X : Ω {x,..., x n } mit p k P (X x k ) n, k... n

54 KAPITEL 3. ZUFALLSVARIABLEN 50 (wobei U in der Bezeichnung vom englischem uniform kommt). Interpretation: {p k } ist eine Laplacesche Verteilung (klassische Definition von Wahrscheinlichkeiten, vgl. Abschnitt 2.3.). 6. Poisson Verteilung: X P oisson(λ), λ > 0, falls X : Ω {0,, 2,... } N {0} mit λ λk p k P (X k) e k!, k N {0}. Interpretation: X #{Ereignisse im Zeitraum [0, ]}, λ ist die Rate (Häufigkeit), mit der Ereignisse passieren können, wobei P ( Ereignis tritt während t ein) λ t + o( t), P (> Ereignis tritt während t ein) o( t), t und #{Ereignisse in Zeitintervall t i }, i... n sind unabhängig, falls t i, i,..., n disjunkte Intervalle aus R sind. z.b. X #{ Schäden eines Versicherers in einem Geschäftsjahr} X #{ Kundenanrufe eines Festnetzanbieters an einem Tag} X #{ Elementarteilchen in einem Geiger Zähler in einer Sekunde}. Satz 3.3. (Approximationssatz). Binomiale Approximation: Die hypergeometrische Verteilung HG(M, S, n) kann für M, S, S M p durch eine Bin(n, p) Verteilung approximiert werden: Für X HG(M, S, n) gilt ( S M S ) p k P (X k) k)( n k ( M ) n }{{} M,S, S M p ( ) n p k ( p) n k k k 0,..., n 2. Poissonsche Approximation oder Gesetz der seltenen Ereignisse: Die Binomialverteilung Bin(n, p) kann für n, p 0, np λ durch eine Poisson Verteilung P oisson(λ) approximiert werden: X Bin(n, p), p k P (X k) mit k 0,, 2,... ( ) n p k ( p) n k λ λk k }{{} e k!,p 0,np λ

55 KAPITEL 3. ZUFALLSVARIABLEN 5 Beweis. Falls M, S, S M p (0, ), dann gilt ( S M S ) k)( n k ( M ) n S! k!(s k)! n! (n k)!k! (M S) (M k) } {{ } p (M S)! (M S n+k)!(n k)! M! n!(m n)! S M }{{} p (M S )... } {{ } p (S ) (M ) } {{ } p (S k + ) (M k + ) } {{ } p... (M S n + k + )... (M n + ) }{{} p 2. Falls n, p 0, np λ > 0, dann gilt ( ) n p k ( p) n k n! k k!(n k)! pk ( p) n k k! ( ) n }{{} p k ( p) n k k M,S M S p n(n )... (n k + ) n k } {{ } (np) k }{{} λ k ( p) n ( p) }{{ k } weil λ λk e k! ( p) n ( λ n ( p) k )n für n, p 0, np λ, e λ, da p λ (n ). n Bemerkung Die Aussage ) aus Satz 3.3. wird dann verwendet, wenn M und S in HG(M, S, n) Verteilung groß werden (n < 0, M). Dabei wird die direkte Berechnung von hypergeometrischen Wahrscheinlichkeiten umständlich. 2. Genauso wird die Poisson Approximation verwendet, falls n groß und p entweder bei 0 oder bei liegt. Dann können binomiale Wahrscheinlichkeiten nur schwer berechnet werden. Die Geschwindigkeit der Konvergenz in Satz 3.3., 2) gibt folgendes Ergebnis von Prokhorov an: ( n )p k ( p) n k e k k0 k! λ λk }{{},np λ,p 0 2λ n min {2, λ}

56 KAPITEL 3. ZUFALLSVARIABLEN Bei allen diskreten Verteilungen ist die zugehörige Verteilungsfunktion eine stückweise konstante Treppenfunktion (vgl. Bsp., 2 im Abschnitt 3.2.) Absolut stetige Verteilungen Im Gegensatz zu diskreten Zufallsvariablen ist der Wertebereich einer absolut stetigen Zufallsvariablen überabzählbar. Definition Die Verteilung einer Zufallsvariablen X heißt absolut stetig, falls die Verteilungsfunktion von F X folgende Darstellung besitzt: F X (x) x f X (y) dy, x R (3.) wobei f X : R R + [0, ) eine Lebesgue integrierbare Funktion auf R ist, die Dichte der Verteilung von X heißt und das Integral in (3.) als Lebesgue Integral zu verstehen ist. Daher wird oft abkürzend gesagt, dass die Zufallsvariable X absolut stetig (verteilt) mit Dichte f X ist. Im folgenden Satz zeigen wir, dass die Verteilung P X einer absolut stetigen Zufallsvariablen eindeutig durch ihre Dichte f X bestimmt wird: Satz Sei X eine Zufallsvariable mit Verteilung P X.. X ist absolut stetig verteilt genau dann, wenn P X (B) f X (y) dy, B B R (3.2) B 2. Seien X und Y absolut stetige Zufallsvariablen mit Dichten f X, f Y und Verteilungen P X und P Y. Es gilt P X P Y genau dann, wenn f X (x) f Y (x) für fast alle x R, d.h. für alle x R\A, wobei A B R und A dy 0 (das Lebesgue Maß von A ist Null). Beweis. Falls die Darstellung (3.2) gilt, dann kann durch F X (x) P X ((, x]) sofort die Definition bekommen werden. Somit ist X absolut stetig. Falls X absolut stetig ist, dann gilt nach Definition F X (x) x f X (y) dy. Nach dem Satz bestimmt F X die Verteilung P X eindeutig. Da aber die Verteilung in (3.2) genau die Verteilungsfunktion F X besitzt, gilt P X (B) B f X(y) dy B B R.

57 KAPITEL 3. ZUFALLSVARIABLEN Folgt aus den allgemeinen Eigenschaften des Lebesgue Integrals: B g(y) dy 0 B B R g(y) 0 für fast alle y R betrachte g(y) f X (y) f Y (y). Bemerkung (Eigenschaften der absolut stetigen Verteilungen): Sei X absolut stetig verteilt mit Verteilungsfunktion F X und Dichte f X.. Für die Dichte f X gilt: f X (x) 0 x und f X(x) dx (vgl. Abb. 3.8). Diese Eigenschaften sind charakteristisch für eine Dichte, d.h. eine Abbildung 3.8: Die Fläche unter dem Graphen einer Dichtenfunktion ist gleich eins. beliebige Funktion f, die diese Eigenschaften erfüllt, ist die Dichte einer absolut stetigen Verteilung. 2. Es folgt aus (3.2), dass (a) P (a < X b) F X (b) F X (a) b a f X(y) dy, (b) P (X x) {x} f X(y) dy 0, x R, a < b, a, b R (c) f X (x) x als Wahrscheinlichkeit P (X [x, x + x]) interpretiert werden kann, falls f X stetig in der Umgebung von x und x klein ist. In der Tat, mit Hilfe des Mittelwertsatzes bekommt man P (X [x, x + x]) x+ x x f X (y) dy f X (ξ) x, ξ (x, x + x) }{{} (f X (x) + o()) x x 0 f X (x) x + o( x), weil ξ x für x 0 und f X stetig in der Umgebung von x ist.

58 KAPITEL 3. ZUFALLSVARIABLEN Es folgt aus 2b, dass die Verteilungsfunktion F X von X eine stetige Funktion ist. F X kann keine Sprünge haben, weil die Höhe eines Sprunges von F X in x genau P (X x) 0 darstellt (vgl. Abb. 3.9). 0 x Abbildung 3.9: Eine absolut stetige Verteilungsfunktion 4. Sehr of wird f X als (stückweise) stetig angenommen. Dann ist das Integral in Definition das (uneigentliche) Riemann Integral. F X ist im Allgemeinen nur an jeder Stetigkeitsstelle von ihrer Dichte f X differenzierbar. 5. In den Anwendungen sind Wertebereiche aller Zufallsvariablen endlich. Somit könnte man meinen, dass für Modellierungszwecke nur diskrete Zufallsvariablen genügen. Falls der Wertebereich einer Zufallsvariable X jedoch sehr viele Elemente x enthält, ist die Beschreibung dieser Zufallsvariable mit einer absolut stetigen Verteilung günstiger, denn man braucht nur eine Funktion f X (Dichte) anzugeben, statt sehr viele Einzelwahrscheinlichkeiten p k P (X x k ) aus den Daten zu schätzen. Wichtige absolut stetige Verteilungen. Normalverteilung (Gauß Verteilung): X N(µ, σ 2 ) für µ R und σ 2 > 0, falls f X (x) 2πσ e (x µ)2 2σ 2, x R (vgl. Abb. 3.0). µ heißt der Mittelwert von X und σ die Standardabweichung bzw. Streuung, denn es gilt die sogenannte 3σ Regel (Gauß, 82): P (µ 3σ X µ + 3σ) 0, 9973

59 KAPITEL 3. ZUFALLSVARIABLEN x Abbildung 3.0: Dichte und Verteilungsfunktion der N(µ, σ 2 ) Verteilung (vgl. [] S. 2-22). Spezialfall N(0, ): In diesem Fall sieht die Dichte f X folgendermaßen aus: f X (x) e x2 2, x R. 2π Interpretation: X Messfehler einer physikalischen Größe µ, σ Streuung des Messfehlers. Die Verteilungsfunktion F X (x) x (y µ)2 2πσ e 2σ 2 dy kann nicht analytisch berechnet werden (vgl. Abb. 3.0). 2. Gleichverteilung auf [a, b]: X U[a, b], a < b, a, b R, falls f X (x) { b a, x [a, b], 0, sonst (vgl. Abb. 3.). 0 a b x 0 a b x Abbildung 3.: Dichte und Verteilungsfunktion der Gleichverteilung U[a, b]. Interpretation: X Koordinate eines zufällig auf [a, b] geworfenen Punktes (geometrische Wahrscheinlichkeit). Für F X (x) gilt:, x b, F X (x) x a b a, x [a, b), 0, x < a (vgl. Abb. 3.).

60 KAPITEL 3. ZUFALLSVARIABLEN Exponentialverteilung: X Exp(λ) für λ > 0, falls 0 x 0 x Abbildung 3.2: Dichte und Verteilungsfunktion der Exponentialverteilung Exp(λ). f X (x) { λe λx, x 0 0, sonst (vgl. Abb. 3.2). Interpretation: X Zeitspanne der fehlerfreien Arbeit eines Geräts, z.b. eines Netzservers oder einer Glühbirne, λ Geschwindigkeit, mit der das Gerät kaputt geht. F X (x) hat folgende Gestalt: { e λx, x 0, F X (x) 0, x < 0 (vgl. Abb. 3.2). 4. Cauchy Verteilung: X Cauchy(α, λ), falls für λ > 0, α R f X (x) Die Verteilungsfunktion λ π(λ 2 + (x α) 2, x R, vgl. Abb. 3.3 ) Abbildung 3.3: Dichte der Cauchy(α, λ) Verteilung

61 KAPITEL 3. ZUFALLSVARIABLEN 57 F X (x) λ π x dy λ 2 + (y α) 2 x R kann nicht analytisch berechnet werden. Die praktische Interpretation dieser Verteilung ist schwierig, weil sie keinen Mittelwert besitzt. Sie erscheint jedoch als Grenzwert anderer Verteilungen Singuläre Verteilungen Definition Sei X eine Zufallsvariable definiert auf dem Wahrscheinlichkeitsraum (Ω, F, P ). Die Verteilung von X heißt singulär, falls F X stetig ist und F X (x) 0 für fast alle x R gilt, d.h. für x R\M, wobei M M dy 0. Diese Menge M ist die Menge der Wachstumspunkte von F X : M {x R : F X (x + ε) F X (x ε) > 0 ε > 0}. Obwohl das Lebesgue Maß von M Null ist, gilt P X (M) und somit P (X M). Mit anderen Worten kann X Werte nur aus M annehmen. M ist der Wertebereich von X (und die Menge der Wachstumsstellen von F X ) und ist überabzählbar. Beispiel 3.3. Cantor Treppe: Wir werden jetzt die Verteilung einer singulären Zufallsvariable X [0, ] konstruieren. Daher werden wir eine Folge von Verteilungsfunktionen {F n } angeben, für die F n (x) }{{} F X (x) x R. Die Funktionen F n (x) werden wie folgt definiert: F n (x) {, x, 0, x 0 n N geben wir die Konstanzbereiche von F n auf [0, ] an, wobei sie sonst durch lineare Interpolation definiert wird. So ist z.b., x,, x, F (x) 2, x [ 3 ; 2 3 ], 0, x 0, usw. (vgl. Abb. 3.4). 3 4, x [ 7 9, 8 9 ], F 2 (x) 2, x [ 3, 2 3 ], 4, x [ 9, 2 9 ], 0, x 0

62 KAPITEL 3. ZUFALLSVARIABLEN 58 Cantor Treppe: Schritt Cantor Treppe: Schritt Abbildung 3.4: Konstruktion der Cantor Treppe: Schritt und 2. F X (x) lim F n (x) ist offensichtlich eine stetige Verteilungsfunktion (vgl. Abb. 3.5). Die Länge von R\M ist R\M ( 2 3 )k k0, somit ist das Lebesgue Maß von M gleich Null und F X ist singulär. Cantor-Treppe Abbildung 3.5: Cantor Treppe Die Klasse der singulären Verteilungen spielt in den Anwendungen keine große Rolle, deswegen erwähnen wir sie hier nur vollständigkeitshalber Mischungen von Verteilungen Durch eine lineare Kombination der Verteilungen aus den Abschnitten 3.3. bis kann eine beliebige Verteilung konstruiert werden. Dies zeigt der folgende Satz, den wir ohne Beweis angeben: Satz (Lebesgue): Eine beliebige Verteilungsfunktion kann eindeutig als Mischung aus 3 Kom-

63 KAPITEL 3. ZUFALLSVARIABLEN 59 ponenten dargestellt werden: F (x) p F (x) + p 2 F 2 (x) + p 3 F 3 (x), x R, wobei 0 p i, i, 2, 3, p + p 2 + p 3, F ist die Verteilungsfunktion einer diskreten Zufallsvariable X, F 2 ist die Verteilungsfunktion einer absolut stetigen Zufallsvariable X 2, F 3 ist die Verteilungsfunktion einer singulären Zufallsvariable X 3. Bemerkung Diese Mischung von 3 Verteilungen P Xi kann folgendermaßen realisiert werden. Definieren wir eine diskrete Zufallsvariable N, die unabhängig von X i ist, durch mit Wahrscheinlichkeit p, N 2 mit Wahrscheinlichkeit p 2, 3 mit Wahrscheinlichkeit p 3. Dann gilt X d X N für X F X, wobei d die Gleichheit in Verteilung ist (aus dem Englischen d für distribution): X d Y, falls P X P Y. 3.4 Verteilungen von Zufallsvektoren In der Definition 3.., 2) wurden Zufallsvektoren bereits eingeführt. Sei (Ω, F, P ) ein beliebiger Wahrscheinlichkeitsraum und X : Ω R n ein n dimensionaler Zufallsvektor. Bezeichnen wir seine Koordinaten als (X,..., X n ). Dann folgt aus Definition 3.., 2), dass X i, i... n Zufallsvariablen sind. Umgekehrt kann man einen beliebigen Zufallsvektor X definieren, indem man seine Koordinaten X... X n als Zufallsvariablen auf demselben Wahrscheinlichkeitsraum (Ω, F, P ) einführt (Übungsaufgabe). Definition 3.4. Sei X (X... X n ) ein Zufallsvektor auf (Ω, F, P ).. Die Verteilung von X ist die Mengenfunktion P X : B R n [0, ] mit P X (B) P (X B) P ({ω Ω : X(ω) B}), B B R n. 2. Die Verteilungsfunktion F X : R n [0, ] von X ist gegeben durch F X (x,..., x n ) P (X x,..., X N x n ) x,..., x n R. Sie heißt manchmal auch die gemeinsame oder die multivariate Verteilungsfunktion von X, um sie von folgenden marginalen Verteilungsfunktionen zu unterscheiden. 3. Sei {i,..., i k } ein Teilvektor von {,..., n}. Die multivariate Verteilungsfunktion F i,...,i k des Zufallsvektors (X i,..., X ik ) heißt marginale Verteilungsfunktion von X. Insbesondere für k und i i spricht man von den so genannten Randverteilungen: F Xi (x) P (X i x), i... n.

64 KAPITEL 3. ZUFALLSVARIABLEN 60 Satz 3.4. (Eigenschaften multivariater Verteilungsfunktionen): Sei F X : R n [0, ] die Verteilungsfunktion eines Zufallsvektors X (X,..., X n ). Dann gelten folgende Eigenschaften:. Asymptotik: lim F X(x,..., x n ) 0, i... n x,..., x n R, x i lim F X(x,..., x n ), x,...,x n + lim F X(x,..., x n ) F (Xi,...,X ik )(x i... x ik ), x j + j / {i,...,i k } wobei F (Xi,...,X ik )(x i,..., x ik ) die Verteilungsfunktion der marginalen Verteilung von Insbesondere gilt (X i... X ik ) ist, {i,..., i k } {,..., n}. lim F X(x,..., x n ) F Xi (x i ), x j +, j /i i... n (Randverteilungsfunktion). 2. Monotonie: (x,..., x n ) R n h,..., h n 0 F X (x + h,..., x n + h n ) F X (x,..., x n ) 3. Rechtsseitige Stetigkeit: F X (x,..., x n ) lim F X(y... y n ) y i x i +0, i...n (x,..., x n ) R n Beweis Analog zum Satz Definition Die Verteilung eines Zufallsvektors X (X,..., X n ) heißt. diskret, falls eine höchstens abzählbare Menge C R n existiert, für die P (X C) gilt. Die Familie von Wahrscheinlichkeiten {P (X x), x C} heißt dann Wahrscheinlichkeitsfunktion oder Zähldichte von X. 2. absolut stetig, falls eine Funktion f X : R n [0, ] existiert, die Lebesgue integrierbar auf R n ist und für die gilt F X (x,..., x n ) x... xn f X (y,..., y n ) dy n... dy, (x,..., x n ) R n. f X heißt Dichte der gemeinsamen Verteilung von X.

65 KAPITEL 3. ZUFALLSVARIABLEN 6 Lemma 3.4. Sei X (X,..., X n ) ein diskreter (bzw. absolut stetiger) Zufallsvektor mit Zähldichte P (X x) (bzw. Dichte f X (x)). Dann gilt:. Die Verteilung P X von X ist gegeben durch P X (B) P (X x) bzw. P X (B) x B B f X (x) dx, B B R n. 2. Die Koordinaten X i, i... n sind ebenfalls diskrete bzw. absolut stetige Zufallsvariablen mit der Randzähldichte P (X i x) P (X y,..., X i y i, X i x i, X i+ y i+,..., X n y n ) (y...y i,y i+,...,y n) C Beweis bzw. Randdichte f Xi (x) f X (y,..., y i, x, y i+,..., y n ) dy... dy i dy i+... dy n R n x R.. Folgt aus dem eindeutigen Zusammenhang zwischen einer Verteilung und ihrer Verteilungsfunktion. 2. Die Aussage für diskrete Zufallsvektoren ist trivial. Sei nun X (X,..., X n ) absolut stetig. Dann folgt aus Satz 3.4. F Xi (x) lim F X(x... x i, x, x i+,..., x n ) y j +,j /i }{{} x S. v. Fubini x f X (y,..., y n ) dy n... dy ( f X (y,..., y n ) dy... dy i dy i+... dy n ) dy i R } n {{} f Xi (y i ) Somit ist X i absolut stetig verteilt mit Dichte f Xi. Beispiel 3.4. Verschiedene Zufallsvektoren:. Polynomiale Verteilung: X (X,..., X k ) Polynom(n, p,..., p k ), n N, p i [0, ], i... k, n i p i, falls X diskret verteilt ist mit Zähldichte P (X x) P (X x,..., X k x k ) n! x!... x k! px... px k k

66 KAPITEL 3. ZUFALLSVARIABLEN 62 x (x... x k ) mit x i N {0} k i x i n. Die polynomiale Verteilung ist das k dimensionale Analogon der Binomialverteilung. So sind die Randverteilungen von X i Bin(n, p i ), i... k. (Bitte prüfen Sie dies als Übungsaufgabe!). Es gilt P ( k i X i n). Interpretation: Es werden n Versuche durchgefüht. In jedem Versuch kann eines aus insgesamt n Merkmalen auftreten. Sei p i die Wahrscheinlichkeit des Auftretens von Merkmal i in einem Versuch. Sei X i #{Auftretens von Merkmal i in n Versuchen}, i... k. Dann ist X (X,..., X k ) Polynom(n, p,..., p k ). 2. Gleichverteilung: X U(A), wobei A R n eine beschränkte Borel Teilmenge von R n ist, falls X (X,..., X n ) absolut stetig verteilt mit der Dichte { A f X (x,..., x n ), (x,..., x n ) A, 0, sonst, ist (vgl. Abb. 3.6). Im Spezialfall A n i [a i, b i ] (Parallelepiped) A 0 Abbildung 3.6: Wertebereich A einer zweidimensionalen Gleichverteilung sind alle Randverteilungen von X i ebenso Gleichverteilungen: X i U[a i, b i ], i... n Interpretation: X (X,..., X n ) sind Koordinaten eines zufälligen Punktes, der gleichwahrscheinlich auf A geworfen wird. Dies ist die geometrische Wahrscheinlichkeit, denn P (X B) B f X(y) dy B A für B B R n A.

67 KAPITEL 3. ZUFALLSVARIABLEN Multivariate Normalverteilung: X (X,..., X n ) N(µ, K), µ R n, K eine positiv definite n n Matrix, falls X absolut stetig verteilt mit Dichte f X (x) (2π)n det K exp{ 2 (X µ)t K (X µ)}, x R n. ist. Spezialfall zweidimensionale Normalverteilung: Betrachten wir den zwei dimensionalen Fall (n2): Falls µ (µ, µ 2 ), K σ2 ρσ σ 2, σ σ 2 ρ σ2 2 dann gilt det K σ 2σ2 2 ( ρ) und f X (x, x 2 ) ρ2 2πσ σ 2 { ( (x µ ) 2 exp 2( ρ 2 ) (x, x 2 ) R 2, weil σ 2 2ρ(x µ )(x 2 µ 2 ) + (x 2 µ 2 ) 2 )} σ σ 2 σ2 2, Abbildung 3.7: Grafik der Dichte einer zweidimensionalen Normalverteilung K ρ 2 σ 2 ρ σ σ 2 ρ σ σ 2 σ 2 2, (vgl. Abb. 3.7).

68 KAPITEL 3. ZUFALLSVARIABLEN 64 Übungsaufgabe 3.4. Zeigen Sie, dass X i N(µ i, σi 2), i, 2. Diese Eigenschaft der Randverteilungen gilt für alle n 2. Somit ist die multivariate Normalverteilung ein mehrdimensionales Analogon der eindimensionalen N(µ, σ 2 ) Verteilung. Interpretation: Man feuert eine Kanone auf das Ziel mit Koordinaten (µ, µ 2 ). Dann sind X (X, X 2 ) die Koordinaten des Treffers. Durch die Streuung wird (X, X 2 ) (µ, µ 2 ) nur im Mittel. σ 2 und σ2 2 sind Maße für die Genauigkeit des Feuers. 3.5 Stochastische Unabhängigkeit 3.5. Unabhängige Zufallsvariablen Definition Seien X,..., X n Zufallsvariablen definiert auf dem Wahrscheinlichkeitsraum (Ω, F, P ). Sie heißen unabhängig, falls F (X,...,X n)(x,..., x n ) F X (x )... F Xn (x n ), x,..., x n R oder äquivalent dazu, P (X x,, X n x n ) P (X x )... P (X n x n ). 2. Sei {X n } n N eine Folge von Zufallsvariablen definiert auf dem Wahrscheinlichkeitsraum (Ω, F, P ). Diese Folge besteht aus unabhängigen Zufallsvariablen, falls k N i < i 2 < < i k X i, X i2,..., X ik unabhängige Zufallsvariablen (im Sinne der Definition ) sind. Lemma 3.5. Die Zufallsvariablen X,..., X n sind genau dann unabhängig, wenn P (X B,..., X n B n ) P (X B )... P (X n B n ), B,..., B n B R. (3.3) Beweis. Es ist bekannt, dass B R n σ(a), wobei A eine Algebra von Parallelepiped Mengen in R n ist: { } n A endliche Vereinigungen von (a i, b i ], a i < b i. i Für alle B B B n A gilt die Annahme P ((X,..., X n ) B B n ) n P (X i B i ). i

69 KAPITEL 3. ZUFALLSVARIABLEN 65 Nach dem Satz von Carathéodory über die eindeutige Fortsetzung eines Wahrscheinlichkeitsmaßes gilt dann P ((X,..., X n ) B B n ) n P (X i B i ) B B B n σ(a) B R n, also B,..., B n B R. Somit ist die Aussage des Satzes bewiesen. 2. Die Unabhängigkeit von X,..., X n folgt aus der Eigenschaft (3.3) für B i (, x i ], i... n, x i R. i Satz 3.5. (Charakterisierung der Unabhängigkeit von Zufallsvariablen). Sei (X,..., X n ) ein diskret verteilter Zufallsvektor mit dem Wertebereich C. Seine Koordinaten X,..., X n sind genau dann unabhängig, wenn (x,..., x n ) C. P (X x,..., X n x n ) n P (X i x i ) 2. Sei (X,..., X n ) ein absolut stetiger Zufallsvektor mit der Dichte f (X...X n) und Randdichten f Xi. Seine Koordinaten X,..., X n sind genau dann unabhängig, wenn f (X,...,X n)(x,..., x n ) für fast alle (x,..., x n ) R n. i n f Xi (x i ) Beweis. Falls X... X n unabhängig sind, dann folgt die Aussage aus dem Lemma 3.5. für B i {x i }, (x,..., x n ) C. Umgekehrt gilt P (X B,..., X n B n ) P (X x,..., X n x n ) }{{} x B C x n B n C n n i i Q n i P (X ix i ) P (X i x i ) x i B i C i n P (X i B i ), B... B n B R, i wobei C i die Projektionsmengen von C auf die Koordinate i sind.

70 KAPITEL 3. ZUFALLSVARIABLEN Falls X,..., X n absolut stetig verteilt sind und dann gilt n f (X,...,X n) f Xi, i F (X,...,X n)(x,..., x n ) x x xi n i xn xn i f (X,...,X n)(y,..., y n ) dy n... dy n f Xi (y i ) dy n... dy f Xi (y i ) dy i n F Xi (x i ) i x,..., x n R. Somit sind X,..., X n unabhängig. Falls X,..., X n unabhängig sind, dann gilt x xn... f (X,...,X n)(y,..., y n ) dy n... dy n F (X,...,X n)(x,..., x n ) F Xi (x i ) x i n i xi f Xi (y i ) dy i xn... f X (y i )... f Xn (y n ) dy n... dy, x... x n R. Aus den Eigenschaften des Lebesgue Integrals folgt, dass für fast alle x,..., x n R. f (X,...,X n)(x,..., x n ) n f Xi (x i ) i Beispiel Multivariate Normalverteilung: Mit Hilfe des Satzes 3.5. kann gezeigt werden, dass die Komponenten X,..., X n von X (X,..., X n ) N(µ, K) genau dann unabhängig sind, wenn k ij 0, i / j, wobei K (k ij ) n i,j. Insbesondere gilt im zweidimensionalen Fall (vgl. Bsp. 3 Seite 63), dass X und X 2 unabhängig sind, falls ρ 0. Übungsaufgabe 3.5. Zeigen Sie es!

71 KAPITEL 3. ZUFALLSVARIABLEN Multivariate Gleichverteilung: Die Komponenten des Vektors X (X,..., X n ) U(A) sind genau dann unabhängig, falls A n i [a i, b i ] ist. In der Tat gilt dann { A f X (x,..., x n ) Q n i (b i a i ) n i b i a i n i f X i (x i ), x A 0, sonst mit x (x,..., x n ), wobei { 0, falls x i / [a i, b i ] f X (x i ) b i a i, sonst. Implizit haben wir an dieser Stelle benutzt, dass X i U[a i, b i ], i... n (Herleitung: R n f X (x) dx n... dx i+ dx i... dx b i a i, x i [a i, b i ]). Übungsaufgabe Zeigen Sie die Notwendigkeit der Bedingung A n i [a i, b i ]! 3. Zufallsvariablen X und X 2 sind abhängig, X 2 und X2 2 jedoch unabhängig: Sei X (X, X 2 ) absolut stetig verteilt mit Dichte f X (x, x 2 ) { 4 ( + x x 2 ), falls x <, x 2 < 0, sonst. Es kann gezeigt werden, dass f Xi (x i ) { 2, x i < 0, sonst, i, 2, denn f X (x ) f X (x, x 2 ) dx 2 R 4 + falls x [, ] und Null sonst. Somit gilt und X und X 2 sind abhängig. (+x x 2 ) dx x f X (x, x 2 ) / f X (x ) f X2 (x 2 ) x ,

72 KAPITEL 3. ZUFALLSVARIABLEN 68 Zeigen wir, dass X 2 und X2 2 unabhängig sind. P (X 2 u, X2 2 v) P ( X u, X 2 v) u 4 v u v ( + x x 2 ) dx dx 2 u, v [0, ] 0, u oder v 0 u, u [0, ], v v, v [0, ], u, u, v u v, u, v [0, ] }{{} s. u. P (X 2 u) P (X 2 2 v), u, v [0, ], denn x, x [0, ] F X 2(x) i, x 0, sonst woraus folgt, dass i, 2, F X 2,X 2 2 (x, x 2 ) F Y (x, x 2 ) F X 2 (x ) F X 2 2 (x 2 ) x, x 2 ist. Somit gilt die Unabhängigkeit von X und X 2 (vgl. Def. 3.5.). Später werden wir zeigen, dass X 2 und X2 2 unabhängig sind, falls es X und X 2 sind Unabhängigkeit von Klassen von Ereignissen Definition Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und A, A 2 F zwei Klassen von Ereignissen. Man sagt, dass A und A 2 unabhängig sind, falls alle A A, A 2 A 2 unabhängig sind: P (A A 2 ) P (A ) P (A 2 ). 2. Sei {A i } i N eine Folge von Klassen von Ereignissen aus F. Man sagt, dass A, A 2,... unabhängig sind, falls k N, n,..., n k N P ( k A nj ) j k P (A j ), A n A n,..., A nk A nk. j

73 KAPITEL 3. ZUFALLSVARIABLEN 69 Definition Sei X eine Zufallsvariable. Die σ Algebra F X, die von X erzeugt wird, definiert man als F X σ(d) mit wobei D {{ω Ω : X(ω) A}, A A}, A { endliche Vereinigungen von Intervallen (a i, b i ], a i < b i + }. Übungsaufgabe Zeigen Sie, dass F X {X (B), B B R }. Beispiel Sei X eine Zufallsvariable definiert auf dem Wahrscheinlichkeitsraum (Ω, F, P ) mit Ω R und F B R.. Falls dann gilt X(ω) I [0, ) (ω) {, ω [0, ) 0, sonst F X {, R, (, 0), [0, )}., 2. Falls X(ω) eine stetige streng monotone Funktion auf R ist, wobei X(+ ) +, X( ), so gilt F X F B R, weil X : R R eine bijektive Abbildung von R nach R ist, und X (inverse Funktion) mit X (B) B R B B R, weil X stetig. Definition Eine Funktion ϕ : R n R m, n, m N heißt Borelsche Funktion, falls sie B R n messbar ist, d.h. B B R m ist ϕ (B) B R n. Bemerkung 3.5. Offensichtlich gilt Folgendes: Falls X ein n dimensionaler Zufallsvektor ist, dann ist ϕ(x) ein m dimensionaler Zufallsvektor. Übungsaufgabe Prüfen Sie die dazugehörigen Messbarkeitsbedingungen. Satz Die Zufallsvariablen X und X 2 sind genau dann unabhängig, wenn F X und F X2 unabhängig sind. 2. Die Zufallsvariablen X, X 2, X 3,... aus einer Folge {X n } n N sind genau dann unabhängig, wenn F X, F X2,... unabhängig sind. 3. Seien X, X 2 Zufallsvariablen auf (Ω, F, P ) und ϕ, ϕ 2 : R R Borelsche Funktionen. Falls X und X 2 unabhängig sind, dann sind auch ϕ (X ) und ϕ 2 (X 2 ) unabhängig.

74 KAPITEL 3. ZUFALLSVARIABLEN 70 Beweis. Folgt aus Lemma 3.5.: A F X, A 2 F X2 gilt: A {X B }, A 2 {X 2 B 2 } für Borelsche Mengen B, B 2 B R. Dann gilt P (A A 2 ) P (X B, X 2 B 2 ) P (X B ) P (X 2 B 2 ) P (A ) P (A 2 ). 2. Dasselbe aus ) gilt auch für beliebige n Zufallsvariablen. 3. Es gilt F ϕ (X ) F X und F ϕ2 (X 2 ) F X2, denn z.b. {ϕ (X ) B }{{} } {X ϕ (B ) } F X. }{{} F ϕ (X ) B R Da F X und F X2 nach ) unabhängig sind, gilt dasselbe für ihre Teilmengen F ϕ (X ) und F ϕ2 (X 2 ), somit sind auch nach ) ϕ (X ) und ϕ 2 (X 2 ) unabhängig. 3.6 Funktionen von Zufallsvektoren Am Ende des letzten Abschnittes haben wir Funktionen von Zufallsvariablen betrachtet. Es hat sich herausgestellt, dass die Anwendung Borelscher Funktionen auf Zufallsvektoren wieder zu der Bildung von Zufallsvektoren führt. Jetzt werden wir zeigen, dass alle stetigen Abbildungen Borel messbar sind. Lemma 3.6. Jede stetige Funktion ϕ : R n R m ist Borel messbar. Insbesondere sind Polynome ϕ : R n R der Form ϕ(x,..., x n ) k i0 a i x m i... x mn i n, k N, a 0, a,..., a n R, m i,..., m ni N {0}, i... k Borel messbar. Beweis Zu zeigen ist ϕ (B R m) B R n. Es ist bekannt, dass ϕ (B R m) eine σ Algebra ist. Sei D n die Menge aller offenen Teilmengen von R n. Wegen der Stetigkeit von ϕ gilt ϕ (D m ) D n und ϕ (B R m) σ(ϕ (D m )) σ(d n ) B R n, weil σ(d) die minimale σ Algebra ist, die D enthält. Dabei gilt ϕ (B R m) ϕ (σ(d m )) σ(ϕ (D m )), weil ϕ und, kommutativ sind.

75 KAPITEL 3. ZUFALLSVARIABLEN 7 Jetzt untersuchen wir, welchen Einfluss die Abbildung ϕ auf die Verteilung von X ausübt, d.h. was ist die Verteilung von ϕ(x). Satz 3.6. (Transformationssatz) Sei X eine Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, F, P ).. Falls die Abbildung ϕ : R R stetig und streng monoton wachsend ist, dann gilt F ϕ(x) (x) F X (ϕ (x)) x R, wobei ϕ die Umkehrfunktion von ϕ ist. 2. Falls X absolut stetig mit Dichte f X ist und C R eine offene Menge mit P (X C) ist, dann ist ϕ(x) absolut stetig mit Dichte f ϕ(x) (y) f X (ϕ (y)) (ϕ ) (y), y ϕ(c), falls ϕ eine auf C stetig differenzierbare Funktion mit ϕ (x) / 0 x C ist. Beweis. x R gilt F ϕ(x) (x) P (ϕ(x) x) P (X ϕ (x)) F X (ϕ (x)). 2. Nehmen wir o.b.d.a. an, dass C R und ϕ (x) > 0 x R. Für ϕ (x) < 0 verläuft der Beweis analog. Aus Punkt ) folgt F ϕ(x) (x) F X (ϕ (x)) }{{} ϕ (t)y ϕ (x) x f X (y) dy f X (ϕ (t)) (ϕ ) (t) dt x R. Hieraus folgt f ϕ(x) (t) f X (ϕ (t)) (ϕ ) (t) t R. Satz (lineare Transformation) Sei X : Ω R eine Zufallsvariable und a, b R, a / 0. Dann gilt Folgendes:. Die Verteilungsfunktion der Zufallsvariable ax + b ist gegeben durch { ( F x b ) X F ax+b (x) a, a > 0 ( F x b ) ( ) X a + P X x b a, a < Falls X absolut stetig mit Dichte f X ist, dann ist ax + b ebenfalls absolut stetig mit Dichte f ax+b (x) ( ) x b a f X. a

76 KAPITEL 3. ZUFALLSVARIABLEN 72 Beweis. Der Fall a > 0 folgt aus dem Satz 3.6., ), weil ϕ(x) ax +b stetig und monoton wachsend ist. Für den Fall a < 0 gilt F ax+b (x) P (ax + b x) P (ax x b) P (X x b a ) P (X < x b a ) F X ( x b a ) + P ( X x b ). a 2. Folgt aus dem Satz 3.6., 2), weil ϕ(x) ax + b stetig differenzierbar auf C R (offen) mit ϕ (x) a / 0 ist. Satz (Quadrierung) Sei X eine Zufallsvariable auf (Ω, F, P ).. Die Verteilungsfunktion von X 2 ist gegeben durch { F X ( x) F X ( x) + P (X x), falls x 0 F X 2(x) 0, sonst. 2. Falls X absolut stetig mit Dichte f X ist, dann ist auch X 2 absolut stetig mit Dichte { f X 2(x) 2 x (f X( x) + f X ( x)), x > 0 0, sonst. Beweis. Für x < 0 gilt F X 2(x) P (X 2 x) 0. Für x 0 gilt F X 2(x) P (X 2 x) P ( X x) P ( x X x) P (X x) P (X < x) F X ( x) F X ( x) + P (X x). 2. Wegen ) gilt F X 2(x) F X ( x) F X ( x), da im absolut stetigen

77 KAPITEL 3. ZUFALLSVARIABLEN 73 Fall P (X x) 0 x 0. Daher gilt F X 2(x) }{{} y t oder y t x x x 0 x 0 x 0 f X (y) dy 0 f X (y) dy + 2 t f X( t) dt + 2 t Daher gilt die Aussage 2) des Satzes. x x f X (y) dy 0 2 t f X( t) dt ( f X ( t) + f X ( ) t) dt, x 0. Beispiel Falls X N(0, ), dann ist Y µ + σx N(µ, σ 2 ). 2. Falls X N(µ, σ 2 ), dann heißt die Zufallsvariable Y e X lognormalverteilt mit Parametern µ und σ 2. Diese Verteilung wird sehr oft in ökonometrischen Anwendungen benutzt. Zeigen Sie, dass die Dichte von Y durch f Y (x) xσ log(x µ) 2 e 2σ 2, x > 0 2π 0, x 0 gegeben ist. 3. Falls X N(0, ), dann heißt Y X 2 χ 2 verteilt mit einem Freiheitsgrad. Zeigen Sie, dass die Dichte von Y durch { f Y (x) 2πx e x 2, x > 0 0, x 0 gegeben ist. Die χ 2 Verteilung wird sehr oft in der Statistik als die sogenannte Prüfverteilung bei der Konstruktion von statistischen Tests und Konfidenzintervallen verwendet. Satz (Summe von unabhängigen Zufallsvariablen) Sei X (X, X 2 ) ein absolut stetiger Zufallsvektor mit Dichte f X. Dann gilt Folgendes:

78 KAPITEL 3. ZUFALLSVARIABLEN 74. Die Zufallsvariable Y X + X 2 ist absolut stetig mit Dichte f Y (x) f X (y, x y) dy, x R. (3.4) R 2. Falls X und X 2 unabhängig sind, dann heißt der Spezialfall f Y (x) f X (y)f X2 (x y) dy, x R von (3.4) Faltungsformel. Beweis 2) ergibt sich aus ) für f X (x, y) f X f X2 (y) x, y R. Beweisen wir also ): P (Y t) P (X + X 2 t) }{{} y zx+y }{{} Fubini R t x t t f X (x, y) dy dx (x,y) R 2 : x+y t f X (x, z x) dz dx f X (x, z x) dx dz t R R } {{ } f Y (z) f X (x, y) dx dy Somit ist f Y (z) R f X(x, z x) dx die Dichte von Y X + X 2. Folgerung 3.6. (Faltungsstabilität der Normalverteilung): Falls die Zufallsvariablen X,..., X n unabhängig mit X i N(µ i, σ 2 i ) i... n sind, dann gilt n n X + + X n N( µ i, σi 2 ). i i Beweis Induktion bzgl. n. Den Fall n 2 sollten Sie als Übungsaufgabe lösen. Der Rest des Beweises ist trivial. Satz (Produkt und Quotient von Zufallsvariablen): Sei X (X, X 2 ) ein absolut stetiger Zufallsvektor mit Dichte f X. Dann gilt Folgendes:

79 KAPITEL 3. ZUFALLSVARIABLEN 75. Die Zufallsvariable Y X X 2 und Z X X 2 sind absolut stetig verteilt mit Dichten f Y (x) t f X ( x /t, t) dt, x R bzw. R f Z (x) R t f X (x t, t) dt 2. Falls X und X 2 unabhängig sind, dann gilt der Spezialfall der obigen Formeln f Y (x) t f X ( x /t) f X2 (t) dt, x R bzw. R f Z (x) R t f X (x t)f X2 (t) dt. Beweis Analog zu dem Beweis des Satzes Beispiel Zeigen Sie, dass X /X 2 Cauchy(0,), falls X, X 2 N(0, ) und unabhängig sind: f X/X 2 (x) π(x 2 + ), x R. Bemerkung 3.6. Da X und X 2 absolut stetig verteilt sind, tritt das Ereignis {X 2 0} mit Wahrscheinlichkeit Null ein. Daher ist X (ω)/x 2 (ω) wohl definiert für fast alle ω Ω. Für ω Ω : X 2 (ω) 0 kann X (ω)/x 2 (ω) als z.b. definiert werden. Dies ändert den Ausdruck der Dichte von X /X 2 nicht.

80 Kapitel 4 Momente von Zufallsvariablen Weitere wichtige Charakteristiken von Zufallsvariablen sind ihre so genannten Momente, darunter der Erwartungswert und die Varianz. Zusätzlich wird in diesem Kapitel die Kovarianz von zwei Zufallsvariablen als Maß ihrer Abhängigkeit diskutiert. Um diese Charakteristiken einführen zu können, brauchen wir die Definition des Lebesgue Integrals auf beliebigen messbaren Räumen. Beispiel Sei X eine diskrete Zufallsvariable mit dem endlichen Wertebereich C {x,..., x n } und Zähldichte {p i } n i, wobei p i P (X x i ), i,..., n. Wie soll der Mittelwert von X berechnet werden? Aus der Antike sind drei Ansätze zur Berechnung des Mittels von n Zahlen bekannt: das arithmetische Mittel: x n n n i x i das geometrische Mittel: ḡ n n x x 2... x n das harmonische Mittel: h ( n ) n n i x i Um ḡ n und h n berechnen zu können, ist die Bedingung x i > 0 bzw. x i / 0 i... n eine wichtige Voraussetzung. Wir wollen jedoch diese Mittel für beliebige Wertebereiche einführen. Somit fallen diese zwei Möglichkeiten schon weg. Beim arithmetischen Mittel werden belibige x i zugelassen, jedoch alle gleich gewichtet, unabhängig davon, ob der Wert x i0 wahrscheinlicher als alle anderen Werte ist und somit häufiger in den Experimenten vorkommt. Deshalb ist es naheliegend, das gewichtete Mittel n i x iω i zu betrachten, i ω i 0, n i ω i, wobei das Gewicht ω i die relative Häufigkeit des Vorkommens des Wertes x i in den Experimenten ausdrückt. Somit ist es natürlich, ω i p i zu setzen, i,..., n, und schreiben EX n i x ip i. Dieses Mittel wird Erwartungswert der Zufallsvariable X genannt. Der Buchstabe E kommt aus dem Englischen: Expectation. Für die Gleichverteilung auf {x,..., x n }, d.h. p i n, stimmt EX mit dem arithmetischen 76

81 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 77 Mittel x n überein. Wie wir bald sehen werden, kann EX n x i P (X x i ) als i Ω X(ω)P (dω) geschrieben werden, wobei dieses Integral das Lebesgue Integral auf (Ω, F, P ) ist. 4. Lebesguesches Integral Historisch wird das Lebesgue Integral auf (Ω, F, P ) durch Fréchet folgendermaßen eingeführt: für eine Zufallsvariable X auf (Ω, F, P ) gilt EX Ω X(ω)P (dω) lim λ 0 k kλ P (kλ < X(ω) (k + )λ). (4.) In dieser Form wurde es auch von Kolmogorow im Jahre 933 übernommen. Die Erklärung dieser Definition ist einfach: eine beliebige Zufallsvariable X wird durch eine Folge von diskreten Zufallsvariablen X λ approximiert mit den Eigenschaften: X λ (ω) kλ, falls X(ω) (kλ, (k + )λ], k Z. Aus dem Beispiel in der Einführung folgt EX λ k kλp (kλ < X(ω) (k + )λ) EX, }{{} λ 0 {X λ kλ} weil P (ω Ω : X λ (ω) λ 0 X(ω i )) (vgl. Abb. 4.). Die Formel (4.) kann auch sehr leicht folgendermaßen umgeschrieben werden: X(ω)P (dω) lim kλ[f X ((k + )λ) F X (kλ)] Ω λ 0 }{{} k P (kλ<x (k+)λ) was der Definition des so genannten Lebesgue Stiltjes Integrals R xdf X(x) entspricht. Daher gilt EX X(ω)P (dω) xdf X (x). Ω R

82 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 78 Abbildung 4.: Definition des Lebesgue Integrals durch Fréchet Wir werden jetzt jedoch eine allgemeinere Definition des Lebesgue Integrals angeben, die in den meisten modernen Büchern über Wahrscheinlichkeitsrechnung akzeptiert wird: Sei (E, E, µ) ein messbarer Raum, der aus der Grundmenge E, der σ Algebra E der µ messbaren Teilmengen und des Maßes µ besteht, wobei ein Maß eine σ additive nicht negative Mengenfunktion auf E ist. Sei f : E R eine E messbare Abbildung. Wir definieren das Lebesgue Integral E f(x)µ(dx) schrittweise: Definition 4.. Die Abbildung f heißt einfach, falls n f(x) x i I(x A i ), i wobei x i R, A i A j, i / j, n i A i E. Definition 4..2 Das Lebesgue Integral einer einfachen Funktion f bzgl. µ ist n f(x)µ(dx) x i µ(a i ) R {± }. E i Dieser Wert hängt nicht von der Darstellung von f durch n i x ii(x A i ) ab. Das heißt, falls {B i } m i : B i B j, i / j, und Werte {y i } m i mit der Eigenschaft n m f(x) x i I(x A i ) y j I(x B j ), dann gilt i n x i µ(a i ) i j m y j µ(b j ). j

83 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 79 Übungsaufgabe 4.. Beweisen Sie dies! Lemma 4.. Sei f : E R eine nichtnegative E messbare Funktion. Dann existiert eine Folge von einfachen Funktionen {f n } n N, f n 0 n, für die gilt f n (x) f(x) x E Beweis Setzen wir f n (x) n 2 n (vgl. Abb. 4.2). k k 2 I{ k n 2 f(x) < k n 2 } + ni{f(x) n} n Abbildung 4.2: Approximation durch einfache Funktionen Zeigen Sie, dass f n f gilt. Definition 4..3 Sei f(x) 0 x eine E messbare Funktion auf E. Dann heißt f(x)µ(dx) lim f n (x)µ(dx) E das Lebesgue Integral von f. Es kann auch unendliche Werte annehmen. Es kann gezeigt werden, dass für zwei unterschiedliche Folgen von f n f und g n f gilt lim f n (x)µ(dx) lim g n (x)µ(dx). E E Das Integral ist also wohldefiniert. Sei nun f : E R eine beliebige Funktion, die E messbar ist. Bezeichnen wir mit f + (x) max{f(x), 0} und mit f (x) min{f(x), 0}. Es gilt offensichtlich f ± (x) > 0, f(x) f + (x) f (x), f(x) f + (x) + f (x), x E. E

84 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 80 Definition 4..4 Das Lebesgue Integral von f ist durch f(x)µ(dx) f + (x)µ(dx) f (x)µ(dx) E E gegeben, falls min{ E f +(x)µ(dx), E f (x)µ(dx)} <. Somit kann E f(x)µ(dx) auch Werte ± annehmen. Falls E f(x) µ(dx) < angenommen wird, dann gilt E f(x)µ(dx) <. Beispiel 4... E R, µ Lebesgue Maß auf R (Länge), E B(R). Dann ist f(x) µ(dx) f(x) dx, E das Lebesgue Integral auf R im Sinne der mathematischen Analysis 2. E Ω und µ P ein Wahrscheinlichkeitsmaß auf Ω, E F. Dann heißt X(ω)P (dω) EX Ω Erwartungswert von der Zufallsvariable X. Äquivalent (dies wird später noch bewiesen - vgl. späteren Satz ) dazu kann EX auch als R xp X(dx) definiert werden (nach dem Maßtransport Mechanismus). In diesem Fall ist E R, F B(R), µ P X. Da P X (dx) P X ((x, x + dx]) P (x < X x + dx) R F X (x + dx) F X (x) df X (x), x R, somit benutzt man auch die Bezeichnung EX x df X (x). Es ist das so genannte Lebesgue Stiltjes Integral. 4.2 Erwartungswert Somit können wir folgende Definition angeben: Definition 4.2. Sei X eine Zufallsvariable auf (Ω, F, P ). Sei X(ω) X + (ω) X (ω), ω Ω die Zerlegung von X in den positiven und negativen Teil: X + (ω) max{x(ω), 0}, X (ω) min{x(ω), 0}, ω Ω. R E

85 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 8 Falls dann wird min{ X + (ω)p (dω), X (ω)p (dω)} <, Ω Ω Ω X(ω)P (dω) der Erwartungswert von X genannt und als EX bezeichnet. Falls X(ω) P (dω) < Ω (was äquivalent zu max{ Ω X +(ω)p (dω), Ω X (ω)p (dω)} < ist), dann heißt die Zufallsvariable integrierbar. Die Eigenschaften des so definierten Erwartungswertes fallen mit den Eigenschaften des Lebesgue Integrals zusammen: Satz 4.2. (Eigenschaften des Erwartungswertes) Seien X, Y integrierbare Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P ). Dann gilt Folgendes:. Falls X(ω) I A (ω) für ein A F, dann gilt EX P (A). 2. Falls X(ω) 0, ω Ω, dann ist EX Additivität: für beliebige a, b R gilt E(aX + by ) aex + bey. 4. Monotonie: Falls X Y für fast alle ω Ω (man sagt dazu fast sicher und schreibt f.s. ), dann gilt EX EY. Falls 0 X Y fast sicher und lediglich vorausgesetzt wird, dass Y integrierbar ist, dann ist auch X integrierbar. 5. EX E X. 6. Falls X fast sicher auf Ω beschränkt ist, dann ist X integrierbar. 7. Falls X und Y unabhängig sind, dann gilt E(XY ) EX EY. 8. Falls X 0 fast sicher und EX 0, dann gilt X 0 fast sicher. Beweis. folgt aus der Darstellung X(ω) I A (ω) I A (ω)+0 I (ω) Ā und der Definition 4..2 des Lebesgue Integrals für einfache Funktionen. 2. folgt aus Definition 4..3 bis 4.2.: X(ω) X + (ω) X (ω), wobei X (ω) 0 für fast alle ω Ω. Daher gilt EX X + (ω)p (dω) X (ω)p (dω) lim X Ω Ω +(ω)p n (dω) 0 0, Ω

86 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 82 wobei X n + einfache Zufallsvariablen mit den Eigenschaften X n +(ω) 0 ω Ω, X n + X + sind. Dabei haben wir benutzt, dass aus X(ω) 0 f.s. EX 0 folgt. 3. Zunächst soll die Gültigkeit von 3) für einfache Zufallsvariablen X und Y bewiesen werden, dann nach Definition 4..3 für alle X, Y 0 und schließlich nach Definition 4..4 für beliebige X,Y. Wir zeigen es lediglich für einfache X und Y. Der Rest ist eine Übungsaufgabe. Sei X(ω) n x i I Ai (ω), Y (ω) i m y i I Bi (ω). i Damit folgt ax + by a i,j x i I Ai B j + b i,j y j I Ai B j i,j (ax i + by j )I Ai B j mit i,j n m i j und somit E(aX + by ) (ax i + by j )P (A i B j ) i,j n m ax i P (A i ) + by j P (B j ) a i i j n m x i P (A i ) + b y j P (B j ) j aex + bey, a, b R. 4. folgt aus 2) für die Zufallsvariable X Y 0 für fast alle ω Ω. Falls 0 X Y und Y integrierbar, dann gilt 0 EX EY < und somit ist auch X integrierbar. 5. folgt aus 4), weil X X X ist und somit E X EX E X <. 6. folgt aus 4), weil eine Konstante c > 0 existiert, sodass und somit E X Ec c <. X c für fast alle ω Ω

87 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN Zeigen wir es für einfache Zufallsvariablen X und Y. Der allgemeine Fall wird später behandelt. Falls X i x i I Ai, Y j y j I Bj, dann gilt E(XY ) E( i x i I Ai )( j y j I Bj ) E( x i y j I Ai B j ) i,j i,j x i y j P (A i )P (B j ) X u. Y unabh. i,j wobei wir benutzt haben, dass x i y j P (A i B j ) x i P (A i ) y j P (B j ) EX EY, i P (A i B j ) P ({X x i } {Y y j }) P (X x i ) P (Y y j ) P (A i ) P (B j ), i, j. 8. Sei X 0 fast sicher, EX 0. Nehmen wir an, dass X / 0 fast sicher, das heißt P (X > 0) > 0. Es gilt {X > 0} n {X > ε n}, wobei ε n 0, ε > 0 n. Die Folge von Ereignissen {X > ε n } ist monoton wachsend, weil ε n ε n+ n N. Daraus folgt, dass 0 < P (X > 0) lim P (X > ε n) wegen der Stetigkeit von Wahrscheinlichkeitsmaßen und somit Da ε n > 0, bekommt man n N : P (X > ε n ) > 0. EX E ( XI {X>εn}) E ( εn I {X>εn}) εn EI {X>εn} ε n P (X > ε n ) > 0. Damit ist EX > 0, was im Widerspruch zu EX 0 steht. j Bemerkung Aus dem Satz 4.2., 3) und 7) folgt per Induktion, dass (a) Falls X,..., X n integrierbare Zufallsvariablen sind und a,..., a n R, dann ist n i a ix i eine integrierbare Zufallsvariable und es gilt ( n ) n E a i X i a i EX i. i i

88 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 84 (b) Falls X,..., X n zusätzlich unabhängig sind und E X... X n <, dann gilt ( n ) n E X i EX i. i 2. Die Aussage 7) des Satzes 4.2. gilt nicht in umgekehrte Richtung: aus E(XY ) EX EY folgt im Allgemeinen nicht die Unabhängigkeit von Zufallsvariablen X und Y. Als Illustration betrachten wir folgendes Beispiel: (a) Seien X, X 2 unabhängige Zufallsvariablen mit EX EX 2 0. Setzen wir X X und Y X X 2. X und Y sind abhängig und dennoch E(XY ) E(X 2 X 2 ) EX 2 EX 2 0 EX EY 0 EY 0. (b) In der Vorlesung Statistik II wird folgendes bewiesen: falls X N(µ, σ 2), Y N(µ 2, σ2 2 ), dann sind X und Y unabhängig genau dann, wenn E(XY ) EX EY. Folgende Konvergenzsätze werden üblicherweise in der Integrationstheorie für allgemeine Integrationsräume (E, E, µ) bewiesen (vgl. z.b. [2], S ): i Satz (Konvergenz der Erwartungswerte) Seien {X n } n N, X, Y Zufallsvariablen auf (Ω, F, P ). Monotone Konvergenz: (a) Falls X n Y f.s. n N, EY > und X n X, dann gilt EX n EX, n. (b) Falls X n Y f.s. n N, EY < und X n X, dann gilt EX n EX, n. 2. Satz von Lebesgue über die majorisierte Konvergenz Sei X n Y f.s. n N. Falls EY < und X n X fast sicher, dann ist X integrierbar und es gilt EX n EX und E X n X 0 (L Konvergenz). Folgerung 4.2. Falls {X n } n N eine Folge von nicht negativen Zufallsvariablen ist, dann gilt E X n EX n, n n wobei diese Reihe auch divergent sein kann.

89 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 85 Beweis Die Aussage folgt aus dem Satz 4.2.2, ) und 4.2., 3) mit Y n n X i Y i X i. i Satz (Maßtransport im Lebesgue Integral) Sei X (X,..., X n ) ein Zufallsvektor auf dem Wahrscheinlichkeitsraum (Ω, F, P ) und sei g : R n R eine B R n messbare Funktion. Dann gilt Eg(X) g(x(ω))p (dω) Ω g(x)p X (dx) R n (4.2) im Sinne, dass wenn eines der beiden Integrale existiert, dann existiert auch das Andere und sie sind gleich. Dabei benutzen wir die Bezeichnung dx dx... dx n für x (x... x n ). Beweis Nehmen wir zunächst an, dass g(x) I A (x) ist, A B R n. Dann gilt Eg(X) EI {X A} P (X A) P X (A) I A (x)p X (dx), R n und (4.2) gilt. Per Additivität gilt (4.2) also auch für beliebige einfache Funktionen g : R n R. Aus dem Satz 4.2.2, ) für monotone Konvergenz der Lebesgue Integrale folgt die Gültigkeit von (4.2) für beliebige g 0. Der allgemein Fall folgt durch die Darstellung g g + g. Folgerung R n g(x)p X (dx) wird oft als Lebesgue Stiltjes Integral R n g(x)df X (x) geschrieben (vgl. S. 77). Daher gilt Eg(X) R n g(x)df X (x). 2. Falls X absolut stetig verteilt mit Dichte f X ist, dann gilt Eg(X) g(x)f X (x) dx. R n 3. Falls X diskret verteilt mit dem Wertebereich C {x, x 2,... } R n ist, dann gilt Eg(X) i g(x i )P (X x i ) x C g(x)p (X x).

90 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN Falls X eine Zufallsvariable ist, dann gelten die Aussagen des Satzes und der Folgerung 4.2.2, ) 3) für n. Insbesondere gilt EX xp X (dx) xdf X (x) im allgemeinen Fall, EX R R R xf X (x) dx im Fall einer absolut stetigen Zufallsvariablen X mit Dichte f X und EX xp (X x) x C im Fall einer diskreten Zufallsvariablen X mit Zähldichte P (X x) und abzählbaren Wertebereich C R. Beispiele für die Berechnung des Erwartungswertes:. Poisson Verteilung: Sei X Poisson(λ), λ > 0. Dann gilt EX kp (X k) k0 e λ k k n e λ λ λ k λ (k )! n0 k0 λ λk ke k! λ n n! e λ λe λ λ EX λ. 2. Normalverteilung: Sei X N(µ, σ 2 ), µ R, σ 2 > 0. Zeigen wir, dass EX µ. EX y x µ σ weil ye y2 2 dy R t y2 2 R xf X (x) dx 2π σ 2π ( 0 x µ xe ( σ ) 2 2 dx 2π σ (σy + µ)e y2 2 ye y2 2 dy R } {{ } ) dy + µ 2π e y2 2 R }{{} 2π ( + e t dt 0 dy µ, + 0 e t ) 0;

91 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 87 ( ) 2 e y2 2 dy R (x,y) Polarkoord. (r,ϕ) R e x2 2 dx R + + 2π + 0 2π r 2 2 t π( ) e y2 2 R dy e x2 +y 2 2 dx dy e r2 2 rdrdϕ ( ) e r2 r 2 2 d 2 + e y2 2 dy 2π EX µ. 0 d ( e t) 2π 3. Cauchy Verteilung: Sei X Cauchy(0, ). Zeigen wir, dass EX nicht existiert. x 0 E X R π( + x 2 ) dx x dx + π( + x 2 ) + x dx 0 π( + x 2 ) 2 x dx π 0 + x 2 d(x 2 ) π + x 2 d(ln t) +, t+x 2 π somit ist X nicht integrierbar. EX ist aber nicht + oder, sondern er existiert nicht, denn EX ( ) d ln t d ln t + (+ ), 2π und dieser Ausdruck ist nicht definiert. 4.3 Alternative Darstellung des Erwartungswertes Definition 4.3. Falls X eine Zufallsvariable mit der Verteilungsfunktion F X (x) ist, dann heißt F X (x) F X (x) P (X > x) x R, die Tailfunktion (bzw. Schwanzfunktion) der Verteilung von X. Satz 4.3. Sei X eine Zufallsvariable mit E X n < für ein n N. Dann gilt + 0 EX n n x n FX (x) dx n x n F X (x) dx, (4.3) 0 E X n n x n ( FX (x) + F X ( x) ) dx. (4.4)

92 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 88 Beweis Beweisen wir die Formel (4.3). Nach dem Satz EX n x n P X (dx) 0 0 x n P X (dx) + x n P X (dx). 0 x n P X (dx) S. v. Fubini n n n ny n I(y (0, x)) dyp X (dx) y n I(0 < y < x)p X (dx) dy + y n P X (dx) dy y y n FX (y) dy 0 x n P X (dx) EX n n 0 n S. v. Fubini ( ) 0 n n 0 x ny n dyp X (dx) y n I(x < y < 0) dyp X (dx) y n I(x < y)p X (dx) dy y y n x P X (dx) dy }{{} P (X y)f X (x) 0 n y n F X (y) dy. + Die Formel (4.4) wird analog bewiesen. 0 0 y n FX (y) dy n y n F X (y) dy. Folgerung Der Erwartungswert einer integrierbaren Zufallsvariablen X kann somit aus der Formel (4.3) (für n ) als EX berechnet werden F X (x) dx F X (x) dx 2. Falls insbesondere X 0 fast sicher, dann gilt EX + 0 F X (x) dx, denn F X (x) 0, x < 0.

93 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 89 Beispiel 4.3. EX 0 Definition X Exp(λ) F X (x) F X (x) dx { e λx, x 0 F X (x) e λx, x 0 0 e λx dx yλx λ 0, x < 0 0 e y dy λ EX λ. Sei F : R R eine nichtfallende und rechtsseitig stetige Funktion. Ihre verallgemeinerte Inverse Funktion F wird definiert als F (y) inf{x R : F (x) y}, y R, wobei inf gesetzt wird. 2. Die verallgemeinerte Inverse F X einer Verteilungsfunktion F X von der Zufallsvariablen X wird Quantilfunktion von X genannt. Lemma 4.3. Sei X eine Zufallsvariable mit Verteilungsfunktion F X. Dann gilt Folgendes:. Ihre Quantilfunktion F X : [0, ] R ist nichtfallend auf [0, ]. 2. Es gilt y F X (x) F X (y) x y [0, ], x R. 3. Falls F X streng monoton wachsend ist, dann ist F X F X im üblichen Sinne. die Inverse von 4. Falls g, h : R R zwei nichtfallende rechtsseitig stetige Funktionen sind, dann gilt F g(x)+h(x) (y) Fg(X) (y) + Fh(X) (y), y [0, ]. Beweis. folgt aus der Definition ) (vgl. Abb. 4.3). 2. Die Richtung folgt aus der Definition Nun sei umgekehrt F X (y) x. Wegen der Monotonie von F gibt es eine Folge {x n } mit x n x, F X (x n ) y n N. Da F X rechtsseitig stetig ist, folgt daraus F X (x n ) F X (x) y. Dieser Beweis gilt genauso für beliebige monoton nicht fallende rechtsseitig stetige Funktionen F. 3. ist offensichtlich, da F X eine bijektive Abbildung R [0, ] ist.

94 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 90 Abbildung 4.3: Quantilfunktion F X als verallgemeinerte Inverse von F X 4. y [0, ], x R gilt aus Punkt 2) F g(x) (y) x F g(x)(x) y P (g(x) x) y Daher folgt F g(x) (y) g ( F X (y)). Auf ähnliche Weise wird gezeigt, dass Daraus folgt P (X g (x)) y F X (g (x)) y F X (y) g (x) g(f X (y)) x. F h(x) (y) h ( F X (y)), F (g+h)(x) (y) (g + h) ( F X (y)), y [0, ]. F g(x)+h(x) (y) F(g+h)(X) (y) (g + h) ( F X (y)) g ( F X (y)) + h ( F X (y)) F g(x) (y) + Fh(X) (y), y [0, ]. Satz Falls X eine integrierbare Zufallsvariable ist, dann gilt wobei F X EX die Quantilfunktion von X ist. 0 F X (y) dy,

95 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 9 Beweis. Sei X 0 fast sicher. Dann gilt 0 F X (y) dy }{{} Fubini nach der Folgerung 4.3., 2) I(0 x F X }{{ (y) } ) dx dy {F X (x) y} I(F X (y) x) dy dx I(y F X (x)) dy dx F X (x) 2. Analog gilt im Falle X 0 fast sicher 0 F X (y) dy }{{} Fubini nach der Folgerung 4.3., ). dy dx F X (x) dx EX ( F X (x)) dx I(F X }{{ (y) x 0) dx dy } 0 I( y F X (x) }{{} {F X (y) x 0} F X (x) dx EX ) dy dx 3. Im allgemeinen Fall gilt X X + X. Nach Lemma 4.3., 4) gilt F 0 X (y) dy }{{} Lemma 4.3. }{{} ), 2) F X + X (y) dy ( ) F X + (y) + F X (y) dy F X + }{{} 0 (y) dy + F 0 X (y) dy }{{ } 0 EX + + E( X ) E(X + X ) EX

96 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN Varianz Neben dem Mittelwert einer Zufallsvariablen, den der Erwartungswert repräsentiert, gibt es weitere Charakteristiken, die für die praktische Beschreibung der zufälligen Vorgänge in der Natur und Technik sehr wichtig sind. Die Varianz z.b. beschreibt die Streuung der Zufallsvariablen um ihren Mittelwert. Sie wird als mittlere quadratische Abweichung vom Erwartungswert eingeführt: Definition 4.4. Sei X eine Zufallsvariable mit EX 2 <.. Die Varianz der Zufallsvariablen X wird als Var X E(X EX) 2 definiert. 2. Var X heißt Standardabweichung von X. 3. Seien X und Y zwei Zufallsvariablen mit E XY <. Die Größe Cov (X, Y ) E(X EX)(Y EY ) heißt Kovarianz der Zufallsvariablen X und Y. 4. Falls Cov (X, Y ) 0, dann heißen die Zufallsvariablen X und Y unkorreliert. Satz 4.4. (Eigenschaften der Varianz und der Kovarianz) Seien X, Y zwei Zufallsvariablen mit E(X 2 ) <, E(Y 2 ) <. Dann gelten folgende Eigenschaften:. Cov (X, Y ) E(XY ) EX EY, Var X E(X 2 ) (EX) 2. (4.5) 2. Cov (ax + b, cy + d) ac Cov (X, Y ), a, b, c, d R, (4.6) Var (ax + b) a 2 Var (X), a, b R. (4.7) 3. Var X 0. Es gilt Var X 0 genau dann, wenn X EX fast sicher. 4. Var (X + Y ) Var X + Var Y + 2Cov (X, Y ). 5. Falls X und Y unabhängig sind, dann sind sie unkorreliert, also gilt Cov (X, Y ) 0. Beweis. Beweisen wir die Formel Cov (X, Y ) E(XY ) EX EY. Die Darstellung (4.5) für die Varianz ergibt sich aus dieser Formel für X Y. Cov (X, Y ) E(X EX)(Y EY ) E(XY XEY Y EX + EX EY ) E(XY ) EX EY EY EX + EX EY E(XY ) EX EY.

97 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN Beweisen wir die Formel (4.6) Die Formel (4.7) folgt aus (4.6) für X Y, a c und b d. Es gilt Cov (ax + b, cy + d) E ((ax + b aex b)(cy + d cey d)) 3. Es gilt offensichtlich E (ac(x EX)(Y EY )) ac Cov (X, Y ), a, b, c, d R. Var X E(X EX) 2 0, da (X EX) 2 0 ω Ω. Falls X EX fast sicher, dann gilt (X EX) 2 0 fast sicher und somit E(X EX) 2 0 Var X 0. Falls umgekehrt Var X 0, dann bedeutet es E(X EX) 2 0 für (X EX) 2 0. Damit folgt nach Satz 4.2., 8) (X EX) 2 0 fast sicher X EX fast sicher. 4. Var (X + Y ) E(X + Y ) 2 (E(X + Y )) 2 E(X 2 + 2XY + Y 2 ) (EX + EY ) 2 E(X 2 ) + 2E(XY ) + EY 2 (EX) 2 2EX EY (EY ) 2 E(X 2 ) (EX) 2 + E(Y 2 ) (EY ) 2 + 2(E(XY ) EX EY ) }{{}}{{}}{{} Var X Var Y Cov (X,Y ) Var X + Var Y + 2Cov (X, Y ). 5. Falls X und Y unabhängig sind, dann gilt nach dem Satz 4.2., 7) E(XY ) EX EY und somit Cov (X, Y ) E(XY ) EX EY 0. Bemerkung 4.4. Die Varianz von X kann man äquivalent als einführen. Var X min E(X a)2 a R In der Tat gilt E(X a) 2 E(X 2 ) 2aEX + a 2 und somit min E(X a R a)2 E(X 2 ) + min a R (a2 2aEX) E(X 2 ) (EX) 2 Var X, weil arg min a R (a 2 2aEX) EX und somit min a R (a 2 2aEX) (EX) 2 (vgl. Abb. 4.4). Folgerung Es gilt Var a 0 a R. 2. Falls Var X 0, dann ist X const fast sicher.

98 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 94 Abbildung 4.4: Veranschaulichung zu Bemerkung Für Zufallsvariablen X,..., X n mit EXi 2 <, i,..., n gilt ( n ) n Var X i Cov (X i, X j ). i i Var X i + 2 i<j 4. Falls X,..., X n paarweise unkoreliert sind, dann gilt ( n ) n Var X i Var X i. Beweis i Dies gilt insbesondere dann, wenn die Zufallsvariablen X,..., X n paarweise unabhängig sind. ) und 2) folgen aus Satz 4.4., 3). 3) folgt aus dem Satz 4.4., 4) per Induktion bzgl. n (Genaue Ausführung: Übungsaufgabe!). 4) folgt aus 3), weil Cov (X i, X j ) 0 i / j nach der Definition 4.4., 4) und Satz 4.4., 5). i Beispiel Poisson Verteilung: Sei X P oisson(λ), λ > 0. Zeigen wir, dass Var X λ.

99 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 95 Es ist uns bereits bekannt, dass EX λ. Somit gilt Var X E(X 2 ) λ 2 k 2 λ λk e k! k0 }{{} λ 2 P (Xk) e λ (k(k ) + k) λk k! λ2 k e λ k(k ) λk k! + k e λ }{{} mk 2 λ 2 k2 m0 λ k 2 λ 2 (k 2)! e λ λm m! } {{ } Var X λ. k λ λk ke k! } {{ } EXλ + λ λ 2 +λ λ 2 λ. λ 2 2. Normalverteilung: Sei X N(µ, σ 2 ). Zeigen wir, dass Var X σ 2. Wie wir wissen, gilt EX µ und somit Var X E(X µ) 2 (x µ) 2 e (x µ)2 2σ 2 dx 2πσ }{{} y x µ σ σ 2 2π R σ 2 2π R y 2 e y2 2 2π σ 2 ( ye y2 2 dy 2π σ 2 ( 0 + 2π ( ) ye y2 y 2 2 d 2 + ) σ 2. } {{ } f X (x) 2π σ 2 e y2 2 dy ) ( ) yd e y Binomialverteilung: Sei X Bin(n, p). Berechnen wir EX und Var X. Man kann dafür die Darstellung Var X E(X 2 ) (EX) 2 verwenden. Es gibt aber auch eine einfachere Methode, um EX und Var X zu

100 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 96 bestimmen. Dafür gehen wir von der folgenden Interpretation für X aus: n X d #{Erfolge in n unabhängigen Versuchen} d X i, wobei X i Bernoulli(p) und X,..., X n unabhängig. Somit gilt ( n ) n n EX E X i EX i p np, i i i i ( n ) n Var X Var X i }{{} Var X i i Folg. 4.4., 4) i n p( p) np( p). i Dabei haben wir EX i p, Var X i p( p) für X i Bernoulli(p) verwendet (Beweisen Sie es als Übungsaufgabe!). 4. Gleichverteilung: Sei X U[a, b]. Berechnen wir EX und Var X. b x EX a b a dx x 2 b b a 2 b2 a 2 (b a)(b + a) b + a, a 2(b a) 2(b a) 2 b EX 2 x 2 b a dx x 3 b 3(b a) b3 a 3 3(b a) (b a)(b2 + ab + a 2 ) 3(b a) a Somit gilt 3 (b2 + ab + a 2 ). Var X E(X 2 ) (EX) 2 3 (a2 + ab + b 2 ) a a2 + ab + b 2 a2 + 2ab + b a2 + 4ab + 4b 2 3a 2 6ab 8b 2 a2 2ab + b (b a) Kovarianz und Korrelationskoeffizient. (a + b)2 4 Definition 4.5. Seien X und Y zwei Zufallsvariablen mit 0 < Var X, Var Y <. Die Größe ϱ(x, Y ) Cov (X, Y ) Var X Var Y

101 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 97 heißt Korrelationskoeffizient von X und Y. ϱ(x, Y ) ist ein Maß für die lineare Abhängigkeit der Zufallsvariablen X und Y. Satz 4.5. (Eigenschaften des Korrelationskoeffizienten): Seien X und Y zwei Zufallsvariablen mit 0 < Var X, Var Y <. Dann gilt. ϱ(x, Y ). 2. ϱ(x, Y ) 0 genau dann, wenn X und Y unkorreliert sind. Eine hinreichende Bedingung dafür ist die Unabhängigkeit von X und Y. 3. ϱ(x, Y ) genau dann, wenn X und Y fast sicher linear abhängig sind, d.h., a / 0, b R : P (Y ax + b). Beweis Setzen wir X X EX Var X, Ȳ Y EY Var Y. Diese Konstruktion führt zu den sogenannten standardisierten Zufallsvariablen X und Ȳ, für die E X 0, Var X, Cov ( X, Ȳ ) E( XȲ ) ϱ(x, Y ) EȲ. Es gilt 0, Var Ȳ. 0 Var ( X ± Ȳ ) E( X ± Ȳ )2 E( X) 2 ±2E( }{{} X Ȳ ) + E(Ȳ )2 }{{} Var X Var Ȳ 2 ± 2ϱ(X, Y ) ± ϱ(x, Y ) 0 ϱ(x, Y ). 2. Folgt aus der Definition 4.5. und dem Satz 4.4., 5). 3. Falls Y ax + b fast sicher, a / 0, b R, dann gilt Folgendes: Bezeichnen wir EX µ und Var X σ 2. Dann ist EY aµ + b, Var Y a 2 σ 2 und somit ( ) ϱ(x, Y ) E( XȲ X µ ) E ax + b aµ b σ a σ ( ) X µ 2 E sgn a σ sgn a E( X 2 ) sgn a ±. }{{}}{{} Var X X 2

102 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 98 Sei ϱ(x, Y ). O.B.d.A. betrachten wir den Fall ϱ(x, Y ). Aus ) gilt Var ( X Ȳ ) 2 2ϱ(X, Y ) 0 X Ȳ const fast sicher aus dem Satz 4.4., 3). Somit sind X und Y linear abhängig. Für den Fall ϱ(x, Y ) betrachten wir analog Var ( X + Ȳ ) 2 + 2ϱ(X, Y ) 0. Beispiel 4.5. Korrelationskoeffizient einer zweidimensionalen Normalverteilung Sei X (X, X 2 ) N(µ, K) mit µ (µ, µ 2 ) und K σ2 ϱσ σ 2. ϱσ σ 2 σ2 2 Zeigen wir, dass ϱ(x, X 2 ) ϱ. Es gilt ϱ(x, X 2 ) E( X, X 2 ), wobei X X µ σ, X2 X 2 µ 2 σ 2, da wir wissen, dass X i N(µ i, σi 2 ), i, 2. Dann [ ] X µ ϱ(x, X 2 ) E X2 µ 2 σ σ 2 }{{} (x µ )(x 2 µ 2 )f X (x, x 2 ) dx dx 2 σ σ 2 R S ( (x µ )(x 2 µ 2 ) exp ϱ2 2πσ 2σ2 2 2( ϱ 2 ) { (x µ ) 2 σ 2 2ϱ(x µ ) (x 2 µ 2 ) + (x 2 µ 2 ) 2 }) σ σ 2 σ2 2 dx dx 2 y i x i µ i σ i ϱ 2 t y ϱy 2 ϱ 2 ( exp 2π y y 2 2π ) 2( ϱ 2 ) (y2 2ϱy y 2 + y2) 2 dy dy 2 (t ) ϱ 2 + ϱy 2 y 2 exp ( ( t 2 + y 2 ) ) 2 dt dy 2 2

103 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 99 ϱ 2 te t2 2 dt 2π }{{} 0 ϱ 2π ( 2) 0 y 2 e y dy2 }{{} ϱ 2π e t2 2 dt } {{ } 2π y2e 2 y dy2 ) y 2 e y d ( y2 2 2ϱ 2 2π y 2e y e y dy2 0 0 }{{}}{{} ϱ, 0 da y 2 + 2ϱy y 2 + y 2 2 (y ϱy 2 ) 2 + ( ϱ 2 )y 2 2. Wir stellen somit fest, dass ϱ(x, X 2 ) ϱ ist. Dabei ist und somit gilt 2π/2 Cov (X, X 2 ) ϱ(x, X 2 ) Var X Var X 2 ϱ σ σ 2 K σ2 ϱσ σ 2 ϱσ σ 2 σ2 2 (Cov (X i, X j )) 2 i,j. Var X Cov (X, X 2 ) Cov (X, X 2 ) Var X 2 Diese Matrix heißt Kovarianzmatrix des Zufallsvektors X. Nebenbei haben wir auch ein weiteres wichtiges Ergebnis bewiesen: Falls X (X, X 2 ) N(µ, k), dann sind X und X 2 unabhängig genau dann, wenn sie unkorreliert sind, d.h. ϱ(x, X 2 ) 0. Dies folgt aus der obigen Darstellung für K und dem Satz 3.5. für die Produktdarstellung der Dichte von unabhängigen Zufallsvariablen. 4.6 Höhere und gemischte Momente Außer des Erwartungswertes, der Varianz und der Kovarianz gibt es eine Reihe von weiteren Charakteristiken von Zufallsvariablen, die für uns von Interesse sind. Definition 4.6. Seien X, X,..., X n Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P ).. Der Ausdruck µ k E(X k ), k N heißt k tes Moment der Zufallsvariablen X. 2. µ k E(X EX) k, k N heißt k tes zentriertes Moment der Zufallsvariablen X. ( ) 3. E X k... Xkn n, k,..., k n N heißt gemischtes Moment der Zufallsvariablen X,..., X n der Ordnung k k k n.

104 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN E [ (X EX ) k... (X n EX n ) kn] heißt zentriertes gemischtes Moment der Zufallsvariablen X,..., X n der Ordnung k k k n. Anmerkung: (a) Die angegebenen Momente müssen nicht unbedingt existieren, beispielsweise existiert EX k, k N für X Cauchy(0, ) nicht. (b) Offensichtlich ist Var X das zweite zentrierte Moment von X, genauso wie Cov (X, Y ) das zweite zentrierte gemischte Moment von X und Y ist. Dabei haben Momente dritter und vierter Ordnung eine besondere Bedeutung: Definition Der Quotient γ Sch(X) µ 3 E(X EX)3 ( µ2 ) E ( ) X3 3 (Var X) 3 heißt Schiefe oder Symmetriekoeffizient der Verteilung von X. Falls γ > 0, dann ist die Verteilung von X rechtsschief bzw. linkssteil (für γ < 0 linksschief bzw. rechtssteil) vgl. hierzu Abbildung 4.5. Es ist ein Abbildung 4.5: Veranschaulichung der Schiefe einer Verteilung an Hand der Grafik ihrer Dichte Maß für die Symmetrie der Verteilung. 2. Der Ausdruck γ 2 µ 4 E(X EX)4 µ (Var X) 2 3 E ( ) X4 3 heißt Wölbung (Exzess) der Verteilung von X. Es ist ein Maß für die Spitzigkeit der Verteilung: γ 2 > 0 Verteilung steilgipflig γ 2 < 0 Verteilung flachgipflig, vgl. Abb. 4.6.

105 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 0 Die beiden Kerngrößen messen Abweichungen der Verteilung von X Abbildung 4.6: Veranschaulichung der Wölbung einer Verteilung an Hand der Grafik ihrer Dichte von einer Gaußschen N(µ, σ 2 ) Verteilung, für die γ γ 2 0. Übungsaufgabe 4.6. Beweisen Sie, dass γ γ 2 0 für X N(µ, σ 2 ). Momentenproblem: Ist die Verteilungsfunktion F X einer Zufallsvariablen X eindeutig durch ihre Momente µ k EX k, n N bestimmt? Beispiel Falls X N(µ, σ 2 ), dann definieren µ µ und σ 2 µ 2 µ 2 die Dichte (und somit die Verteilung) von X eindeutig. 2. Falls X Bin(n, p), dann ist µ np, Var X µ 2 µ 2 np( p) µ ( p) µ 2 µ 2 p µ 2 µ µ { p µ 2 µ + µ n µ p µ /( µ 2 µ + µ ) µ, µ 2 definieren die Zähldichte (und somit die Verteilung P X ) von X eindeutig. Frage: Was ist im allgemeinen Fall? Die vollständige Antwort geben wir im folgenden Satz. Satz 4.6. Sei X eine Zufallsvariable mit Wertebereich C R, d.h. P (X C), und mit allen endlichen Momenten µ k EX k, n N.

106 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 02. Falls C ein endliches Intervall ist, dann ist die Verteilung P X von X eindeutig durch {µ k } k N bestimmt. 2. Falls C ein unendliches Intervall ist (z.b. C [0, ) oder C R), dann ist es nicht immer der Fall. Wir geben folgende hinreichende Bedingung an: Falls (a) (b) lim sup n µ 2n 2n 2n < oder µ 2n 2n, dann ist P X eindeutig durch {µ n } n N bestimmt. 3. Falls C R und X absolut stetig verteilt mit Dichte f(x) ist, f(x) > 0 x R, dann ist P X nicht eindeutig durch {µ k } k N bestimmt, falls R log f(x) dx + x 2 <. (4.8) Genau dasselbe gilt für f(x) mit C [0, ) und 0 log f(x) dx + x 2 <. Beispiel Sei X N(0, 2 ). Dann ist P X eindeutig durch {µ n } n N bestimmt. Für Y X 3 gilt dies allerdings nicht, denn für Y ist die Dichte gleich f(x) 3 π x 2 3 e x 2 3, x R, und die Bedingung (4.8) ist erfüllt (Bitte weisen Sie es nach!). Jetzt ist es an der Zeit, die Aussage 7) des Satzes 4.2. in folgender allgemeinen Form zu beweisen: Satz Seien X,..., X n Zufallsvariablen mit E X i <, i,..., n, E X... X n <. Falls X,..., X n unabhängig sind, dann gilt E(X... X n ) EX... EX n. Beweis Wir benutzen den Transformationssatz für X (X,..., X n ), ϕ(x,..., x n ) x... x n.

107 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 03 E(X... X n ) }{{} Lemma 3.5. x... x n P X (dx... dx n ) R n... x... x n P X (dx )... P Xn (dx n ) R n i R R x i P Xi (dx i ) n EX i. i Bemerkung 4.6. Eine hinreichende Bedingung für die Existenz des gemischten Momentes E(X... X n ) ist E X i n <, i... n, denn ( n ) E X... X n E X i n I { X i max{ X,..., X n }} i n E X i n <. i 4.7 Ungleichungen Satz 4.7. (Ungleichung von Markow): Sei X eine Zufallsvariable mit E X r < für ein r. Dann gilt Beweis Es gilt P ( X ε) E X r ε r ε > 0. E X r E ( X r I( X ε)) +E ( X r I( X > ε)) }{{} 0 E (ε r I( X > ε)) ε r P ( X > ε), daher P ( X > ε) E X r ε r. Folgerung 4.7. (Ungleichung von Tschebyschew).. Sei X eine Zufallsvariable mit EX 2 < und ε > 0. Dann gilt P ( X EX ε) Var X ε Sei Ee sx < für ein s > 0. Dann gilt P (X ε) EeλX e λε, ε > 0 0 λ s.

108 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 04 Beweis Benutze die Markow Ungleichung für die Zufallsvariable. Y X EX und r 2 und 2. Y e λx 0, ε e λε 0, r. Beispiel 4.7. Der Durchmesser der Mondscheibe wird aus den Bildern der Astrophotographie folgendermaßen bestimmt: bei jeder Aufnahme der Mondscheibe wird ihr Durchmesser X i gemessen. Nach n Messungen wird der Durchmesser als X n n n i X i aus allen Beobachtungen geschätzt. Sei µ EX i der wahre (unbekannte) Wert des Monddurchmessers. Wie viele Beobachtungen n müssen durchgeführt werden, damit die Schätzung X n weniger als um 0, vom Wert µ mit Wahrscheinlichkeit von mindestens 0, 99 abweicht? Mit anderen Worten, finde n: P ( X n µ 0, ) 0, 99. Diese Bedingung ist äquivalent zu P ( X n µ > 0, ) 0, 99 0, 0. Sei Var X i σ 2 > 0. Dann gilt Var X n n 2 n i Var X i n 2 n σ2 σ2 n, wobei vorausgesetzt wird, dass alle Messungen X i unabhängig voneinander durchgeführt werden. Somit gilt nach der Ungleichung von Tschebyschew woraus folgt, dass P ( X n µ > 0, ) Var X n 0, 2 σ2 n 0, 0, n σ2 (0, 0) 2 04 σ 2. Für σ braucht man z.b. mindestens 0000 Messungen! Diese Zahl zeigt, wie ungenau die Schranke in der Ungleichung von Tschebyschew ist. Eine viel genauere Antwort (n 670) kann man mit Hilfe des zentralen Grenzwertsatzes bekommen. Dies wird allerdings erst im Kapitel 7 behandelt. Satz (Ungleichung von Cauchy Bunyakovskii Schwarz) Seien X und Y Zufallsvariablen mit EX 2, EY 2 <. Dann gilt E XY < und E XY EX 2 EY 2. Beweis Falls EX 2 0 oder EY 2 0, dann gilt X 0 fast sicher oder Y 0 fast sicher (vgl. Satz 4.2., 8)). Nach dem Satz 4.2., 3) gilt dann E XY 0, und die Ungleichung ist erfüllt. Nehmen wir jetzt an, dass EX 2 > 0, EY 2 > 0. Führen wir Zufallsvariablen X X EY 2 und Ỹ Y EY 2

109 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 05 ein. Für sie gilt E X 2 EỸ 2. Da 2 XỸ X 2 + Ỹ 2, so folgt daraus 2E XỸ E X 2 + EỸ und somit E XỸ, woraus die Ungleichung folgt: E XY EX 2 EY 2. Satz (Jensensche Ungleichung) Sei X eine Zufallsvariable mit E X < und sei g : R R eine konvexe Borel messbare Funktion. Dann gilt g(ex) Eg(X). Beweis Für eine konvexe Funktion g gilt: x 0 R λ(x 0 ) R : g(x) g(x 0 ) + (x x 0 ) λ(x 0 ). Falls g differenzierbar in x 0 ist, kann z.b. λ(x 0 ) g (x 0 ) genommen werden. Setzen wir x X und x 0 EX, dann bekommen wir g(x) g(ex) + (X EX) λ(ex), oder, Eg(X) g(ex) + (EX EX) λ(ex) g(ex). }{{} 0 Folgerung (Ungleichung von Ljapunow) Sei X eine Zuvallsvariable.. Für 0 < s < t gilt (E X s ) s ( E X t ) t. 2. E X ( E X 2) 2 (E X n ) n. Beweis. Setzen wir g(x) x r, r t s, in der Ungleichung von Jensen mit Y X s. Wir bekommen EY r E Y r, d.h. (E X s ) t s E X s t s E X t (E X ) s (E X ) t. 2. folgt aus ) für eine Folge von s n, t n +, n N. Bemerkung Die erste Ungleichung (E X ) 2 E X 2 in der Kette aus Folgerung 4.7.2, 2) folgt auch aus der Eigenschaft 0 Var X EX 2 (EX) 2 der Varianz von X. 2. Analog zu ) folgt die Ungleichung Cov (X, Y ) Var X Var Y aus der Eigenschaft ϱ(x, Y ) des Korrelationskoeffizienten.

110 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN Aus der Folgerung wird klar, dass aus E X n < folgt E X j <, 0 < j < n. Satz (Ungleichung von Hölder) Seien < p, q < und p + p. Falls E X p < und E Y q <, dann E XY < und E XY (E X p ) p (E Y q ) q. Beweis Der Fall p q 2 folgt aus dem Satz Falls E X p 0 oder E X q 0, dann kann genau wie im Satz die Gültigkeit dieser Ungleichung leicht gezeigt werden. Jetzt nehmen wir an, dass E X p > 0, E Y q > 0. Führen wir die Zufallsvariablen X X (E X p ) p und Ỹ Y (E Y ) q ein. Für sie gilt E X p E Ỹ q. Wir benutzen die Ungleichung x a y b ax + by x, y > 0, a, b > 0, a + b, die aus log x a y b a log x + b log y log(ax + by) folgt, weil log Funktion konkav ist. Wenn wir in diese Ungleichung x X p, y Ỹ q, a p, b q einsetzen, dann bekommen wir XỸ p X p + q Ỹ q und somit E XỸ p E X + E Ỹ q p }{{} q }{{} p + q und somit gilt die Ungleichung von Hölder: E XY (E X p ) p (E Y 2 ) q. E XỸ Bemerkung Falls E X p < für p [, ), dann sagt man, dass die Zufallsvariable X zur Klasse L p L p (Ω, F, P ) gehört. So gehören z.b. alle integrierbaren Zufallsvariablen zur Klasse L, wobei alle Zufallsvariablen mit endlicher Varianz zur Klasse L 2 gehören. 2. Die Bemerkung 4.7., 3) bedeutet L n L j j n. Satz (Minkowski Ungleichung): Falls X, Y L p, p, dann gilt X + Y L p und (E X + Y p ) p (E X p ) p + (E Y p ) p.

111 KAPITEL 4. MOMENTE VON ZUFALLSVARIABLEN 07 Beweis Der Fall p folgt aus der Dreiecksungleichung und der Monotonie des Erwartungswertes. Sei nun p >. Setzen wir q p p. Es gilt somit Dann p + q. E X + Y p E( X + Y p X + Y ) }{{} X + Y E( X + Y p X ) + E( X + Y p Y ) p {}}{ (E X }{{} p ) p (E( X + Y q(p ) )) q + Satz p {}}{ +(E Y p ) p (E( X + Y q(p ) )) q ( ) (E( X + Y p )) q (E X p ) p + (E Y p ) p. Wenn wir beide Seiten dieser Ungleichung durch (E X + Y p ) q dann bekommen wir genau die Minkowski Ungleichung. dividieren,

112 Kapitel 5 Analytische Hilfsmittel der Wahrscheinlichkeitsrechnung Um Gesetze der großen Zahlen und weitere Grenzwertsätze der Wahrscheinlichkeitsrechnung beweisen zu können, brauchen wir einige analytische Werkzeuge aus der Analysis. Sie werden in diesem Kapitel eingeführt und ausführlich behandelt. 5. Charakterisitische Funktionen Um die charakteristischen Funktionen einführen zu können, brauchen wir den Begriff von komplexwertigen Zufallsvariablen. Definition 5.. Sei C die Menge aller komplexen Zahlen und G σ({z C : z x + iy, a < x b, a 2 < y b 2 }, a, b, a 2, b 2 R, a < b, a 2 < b 2 ) die minimale σ Algebra, die alle Ereignisse der Art beinhaltet. Ein Zufallselement (vgl. Definition 3..) X : (Ω, F, P ) (C, G) heißt komplexwertige Zufallsvariable (kzv). Offensichtlich kann eine komplexwertige Zufallsvariable X als X(ω) X (ω) + ix 2 (ω), ω Ω dargestellt werden, wobei X (ω) Re (X(ω)), X 2 (ω) Im (X(ω)) zwei reellwertige Zufallvariablen sind. Durch diese Darstellung werden viele wichtige Begriffe, die für reellwertige Zufallsvariablen eingeführt wurden, sehr 08

113 KAPITEL 5. ANALYTISCHE HILFSMITTEL 09 einfach auf kzv übertragbar. Z.B. wird der Erwartungswert von kzv X als EX EX + iex 2 eingeführt. Dabei gilt X X 2 + X 2 2 und E X 2 E X 2 + E X 2 2. Weiterhin sind kzv X X + ix 2 und Y Y + iy 2 unabhängig, falls die σ Algebren, die von den Zufallsvektoren (X, X 2 ) und (Y, Y 2 ) erzeugt werden, unabhängig sind. Die komplex Konjugierte von X X + ix 2 führt man als X X ix 2 ein. Übungsaufgabe 5.. Zeigen Sie, dass. für eine kzv X EX E X gilt. 2. für unabhängige kzv X und Y die Aussage des Satzes gilt: E(XY ) EX EY. Definition Sei X : Ω R eine reellwertige Zufallsvariable. Die charakteristische Funktion ϕ X von X wird als ϕ X : R C durch ϕ X (t) Ee itx e itx df X (x), t R eingeführt. 2. Sei X : Ω R n ein reellwertiger Zufallsvektor. Die charakteristische Funktion ϕ X von X wird als ϕ X : R n C durch ϕ X (t) Ee i(t,x) e i(t,x) df X (x), t R n R n eingeführt. Wir werden im Folgenden die Eigenschaften von charakteristischen Funktionen für Zufallsvariablen formulieren, obwohl sehr viele von ihnen auf charakteristische Funktionen von Zufallsvektoren leicht übertragbar sind. Satz 5.. Sei X : Ω R eine beliebige Zufallsvariable.. Ihre charakteristische Funktion ϕ X existiert t R und für sie gilt R ϕ X (t) ϕ X (0), also ϕ X : R B (0) C, wobei B (0) {z C : z }. 2. ϕ X ( t) ϕ X (t), t R. 3. a, b R gilt ϕ ax+b (t) e itb ϕ X (at), t R. 4. ϕ X ist gleichmäßig stetig auf R.

114 KAPITEL 5. ANALYTISCHE HILFSMITTEL 0 5. Falls X,..., X n unabhängige reellwertige Zufallsvariablen auf (Ω, F, P ) mit charakteristischen Funktionen ϕ Xi sind, dann gilt ϕ P n i X (t) n ϕ i Xi (t), t R. i Beweis. Die kzv e itx B (0) {z C : z } fast sicher. Daher ϕ X (t) Ee itx E e itx E(). }{{} Übungsaufgabe 5.. Somit existiert der Erwartungswert in der Definition 5.. immer, und die charakteristische Funktion einer beliebigen Zufallsvariablen existiert für alle t R. Die Eigenschaft ϕ X (0) ist offensichtlich. 2. ϕ X ( t) Ee itx E(cos( tx) + i sin( tx)) E(cos(tX) i sin(tx)) E cos(tx) ie(sin(tx)) (E cos(tx) i sin(tx)) Ee itx ϕ X (t), t R. 3. ϕ ax+b (t) Ee it(ax+b) }{{} e itb E ( e iatx) const e itb ϕ X (at), t R, a, b R. 4. Zu zeigen: ϕ X (t + h) ϕ X (t) 0 unabhängig von t R. In der h 0 Tat, ( ϕ X (t + h) ϕ X (t) Ee i(t+h)x Ee itx ( E e itx e ihx )) E( e itx e ihx ) E e ihx 0 }{{} h 0 nach dem Satz 4.2.2, 2) über die majorisierte Konvergenz, weil e ihx e ihx + 2 h R. 5. Es gilt ( ϕ P n i X (t) P n n i Eeit i X i E n Ee itx i i i e itx i ) n ϕ Xi (t), t R, weil aus der Unabhängigkeit von X,..., X n die Unabhängigkeit von e itx,..., e itxn folgt (vgl. Übungsaufgabe 5..). i

115 KAPITEL 5. ANALYTISCHE HILFSMITTEL Beispiel 5... Zeigen wir, dass für X Bernoulli(p) ϕ X (t) pe it + ( p). gilt. In der Tat, ϕ X (t) Ee itx e it P (X ) + e it 0 P (X 0) e it p + ( p) pe it + p. 2. Sei P Poisson(λ), λ > 0. Zeigen wir, dass ϕ X (t) Ee itx ϕ X (t) e λ(eit ), t R. k0 e itk P (X k) k0 k0 e itk λ λk e k! ( λe e λ it ) k e λ e λeit e λ(eit ). k! 3. Sei X N(µ, σ 2 ). Zeigen wir, dass ϕ X (t) e itµ t2 σ 2 2. Es gilt X µ + σy, wobei Y X µ σ N(0, ). Wegen der Eigenschaft 3) des Satzes 5.. gilt ϕ X (t) e itµ ϕ Y (σt). Somit genügt es, ϕ Y (t) für Y N(0, ) zu berechnen. Zeigen wir, dass ϕ Y (t) e t2 2 und somit ϕ X (t) e itµ e σ2 t 2 2 gilt. ϕ Y (t) Ee ity 2π 2π n0 R n0 (it) n n! R e itx e x2 2 dx (itx) n e x2 2 dx n! x n e x2 2 dx 2π R }{{} 8 >< EY n n! >: 2 n 2 ( n 2 0, n ungerade (it) 2n (2n)! (2n)! 2 n n! n0 n0 ( ) n t2 2 n0 n! )!, n gerade ( t 2 ) n (2n)! e t2 2, t R. (2n)! 2 n n! ist

116 KAPITEL 5. ANALYTISCHE HILFSMITTEL 2 Übungsaufgabe 5..2 (a) Zeigen Sie, dass alle Übergänge (Vertauschung von und ) in letztem Beispiel korrekt sind. (b) Zeigen Sie, dass für Y N(0, ). 0, n ungerade EY n n! 2 n, n gerade 2 ( n 2 )! Satz 5..2 (Weitere Eigenschaften von charakteristischen Funktionen) Sei X eine Zufallsvariable mit Verteilungsfunktion F X und charakteristischer Funktion ϕ X. Dann gilt folgendes:. ϕ X ist reellwertig genau dann, wenn die Verteilung von X symmetrisch ist. 2. Falls E X n < für ein n N, dann existiert die r te Ableitung ϕ (r) X (t) von ϕ X für alle r n, und es gilt ϕ (r) X (t) (ix) r e itx df X (x), t R (5.) R EX r ϕ(r) X (0) i r, (5.2) ϕ X (t) n (it) r EX r + (it)n ε n (t) (Taylor Entw. von ϕ X ) (5.3) r! n! r0 wobei ε n (t) 3E X n und ε n (t) 0 für t Falls ϕ (2n) (0) existiert und endlich ist, dann gilt 4. Falls E X n < n N und lim sup EX 2n <. n E X n n e R <, dann gilt ϕ(t) n0 (it) n EX n t R : t < R. n!

117 KAPITEL 5. ANALYTISCHE HILFSMITTEL 3 5. Falls ϕ X (t 0 ) für ein t 0 / 0, dann ist der Träger der Verteilung von X (der Wertebereich von X) { C a + nh : n Z, h 2π } t 0 für ein a R. 6. Falls ϕ X (t) ϕ X (αt) für zwei Punkte t und αt, α R\Q, t / 0, dann gilt X const fast sicher. 7. Falls ϕ X (t) t R, dann gilt X const fast sicher. Beweis. Die Verteilung von X ist symmetrisch, falls wobei B { x : x B}. P X (B) P X ( B) B B(R), (a) Falls P X symmetrisch ist, dann gilt R sin(tx)df X(x) 0, weil sin(tx) eine beschränkte ungerade Funktion von x R ist. Somit gilt ϕ X (t) E cos(tx) + i E(sin(tX)) E cos(tx) R t R }{{} 0 und ϕ X ist reellwertig. (b) umgekehrt, falls ϕ X (t) R t R, dann folgt aus dem Satz 5.., 2), dass ϕ X (t) ϕ X ( t) ϕ X (t) ϕ X (t), t R. In der Folgerung 5.. wird bewiesen, dass somit P X P X folgt, d.h., P (X B) P ( X B) P (X B), B B(R), was die Symmetrie der Verteilung von X bedeutet. 2. Falls E X n <, dann folgt aus der Ungleichung von Ljapunow (Folgerung 4.7.2) E X r < r n. Beweisen wir die Gültigkeit der Darstellung (5.) induktiv. Aus dem Beweis des Satzes 5.., 4) folgt ϕ X (t + h) ϕ X (t) h E ( ( e e itx ihx )). h Da e ihx h x x R, h 0

118 KAPITEL 5. ANALYTISCHE HILFSMITTEL 4 und E X <, die majorisierte Konvergenz von Lebesgue (vgl. Satz 4.2.2, 2) ) ergibt, dass ( ( e lim E e itx ihx )) h 0 h Somit (Basis der Induktion). ( E i R e itx lim h 0 xe itx df X (x). ϕ X(t) ie ( Xe itx) i xe itx df X (x). R ( e ihx )) ie ( Xe itx) h Übungsaufgabe 5..3 Führen Sie die Induktion zu Ende und zeigen Sie die Gültigkeit von (5.) für alle r n. Die Formel (5.2) folgt direkt aus (5.), da Für t 0 bekommt man (5.2). ϕ (r) X (t) ir E ( X r e itx). Um die Taylorentwicklung (5.3) zu beweisen, benutzen wir die Taylorentwicklung für e iy : e iy cos y + i sin y n k0 (iy) k k! + (iy)n (cos(θ y) + i sin(θ 2 y)), n! y, Θ, Θ 2 R, Θ, Θ 2. Somit gilt e itx n k0 (itx) k k! + (itx)n (cos(θ tx) + i sin(θ 2 tx)), n! wobei Θ und Θ 2 hier Zufallsvariablen sind. Somit wobei ϕ X (t) E ( e itx) n k0 (it) k k! EX k + (it)n (EX n + ε n (t)), n! ε n (t) E [X n (cos(θ tx) + i sin(θ 2 tx) )]. Daraus folgt, dass ε n (t) 3E X n. Der Satz von Lebesgue über die majorisierte Konvergenz ergibt ε n (t) 0, falls t 0. 3, 4. ohne Beweis (vgl. Beweis in [2], S ).

119 KAPITEL 5. ANALYTISCHE HILFSMITTEL 5 5. Falls ϕ X (t 0 ), t 0 / 0, dann a R : ϕ X (t 0 ) e it0a. Daraus folgt e it 0a ϕ X (t 0 ) e it0x df X (x) R R e it0(x a) df X (x) cos(t 0 (x a))df X (x) R R ( cos(t 0 (x a)))df X (x) 0 R E( cos(t 0 (X a)) ) 0, }{{} Y wobei Y 0 fast sicher. Aus der Eigenschaft 8) des Satzes 4.2. folgt Y 0 fast sicher, somit cos(t 0 (X a)) fast sicher, was darauf hindeutet, dass fast sicher t 0 (X a) 2πn, n Z X a + n 2π t 0, n Z fast sicher und 5) ist bewiesen für h 2π t Falls ϕ X (t) ϕ Y (αt), dann folgt aus 5), dass X a + 2π t n, n Z fast sicher und X b + 2π m, m Z fast sicher für a, b R. αt Falls X / const., dann unterschiedliche n, n 2, m,m 2 Z : n / n 2, m / m 2 und a + 2π t n b + 2π αt m, a + 2π t n 2 b + 2π αt m 2 ( mindestens zwei gleiche Paare in den Mengen {a + 2π t n, n Z} und {b + 2π αt m, m Z}); d.h., 2π t (n n 2 ) 2π αt (m m 2 ) α Q, was den Bedingungen des Satzes widerspricht. Daher ist X const fast sicher. 7. folgt offensichtlich aus 6). Satz 5..3 (Umkehrformel): Sei X eine Zufallsvariable mit Verteilungsfunktion F X und charakteristischer Funktion ϕ X.

120 KAPITEL 5. ANALYTISCHE HILFSMITTEL 6. Für beliebige Punkte a, b R : a < b und F X stetig in a, b gilt F X (b) F X (a) lim x 2π x x e ita e itb ϕ X (t) dt. it 2. Falls R ϕ X(t) dt <, dann ist X absolut stetig verteilt mit Dichte f X (x) e itx ϕ X (t) dt. 2π R Beweis Um die Hauptidee des Beweises und die intuitive Bedeutung der Umkehrformel heuristisch zu vermitteln, betrachten wir zunächst den Fall einer absolut stetigen Zufallsvariablen X mit Dichte f X. Dann gilt F X (b) F X (a) nach 2) S. v. Fubini somit gilt die Umkehrformel in ). b a 2π 2π 2π f X (x) dx b a R R R ϕ X (t) e itx ϕ X (t) dt dx b a e itx dx dt ϕ X (t) e ita e itb it. a, b, c R, a < b, c > 0 gilt mit Fubini und ϕ X (t) R eitx df X (x) c 2π c weil c c e ita e itb ϕ X (t) dt it ( ) c e it(x a) e it(x b) dt df X (x) R 2π c it ( c sin(t(x a)) dt c sin(t(x b)) π t π t R e it(x a) it dt 0 c c c 0 cos(t(x a)) it sin(t(x a)) t c cos(t(x a)) i 0 t 0 c dt + c 0 sin(t(x a)) t dt, ) dt df X (x), dt ( ) 3 sin( t(x a)) dt + d( t) c t }{{} 0 i Subst. y t ( ) 2 cos( t(x a)) d( t) c t }{{} Subst. y t

121 KAPITEL 5. ANALYTISCHE HILFSMITTEL 7 Dasselbe gilt für c sin(t(x a)) 2 0 t c sin(t(x a)) 2 dt. 0 t c c Aus der Analysis weiß man, dass somit ist c 0 sin(x) x g x,a (c) π e it(x b) it ( c i c ) cos(t(x a)) dt 0 0 t }{{} 0 dt. dx sgn c π 2, (5.4) c 0 sin(t(x a)) t beschränkt für alle x, a R (als Funktion g x,a : [0, ) R). Es folgt aus dem Satz von Lebesgue über die majorisierte Konvergenz, dass c e ita e itb lim ϕ X (t) dt lim (g x,a (c) g c,b (c))df X (x) c 2π c it c R lim (g x,a(c) g x,b (c))df X (x) R c (5.4) R π π 2 (sgn (x a) sgn (x b))df X(x) a ( ( ))df X (x) + (0 ( ))df X (x) + a<b 2 2 {a} }{{}}{{} + 2 b a + 0 ( ( ))df X (x) ( )df X (x) 2 b }{{} 0 dt 0, da F X stetig in a und b ist {b} ( 0)dF X (x) }{{} 0, da F X stetig in a und b ist b a + df X (x) F X (b) F X (a). 2. Sei R ϕ X(t) dt <. Definieren wir f(x) 2π R e itx ϕ X (t) dt. Es folgt aus dem Satz von Lebesgue über die majorisierte Konvergenz, dass f(x) eine stetige Funktion ist und somit integrierbar auf [a, b]. Es

122 KAPITEL 5. ANALYTISCHE HILFSMITTEL 8 gilt b a f(x) dx Fubini b e itx ϕ X (t) dt dx a 2π R b ϕ X (t) e itx dx dt 2π R lim c 2π c c ) F X (b) F X (a) a ϕ X (t) e ita e itb it dt für alle a < b, die Stetigkeitspunkte von F X sind. Daraus folgt F X (b) b da F X eine Dichte f X besitzt. f(y) dy b R f X (x) f(x) x R Folgerung 5.. (Eindeutigkeitssatz) Die charakteristische Funktion ϕ X einer Zufallsvariablen X bestimmt ihre Verteilung P X eindeutig. Beweis Zu zeigen ist: Falls X und Y zwei Zufallsvariablen mit charakterisitschen Funktionen ϕ X und ϕ Y sind, und ϕ X ϕ Y, dann gilt P X P Y. Falls ϕ X ϕ Y, dann folgt aus dem Satz 5..3 F X (b) F X (a) F X (b) F X (a) für alle Stetigkeitspunkte a, b von F X und F Y. Da jede Verteilungsfunktion höchstens abzählbar viele Sprungstellen haben kann, {a n } R : a n ± und a n sind Stetigkeitspunkte von F X und F Y. Somit gilt F X (b) F X (b) lim F X(a n ) }{{} 0 F Y (b) lim F Y (a n ) F Y (b), }{{} 0 für alle Stetigkeitspunkte b R von F X und F Y. Somit gilt auch F X F Y, weil sie rechtsseitig stetig sind. Aus dem Satz ergibt sich die Gleichung P X P Y. Wir geben jetzt (ohne Beweis) folgende wichtige Charakterisierungsaussagen über die charakteristische Funktion an: Satz Satz von Bochner Kchintschin: Sei ϕ : R C eine stetige Funktion mit ϕ(0). Sie ist eine charakteristische Funktion einer Verteilung P X genau dann, wenn sie positiv semidefinit ist, d.h. n N t,..., t n R, z,..., z n C, gilt n ϕ(t i t j )z i z j 0. i,j

123 KAPITEL 5. ANALYTISCHE HILFSMITTEL 9 2. Satz von Pólya: Sei ϕ : R R + eine stetige gerade Funktion mit ϕ(0), lim t ϕ(t) 0, die konvex auf R + [0, ) ist. Dann ist ϕ eine charakteristische Funktion einer Verteilung. 3. Satz von Marcinkiewicz: Falls eine charakteristische Funktion ϕ X die Form ϕ X (t) e P (t) hat, wobei P (t) ein Polynom des Grades n ist, dann gilt n 2. Übungsaufgabe 5..4 Beweisen Sie die Notwendigkeit der positiven Semidefinitheit im Satz von Bochner Kchintchin. Bemerkung 5.. Der Satz von Pólya gibt eine bequeme Methode zur Konstruktion von charakteristischen Funktionen an. So sind z.b. und ϕ(t) e t (vgl. Abb. 5.) (5.5) Abbildung 5.: Grafik der charakteristischen Funktion (5.5) ϕ(t) { t, t 0, t > (vgl. Abb. 5.2) (5.6) gültige charakteristische Funktionen (bitte prüfen Sie es!). Andererseits, ist es sofort klar, dass ϕ(t) e t3 oder ϕ(t) e t4 keine charakteristischen Funktionen nach dem Satz von Marcinkiewicz sind. Übungsaufgabe Zeigen Sie mit Hilfe der charakteristischen Funktionen die Faltungsstabilität der Normal und Poissonverteilung. 2. Sind die Funktionen ϕ(t) + t, ϕ(t) + t, ϕ(t) sin t, ϕ(t) cos t, ϕ(t) + t 2 charakteristisch? Falls ja, welche Verteilungen stehen dahinter?

124 KAPITEL 5. ANALYTISCHE HILFSMITTEL 20 Abbildung 5.2: Grafik der charakteristischen Funktion (5.6) 5.2 Erzeugende Funktionen In diesem Abschnitt betrachten wir Zufallsvariablen X mit Wertebereich Z, d.h. P (X Z). Die charakteristische Funktion so einer Zufallsvariable X mit Zähldichte {p k } k Z, p k P (X k), k Z sieht folgendermaßen aus: ϕ X (t) Ee itx k Z e itk p k k Z ( e it ) k pk z k p k, wobei z e it B (0). Daraus folgt, dass die Verteilung von X eindeutig durch das Verhalten der Funktion g X (z) k Z zk p k, z C, z auf dem Kreis {z C : z } definiert ist. Die Funktion g X hat einen Namen: die erzeugende Funktion von X. Definition 5.2. Sei X eine diskrete Zufallsvariable mit dem Wertebereich in Z. Dann heißt g X (z) Ez X, z, z C erzeugende Funktion von X. Alle Eigenschaften der charakteristischen Funktion übertragen sich auf erzeugende Funktionen durch die offensichtliche Substitution der Variablen z e it : ϕ X (t) g X (e it ), t R. Satz 5.2. (Eigenschaften von erzeugenden Funktionen) Sei X eine diskrete Zufallsvariable mit dem Wertebereich Z + N {0} und Zähldichte {p k } k0. Für die erzeugende Funktion g X(z) k0 p kz k, z gelten folgende Eigenschaften:. g X (z) ist analytisch in {z C : z < }. k Z 2. Die Verteilung von X ist eindeutig durch g X bestimmt: p k g(k) X (0), k Z +. k! 3. (faktorielle Momente) d k g X (z) dz n g (k) X () E (X(X )... (X k + )), k Z +. z

125 KAPITEL 5. ANALYTISCHE HILFSMITTEL 2 4. Falls X und Y zwei unabhängige Zufallsvariablen mit dem Wertebereich Z und erzeugenden Funktion g X, g Y sind, dann gilt g X+Y (z) g X (z) g Y (z), z. Übungsaufgabe 5.2. Beweisen Sie diesen Satz! Folgerung 5.2. Für Zufallsvariablen X wie im Satz 5.2. gilt EX g X(), Var X g X() + g X() ( g X() ) 2. Beispiel Binomialverteilung: Sei X Bin(n, p). Zeigen wir, dass g X (z) (pz + p) n ist. In der Tat gilt für z g X (z) Ez X Dann gilt n k0 (pz + p) n. ( ) n p k ( p) n k z k k n k0 EX g X() ( n(pz + p) n p ) z np, g X(z) n(n )(pz + p) n 2 p 2, ( ) n (zp) k ( p) n k k Var X g X() + np (np) 2 n(n )p 2 + np (np) 2 np( p). 2. Poissonverteilung: Sei X Poisson(λ), λ > 0. Zeigen wir, dass In der Tat, g X (z) Ez X k0 g X (z) e λ( z). λ λk e k! zk e λ (λz) k e λ e λz k! k0 e λ( z), z ( EX g X() λe λ( z)) z λ, g X(z) λ 2 e λ( z), Var X g X() + λ λ 2 λ 2 + λ λ 2 λ. Bemerkung 5.2. Eine weitere Funktion, die mit ϕ X und g X verwandt ist, ist die sogenannte momenterzeugende Funktion M X (t) E(e tx ), die für t R definiert ist, für die dieser Ausdruck endlich ist. Zum Beispiel ist M X (t) von X 0 wohl definiert für t 0. Es gilt M X (t) g X (e t ) für diskrete Zufallsvariablen X. Ihre Eigenschaften werden in vertiefenden Vorlesungen wie z.b. Risikotheorie weiterbehandelt.

126 Kapitel 6 Konvergenz von Folgen von Zufallsvariablen Um die Grenzwertsätze und Näherungsformel des Kapitels 7 beweisen zu können, soll definiert werden, in welchem Sinne die Konvergenz von Zufallsvariablen zu verstehen ist. Damit wollen wir uns jetzt befassen: Definition Sei {X n } n N eine Folge von Zufallsvariablen definiert auf dem Wahrscheinlichkeitsraum (Ω, F, P ). Sei X eine weitere Zufallsvariable auf (Ω, F, P ). Man sagt, die Folge {X n } konvergiert gegen X für n f.s.. fast sicher oder mit Wahrscheinlichkeit (X n X), falls P ({ω Ω : X n (ω) X(ω)}). P 2. in Wahrscheinlichkeit oder stochastisch (X n X), falls ε > 0 P ( X n X > ε) in L r L (X r n X), r > 0, falls X, X, X 2,... L r (Ω, F, P ) und E X n X r 0. Einen Spezialfall bildet die L 2 Konvergenz, die man auch Konvergenz im quadratischen Mittel nennt. d 4. in Verteilung (X n X), falls F X n (x) F X (x) für jeden Stetigkeitspunkt x von F X, wobei F Xn und F X die Verteilungsfunktionen von X n und X sind. 22

127 KAPITEL 6. KONVERGENZ VON FOLGEN VON ZV 23 w 5. schwach (X n X), falls Eϕ(X n) Eϕ(X) für jede stetige beschränkte Funktion ϕ : R R. In den folgenden Sätzen werden wir zeigen können, dass die soeben eingeführten Konvergenzarten wie folgt miteinander verbunden sind: L r P d Xconst w (6.) f.s. 6. Konvergenz mit Wahrscheinlichkeit und stochastische Konvergenz Satz 6.. (Äquivalente Formulierungen der Konvergenz mit Wahrscheinlichkeit ) Es gilt X n X genau dann, wenn sup P f.s. k n X k X 0. Beweis Für jedes ε > 0 sei A ε lim sup{ X n X > ε} n { X k X > ε}, (6.2) k n d.h. es gilt n N k n : X k X > ε. Falls X n f.s. X, dann folgt daraus P (A ε ) 0 ε > 0. Wegen der Stetigkeit von Wahrscheinlichkeitsmaßen gilt außerdem 0 P (A ε ) lim P k n{ X k X > ε} lim P (sup k n X k X > ε), (6.3) somit P sup X k X 0. k n P Falls sup k n X k X 0, gilt P (A ε ) 0 (siehe die Gleichungskette f.s. in (6.3)). Hieraus folgt X n X, weil ( ( ) ) P {ω Ω : X n (ω) / X(ω)} P A P (A ) 0 ; m m m m

128 KAPITEL 6. KONVERGENZ VON FOLGEN VON ZV 24 dabei gilt die erste Gleichung, weil für ω {ω Ω : X n (ω) / X(ω)} m N ε > m : n N k n : X k(ω) X(ω) > ε > m. f.s. Folgerung 6... Aus X n X folgt X P n X. 2. Falls n P ( X f.s. n X > ε) < ε > 0, dann gilt X n Beweis. Aus X n f.s. X n X X folgt sup k n X k X P 0, also X P n X. X. P 0 und somit auch 2. Sei A n { X n X > ε}. Da n P (A n) <, ergibt sich nach dem Lemma von Borel-Cantelli (Lemma 2.2.) 0 P (lim sup A n ) P (A ε ) ε > 0, wobei das Ereignis A ε in (6.2) eingeführt wurde. Der Rest des Beweises verläuft genauso wie im 2.Teil des Beweises von Satz 6... P Bemerkung 6... Es gilt X n X genau dann, wenn P ( X n X > ε) 0 ε > 0. (6.4) Nach der Folgerung 6.., 2) ist eine ausreichend schnelle Konvergenz in (6.4) (z.b. P ( X n X > ε), δ > 0) hinreichend für n +δ f.s. X n X. P 2. Aus X n X folgt nicht X n f.s. X, wie folgendes Beispiel zeigt: Sei {X n } n N, X n Bernoulli(p n ) eine Folge von unabhängigen Zufallsvariablen, wobei p n 0 und n p n (z.b. p n n, n N). Dann gilt P ( X n 0 > ε) P ( X n > ε) P (X n ) p n 0, P also X n 0. Dennoch kann X n nicht gegen 0 fast sicher konvergieren, denn aus dem Lemma 2.2. folgt P (lim sup {X n }), weil k p k.

129 KAPITEL 6. KONVERGENZ VON FOLGEN VON ZV 25 P Satz 6..2 X n X genau dann, wenn für alle Teilfolgen {X ni } von {X n } f.s. Teilfolgen {X nij } {X ni } existieren, sodass X nij X. j Beweis P Falls X n X, dann gilt X P n i X auch für jede Teilfolge {X n i } {X n }. i Um die Schreibweise zu vereinfachen, setzen wir {X ni } {X n }. Man muss zeigen, dass eine Teilfolge {X nj } von {X n } existiert mit X nj X. Da P ( X n X > δ) δ > 0, können wir n N und δ 2 n 0 Zahlen n j so wählen, dass P ( X nj X > 2 n j ) 2 n j. Dann gilt ε > 0 n j P ( X nj X > ε) n j : 2 nj >ε P ( X nj X > ε) + Folgerung 6.., 2) ergibt X nj P Nehmen wir an, dass X n / n j : 2 nj >ε n j : 2 nj ε f.s. X. P ( X nj X > 2 n j ) P ( X nj X > ε) + f.s. 2 n <. n X. Dann ε > 0, δ > 0 und eine Teilfolge {X ni } von {X n } mit P ( X ni X > ε) > δ i N. Nach der Folgerung 6.., ) kann somit keine Teilfolge {X nij } {X ni } existieren, für die X nij f.s. X gilt. 6.2 L r Konvergenz Satz 6.2. (L r Konvergenz und Konvergenz in Wahrscheinlichkeit). Sei X n L r, n N, X L r, r > 0 und X n L r X n L s X, s < r. X. Dann gilt auch 2. Sei X n L r, n N, X L r L und X r n X, r > 0. Dann gilt P X. X n

130 KAPITEL 6. KONVERGENZ VON FOLGEN VON ZV 26 L Beweis. Sei X r n X, also E X n X r 0. Aus der Ljapunow Ungleichung (Folgerung 4.7.2) ergibt sich somit gilt X n 0 E X n X s (E X n X r ) s r 0, L s X. 2. Aus der Markow Ungleichung (Satz 4.7.) folgt ε > 0 P ( X n X > ε) P ( X n X r > ε r ) E X n X r somit gilt X n P X. ε r 0, Bemerkung 6.2. Der Satz 6.2., 2) behauptet, dass aus der L r Konvergenz die stochastische Konvergenz folgt. Zeigen wir, dass es keine genau dann Aussage sein kann. Seien { e n, mit Wkt. X n n, n N. 0, sonst, Dann gilt somit Dennoch gilt für alle r > 0 P ( X n ε) P (X n 0) n, P P ( X n > ε) 0 und X n 0. E X n 0 r EX r n (e n ) r P (X n e n ) + 0 P (X n 0) enr n L r also X n / Konvergenz in Verteilung Satz 6.3. Aus X n Beweis Falls X n P X folgt X d n X. P X, dann ε > 0 P ( X n X > ε) 0.,

131 KAPITEL 6. KONVERGENZ VON FOLGEN VON ZV 27 Dann F Xn (x) P (X n x) P (X n x, X n X ε)+ + P (X n x, X n x > ε) P (X x + ε) + P ( X n x > ε) ε > 0, n N und x R. Somit gilt lim sup F Xn (x) F X (x + ε), ε > 0, F X (x + ε) + P ( X n x > ε) d.h, lim sup F Xn (x) F X (x) x R, weil F X (x) rechtsseitig stetig ist. Ähnlich wie oben kann man zeigen F X (x ε) F Xn (x) + P ( X n x > ε), woraus folgt, dass F X (x) lim inf F Xn (x) für jeden Stetigkeitspunkt d x R von F X. Hieraus folgt, dass lim F Xn (x) F X (x), also X n X für n. Bemerkung Die Aussage des Satzes 6.3. lässt sich im Allgemeinen nicht umkehren. Die zeigt folgendes Beispiel: Sei X N(0, ), und X n X, n N. Da die Verteilung von X symmetrisch ist, gilt X n X d d X n N und damit X n X. P Dennoch gilt nicht X n X, weil P ( X n X > ε) P ( 2X > ε) P ( X > ε 2 ) const / Falls jedoch X const ist, dann gilt die Umkehrung des Satzes 6.3., vgl. den folgenden Satz. Satz Falls X n Beweis Falls X n Dann gilt ε > 0 n N d c für c R, dann gilt X P n c. d X c, dann gilt F Xn (x) F c (x) {, x c 0, x < c, x / c. P ( X n c > ε) P (X n < c ε) + P (X n > c + ε) F Xn (x ε) + ( F Xn (c + ε)) F c(c ε) + ( F c (c + ε)) 0 + 0, vgl. die Grafik 6. von F c (x). Somit gilt X n P 0.

132 KAPITEL 6. KONVERGENZ VON FOLGEN VON ZV 28 Abbildung 6.: Verteilungsfunktion F c Satz Die Konvergenz in Verteilung und die schwache Konvergenz sind äquivalent. d Beweis Zu zeigen ist X n X Eϕ(X n) Eϕ(X) für beliebige beschränkte stetige Funktionen ϕ. Sei X n d X, und ϕ eine beschränkte stetige Funktion auf R. Dann sei b sup x R ϕ(x) (0, ). Für jedes ε > 0 wählen wir ν > 0 so, dass ν und ν Stetigkeitspunkte von F X sind und P ( X > ν) < ε b. So ein ν existiert, weil die Verteilungsfunktion F X höchstens abzählbar viele Sprungstellen haben kann und weil lim x P ( X > x) 0. Aus F Xn (±ν) F X (±ν) folgt außerdem P ( X n > ν) < 2ε b für hinreichend große n N. Da ϕ beschränkt und stetig ist, lässt sich ϕ durch Treppenfunktionen approximieren, d.h. ε, ν > 0 g(x) k a i I(x i < x x i ) i für a,..., a k R und Stetigkeitspunkte ν x 0 <... < x k ν von F X, sodass sup ϕ(x) g(x) < ε. (6.5) x [ ν, ν] Wegen ϕ(x) ϕ(x) I( x ν) + ϕ(x) I( x > ν), x [ ν, ν] gilt Eϕ(X n ) Eϕ(X) E[ϕ(X n ) I( X n ν)] E[ϕ(X) I( X ν)] + }{{} :I + E[ ϕ(x n ) I( X n > ν)] + E[ ϕ(x) I( X > ν)] I }{{}}{{} + I 2 + I 3. :I 2 :I 3

133 KAPITEL 6. KONVERGENZ VON FOLGEN VON ZV 29 Es gilt I 2 b P ( X n > ν) b 2ε b 2ε, I 3 b P ( X > ν) b ε b ε, I E[ϕ(X n ) I( X n ν)] Eg(X n ) + Eg(X n ) Eg(X) + + Eg(X) E (ϕ(x) I( X ν)) < ε + Eg(X n ) Eg(X) + ε wegen (6.5). Da x i Stetigkeitspunkte von F X sind und wegen X n gilt zusätzlich F Xn (x i ) F X (x i ), i 0... k, d X Eg(X n ) k a i (F Xn (x i ) F Xn (x i )) i k a i (F X (x i ) F X (x i )) Eg(X). i Somit gilt Eg(X n ) Eg(X) < ε und Eϕ(X n ) Eϕ(X) < 6ε für hinreichend große n. Damit haben wir gezeigt, dass Sei X n w Eϕ(X n ) Eϕ(X) und somit X n X. w X, also Eϕ(Xn) Eϕ(X) (6.6) für jede beschränkte stetige Funktion ϕ auf R. Zu zeigen ist, dass F Xn F X (x) für jeden Stetigkeitspunkt x von F X. Fixieren wir so ein x R und ε > 0. Dann existiert eine beschränkte stetige Funktion ϕ auf R, sodass (vgl. Abb. 6.2) und somit I(y x) ϕ(y) I(y x + ε) (6.7) F Xn (x) EI(X n x) Eϕ(X n ) Eϕ(X) EI(X x + ε) F X (x + ε).

134 KAPITEL 6. KONVERGENZ VON FOLGEN VON ZV 30 Abbildung 6.2: Grafik von ϕ mit der Eigenschaft (6.7) Daraus folgt lim sup F Xn (x) lim Eϕ(X n) Eϕ(X) F X (x + ε). (6.6) Da ε beliebig ist, ergibt sich lim sup F Xn (x) F X (x). Nun, um die Ungleichung F X (x) lim inf F Xn (x) zu zeigen, wählen wir eine stetige beschränkte Funktion ϕ auf R mit der Eigenschaft (vgl. Abb. 6.3) Abbildung 6.3: Grafik von ϕ mit der Eigenschaft (6.8) Dann gilt I(y x ε) ϕ(y) I(y x) y R. (6.8) F X (x ε) EI(X x ε) Eϕ(X) lim Eϕ(X n) lim inf F X n (x) ; Für jeden Stetigkeitspunkt x R von F X bekommt man F X (x) lim ε +0 F X(x ε) lim inf F X n (x). Insgesamt gilt für jeden Stetigkeitspunkt x R von F X F X (x) lim inf F X n (x) lim sup F Xn (x) F X (x),

135 KAPITEL 6. KONVERGENZ VON FOLGEN VON ZV 3 das heißt, F Xn (x) F X (x) für n. Somit ist bewiesen, dass X n d X. Bemerkung Aus dem Beweis der Hinlänglichkeit in Satz sieht man leicht, dass die schwache Konvergenz äquivalent auch folgendermaßen w eingeführt werden kann: X n X, falls Eϕ(Xn ) Eϕ(X) für alle Funktionen ϕ C k für ein k N {0}, wobei die Klasse C k {ϕ : R R ϕ beschränkt und k mal gleichmäßig stetig diff bar auf R}. Satz (Stetigkeitssatz) Seien {X n } n N, X Zufallsvariablen definiert auf dem Wahrscheinlichkeitsraum (Ω, F, P ) mit den charakteristischen Funktionen ϕ Xn, n N und ϕ X. d Es gilt X n X genau dann, wenn Beweis weil X n ϕ Xn (t) ϕ X (t) t R. ϕ Xn (t) Ee itxn E cos(tx n ) + i E sin(tx n ) E cos(tx) + i E sin(tx) ϕ X(t), d X nach dem Satz bedeutet, dass Eg(X n ) Eg(X) für beliebige beschränkte Funktionen g. Die Funktionen g(x) sin(tx) und g(x) cos(tx) sind aber beschränkt und stetig für alle t R. Zunächst zeigen wir, dass aus ϕ Xn ϕ X die Konvergenz F Xn (y) F Xn (x) F X (y) F X (x) (6.9) folgt, und zwar für alle x, y R, x < y, die Stetigkeitspunkte von F Xn, n N und F X sind. Für solche x und y folgt aus dem Satz 5..3, ) die Darstellung F X (y) F X (x) lim c 2π lim c 2π ( ) Gleichm. Konv. c c c c lim lim c 2π lim lim c 2π e itx e ity ϕ X (t) dt it e itx e ity c c c c lim (F X n (y) F Xn (x)), it lim ϕ X n (t) dt e itx e ity ϕ Xn (t) dt it e itx e ity ϕ Xn (t) dt it

136 KAPITEL 6. KONVERGENZ VON FOLGEN VON ZV 32 (( ) : S. v. Lebesgue über die majorisierte Konvergenz, da ϕ Xn ) wobei sich die letzte Gleichheit durch die erneute Anwendung des Satzes 5..3, ) ergibt und e itx e ity ϕ Xn (t) it e itx e it(y x) ϕ Xn (t) t e it(y x) t t y x y x t wegen der Ungleichung e ia a, a R. Dadurch ist die Konvergenz (6.9) gezeigt worden für alle x < y, x, y R, die Stetigkeitspunkte von F X sind, mit Ausnahme einer höchstens abzählbaren Menge. Aus der rechtsseitigen Stetigkeit einer Verteilungsfunktion folgt die Gültigkiet von (6.9) für alle x < y, x, y R, die Stetigkeitspunkte von F X sind. Schließlich folgt daraus F Xn (y) F X (y) d für alle y Stetigkeitspunkte von F X und somit X n X, wenn man x gegen gehen lässt. 6.4 Konvergenz der Funktionale von Zufallsvariablen In diesem Abschnitt wird untersucht, ob die oben betrachteten Konvergenzarten erhalten bleiben bei Addition, Multiplikation und Anwendung stetiger Funktionale auf die Folgen von Zufallsvariablen. Satz 6.4. (Addition): Seien {X n } n N, X, {Y n } n N, Y Zufallsvariablen definiert auf dem Wahrscheinlichkeitsraum (Ω, F, P ).. Falls X n X und Y n Y (fast sicher, in Wahrscheinlichkeit oder in L r, r ), dann konvergiert auch ihre Summe X n + Y n X + Y im selben Sinne. 2. Satz von Slutsky: Die Aussage ) lässt sich auf die Konvergenz in Verteilung nur beschränkt übertragen: es gilt nämlich X n + Y n X + c, falls X n d und Y n d c const. d X

137 KAPITEL 6. KONVERGENZ VON FOLGEN VON ZV 33 Beweis. (a) Falls X n f.s X, Y n f.s. Y, dann gilt X n (ω) X(ω), Y n (ω) Y (ω) für fast alle ω Ω und somit X n (ω) + Y n (ω) X(ω) + Y (ω) für fast alle ω Ω. Daraus folgt X n + Y n f.s. X + Y. P P (b) Falls X n X, Y n Y, dann gilt: Für alle Teilfolgen {n i } von N existiert eine Teilfolge {n ij } {n i }, sodass X nij f.s. j X, Y n ij f.s. j Y nach dem Satz Aus dem Punkt,a) dieses Beweises folgt f.s. sofort X nij + Y nij X + Y, und somit nach der erneuten j Anwendung des Satzes 6..2 (c) Sei X n X n + Y n P X + Y. L r L X, Y r n Y, r. Es bedeutet, dass E X n X r 0, E Y n Y r 0. Aus der Minkowski Ungleichung (vgl. Satz 4.7.5) folgt (E X n + Y n (X + Y ) r ) r (E Xn X r ) r +(E Yn Y r ) r 0, somit gilt X n + Y n 2. Falls X n d X, Y n L r X + Y. d c, dann gilt Eϕ(X n ) Eϕ(X) für jede Funktion ϕ C 0 (vgl. Bemerkung 6.3.2), Y n und somit P ( Y n c > δ) 0 δ > 0. Zu zeigen ist Eϕ(X n + Y n ) Eϕ(X + c) ϕ C 0. Da ϕ : R R beschränkt und gleichmäßig stetig ist, gilt P c (vgl. Satz 6.3.2) und ε > 0 b sup ϕ(x) < x R δ > 0 : x, y R mit der Eigenschaft x y δ ϕ(x) ϕ(y) < ε.

138 KAPITEL 6. KONVERGENZ VON FOLGEN VON ZV 34 Somit gilt Eϕ(X n + Y n ) Eϕ(X + c) E ((ϕ(x n + Y n ) ϕ(x n + c)) (I( Y n c δ) + I( Y n c > δ)) + + ϕ(x n + c) ϕ(x + c)) E( ϕ(x n + Y n ) ϕ(x n + c) I{ ϕ }{{} n c δ} )+ }{{} ε + E( ϕ(x n + Y n ) ϕ(x n + c) I{ Y }{{} n c > δ})+ 2b + E (ϕ(x n + c) ϕ(x + c)) ε + 2b P ( Y n c > δ) Eg(X n ) Eg(X), (6.0) wobei g( ) ϕ( + c) C 0. Da P ( Y n c > δ) 0 und Eg(X n ) Eg(X), können die Summanden 2b P ( Y n c > δ) und Eg(X n ) Eg(X) in der Summe (6.0) für ausreichend große n N beliebig klein werden. Somit gilt Eϕ(X n + Y n ) Eϕ(X n + c), ϕ C 0 d, und X n + Y n X n + c aus dem Satz und der Bemerkung d Beispiel 6.4. Zeigen wir, dass im Allgemeinen aus X n X, Y d n Y d nicht X n + Y n X + Y folgen kann. Seien X n, n N unabhängige, identisch verteilte Zufallsvariablen, X n d X Bernoulli( /2). d Setzen wir Y n X n. Es gilt Y n Y Bernoulli( /2), X n + Y n d d n N, somit X n X, Y n Y für n. Andererseits ist Z X + Y eine diskret verteilte Zufallsvariable mit der Zähldichte P (Z 0) P (Z 2) 4, P (Z ) 2. d Somit X n + Y n / Z X + Y. Satz (Multiplikation) Seien {X n } n N, X, {Y n } n N, Y Zufallsvariablen definiert auf dem Wahrscheinlichkeitsraum (Ω, F, P ).. Falls X n X und Y n Y fast sicher oder in Wahrscheinlichkeit, dann konvergiert auch ihr Produkt X n Y n XY im selben Sinne.

139 KAPITEL 6. KONVERGENZ VON FOLGEN VON ZV Falls L2r X, Y n L2r Y, r, dann gilt X n Y n 3. Satz von Slutsky: Beweis Falls X n d X, Y n L r XY für X n, X, Y n, Y L 2r n N. d c const, dann gilt X n Y n. wird analog zum Satz 6.4., a) b) bewiesen. 2. Falls X n L 2r X, Y n L 2r Y, dann gilt E X n X 2r Nach dem Satz gilt d Xc. 0 und E Y n Y 2r 0. (E X n Y n XY r ) r (E (Xn Y n X n Y ) + (X n Y XY ) r ) r ( E X n 2r }{{} E X 2r (E X n (Y n Y ) r ) r + (E Y (Xn X) r ) r E Y n Y 2r ) 2r + (E Y 2r E X }{{} n X r ) }{{} 0 0 2r 0, wobei die letzte Ungleichung aus der Ungleichung von Cauchy Schwarz (vgl. Satz 4.7.2) folgt. Somit haben wir gezeigt, dass 3. Sei ϕ C 0. Zu zeigen ist X n Y n L r XY. Eϕ(X n Y n ) Eϕ(Xc), d falls X n X und Y d n c. Da ϕ beschränkt und gleichmäßig stetig ist, gilt b sup x R ϕ(x) < und ε > 0 δ > 0 : x, y R mit x y δ ϕ(x) ϕ(y) ε. Sei v > 0 so gewählt, dass ±v Stetigkeitsstellen von F X sind und P ( X > v) < ε. Dies ist möglich, da F X (±v) 0, und F X abzählbar viele Sprungstellen hat. Aus X n X folgt somit, v dass d P ( X n > v) < 2ε für hinreichend große n N. Ähnlich wie im Beweis des Satzes 6.4., 2) gilt Eϕ(X n Y n ) Eϕ(XY ) E ( ϕ(x n Y n ) ϕ(x n c) I{ Y n c > δ /v})

140 KAPITEL 6. KONVERGENZ VON FOLGEN VON ZV 36 + E ( ϕ(x n Y n ) ϕ(x n c) I{ Y n c δ /v} I{ X n > v}) + E( ϕ(x n Y n ) ϕ(x n c) I{ Y }{{} n c δ /v} I{ X n v}) <ε + Eϕ(cX n ) Eϕ(cX) 2b P ( Y n c > δ /v) +2b P ( X }{{} n > v) +ε + Eg(X }{{} n ) Eg(X), }{{} <ε <ε c wobei wegen Y n d c Y P n c die Abschätzung P ( Y n c > δ /v) < ε für hinreichend große n N gilt und g( ) ϕ( c) C 0 w. Aus X n X folgt, dass auch Eg(Xn ) Eg(X) < ε für große n N. Somit gilt ε > 0 Eϕ(X n Y n ) Eϕ(X c) (4b +2) ε für hinreichend große n N und deshalb X n Y n d X c. Satz (Stetigkeitssatz) Seien X n, n N, X beliebige Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P ) und ϕ : R R eine stetige Funktion. Falls X n X fast sicher, in Wahrscheinlichkeit oder in Verteilung, dann konvergiert auch ϕ(x n ) ϕ(x) im selben Sinne. f.s. Beweis Falls X n X oder X n f.s. ϕ(x n ) ϕ(x) bzw. ϕ(x n) b) bewiesen. P X, dann wird die Gültigkeit von P ϕ(x) genauso wie im Satz 6.4., a) d Falls X n X, dann gilt Eg(X n) Eg(X) für beliebige stetige beschränkte Funktionen g : R R. Die Funktion g ϕ : R R ist ebenfalls beschränkt und stetig, somit gilt d Eg(ϕ(X n )) Eg(ϕ(X)) und ϕ(x n ) ϕ(x).

141 Kapitel 7 Grenzwertsätze Grenzwertsätze Gesetze der großen Zahlen zentraler Grenzwertsatz In diesem Kapitel betrachten wir Aussagen der Wahrscheinlichkeitsrechnung, die Näherungsformeln von großer anwendungsbezogener Bedeutung liefern. Dies wird an mehreren Beispielen erläutert. 7. Gesetzte der großen Zahlen Gesetze der großen Zahlen schwaches Gesetz der großen Zahlen starkes Gesetz der großen Zahlen Ein typisches Gesetz der großen Zahlen besitzt die Form n X i EX 0, (7.) n i 37

142 KAPITEL 7. GRENZWERTSÄTZE 38 d wobei {X n } n N unabhängige identisch verteilte Zufallsvariablen mit X n X0, E X 0 < sind. Die Konvergenz in (7.) wird entweder in Wahrscheinlichkeit oder fast sicher verstanden. Wenn P gemeint ist, spricht man von dem schwachen Gesetz der großen Zahlen. Falls f.s. gemeint ist, heißt die Aussage (7.) starkes Gesetz der großen Zahlen. Im Folgenden verwenden wir die Bezeichnungen S n n i X i, X n Sn n, n N für eine Folge {X n } n N von Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P ). 7.. Schwaches Gesetz der großen Zahlen Satz 7.. (Markow) Sei {X n } n N eine Folge von Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P ) mit EXi 2 < i. Falls Var X n 0, (7.2) dann gilt X n n n P EX i 0. i Beweis Da X i L 2 (Ω, F, P ) i N, gilt durch die wiederholte Anwendung der Minkowski Ungleichung für p 2 (Satz 4.7.5) EX 2 n n n i EX 2 i < und somit X n L 2 (Ω, F, P ). Aus der Ungleichung von Tschebyschew folgt für alle ε > 0 ( ) P X n n EX i > ε E(X n EX n ) 2 n ε 2 Var X n ε 2 0. i Somit gilt X n EX n P 0. Folgerung 7.. Seien die Zufallsvariablen {X n } n N im Satz 7.. unabhängig. Dann gilt Folgendes:

143 KAPITEL 7. GRENZWERTSÄTZE 39. Die Bedingung Var X n 0 bekommt die Form n 2 n i Var X i Falls Var X n c const n N, dann gilt die Bedingung (7.2) und somit die Aussage des Satzes 7.. (Satz von Tschebyschew). 3. Insbesondere ist die Bedingung Var X n c const n N erfüllt, falls {X n } n N unabhängige identisch verteilte Zufallsvariablen mit EX n µ, Var X n σ 2 < sind. Dann nimmt das schwache Gesetz der großen Zahlen die klassische Form n P X i n µ an. i Die Existenz der zweiten Momente ist für das schwache Gesetz der großen Zahlen nicht entscheidend. So kann man mit Hilfe der charakteristischen Funktionen folgenden Satz beweisen: Satz 7..2 (Schwaches Gesetz der großen Zahlen von Kchintschin) Sei {X n } n N eine Folge von unabhängigen Zufallsvariablen, n N, X n L, mit demselben Erwartungswert EX n µ <. Dann gilt Beweis Es gilt X n P µ. ϕ Xn (t) Ee ixnt Ee i Sn n t Ee isn t n n n ( ) }{{} Ee ix k t t n ϕ Xk n X k unabh. k k }{{} Satz 5..2, 2) für n k ( + iµ t n + o ( t n ( + iµ t ( )) n n + o n )) e iµt ϕ µ (t), t R. Somit folgt aus dem Satz X n X n P µ. d µ, und folglich (vgl. Satz 6.3.2)

144 KAPITEL 7. GRENZWERTSÄTZE Starkes Gesetz der großen Zahlen Satz 7..3 Seien {X n } n N unabhängige Zufallsvariablen, EXn 2 < n N und Var Xn f.s. n <. Dann gilt X n 2 n EX n 0. Um diesen Satz beweisen zu können, braucht man folgende Hilfsaussage, die Ungleichung von Kolmogorow genannt wird. Lemma 7.. (Ungleichung von Kolmogorow): Seien {X n } n N unabhängige Zufallsvariablen mit EX n 0 und EX 2 n < n N. Dann gilt P (max k n S k ε) E(S2 n) ε 2 ε > 0, n N. Beweis Führen wir Ereignisse A {max k n S k ε} und A k { S i < ε, i... k, S k > ε}, k... n ein. Es gilt A n k A k und somit Betrachten wir E(S 2 n) E(S 2 n I(A)) n E(Sn 2 I(A k )). k E(S 2 n I(A k )) E ( (S k + (X k X n )) 2 I(A k ) ) E(Sk 2 I(A k)) + 2 E (S k (X k X n )I(A k )) + }{{} 0 + E ( (X k X n ) 2 I(A k ) ) }{{} 0 E(S 2 k I(A k)), weil S k I(A k ) und X k X n unabhängig sind und somit E (S k I(A k )(X k X n )) E(S k I(A k )) E(X k X n ) n E(S k I A (A k )) EX i 0 ik+ wegen EX i 0 i. Zusammgefasst ergibt sich n n E(Sk 2 ) E(Sk 2 I(A k)) ε 2 E I(A k ) k k ( n n ) ε 2 P (A k ) ε 2 P A k ε 2 P (A), k k

145 KAPITEL 7. GRENZWERTSÄTZE 4 und P (A) E(S2 n) ε 2. Beweis des Satzes 7..3 Es reicht aus, wenn der Satz 7..3 für X i mit EX i 0 bewiesen wird, sonst ersetzt man X i durch X i EX i. Seien also X n, n N unabhängig, Zeigen wir, dass X n Es gilt offensichtlich EX n 0, EX 2 n <, n EX 2 n n 2 <. f.s. 0. Laut Satz 6.. genügt es zu zeigen, dass für Ã n {sup X k > ε} gilt P (Ãn) 0 ε > 0. k n Ã n {sup X k > ε} k n n log 2 m+ { } max X k > ε, 2 n k<2 }{{ n } A n weil sup k m X k > ε n log 2 m mit der Eigenschaft max X k > ε. 2 n k<2 n Daher genügt es P ( nm A n) 0 zu zeigen, um P (Ãn) 0 zu beweisen. m Nach Lemma 7.. gilt P (A n ) ( 2 n k ) P max X i > 2 n ε 2 n k<2 n k i }{{} S k da 2n k Lemma 7.. wobei EX 2 i Var X i σ 2 i < P ( max S k > 2 n ε) 2 n k<2 n P ( max S k > 2 n ε) k 2 n Var S 2 n ε 2 2 2n 2 unabh. von X i i N. Dann gilt 2 n i σ2 i ε 2 2 2n 2, P (A k ) 4 ε 2 2 2k k k 2 k j σ 2 j 4 ε 2 σj 2 j 2 2k k: 2 k j }{{} P k log 2 j( 4) k j ε 2 3 4j 2 j σ 2 j j 2 <

146 KAPITEL 7. GRENZWERTSÄTZE 42 nach der Voraussetzung des Satzes. Aus k P (A k) < folgt ( ) P A k P (A k ) 0, m km und der Satz 7..3 ist bewiesen. km Bemerkung 7.. Falls {X n } n N unabhängige, identisch verteilte Zufallsvariablen mit EX n µ, Var X n σ 2 < sind, dann gilt n Var X n n 2 σ 2 und somit die Aussage des Satzes 7..3: X n n n 2 < f.s. µ. (7.3) Man stellt jedoch fest, dass die Existenz von Var X n nicht gebraucht wird, um die Aussage (7.3) zu beweisen. Satz 7..4 (Starkes Gesetz der großen Zahlen von Kolmogorow) f.s. Seien {X n } n N unabhängige identisch verteilte Zufallsvariablen. Es gilt X n µ genau dann, wenn EX n µ <. Für den Beweis des Satzes brauchen wir folgendes Lemma 7..2 Sei X 0 eine Zufallsvariable. Dann gilt P (X n) EX + P (X n). n n

147 KAPITEL 7. GRENZWERTSÄTZE 43 Beweis P (X n) n P (k X < k + ) n k n kp (k X < k + ) k k n k P (k X < k + ) E(k I(X [k, k + ))) k0 E(X I(X [k, k + ))) EX k0 E((k + ) I(X [k, k + )) k0 (k + ) P (k X < k + ) k0 k P (k X < k + ) + P (k X < k + ) k0 P (X n) +. n k0 } {{ } Beweis des Satzes 7..4 Falls X n f.s. µ für ein µ R, dann X n n S n n n n Sn n X n }{{} µ n n }{{} X n }{{} µ f.s. 0. Deshalb tritt das Ereignis A n { Xn /n } nur endlich oft auf P (lim sup A n ) 0 und nach dem Lemma 2.2. von Borel Cantelli > P ( Xn /n ) n P ( X n) wegen der Tatsache, dass X n identisch verteilt sind. Dann gilt nach Lemma 7..2 E X n E X + n P ( X n) <. n

148 KAPITEL 7. GRENZWERTSÄTZE 44 Sei EX n µ <. Führen wir X k X k I( X k k) { X k, X k k 0, X k > k ein. Es ist klar, dass die Zufallsvariablen {Xk } auch unabhängig sind. Um zu zeigen, dass n i X i nµ f.s. n 0, genügt es zu zeigen, dass n i X i E n i X i n f.s. 0, weil EXk µ, und das Ereignis A k {X k / Xk } tritt mit Wahrscheinlichkeit nach dem Lemma von Borel Cantelli nur endlich oft k auf. Um dies zu zeigen, nehmen wir an, dass die A k unabhängig sind. Mit P (A k ) P ( X k > k) P ( X > k) }{{} k k k X i ident. P ( X k) E X }{{} <. k Lem folgt nach dem Lemma von Borel Cantelli und dem Satz 2.2.3, ) P ( A k ) 0, n k n also mit Wahrscheinlichkeit 0 treten unendlich viele Ereignisse A k ein. Daher folgt n i X i nµ n i X i n i EX i n n n i (X i Xi ) n i (µ Ei k ) n n pconst p k (X i k Xi k ) n i (µ EX i ) }{{ n }}{{ n } 0 () 0 () Die erste Summe hängt nicht von n ab. Die Konvergenz der zweiten Summe folgt sofort aus EXi µ. Es ist so, weil i µ EX i E (X I( X > i)) i 0

149 KAPITEL 7. GRENZWERTSÄTZE 45 wegen E X <. Da ε > 0 n 0 : k n 0 EXk µ < ε gilt n EXk n µ n 0 (EXk n µ) + n EXk n µ k k kn 0 n 0 n max EXk µ + n n 0 ε < 2ε, k...n 0 n falls n so gewählt wird, dass n 0 n max k...n0 EX k µ < ε Var X n n 2 Nach dem Satz 7..3 genügt es zu zeigen, dass n gilt n Var Xn EXn 2 k 2 P (k X < k), k weil X n Z n n k k I(k X < k) und Daraus folgt EX n 2 EZ 2 n n k 2 P (k X < k). k <. Es n Es gilt Var X n n 2 k n k n k 2 n 2 P (k X < k) k 2 P (k X < k) k } {{ } nk n 2 P (k X < k) + k 2 P (k X < k) n nk+ n 2 nk+ Var X n n k n(n ) nk+ kp (k X < k) k ( n ) n k n k+ n 2. (k )P (k X < k) 2 + E X <, k weil k (k ) I(k X < k) X.

150 KAPITEL 7. GRENZWERTSÄTZE Anwendung der Gesetze der großen Zahlen. Monte Carlo Methoden zur numerischen Integration Sei g : [0, ] d R eine beliebige stetige Funktion. Wie kann man mit Hilfe der Gesetze der großen Zahlen g(x) dx... g(x,..., x d ) dx... dx d [0,] d 0 0 numerisch berechnen? Der Algorithmus ist wie folgt: Generiere eine Folge von Realisierungen von unabhängigen identisch verteilten Zufallsvariablen Setze X,..., X n mit X i U[0, ] d, i... n. [0,] d g(x) dx n n g(x i ) (7.4) für große n. Dieser Vorgang ist berechtigt, denn nach dem Satz 7..4 gilt n f.s. g(x i ) n Eg(X ) g(x) dx [0,] d n i und somit gilt (7.4) für ausreichend große n. Bemerkung: Dieselbe Methode kann durch geeignete Transformation vom Integrationsgebiet G R d oder andere Wahl von Zufallsvariablen X i auf die Berechnung von G g(x) dx erweitert werden, G kompakte Teilmenge von R d. So genügt es nur X i U(G), i... n zu betrachten. 2. Numerische Berechnung der Zahl π: Wie kann π mit Hilfe eines Rechners beliebig genau berechnet werden? Dazu wird das starke Gesetz der großen Zahlen wie folgt verwendet: Generiere Realisierungen von unabhängig und identisch verteilten Zufallvektoren X,..., X n R 2 mit X i U[, ] 2, i... n. Es gilt für große n. π 4 n n I( X i ) (7.5) i

151 KAPITEL 7. GRENZWERTSÄTZE 47 In der Tat, nach dem Satz 7..4 gilt 4 n f.s. I( X i ) EI( X ) P ( X ) B (0) [, ] 2 π 2 2 π 4. i Somit ist die Verwendung der Berechnungsformel (7.5) berechtigt für große n. 3. Wahrscheinlichkeitstheoretischer Beweis des Approximationssatzes von Weierstrass Satz von Weierstrass: Jede auf [0, ] stetige Funktion g lässt sich gleichmäßig durch Polynome P n des Grades n approximieren: ε > 0 m N : n m g(x) P n (x) < ε x [0, ] Beweis Für beliebiges x [0, ] betrachten wir eine Folge von unabhängig identisch verteilten Zufallsvariablen {X n } n N mit X n Bernoulli(x). Es gilt S n n i X i Bin(n, x) und somit Eg(X n ) Eg ( Sn /n) n g ( k /n) k0 ( n k ) x k ( x) n k ein Polynom in x des Grades n. Setzen wir P n (x) Eg(X n ) und zeigen, dass P n g gleichmäßig in x [0, ]. Aus dem Satz 7..4 folgt X n Aus der Konvergenzkette X n f.s. EX x, x [0, ]. f.s. x X n P x X n X n w x Eϕ(X n ) Eϕ(x) d x für jede Funktion ϕ C 0 (R). Sei ϕ(x) g(x) für x [0, ] (da g stetig auf [0, ] ist, ist sie dort gleichmäßig stetig). Somit gilt die Konvergenz P n (x) Eg(X n ) g(x), x [0, ]. Wir müssen jetzt zeigen, dass diese Konvergenz gleichmäßig in x ist. Da jede stetige Funktion auf [0, ] beschränkt ist, gilt b max x [0,] g(x) <. Wegen der gleichmäßigen Stetigkeit von g auf [0, ] gilt zusätzlich ε > 0 δ > 0 : für x, y R mit x y δ gilt ϕ(x) ϕ(y) < ε.

152 KAPITEL 7. GRENZWERTSÄTZE 48 Dann P n (x) g(x) Eg(X n ) Eg(x) E g(x n ) g(x) E ( g(x n ) g(x) ) I( X n x δ) + +E ( g(x n ) g(x) ) I( X n x > δ) ε + 2b P ( X n x > δ) < ε + 2bε, P weil aus X n x folgt, dass P ( X n x > δ) 0 für ausreichend große n. Dass diese Konvergenz gleichmäßig in x [0, ] ist, zeigt die Tschebyschew Ungleichung (vgl. Folgerung 4.7.): P ( X n x > δ ) Var X n δ 2 nδ 2 0 n 2 nx( x) δ 2 gleichmäßig in x [0, ]. Somit haben wir gezeigt, dass P n (x) g(x) gleichmäßig in x [0, ]. 7.2 Zentraler Grenzwertsatz Für die Gesetze der großen Zahlen wurde die Normierung n der Summe S n n i X i gewählt, um Sn n EX zu beweisen. Falls jedoch eine andere Normierung gewählt wird, so sind andere Grenzwertaussagen möglich. Im Fall der Normierung n spricht man von zentralen Grenzwertsätzen: unter gewissen Voraussetzungen gilt also S n nex nvar X d Y N(0, ) Klassischer zentraler Grenzwertsatz Satz 7.2. Sei {X n } n N eine Folge von unabhängigen identisch verteilten Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P ) mit EX i µ, Var X i σ 2, wobei 0 < σ 2 <. Dann gilt P ( Sn nµ nσ ) x Φ(x) x e y2 2 dy x R, 2π wobei Φ(x) die Verteilungsfunktion einer N(0, ) verteilten Zufallsvariablen ist.

153 KAPITEL 7. GRENZWERTSÄTZE 49 Beweis Ohne Beschränkung der Allgemeinheit betrachten wir statt X i die standartisierten Zufallsvariablen X i X i µ σ, für die gilt E X i 0, Var X i E X i 2. Es muss also gezeigt werden, dass n i X i n d Y N(0, ) gilt, was (nach dem Satz 6.3.4) äquivalent zu ist. Es gilt ϕp n i ϕp n X i (t) t R i n X i (t) Ee i P n i n S. 5..2, 2) n2 somit ist der Satz bewiesen. ( t2 2n + o ϕ Y (t) e t X i t n 2 2 vgl. Beweis S ( n )) n e t 2 ( ϕ X ( t n )) n 2 t R, Folgerung 7.2. Unter den Voraussetzungen des Satzes 7.2. gilt zusätzlich. P ( Sn nµ n σ ) < x Φ(x) x R, 2. P ( a S ) n nµ b Φ(b) Φ(a) a, b R, a b. n σ Beweis. Für jedes h > 0 gilt ( Φ(x h) lim inf P Sn nµ σ n ( ) Sn nµ lim sup P σ n < x Φ(x), x R. 2. ) x h ( lim inf P Sn nµ σ n ( ) Sn nµ σ n x lim sup P ) < x Die Behauptung folgt für h 0 aus der Stetigkeit von Φ(x) x R. P ( a S ) ( ) ( ) n nµ σ n b Sn nµ P σ n b Sn nµ P σ n < a Φ(b) Φ(a) nach dem Satz 7.2. und Folgerung 7.2., ) a, b R mit a b.

154 KAPITEL 7. GRENZWERTSÄTZE 50 Beispiel Satz von de Moivre Laplace Falls X n Bernoulli(p), n N unabhängig sind und p (0, ), dann genügt die Folge {X n } n N mit EX n p, Var X n p( p) den Voraussetzungen des Satzes Das Ergebnis S n np np( p) d Y N(0, ) wurde mit einfachen Mitteln als erster zentraler Grenzwertsatz von Abraham de Moivre ( ) bewiesen und trägt daher den Namen. Es kann folgendermaßen interpretiert werden: Falls die Anzahl n der Experimente groß wird, so wird die Binomialverteilung von S n Bin(n, p), das die Anzahl der Erfolge in n Experimenten darstellt, P (a S n b) P ( Φ a np np( p) ( b np np( p) ) Φ S n np p( p) ( ) b np np( p) ) a np, np( p) a, b R, a b, wobei p (0, ) als die Erfolgswahrscheinlichkeit in einem Experiment interpretiert wird. So kann z.b. S n als die Anzahl von Wappen in n Würfen einer fairen Münze (p 2 ) betrachtet werden. Hier gilt also P (a S n b) Φ n groß ( ) ( ) 2b n 2a n Φ, a < b. n n 2. Berechnen wir die Anzahl der notwendigen Messungen des Monddurchmessers im Beispiel 4.7. mit Hilfe des zentralen Grenzwertsatzes: finde n N mit P ( X n µ 0, ) > 0, 99, oder äquivalent dazu wobei X n n n i X i ist. Es gilt P ( X n µ > 0, ) 0, 0, ( P ( X n µ 0, 0) P 0, S ) n nµ 0, n ( n P 0, σ S ) n nµ n σ n 0, σ ( ) ( 0, n Φ Φ 0, ) ( ) n 0, n 2Φ, n groß σ σ σ

155 KAPITEL 7. GRENZWERTSÄTZE 5 weil N(0, ) eine symmetrische Verteilung ist und somit gilt. Es muss also 2Φ oder ( ) 0, n Φ > σ Φ(x) Φ( x) x R ( ) 0, n σ > 0, 99 erfüllt sein. Dies ist äquivalent zu, , 995 0, n σ > Φ (0, 995) ( σ 2 ( n > Φ (0, ) 2 (0, 995) 2) σ2 Φ (0, 995) ) 2 0, 0 σ2 (2, 58) 2 σ 2 665, 64. 0, 0 Für σ 2 ergibt sich die Antwort n Summen mit einer zufälligen Anzahl von Summanden Die Summen N i2 X i, wobei X,..., X n,..., N Zufallsvariablen sind, finden ihre Verwendung bei der Modellierung von vielen Vorgängen in der Wirtschaft und Technik, z.b. in der Schadenversicherungsmathematik ({X n } n N sind die Schäden eines Portfolios, N zufällige Anzahl der Schäden, S N N i X i Gesamtschaden) oder in der Zuverlässigkeitstheorie ({X n } n N Dauer der fehlerfreien Arbeit eines Geräts, N Anzahl der Arbeitszyklen bis zu einem bestimmten Ereignis (z.b. Wartungsarbeiten), S N N i X i die Gesamtzeit verstrichen bis zu diesem Ereignis). Zeigen wir, dass auch für diese Summen S N ein zentraler Grenzwertsatz gilt. Satz Sei {X n } n N eine Folge von unabhängig identisch verteilten Zufallsvariablen mit EX n µ, 0 < Var X n σ 2 <. Sei {N n } n N eine Folge von N wertigen Zufallsvariablen N N 2 N 3 f.s.... mit N n. Falls es eine Folge {a n} n N gibt mit den Eigenschaften a n > 0 n N, a a 2 a 2... und a n, sodass N n a n P c > 0, wobei c eine Konstante ist, dann gilt S Nn N n µ σ N n d Y N(0, ).

156 KAPITEL 7. GRENZWERTSÄTZE 52 Beweis Ohne Beschränkung der Allgemeinheit setzen wir µ 0, σ 2 (vgl. den Beweis des Satzes 7.2.). Außerdem sei k n [ca n ] der ganze Teil von ca n. Aus Nn P a n folgt dann Nn P k n und kn P N n, n. Es muss gezeigt werden, dass S Nn Nn S Nn Nn kn N n Aus dem Satz 7.2. folgt S kn kn genügt es zu zeigen, dass d Y N(0, ). ( Skn kn + S ) N n S kn kn. d Y N(0, ). Da S Nn S kn kn P 0 k n N n P, (vgl. den Satz von Slutsky). Für ε, δ > 0 gilt ( ) SNn S kn P > ε P ( S Nn S kn > ε k n, N n k n δk n ) + kn }{{} I n und wegen Nn k n + P ( S Nn S kn > ε k n, N n k n > δk n ) ( ) N n I n + P k n > δ ) k n > δ 0. Da ( P N somit P n { S Nn S kn > ε k n, N n k n δk n } { max S j S kn > ε } k n k n j k n+δk n { max S j S kn > ε } k n, k n δk n j k n es folgt daraus ( I n P max S j S kn > ε ) k n k n j (+δ)k n ( +P max S j S kn > ε ) k n ( δ)k n j k n L. 7.. Var (S (+δ)kn S kn ) k n ε 2 + Var (S ( δ)k n S kn ) k n ε 2 (( + δ)k n k n + ) + (k n ( δ)k n + ) k n ε 2 2δk n + 2 k n ε 2 2 ε 2 (δ + ) < c δ k n

157 KAPITEL 7. GRENZWERTSÄTZE 53 für hinreichend große n, weil δ > 0 beliebig ist und k n. Somit gilt ( ) SNn S kn P > ε < c 2 δ Nn für große n, und der Satz ist bewiesen Grenzwertsatz von Lindeberg Im klassischen zentralen Grenzwertsatz wurden Folgen von unabhängigen und identisch verteilten Zufallsvariablen betrachtet. In diesem Abschnitt lassen wir die Voraussetzung der identischen Verteiltheit fallen und formulieren einen allgemeineren Grenzwertsatz in der Form von Lindeberg. Satz (Lindeberg) Sei {X nk } k n, n N, eine Folge von unabhängigen Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P ) mit den Eigenschaften n EX nk 0, 0 < σnk 2 Var X nk <, k {,..., n}, n N. Falls ε > 0 dann gilt lim k k σ 2 nk n E ( Xnk 2 I( X nk > ε) ) 0, (7.6) n k X nk d Y N(0, ). Bemerkung Der klassiche zentrale Grenzwertsatz stellt einen Spezialfall des Satzes dar: falls {X n } n N eine Folge von unabhängigen identisch verteilten Zufallsvariablen mit EX n µ, 0 < σ 2 Var X n < n N ist, setzen wir X nk X k µ nσ k... n n N. Es gilt EX nk 0, Var X nk n, k... n, n k n und n E ( Xnk 2 I( X nk > ε) ) k nσ 2 X k id. vert. n E ( (X k µ) 2 I( X k µ > nσ) ) k σ 2 E (X µ ) 2 I( X }{{} µ > σ n) Z σ 2 x >σ n x 2 df Z (x) 0.

158 KAPITEL 7. GRENZWERTSÄTZE 54 Somit sind alle Voraussetzungen des Satzes erfüllt. 2. Die Lindeberg Bedingung (7.6) nennt man auch gleichmäßige asymptotische Kleinheit von X nk aus folgendem Grund: aus (7.6) folgt max P ( X nk > ε) k n ( δ>0 ε 2 Folg EXnk 2 max k n ε 2 max E ( Xnk 2 I( X nk δ) ) + max k n δ2 ε 2 + ε 2 n k E ( Xnk 2 I( X nk > δ) ) ) k n E ( X 2 nk I( X nk > δ) ) 0 wegen (7.6) und weil δ > 0 beliebig klein gewählt werden kann. Für den Beweis des Satzes brauchen wir eine Reihe von Hilfsergebnissen. Lemma 7.2. Für n N seien y,..., y n und z,..., z n komplexe Zahlen mit y k, z k, k n. Dann gilt n n n z k y k z k y k. k k Beweis Vollständige Induktion bzgl. n: Der Fall n ist offensichtlich. Falls die Aussage des Lemmas für n gilt, zeigen wir, dass sie auch für n + gilt. n y k k n z k k n+ y k y n+ k n y n+ y }{{} k k I.S. n k k z k + y n+ n z k + k n k n z k k }{{} Q n k z k n+ z k z k k y n+ z n+ n n+ y k z k + y n+ z n+ y k z k. k k Lemma Sei X eine Zufallsvariable mit E X n < für ein n N und charakteristischer Funktion ϕ X. Dann gilt t R ϕ X (t) n (it) k EX k + R n (t), k! k0

159 KAPITEL 7. GRENZWERTSÄTZE 55 wobei ( { }) tx n+ R n (t) E min (n + )!, 2 tx n. n! Beweis Zeigen wir zunächst, dass n N, t R gilt ) { } eit ( + it (it)n t n+ min n! (n + )!, 2 t n. (7.7) n! Induktion bzgl. n: für n 0 gilt e it e it + 2, andererseits e it t e is t ds e is ds t, 0 0 }{{} denn Γ f(z) dz Γ f(z) dz aus der Komplexanalysis. Daher e it min {2, t }. Nun gelte (7.7) für ein n N. Zeigen wir dessen Gültigkeit auch für n +. n+ (it) k ( ) t n eit e is (is) k ds k! k0 0 k! k0 t { } s n+ min Ind. Annahme 0 (n + )!, 2 s n ds n! { t s n+ } t min 0 (n + )! ds, 2 s n 0 n! ds { } t n+2 min (n + 2)!, 2 t n+, (n + )! wobei die vorletzte Ungleichung aus min{f, g} dx min{ f dx, g dx} (7.8) folgt (vgl. Abb. 7.). Somit ist die Gültigkeit von (7.7) bewiesen. Nun ersetzen wir t in (7.7) durch tx und bilden Erwartungswerte an beiden Seiten. Dann bekommen wir n ϕ (it) k X(t) EX k n (it) k E k! eitx X k k! k0 k0 } (7.7) { tx n+ E min (n + )!, 2 tx n n!.

160 KAPITEL 7. GRENZWERTSÄTZE 56 Abbildung 7.: Illustration zur Ungleichung (7.8) Beweis des Satzes Sei S n n k X nk n N. Es genügt zu zeigen, dass ϕ Sn (t) t R nach dem Satz 6.3.4, wobei ϕ Sn (t) Ee isnt E (e i P ) n k X nk n Ee ixnkt k wegen der Unabhängigkeit von X nk, k... n. Aus Lemma 7.2. folgt n ϕ Xnk (t) k ϕ S n (t) e t 2 2 n ϕ Xnk (t) e t2 2 P n k k σ2 nk n n ϕ Xnk (t) e σ 2 nk t2 n 2 ϕ X nk (t) e σ 2 L k k k n ) ϕ X nk (t) ( σ2 nk t2 n + 2 σ2 nk t2 2 k k nk t2 2 e t 2 2 t R e σ 2 nk t2 2 Es muss gezeigt werden, dass beide Summen in der Abschätzung gegen Null konvergieren für n. ) { ϕ X nk (t) ( σ2 nk t2 txnk 3 E min, 2 tx nk 2 } 2 L ! 2! E min { t 3 X nk 3, t 2 Xnk} 2 (I( Xnk ε) + I( X nk > ε)) t 3 E( X nk 3 I( X }{{} nk ε)) + t 2 E ( Xnk 2 I( X nk > ε) ) εxnk 2 ε t 3 EXnk 2 +t 2 E ( Xnk 2 }{{} I( X nk > ε) ) ε > 0. σnk 2.

161 KAPITEL 7. GRENZWERTSÄTZE 57 Aus n k σ2 nk und (7.7) folgt n ϕ nk(t) ( σ2 nk t2 2 k ) ε t 3 n 0, k σ 2 nk }{{} n +t 2 E ( Xnk 2 I{ X nk > ε} ) k weil ε beliebig klein gewählt werden kann. Aus der Ungleichung e x + x x 2 für x 2 und der Tatsache, dass t2 max k n σnk 2 2 für hinreichend große n (vgl. Bemerkung 7.2., 2): max k n σnk 2 0) folgt n σ2 nk t2 2 k Der Satz ist bewiesen. e σ 2 nk t2 2 t4 4 n k σ 4 nk t4 4 max k n σ2 nk t4 4 max k n σ2 nk 0. n k σ 2 nk }{{} Bemerkung Statt die Zufallsvariable X nk in der Formulierung des Satzes zu verwenden, können auch die Zufallsvariablen {X n } (wie im klassischen zentralen Grenzwertsatz) verwendet werden, wie folgende äquivalente Formulierung zeigt: Satz (Lindeberg) Sei {X n } n N eine Folge von unabhängigen Zufallsvariablen mit EX n µ n, 0 < σn 2 Var X n < n. Sei S n n i X i, Dn 2 n i σ2 i. Falls n Dn 2 k E ( (X k µ k ) 2 I( X k µ k > εd n ) ) 0, dann gilt S n n i µ i D n d Y N(0, ). Beweis Setzen wir X nk X k µ k D n und wenden wir den Satz auf diese Folge von {X nk } n N k an, die den Voraussetzungen des Satzes genügt. Folgerung Sei {X n } n N eine Folge von unabhängigen Zufallsvariablen mit X n c < n N und D n. Dann gilt der zentrale Grenzwertsatz in der Form des Satzes

162 KAPITEL 7. GRENZWERTSÄTZE 58 Beweis Wir müssen die Gültigkeit der Lindeberg Bedingung (7.6) prüfen: aus der Ungleichung von Tschebyschew folgt E ( (X k µ k ) 2 I( X k µ k > εd n ) ) (2c) 2 P ( X k µ k > εd n ) und somit Dn 2 k X k k, EX k k 4c 2 σ2 k ε 2 D 2 n Dn {}} 2 { n n E ( (X k µ k ) 2 I( X k µ k > εd n ) ) 4c 2 k ε 2 Dn 4 weil D 2 n. σ 2 k 0, 4c2 ε 2 D 2 n 0, Bemerkung Aus den Sätzen und ist ersichtlich, dass die Lindeberg Bedingung (7.6) eine hinreichende Bedingung für die Gültigkeit des zentralen Grenzwertsatzes ist. Es gibt aber auch andere hinreichende Bedingungen, die wir jetzt auflisten:. Feller Bedingung: max k n EX2 nk Gleichmäßige asymptotische Kleinheit der Summanden: 3. Ljapunow Bedingung: max P ( X nk > ε) 0 ε > 0. k n für ein δ > 0. n E X nk 2+δ 0 k Zwischen Ihnen gilt folgende Relation: 3) (7.6) ) 2) Die Relation (7.6) ) 2) wurde bereits in der Bemerkung 7.2. gezeigt. Die Relation 3) (7.6) zeigen wir im Satz von Ljapunow (vgl. Satz 7.2.6) Im folgenden Satz zeigen wir, dass unter gewissen Voraussetzungen die Lindeberg Bedingung auch notwendig für die Gültigkeit des zentralen Grenzwertsatzes ist:

163 KAPITEL 7. GRENZWERTSÄTZE 59 Satz (Lindeberg Feller): Sei {X nk } k...n, n N eine Folge von unabhängigen Zufallsvariablen mit EX nk 0, k... n n N, 0 < σnk 2 Var X nk <, k... n n N, n σnk 2 n N. k Falls eine der Bedingungen ) oder 2) gilt, dann ist die Lindeberg Bedingung (7.6) hinreichend und notwendig für die Gültigkeit des zentralen Grenzwertsatzes in der Form n d Y N(0, ). k X nk Beweis siehe [2] Seite Wie folgende Beispiele zeigen, ist die Lindeberg Bedingung im Allgemeinen nicht notwendig: Beispiel Lindeberg Bedingung nicht notwendig: Sei {X n } n N eine Folge von unabhängigen Zufallsvariablen mit X n N(0, σ 2 n), σ 2, σ 2 n 2 n 2, n 2. Für S n n i X i gilt dann somit ES n 0, D 2 n Var S n n σi n 2 i ( ) 2 n + 2 n, 2 X nk X k D n N(0, 2 k n ) und d.h. es gilt der zentrale Grenzwertsatz. Allerdings max k n EX2 nk σ2 n Dn 2 n X nk N(0, ) n N, k Var X nn 2 / 0, somit ist die Bedingung von Feller (und folglich die von Lindeberg) nicht erfüllt.

164 KAPITEL 7. GRENZWERTSÄTZE Folge {X n } n N, für die der zentrale Grenzwertsatz nicht gilt: Sei {Y n } n N eine Folge von unabhängigen Zufallsvariablen {, mit Wkt. Y n 2, n N., sonst Definieren wir X n 5 4 Y n n, n N. Die Folge {X n } n N besteht aus unabhängigen Zufallsvariablen mit 5 EX n 4 n EY n 0 und Var X n 5 4 2n Var Y n 5 4 2n. Somit gilt für S n n i X i, ES n 0, D 2 n Var S n n i 6 ( Var X i (6) ) (6) n 6 n n, n N. Deshalb Dn 2. Weiterhin, S n ( ) 4 n n ( 5 3 ) 4 n und somit S n D n 5 3 ( 4 n ) 6 n 2 für große n, was darauf hindeutet, dass Sn Träger von N(0, ) unbeschränkt ist. d D n / Y N(0, ), da der Satz (Bedingung von Ljapunow): Sei {X nk } k...n, n N eine Folge von unabhängigen Zufallsvariablen mit EX nk 0, 0 σ 2 nk Var X nk < k... n, n σnk 2 n N. Falls zusätzlich die Ljapunow Bedingung 3) (Bemerkung 7.2.3) gilt für ein δ > 0, dann gilt n d X nk Y N(0, ). k k

165 KAPITEL 7. GRENZWERTSÄTZE 6 Beweis Zeigen wir, dass aus der Ljapunow Bedingung die Lindeberg Bedingung folgt: δ > 0, ε > 0 gilt E ( Xnk 2 I( X nk > ε) ) ( (Xnk ) 2 ( ) ) ε 2 Xnk E I > ε ε ( (Xnk ) 2+δ ( ε 2 X nk )) E I ε ε > ε δ E X nk 2+δ und somit n E ( Xnk 2 I( X nk > ε) ) ε δ k n E X nk 2+δ 0. Somit ist die Lindeberg Bedingung erfüllt, und die Behauptung des Satzes folgt aus dem Satz Beispiel Sei {X n } n N eine Folge von unabhängigen Zufallsvariablen mit { n, mit Wkt. X n 2 n, sonst. k Es gilt EX n 0, σ 2 n Var X n n 2, für δ somit n k D 2 n EX 2+δ k n σk 2 k n3 n k 0 n4 EX 2+δ n EX 3 n n 3 n N, n k x 2 dx n3 3, k 3 n 4 ( n + 0 x 3 dx n4 4. k 2 n 3 ( n + Daraus folgt für X nk X k D n und δ n n EX 2+δ k nk EX3 k k D 3 n ( n n n 4 4 ( ( n n ) 3 n n 3 3 ) 2 n ( n ) 3 const n4 n 9 2 ( n ) ) 3 n 0. ) ) 2 n Somit ist die Bedingung von Ljapunow erfüllt und für n k X nk gilt der zentrale Grenzwertsatz, d.h. 3 n k X k n 3 2 d Y N(0, )

166 KAPITEL 7. GRENZWERTSÄTZE Konvergenzgeschwindigkeit im zentralen Grenzwertsatz In diesem Abschnitt möchten wir die Schnelligkeit der Konvergenz im zentralen Grenzwertsatz untersuchen. Damit aber diese Fragestellung überhaupt sinnvoll erscheint, muss die Konvergenz im zentralen Grenzwertsatz gleichmäßig sein: ( n ) sup P X nk x Φ(x) 0. x R k Das ist tatsächlich der Fall, wie aus der Stetigkeit von Φ(x) und dem folgenden Lemma hervorgeht. d Lemma Sei X n X, wobei F n(x) P (X n X) und F (x) P (X x). Falls F (x) stetig ist x R, dann ist die Konvergenz von F n zu F gleichmäßig: sup F n (x) F (x) 0. x R Der Beweis des Lemmas wird auf S. 62 gegeben. Das Hauptergebnis des Abschnittes ist folgende Abschätzung der Konvergenzgeschwindigkeit im klassischen zentralen Grenzwertsatz. Satz (Berry Esséen) Sei {X n } n N eine Folge von unabhängigen identisch verteilten Zufallsvariablen mit EX n µ, Var X n σ 2 > 0, E X n 3 <. Sei ( n i F n (x) P X ) i nµ x, x R, n N. nσ Dann gilt sup F n (x) ϕ(x) c E X µ 3 x R σ 3, n wobei c eine Konstante ist, 2π c < 0, 8. Beweis des Lemmas Sei ε > 0 beliebig, ein k > ε ( k < ε). Wählen wir ( ) i c 0, c i F, i... n, c k. k c 0 + c c k c k

167 KAPITEL 7. GRENZWERTSÄTZE 63 Es gilt F (c i ) F (c i ) i k i < ε i k. (7.9) k k Zu zeigen ist es, dass ε > 0 n 0 : n n 0 a < b Es existiert ein n 0 : F n (b) F (b) F n (a) + F (a) < const ε. n n 0 F n (c j ) F n (c i ) F (c j ) + F (c i ) < ε i < j k, (7.0) wegen F n (x) F (x) x R. Für alle a < b existieren i, j : a [c i, c i+ ), b [c j, c j+ ). Sei X n eine Zufallsvariable mit der Verteilungsfunktion F n. Dann gilt:. Untere Schranke (a) Falls i < j, dann F n (b) F n (a) P (a < X n b) P (c i+ X n c j ) [a,b] [c i+,c j ] (b) Falls i j, gilt analog dazu > F (c j ) F (c i+ ) ε > F (b) F (a) 3ε (7.0) (7.9) F n (b) F n (a) 0 und da [a, b] [c i, c i+ ] und F (b) F (a) < ε auch 2. Obere Schranke F n (b) F n (a) 0 > F (b) F (a) ε. (a) Falls i > 0, j + < k, dann F n (b) F n (a) P (c i X n c j+ ) < F (b) F (a) + 3ε, wie in a). (b) Falls i 0, j + < k, dann F n (b) F n (a) P (X n < c j+ ) P (X n c j+ ) P (c j+ X n c k ) < F (c k ) +F (c }{{} j+ ) + ε <ε < F (b) + 3ε < F (b) F (a) + 4ε, F (c j+ ) F (b) +F (b) }{{} <ε }{{} weil F (a)<ε

168 KAPITEL 7. GRENZWERTSÄTZE 64 (c) Falls i > 0, j + k, analog zu 2a), 2b): F n (b) F n (a) P (c i < X n ) P (X n c i ) F (c i ) + ε weil F (b) < ε. (d) Falls i 0, j + k, dann Also F n (b) F n (a) < F (b) F (c i ) + 2ε < F (b) F (a) + 3ε, c i a < k weil F (a)<ε, F (b)> ε < F (b) F (a) + 2ε. ε > 0 n 0 : n n 0 F n (b) F (b) F n (a) + F (a) < 4ε. Für den Beweis des Satzes wird eine Reihe von Hilfssätzen benötigt: Lemma (Fourier Umkehrformel) Sei X eine Zufallsvariable mit der charakteristischen Funktion ϕ X (t) Ee itx. Falls ϕ X L (R), dann besitzt die Verteilung von X eine Dichte f(x) 2π R e ixy ϕ X (y) dy, die beschränkt ist: f(x) 2π Beweis folgt aus Satz 5..3, 2). R ϕ X (y) dy, x R. Lemma (Riemann Lebesgue) Ist f : R C eine Funktion mit f L (R), so gilt ϕ(λ) e iλx f(x) dx 0. λ ± (Ohne Beweis, vgl. [5], Satz.7.4). R Lemma Seien F und G zwei Verteilungsfunktionen, wobei G differenzierbar auf R mit G (x) m <, x R. Für ein T > 0 sei v T (x) die Dichte einer Verteilung Es gilt v T (x) π ( sup F (x) G(x) 2 x R cos(t x) T x 2, x R. sup t R wobei (x) F (x) G(x) x. R (t x)v T (x) dx + 2m ), πt

169 KAPITEL 7. GRENZWERTSÄTZE 65 Beweis Führen wir folgende Bezeichnungen ein: ϱ sup F (x) G(x), x R T (t) (t x)v T (x) dx ( ν T )(t), R ϱ T sup t R T (t). Für ein beliebiges ε > 0 x 0 R : ϱ F (x 0 ) G(x 0 ) + ε. Setzen wir ohne Beschränkung der Allgemeinheit voraus, dass F (x 0 ) G(x 0 ). Es gilt (x 0 + s) F (x 0 + s) G(x 0 + s) F (x 0 ) G(x 0 ) ms ϱ ε ms s 0, weil F (x 0 + s) F (x 0 ), s 0, G(x 0 ) G(x 0 + s) s m δ für s 0. Für h ϱ 2m, t x 0 + h und x h s (somit x 0 + s t x) erhält man ( ϱ ) (t } {{ x } ) ϱ ε m 2m x ϱ ϱ 2 ε + mx ϱ 2 ε + mx x 0 +s für alle x h, da s h x 0 sein muss. Für x > h können wir einfach (t x) ϱ schreiben. Somit gilt T (t) (t x)v T (x) dx R }{{} x h T (t) ( ϱ ) 2 ε + mx v T (x) dx ϱ Da aus Symmetriegründen x h xν T (x) dx 0 ist, folgt T (t) ( ϱ 2 ε ) ( x n + x >h ) x >h v T (x) dx v T (x) dx }{{} ( ϱ ) 2 ε v T (x) dx ϱ v T (x) dx ϱ 2 ε 3ϱ 2 x >h ϱ 2 ε x >h x >h v T (x) dx ϱ 2 ε 3 2 ϱ 4 πt h ϱ h {}}{ 2m 2m πt ϱ 2 ε 2m πt,

170 KAPITEL 7. GRENZWERTSÄTZE 66 weil πt x >h cos(t x) x 2 dx yt x 2 π 4 π T x >T h x >T h y>t h x >h sin 2 y y 2 sin 2 (T x) d(t x) (T x) 2 dy 2 π y 2 dy 4 π ( y y 2 dy ) y >T h v T (x) dx 4 πt h. Also zusammengefasst gilt T (t) ϱ 2 ε 2m πt. Somit erhält man ϱ 2 max T (t) + 2m t πt + ε. Da ε > 0 beliebig ist, folgt für ε 0 die Behauptung. T h 4 πt h, Übungsaufgabe 7.2. Beweisen Sie, dass die charakteristische Funktion der Verteilung mit der Dichte folgendermaßen aussieht: ϕ T (t) v T (x) R cos(t x) πt x 2, x R e itx v T (x) dx { t T, t T 0, sonst. Bezeichnen wir ν T (x) x v T (y) dy als die Verteilungsfunktion mit Dichte v T. Lemma (Ungleichung von Esséen): Seien F (x), G(x) zwei Verteilungsfunktionen mit charakteristischen Funktionen f(t), g(t). Falls G(x) eine Ableitung G (x), x R mit sup x R G (x) c besitzt, dann gilt für alle T > 0 sup F (x) G(x) 2 T x R π 0 f(t) g(t) t 2n dt + πt sup G (x) Beweis Wir wollen annehmen, dass die rechte Seite der Ungleichung endlich ist, also f(t) g(t) t integrierbar, sonst ist die Ungleichung trivial. Wir werden die Verteilungsfunktion glätten, indem wir µ F ν T und ν G ν T betrachten. Seien ϕ µ bzw. ϕ ν die dazugehörigen charakteristischen Funktionen. Da für x R

171 KAPITEL 7. GRENZWERTSÄTZE 67 Z µ Z d X + Y gilt, wobei X, Y unabhängige Zufallsvariablen mit X F, Y ν T, bekommt man somit ϕ µ f ϕ T, ϕ ν g ϕ T, wobei ϕ T die oben genannte charakteristische Funktion von ν T ist. Da ϕ T und somit ϕ µ, ϕ ν außerhalb von [ T, T ] verschwinden, sind sie insbesondere integrierbar, somit hat man mit Hilfe des Lemmas 7.2.4, dass µ und ν absolut stetig sind mit Dichten f µ (t) T e itx ϕ T (x)f(x) dx, 2π f ν (t) 2π T T T e itx ϕ T (x)g(x) dx. f µ (t) f ν (t) T e itx (f(x) g(x))ϕ T (x) dx. (7.) 2π T Um die Ungleichung von Esseen zu beweisen, benutzen wir Lemma 7.2.6, wobei T (t) (t x)v T (x) dx R (F ν T G ν T )(t) T itx f(x) g(x) e ϕ T (x) dx (7.2) 2π T ix Somit folgt daraus ϱ T sup T (t) t R 2π T e itx 2π T }{{} 2 π T 0 T f(x) g(x) x T f(x) g(x) e itx ϕ T (x) ix dx ϕ T (x) dx 2 T }{{} 2π T f(x) g(x) x dx f(x) g(x) x und aus Lemma die Behauptung des Satzes. Der Integrand auf der rechten Seite lässt sich nach oben durch f(x) g(x) x abschätzen, wie wir soeben gesehen haben. Diese Schranke ist integrierbar. Somit kann man die beiden Seiten der Formel (7.2) bzgl. t differenzieren (nach dem Satz von Lebesgue). Dabei bekommt man genau die Gleichung (7.). Daraus folgt, dass T (t) 2π T T itx f(x) g(x) e ϕ T (x) dx + c ix dx

172 KAPITEL 7. GRENZWERTSÄTZE 68 für eine Konstante c C. Da T (t) F ν T (t) G ν T (t) 0 und nach Lemma dasselbe für T T itx f(x) g(x) e ϕ T (x) dx ix gilt, folgt c 0, und der Satz ist bewiesen. Den Satz von Berry Esséen formulieren und beweisen wir in einer etwas allgemeineren Form, woraus Satz folgen wird. Satz (Berry Esséen) Sei {X n } eine Folge von unabhängigen Zufallsvariablen mit EX n 0, 0 < σ 2 n Var X n <. Dann gilt für alle n: wobei sup F n (x) Φ(x) x R 6 ( n i σ2 i ) 3 2 n F n (x) P i X i n i σ2 i n E X i 3, i x. Bemerkung Falls X i unabhängig identisch verteilt sind mit 0 < σ 2 Var X i <, µ EX i, dann gilt für Y i X i µ n σi 2 nσ 2, i 6 E Y i 3 ( n i σ2 i ) 3 2 n E Y i 3 ne Y 3, i 6 ne Y 3 n nσ 3 6E X µ 3. nσ 3 Somit ist der Satz für c 6 bewiesen. Diese Überlegungen können verfeinert werden. Dann folgt 2π c < 0, 8 (ohne Beweis!). Beweis des Satzes Nach Lemma gilt ϱ n sup F n (x) Φ(x) 2 T x R π 0 wobei D 2 n n i ϕ P n X i i Dn (x) e x2 2 x dx + σi 2 und max x R Φ (x), T > 0. 2π 2n T π 2π,

173 KAPITEL 7. GRENZWERTSÄTZE 69 Desweiteren gilt ϕ P n X i i (x) ϕ P n i X i Dn weil X i unabhängig sind und genauso ( x D n ) n ( ) x ϕ Xi, D n i e x2 P n σ i 2 2 e i Dn 2 x 2 2. Bezeichnen wir α i E X i 3, α ( n i α3 i, β i ϕ x Xi, γ i e 2 Dn 2 x 2. Sei n beliebig aber fest. Falls ein i existiert, sodass α i, dann ist die Ungleichung im Satz trivialerweise erfüllt. Deswegen setzen wir voraus, dass α i < i... n. Setze T 8D3 n 9α. Somit gilt Zeigen wir, dass n β i i ϱ n 2 π n i T 0 γ i 8 9T D n ) n i β i n i γ i dx + 2n x T π 2π. ( x x 4 72 gilt. Daraus folgt die Behauptung des Satzes, nämlich 2 T π 0 n i β i n i γ i x 6 9 T π 6 9 T π }{{} ( dx 8 9 T ( π T π 2 π 0 ) e x2 8, x T (7.3) e x2 8 ) 3 ( 2 3 Γ 2 ) ( 6 9 T π ( 2 2π ( mit Hilfe der Formel 0 x k e λx2 dx 2 Daraus folgt ( ϱ n ) T 27 π π 8α D3 n }{{} 2π+5 2 2π 2π π π 2π ) λ k+ ( x ) 72 x3 ( 8 dx ) 2 Γ(2) }{{} σ 2 i 8 2 ) π ) 32 ( 2π T π 3 ) 2 Γ ( ) k+, k Z+, λ > 0) ( ) T π 2π 8 8 T π 2π 27 (π + 5 2π) + 3 ( 8 3 (π + 5 2π) ) α Dn 3 c,

174 KAPITEL 7. GRENZWERTSÄTZE 70 wobei c ( π 8 2π 3 (π + 5 2π) + 27 ) 8, 74. Jetzt beweisen wir die Abschätzung (7.3). Nach dem Lemma erhalten wir ( ) β i x ϕ X i D n σ2 i x2 2 Dn 2 + α i x 3 6 Dn 3 für n 3, weil EX i 0. Betrachten wir ausschließlich x T. Falls σ i T D n 2, dann gilt σi x σ i T D n 2 und somit σ2 i x2 2D 2 n 0, x T. Unter der Anwendung der Ungleichung + x e x, x R folgt daraus weil x T. Falls σ i T > D n 2, dann gilt β i e β i e σ2 i 2D 2 n «σ2 i 2 Dn 2 + α i T 6 Dn 3 x 2, α i T D 3 n «x 2 δ i, i... n, was aus der Ungleichung σ2 i der Ljapunow Ungleichung 2D 2 n + 3 α i T 8 Dn 3 0 folgt. Tatsächlich gilt aufgrund α i σi 3 σi 2 }{{} > D n 2 T σ i T >D n 2 > }{{} < σi 2 3 α it σ2 i 4D n 2 Dn 2 σ2 i 2 Dn αit Dn 3 0. σ 2 i D n 2 T 3 α it 8 D 3 n σ2 i D n T Daher gilt in jedem Fall β i σ i, x T. Trivialerweise folgt «γ i e 2 σ 2 i Dn 2 x 2 σ2 i 2 D e n αi T Dn 3 x 2 δ i, x T, i... n. Da ϱ n sup R F (x) Φ(x), so ist die Berry Esséen Ungleichung trivialerweise erfüllt, falls α Dn 3 6 gilt. Daher werden wir im Folgenden stets

175 KAPITEL 7. GRENZWERTSÄTZE 7 ( ) α < Dn 3 6 T 8D3 n 9α 8 α 9 D > 8 n gilt für alle i... n δ... δ i δ i+... δ n exp weil T 8D3 n 9α σ i Dn 4 exp j /i {( 2 {( exp annehmen. In diesem Fall σj 2 Dn 2 ( σ2 i D 2 n σ 2 i Dn j /i α jt x 2 8D 3 n ) + 3αT 8D 3 n {( exp }{{} 3 ) x 2 } α 8 9 D 3 n α Dn 3 < 6 < ) x 2 } ) x 2 } , falls σ i D n δ i e σ 2 i 2Dn 2 + 3α i T 8Dn 3 und somit 4 3 T 4. Falls σ i D n > 4 3T, dann gilt α i σ 3 i e σ 2 i 2Dn σ i 3 T 8 Dn 3 δ... δ i δ i+... δ n n k { > exp 2 σi 2 Dn 2 {( δ k exp 2 e x2 8, ( + 3 ) } σ i T e 0, 4 D n }{{} >0, da σ i Dn > 4 3 T σ 2 i D 2 n }{{} {( exp αt 8 Dn 3 + ) } x ) } α i 8Dn 2 x 2 e x2 8. Es gilt zusätzlich β i γ i Lemma β i + x2 σi 2 2Dn 2 + γ i + x2 σi 2 2Dn 2 x 3 α i 3! Dn 3 + x4 σi 4 }{{} 4! Dn 4 X 4 Φ(x) R }{{} x 3 α i 6D 3 n + x4 σi 4 8 Dn 4.

176 KAPITEL 7. GRENZWERTSÄTZE 72 Daher bekommt man n i weil α D 3 n β i γ i x 3 n i α i 8 9 T. (( ) σi 4 α 4 3 i ist.) }{{} ( ) x 3 α 6D 3 n 6D 3 n + x4 8 + x4 n i σ4 i ( α D 3 n ) 4 3 ( ) x x4 α D 3 n 8D 4 n weil α D 3 n < 6 ( x 3 x 3 α 6D 3 n x 3 α 6D 3 n 6 + x α 3 P α i α 3 αα 4 3 {}}{ n + x 4 σi 4 i 8Dn 4 + x ) 8 9 T, α 3 α i nach der Ljapunow Ungleichung, weil α n i α i Zusammenfassend erhalten wir n n n β i γ i β... β i (β i γ i ) γ i+... γ n i i i n δ... δ i δ i+... δ n β i γ i i e x2 8 n i β i γ i 8 9T α D 3 n ( x ) 72 x4 e x2 8, weil , < 0, , und der Satz ist bewiesen. Bemerkung Die Konstante c im Satz kann in der Tat nicht kleiner als 2π 0, 4 sein, wie folgendes Beispiel zeigt. Somit ist die Berry Esséen Schranke scharf ohne weitere Voraussetzungen an die Zufallsvariablen X i. Sei {X n } eine Folge von unabhängig identisch verteilten Zufallsvariablen, wobei {, mit Wkt. X n 2, mit Wkt.. 2 Somit gilt für gerade n ( n ) ( n ) 2P X i < 0 + P X i 0, i i

177 KAPITEL 7. GRENZWERTSÄTZE 73 weil aus Symmetriegründen P ( n i X i < 0) P ( n i X i > 0) gilt. Somit gilt ( n ) ( P X i < 0 n ) ( ) n 2 2 P X i 0 n i i 2 2 n 2 n! ( n ) ( 2! n ) 2! 2 n+ ( n ) n Stirlingsche Formel e 2πn n! ( n e ) n ( 2πn ( n 2 2e)n ) 2 2 πn n+ n n e n πn 2 ( ) n n 2 2 (2e) n πn 2 2 πn. 2π n 2 n+ Da EX n 0, Var X n E X n 3, somit gilt sup x R F n (x) Φ(x) max{ F n (0) Φ(0), F n (0 0) }{{} somit ist c 2π 0, 4. ( n ) P X i < 0 2 i P Pni X i n <0 2π «Φ(0) } }{{} 2 n, In den Sätzen und haben wir immer die Existenz des dritten Momentes von X n vorausgesetzt. Der zentrale Grenzwertsatz in Form von Lindeberg geht lediglich von der Existenz der zweiten Momente aus. Deshalb geben wir im nächsten Satz die Konvergenzgeschwindigkeit im zentralen Grenzwertsatz für den Fall, wenn lediglich die Lindeberg Bedingung erfüllt ist. Satz (Berry): Sei {X n } n eine Folge von unabhängigen Zufallsvariablen mit EX i µ i und 0 < Var X i σi 2 <. Sei D 2 n n i σ 2 i und L n (δ) D 2 n n E ( (X i µ i ) 2 I( X i µ i > δ D n ) ) i für alle δ > 0. Dann existiert eine Konstante D > 0 mit der Eigenschaft: aus L n (δ) δ 3 folgt ϱ n sup F n (x) Φ(x) < Dδ x R

178 KAPITEL 7. GRENZWERTSÄTZE 74 für alle δ > 0, wobei ist. F n (x) P ( n i X i n i µ i D n ) x, x R Ohne Beweis. Siehe den Beweis im Buch [5], Seite 7. Bemerkung Da die Lindeberg Bedingung (in einer ihrer Formen) L n (δ) 0 δ > 0 ist, kann somit quasi behauptet werden, dass sup F n (x) Φ(x) const 3 L n (δ). x R 7.3 Gesetz des iterierten Logarithmus Sei {X n } n eine Folge von unabhängig identisch verteilten Zufallsvariablen mit EX n 0, Var X n (auf allgemeinere Zufallsvariablen ist die Übertragung folgender Ergebnisse durch entsprechende Normierung möglich). Betrachten wir Polygonzüge S(ω), die dadurch entstehen, dass man Punkte (n, S n ), n N miteinander verbindet, wobei S n n i X i, n N und S 0 0 fast sicher. Aus dem starken Gesetz der großen Zahlen gilt: Somit ε > 0 N : n > N n S n f.s. 0. n S n < ε nε < S n < nε. Dies bedeutet, dass für n S(ω) für alle ε > 0 im Bereich {(x, y) R 2 : εx y εx} liegt (vgl. Abb. 7.2). Nach dem zentralen Grenzwertsatz gilt sogar ( P α S ) n β Φ(β) Φ(α) n woraus folgt, dass die Wahrscheinlichkeit, dass S(ω) im Bereich {(x, y) : α x y β x} liegt, näherungsweise Φ(β) Φ(α) für n ist.

179 KAPITEL 7. GRENZWERTSÄTZE 75 Abbildung 7.2: Illustration zum Gesetz des iterierten Logarithmus Wir werden jetzt auf folgende Frage eine Antwort geben können: Wann existiert eine Funktion y g(x), sodass S(ω) mit Wahrscheinlichkeit zwischen der Grafik von g(x) und g(x) liegt? Mit anderen Worten: S lim sup n f.s. lim inf g(n) S n g(n) f.s. Es stellt sich heraus, dass g(n) 2n log(log n), n 3 ist. Satz 7.3. (Hartman Winter) Sei {X n } n eine Folge von unabhängigen identisch verteilten Zufallsvariablen mit EX n 0, 0 < Var X n σ 2 <. Dann gilt fast sicher lim sup lim inf S n 2σ 2 n log(log n) S n 2σ 2 n log(log n),. Dieser Satz wird im Buch [5], Seite 8 bewiesen. Abbildung 7.2 illustriert den Sinn des Satzes: mit Wahrscheinlichkeit liegt S(ω) für n im Bereich zwischen zwei Kurven y ± 2σ 2 x log(log x). Im Satz 7.3. können auch unabhängige aber nicht identisch verteilte Zufallsvariablen betrachtet werden, falls vorausgesetzt wird, dass sie beschränkt sind. Das ist der sogenannte Satz von Kolmogorow, vgl. [5], Seiten

180 KAPITEL 7. GRENZWERTSÄTZE 76 Bemerkung 7.3. Es ist klar, dass S n ± 2n log(log n) Dies folgt aus der Tschebyschew Ungleichung: ( ) S n P ± 2n log(log n) > ε P 0. Var S n 2n log(log n) σ 2 2 log(log n) 0. σ 2 n 2n log(log n)

181 KAPITEL 7. GRENZWERTSÄTZE 77 x ,0 0, , , ,5967 0, , , , ,5388 0, , 0, , , ,5577 0, , , , , , ,2 0, , , , , , , , ,6026 0, ,3 0,679 0,6279 0, , , , , , , , ,4 0, , , , , , , , , , ,5 0, , , , , , , ,7566 0, , ,6 0, , , , , , , , , , ,7 0, ,7648 0, , , , , , , , ,8 0, , , , , , , , , , ,9 0, , ,8224 0, , , , , , ,83893,0 0, , , , , ,8534 0, , , ,86243, 0, , , , , , , , , ,882977,2 0, , , , , , , , , ,90475,3 0, , , , , ,9492 0, , , ,97736,4 0, , , , , , , , , ,93888,5 0, , , , , , , , , ,944083,6 0, , , , , , , , , ,954486,7 0, , , , , , , , , ,963273,8 0, , , , ,9676 0, , , , ,97062,9 0, , , , , , , , , , ,0 0, , , , , , , , , ,9869 2, 0, , , , , , , , , , ,2 0, , , , , , , , , , ,3 0, , , , , , , ,9906 0, , ,4 0, , , , , , , , , , ,5 0, , , , , , , , , , ,6 0, , , , , , , , , , ,7 0, , , , , , ,9970 0, , , ,8 0, , , , , , , , , , ,9 0, , , , , ,9984 0, ,9985 0, , ,0 0, , , , , , , , , , ,5 0, , , , , , , , , , ,0 0, , , , , , , , , , Tabelle 7.: Verteilungsfunktion Φ(x) der Standardnormalverteilung

182 Literaturverzeichnis [] H. Dehling, B. Haupt. Einführung in die Wahrscheinlichkeitstheorie und Statistik. Springer, Berlin, [2] H. Bauer. Wahrscheinlichkeitstheorie. de Gruyter, Berlin, 99. [3] A. A. Borovkov. Wahrscheinlichkeitstheorie: eine Einführung. Birkhäuser, Basel, 976. [4] W. Feller. An introduction to probability theory and its applications. Vol I/II. J. Wiley & Sons, New York, 970/7. [5] H. O. Georgii. Stochastik. de Gruyter, Berlin, [6] B. V. Gnedenko. Einführung in die Wahrscheinlichkeitstheorie. Akademie, Berlin, 99. [7] C. Hesse. Angewandte Wahrscheinlichkeitstheorie. Vieweg, Braunschweig, [8] A. F. Karr. Probability. Springer, New York, 993. [9] U. Krengel. Einführung in die Wahrscheinlichkeitstheorie. Vieweg, Braunschweig, [0] J. Jacod, P. Protter. Probability essentials. Springer, Berlin, [] L. Sachs. Angewandte Statistik. Springer, [2] A. N. Shiryaev. Probability. Springer, New York, 996. [3] J. M. Stoyanov. Counterexamples in probability. Wiley & Sons, 987. [4] H. Tijms. Understanding probability. Chance rules in everyday life. Cambridge University Press, [5] P. Gänßler, W. Stute. Wahrscheinlichkeitstheorie. Springer, Berlin,

183 Index A a posteriori Wahrscheinlichkeiten a priori Wahrscheinlichkeit absolut stetige Verteilung Algebra σ Algebra beobachtbare Ereignisse Borelsche σ Algebra Eigenschaften erzeugende Algebra minimale σ Algebra Approximation Binomiale durch einfache Funktionen Poissonsche Approximationssatz Approximationssatz von Weierstrass, Wahrscheinlichkeitstheoretischer Beweis arithmetisches Mittel siehe Mittel Axiome von Kolmogorow B Bayesche Formel bedingte Wahrscheinlichkeit Bernoulli Verteilung charakteristische Funktion..... Bernstein, Beispiel von Berry Satz von Satz von Berry Esséen Binomiale Approximation Binomialverteilung , 49 Erwartungswert.... siehe Momente erzeugende Funktion siehe erzeugende Funktion Varianz siehe Momente Bochner Kchintschin, Satz von... siehe charakteristische Funktion Borel Cantelli, 0 Gesetz von Borel 6 Borel Mengen Bose Einstein Statistik , 24 Buffonsches Nadelproblem C Cantor Treppe Carathéodory, Satz von Cauchy Bunyakovskii Schwarz, Ungleichung von siehe Ungleichungen Cauchy Verteilung Erwartungswert.... siehe Momente charakteristische Funktion Bernoulli Verteilung Charakterisierungsaussagen Bochner Kchintschin, Satz von 8 Marcinkiewicz, Satz von Pólya, Satz von Definition Eigenschaften , 2 Eindeutigkeitssatz Normalverteilung Poisson Verteilung Umkehrformel D Dichte , 60 aus charakteristischer Funktion 6 disjunkt diskrete Verteilung.... siehe Verteilung 3σ Regel E Eindeutigkeitssatz siehe charakteristische Funktion einfache Funktion siehe Lebesgue endlicher Wahrscheinlichkeitsraum

184 Ereignis Erwartungswert..... siehe Momente, 80 erzeugende Funktion Binomialverteilung Definition Eigenschaften Esséen Lemma von Satz von Berry Esséen Exklusionsprinzip von Pauli Exponentialverteilung Exzess F Faltungsformel Faltungsstabilität Normalverteilung , 9 Poissonverteilung Feller Feller Bedingung Satz von Lindeberg Feller Fermi Dirac Statistik , 24 flachgipflig siehe Exzess Fourier Umkehrformel G Gaußsche Verteilung siehe Normalverteilung Geburtstagsproblem gemischte Momente.....siehe Momente Geometrische Verteilung geometrische Wahrscheinlichkeit geometrisches Mittel siehe Mittel gewichtetes Mittel siehe Mittel Gleichheit in Verteilung gleichmäßige asymptotische Kleinheit 58 Gleichverteilung , 62 Erwartungswert.... siehe Momente Varianz siehe Momente Gleichverteilung auf [a, b] Grenzwertsätze Gesetz der großen Zahlen Anwendungen schwaches Gesetz der großen Zahlen starkes Gesetz der großen Zahlen Gesetz des iterierten Logarithmus zentraler Grenzwertsatz Grenzwertsatz von Lindeberg 53 6 klassischer Konvergenzgeschwindigkeit Grundgesamtheit H höhere Momente siehe Momente Hölder, Ungleichung von siehe Ungleichungen harmonisches Mittel siehe Mittel Hartman Satz von Harman Winter hypergeometrische Verteilung , 49 I Indikator Funktion , 4 Inverse, verallgemeinerte J Jensen, Ungleichung von siehe Ungleichungen K k tes Moment siehe Momente kausale und stochastische Unabhängigkeit Kchintschin, schwaches Gesetz der großen Zahlen von siehe Grenzwertsätze klassisches Wahrscheinlichkeitsmaß.. 9 Kolmogorow Gesetz der großen Zahlen Lemma von.. siehe Grenzwertsätze komplexwertige Zufallsvariable.... siehe Zufallsvariable Konvergenz fast sicher Funktionale von ZV Addition Produkt Satz von Slutsky , 35 Stetigkeitssatz in L r , 25 in Verteilung , 26 in Wahrscheinlichkeit mit Wahrscheinlichkeit schwach

185 Stetigkeitssatz stochastisch , 23 Zusammenhang Korrelationskoeffizient der 2D Normalverteilung Kovarianz siehe Momente Matrix L laplacesches Wahrscheinlichkeitsmaß. 9 Lebesgue Integral einfacher Funktionen Maßtransport Integral von Lebesgue Stiltjes Integral... 77, 85 Lemma von Riemann Lebesgue 64 Limes Inferior Limes Superior Lindeberg Grenzwertsatz von siehe Grenzwertsätze Satz von Satz von Lindeberg Feller lineare Abhängigkeit, Maß für.....siehe Korrelationskoeffizient linksschief siehe Schiefe linkssteil siehe Schiefe Ljapunow Ljapunow Bedingung , 60 Ungleichung von siehe Ungleichungen L r Definition Konvergenz in M Marcinkiewicz, Satz von siehe charakteristische Funktion Markow schwaches Gesetz der großen Zahlen siehe Grenzwertsätze Ungleichung von siehe Ungleichungen Maxwell Boltzmann Statistik Maßtransport im Lebesgue Integral messbare Zerlegung Messraum Minkowski, Ungleichung von siehe Ungleichungen Mischungen von Verteilungen Lebesgue, Satz von Mittel arithmetisches geometrisches gewichtetes harmonisches Mittelwert mittlere quadratische Abw. des EWsiehe Varianz Momente Erwartungswert absolut stetiger ZV Additivität alternative Darstellung....87, 88 Berechnung mittels Quantilfunktion Binomialverteilung Cauchy Verteilung diskreter ZV Gleichverteilung Monotonie Normalverteilung Poisson Verteilung Produkt gemischte Existenzbedingung zentrales gemischtes Moment 00 höhere k tes Moment k tes zentriertes Moment Kovarianz Matrix Varianz äquivalente Schreibweise Addition Binomialverteilung Gleichverteilung Normalverteilung Poisson Verteilung Momenterzeugende Funktion Mondscheibe Messung des Diameters 04 Monotone Konvergenz Monte Carlo, Methode zur numerischen Integration Multiplikationssatz

186 multivariate Verteilungsfunktion N Normalverteilung siehe Verteilung charakteristische Funktion.... siehe charakteristische Funktion Erwartungswert.... siehe Momente Korrelationskoeffizient Varianz siehe Momente P Pólya, Satz von. siehe charakteristische Funktion paarweise disjunkt Paradoxon von J. Bertrand Pauli, Exklusionsprinzip von π, Berechnung von Poisson Verteilung charakteristische Funktion.... siehe charakteristische Funktion Erwartungswert.... siehe Momente Varianz siehe Momente Poissonsche Approximation Polynomiale Verteilung Potenzmenge Prüfverteilung Problem von Galilei Q Quantilfunktion siehe Inverse R rechtsschief siehe Schiefe rechtssteil siehe Schiefe Riemann Lemma von Riemann Lebesgue 64 Routing Problem S Schiefe linksschief linkssteil rechtsschief rechtssteil Schwanzfunktion Siebformel σ Additivität , 7 σ Algebra siehe Algebra σ Subadditivität singulär siehe Verteilung Slutsky Satz von siehe Konvergenz Spitzigkeit siehe Exzess Standardabweichung , 92 Standardnormalverteilung siehe Verteilung steilgipflig siehe Exzess Stetigkeit von Wahrscheinlichkeitsmaßen Stetigkeitsaxiome Stetigkeitssatz... siehe Konvergenz, 36 Stichprobenraum Stiltjes siehe Lebesgue (stochastisch) unabhängig stochastische Unabhängigkeit Streuung Subadditivität des Wahrscheinlichkeitsmaßes P Symmetriekoeffizient symmetrische Differenz T Tabelle der Verteilungsfunktion der Standardnormalverteilung. 77 Tailfunktion totale Wahrscheinlichkeit , siehe Bayesche Formel Transformationssatz linear Tschebyschew, Ungleichung von... siehe Ungleichungen U Umkehrformel... siehe charakteristische Funktion Unabhängigkeit , 64 Charakterisierung Ungleichungen Cauchy Bunyakovskii Schwarz. 04 Hölder Jensensche Ljapunow Markow Minkowski Tschebyschew unkorreliert falls unabhängig unvereinbare Ereignisse Urnenmodell

187 LITERATURVERZEICHNIS 83 V Varianz siehe Momente verallgemeinerte Inverse... siehe Inverse Verteilung absolut stetig Cauchy Eigenschaften Exponential Gleich Normal , 74 Standardnormal Bestimmtheit durch Momente.. 0 diskret Beispiele Bernoulli Binomial geometrische Gleich hypergeometrische Poisson quadrierte ZV singuläre von Zufallsvektoren absolut stetig diskret Gleichverteilung multivariate Gleichverteilung. 67 multivariate Normalverteilung 63, 66 Polynomiale Verteilung Verteilungsfunktion Verteilungsfunktion Asymptotik Eigenschaften Monotonie rechtsseitige Stetigkeit W Wölbung siehe Exzess Wahrscheinlichkeit Wahrscheinlichkeitsfunktion , 60 Wahrscheinlichkeitsmaß , 2 Wahrscheinlichkeitsraum Weierstrass, Approximationssatz von, Warhscheinlichkeitstheoretischer Beweis Winter Satz von Hartman Winter Z Zähldichte , 60 zentrales gemischtes Moment......siehe Momente zentriertes Moment..... siehe Momente Zufallselement Zufallsmenge Zufallsvariable komplexwertige Momente Produkt Quotient Summe von Zufallsvektor