2 8 STETIGE ZUFALLSVARIABLEN 8 Stetige Zufallsvariablen 8. Definition von stetigen Zufallsvariablen Idee: Eine Zufallsvariable X heißt stetig, falls zu beliebigen Werten a < b aus dem Träger von X auch jeder Zwischenwert in dem Intervall [a, b] möglich ist. Problem: Wie kann man P (a X b) berechnen, falls alle (also überabzählbar viele) Punkte im Intervall [a, b] möglich sind? Beispiel 8. (Glücksrad) Betrachte ein Glücksrad mit stetigem Wertebereich [, 2π]. Von Interesse ist die Zufallsvariable, die den eakten Winkel angibt, an dem das Glücksrad stehen bleibt. Aufteilung in Sektoren, der gleichen Breite. Damit hat jeder Sektor die Wahrscheinlichkeit. P (X [, π]) 5 2 Eine feinere Aufteilung in Sektoren der gleichen Breite liefert: jeder Sektor hat Wahrscheinlichkeit, aber P (X [, π]) 5 2 ist konstant. Im Grenzprozess n erhält man: jeder Sektor hat Wahrscheinlichkeit, aber lim P (X [, π]) lim n 2 n n n 2 Definition 8. Eine Zufallsvariable X heißt stetig, wenn es eine Funktion f() gibt, so dass sich die Verteilungsfunktion F () von X wie folgt darstellen lässt: F () P (X ) f(u) du. Die Funktion f() heißt Wahrscheinlichkeitsdichte (kurz Dichte oder Dichtefunktion) von X. Der Träger T von X ist die Menge aller Elemente R für die f() > gilt. Beachte den Unterschied zu diskreten Zufallsvariablen! Hier gilt: F () f( i ) i: i
8. Definition von stetigen Zufallsvariablen 3 Einige Folgerungen:. P (X ) R 2. P (X [a, b]) P (X ]a, b]) P (X [a, b[) P (X ]a, b[) b a f() d 3. + f() d Normierungseigenschaft Eigenschaften der Verteilungsfunktionen F () von stetigen Zufallsvariablen:. lim F () 2. lim F () 3. An allen Stetigkeitsstellen von f() gilt: F () f() 4. P (a X b) F (b) F (a) 5. P (X a) F (a) etc. Definition 8.2 Als Normalisierungskonstante c bezeichnet man multiplikative Terme in der Dichtefunktion f(), die nicht vom Argument abhängen (aber im Allgemeinen von den Parametern), der übrige Teil heißt Kern: Man schreibt oft f() g(). f() c g() }{{} Kern Allgemeine Definition von stetigen Zufallsvariablen: Frage: Für welche Mengen B ist die Aussage P (X B) f()d überhaupt sinnvoll? Sei F die Mengenfamilie aller offenen Intervalle in R. Dann gibt es eine sogenannte σ-algebra (eine spezielle Mengenfamilie) σ(f), die F enthält. Für eine σ-algebra σ(f) muss gelten: B
4 8 STETIGE ZUFALLSVARIABLEN. und Ω σ(f) 2. Für A, B σ(f) ist auch B \ A σ(f) 3. Für A, A 2,... σ(f) ist auch n A n σ(f) und n A n σ(f) Ein Wahrscheinlichkeitsmaß P auf Ω wird nun mittels σ(f) definiert: Für alle paarweise disjunkten Mengen A, A 2,... σ(f) soll gelten (vgl. Aiom A3 von Kolmogorow): P ( na n ) P (A n ) Ferner müssen natürlich auch die Aiome A und A2 erfüllt sein: P ( ) P (Ω) n Stetige Zufallsvariablen sind also Abbildungen von Ω nach R.
8.2 Wichtige stetige Verteilungen 5 8.2 Wichtige stetige Verteilungen Im Folgenden werden wir nun wichtige stetige Verteilungen kennenlernen. Stetige Verteilungen hängen wie diskrete Verteilungen von einem oder mehreren Parametern ab. Zur Charakterisierung werden wir meist die Dichtefunktion und den Träger angeben. Die einfachste stetige Verteilung ist die stetige Gleichverteilung: Eine Zufallsvariable X heißt stetig gleichverteilt auf dem Intervall [a, b] (a, b R), kurz X U(a, b), falls ihre Dichtefunktion die Form f() { b a für [a, b] sonst hat. Der Träger von X ist also T [a, b]. Die Verteilungsfunktion F () von X ergibt sich zu < a a F () [a, b] b a > b f()..5..5.2.25 F()..2.4.6.8. 2 3 4 5 6 2 3 4 5 6 Abbildung 9: Dichtefunktion (links) und Verteilungsfunktion (rechts) der stetigen Gleichverteilung für a 2 und b 6
6 8 STETIGE ZUFALLSVARIABLEN Funktionen in R: dunif(, min a, ma b) liefert Dichtefunktion punif(...) liefert Verteilungsfunktion runif(...) liefert Zufallszahlen aus der Gleichverteilung Die Eponentialverteilung Eine stetige Zufallsvariable X mit positivem Träger R +, heißt eponentialverteilt mit Parameter λ R + (kurz X E(λ)), wenn sie die Dichte { λ ep( λ) für f() sonst besitzt. Die Verteilungsfunktion ergibt sich zu { ep( λ) für F () für < Funktionen in R: dep(, rate λ) liefert Dichtefunktion pep(...) liefert Verteilungsfunktion rep(...) liefert Zufallszahlen aus der Eponentialverteilung f()..2.4.6.8 F()..2.4.6.8. 2 4 6 8 2 4 6 8 Abbildung 2: Dichtefunktion (links) und Verteilungsfunktion (rechts) der Eponentialverteilung mit folgenden Raten: λ.9 (schwarz), λ.5 (rot) und λ.3 (grün)
8.2 Wichtige stetige Verteilungen 7 Es bleibt zu zeigen, dass f() d f() d λ λ λ gilt: ep( λ) d [ ] λ ep( λ) [ + ] λ Beispiel 8.2 (Kern der Eponentialverteilung) Der Kern der Eponentialverteilung ist ep( λ), da dieser Teil der Dichtefunktion f() von abhängt. Die Normalisierungskonstante ist λ. Die Eponentialverteilung steht in engem Zusammenhang zur Poissonverteilung. Die Anzahl der Ereignisse in einem Intervall ist genau dann P(λ)- verteilt, wenn die Zeitdauern zwischen aufeinander folgenden Ereignissen unabhängig und eponential verteilt mit Parameter λ sind. Beispiel 8.3 Ebenso wie die geometrische Verteilung besitzt die Eponentialverteilung die Eigenschaft der Gedächtnislosigkeit, d.h. P (X > s + X > s) P (X > ), wie man leicht sieht: P (X > s + X > s) > P (X > s +, X > s) P (X > s) P (X > s + ) P (X > s) P (X s + ) P (X s) ep( λ(s + )) ep( λs) ep( λ) P (X > ) Die Gammaverteilung Die Gammaverteilung ist eine Verallgemeinerung der Eponentialverteilung.
8 8 STETIGE ZUFALLSVARIABLEN Wie diese hat sie einen positiven Träger T R +, aber einen Parameter mehr: Eine stetige Zufallsvariable X heißt gammaverteilt mit Parametern α R + und β R + (kurz X G(α, β)), falls sie die Dichte f() { β α Γ(α) α ep( β) für sonst besitzt. Hier bezeichnet Γ(α) die Gammafunktion Γ(α) α ep( ) d Die Gammafunktion kann als Verallgemeinerung der Fakultät betrachtet werden, da gilt: Γ( + )! für N Γ( + ) Γ() für R + f() 2 3 4 F()..2.4.6.8...2.4.6.8...2.4.6.8. Abbildung 2: Dichtefunktion (links) und Verteilungsfunktion (rechts) der Gammaverteilung mit folgenden Werten für α und β: (2., 3) (schwarz), (.2, 3) (rot), (2., 6) (grün) und (.2, 6) (blau) Eigenschaften der Gammaverteilung: für α entspricht die Gammaverteilung einer Eponentialverteilung mit Parameter λ β
8.2 Wichtige stetige Verteilungen 9 für α d mit d N und β entspricht die Gammaverteilung der 2 2 sogenannten Chi-Quadrat(χ 2 ) -Verteilung mit d Freiheitsgraden (kurz: X G( d, ) X 2 2 χ2 (d)) Funktionen in R: dgamma(, shape α, rate β) liefert Dichtefunktion pgamma(...) liefert Verteilungsfunktion rgamma(...) liefert Zufallszahlen aus der Gammaverteilung dchisq(, df Freiheitsgrade) χ 2 -Verteilung Man kann mit Hilfe der Substitutionsregel f(g()) g () d f(z) dz zeigen, dass f() d ist: f() d βα Γ(α) β α Γ(α) α ep( β) d α ep( β) d Als Substitution verwendet man g() β. Dann erhält man f() d βα g() α ep( g()) d Γ(α) βα β Γ(α) β Γ(α) } {{ } Γ(α) f(g()) g () {}}{{}}{ g() α ep( g()) β f(z)dz Die Normalverteilung Eine Zufallsvariable X mit Träger T R und Parametern µ R und σ 2 R + heißt normalverteilt (kurz X N (µ, σ 2 )), falls sie die Dichtefunktion f() ( 2π σ ep ) ( µ) 2 für R 2 σ 2 hat. Diese wird auch Gaußsche Glockenkurve genannt. Für µ und σ 2 nennt man die Verteilung Standardnormalverteilung. d
8 STETIGE ZUFALLSVARIABLEN Beachte: F () f(u) du ist nicht analytisch zugänglich (d.h. man findet keine Stammfunktion und braucht numerische Integration bzw. verwendet einen look-up table ). f()...2.3.4 F()..2.4.6.8. 6 4 2 2 4 6 6 4 2 2 4 6 Abbildung 22: Dichtefunktion (links) und Verteilungsfunktion (rechts) der Normalverteilung mit folgenden Werten für µ und σ: (, ) (Standardnormalverteilung: schwarz), (2, ) (rot) und (, 2) (grün) Weshalb gilt für die Dichtefunktion der Normalverteilung Aus der Analysis ist bekannt, dass für a > gilt: f() d? ep( a 2 2 ) d π a (8) Außerdem stimmen die folgenden beiden Integrale µ R überein ( ep 2 ) ( µ) 2 d σ 2 ) ep ( 2 d (9) 2σ 2 da die beiden Integralsfunktionen bis auf eine Verschiebung entlang der -
8.2 Wichtige stetige Verteilungen Achse identisch sind. Daher erhält man: ( f() d ep ) ( µ) 2 d 2π σ 2 σ 2 ( ep ) ( µ) 2 d 2π σ 2 σ 2 (9) ) ep ( 2 d 2π σ 2σ 2 π 2σ 2 2π σ (8) Funktionen in R: dnorm(, meanµ, sdσ) liefert Dichtefunktion pnorm(...) liefert Verteilungsfunktion rnorm(...) liefert Zufallszahlen aus der Normalverteilung Die Betaverteilung Eine Zufallsvariable X mit Träger T (, ) und Parametern α R + und β R + heißt betaverteilt (kurz X Be(α, β)), falls sie die Dichtefunktion f() { B(α,β) α ( ) β für < < sonst besitzt, wobei die Betafunktion B(α, β) gerade so definiert ist, dass f() d gilt: B(α, β) Γ(α)Γ(β) Γ(α + β) α ( ) β d An dieser Formel erkennt man auch den Zusammenhang zwischen der Betaund der Gammafunktion. Beachte: Für α β entspricht die Gammaverteilung der Gleichverteilung auf dem Intervall [, ]. Funktionen in R: dbeta(, shape α, shape2β) liefert Dichtefunktion pbeta(...) liefert Verteilungsfunktion rbeta(...) liefert Zufallszahlen aus der Betaverteilung
2 8 STETIGE ZUFALLSVARIABLEN f() 2 3 4 F()..2.4.6.8...2.4.6.8...2.4.6.8. Abbildung 23: Dichtefunktion (links) und Verteilungsfunktion (rechts) der Betaverteilung mit folgenden Werten für α und β: (2., 3) (schwarz), (.2, 3) (rot), (2., 6) (grün) und (.2, 6) (blau)
8.3 Lageparameter von stetigen Zufallsvariablen 3 8.3 Lageparameter von stetigen Zufallsvariablen Lageparameter von stetigen Zufallsvariablen sind (ebenso, wie bei diskreten Zufallsvariablen) die folgenden: Erwartungswert: eistiert meistens, ist dann auch eindeutig Median (.5-Quantil): eistiert immer, ist immer eindeutig, solange der Träger von X ein Intervall ist Modus (Maimum der Dichtefunktion): eistiert nicht immer, ist auch nicht immer eindeutig Die Definitionen dieser Parameter lauten aber anders. Definition 8.3 Den Erwartungswert einer stetigen Zufallsvariable X ist definiert als E(X) f() d unter der Voraussetzung, dass die Funktion f() absolut integrierbar ist, d.h es muss gelten: E( X ) f() d f() d < Andernfalls sagt man, der Erwartungswert von X eistiert nicht bzw. ist unendlich. Zur Erinnerung ist hier noch einmal die Definition des Erwartungswertes für stetige Zufallsvariablen aufgeführt: E(X) T P (X ) }{{} f() Der Erwartungswert für stetige Zufallsvariablen hat sehr ähnliche Eigenschaften wie im diskreten Fall (die Eistenz aller auftretenden Erwartungswerte sei im Folgenden vorausgesetzt):. E[g(X)] g()f() d für eine beliebige Funktion g : R R 2. Linearität des Erwartungswertes : E(a X + b) ae(x) + b
4 8 STETIGE ZUFALLSVARIABLEN 3. Additivität : E(X + Y ) E(X) + E(Y ) 4. Symmetrie : Ist f() symmetrisch um einen Punkt c, d.h. f(c ) f(c + ) R, dann ist E(X) c. Beispiel 8.4 (Erwartungswert der stetigen Gleichverteilung) Die Dichtefunktion ist f() { b a a b sonst Daher lautet der Erwartungswert E(X) [ b d a b a b a ] b 2 2 a b a 2 (b2 a 2 ) a+b 2 Dies ist einfacher über die Symmetrieregel für den Erwartungswert zu zeigen, denn die Dichtefunktion f() ist symmetrisch um den Punkt c a+b 2. Beispiel 8.5 (Erwartungswert der Normalverteilung) Der Erwartungswert der Normalverteilung ist E(X) µ, da die Dichtefunktion f() ( 2π σ ep ) ( µ) 2 für R 2 σ 2 symmetrisch um den Punkt c µ ist. Beispiel 8.6 (Erwartungswert der Betaverteilung) f() { B(α,β) α ( ) β für < < sonst
8.3 Lageparameter von stetigen Zufallsvariablen 5 E(X) f() d B(α, β) α ( ) β d B(α +, β) B(α, β) Γ(α + β) Γ(α + ) Γ(β) Γ(α) Γ(β) Γ(α + β + ) es gilt Γ( + ) Γ() α α + β B(α +, β) α ( ) β d }{{}, Int. über Dichtefkt. von Be(α +, β) Beispiel 8.7 (Erwartungswert der Eponentialverteilung) f() { λ ep( λ) für sonst Mit Hilfe von partieller Integration u()v () d u()v() gilt für den Erwartungswert u ()v() d E(X) + λ }{{} u() ep( λ) d }{{} v () [ λ( ) λ ep( λ) ] ep( λ) d λ( ) ep( λ) d λ λ Satz 8. Es gilt für stetige Zufallsvariablen mit positivem Träger R + : E(X) [ F ()] d }{{} P (X>)
6 8 STETIGE ZUFALLSVARIABLEN vgl. dazu Satz (5.) für diskrete Zufallsvariablen mit Träger N: E(X) P (X k) k P (X > k) k Diese Formel liefert eine einfachere Variante, den Erwartungswert der Eponentialverteilung zu berechnen: E(X) [ ep( λ)] d ep( λ) d λ ep( λ) λ Bemerkung: Für beliebige Zufallsvariablen X muss zwar immer f() d gelten, es kann aber durchaus der Fall E(X) eintreten, da E( X ) Dies sieht man an folgendem Beispiel: f() d Beispiel 8.8 (Erwartungswert der Cauchy-Verteilung) Die Cauchy-Verteilung mit der Dichtefunktion f() π + 2 für R hat keinen (endlichen) Erwartungswert. Für die Cauchy-Verteilung gilt, dass f() symmetrisch um den Punkt ist, und somit würde man denken, dass E(X) ist, was aber nicht der Fall ist. Betrachte dazu zunächst E( X ) 2 f() d c 2 π lim c + d 2 2 [ π lim c 2 log( + 2 ) π lim c log( + c2 ). Der Erwartungswert der Cauchy-Verteilung eistiert somit nicht. ] c
8.3 Lageparameter von stetigen Zufallsvariablen 7 Definition 8.4 (Quantile von stetigen Zufallsvariablen) Wir nehmen an, dass der Träger der stetigen Zufallsvariable X ein Intervall ist und somit die Umkehrfunktion F (p) der Verteilungsfunktion F () von X eindeutig definiert ist. Das p-quantil der Verteilung von X ist definiert als der Wert p für den F () p gilt. Somit gilt p F (p). Speziell erhält man für p.5 den Median Med. Ist f() symmetrisch um einen Punkt c, so ist Med c. Beispielsweise ist der Median Med µ bei einer normalverteilten Zufallsvariablen X N (µ, σ 2 ). Definition 8.5 (Der Modus von stetigen Zufallsvariablen) Ein Modus einer stetigen Zufallsvariable X ist ein Wert Mod, für den für alle R gilt: f( Mod ) f() Der Modus ist nicht notwendigerweise eindeutig, noch muss er eistieren. Beispiel 8.9 (Modi von verschiedenen stetigen Verteilungen). Modus der Betaverteilung: f() { B(α,β) α ( ) β für < < sonst Um das Maimum der Dichtefunktion zu erhalten, wird die erste Ableitung gleich Null gesetzt: f ()! [ (α ) α 2 ( ) β + α (β )( ) β 2 ( ) ] B(α, β) B(α, β) α 2 ( ) β 2 [(α )( ) (β )] }{{}! α α + β + Mod α α β 2 2. Der Modus der Normalverteilung ist µ. nur für α > und β > eindeutig!! 3. Der Modus der Gammaverteilung: Für α > ist der Modus eindeutig gleich Mod (α )/β. Für α < eistieren keine Modi.
8 8 STETIGE ZUFALLSVARIABLEN Definition 8.6 Die Varianz einer stetigen Zufallsvariablen definiert man analog zum diskreten Fall: VarX E[X E(X)] 2 E[X µ] 2 ( µ) 2 f() d mit µ E(X). Die Standardabweichung σ Var(X) ist wie im diskreten Fall definiert. Beachte: Auch die Varianz kann nicht eistieren, d.h. unendlich sein. Eistiert der Erwartungswert nicht, so eistiert auch die Varianz nicht. Für die Varianz für stetige Zufallsvariablen gelten nun im wesentlichen dieselben Eigenschaften wie im diskreten Fall. Verschiebungssatz: Var(X) E(X 2 ) [E(X)] 2 Lineare Transformationen: Für Y a X + b gilt: Sind X und Y unabhängig, so gilt: Var(Y ) a 2 Var(X) Var(X + Y ) Var(X) + Var(Y ) Beispiel 8. (Varianz der stetigen Gleichverteilung) Wir wissen: { a b b a f() sonst und Zunächst folgt für E(X 2 ): E(X 2 ) 2 f() d b a E(X) a + b 2 Mit dem Verschiebungssatz ergibt sich: 2 b a d b a [ 3 Var(X) E(X 2 ) (E(X)) 2 3 b3 a 3 b a 3 (b2 + ab + a 2 ) 4 (b2 + 2ab + a 2 ) 3 ] b a ( a + b 3 b3 a 3 b a 2 ) 2 2 (b2 2ab + a 2 ) (b a)2 2
8.3 Lageparameter von stetigen Zufallsvariablen 9 Die Varianz wächst also quadratisch mit der Länge des Intervalls, die Standardabweichung somit linear mit der Länge des Intervalls. Im Folgenden nun zusammenfassend die Erwartungswerte und Varianzen der gängigsten stetigen Verteilungen: Name Symbol E(X) Var(X) Gleichverteilung X U(a, b) a+b 2 Eponentialverteilung X E(λ) λ Gammaverteilung X G(α, β) α β (b a) 2 2 Normalverteilung X N (µ, σ 2 ) µ σ 2 λ 2 α β 2 Betaverteilung X }mathcalbe(α, β) α α+β α β (α+β) 2 (α+β+)
2 8 STETIGE ZUFALLSVARIABLEN 8.4 Das Gesetz der großen Zahlen Das Gesetz der großen Zahlen ist eine Aussage über das arithmetische Mittel Xn n n i X i für n, wobei X i, i,..., n unabhängig und identisch verteilte Zufallsvariablen aus einer Verteilung mit Erwartungswert µ und Varianz σ 2 seien. Klarerweise gilt: E( X n ) µ und da V ar( X n ) n σ2 ( ) E( X n n ) E X i n n i ( ) V ar( X n n ) V ar X i n n 2 i n E(X i ) n n µ µ i n V ar(x i ) n n 2 σ2 n σ2. Daher folgt sofort, dass für das arithmetische Mittel und seine Varianz im Grenzfall (n ) Folgendes gilt: i X n µ und V ar( X n ) In Abbildung 24 sieht man anschaulich, dass das arithmetische Mittel von standardnormalverteilten Zufallsvariablen gegen den Erwartungswert konvergiert. Dagegen konvergiert das arithmetische Mittel von Cauchyverteilten Zufallsvariablen nicht (siehe Abb. 25), da der Erwartungswert der Cauchy- Verteilung nicht eistiert.
8.4 Das Gesetz der großen Zahlen 2 Arithmetisches Mittel.4.2..2.4 2 4 6 8 n Abbildung 24: Arithmetisches Mittel für standardnormalverteilte Zufallsvariable Arithmetisches Mittel 8 6 4 2 2 4 2 4 6 8 n Abbildung 25: Arithmetisches Mittel für Cauchyverteilte Zufallsvariablen
22 8 STETIGE ZUFALLSVARIABLEN 8.5 Der Transformationssatz für Dichten Sei X eine stetige Zufallsvariable mit Dichte f X (). Betrachte nun Y g(x), wobei z.b. Y ep(x), Y X 2,... Frage: Wie lautet die Dichte f Y (y) der Zufallsvariable Y? In dem folgenden Satz wird beschrieben, wie man auf einfache Weise die Dichtefunktion von Y g(x) berechnen kann: Satz 8.2 (Transformationssatz für Dichten) Sei g streng monoton und differenzierbar. Dann kann man die Dichte f Y (y) mit Hilfe des Transformationssatzes berechnen: f Y (y) f X (g (y)) dg (y) dy }{{} g (y) Beweis (über die Verteilungsfunktion F Y (y) von Y ): Sei g zunächst streng monoton wachsend und differenzierbar: F Y (y) P (g() y) P (X g (y)) F X (g (y)) Differenzieren ergibt: f Y (y) F Y (y) F X(g (y)) dg (y) dy f X (g (y)) Sei nun g streng monoton fallend und differenzierbar: dg (y) dy }{{} positiv, da g streng monoton wachsend F Y (y) P (g() y) P ( g (y)) P ( < g (y)) P ( g (y)) F X (g (y)) f Y (y) f X (g (y)) dg (y) dy }{{} negativ, da g streng monoton fallend Insgesamt ergibt sich also: f Y (y) f X (g (y)) dg (y) dy
8.5 Der Transformationssatz für Dichten 23 Beispiel 8. (Erzeugung eponentialverteilter Zufallsvariablen) Betrachte X U[, ] und Y g(x), mit g() log(x). Die Umkehrfunktion von g() ist damit g (y) ep( y). Die Ableitung der Umkehrfunktion lautet dann dg (y) ep( y) dy Damit ergibt sich für die Dichtefunktion von Y : f Y (y) f X (g (y)) ep( y) ep( y) Daher folgt, dass Y eponentialverteilt ist mit Parameter λ, also Y E(λ ). Allgemeiner liefert Y log() Zufallszahlen aus einer λ Eponentialverteilung mit Parameter λ : Y E(λ) Beispiel 8.2 (Quadrat einer Standardnormalverteilung) Wie lautet die Dichte von Y X 2, falls X N(, ), also standardnormalverteilt ist? Die Dichte von X ist f() 2π ep ( 2 2 ) für R Ein Problem ist, dass man für die Verwendung des Transformationssatzes für Dichten eine streng monotone Funktion g benötigt, g() 2 aber nicht monoton ist. Daher betrachtet man zunächst Z X. Z hat offensichtlich das Doppelte der Dichte der Standardnormalverteilung auf R + : f(z) 2 2π ep ( 2 z2 ) für z > und sonst Nun ist X 2 Y Z 2 g(z) und g monoton wachsend auf dem Wertebereich R +. Damit ergibt sich y z 2 z y und die Ableitung der Umkehrfunktion von g lautet dg (y) dy 2 y 2 Mit dem Transformationssatz für Dichten erhält man die Dichte von Y : 2 f(y) ep ( 2 ) ( y) 2 2 ep ( 2 ) y y 2 2π 2π 2 y Y ist also gammaverteilt mit den Parametern α β, Y G(.5,.5). 2 Vergleiche hierzu die Dichte der Gammaverteilung: f(y) βα y α ep( βy) Γ(α) }{{} 2 π 2π
24 8 STETIGE ZUFALLSVARIABLEN Diese Dichte entspricht auch der Dichte einer χ 2 -Verteilung mit Freiheitsgrad: Y X 2 χ 2 (). Allgemeiner gilt: Für X i N(, ) i,..., d und unabhängig ist Y X 2 + X2 2 +... + Xd 2 χ2 -verteilt mit d Freiheitsgraden. Allgemeiner kann man auch die Inversions-Methode zur Erzeugung von n Zufallszahlen aus einer beliebigen stetigen Verteilung mit Dichte f() und Verteilungsfunktionen F () verwenden. Erzeuge dazu n gleichverteilte Zufallsvariablen U,..., U n auf dem Intervall [, ]. Dann sind X i F (U i ), i,..., n die gesuchten Zufallszahlen aus der gewünschten Verteilung mit Verteilungsfunktionen F (). Beweis: Die Dichte von X i ergibt sich mit der Anwendung des Transformationssatzes für Dichten: f X () f U (F ()) F () f() }{{}}{{} f() Beispiel 8.3 (Erzeugung von Cauchyverteilter Zufallsvariablen) Die Dichtefunktion f() von Cauchyverteilten Zufallsvariablen ist f() π und die Verteilungsfunktion F () lautet F () arctan() π + 2 π + u du 2 π [arctan(u)] [ arctan() + π ] π 2 + 2 Die inverse Verteilungsfunktion ist somit: [ ( F (y) tan π y )] 2 Zufallszahlen aus der Cauchy-Verteilung lassen sich also leicht erzeugen, indem man U,..., U N aus U[, ] erzeugt und X i tan(π(u i )) berechnet. 2
8.5 Der Transformationssatz für Dichten 25 Beispiel 8.4 (log-normalverteilung) Anwendung des Transformationssatzes für Dichten: Betrachte X N(µ, σ 2 ). Dann heißt Y ep(x) log-normalverteilt mit Parameter µ und σ 2. Y hat Dichte für y > und sonst. Es gilt: f Y (y) ep( (log(y) µ) 2 ) 2πσ 2 σ }{{ 2 } f X (g (y)) E(Y ) ep(µ + 2 σ2 ) y }{{} dg (y) dy V ar(y ) ep(2µ + σ 2 )[ep(σ 2 ) ]
26 8 STETIGE ZUFALLSVARIABLEN 8.6 Der zentrale Grenzwertsatz Der zentrale Grenzwertsatz(ZGWS) beinhaltet die Aussage, dass das arithmetische Mittel, geeignet standardisiert, von beliebigen unabhängig und identisch verteilten (engl.: iid: independent, identically distributed ) Zufallsvariablen gegen die Standardnormalverteilung konvergiert. Diese Tatsache begründet die zentrale Rolle der Normalverteilung in der Stochastik. Doch zunächst müssen wir dazu standardisierte Zufallsvariablen definieren. Definition 8.7 Eine Zufallsvariable X heißt standardisiert, falls sie Erwartungswert E(X) µ und Varianz Var(X) σ 2 besitzt. Jede Zufallsvariable X mit endlichem Erwartungswert E(X) und endlicher Varianz Var(X) kann man durch lineare Transformation standardisieren. Definiere dazu die Zufallsvariable X als Dann gilt offensichtlich: X X µ. σ E( X) (E(X) µ) σ Var( X) σ 2 Var(X) Auch die Summe von unabhängig und identisch verteilte Zufallsvariablen X, X 2,..., X n mit endlichem Erwartungswert µ E(X i ) und endlicher Varianz σ 2 Var(X i ) kann standardisiert werden. Zunächst gilt für die Summe Y n X + X 2 +... + X n : E(Y n ) n µ Var(Y n ) n σ 2 Somit hat Z n Y n nµ n σ n n i X i µ σ
8.6 Der zentrale Grenzwertsatz 27 Erwartungswert und Varianz ( ) Yn nµ E(Z n ) E E(Y n) nµ n σ n σ nµ nµ n σ ( ) ( ) Yn nµ Yn n Var(Z n ) Var Var n σ n σ ( n σ ) 2 Var(Y n ) n σ2 n σ 2. Die Zufallsvariable Z n ist also standardisiert. Die eakte Verteilung von Z n ist zunächst noch unbekannt. Für n kann man jedoch den zentralen Grenzwertsatz anwenden. Satz 8.3 (Zentraler Grenzwertsatz) Die Verteilungsfunktion F n (z) von Z n konvergiert für n an jeder Stelle z R gegen die Verteilungsfunktion Φ(z) der Standardnormalverteilung. a N (, ) ( asymp- Man schreibt: F n (z) Φ(z) für n und alle z R bzw. kurz Z n totisch standardnormalverteilt ) In der Prais kann man also die Verteilung von Z n für n groß gut durch eine Standardnormalverteilung approimieren. Bemerkungen: Satz 8.3 gilt sowohl für stetige als auch für diskrete Zufallsvariablen X i, wenn deren Erwartungswert und Varianz eistieren (für Standardisierung nötig) X i kann beliebig schiefe (nicht symmetrische) Verteilungen haben, z.b. X i E(λ) Trotzdem konvergiert Z n gegen die (symmetrische) N (, )-Verteilung.
28 8 STETIGE ZUFALLSVARIABLEN Die Standardisierung ist nicht notwendig zur Formulierung des ZGWS. Alternativ kann man auch direkt Y n X +... + X n betrachten. Dann gilt Y n a N (n µ, n σ 2 ) denn nσ Z n }{{} Y n n µ Z n a N (, ) a N (, n σ 2 ) Y n a N (n µ, n σ 2 ) Beispiel 8.5 (Summe von iid Bernoulliverteilten Zufallsvariablen) Seien X i Bernoulliverteilte, unabhängige Zufallsvariablen: X i B(π), i,..., n Dann ist Y n n i X i binomialverteilt mit Y n B(n, π). Asymptotisch gilt: Y n n π n π( π) a N (, ) bzw. Y n a N (n π, n π( π))
8.7 Die gemeinsame Verteilung von zwei stetigen Zufallsvariablen 29 8.7 Die gemeinsame Verteilung von zwei stetigen Zufallsvariablen Definition 8.8 Die gemeinsame Verteilungsfunktion zweier stetiger Zufallsvariablen X und Y ist die Funktion F (, y) P (X und Y y) Alternativ kann man die gemeinsame Verteilung von X und Y auch über deren gemeinsame Dichtefunktion f(, y) definieren, wobei F (, y) für alle, y R gelten muss. Falls f(, y) stetig ist, so gilt: y v d 2 F (, y) d dy u f(, y) f(u, v) du dv Außerdem muss die gemeinsame Dichtefunktion auch normiert sein: + + f(, y) d dy Die Dichten der Randverteilungen lassen sich durch Integration (im diskreten Fall war es die Summation) erhalten: f X () f Y (y) + + f(, y) dy f(, y) d Der Erwartungswert einer gemeinsamen Verteilung lässt sich berechnen durch für g : R 2 R. E(g(X, Y )) + + X, Y heißen unabhängig, genau dann wenn F X,Y (, y) F X () F Y (y) g(, y) f(, y) d dy bzw. f X,Y (, y) f X () f Y (y), y R
3 8 STETIGE ZUFALLSVARIABLEN Allgemeiner gilt: X, X 2,..., X n sind unabhängig f(, 2,..., n ) f( ) f( 2 ) f( n ). Weiterhin definiert man analog zum diskreten Fall: die Kovarianz Cov(X, Y ) E[(X E(X))(Y E(Y ))] die Korrelation ρ(x, Y ) Cov(X,Y ) Var(X) Var(Y ) Es gilt wieder: Cov(X, Y ) E(X Y ) E(X) E(Y ) Beispiel 8.6 Betrachte { für y f(, y) sonst Die Randverteilung von X ergibt sich zu f X () also einfach eine Gleichverteilung auf [, ]. Die Randverteilung von Y ist f Y (y) Man überprüft leicht, dass y dy [ ] für, d [log() ] y log f() d ( ) y für y. und f(y) dy gilt. Folglich gilt also auch: log ( ) dy y f(, y) dy d [ log ( ) ] y + y y f() d bzw. f(, y) d dy f(y) dy
8.7 Die gemeinsame Verteilung von zwei stetigen Zufallsvariablen 3 Weiter erhält man (z. B. mit MAPLE), dass: E(Y ) 4 E(Y 2 ) 9 } Var(Y ) E(Y 2 ) [E(Y )] 2 9 6 7 44 Da X U(, ), gilt E(X) 2 Ferner ergibt sich für und Var(X) 2. E(X Y ) [ 3 6 [ y 2 ] 2 y dy d ] 6 d 2 2 d y dy d Damit erhält man folgende Werte für die Kovarianz Cov(X, Y ) E(X Y ) E(X)E(Y ) 6 2 4 24 und die Korrelation ρ(x, Y ) Cov(X, Y ) Var(X) Var(Y ) 2 24 7 44.65 Definition 8.9 Die bivariate ( zweidimensionale ) Standardnormalverteilung mit Parameter ρ mit ρ < hat die Dichtefunktion Es gilt: f(, y) ( ) 2π ρ ep 2 2 ( ρ 2 ) (2 2ρy + y 2 ) Die Randverteilungen von X und Y sind (unabhängig von ρ) standardnormalverteilt. Die Korrelation zwischen X und Y ist gleich ρ (daher hat ρ auch einen Wert < ).
32 8 STETIGE ZUFALLSVARIABLEN Aus Unkorreliertheit von X und Y folgt hier auch die Unabhängigkeit von X und Y : Für ρ ist nämlich die gemeinsame Dichtefunktion das Produkt der Dichten der Randverteilungen: f(, y) 2π ep ( 2 (2 + y 2 ) ) 2π ep ( 2 2 ) }{{} Dichte der N (, )-Vtlg. 2π ep ( 2 y2 ) }{{} Dichte der N(, )-Vtlg. f X () f Y (y) y 3 2 2 3 3 2 2 3 y 3 2 2 3 3 2 2 3 y 3 2 2 3 3 2 2 3 Abbildung 26: Die bivariate Standardnormalverteilung für ρ (links), ρ.7 (Mitte) und ρ.5 (rechts) Bemerkung: Die allgemeine bivariate Normalverteilung mit insgesamt fünf Parametern (µ X, µ Y, σ 2 X, σ2 Y, ρ) erhält man durch folgende lineare Transformationen einer bivariaten Standardnormalverteilung: X µ X + σ X X Y µ Y + σ Y Y
8.8 Bedingte Verteilungen von stetigen Zufallsvariablen 33 8.8 Bedingte Verteilungen von stetigen Zufallsvariablen Seien X und Y Zufallsvariablen mit gemeinsamer Dichte f X,Y (, y). Wir interessieren uns für die bedingte Verteilung von X gegeben Y y. Das Problem bei der Berechnung der Verteilung besteht darin, dass P (Y y) und damit P (X Y y) P (X und Y y) P (Y y) nicht definiert ist. Deshalb geht man nun anders vor und betrachtet P (X y Y y + dy) P (X und y Y y + dy) P (y Y y + dy) f X,Y (u, y) dy du f Y (y) dy f X,Y (u, y) du f Y (y) }{{} Dichtefkt. der bed. Vtlg. von X geg. Y y Daher erhält man folgende Definition: Definition 8. Die bedingte Verteilungsfunktion von X, gegeben Y y ist definiert als f X,Y (u, y) F X Y ( y) du f Y (y) für alle y mit f Y (y) >. Die bedingte Dichte von X, gegeben Y y ist somit f X Y ( y) f X,Y (, y) f Y (y) Beispiel 8.7 Betrachten wir wieder die gemeinsame Verteilungsfunktion f(, y) von X und Y aus Beispiel 8.6 mit { für y f X,Y (, y) sonst
34 8 STETIGE ZUFALLSVARIABLEN Für die bedingte Dichte von Y, gegeben X ergibt sich: f Y X (y ) f X,Y (, y) f X () für y { für y sonst d.h. Y X ist gleichverteilt auf [, ] (Y X U(, )). Für die Dichte von X, gegeben Y y erhält man: f X Y ( y) log( ) für y y { /( log(y)) für y sonst Bemerkung: Bedingte Verteilungen sind sehr nützlich zum Simulieren aus gemeinsamen Verteilungen. Da f X,Y (, y) f X Y ( y) f Y (y) gilt, kann man zunächst eine Zufallsvariable Y y aus der Randverteilung f Y (y) ziehen, und dann bedingt auf Y y eine Zufallszahl aus der bedingten Verteilung f X Y ( y) ziehen. Oder andersherum: f X,Y (, y) f Y X (y ) f X () () Im Beispiel 8.7 wäre Version () einfacher zu implementieren. In R: > <- runif() > y <- runif(,, ) > plot(, y)
8.8 Bedingte Verteilungen von stetigen Zufallsvariablen 35..2.4.6.8...2.4.6.8 y Abbildung 27: Die gemeinsame Dichte aus Beispiel 8.7 Beispiel 8.8 Seien X und Y bivariat standardnormalverteilt. Dann ist die bedingte Dichte von X, gegeben Y f X Y ( y) 2π ρ 2 ep ( 2 ( ρ 2 ) (2 2ρy + y 2 ) ) 2π ep ( 2 y2) 2π ρ 2 ep ( 2 ( ρy) 2 ( ρ 2 ) ) Daher ergibt sich: X Y y N (ρ y, ρ 2 ) Analog erhält man die Dichte von Y, gegeben X: Y X N (ρ, ρ 2 ) Nun kann man aus der bivariaten Standardnormalverteilung simulieren. In R: > <- rnorm() > rho <-.5
36 8 STETIGE ZUFALLSVARIABLEN > y <- rnorm(, mean rho *, sd sqrt( - rho^2)) > plot(, y) 3 2 2 3 4 2 2 4 y Abbildung 28: Die bivariate Standardnormalverteilung aus Beispiel 8.8
8.9 Gemeinsame Verteilung einer diskreten und einer stetigen ZV 37 8.9 Die gemeinsame Verteilung einer diskreten und einer stetigen Zufallsvariable Das Konzept von gemeinsamer und bedingter Verteilung lässt sich problemlos auch auf zwei Zufallsvariablen verallgemeinern, von denen eine diskret und eine stetig ist. Wir illustrieren dies hier an einem Beispiel: Beispiel 8.9 Sei X betaverteilt mit X Be(α, β). Sei außerdem die bedingte Verteilung von Y, gegeben X binomialverteilt mit Y X B(n, π X). Die gemeinsame Verteilung ist das Produkt aus bedingter Verteilung und Randverteilung und daher erhält man hier f(, y) f(y ) f() ( n y ( n y ) y ( ) n y ) y+α ( ) n y+β für [, ] und y {,,..., n}. Für die bedingte Dichte f( y) von X Y folgt: f( y) f(, y) f(y) B(α, β) α ( ) β B(α, β) y+α ( ) n y+β Hierbei ( ) haben wir ausgenützt, dass der Nenner f(y) in f( y) f(, y) f(y) nicht von abhängt, also für Y y konstant ist. Für f( y) haben wir also den Kern einer Betaverteilung erhalten: X Y Be(α + y, β + n y) Wegen der Form der Betaverteilung ist f( y) also f( y) Damit folgt für f(y) f(,y) B(y + α, n y + β) y+α ( ) n y+β f( y) : f(y) ( ) n B(y + α, n y + β) y B(α, β)
38 8 STETIGE ZUFALLSVARIABLEN für y,..., n. Diese Verteilung nennt sich Beta-Binomialverteilung mit den Parametern α und β: Y BBe(α, β). Wegen Γ(α) Γ(β) B(α, β) Γ(α + β) lässt sich ihre Dichtefunktion auch schreiben als ( n f(y) y Γ(α + β) Γ(α) Γ(β) Γ(α + β + n) }{{} hängt nicht von y ab ) Γ(α + y) Γ(β + n y). Für α β ergibt sich interessanterweise die diskrete Gleichverteilung auf {,..., n}. ( ) Γ(2) n f(y) Γ( + y) Γ( + n y) Γ() Γ() Γ(2 + n) y (n + )! n + n! y! (n y)! y! (n y)! für y {,..., n} und unter Verwendung von Γ(n) (n )! Also gilt: Ist die Randverteilung von X stetig gleichverteilt, dann ist die Randverteilung von Y diskret gleichverteilt.
8. Ekurs: Verwerfungsmethode(Rejection sampling) 39 8. Ekurs: Verwerfungsmethode(Rejection sampling) Zum Erzeugen von Zufallszahlen aus einer Verteilung mit Dichte f X () haben wir das Inversionsverfahren kennengelernt, das aber die Kenntnis der inversen Verteilungsfunktion voraussetzt. Ein alternatives sehr universell einsetzbares Verfahren ist das rejection sampling, das nur die Kenntnis der Dichte f X () voraussetzt. Zufallszahlen werden aus einer anderen Verteilung mit Dichte f Y (y) gezogen. Diese ist im Prinzip beliebig, es muss nur eine Konstante c > eistieren mit f X () c f Y (y) für alle R Insbesondere muss also der Träger T X eine Teilmenge von T Y sein, ansonsten gebe es ein R mit f X () > aber mit f Y (). Die Zufallszahlen aus f Y werden nur mit einer gewissen Wahrscheinlichkeit als Zufallszahlen aus f X akzeptiert; andernfalls werden sie verworfen und das Verfahren wird so lange wiederholt bis eine Zahl akzeptiert wird. Rejection sampling Algorithmus: REPEAT Erzeuge eine Zufallszahl X aus f Y. X f Y. Erzeuge eine von X unabhängige Zufallszahl U aus einer Gleichverteilung auf [, ]: U U[, ]. Berechne UNTIL U p(x) p(x) f X(X) Akzeptanzwahrscheinl. [, ] c f Y (X) RETURN X Beispiel 8.2 Habe die Dichtefunktion f() folgende Form f X () { 2 2 sonst
4 8 STETIGE ZUFALLSVARIABLEN f()..5..5 2...2.4.6.8. Abbildung 29: Dichtefunktion von f() in Beispiel 8.2 Für Y bietet sich eine Gleichverteilung auf [, ] an f Y (y) { y sonst Für c 2 ist f X () c f Y () für alle R erfüllt. Algorithmus. REPEAT X U[, ] und U U[, ] sind unabhängig. UNTIL U p(x) p(x) X f X(X) c f Y (X) RETURN X
8. Ekurs: Verwerfungsmethode(Rejection sampling) 4 Beweisskizze: Rejection sampling P (Y und Y wird akzeptiert) P (Y, U p(y )) E(g(Y, U)) mit g(y, u) I {Y,U p(y)} (y, u) B(, π P (...)) + + + + + g(y, u) f Y (y) f U (u) dy du }{{} f(y,u) wg.unabhängigkeit I {Y,U p(y)} (y, u) }{{} I {Y } (y) I {U p(y)} (y,u) f Y (y) f U (u) dy du I {U p(y)} (y, u) f(u) du }{{} E(I {U p(y)} (u,y)) P (U p(y)) P (y) p(y) f Y (y)dy f X (y) c dy c F X() f Y (y) dy P (Y wird akzeptiert) + + p(y) f Y (y) dy f X (y) c dy c Somit ergeben sich für die bedingte Wahrscheinlichkeit P (Y Y wird akzeptiert) P (Y und Y wird akzeptiert) P (Y wird akzeptiert) F c X() c F X () Unter der Bedingung, dass Y akzeptiert wird, hat Y also die Verteilungsfunktion F X () und die Dichte f X (). Man beachte, dass P (Y wird akzeptiert) c gilt; Unter Unabhängigkeit folgt daher, dass die Anzahl der Versuche, bis zum erstem Mal akzeptiert wird geometrisch verteilt ist mit Parameter π c. Die erwartete Anzahl ist somit gleich c.
42 8 STETIGE ZUFALLSVARIABLEN Es ist daher sinnvoll, c möglichst klein zu wählen c sup f X () f Y () (gerade so, dass f X () c f Y () R) Beispiel 8.2 X N(, ) schwer zu erzeugen, weil F nur numerisch bestimmbar ist. Dagegen ist eine Cauchyverteilte Zufallsvariable X leicht über die Umkehrfunktion ihrer Verteilungsfunktion F erzeugbar. f X () 2 π ep( 2 2 ) f Y () π + 2 f Man kann relativ leicht zeigen, dass c sup X () 2 π f Y.52. () e Die Akzeptanzwahrscheinlichkeit p(x) ergibt sich als p(x) f X(X) c f Y (X) 2 π ep ( 2) 2 2 π e π + 2 e 2 ( + 2 ) ep( 2 2 )
8. Ekurs: Erzeugung von stetig gleichverteilten Zufallsvariablen 43 8. Ekurs: Erzeugung von stetig gleichverteilten Zufallsvariablen Seien die gesuchten Zufallsvariablen ohne Beschränkung der Allgemeinheit auf dem Einheitsintervall gleichverteilt. Unabhängige U i U[, ], i, 2,... sind gesucht. Zur Erzeugung werden häufig Kongruenzgeneratoren (KG) verwendet: X i (ax i + c) mod M U i X i M X i {,,..., M }, U i {, M,..., M M } (a mod b in R: a%%b) Mit festen Parametern a, c, M N. c multiplikativer KG. Der Startwert X (engl. seed ) ist bekannt. Häufig wird eine modifizierte Uhrzeit verwendet. D. h. man verwendet einen rekursiv definierten, strikt deterministischen (!) Algorithmus, in der Hoffnung, dass die Folge der (U i ) i,2,... möglichst zufällig erscheint. Geschichte : Lehmer (95): a 23, M 8 +, c : Rotenberg (96): a 2 7, M 2 35, c Die M + Werte (X,..., X M ) können nicht alle unterschiedlich sein; mindestens ein Wert muss zweimal vorkommen, sagen wir an den Stellen X i und X i+k. X i,...,x i+k X i+k,...,x i+2k X i+2k,...,x i+3k identische Folgen! Man nennt k M die Periode eines KG. Bei multiplikativen KGen gilt sogar k M, da der Wert X i absorbierend ist. Ein multiplikativer KG hat maimale Periode k M nur dann, wenn M eine Primzahl ist. Beispiel 8.22 M 2 3 (Primzahl) a 7 5 c Ein idealer KG sollte möglichst wenig Regelmäßigkeiten aufweisen, ansonsten wäre er ja nicht zufällig. Zum Testen, wie zufällig KGen sind, bietet es sich
44 8 STETIGE ZUFALLSVARIABLEN an (U i, U i+ ), i,,... im Einheitsquadrat [, ] 2 graphisch darzustellen. Häufig ergeben sich gewisse Muster. Die Punkte liegen immer auf parallelen Geraden; je kleiner der Abstand zwischen den Geraden, desto besser ist der Generator. Dieser Test lässt sich auf d Dimensionen verallgemeinern Spektraltest