67 Zufallsvariable, Erwartungswert, Varianz 67.1 Motivation Oft möchte man dem Resultat eines Zufallsexperiments eine reelle Zahl zuordnen. Der Gewinn bei einem Glücksspiel ist ein Beispiel hierfür. In diesem Fall interessiert man sich auch für den zu erwartenden Gewinn und für ein Maß für die statistischen Schwankungen. Dies führt uns auf Begriffe wie Zufallsvariable, Erwartungswert und Varianz. In der Informatik werden sie u.a. bei der Zuverlässigkeitsanalyse von Systemen benötigt. 67.2 Definition: (Zufallsvariable) Sei Ω ein Stichprobenraum. Eine Funktion X, die jedem Ergebnis ω Ω eine reelle Zahl X(ω) zuordnet, heißt Zufallsvariable. Bemerkung: Eine Zufallsvariable ist also weder zufällig noch eine Variable, sondern eine Funktion. Man kann sie stets als Gewinn bei einem Glücksspiel interpretieren. 67.3 Beispiel Eine faire Münze mit Seiten 0 und 1 werde 3 Mal geworfen. Die Anzahl der Einsen sei der Gewinn. Man kann Ω = {000, 001,..., 111} als Stichprobenraum und den Gewinn als Zufallsvariable X(ω) auffassen. Ergebnis ω 000 001 010 011 100 101 110 111 Gewinn X(ω) 0 1 1 2 1 2 2 3 Ws. P (ω) 1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8 Verschiedene Ereignisse ω 1, ω 2 können zum selben Gewinn führen. 67.4 Definition: (Verteilung) Die Verteilung P X einer Zufallsvariablen X ordnet jedem Wert x X eine Wahrscheinlichkeit P X (x) zu. 67.5 Beispiel In Beispiel 67.3 können wir dem Gewinn folgende Wahrscheinlichkeiten zuordnen: Gewinn X 0 1 2 3 Ws. P X (x) 1/8 3/8 3/8 1/8 Oft veranschaulicht man die Verteilung einer Zufallsvariablen durch ein Histogramm: Bemerkung: Da wir hier meistens diskrete Zufallsvariablen betrachten, sind die Verteilungen ebenfalls diskret. Interessiert man sich für den Durchschnittsgewinn je Versuchswiederholung, gelangt man zum Begriff des Erwartungswertes: 70
Abbildung 12: 67.6 Definition: (Erwartungswert) Unter dem Erwartungswert E(X) einer (diskreten) Zufallsvariablen X versteht man das gewichtete Mittel der Funktion X über Ω, wobei jeder Wert mit seiner Wahrscheinlichkeit gewichtet wird: E(X) = ω Ω X(ω)P (ω) 67.7 Beispiel Für die Zufallsvariable X aus Beispiel 67.3 erhält man als Erwartungswert E(X) = 0 1 8 + 1 1 8 + 1 1 8 + 2 1 8 + 1 1 8 + 2 1 8 + 2 1 8 + 3 1 8 = 12 8 = 3 2. Bequemer hätte man den Erwartungswert mit Hilfe der Verteilung P X berechnet (vgl. Tabelle in 67.5): Es gilt also auch: E(X) = 0 1 8 + 1 3 8 + 2 3 8 + 3 1 8 = 3 2. E(X) = x X(Ω) x P X (x) Bemerkung: Bei kontinuierlichen Zufallsvariablen verwendet man Integrale statt Summen. Mit dem Erwartungswert kann man gut arbeiten, denn es gilt: 71
67.8 Satz: (Linearität des Erwartungswerts) Seien X, Y Zufallsvariablen und α, β R. Dann gilt: E(αX + βy ) = αe(x) + βe(y ). Beweis: E(αX + βy ) = ω Ω ( ) αx(ω) + βy (ω) P (ω) = α X(ω)P (ω) + β Y (ω)p (ω) ω Ω ω Ω = αe(x) + βe(y ) 67.9 Unabhängigkeit zweier Zufallsvariabler Mit 67.8 wissen wir, dass gilt: E(X + Y ) = E(X) + E(Y ). Gilt jedoch auch E(XY ) = E(X)E(Y )? Man kann zeigen, dass dies dann gilt, wenn X und Y unabhängig sind, d.h. (vgl. 66.2): 67.10 Beispiele P ( (X = a) (Y = b) ) = P (X = a) P (Y = b) a, b. Glücksrad mit 4 Ergebnissen, auf denen die Zufallsvariable X (äußerer Ring) und Y (innerer Ring) definiert sind. a) Beispiel: E(X) = 1 4 20 + 1 4 0 + 1 4 20 + 1 4 0 = 10 E(Y ) = 1 4 0 + 1 4 10 + 1 4 0 + 1 4 10 = 5 E(X)E(Y ) = 50 aber: E(XY ) = 1 4 20 0 + 1 4 0 10 + 1 4 20 0 + 1 0 10 = 0 E(X)E(Y ). 4 X und Y sind nicht unabhängig: Das Ereignis Y = 0 hat die Wahrscheinlichkeit 1. Weiß man jedoch, dass X = 20 2 eingetreten ist, dann hat Y = 0 die Wahrscheinlichkeit 1. 72
b) Beispiel: E(X) = 1 50 + 1 100 + 1 50 + 1 100 = 75 4 4 4 4 E(Y ) = 1 4 10 + 1 4 10 + 1 4 2 + 1 4 2 = 6 E(X)E(Y ) = 450 E(XY ) = 1 4 50 10 + 1 4 100 10 + 1 4 50 2 + 1 100 2 = 450 = E(X)E(Y ). 4 X und Y sind unabhängig: Y = 2 und Y = 10 sind gleich wahrscheinlich. Weiß man, z.b., dass X = 50 eingetreten ist, so sind Y = 2 und Y = 10 noch stets gleich wahrscheinlich. Oft ist man nicht nur am Erwartungswert interessiert. Man möchte auch wissen, wie stark die Verteilung um den Erwartungswert streut. Hierzu dienen die Begriffe Varianz und Standardabweichung: 67.11 Definition: (Varianz) Sei X eine Zufallsvariable mit Erwartungswert µ := E(X). Dann versteht man unter der Varianz V (X) = σ 2 den Erwartungswert von (X µ) 2 : σ 2 = V (X) := E((X µ) 2 ) σ := V (X) nennt man die Standardabweichung (Streuung) von X. 67.12 Berechnung der Varianz Wegen der Linearität des Erwartungswerts und wegen E(const.) = const. gilt: E((X µ) 2 ) = E(X 2 2µX + µ 2 ) = E(X 2 ) 2µ E(X) +µ 2 }{{} µ = E(X 2 ) µ 2. Wir erhalten somit eine wichtige Formel zur Berechnung der Varianz: σ 2 = E(x 2 ) µ 2 (Verschiebungssatz) 73
67.13 Beispiel Sei X der Gewinn auf dem Glücksrad µ = E(X) = 1 2 2 + 1 3 3 + 1 6 = 3 6 mittlerer Gewinn E(X 2 ) = 1 2 4 + 1 3 9 + 1 36 = 11 6 σ 2 = E(X 2 ) µ 2 = 11 3 2 = 2 Varianz σ = 2 Standardabweichung 67.14 Satz: (Eigenschaften der Varianz) Sei X eine Zufallsvariable, und seien α, β R. Dann gilt: i) V (αx) = α 2 V (X) ii) V (X + β) = V (X) Beweis: i) V (αx) 67.8 = E((αX αµ) 2 ) = E(α 2 (X µ) 2 ) 67.8 = α 2 V (X) ii) V (X + β) = E((X + β µ β) 2 ) = V (X) 67.15 Standardisierte Zufallsvariable Ist X eine Zufallsvariable mit Erwartungswert µ und Varianz σ 2, so nennt man die Standardisierte von X. Es gilt: X := X µ σ E(X ) = 1 σ E(X) µ }{{} σ = µ σ µ σ = 0 µ V (X 67.14 1 ) = σ V (X) σ 2 2 }{{} σ = 1. 2 σ 2 = 74
Eine solche Standardisierung ist nützlich, wenn man die Verteilung einer Zufallsvariablen mit einer tabellierten Verteilung vergleichen möchte, da letzterer oft nur in standardisierter Form vorliegt. Wir wollen nun weitere wichtige Eigenschaften des Erwartungswerts studieren. Aus dem Verschiebungssatz 67.12 folgt wegen σ 2 0, dass E(X 2 ) (E(X)) 2 0 }{{} µ und somit E(X 2 ) (E(X)) 2. Dies ist der Spezialfall eines allgemeineren Resultats: 67.16 Satz: (Ungleichung von Jensen) Sei r : R R eine konvexe (!) Funktion und X eine Zufallsvariable. Dann gilt: Beweis: E(r(X)) r(e(x)) Sei X zunächst eine diskrete Zufallsvariable. Dann fassen wir E(X) = ω Ω X(ω)P (ω) als Konvexkombination der X(ω), ω Ω mit Gewichten P (ω) auf (d.h. P (ω) 0 ω Ω und ω Ω P (ω) = 1). Aus der Konvexität von r folgt mit 25.5 E(r(X)) = ω Ω r(x(ω))p (ω) ( r ω Ω ) X(ω)P (ω) = r(e(x)). Ist X eine kontinuierliche Zufallsvariable, ersetzt man Summen durch Integrale. 67.17 Beispiele a) Die Funktion r(t) = t 2 ist konvex, da r (t) = 2 > 0. Daher gilt: E(X 2 ) (E(X)) 2. b) Sei Θ > 0. Dann ist r(t) = e Θt konvex, und es gilt: E(e ΘX ) e ΘE(X). Die Funktion E(e ΘX ) wird später eine wichtige Rolle spielen. 75
67.18 Gleichung von Wald Seien X 1, X 2,... unabhängige Zufallsvariablen. Manchmal interessiert man sich für die erste Zeit (Stoppzeit) N = n, in der die Summe X 1 +... + X N einen vorgegebenen Wert y übersteigt, d.h. n 1 n X i < y und X i y. Dann ist N selbst wieder eine Zufallsvariable. Für ihren Erwartungswert kann man zeigen: Satz: (Gleichung von Wald) Seien X 1, X 2,... unabhängige, identisch verteilte Zufallsvariablen (d.h. alle Verteilungen P Xi ist identisch) mit endlichem Erwartungswert, und sei N eine Stoppzeit für N X 1, X 2,.... Ferner sei S N = X i. Dann gilt: E(S N ) = E(X 1 )E(N). 67.19 Beispiel Sei X i = 1, falls beim i-ten Münzwurf Kopf eintritt, ansonsten 0. Was ist der Erwartungswert E(N) für die Stoppzeit N := min{n X 1 +... + X n 10}? Es gilt: E(X) = 1 2 E(N) = 20. und E(S N ) = 10. Eng verwandt mit dem Begriff der Varianz ist die Kovarianz. Sie ist ein Maß für die Unabhängigkeit zweier Zufallsvariablen. 67.20 Definition: (Kovarianz,Korrelationskoeffizient) Seien X, Y Zufallsvariablen mit Erwartungswert µ X, µ Y und Varianz σx 2, σ2 Y heißt > 0. Dann die Kovarianz von X und Y, und Cov(X, Y ) := σ 2 XY := E((X µ X )(Y µ Y )) ϱ XY := Cov(X, Y ) σ X σ Y der Korrelationskoeffizient von X und Y. Ist Cov(X, Y ) = 0, so heißen X und Y unkorreliert. 76
67.21 Bemerkungen: a) V (X) = Cov(X, X) b) Sind X µ X und Y µ Y Funktionen auf einem endlichen Stichprobenraum Ω = {ω 1,..., ω n }, so kann man sie auch als Vektoren im R n mit der i-ten Komponente X(ω i ) µ X,bzw. Y (ω i ) µ Y ansehen. Dann bezeichnen (vgl. 40, 42) die Standardabweichungen die induzierten euklidischen Normen die Varianzen die quadrierten euklidischen Normen die Kovarianz das euklidische Skalarprodukt der Korrelationskoeffizient den Arcuscosinus des Winkels zwischen beiden Vektoren. Insbesondere ist 1 ϱ XY 1. die Unkorreliertheit die Orthogonalität wenn wir das gewichtete euklidische Skalarprodukt u, v := legen. Dabei ist p i := P (ω i ). Man kann Folgendes zeigen: 67.22 Satz: (Rechenregeln für die Korrelation) Seien X, Y Zufallsvariablen mit Erwartungswert µ X, µ Y. Dann gilt: a) Cov(X, Y ) = E(X Y ) µ X µ Y (vgl. 67.12). b) Cov(αX + β, γy + δ) = αγ Cov(X, Y ) (vgl. 67.14). c) Cov(X, Y ) = Cov(Y, X) d) Für m Zufallsvariablen X 1,..., X m gilt: n p i u i v i zu Grunde V (X 1 +... + X m ) = m V (X i ) + i j Cov(X i, X j ). e) Sind X, Y unabhängig, so sind sie auch unkorreliert. f) Für paarweise unkorrelierte X 1,..., X n gilt: V (X 1 +... + X n ) = m V (X i ). 77
67.23 Bemerkungen a) Die Umkehrung von 67.22.(e) gilt nicht! Beispiel: Ergebnis ω 1 2 3 4 Zufallsvar. X 1-1 2-2 Zufallsvar. Y -1 1 2-2 Wahrscheinlichkeit P (ω) 2/5 2/5 1/10 1/10 Dann ist E(X) = 0 = E(Y ) und Cov(X, Y ) = 1 2 5 1 2 5 + 4 1 10 + 4 1 10 = 0, aber X und Y sind nicht unabhängig, denn X(ω) bestimmt ω und Y (ω) eindeutig. b) In der Informatik tauchen Erwartungswerte und Varianzen z.b. bei der Zuverlässigkeitsanalyse von Systemen auf oder bei der Abschätzung von Wartezeiten bei Internetanfragen. Kovarianzen sind u.a. wichtig im Bereich des maschinellen Lernens. 67.24 Zuverlässigkeitsanalyse von Systemen Ein System bestehe aus n Komponenten. Der Zustand der k-ten Komponente wird durch die Zufallsvariable (Indikator) { 1 (k-te Komponente funktioniert) I k := 0 (k-te Komponente funktioniert nicht) beschrieben. Ihr Erwartungswert beschreibt die Zuverlässigkeit der Komponente k. Wir setzen: p k := E(I k ), q k := 1 p k (Ausfallwahrscheinlichkeit) Interessiert man sich für die Zuverlässigkeit p des Gesamtsystems, muss man verschiedene Fälle unterscheiden: a) Reihensysteme Abbildung 13: Ein Reihensystem arbeitet, wenn alle Komponenten arbeiten: p = p 1... p n. 78
b) Parallelsysteme Ein Parallelsystem fällt aus, wenn alle Komponenten ausfallen: Abbildung 14: a) Gemischte Systeme q = q 1... q n p = 1 q = 1 (1 p 1 )... (1 p n ). werden hierarchisch in Reihensysteme und Parallelsystem zerlegt: Abbildung 15: oberes Reihensystem: p 1 p 2 unteres Reihensystem: p 3 p 4 äußeres Parallelsystem: p = 1 (1 p 1 p 2 )(1 p 3 p 4 ). 79