Vorlesung 8b Bedingte Erwartung, bedingte Varianz, bedingte Verteilung, bedingte Wahrscheinlichkeiten 1
Wie gehabt, denken wir uns ein zufälliges Paar X = (X 1,X 2 ) auf zweistufige Weise zustande gekommen: P(X 1 = a 1,X 2 = a 2 ) = P(X 1 = a 1 )P a1 (X 2 = a 2 ). [ E a1 h(x1,x 2 ) ] := h(a 1,a 2 )P a1 (X 2 = a 2 ) a 2 S 2 nennen wir den bedingten Erwartungswert von h(x 1,X 2 ), gegeben {X 1 = a 1 }. 2
= a 1 S 1 = a 1 S 1 E [ h(x 1,X 2 ) ] a 2 S 2 h(a 1,a 2 )P(X 1 = a 1,X 2 = a 2 ) a 2 S 2 h(a 1,a 2 )P(X 1 = a 1 )P a1 (X 2 = a 2 ) [ P(X 1 = a 1 )E a1 h(x1,x 2 ) ] a 1 S 1 [ P(X 1 = a 1 )E a1 h(a1,x 2 ) ] a 1 S 1 = = = E [ E X1 [h(x 1,X 2 )] ]. Zerlegung des Erwartungswertes nach der ersten Stufe 3
Merke: Der bedingte Erwartungswert E a1 [ h(x1,x 2 ) ] ist eine Zahl. E X1 [ h(x1,x 2 ) ] ist eine Zufallsvariable. Wir sprechen von der bedingten Erwartung von h(x 1,X 2 ) gegeben X 1. 4
Die bedingte Erwartung als beste Prognose im quadratischen Mittel: Satz: Sei X 2 reellwertige Zufallsvariable mit E[X 2 2 ] <. Dann minimiert die bedingte Erwartung E X1 [X 2 ] unter allen reellwertigen Zufallsvariablen der Form h(x 1 ) den erwarteten quadratischen Abstand E [ (X 2 h(x 1 )) 2]. 5
Beweis: Wir zerlegen E [ (X 2 h(x 1 )) 2] nach X 1 : E [ (X 2 h(x 1 )) 2] [ = E [E X1 (X2 h(x 1 )) 2]] = a 1 P(X 1 = a 1 )E a1 [ (X2 h(a 1 )) 2] Wir wissen schon (aus Vorlesung 7b): E a1 [ (X2 h(a 1 )) 2] wird minimal für h(a 1 ) := E a1 [X 2 ]. 6
Fazit: Unter allen Zahlen h(a 1 ) ist der bedingte Erwartungswert E a1 [X 2 ] diejenige Zahl, für die E a1 [(X 2 h(a 1 )) 2 ] minimal wird. Unter allen Zufallsvariablen der Form h(x 1 ) ist die bedingte Erwartung E X1 [X 2 ] diejenige, für die E[E X1 [(X 2 h(x 1 )) 2 ]] = E[(X 2 h(x 1 )) 2 ] minimal wird. 7
Definieren wir die bedingte Varianz von X 2, gegeben {X 1 = a 1 }: Var a1 [X 2 ] := E a1 [ (X2 E a1 [X 2 ]) 2] Die Zerlegung E[(Z c) 2 ] = Var[Z]+(EZ c) 2 überträgt sich auf den bedingten Erwartungswert und die bedingte Varianz: E a1 [ (X2 h(a 1 )) 2] = Var a1 [X 2 ]+ ( ) 2 E a1 [X 2 ] h(a 1 ) 8
E a1 [ (X2 h(a 1 )) 2] = Var a1 [X 2 ]+ ( ) 2 E a1 [X 2 ] h(a 1 ) Ersetzen wir a 1 durch die Zufallsvariable X 1 : [ E X1 (X2 h(x 1 )) 2] ( = Var X1 [X 2 ]+ E X1 [X 2 ] h(x 1 ) und bilden den Erwartungswert, dann bekommen wir E [ (X 2 h(x 1 )) 2] = E [ Var X1 [X 2 ] ] +E [( E X1 [X 2 ] h(x 1 )) 2]. Wählen wir speziell h(x 1 ) := E[X 2 ], dann ergibt sich Var[X 2 ] = E [ Var X1 [X 2 ] ] +Var [ E X1 [X 2 ] ] Zerlegung der Varianz nach der ersten Stufe ) 2 9
Beispiel: Zufällige Anzahl unabhängiger Summanden. Y := N Z i i=1 mit Z 1,Z 2,... unabh., ident. vert. und unabhängig von N. µ := E[Z 1 ], σ 2 := Var[Z 1 ] E n [Y] = nµ, Var n [Y] = nσ 2. E[Y] = E[E N Y] = E[Nµ] = E[N] µ. Var[Y] = E [ Var N [Y] ] +Var [ E N [Y] ] = E[N] σ 2 +Var[N] µ 2. 10
Bedingte Verteilungen und bedingte Wahrscheinlichkeiten 11
Bisher: Aufbau der gemeinsamen Verteilung von X 1 und X 2 aus der Verteilung ρ von X 1 und Übergangswahrscheinlichkeiten P(a 1,.): P(X 1 = a 1,X 2 = a 2 ) := ρ(a 1 )P(a 1,a 2 ) 12
Jetzt: Zerlegung der gemeinsamen Verteilung von X 1 und X 2 in die Verteilung von X 1 und die bedingte Verteilung von X 2 gegeben X 1 13
Sei X 1 eine diskrete Zufallsvariable mit Zielbereich S 1 und X 2 eine Zufallsvariable mit Zielbereich S 2. Dann ist die bedingte Wahrscheinlichkeit von {X 2 A 2 }, gegeben {X 1 = a 1 } definiert als P(X 2 A 2 X 1 = a 1 ) := P(X 1 = a 1,X 2 A 2 ) P(X 1 = a 1 ). 14
Die Verteilung P(X 2 X 1 = a 1 ) heißt die bedingte Verteilung von X 2, gegeben {X 1 = a 1 }. 15
Definieren wir Übergangswahrscheinlichkeiten durch P a1 (X 2 A 2 ) := P(X 2 A 2 X 1 = a 1 ) dann bekommen wir die schon aus der vorigen Vorlesung vertraute Dreiheit zurück: P(X 1 = a 1,X 2 A 2 ) = P(X 1 = a 1 )P a1 (X 2 A 2 ). 16
Bei der Untersuchung von zwei Zufallsvariablen X 1,X 2 kann man immer zu einer 2-stufigen Betrachtungsweise übergehen. Man kann dabei wählen, ob man X 1 in die erste Stufe aufnimmt oder in die zweite. 17
Beispiel: Addieren von unabhängigen ZV en zweistufig aufgefasst X 1 := Y, X 2 := Y +Z P(X 1 = a,x 2 = b) = P(Y = a,a+z = b) = P(Y = a)p(a+z = b) = P(X 1 = a)p(z = b a) Dies führt zu den Übergangswahrscheinlichkeiten P(a,b) := P(Z = b a) 18
P(Y +Z = b) = a P(Y = a)p(z = b a) Beispiel Y, Z unabhängig und Geom(p)-verteilt P(Y +Z = b) = b 1 pq a 1 pq b a 1 a=1 = (b 1)p 2 q b 2, b = 2,3,... Die negative Binomialverteilung mit Parametern 2, p ist die Verteilung der Anzahl der Versuche in einem p-münzwurf bis einschließlich zum zweiten Erfolg. 19
P(Y = a,y +Z = b = P(Y = a)p(a+z = b) Fazit: Die bedingte Verteilung von Y +Z, gegeben {Y = a}, ist gleich der Verteilung von a+z. Was ergibt sich für die bedingte Verteilung von Y, gegeben {Y +Z = b}? Wie war der erste Schritt? 20
Die bedingte Verteilung von Y, gegeben Y +Z = b, ist P(Y = a Y +Z = b) = P(Y = a)p(z = b a) P(Y +Z = b). 21
Ein instruktiver Spezialfall: Y und Z seien unabhängig und Geom(p)-verteilt. Dann ist P(Y = a)p(z = b a) = q a 1 pq (b a) 1 p = p 2 q b 2. Dieses hängt nicht von a ab. Also ist die bedingte Verteilung die uniforme auf {1,...,b 1} 22
Das ist auch ohne Rechnung plausibel: Gegeben, dass in einem p-münzwurf der zweite Erfolg beim b-ten Versuch kommt, ist der Zeitpunkt des ersten Erfolges uniform verteilt auf {1,...,b 1}. 23
Alte Regeln (für zweistufige Experimente) im neuen Gewand: Formel für die totale Wahrscheinlichkeit: P(X 2 A 2 ) = P(X 1 = a 1 )P ( ) X 2 A 2 X 1 = a 1 a 1 S 1 24
Bedingter Erwartungswert von h(x 1,X 2 ), gegeben {X 1 = a 1 }: E [ ] h(x 1,X 2 ) X 1 = a 1 := a 2 S 2 h(a 1,a 2 )P ( X 2 = a 2 X 1 = a 1 Bedingte Erwartung von h(x 1,X 2 ), gegeben X 1 : E [ ] h(x 1,X 2 ) X 1 = e(x1 ), mit e(a 1 ) := E [ ] h(x 1,X 2 ) X 1 = a 1. 25 )
Definition. Seien E 1, E 2 Ereignisse. Dann ist die bedingte Wahrscheinlichkeit von E 2, gegeben E 1, definiert als P(E 2 E 1 ) := P(E 2 E 1 ) P(E 1 ) = P(I E2 = 1 I E1 = 1)... die Wahrscheinlichkeit von E 2, wenn man schon weiß, dass E 1 eingetreten ist. 26
Beispiel: Gedächtnislosigkeit der geometrischen Verteilung: P(T > k +l T > k) = q k+l /q k = q l. Die Kenntnis, dass T einen Wert größer als k annimmt, ändert also die Verteilung für die restliche Wartezeit nicht. P(T k > l T > k) = P(T > l) 27
Zweistufigkeit - Spieß umgedreht: P(X 1 = a 1 X 2 = a 2 ) = P(X 2=a 2 X 1 =a 1 )P(X 1 =a 1 ) P(X 2 =a 2 ) Formel von Bayes P(X 1 = a 1 X 2 = a 2 ) = P(X 2=a 2 X 1 =a 1 )P(X 1 =a 1 ) b S 1 P(X 2 =a 2 X 1 =b)p(x 1 =b) P(E E ) = P(E E)P(E) P(E E)P(E)+P(E E c )P(E c ) 28
Beispiel: Reihenuntersuchungen: Eine kranke Person wird in 100% der Fälle positiv getestet, eine gesunde Person in 1%. Wie groß ist die Wahrscheinlichkeit, dass eine positiv getestete Person wirklich krank ist? Der Prozentsatz der kranken Personen sei 0.1%. P(E) = 0.001, P(E E) = 1, P(E E c ) = 0.01. Bayes: P(E E ) = 0.091. Die Wahrscheinlichkeit, bei positivem Testbefund wirklich krank zu sein, liegt also bei nur 9%! 29
0.999 g 0.01 0.001 k 1 p P(X 1 = k,x 2 = p) P(X 2 = p) = 0.001 1 0.999 0.01+0.001 1 1 11 30