Vorlesung 11b Bedingte Verteilung, bedingte Wahrscheinlichkeiten 1
Bisher legten wir das Hauptaugenmerk auf den Aufbau der gemeinsamen Verteilung von X 1 und X 2 aus der Verteilung ρ von X 1 und Übergangswahrscheinlichkeiten P(a 1,.): P(X 1 = a 1,X 2 = a 2 ) := ρ(a 1 )P(a 1,a 2 ) 2
Jetzt: Zerlegung der gemeinsamen Verteilung von X 1 und X 2 in die Verteilung von X 1 und die bedingte Verteilung von X 2 gegeben X 1 3
Sei X 1 eine diskrete Zufallsvariable mit Zielbereich S 1 und X 2 eine Zufallsvariable mit Zielbereich S 2. Dann ist die bedingte Wahrscheinlichkeit von {X 2 A 2 }, gegeben {X 1 = a 1 } definiert als P(X 2 A 2 X 1 = a 1 ) := P(X 1 = a 1,X 2 A 2 ) P(X 1 = a 1 ). 4
in der Matrix der gemeinsamen Verteilungsgewichte µ(a 1,a 2 ) = P(X 1 = a 1,X 2 = a 2 ) ist P(X 2 A 2 X 1 = a 1 ) das relative Gewicht von A 2 in der Zeile a 1 A 2 S 2 a 1 S 1 5
Die Verteilung P(X 2 X 1 = a 1 ) heißt die bedingte Verteilung von X 2, gegeben {X 1 = a 1 }. A 2 S 2 a 1 S 1 6
Definieren wir Übergangswahrscheinlichkeiten durch P a1 (X 2 A 2 ) := P(X 2 A 2 X 1 = a 1 ) dann bekommen wir die aus den vorigen Vorlesungen vertraute Formel P(X 1 = a 1,X 2 A 2 ) = P(X 1 = a 1 )P a1 (X 2 A 2 ). 7
Bei der Untersuchung von zwei Zufallsvariablen X 1,X 2 kann man immer zu einer 2-stufigen Betrachtungsweise übergehen. Man kann dabei wählen, ob man X 1 in die erste Stufe aufnimmt oder in die zweite. 8
Beispiel: Es seien Y und Z unabhängige Z-wertige Zufallsvariable und X 1 := Y, X 2 := Y +Z. Wir haben gesehen: Die bedingte Verteilung von Y +Z, gegeben {Y = a}, ist die Verteilung von a+z. Was ergibt sich für die bedingte Verteilung von Y, gegeben {Y +Z = b}? Wie war der erste Schritt? 9
Die bedingte Verteilung von Y, gegeben Y +Z = b, ist P(Y = a Y +Z = b) = P(Y = a)p(z = b a) P(Y +Z = b). 10
Ein instruktiver Spezialfall: Y und Z seien unabhängig und Geom(p)-verteilt. Dann ist P(Y = a)p(z = b a) = q a 1 pq (b a) 1 p = p 2 q b 2. Dieses hängt nicht von a ab. Also ist die bedingte Verteilung die uniforme auf {1,...,b 1} 11
Das ist auch ohne Rechnung plausibel: Gegeben, dass in einem p-münzwurf der zweite Erfolg beim b-ten Versuch kommt, ist der Zeitpunkt des ersten Erfolges uniform verteilt auf {1,...,b 1}. 12
Bedingte Dichten. Ist f(a 1,a 2 )da 1 da 2 gemeinsame Dichte von X 1 und X 2 und f 1 (a 1 )da 1 Dichte von X 1, dann setzen wir P(X 2 da 2 X 1 = a 1 ) := f(a 1,a 2 ) f 1 (a 1 ) da 2 und sprechen von der bedingten Dichte von X 2, gegeben {X 1 = a 1 }. 13
Beispiel: Exponentialverteilte Summanden Y und Z seien unabhängig und Exp(1)-verteilt. Was ist die bedingte Dichte von Y, gegeben {Y +Z = b}? Die gemeinsame Dichte von Y und Y +Z ist e y e (b y) dydb = e b dydb Die Dichte von Y +Z ist (man erinnere sich!) be b db Also: P(Y dy Y +Z = b) = 1 be be b dy = 1 b dy, 0 y b. 14
Bedingte Wahrscheinlichkeiten: Definition. Seien E 1, E 2 Ereignisse. Dann ist die bedingte Wahrscheinlichkeit von E 2, gegeben E 1, definiert als P(E 2 E 1 ) := P(E 2 E 1 ) P(E 1 ) = P(I E2 = 1 I E1 = 1)... die Wahrscheinlichkeit von E 2, wenn man schon weiß, dass E 1 eingetreten ist. 15
Eine vertraute Regel (für zweistufige Experimente) im neuen Gewand: Formel für die totale Wahrscheinlichkeit: P(X 2 A 2 ) = P(X 1 = a 1 )P ( ) X 2 A 2 X 1 = a 1 a 1 S 1 16
Zweistufigkeit - Spieß umgedreht: P(X 1 = a 1 X 2 = a 2 ) = P(X 2=a 2 X 1 =a 1 )P(X 1 =a 1 ) P(X 2 =a 2 ) Formel von Bayes: P(X 1 = a 1 X 2 = a 2 ) = P(X 2=a 2 X 1 =a 1 )P(X 1 =a 1 ) b S P(X 1 2 =a 2 X 1 =b)p(x 1 =b) P(E 1 E 2 ) = P(E 2 E 1 )P(E 1 ) P(E 2 E 1 )P(E 1 )+P(E 2 E c 1 )P(Ec 1 ) 17
Beispiel: Bei einer bestimmten Reihenuntersuchung wird eine kranke Person wird in 100% der Fälle positiv getestet, eine gesunde Person in 1%. Wie groß ist die Wahrscheinlichkeit, dass eine positiv getestete Person wirklich krank ist? Der Prozentsatz der kranken Personen sei 0.1%. P(E 1 ) = 0.001, P(E 2 E 1 ) = 1, P(E 2 E c 1 ) = 0.01. Bayes: P(E 1 E 2 ) = 0.091. Die Wahrscheinlichkeit, bei positivem Testbefund wirklich krank zu sein, liegt also bei nur 9%! 18
0.999 g 0.01 0.001 k 1 p P(X 1 = k,x 2 = p) P(X 2 = p) = 0.001 1 0.999 0.01+0.001 1 1 11 19
Bedingter Erwartungswert von h(x 1,X 2 ), gegeben {X 1 = a 1 }: E [ ] h(x 1,X 2 ) X 1 = a 1 := a 2 S 2 h(a 1,a 2 )P ( X 2 = a 2 X 1 = a 1 Bedingte Erwartung von h(x 1,X 2 ), gegeben X 1 : E [ ] h(x 1,X 2 ) X 1 := e(x1 ), mit e(a 1 ) := E [ ] h(x 1,X 2 ) X 1 = a 1. 20 )
Zum Merken: Der bedingte Erwartungswert von Y, gegeben X = x (Symbol : E[Y X = x] oder E x [Y]) ist der Erwartungswert unter der bedingten Verteilung. y Im diskreten Fall y P(Y = y X = x), und im Fall von Dichten y f(x,y) f 1 (x) dy. 21
Beispiel: Z 1,...,Z 10 sei ein p-münzwurf der Länge 10, K := 10 Die Runs in (z 1,...,z n ) sind die (in keinem größeren Block enthaltenen) Blöcke aus nur Nullen oder nur Einsen. Z. B. hat (0,1,1,0,0,1,1,0,0,0) fünf Runs: 0,11,00,11,000. i=1 Z i. Sei R die Anzahl der Runs in (Z 1,...,Z 10 ). Gefragt ist nach E[R K = 4]. 22
R = n i=1 I {beimi tenwurf beginnteinrun} = 1+ 9 i=1 I {Zi Z i+1 }. Und die bedingte Verteilung von (Z 1,...,Z 10 ) gegeben K = 4 entsteht so, dass man aus den Plätzen 1,...,10 rein zufällig 4 auswählt, auf die man die 4 Einsen setzt. P(Z i Z i+1 K = 4) = 2 410 69 (warum?), also ist der gesuchte Wert gleich 1+9 2 410 69 = 29 5. 23
Gedächtnislosigkeit der geometrischen Verteilung: T sei Geom(p)-verteilt. Dann gilt P(T > k +l T > k) = q k+l /q k = q l. Die bedingte Verteilung von T k, gegeben {T > k}, ist somit gleich Geom(p). Die Kenntnis, dass T einen Wert größer als k annimmt, ändert also die Verteilung für die restliche Wartezeit nicht. 24
Gedächtnislosigkeit der Exponentialverteilung Für exponentialverteiltes T zum Parameter λ gilt für r, s > 0 P(T > r +s T > r) = e λs. Die bedingte Verteilung von T s, gegeben {T > s}, ist somit gleich Exp(λ). 25