13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem Abschnitt geben wir nun eine kurze Einführung in Zufallsexperimente, bei denen gleichzeitig zwei (oder auch mehr Zufallsvariablen beobachtet werden. Wie stoßen in diesem Fall auf mehrdimensionale Wahrscheinlichkeitsverteilungen und beschreiben diese wiederrum durch Wahrscheinlichkeits- bzw. Dichtefunktionen oder durch die zugehörigen Verteilungsfunktionen, die in diesem Fall dann von mehreren Variablen abhängen. Definition 3.. Wir nennen eine Abbildung X : Ω R n auf einem Wahrscheinlichkeitsraum (Ω, A, P mit der Eigenschaft (X B A für alle B aus der σ-algebra B n der Borelschen Mengen auf R n, einen Zufallsvektor oder eine n-dimensionale Zufallsvariable. Für jedes ω Ω ist der Wert X(ω eines solchen Zufallsvektors ein Vektor, dessen Komponenten wir mit X k (ω bezeichnen X(ω = ( X (ω, X 2 (ω,..., X n (ω. Die dadurch festgelegten Funktionen X k : Ω R nennen wir die Komponenten des Zufallsvektors X und schreiben kurz X = (X, X 2,...,X n. Für die Beziehung zwischen Zufallsvektoren und Zufallsvariablen gilt der folgende Satz, den wir nur zitieren aber nicht beweisen: Satz 3.2. Die Abbildung X = (X, X 2,...,X n ist ein Zufallsvektor genau dann, wenn alle Komponenten Zufallsvariable sind. Man kann also stets eine beliebige Anzahl X, X 2,..., X m von Zufallsvariablen zu einer vektorwertigen Funktion X = (X,..., X m zusammen fassen und als Zufallsvektor behandeln. Die Wahrscheinlichkeitsverteilung eines Zufallsvektors X läßt sich vollständig durch die Verteilungsfunktion darstellen. Für den Vergleich von Vektoren x, y R n bezeichne im Weiteren x y die koordinatenweise Halbordnung x i y i für alle i =,...,n. 95

Definition 3.3. Ist X : Ω R n ein Zufallsvektor auf dem Wahrscheinlichkeitsraum (Ω, A, P, so heißt die Funktion F X : R n R mit F X (x := P (X x = P (X x, X 2 x 2,...,X n x n = ( n = P {ω Ω : X i (ω x i }, i= wobei x = (x, x 2,...,x n R n, die Verteilungsfunktion des Zufallsvektors X. Dabei ist also P (X x die Wahrscheinlichkeit dafür, dass alle Komponenten X i, i =, 2,..., n, einen Wert kleiner oder gleich x i gleichzeitig annehmen. Man sagt auch, dass die Verteilungsfunktion F X die gemeinsame Verteilung der Zufallsvariablen X i, i =, 2,..., n, beschreibt. Die Wahrscheinlichkeit des Ereignisses (X (a, b], wobei a, b R n und (a, b] R n ein achsenparalleler Quader ist, ergibt sich mit F X durch geeignete mengenalgebraische Darstellungen von (a, b]. Zum Beispiel im R 2 gilt es P (X (a, b] = F X (b, b 2 F X (a, b 2 F X (b, a 2 + F X (a, a 2 für (a, b] = (a, b ] (a 2, b 2 ]. Sind die alle Zufallsvariablen X i, i =, 2,..., n, stetig, so gilt diese Formel auch für den abgeschlossenen Quader [a, b]. Definition 3.4. Die Verteilungen P Xi der Komponenten X i des Zufallsvektors X, i =,..., n, mit den zugehörigen Verteilungsfunktionen F Xi : R R F Xi (t := P (X i t, X j R für j i nennen wir eindimensionale Randverteilungen (Marginalverteilungen von X. Im Kapitel über diskrete Wahrscheinlichkeitsräume haben wir die stochastische Unabhängigkeit für diskrete Zufallsvariablen definiert (s. Def. 7.. Jetzt wollen wir diese Definition allgemeiner formulieren. Definition 3.5. Die Zufallsvariablen X, X 2,...,X n auf einem Wahrscheinlichkeitsraum (Ω, A, P heißen stochastisch unabhängig, wenn für beliebige Teilmengen A, A 2,..., A n B gilt die Produktregel [ ] P (X A (X 2 A 2... (X n A n = = P (X A P (X 2 A 2... P (X n A n. Ist die obige Produktregel jedoch nicht erfüllt, so heißen die Zufallsvariablen stochastisch abhängig. 96

Aus der Tatsache, dass man die Intervalle (, x i ], x i R, als erzeugendes System der Borel-Algebra B von R benutzt kann, resultiert die folgende Aussage. Satz 3.6. Es sei X = (X, X 2,...,X n ein Zufallsvektor. Die Zufallsvariablen (Komponenten X, X 2,...,X n sind genau dann stochastisch unabhängig, wenn auf R n die Bedingung F X (x, x 2,...,x n = F X (x F X2 (x 2... F Xn (x n erfüllt ist. Bei Unabhängigkeit ist also die Verteilung des Zufallsvektors X durch die Randverteilungen der Komponenten X i bestimmt. In der Praxis ist es oft sehr mühsam und schwierig, die stochastische Unabhängigkeit zweier Zufallsvariabler anhand der obigen Bedingung nachzuweisen. In vielen Fällen jedoch läßt sich die Unabhängigkeit logisch begründen. Bei den weiteren Überlegungen unterscheiden wir noch, ob die Komponenten des Zufallsvektors X alle diskret oder stetig sind. Die entsprechenden mehrdimensionalen Verteilungen werden dann als diskrete bzw. stetige Verteilungen bezeichnet. Um im Weiteren die Vorgehenweise besser zu verdeutlichen, beschränken wir auf den Fall n = 2, d.h. X = (X, Y t. 3. Verteilung diskreter Zufallsvektoren Die Verteilung eines diskreten Zufallsvektors X = (X, Y auf einer höchstens abzählbar unendlichen Menge Ω X = {(x j, y k R 2 : (j, k M N 2 } R 2 ist festgelegt durch die Einzelwahrscheinlichkeiten p jk := P (X = (x j, y k = P (X = x j, Y = y k für jeden Punkt (x j, y k W X, oder äquivalent durch die wie folgt definierte Wahrscheinlichkeitsfunktion { pjk für (x, y = (x j, y k Ω X, f (x, y := sonst. Es ist stets f (x, y und f (x, y = p jk =. j,k Im zweidimensionalen Fall kann man die Verteilung von X in einer Matrixtabelle (zweidimensionale Verteilungstabelle veranschaulichen. 97

Beispiel 3.7. Die Verteilungstabelle des diskreten zweidimensionalen Zufallsvektors (X, Y laute X Y y = y 2 = y 3 = 2 y 4 = 3 x = p = 8 p 2 = 2 8 p 3 = 8 p 4 = x 2 = p 2 = p 22 = 8 p 23 = 2 8 p 24 = 8 Die Verteilungsfunktion erhalten wir dann durch die Vorschrift F(x, y = P (X (x, y = P (X = (x j, y k = x j x, y k y x j x, y k y p jk. Satz 3.8. Die Verteilungsfunktion F der zweidimensionalen Zufallsvektors X hat folgende Eigenschaften ❶ ❷ lim F(x, y = lim x lim x y F(x, y = ; F(x, y = ; y ❸ x F(x, y für festes y und y F(x, y für festes x sind monoton wachsend auf R; ❹ x F(x, y für festes y und y F(x, y für festes x sind rechtsseitig stetig auf R. Die Einzelwahrscheinlichkeiten P (X = x j, bzw. P (Y = y k der eindimensionalen Randverteilungen von X erhalten wir durch die Aufsummierung über alle p jk bei denen der erste Index gleich j, bzw. der zweite Index gleich k ist, d.h. P (X = x j = P (X = x j, Y = y k = p jk =: p j, P (Y = y k = k= P (X = x j, Y = y k = j= k= p jk =: p k. Beispiel 3.9. Die Randverteilungen des diskreten zweidimensionalen Zufallsvektors (X, Y erhält man, indem man in der Verteilungstabelle (s. Bsp. 3.7 die Einzelwahrscheinlichkeiten p jk zeilen- bzw. spaltenweise aufaddiert. j= X Y y = y 2 = y 3 = 2 y 4 = 3 f (x j, y = p j x = p = 8 p 2 = 2 8 p 3 = 8 p 4 = p = 2 x 2 = p 2 = p 22 = 8 p 23 = 2 8 p 24 = 8 p 2 = 2 f (x, y k = p k p = 8 p 2 = 3 8 p 3 = 3 8 p 4 = 8 98

Die zugehörigen Verteilungstabellen der Randverteilungen lauten somit x j x = x 2 = f X (x j = p j 2 2 und y k y = y 2 = y 3 = 2 y 4 = 3 f Y (y k = p k 8 3 8 3 8 8 Sei X = (X, Y ein Zufallsvektor mit stochastisch unabhängigen Komponenten X und Y, so gilt für die zugehörigen Wahrscheinlichkeitsfunktionen, bzw. die zugehörigen Einzelwahrscheinlichkeiten die folgende Beziehung f(x, y = f X (x f Y (y, bzw. p jk = p j p k für alle (x, y R 2, bzw. alle (j, k M. Sie ist eine notwendige und hinreichende Bedingung für die stochastische Unabhängigkeit der Zufallsvariablen X und Y. Beispiel 3.. Betrachten wir den Zufallsvektor (X, Y aus dem Beispiel 3.9 und überprüfen wir die stochastische Unabhängigkeit der Komponenten. Da 8 = p p p = 2 8 = 6 ist die hinreichende Bedingung p jk = p j p k nicht erfüllt. Die beiden Zufallsvariablen X und Y sind daher stochastisch abhängig. 3.2 Verteilung stetiger Zufallsvektoren Definition 3.. Es sei X : Ω R 2 ein Zufallsvektor. Wenn es eine auf R 2 nichtnegative und integrierbare Funktion f mit F(x, y = P (X (x, y = f(s, t ds dt gibt, dann heißt der Zufallsvektor stetig verteilt. Die Funktion f heißt Dichte der Verteilung von X. {(s,t: s x, t y} Es gilt somit R 2 f(x, y dx dy = 99

und für eine borelsche Menge A des R 2, d.h. A B 2, folgt P (X A = f(x, y dx dy = A f(x, y dx dy. A R 2 Die Abschließung offener Mengen A hat die gleiche Wahrscheinlichkeit wie die Menge A selbst, da der Rand einer offenen Menge bei der Integration keinen Beitrag liefert. Analog zu den diskreten Verteilungen erhalten wir auch hier die eindimensionalen Randverteilungen für X bzw. Y durch die Randverteilungsfunktionen F X (x = P(X x bzw. F Y (y = P(Y y. Nach geeigneter Verteuschung der Integrationsreihenfolge bekommt man x ( y ( F X (x = f(s, t dt ds bzw. F Y (y = f(s, t ds dt. Die Randverteilungen der Zufallsvariablen X bzw. Y besitzen daher die folgenden Dichtefunktionen f X (x = f(x, y dy bzw. f Y (x = f(x, y dx. Beispiel 3.2. Die Dichtefunktion des zweidimensionalen Zufallsvektors (X, Y laute f(x, y = { c e 2x 3y für x >, y > ; sonst. Zuerst bestimmen wir die Konstante c aus der Normierungsbedingung + ( + f(x, y dx dy = c e 2x 3y dx dy =. R 2 Wir erhalten c + ( + Somit ist c = 6. e 2x 3y dx dy = c + e 2x dx + e 3y dy = c 2 3 = c 6 = Die Verteilungsfunktion läßt sich damit für x >, y > durch das folgende Doppelintegral darstellen x ( y F(x, y = f(s, t ds dt = 6 e 2s 3t dt ds = = 6 {(s,t: s x,t y} x y e 2s ds = ( e 2x (e 3y e 3t dt = 6 2 e 2s x 3 e 3t y =

und für alle andere (x, y ist die Verteilungsfunktion F(x, y =, d.h. { (e 2x (e 3y für x >, y > ; F(x, y = sonst. Die Wahrscheinlichkeit P( < X < 2, < Y < kann man bestimmen mit Hilfe der Dichtefunktion 2 ( f(x, y dx dy = 6 e 2x 3y dy dx (,2 (, oder, einfacher, mit der gerade berechneten Verteilungsfunktion P( < X < 2, < Y < = F(2, F(, F(2, + F(, }{{}}{{} = = = (e 4 (e 3 (e 2 (e 3 = = e 7 e 5 e 4 + e 2. Wir bestimmen noch die Dichtefunktionen der Randverteilungen der beiden Komponenten X und Y in dieser zweidimensionalen Verteilung. Für x > erhält man f X (x = f(x, y dy = 6 e 2x e 3y dy = = 6e 2x e 3y dy = 6e 2x + = 2e 2x somit ist f X (x = Analog kann man berechnen, dass f Y (y = 3 e 3y { 2e 2x für x > ; sonst. { 3e 3y für y > ; sonst. Sei X = (X, Y ein Zufallsvektor mit stochastisch unabhängigen Komponenten X und Y, so gilt für die zugehörigen Dichtefunktionen die folgende Beziehung f(x, y = f X (x f Y (y für alle (x, y R 2. Sie ist eine notwendige und hinreichende Bedingung für die stochastische Unabhängigkeit der Zufallsvariablen X und Y. Beispiel 3.3. Betrachten wir den Zufallsvektor (X, Y aus dem Beispiel 3.2. Die Komponenten X und Y sind stochastisch unabhängig, da für x > und y > folgt 6e 2x e 3y = 2e 2x 3e 3y und für alle andere (x, y sind die Funktionen gleich Null. =

3.3 Erwartungswert, Kovarianz Den Erwartungswert von X setzt sich aus den Erwartungswerten der Randverteilungen zusammen, d.h. E (X := x df(x = (E (X,..., E (X n. R n Bei der Varianz ist es etwas komplizierter. Definition 3.4. Sei X = (X, Y ein Zufallsvektor, dessen Komponenten X bzw. Y den Erwartungswert µ X bzw. µ Y und die Varianz σ 2 X bzw. σ2 Y haben. Dann heißt cov(x, Y = σ XY := E ((X µ X (Y µ Y Kovarianz von X und Y. Die Zahl ρ XY = ρ(x, Y := cov(x, Y σ X σ Y ist bei σ X σ Y > definiert und heißt Korrelationskoeffizient von X und Y. Ist cov(x, Y =, so heißen die Zufallsvariablen X und Y unkorreliert. Ist X = Y, dann ergibt sich cov(x, X = E ( (X µ X 2 = V (X. Varianzen und Kovarianzen fasst man zu einer symmetrischen und positiv semidefiniten Kovarianzmatrix zusammen ( V (X cov(x, Y C X =. cov(y, X V (Y Mit den vorher eingeführten algebraischen Rechenregeln für den Erwartungswert läßt sich die Formel für die Kovarianz etwas vereinfachen. Es ist cov(x, Y = E ((X µ X (Y µ X = = E (X Y µ X E(Y µ Y E(X + µ X µ Y = = E(X Y E(X E(Y. Sind die Zufallsvariablen X und Y stochastisch unabhängig, so gilt nach der Produktregel für Erwartungswerte cov(x, Y = E(X Y E(X E(Y = E(X E(Y E(X E(Y =, d.h. stochastisch unabhängige Zufallsvariablen sind stets unkorreliert. 2

Warnung: Die Umkehrung dieser Aussage ist nicht immer richtig! Aus cov(x, Y = folgt normalerweise nicht, dass die beiden Zufallsvariablen X und Y stochastisch unabhängig sind. Für die Varianz der Summe X +Y hat man die sog. Additionsregel für die Varianzen V (X + Y = V (X + cov(x, Y + V (Y, die in dem Sonderfall stochastisch unabhängiger Zufallsvariablen nimmt die spezielle Form V (X + Y = V (X + V (Y. Der Korrelationskoeffizient ρ XY der Zufallsvariablen X und Y besitzt folgende Eigenschaften ❶ Unmittelbar aus der Cauchy-Schwarzschen Ungleichung folgt, dass der Korrelationskoeffizient ρ XY der Zufallsvariablen X und Y nur Werte aus dem Intervall [, ] annehmen kann: ρ XY. ❷ Die mittlere Standardabweichung E ( (Y ax b 2 von Y zu einer linearen Abbildung ax + b der Zufallsvariable X ist genau dann minimal, wenn a = cov(x, Y V (X und b = E(Y ae(x. Die minimale Abweichung ergibt sich dabei zu min a,b E ( (Y ax b 2 = ( ρ 2 XY V (Y. ❸ Zwischen den Zufallsvariablen X und Y besteht genau dann eine lineare Beziehung vom Typ Y = ax + b, wenn ρ XY = ist, dabei sgn(a = sgn (ρ XY. ❹ Ist ρ XY =, dann bedeutet dies lediglich, dass zwischen den beiden Zufallsvariablen keine lineare Abhängigkeit besteht. Sie können aber in diesem Fall durchaus eine nichtlineare stochastische Bindung haben. Die oben aus dem Zufallsvektor X = (X, Y bestimmte Gerade y = ax + b heißt Regressionsgerade von Y bzgl. X. Die Koeffizienten a, b heißen Regressionskoeffizienten. 3