2 Multivariate Normalverteilung 2. Multivariate Normalverteilung Definition 2.. Normalverteilung Eine univariat normalverteilte Zufallsvariable X besitzt ie Dichte ) (x µ)2 f (x) = exp ( x R. 2π σ 2σ 2 Die Parameter µ R un σ 2 > 0 geben en Erwartungswert bzw. ie Varianz von X an (σ ist ie Stanarabweichung). Eine reguläre (nicht entartete, nicht singuläre) -variat normalverteilte Zufallsvariable X besitzt ie Dichte f (x) = f (x,..., x ) = (2π) /2 (et(σ)) /2 exp ( ) 2 (x µ) Σ (x µ) für x R. Dabei ist µ R er Erwartungswertvektor un Σ R, positiv efinit un symmetrisch, ie Kovarianzmatrix von X. ( et bezeichnet ie Determinante einer Matrix.) Notation 2.2. Für X bzw. X normalverteilt schreiben wir kurz X N(µ, σ 2 ) bzw. X N (µ, Σ). Die Normalverteilung eignet sich zur Moellierung von Merkmalen, ie urch as Zusammenwirken vieler Zufallseinflüsse entstehen, biologische Variabilität (Körpergröße, IQ,...), Messfehler, Abweichungen vom Sollwert (z. B. Schweizer Banknoten), etc. Definition 2.3. Stanarnormalverteilung Die univariate Normalverteilung mit µ = 0 un σ 2 = heißt (univariate) Stanarnormalverteilung. N (0, I ) heißt (multivariate) Stanarnormalverteilung. 22
Satz 2.4. Die Komponenten einer multivariaten Stanarnormalverteilung sin unabhängig un ientisch N(0, )-verteilt. Satz 2.5. Eigenschaften er Normalverteilung a) Ein -variat normalverteilter Zufallsvektor besteht aus univariat normalverteilten Zufallsvariablen. Genauer: sin X,..., X unabhängige un ientisch N(µ, σ 2 )-verteilte Zufallsvariablen, ann ist X = (X,..., X ) N (µ, Σ) mit µ = (µ,..., µ) T un Σ = σ 2 I. ist X = (X,..., X ) N (µ, Σ), ann ist jeer Teilvektor von X wieer multivariat normalverteilt; insbesonere ist jee einzelne Komponente X i von X univariat normalverteilt. b) Affin lineare Transformationen erhalten eine Normalverteilung: Für X N (µ, Σ), A R k, b R k gilt Y = AX + b N k (Aµ + b, AΣA ) Die Aussage gilt für beliebige Matrizen A, ie Verteilung von Y ist möglicherweise eine entartete Normalverteilung (vgl. 2.8). Hat A (un ebenso Σ) vollen Zeilenrang, so ist Y regulär normalverteilt. c) Seien X un k- bzw. k-variate ZVen mit N µ, X µ 2 Σ Σ 2 Σ 2 Σ 22 X un sin unabhängig genau ann, wenn Σ 2 = 0. 23
Korollar 2.6. Sei X N (µ, Σ). a) Mahalanobis-Transformation Es gilt: Y = Σ /2 (X µ) N (0, I ). Umgekehrt gilt für Y N (0, I ), ass Σ /2 Y + µ N (µ, Σ). 28. 0. 203 5. Vorlesung b) AX un BX sin unabhängig genau ann, wenn AΣB = 0. Bemerkung 2.7. Aus X,..., X sin univariat normalverteilt folgt im Allgemeinen nicht (X,..., X ) ist multivariat normalverteilt! Die einimensionalen Ranverteilungen legen ie gemeinsame Verteilung es Zufallsvektors nicht eineutig fest. Bsp: Der ZVektor (X, ) mit er Dichte f (x, x 2 ) = ( π exp ) 2 (x2 + x2) 2 {x x 2 0} hat normalverteilte Komponenten, ist aber nicht normalverteilt. 24
Beispiel 2.8. Dichte er bivariaten Stanarnormalverteilung: 0.2 0.5 f(x,x2) 0. 0.05 0 3 2 0 x2 - -2-3 - x 0 2 3 Konturlinien (Höhenlinien): x2-3 -2-0 2 3-3 -2-0 2 3 x 25
Beispiel 2.9. Dichte er 2-NV mit µ = (0, 0) un Σ = 2 0 0 0 : 0.04 0.03 f(x,x2) 0.02 0.0 0 5 0 x2-5 -5 0 5 x Konturlinien ieser Dichte: x2-5 0 5-5 0 5 x 26
Satz 2.0. Die Graphen er Konturlinien sin von er Form {x : (x µ) Σ (x µ) = } für > 0,. h. ie Konturlinien sin Ellipsen mit em Zentrum µ. Die Halbachsenlängen sin λ i, wobei λ i ie Eigenwerte von Σ sin. Beispiel 2.. Körpergröße un Gewicht (Fortsetzung von Beispiel.2) Die Daten stammen aus einer bivariaten Normalverteilung mit µ = (75, 77) 20 0 un Σ =. 0 9 Mit etwas Phantasie erkennt man ie elliptische Struktur er Punktewolke im Streuiagramm er Daten: Koerpergewicht 60 65 70 75 80 85 90 60 65 70 75 80 85 90 Koerpergroesse Satz 2.2. Seien X un k- bzw. k-variate ZVen mit X N µ, Σ Σ 2 Σ 2 Σ 22 Dann gilt: µ 2 27
N k (µ 2, Σ 22 ), Die beingte Verteilung von gegeben X = x ist X =x N k ( µ2 + Σ 2 Σ (x µ ), Σ 22 ), wobei Σ 22 = Σ 22 Σ 2 Σ Σ 2. Satz 2.2 sagt insbesonere, ass ie beingte Erwartung E( X ) = µ 2 + Σ 2 Σ (x µ ) linear in X, un ie beingte Varianz Var( X ) = Σ 22 konstant un amit unabhängig von X ist. Die beste Approximation von urch eine Funktion von X fällt mit er besten linearen Approximation BX + b von urch X zusammen. Der Approximationsfehler ist U = E( X ) = ( µ 2 ) + Σ 2 Σ (X µ ). Bemerkung 2.3. Es gilt: X Σ 2 Σ X,. h. hier gilt X U. Beispiel 2.4. Sei = 2 un X N 2, 2 0.6 0.6 2 Dann: N(2, 2) Σ 22 = 2 0.6 0.6 =.64 X =x N(2 + 0.6 (x ),.64) = N(.4 + 0.6x,.64) 28
Definition 2.5. Sei in er Situation von Satz 2.2 = k +. Die marginale Varianz σ von X kann zerlegt weren in σ = σ Σ σ }{{} Var[E(X X )] + σ }{{} E[Var(X X )] Man nennt ρ 2,(,...,k) = σ Σ σ σ = ρ P ρ en quarierten multiplen Korrelationskoeffizienten zwischen X un X (Prozentsatz er urch X erklärten Varianz von X ). Multiple Korrelation ρ,(,...,k) = ρ 2,(,...,k) : maximale Korrelation zwischen X un einer Linearkombination von X. Für k = : Betrag er gewöhnlichen paarweisen Korrelation. Satz 2.6. Sei X N k (µ, Σ ) un X = x N k (Ax + b, Θ), wobei A R ( k) k, b R k, Θ R ( k) ( k) positiv efinit. Dann: X N µ, Σ Σ A Aµ + b AΣ Θ + AΣ A Beispiel 2.7. Sei X N(0, ) un X 2 N X 3 2 2x x X =x +, 0 0 (. h. un X 3 sin gegeben X beingt unabhängig). Dann: A = 2, b = 0, Θ = 0, Σ = 0 Θ + AΣ A = 0 0 + 2 ( ) 2 = 5 2 2 2 29
X X 3 0 N 3 0 hat Korrelationsmatrix 0.89 0.7 P = 0.89 0.63 0.7 0.63, 2 2 5 2 2 2 Quarierte multiple Korrelation zwischen X 3 un (X, ): ρ 2 3,(,2) = σ 3,(,2)Σ (,2),(,2) σ (,2),3 = ( ) 2 2 σ 33 2 2 5 = 0.5 2 Bemerkung 2.8. Singuläre (entartete, nicht reguläre) Normalverteilung Sei µ R un Σ R nicht-negativ efinit mit Rang k <. Nach.30 können wir Σ schreiben als Σ = AΛA, wobei Λ = iag(λ,..., λ k ) ie k positiven Eigenwerte von Σ un A R k ie zugehörigen Eigenvektoren enthält (. h. A ist Spalten-orthogonal). Falls Y N k (0, Λ) un X AY + µ, so heißt er ZVektor X (entartet) normalverteilt mit Erwartungswert µ un Kovarianzmatrix Σ (X N (µ, Σ)). Die singuläre NV entsteht somit urch affine Transformation einer k-variaten regulären Normalverteilung. X liegt fast sicher auf er k-imensionalen Hyperebene N (x µ) = 0, wobei N R ( k), N A = 0 un N N = I k. Satz 2.9. X ist genau ann -variat normalverteilt, wenn a X univariat normalverteilt ist für alle a R. 30
2.2 Verwante Verteilungen Definition 2.20. Seien X,..., X unabhängig un stanarnormalverteilt. Die Verteilung von Y = i= i heißt χ 2 -Verteilung mit Freiheitsgraen. (Y χ 2 ). Korollar 2.2. Ist X N (µ, Σ), Σ positiv efinit, so gilt (X µ) Σ (X µ) χ 2. Definition 2.22. Sei X N (0, Σ) un X = (X,..., X n ) eine (n )- Datenmatrix unabhängiger Wieerholungen von X. Dann hat X X eine Wishart-Verteilung mit n Freiheitsgraen un Parameter Σ, X X = Satz 2.23. n X i X i W (Σ, n) i= a) Für M W (Σ, n) gilt: E(M) = nσ. b) Für = un X N(0, σ 2 ): X X W(σ 2, n) = σ 2 χ 2 n c) Sei M W (Σ, n). Für B R k gilt: BMB W k (BΣB, n), speziell Σ /2 M(Σ /2 ) W (I, n). Für b R mit b Mb = 0 gilt: b Mb b Σb χ2 n. ) Für M i W (Σ, n i ) unabhängig, i =,..., k: k i= M i W (Σ, k i= n k ). Für Testprobleme benötigen wir Hotelling s T 2 -Verteilung. Definition 2.24. Seien X N (0, I) un M W (I, n) unabhängig voneinaner. Dann folgt nx M X Hotelling s T 2 (, n)-verteilung. Satz 2.25. T 2 (, n) = n n + F,n + 3
2.3 Asymptotik Die vier wichtigsten asymptotischen Tools Satz 2.26. ZGWS (CLT) (hier in ihren multivariaten Varianten) Sei X,..., X n,... eine Folge unabhängiger, ientisch verteilter ZVen mit Erwartungswert µ un Kovarianzmatrix Σ. Dann n(xn µ) N (0, Σ) Satz 2.27. CMT Seien X, X,..., X n,... ZVen in R mit X n Dann: g(x n ) g(x). X un g : R R k stetig. Anmerkung: Es genügt, ass g P X -fast sicher stetig ist. Die Aussage bleibt wahr, wenn urch p oer a.s. ersetzt wir. Satz 2.28. Lemma von Slutsky Falls X n AX n + b n X un A n AX + b. p A, b n p b, wobei A R k, b R k. Dann: Satz 2.29. ( -Methoe) Falls n(x n µ) Z un g : R R k ifferenzierbar in µ, ann n(g(xn ) g(µ)) Dg(µ)Z, wobei Dg(µ) = ( g i (t)/ t j )i,j ie (k )-Matrix er partiellen Ablei- t=µ tungen von g ausgewertet an er Stelle µ ist. Falls Z N (0, Σ), ann n(g(x n ) g(µ)) N k (0, Dg(µ)Σ(Dg(µ)) ). 32
Ein paar Anwenunen un Beispiele Beispiel 2.30. Sei X,,... eine unabhängige Folge von Paaren unabhängiger Bin(, π ) un Bin(, π 2 )-verteilter ZVen. Es gilt n X π N 2 0, π ( π ) 0 π 2 0 π 2 ( π 2 ) Bemerkung 2.3. Seien X,..., X n,... unabhängig un ientisch verteilt mit Erwartungswert µ un Kovarianzmatrix Σ. Dann n(x n µ) N (0, Σ) (ZGWS), nσ /2 (X n µ) n ˆΣ /2 (X n µ) n(x n µ) ˆΣ (X n µ) N (0, I ) N (0, I ) χ 2 (CMT), (Slutsky), (CMT). Was ist aber, wenn wir nicht µ, sonern g(µ) schätzen wollen? Beispiel 2.32. Wir wollen für A symmetrisch un nicht-negativ efinit ie quaratischen Kosten g(µ) = µ Aµ schätzen. Mit D(µ) = 2µ A gilt ( ) n X nax n µ Aµ N(0, 4µ AΣAµ) Bemerkung 2.33. Fishers Z-Transformation Sei (X, ) bivariat normal mit Cor(X, ) = ρ. Für ie empirische Korrelation ˆρ gilt (füer ii Daten): n( ˆρ ρ) N(0, ( ρ 2 ) 2 ) 33
Die Approximation urch ie Normalverteilung ist hier für n klein un ρ groß schlecht. Für Fishers Z-Transformation ẑ = f ( ˆρ) = ( ) + ˆρ 2 log ˆρ gilt n( f ( ˆρ) f (ρ)) N(0, ) Diese Approximation ist wesentlich besser (liefert z. B. bessere asympotische KI e). Eine noch besser Approximation erhält man für ( ) ρ n 3 f ( ˆρ) f (ρ) 2(n ) Fishers Z-Transformation ist ie Inverse er Tangens-Hyperbolicus Funktion, ẑ = tanh ( ˆρ) oer ˆρ = (e 2ẑ )/(e 2ẑ + ). 0.0 0.2 0.4 0.6 0.8.0 0.0 0.2 0.4 0.6 0.8.0 3 2 0 2 3 3 2 0 2 3 ρ 2(n ) Für n = 8 un ρ = 0.9 Verteilungsfunktionen von n( ˆρ ρ)/( ρ 2 ) (links) un ( ) n 3 f ( ˆρ) f (ρ) (rechts) im Vergleich zur Verteilungsfunktion er Limes-Verteilung N(0, ). (Empirisch bestimmt, 5000 Wh.) 34