U. Mortensen Die n-dimensionale Normalverteilung Es wird zunächst die -dimensionale Normalverteilung betrachtet. Die zufälligen Veränderlichen X und Y seien normalverteilt. Gesucht ist die gemeinsame Verteilung f(x, y), wenn für die Korrelation r xy 0 gilt; der Fall unabhängiger, normalverteilter Variablen ergibt sich dann als Spezialfall für r xy = 0. Sind A und B zwei zufällige Ereignisse, so ist die bedingte Wahrscheinlichkeit p(a B) durch p(a B) p(a B) = p(b) gegeben ( steht für und ); es ist dann p(a B) = p(a B)p(B). () Weiter seien X und Y zwei zufällige Veränderliche mit f(x, y) als gemeinsamer Dichte, und es sei {X = x}, B = {Y = y}. g(y x) sei die bedingte Dichte für Y, gegeben X = x, und f X (x) = f(x, y)dy sei die Randverteilung für X. Dann hat man, analog zu (), f(x, y) g(y x) = f X (x). () Die gemeinsame Dichte ergibt sich daraus als Nach Voraussetzung ist f X (x) = f(x, y) = g(y x)f X (x). (3) σ x π exp Um g zu bestimmen, werde die Regressionsgleichung y = ax + b + ε [ (x µ x) µ x ]. (4) betrachtet. Für festes x ist g die Dichte für Y, gegeben x (kurz: Y x), und σy x = σ ε. Die Voraussetzung der Normalverteilung für Y bedeutet dann Y N(ax + b, σε ). Allgemein gilt für die unkonditionierte Varianz von Y σ y = a σ x + σ ε. Es ist r = r xy = aσ x /σ y, so dass a = rσ y /σ x. Dann ist woraus σ y = r σ xσ y σ x + σ ε = r σ y + σ ε, σ ε = ( r )σ y (5)
folgt, und für g findet man [ ] (y (ax + b)) g(y x) = exp = σ ε π Es ist µ y = aµ x + b und also σ ε σ y ( r ) π exp [ ] (y (ax + b)) y (ax + b) = y µ y (ax + b) + µ y = y µ y (ax + b aµ x b) = y µ y a(x µ x ) und (y (ax + b)) = (y µ y ) + a (x µ x ) a(x µ x )(y µ y ). Substituiert man für a wieder rσ y /σ x, so erhält man den Satz Sind X und Y gemeinsam normalverteilt, so ist die gemeinsame Dichte durch [ ( (y µy ) f(x, y) = Aexp ( r ) σy + (x µ x) σx r(x µ )] x)(y µ y ), (6) σ x σ y σ ε mit gegeben. πσ x σ y r. (7) Ellipsen als Orte gleicher Wahrscheinlichkeit Es werde die Frage nach dem Ort von Punkten (x, y) betrachtet, für die die Dichte f denselben Wert hat. Dies ist die Menge der Punkte {(x, y) f(x, y) = k 0 }, k 0 eine Konstante. Es ist f(x, y) = k 0, wenn der Exponent der Exponentialfunktion in (6) einen bestimmten, konstanten Wert, etwa k, hat. Der Exponent ist durch h(x, y) = ( r ) ( (y µy ) σ y + (x µ x) σ x r(x µ ) x)(y µ y ) σ x σ y gegeben. Es muß also h(x, y) = k eine Konstante sein; (8) ist die Gleichung einer Ellipse mit dem Mittelpunkt (µ x, µ y ) und einer durch den Wert von r bestimmten Orientierung, für r = 0 ist die Ellipse achsenparallel. Ellipsen sind die geometrischen Orte für Punkte mit gleicher Wahrscheinlichkeit, wenn (X, Y ) gemeinsam normalverteilt sind. Die Ellipsengleichung läßt sich kompakter in Matrixschreibweise formulieren. Es sei σ Σ = x rσ x σ y. (9) rσ x σ y Σ ist die Varianz-Kovarianz-Matrix für die zufälligen Veränderlichen X und Y. Die zu Σ inverse Matrix Σ ist durch Σ /σ = x r/σ x σ y ( r ) r/σ x σ y /σy (0) gegeben. Dann kann die Ellipsengleichung (8) in der Form σ y x (x µ x, y µ y )Σ µx = k () y µ y (8)
geschrieben werden. Setzt man x µ = x µx, y µ y so kann man schreiben. ( x µ) Σ ( x µ) = k () Ist P die Matrix der Eigenvektoren von Σ und Λ die Diagonalmatrix der zugehörigen Eigenwerte, so gilt Σ = PΛP. (3) Die Inverse Σ von Σ ist Σ = (PΛP ) = (P ) Λ P. Aber P ist orthonormal, so dass P = P ist, und folglich (P ) = P, so dass Σ = PΛ P. (4) Σ hat also die gleichen Eigenvektoren wie Σ, und die Eigenwerte von Σ sind durch die reziproken Eigenwerte von Σ gegeben. Gleichung () definiert für konstanten Wert k eine Ellipse, deren Orientierung durch die Orientierung der Eigenvektoren der Varian- Kovarianz-Matrix Σ bzw. deren Inverse Σ gegeben ist. Gesucht ist eine Transformation der Vektoren ξ = x µ mit ξ Σ ξ derart, dass die Ellipse in eine achsenparallele Ellipse übergeht. Es wird also eine Rotationsmatrix T gesucht derart, dass jeder Vektor ξ, der der Bedingung ξ Σ ξ = k genügt, in einen Vektor η = Tξ übergeht, der der Bedigung η N η = k genügt, wobei N eine Diagonalmatrix ist. Also soll gelten η N η = ξ T NTξ = k. Dann muß aber T NT = Σ gelten, woraus folgt, dass T = P die Matrix der Eigenvektoren von Σ und N = Λ die Diagonalmatrix der Eigenwerte von Σ ist. Für den -dimensionalen Fall lassen sich die Ausdrücke für die Eigenwerte von Σ noch explizit angeben: λ = ) (s x + s y + (s x s y ) 4r s x s y (5) λ = ) (s x + s y (s x s y ) 4r s x s y (6) Offenbar ist λ λ, und λ wird kleiner für r, während λ für diesen Fall größer wird. Für r = 0 erhält man den Spezialfall λ = s x, λ = s y, so dass Σ die Eigenwerte /σx und /σy hat. Die Längen der Halbachsen der achsenparallelen Ellipse sind gleich k/λj, j =,, und wegen λ j = /σj folgt, dass die Längen gleich σ x k, σy k, also proportional zu den Streuungen sind. Nun werde noch der Normalisierungsfaktor A für f(x, y) (Gleichung (7)) betrachtet: πσ x σ y r, r < 3
Die Summe aller Wahrscheinlichkeiten muß bekanntlich stets gleich sein. Bei stetigen Variablen entspricht die Summe einem Integral. Die eindimensionale Standardnormalverteilung ist durch die Dichte f(z) = ae z /, < z < definiert, wobei a eine noch zu bestimmende Konstante ist. Es muß f(z)dz = ae z / dz = a gelten. Aus der Analysis ist aber bekannt, dass e z / dz = π e z / dz = gilt, so dass a π = folgt. Damit ergibt sich für die Normierungskonstante a a = π. Für die -dimensionale Dichte verfährt man analog und gelangt so auf den Ausdruck für die Normierungskonstante A. Natürlich will man auch 3-, 4- und allgemein n-dimensionale Dichten anwenden können. Während man bei einer -dimensionalen Verteilung mit dem Integral die Fläche unter der Dichtefunktion berechnet, um die Normierungskonstante zu bestimmen, muß man bei - und mehrdimensionalen Dichten ein Volumen unter einer Fläche berechnen. Es wäre mühsam und unökonomisch, die Konstante für jedes n separat zu berechnen. Man macht also von einem allgemeinen Resultat der Analysis Gebrauch, demzufolge das Volumen unter einer Fläche, die durch die n-dimensionale Gaußsche Dichte definiert ist, durch die Determinante der Matrix gegeben ist, die der inversen Varianz-Kovarianz-Matrix Σ entspricht. Die Determinante wird auf eine relativ komplizierte Weise aus den Elementen von Σ berechnet, auf die hier nicht weiter eingegangen werden kann, zumal ein Modul zur Berechnung von Determinanten in jedem Statistikprogramm implementiert ist. Für den -dimensionalen Fall kann die Determinante allerdings leicht angegeben werden. Hat man etwa die Matrix a b M =, c d so ist die Determinante durch M = a d b c gegeben. Für Σ erhält man demnach Σ = ( r ) σxσ y r σxσ y = r ( r ) σxσ y = ( r )σxσ y. (7) Der Vergleich mit der Definition von A zeigt, dass π Σ = (8) π Σ / 4
Für den allgemeinen, n-dimensionalen Fall erhält man wobei Σ natürlich eine (n n)-matrix ist., (9) (π) (n/) Σ / Der allgemeine Fall Jetzt sei ein n-dimensionaler Vektor x = (x, x,...,x n ) t gegeben, und die Komponenten seien gemeinsam normalverteilt mit einer n n-varianz- Kovarianz-Matrix Σ. Der Erwartungswert der j-ten Komponente sei µ j, und der Vektor der Erwartungswerte sei µ = (µ, µ,...,µ n ) t. Dann definiert mit der Normierungskonstanten f(x,..., x n ) = Aexp [ ( x µ) t Σ ( x µ) ] (0) (π) /)n Σ / () den allgemeinen Fall. Σ / entspricht dem σ im -dimensionalen Fall; man kann sagen, dass Σ / die Gesamtvarianz des Vektors x repräsentiert. 5