Statistik II. Universität Ulm Abteilung Stochastik. Vorlesungsskript Prof. Dr. Volker Schmidt Stand: Wintersemester 2007/08



Ähnliche Dokumente
3.3 Eigenwerte und Eigenräume, Diagonalisierung

Musterlösungen zur Linearen Algebra II Blatt 5

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

7 Die Determinante einer Matrix

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Die Optimalität von Randomisationstests

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Matrizennorm. Definition 1. Sei A M r,s (R). Dann heißt A := sup die Matrixnorm. Wir wissen zunächst nicht, ob A eine reelle Zahl ist.

Eigenwerte und Eigenvektoren von Matrizen

13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s

Mathematik für Informatiker II. Beispiellösungen zur Probeklausur. Aufgabe 1. Aufgabe 2 (5+5 Punkte) Christoph Eisinger Sommersemester 2011

Definition:Eine meromorphe Modulform vom Gewicht k Z ist eine meromorphe. f : H C. (ii) C > 0, so daß f(z) im Bereich Im z > C keine Singularität hat.

Einführung in die Algebra

Division Für diesen Abschnitt setzen wir voraus, dass der Koeffizientenring ein Körper ist. Betrachte das Schema

Stochastische Eingangsprüfung,

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Beispiel Zusammengesetzte Zufallsvariablen

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume?

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

Lösungen zum 3. Aufgabenblatt

4 Vorlesung: Matrix und Determinante

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Data Mining: Einige Grundlagen aus der Stochastik

Lineare Gleichungssysteme I (Matrixgleichungen)

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Fachschaft Mathematik und Informatik (FIM) LA I VORKURS. Herbstsemester gehalten von Harald Baum

Absolute Stetigkeit von Maßen

6.2 Perfekte Sicherheit

(λ Ri I A+BR)v Ri = 0. Lässt sich umstellen zu

Erinnerung/Zusammenfassung zu Abbildungsmatrizen

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Höhere Mathematik 3. Apl. Prof. Dr. Norbert Knarr. Wintersemester 2015/16. FB Mathematik

Ausarbeitung des Seminarvortrags zum Thema

7 Rechnen mit Polynomen

9. Schätzen und Testen bei unbekannter Varianz

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Lineare Gleichungssysteme

Der Zwei-Quadrate-Satz von Fermat

Rekursionen (Teschl/Teschl )

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Elemente der Analysis I Kapitel 2: Einführung II, Gleichungen

Tutorial: Homogenitätstest

Die reellen Lösungen der kubischen Gleichung

Primzahlen und RSA-Verschlüsselung

5 Eigenwerte und die Jordansche Normalform

Modulabschlussklausur Analysis II

Extremwertverteilungen

1.9 Eigenwerte und Eigenvektoren

Seminararbeit für das SE Reine Mathematik- Graphentheorie

Lineare Gleichungssysteme

Universität Bonn, Institut für Angewandte Mathematik. WS 2012/2013 Prüfung Angewandte Mathematik und Statistik - Agrarwiss. /ELW

Solvency II und die Standardformel

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Extrema von Funktionen in zwei Variablen

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

3.1. Die komplexen Zahlen

Korrelation (II) Korrelation und Kausalität

Bestimmung einer ersten

3. Zusammenhang. 22 Andreas Gathmann

A Matrix-Algebra. A.1 Definition und elementare Operationen

Charakteristikenmethode im Beispiel

Mathematischer Vorbereitungskurs für Ökonomen

WS 2008/09. Diskrete Strukturen

Lineare Gleichungssysteme

DIFFERENTIALGLEICHUNGEN

2 Die Darstellung linearer Abbildungen durch Matrizen

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt

Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen

Übungen zum Ferienkurs Lineare Algebra WS 14/15

Übungsklausur. Bitte wählen Sie fünf Aufgaben aus! Aufgabe 1. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr.

Mathematik 1 für Wirtschaftsinformatik

Optimalitätskriterien

BONUS MALUS SYSTEME UND MARKOV KETTEN

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

R ist freie Software und kann von der Website.

Nichtlineare Optimierung ohne Nebenbedingungen

Statistik II für Betriebswirte Vorlesung 2

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

1.3 Die Beurteilung von Testleistungen

Codierungstheorie Rudolf Scharlau, SoSe

Kapitel 15. Lösung linearer Gleichungssysteme

Binäre abhängige Variablen

Lineare Algebra und Lösung linearer zeitinvarianter Differentialgleichungssysteme

q = 1 p = k k k = 0, 1,..., = [ ] = 0.678


4. Versicherungsangebot

a n auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

Willkommen zur Vorlesung Statistik (Master)

Approximation durch Taylorpolynome

Überblick über die Verfahren für Ordinaldaten


Professionelle Seminare im Bereich MS-Office

Lösungsvorschlag für die Probeklausuren und Klausuren zu Algebra für Informations- und Kommunikationstechniker bei Prof. Dr.

Transkript:

CURANDO UNIVERSITÄT ULM SCIENDO DOCENDO Statistik II Universität Ulm Abteilung Stochastik Vorlesungsskript Prof Dr Volker Schmidt Stand: Wintersemester 2007/08 Ulm, im Februar 2008

INHALTSVERZEICHNIS 2 Inhaltsverzeichnis 1 Einleitung und Grundlagen 6 11 Einige Grundbegriffe und Ergebnisse der Matrix Algebra 6 111 Spur und Rang 6 112 Eigenwerte und Eigenvektoren 7 113 Diagonalisierungsverfahren 8 114 Symmetrie und Definitheit; Faktorisierung 9 12 Multivariate Normalverteilung 10 121 Definition und grundlegende Eigenschaften 10 122 Charakteristiken der multivariaten Normalverteilung 12 123 Randverteilungen und Unabhängigkeit von Teilvektoren; Faltungsstabilität 14 124 Lineare Transformation von normalverteilten Zufallsvektoren 16 125 Singuläre multivariate Normalverteilung 18 13 Lineare und quadratische Formen normalverteilter Zufallsvektoren 19 131 Definition, Erwartungswert und Kovarianz 19 132 Nichtzentrale χ 2 Verteilung 21 133 Verteilungs und Unabhängigkeitseigenschaften linearer und quadratischer Formen 23 2 Lineare Modelle; Designmatrix mit vollem Rang 27 21 Methode der kleinsten Quadrate 28 211 Normalengleichung 28 212 Güteeigenschaften des KQ Schätzers β 30 213 Erwartungstreue Schätzung der Varianz σ 2 der Störgrößen 32 22 Normalverteilte Störgrößen 34 221 Maximum Likelihood Schätzer 34 222 Verteilungs und Unabhängigkeitseigenschaften von β und S 2 35 223 Tests für die Regressionskoeffizienten; Quadratsummenzerlegung 37 224 Konfidenzbereiche; Prognose von Zielvariablen 41 225 Konfidenzband 43 3 Beliebige Designmatrix; verallgemeinerte Inverse 46 31 Varianzanalyse als lineares Modell 46 311 Einfaktorielle Varianzanalyse; ANOVA Nullhypothese 46 312 Reparametrisierung der Erwartungswerte 49 313 Zweifaktorielle Varianzanalyse 51 32 Schätzung der Modellparameter 53 321 KQ Schätzer für β 54

INHALTSVERZEICHNIS 3 322 Erwartungswertvektor und Kovarianzmatrix des KQ Schätzers β 58 323 Schätzbare Funktionen 60 324 Beste lineare erwartungstreue Schätzer; Gauß Markow Theorem 63 33 Normalverteilte Störgrößen 66 331 Maximum Likelihood Schätzer 67 332 Tests linearer Hypothesen 70 333 Konfidenzbereiche 74 34 Beispiele 76 341 F Test der ANOVA-Nullhypothese 76 342 F Tests für die zweifaktorielle Varianzanalyse 78 343 Zweifaktorielle Varianzanalyse mit hierarchischer Klassifikation 82 4 Verallgemeinerte lineare Modelle 85 41 Definition und grundlegende Eigenschaften 85 411 Exponentialfamilie 85 412 Verknüpfung der Parameter; natürliche Linkfunktion 87 42 Beispiele 87 421 Lineares Modell mit normalverteilten Störgrößen 87 422 Binäre kategoriale Regression 88 423 Poisson verteilte Stichprobenvariablen mit natürlicher Linkfunktion 89 43 Maximum Likelihood Schätzer für β 89 431 Loglikelihood Funktion und ihre partiellen Ableitungen 89 432 Hesse Matrix 92 433 Maximum Likelihood Gleichung und numerische Lösungsansätze 93 434 Asymptotische Normalverteiltheit von ML Schätzern; asymptotische Tests 95 44 Gewichteter KQ Schätzer bei kategorialer Regression 96 441 Schätzung des Erwartungswertvektors 96 442 Asymptotische Normalverteiltheit des KQ Schätzers 98 443 Bewertung der Anpassungsgüte 100 5 Tests von Verteilungsannahmen 101 51 Kolmogorow Smirnow Test 101 511 Empirische Verteilungsfunktion; KS Teststatistik 101 512 Asymptotische Verteilung 102 513 Güteeigenschaften; punktweise und gleichmäßige Konsistenz 105 52 χ 2 Anpassungstest 107 521 Klassenbildung; Pearson Statistik 107 522 Asymptotische Verteilung 109

INHALTSVERZEICHNIS 4 523 Güteeigenschaften; lokale Alternativen 110 53 χ 2 Anpassungstest von Pearson Fisher 112 531 Pearson Fisher Teststatistik 113 532 Multivariater zentraler Grenzwertsatz für ML Schätzer 114 533 Fisher Informationsmatrix und zentraler Grenzwertsatz im vergröberten Modell 115 534 Asymptotische Verteilung der Pearson Fisher Statistik 117 54 Beispiele 120 541 χ 2 Anpassungstest auf Poisson Verteilung 120 542 χ 2 Anpassungstest auf Normalverteilung 121 543 Anpassungstests vom Shapiro Wilk Typ 122 6 Nichtparametrische Lokalisationstests 125 61 Zwei einfache Beispiele von Einstichproben Problemen 125 611 Binomialtest 125 612 Iterationstest auf Zufälligkeit 127 62 Vorzeichenrangtest von Wilcoxon 129 621 Modellbeschreibung; Mediantest 129 622 Verteilung der Teststatistik T n + für kleine Stichprobenumfänge 130 623 Asymptotische Verteilung 133 63 Zweistichproben Probleme 135 631 Iterationstest von Wald Wolfowitz 135 632 Rangsummentest von Wilcoxon für Lagealternativen 136

LITERATUR 5 Literatur [1] Büning, H, Trenkler, G 1994 Nichtparametrische statistische Methoden de Gruyter, Berlin [2] Cressie, NA 1993 Statistics for Spatial Data J Wiley & Sons, New York [3] Dobson, AJ 2002 An Introduction to Generalized Linear Models Chapman & Hall, Boca Raton [4] Falk, M, Marohn, F, Tewes, B 2002 Foundations of Statistical Analyses and Applications with SAS Birkhäuser, Basel [5] Hastie, T, Tibshirami, R, Friedman, J 2001 The Elements of Statistical Learnning Springer, New York [6] Koch, KR 1997 Parameterschätzung und Hypothesentests in linearen Modellen Dümmlers Verlag, Bonn [7] Lehmann, EL 1999 Elements of Large Sample Theory Springer, New York [8] Lehmann, EL, Romano, JP 2005 Testing Statistical Hypotheses Springer, New York [9] McCullagh, P, Nelder, JA 1989 Genralized Linear Models Chapman & Hall, London [10] Pruscha, H 2000 Vorlesungen über mathematische Statistik Teubner Verlag, Stuttgart [11] Van der Vaart, A, Wellner, J 1996 Weak Convergence and Empirical Processes Springer Verlag, New York [12] Vapnik, VN 1998 Statistical Learning Theory J Wiley & Sons, New York

1 EINLEITUNG UND GRUNDLAGEN 6 1 Einleitung und Grundlagen Die Vorlesung Statistik II ist für Studierende konzipiert, die bereits über Grundkenntnisse auf dem Gebiet der mathematischen Statistik verfügen Die Schätz und Testverfahren, die in Statistik I behandelt worden sind, werden dabei als bekannt vorausgesetzt Die Vorlesung Statistik II besteht aus den Teilen: multivariate Normalverteilung reguläre und singuläre Normalverteilung, lineare und quadratische Formen lineare Modelle multiple Regression, normalverteilte Störgrößen, ein und mehrfaktorielle Varianzanalyse verallgemeinerte lineare Modelle logistische Regression, Maximum Likelihood Gleichung, gewichteter KQ Schätzer, Bewertung der Anpassungsgüte Tests von Verteilungsannahmen Kolmogorow Smirnow Test, χ 2 Anpassungstests von Pearson Fisher Nichtparametrische Lokalisationstests Binomialtest, Iterationstests, lineare Rangtests Dabei werden wir insbesondere Begriffe und Ergebnisse nutzen, die in den Vorlesungen Wahrscheinlichkeitsrechnung bzw Statistik I eingeführt worden sind, vgl das Skript zur Vorlesung Wahrscheinlichkeitsrechnung im Wintersemester 2006/07 bzw das Skript zur Vorlesung Statistik I im Sommersemester 2007: Verweise auf diese Vorlesungsmanuskripte werden wir mit dem Zusatz WR bzw I vor der Nummer der zitierten Abschnitte, Lemmata, Theoreme, Korollare bzw Formeln kennzeichnen 11 Einige Grundbegriffe und Ergebnisse der Matrix Algebra Wir erinnern zunächst an einige grundlegende Begriffe und Ergebnisse der Matrix Algebra, die im folgenden benötigt werden 111 Spur und Rang Die Spur spa einer quadratischen n n Matrix A = a ij ist gegeben durch spa = a ii 1 Sei A eine beliebige n m Matrix Der Rang rga ist die maximale Anzahl der linear unabhängigen Zeilen bzw Spalten von A Dabei heißen die Vektoren a 1,, a l R m linear abhängig, wenn es reelle Zahlen c 1,, c l R gibt, die nicht alle gleich Null sind, so dass c 1 a 1 + + c l a l = o Anderenfalls heißen die Vektoren a 1,, a l R m linear unabhängig Unmittelbar aus der Definitionsgleichung 1 der Matix Spur und aus der Definition der Matrix Multiplikation ergibt sich der folgende Hilfssatz Lemma 11 Sei C eine beliebige n m Matrix und D eine beliebige m n Matrix Dann gilt spcd = spdc Man kann zeigen, dass eine quadratische Matrix A genau dann invertierbar ist, wenn A vollen Rang hat bzw wenn det A 0 gilt In diesem Zusammenhang ist auch das folgende Resultat nützlich

1 EINLEITUNG UND GRUNDLAGEN 7 Lemma 12 Sei A eine n m Matrix mit n m und rga = m Dann gilt rga A = m Es ist klar, dass der Rang rga A der m m Matrix A A nicht größer als m sein kann Wir nehmen nun an, dass rga A < m Dann gibt es einen Vektor c = c 1,, c m R m, so dass c o und A Ac = o Hieraus folgt, dass auch c A Ac = o bzw Ac Ac = o, dh Ac = o Dies ist jedoch ein Widerspruch zu der Voraussetzung, dass rga = m Außerdem kann man zeigen, dass die beiden folgenden Eigenschaften von Spur bzw Rang gelten Lemma 13 Seien A und B beliebige n n Matrizen Dann gilt stets spa B = spa spb Wenn A idempotent und symmetrisch ist, dh, A = A 2 und A = A, dann gilt außerdem spa = rga 112 Eigenwerte und Eigenvektoren Definition Sei A eine beliebige n n Matrix Jede komplexe Zahl λ C, für die es einen Vektor x C n mit x o gibt, so dass A λix = o, 2 heißt Eigenwert der Matrix A Außerdem sagt man dann, dass x ein zu λ gehörender Eigenvektor ist Beachte Die Gleichung 2 hat nur für solche λ C eine Lösung x C n mit x o, für die λ eine Lösung der so genannten charakteristischen Polynomgleichung deta λi = 0 3 ist, wobei die linke Seite P λ = deta λi von 3 das charakteristische Polynom der Matrix A genannt wird Seien λ 1,, λ k R die reellwertigen Lösungen von 3 Dann lässt sich das charakteristische Polynom P λ in der Form P λ = 1 n λ λ 1 a 1 λ λ k a k qλ 4 darstellen, wobei a 1,, a k N positive natürliche Zahlen sind, genannt die algebraischen Vielfachheiten von λ 1,, λ k, und qλ ein Polynom der Ordnung n k a i ist, das keine reellen Lösungen besitzt Lemma 14 Sei A = a ij eine symmetrische n n Matrix mit reellwertigen Einträgen a ij Dann sind sämtliche Eigenwerte reell, und die zu verschiedenen Eigenwerten λ i, λ j R gehörenden Eigenvektoren x i, x j R n sind zueinander orthogonal Die Determinante deta λi in 3 ist gegeben durch deta λi = 1 rπ π i: i π i a iπi i: i=π i a iπi λ, 5 wobei sich die Summation über alle m! Permutationen π = π 1,, π m der natürlichen Zahlen 1,, m erstreckt und rπ die Anzahl der Zahlenpaare in π ist, die sich nicht in der natürlichen Ordnung befinden

1 EINLEITUNG UND GRUNDLAGEN 8 Weil die Elemente von A reelle Zahlen sind, ist für jede Lösung λ = a + i b von 3 gleichzeitig auch λ = a i b eine Lösung von 3 Seien x = a + i b und x = a i b Eigenvektoren, die zu λ bzw λ gehören Dann gilt Ax = λx und Ax = λx bzw x Ax = x λx = λx x und Hieraus folgt, dass λx x = λx x x Ax = A x x = Ax x = λx x = λx x Weil x x = a 2 + b 2 > 0, ergibt sich hieraus, dass λ = λ, dh, λ ist eine reelle Zahl Auf ähnliche Weise lässt sich zeigen, dass es zu verschiedenen Eigenwerten λ i, λ j R gehörende Eigenvektoren x i, x j R n mit reellwertigen Komponenten gibt, die zueinander orthogonal sind Weil die Matrix A λ i I nur reellwertige Eintragungen hat, sind mit x i auch x i bzw x i + x i R n zu λ i gehörende Eigenvektoren Wir können und werden deshalb obda annehmen, dass x i, x j R n Aus der Gültigkeit von A λ i Ix i = o und A λ j Ix j = o ergibt sich außerdem, dass Ax i = λ i x i und Ax j = λ j x j bzw x j Ax i = λ i x j x i und x i Ax j = λ j x i x j Andererseits gilt offenbar x j x i = x i x j, und aus der Symmetrie von A = a ij ergibt sich die Identität x j Ax i = x i Ax j, denn es gilt x j Ax i = m=1 l=1 x lj a lm x mi = l=1 m=1 x mi a ml x lj = x i Ax j Insgesamt ergibt sich somit, dass λ i x j x i = λ j x i x j bzw λ i λ j x j x i = 0 Wegen λ i λ j 0 folgt hieraus, dass x j x i = 0 113 Diagonalisierungsverfahren Sei nun A eine invertierbare symmetrische n n Matrix In Lemma 14 haben wir gezeigt, dass dann sämtliche Eigenwerte λ 1,, λ n von A reelle Zahlen sind wobei in dieser Folge gegebenenfalls einunddieselbe Zahl mehrfach auftreten kann Wegen det A 0 ist λ = 0 keine Lösung von 3, dh, sämtliche Eigenwerte λ 1,, λ n von A sind von Null verschieden Außerdem kann man zeigen, dass es orthonormale Basis- Vektoren v 1,, v n R n gibt, dh v i v i = 1, v i v j = 0, i, j {1,, n} mit i j, 6 so dass v i ein zu λ i gehörender Eigenvektor ist; i = 1,, n Wenn sämtliche Eigenwerte λ 1,, λ n voneinander verschieden sind, dann folgt dies unmittelbar aus Teilaussage 2 von Lemma 14 Hieraus resultiert das folgende Diagonalisierungsverfahren für invertierbare symmetrische Matrizen

1 EINLEITUNG UND GRUNDLAGEN 9 Lemma 15 Sei A eine invertierbare symmetrische n n Matrix, und sei V = v 1,, v n die n n Matrix, die aus den orthonormalen Eigenvektoren v 1,, v n besteht Dann gilt V AV = Λ, 7 wobei Λ = diagλ 1,, λ n die n n Diagonalmatrix bezeichnet, die aus den Eigenwerten λ 1,, λ n gebildet wird Aus der Defintionsgleichung 2 von Eigenwerten bzw -vektoren ergibt sich, dass Av i = λ i v i für jedes i = 1,, n Hieraus folgt, dass AV = λ 1 v 1,, λ n v n bzw V AV = V λ 1 v 1,, λ n v n = Λ, wobei sich die letzte Gleichheit aus 6 ergibt 114 Symmetrie und Definitheit; Faktorisierung Lemma 16 Sei A eine symmetrische und positiv definite n n Matrix, dh, es gelte A = A und x Ax > 0 für jeden Vektor x = x 1,, x n R n mit x o Dann ist A invertierbar, und es gibt es eine invertierbare n n Matrix H, so dass A = HH 8 Wir zeigen nur die Gültigkeit der zweiten Teilaussage Aus Lemma 15 ergibt sich, dass V AV = Λ bzw A = V 1 ΛV 1, 9 wobei V = v 1,, v n die n n Matrix ist, die aus den orthonormalen Eigenvektoren v 1,, v n besteht, und Λ = diagλ 1,, λ n die n n Diagonalmatrix bezeichnet, die aus den positiven Eigenwerten λ 1,, λ n gebildet wird Sei nun Λ 1/2 die n n Diagonalmatrix Λ 1/2 = diag λ 1,, λ n, und sei H = V 1 Λ 1/2 V 10 Es ist klar, dass die in 10 gegebene Matrix H invertierbar ist Wegen V V = I gilt außerdem HH = V 1 Λ 1/2 V V 1 Λ 1/2 V = V 1 Λ 1/2 V VΛ 1/2 V 1 = V 1 Λ 1/2 Λ 1/2 V 1 = V 1 ΛV 1 = A, wobei sich die letzte Gleichheit aus 9 ergibt Beachte Jede invertierbare n n Matrix H mit A = HH wird Quadratwurzel von A genannt und mit A 1/2 bezeichnet Mit Hilfe der Cholesky Zerlegung für symmetrische und positiv definite Matrizen kann man zeigen, dass es eine eindeutig bestimmte untere Dreiecksmatrix H mit A = HH gibt

1 EINLEITUNG UND GRUNDLAGEN 10 Die folgende Eigenschaft symmetrischer Matrizen ist eine Verallgemeinerung von Lemma 16 Lemma 17 Sei A eine symmetrische und nichtnegativ definite n n Matrix, dh, es gelte A = A und x Ax 0 für jeden Vektor x = x 1,, x n R n Sei nun rga = r n Dann gibt es eine n r Matrix H mit rgh = r, so dass A = HH Der von Lemma 17 verläuft ähnlich wie der von Lemma 16 Lemma 18 Seien m, r N beliebige natürliche Zahlen mit 1 r m Sei A eine symmetrische und positiv definite m m Matrix, und sei B eine r m Matrix mit vollem Rang rgb = r Dann sind auch die Matrizen BAB und A 1 positiv definit Wegen des vollen Ranges von B gilt B x o für jedes x R r mit x o Weil A positiv definit ist, gilt damit auch x BAB x = B x AB x > 0 für jedes x R r mit x o, dh, BAB ist positiv definit Für B = A 1 ergibt sich hieraus insbesondere, dass A 1 = A 1 AA 1 = A 1 A A 1 positiv definit ist 12 Multivariate Normalverteilung In diesem Abschnitt erinnern wir an den Begriff der multivariaten Normalverteilung und diskutieren einige grundlegende Eigenschaften dieser Verteilungsfamilie 121 Definition und grundlegende Eigenschaften Seien X 1,, X n : Ω R unabhängige und identisch normalverteilte Zufallsvariablen, dh insbesondere, dass X i Nµ, σ 2, i = 1,, n, 11 wobei µ R und σ 2 > 0 In Vektor Schreibweise bedeutet die Normalverteilungseigenschaft 11 und die Unabhängigkeit der Stichprobenvariablen, dass die Verteilung der Zufallsstichprobe X = X 1,, X n gegeben ist durch X N µ, σ 2 I n, 12 wobei µ = µ,, µ und N µ, σ 2 I n die n dimensionale Normalverteilung mit Erwartungswertvektor µ und Kovarianzmatrix σ 2 I n bezeichnet

1 EINLEITUNG UND GRUNDLAGEN 11 Zur Erinnerung vgl Abschnitt WR-434: Allgemein wird die n dimensionale Normalverteilung wie folgt definiert Sei µ = µ 1,, µ n R n ein beliebiger Vektor, und sei K eine symmetrische und positiv definite n n-matrix Sei Z = Z 1,, Z n ein absolutstetiger Zufallsvektor, wobei die gemeinsame Dichte von Z gegeben sei durch 1 n 1 fz = exp 1 2π det K 2 z µ K 1 z µ 13 für jedes z = z 1,, z n R n Dann sagt man, dass der Zufallsvektor Z = Z 1,, Z n regulär normalverteilt ist Schreibweise: Z Nµ, K Wir zeigen nun, dass die in 13 gegebene Funktion eine n dimensionale Wahrscheinlichkeitsdichte ist Theorem 11 Sei µ = µ 1,, µ n R n ein beliebiger Vektor, und sei K eine symmetrische und positiv definite n n-matrix Dann gilt exp 1 2 x µ K 1 x µ dx 1 dx n = 2π n/2 det K 1/2 14 Weil K symmetrisch und positiv definit und damit auch invertierbar ist, gibt es wegen Lemma 15 eine n n Matrix V = v 1,, v n, die aus den orthonormalen Eigenvektoren v 1,, v n von K besteht, so dass V KV = Λ, 15 wobei Λ = diagλ 1,, λ n die n n Diagonalmatrix bezeichnet, die aus den Eigenwerten λ 1,, λ n von K gebildet wird Außerdem ergibt sich aus der positiven Definitheit von K, dass vi Kv i = λ i > 0 für jedes i = 1,, n, dh, sämtliche Eigenwerte λ 1,, λ n von K sind positiv Wegen V V = I gilt auch V = V 1 bzw VV = I Weil außerdem AB 1 = B 1 A 1 gilt, ergibt sich hieraus und aus 15, dass V KV 1 = V K 1 V = diag λ 1 1,, λ 1 n Die Abbildung ϕ : R n R n mit y = ϕx = V x µ, dh x µ = Vy, bildet den R n bijektiv auf sich selbst ab, und für die Jacobi-Determinante der Abbildung ϕ : R n R n gilt ϕi det x 1,, x n = det V = ±1, x j wobei sich die letzte Gleichheit aus der Tatsache ergibt, dass 1 = detv V = det V 2 Für das Integral auf der linken Seite von 14 gilt somit, dass = = R n exp 1 2 x µ K 1 x µ dx 1 dx n exp 1 2 x µ K 1 x µ dx 1,, x n = exp 1 2 y 2 i λ i dy 1 dy n = R n exp n 2πλ i 1/2 1 2 y 2 i λ i dy 1,, y n

1 EINLEITUNG UND GRUNDLAGEN 12 Hieraus ergibt sich die Behauptung, weil n λ i = det Λ = det V KV = det V V det K = det K 122 Charakteristiken der multivariaten Normalverteilung Sei µ = µ 1,, µ n R n ein beliebiger Vektor, und sei K = k ij eine symmetrische und positiv definite n n Matrix Wir bestimmen zunächst die charakteristische Funktion von normalverteilten Zufallvektoren Zur Erinnerung: Die charakteristische Funktion ϕ : R n C eines beliebigen n dimensionalen Zufallsvektors X = X 1,, X n : Ω R n ist gegeben durch ϕt = E exp i t X = E exp i t l X l, t = t 1,, t n R n 16 Theorem 12 Der Zufallsvektor X = X 1,, X n : Ω R n sei normalverteilt mit X Nµ, K Dann gilt für die charakteristische Funktion ϕ : R n C von X, dass l=1 ϕt = exp i t µ 1 2 t Kt, t R n 17 Aus 13 und 16 folgt, dass ϕt = = = exp 1 2π n/2 det K 1/2 expi t µ 2π n/2 det K 1/2 i t l x l fx 1,, x n dx 1 dx n l=1 exp i t x 1 2 x µ K 1 x µ dx 1 dx n exp i t y 1 2 y K 1 y dy 1 dy n, wobei sich die letzte Gleichheit mit Hilfe der Substitution y = x µ ergibt, für die die Matrix der partiellen Ableitungen die Einheitsmatrix und somit die Jacobi-Determinante gleich 1 ist Auf ähnliche Weise wie im von Theorem 11 ergibt sich nun hieraus mit Hilfe der Substitutionen y = Vx und t = Vs, dass ϕt = = expi t µ 2π n/2 det K 1/2 expi t µ 2π n/2 det K 1/2 exp i s x 1 2 x V K 1 Vx dx 1 dx n n exp l=1 i s l x l x2 l 2λ l dx 1 dx n

1 EINLEITUNG UND GRUNDLAGEN 13 und somit ϕt = expi t µ 2π n/2 det K 1/2 = expi t µ n l=1 n 1 2πλl l=1 exp i s l x l x2 l dx l 2λ l exp i s l x l x2 l dx l, 2λ l wobei die Matrix V aus den orthonormalen Eigenvektoren von K besteht und λ 1,, λ n Eigenwerte von K sind mit det K = λ 1 λ n Nun genügt es zu beachten, dass ϕ l : R C mit > 0 die ϕ l s = 1 2πλl exp i sx x2 dx 2λ l die charakteristische Funktion der eindimensionalen N0, λ l Verteilung ist Für diese Funktion hatten wir in Abschnitt WR-533 gezeigt, dass ϕ l s = exp λ l s 2 /2 Es gilt somit ϕt = expi t µ n l=1 = expi t µ exp exp λ ls 2 l 2 t Kt 2 = expi t µ exp λ l s 2 l l=1 2 Mit Hilfe der in Theorem 12 hergeleiteten Formel 17 für die charakteristische Funktion lassen sich nun der Erwartungswert und die Kovarianzmatrix von normalverteilten Zufallsvektoren bestimmen Korollar 11 Wenn X = X 1,, X n Nµ, K, dann gilt für beliebige i, j = 1,, n E X i = µ i, und Cov X i, X j = k ij 18 Aus 17 folgt, dass und ϕt = i µ i t i 2 ϕt = k ij ϕt + i µ i t i t j Man kann sich leicht überlegen, dass k il t l ϕt 19 l=1 k il t l i µ j l=1 1 ϕt E X i = i t i t=o Wegen ϕo = 1 ergibt sich nun hieraus und aus 19, dass E X i = µ i k jl t l ϕt 20 l=1

1 EINLEITUNG UND GRUNDLAGEN 14 Außerdem gilt E X i X j = 2 ϕt t i t j t=o Hieraus und aus 20 ergibt sich, dass Cov X i, X j = k ij Beachte In Theorem WR-414 hatten wir gezeigt, dass die Kovarianzmatrix K = K X eines beliebigen Zufallsvektors X = X 1,, X n stets symmetrisch und nichtnegativ definit ist In der Definitionsgleichung 13 der Dichte der regulären multivariaten Normalverteilung wird zusätzlich vorausgesetzt, dass die Kovarianzmatrix K positiv definit ist Dabei ist die positive Definitheit von K nicht nur hinreichend, sondern auch notwendig dafür, dass det K 0, dh, dass K invertierbar ist bzw vollen Rang hat 123 Randverteilungen und Unabhängigkeit von Teilvektoren; Faltungsstabilität In diesem Abschnitt zeigen wir, wie weitere interessante Eigenschaften der multivariaten Normalverteilung mit Hilfe von Theorem 12 hergeleitet werden können Hierfür benötigen wir eine vektorielle Version des Eindeutigkeitssatzes für charakteristische Funktionen vgl Korollar WR-55, die wir ohne angeben Lemma 19 Seien X, Y : Ω R n beliebige Zufallsvektoren; X = X 1,, X n, Y = Y 1,, Y n Dann gilt wobei X d = Y genau dann, wenn ϕ X t = ϕ Y t t = t 1,, t n R n, 21 ϕ X t = E exp i j=1 die charakteristischen Funktionen von X bzw Y sind t j X j, ϕ Y t = E exp i t j Y j j=1 Zunächst zeigen wir, dass beliebige Teilvektoren von normalverteilten Zufallsvektoren erneut normalverteilt sind Dabei setzen wir so wie bisher voraus, dass µ = µ 1,, µ n R n ein beliebiger Vektor und K = k ij eine symmetrische und positiv definite n n-matrix ist Es ist klar, dass der Zufallsvektor X π1,, X πn für jede Permutation π = π 1,, π n der natürlichen Zahlen 1,, n normalverteilt ist, wenn X = X 1,, X n normalverteilt ist Bei der Untersuchung der Verteilung von Teilvektoren normalverteilter Zufallsvektoren können wir uns somit obda auf die Betrachtung der ersten Komponenten beschränken Korollar 12 Sei X = X 1,, X n Nµ, K, wobei K positiv definit sei Dann gilt X 1,, X m Nµ m, K m m = 1,, n, wobei µ m = µ 1,, µ m und K m diejenige m m Matrix bezeichnet, die aus den ersten m Zeilen bzw Spalten von K gebildet wird

1 EINLEITUNG UND GRUNDLAGEN 15 Sei ϕ : R n C die charakteristische Funktion von X 1,, X n Für die charakteristische Funktion ϕ m : R m C von X 1,, X m gilt dann ϕ m t m = ϕ t m, 0,, 0 } {{ } n m, t m = t 1,, t m R m Hieraus und aus 17 ergibt sich, dass ϕ m t m = exp i t mµ m 1 2 t mk m t m, t m R m Weil mit K auch die m m Matrix K m symmetrisch und positiv definit ist, bedeutet dies wegen Theorem 12, dass die charakteristische Funktion des Teilvektors X 1,, X m mit der charakteristischen Funktion der Nµ m, K m Verteilung übereinstimmt Wegen des eineindeutigen Zusammenhanges zwischen der charakteristischen Funktion und der Verteilung von Zufallsvektoren vgl Lemma 19 ergibt sich hieraus die Behauptung Bei der Zerlegung des normalverteilten Zufallsvektors X = X 1,, X n in die zwei Teilvektoren X 1,, X m und X m+1,, X n, wobei 1 m < n, lässt sich ein einfaches Kriterium dafür angeben, dass X 1,, X m und X m+1,, X n unabhängig sind Korollar 13 Sei X = X 1,, X n ein normalverteilter Zufallsvektor mit X Nµ, K; K = k ij Die Teilvektoren X 1,, X m und X m+1,, X n sind genau dann unabhängig, wenn k ij = 0 für beliebige i {1,, m} und j {m + 1,, n} Wenn die Teilvektoren X 1,, X m und X m+1,, X n unabhängig sind, dann sind auch die eindimensionalen Zufallsvariablen X i und X j für beliebige i {1,, m} und j {m + 1,, n} unabhängig Damit gilt insbesondere Cov X i, X j = 0, und aus Korollar 11 folgt, dass k ij = 0 Wir nehmen nun umgekehrt an, dass k ij = 0 für beliebige i {1,, m} und j {m + 1,, n} Dann ergibt sich aus Theorem 12, dass sich die charakteristische Funktion ϕt von X = X 1,, X n wie folgt faktorisieren lässt Für jedes t = t 1,, t n R n gilt ϕt = exp i t µ 1 2 t Kt = exp i = exp i m t i µ i 1 2 m j=1 t i µ i 1 2 m t i k ij t j exp i i=m+1 j=1 t i k ij t j t i µ i 1 2 i=m+1 j=m+1 t i k ij t j, wobei die Faktoren des letzten Ausdruckes die charakteristischen Funktionen von X 1,, X m und X m+1,, X n sind Die Behauptung ergibt sich nun aus dem eineindeutigen Zusammenhang zwischen der Verteilung und der charakteristischen Funktion von Zufallsvektoren, vgl Lemma 19

1 EINLEITUNG UND GRUNDLAGEN 16 Beachte Schließlich diskutieren wir noch die Faltungsstabilität der multivariaten Normalverteilung und verallgemeinern dabei Korollar WR-32, wo wir diese Eigenschaft für die eindimensionale Normalverteilung bewiesen hatten In diesem Zusammenhang ist die folgende Formel für die charakteristische Funktion von Summen unabhängiger Zufallsvektoren nützlich, die sich genauso wie die in Theorem WR-518 für den eindimensionalen Fall hergeleitete Formel beweisen lässt Lemma 110 Seien Z 1, Z 2 : Ω R n unabhängige Zufallsvektoren Für die charakteristische Funktion ϕ Z1+Z 2 : R n C der Summe Z 1 + Z 2 gilt dann wobei ϕ Zi die charakteristische Funktion von Z i bezeichnet; i = 1, 2 ϕ Z1 +Z 2 t = ϕ Z1 t ϕ Z2 t, t R n, 22 Die folgende Aussage wird Faltungsstabilität der multivariaten Normalverteilung genannt Korollar 14 Seien Z 1, Z 2 : Ω R n unabhängige Zufallsvektoren mit Z i Nµ i, K i für i = 1, 2 Dann gilt Z 1 + Z 2 Nµ 1 + µ 2, K 1 + K 2 Aus 17 und 22 ergibt sich, dass ϕ Z1 +Z 2 t = ϕ Z1 t ϕ Z2 t = exp i t µ 1 1 2 t K 1 t exp i t µ 2 1 2 t K 2 t = exp i t µ 1 + µ 2 1 2 t K 1 + K 2 t Hieraus und aus dem Eindeutigkeitssatz für charakteristische Funktionen von Zufallsvektoren vgl Lemma 19 ergibt sich die Behauptung 124 Lineare Transformation von normalverteilten Zufallsvektoren Wir zeigen nun, dass die Lineartransformation normalverteilter Zufallsvektoren erneut zu normalverteilten Zufallsvektoren führt Theorem 13 Sei Y Nµ, K ein n dimensionaler normalverteilter Zufallsvektor mit Erwartungswertvektor µ R n und mit positiv definiter Kovarianzmatrix K Außerdem gelte m n, und A sei eine beliebige m n Matrix mit vollem Rang rga = m bzw c R m ein beliebiger m dimensionaler Vektor Dann ist Z = AY + c ein m dimensionaler normalverteilter Zufallsvektor mit Z NAµ + c, AKA 23

1 EINLEITUNG UND GRUNDLAGEN 17 Für jedes a R m gilt ϕ Z t = expi t aϕ Z a t, t R m Aus der in Theorem 12 hergeleiteten Formel 17 und aus dem Eindeutigkeitssatz für die charakteristische Funktion von normalverteilten Zufallsvektoren folgt somit, dass Z NAµ + c, AKA genau dann, wenn Z Aµ + c No, AKA OBdA können und werden wir deshalb annehmen, dass Y No, K und c = o Für die charakteristische Funktion ϕ Z t von Z = AY ergibt sich dann, dass für jedes t R m ϕ Z t = E e i t Z = E e i t AY = E e i A t Y = ϕ Y A t, wobei ϕ Y A t den Wert der charakteristischen Funktion des normalverteilten Zufallsvektors Y an der Stelle A t R n bezeichnet Aus der Darstellungsformel 17 für die charakteristische Funktion normalverteilter Zufallsvektoren ergibt sich nun, dass ϕ Z t = ϕ Y A t = exp 1 2 A t KA t = exp 1 2 t AKA t Mit anderen Worten: Die charakteristische Funktion von Z stimmt mit der charakteristischen Funktion der No, AKA Verteilung überein Aus dem Eindeutigkeitssatz für die charakteristische Funktion von Zufallsvektoren folgt somit, dass Z No, AKA Aus Theorem 13 ergibt sich insbesondere, dass sich normalverteilte Zufallsvektoren durch Lineartransformation von Vektoren konstruieren lassen, deren Komponenten unabhängige und N0, 1-verteilte Zufallsvariablen sind Korollar 15 Seien Y 1,, Y n : Ω R unabhängige Zufallsvariablen mit Y i N0, 1 für jedes i = 1,, n, dh Y = Y 1,, Y n No, I Sei K eine symmetrische und positiv definite n n Matrix, und sei µ R n Für den Zufallsvektor Z = K 1/2 Y + µ gilt dann Z Nµ, K, wobei K 1/2 die Quadratwurzel von K ist Aus Theorem 13 ergibt sich, dass Z Nµ, K 1/2 K 1/2 Hieraus und aus Lemma 16 folgt die Behauptung

1 EINLEITUNG UND GRUNDLAGEN 18 125 Singuläre multivariate Normalverteilung Der in Abschnitt 121 eingeführten Begriff der regulären multivariaten Normalverteilung lässt sich wie folgt verallgemeinern Hierfür ist eine Faktorisierungseigenschaft von Kovarianzmatrizen nützlich, die wir bereits in Lemma 17 erwähnt hatten Zur Erinnerung: Sei K eine symmetrische und nichtnegativ definite n n Matrix mit rgk = r n Dann gibt es eine n r Matrix B mit rgb = r, so dass K = BB 24 Definition Beachte Theorem 14 Sei Y ein n dimensionaler Zufallsvektor mit Erwartungswertvektor µ = E Y und Kovarianzmatrix K = Cov Y, so dass rgk = r mit r n Dann heißt Y normalverteilt, wenn Y d = µ + BZ, wobei B eine n r Matrix mit rgb = r ist, die der Gleichung 24 genügt, und Z ein r dimensionaler Zufallsvektor mit Z No, I r ist Wir sagen, dass Y Nµ, K singulär normalverteilt ist, wenn rgk < n Schreibweise: Y Nµ, K Wenn rgk = r < n, dann ist der Zufallsvektor Y Nµ, K nicht absolutstetig, denn die Werte von Y d = µ+bz liegen mit Wahrscheinlichkeit 1 in der r dimensionalen Teilmenge {µ + Bx : x R r } des R n, dh, die Verteilung von Y besitzt keine Dichte bezüglich des n dimensionalen Lebesgue-Maßes Ein Beispiel hierfür ist der Zufallsvektor Y = Z, Z = BZ mit Z N0, σ 2 und B = 1, 1, der nur Werte auf der Diagonalen {z 1, z 2 R 2 : z 1 = z 2 } annimmt Die Verteilung des Zufallsvektors µ + BZ hängt nicht von der Wahl der Matrix B in der Faktorisierungsgleichung 24 ab Dies ergibt sich unmittelbar aus den folgenden beiden Kriterien für das Vorliegen von singulären bzw regulären multivariaten Normalverteilungen Sei Y ein n dimensionaler Zufallsvektor mit Erwartungswertvektor µ = E Y und Kovarianzmatrix K = Cov Y, so dass rgk = r mit r n Der Zufallsvektor Y ist genau dann normalverteilt, wenn eine der beiden folgenden Bedingungen erfüllt ist: 1 Die charakteristische Funktion ϕt = E exp i n j=1 t jy j von Y ist gegeben durch ϕt = exp i t µ 1 2 t Kt, t = t 1,, t n R n 25 2 Die lineare Funktion c Y von Y ist für jedes c R n mit c o normalverteilt mit c Y Nc µ, c Kc Der von Theorem 14 wird in den Übungen diskutiert Er wird deshalb hier weggelassen

1 EINLEITUNG UND GRUNDLAGEN 19 13 Lineare und quadratische Formen normalverteilter Zufallsvektoren 131 Definition, Erwartungswert und Kovarianz Definition Seien Y = Y 1,, Y n und Z = Z 1,, Z n beliebige n dimensionale Zufallsvektoren, und sei A eine symmetrische n n Matrix mit reellwertigen Eintragungen Dann heißt die reellwertige Zufallsvariable Y AY : Ω R quadratische Form von Y bezüglich A Die Zufallsvariable Y AZ : Ω R heißt bilineare Form von Y und Z bezüglich A Zunächst bestimmen wir den Erwartungswert von quadratischen bzw bilinearen Formen Theorem 15 Seien Y = Y 1,, Y n und Z = Z 1,, Z n beliebige n dimensionale Zufallsvektoren, und sei A eine symmetrische n n Matrix mit reellwertigen Eintragungen Die Erwartungswertvektoren µ Y = E Y und µ Z = E Z sowie die Kovarianzmatrizen K YY = Cov Y i, Y j und K ZY = Cov Z i, Y j seien wohldefiniert Dann gilt E Y AY = spak YY + µ YAµ Y und E Y AZ = spak ZY + µ YAµ Z 26 Wir beweisen nur die zweite Formel in 26, denn die erste Formel ergibt sich hieraus als Spezialfall für Z = Y Offenbar gilt Y AZ = sp Y AZ Außerdem folgt aus Lemma 11, dass sp Y AZ = sp AZY Insgesamt ergibt sich also, dass E Y AZ = E sp Y AZ = E sp AZY = sp AE ZY = sp AK ZY + µ Z µ Y = spak ZY + µ YAµ Z Auf ähnliche Weise lässt sich eine Formel für die Kovarianz von quadratischen Formen normalverteilter Zufallsvektoren herleiten Dabei sind die folgenden Formeln für die dritten bzw vierten gemischten Momente der Komponenten von zentrierten normalverteilten Zufallsvektoren nützlich Lemma 111 Sei Z = Z 1,, Z n No, K ein normalverteilter Zufallsvektor mit Erwartungswertvektor µ = o und mit beliebiger Kovarianzmatrix K = k ij Dann gilt E Z i Z j Z l = 0 und E Z i Z j Z l Z m = k ij k lm + k il k jm + k jl k im i, j, l, m {1,, n} 27 Der von Lemma 111 wird hier weggelassen Er ergibt sich unmittelbar aus den Theoremen 12 und 14, vgl auch den von Korollar 11 Theorem 16 Sei Y = Y 1,, Y n ein n dimensionaler Zufallsvektor mit Y Nµ, K, und seien A = a ij, B = b ij beliebige symmetrische n n Matrizen Dann gilt Cov Y AY, Y BY = 2 spakbk + 4µ AKBµ 28

1 EINLEITUNG UND GRUNDLAGEN 20 Insbesondere gilt Var Y AY = 2 sp AK 2 + 4µ AKAµ Aus der Definition der Kovarianz und aus Theorem 15 ergibt sich, dass Cov Y AY, Y BY = E Y AY E Y AYY BY E Y BY = E Y AY spak µ AµY BY spbk µ Bµ Mit der Substitution Z = Y µ bzw Y = Z + µ ergibt sich hieraus, dass Cov Y AY, Y BY = E Z AZ + 2µ AZ spakz BZ + 2µ BZ spbk = E Z AZZ BZ + 2µ AE ZZ BZ + 2µ BE ZZ AZ E Z AZ spbk E Z BZ spak +4µ AKBµ + spak spbk = E Z AZZ BZ + 2µ AE ZZ BZ + 2µ BE ZZ AZ +4µ AKBµ spak spbk, wobei sich die letzte Gleichheit aus Theorem 15 ergibt, weil Z No, K und somit E Z AZ = spak gilt Weil die Matrizen A, B und K symmetrisch sind, ergibt sich aus Lemma 111, dass E Z AZZ BZ = E Z AZ Z BZ = = j=1 l=1 m=1 j=1 l=1 m=1 a ij b lm E Z i Z j Z l Z m aij k ji b lm k ml + a ji k il b lm k mj + a ij k jl b lm k mi = spak spbk + 2 spakbk Außerdem ergibt sich aus Lemma 111, dass E ZZ AZ n = a ij E Z i Z j Z l und entsprechend E ZZ BZ = o j=1 l = o 29 Zusammen mit dem oben hergeleiteten Ausdruck für Cov Y AY, Y BY ergibt sich nun hieraus die Behauptung Wir leiten nun noch die folgende Formel für den Kovarianzvektor von linearen bzw quadratischen Formen normalverteilter Zufallsvektoren her Theorem 17 Sei Y = Y 1,, Y n ein n dimensionaler Zufallsvektor mit Y Nµ, K, und seien A = a ij, B = b ij beliebige symmetrische n n Matrizen Dann gilt Cov AY, Y BY = 2AKBµ 30

1 EINLEITUNG UND GRUNDLAGEN 21 Weil E AY = Aµ und weil in Theorem 15 gezeigt wurde, dass E Y BY = spbk + µ Bµ, ergibt sich, dass Cov AY, Y BY = E AY AµY BY µ Bµ spbk = E AY AµY µ BY µ + 2Y µ Bµ spbk Außerdem gilt E AY Aµ = o, und aus 29 folgt mit Z = Y µ, dass E AY AµY µ BY µ = AE Y µy µ BY µ = o Somit ergibt sich, dass Cov AY, Y BY = 2E AY AµY µ Bµ = 2AE Y µy µ Bµ = 2AKBµ 132 Nichtzentrale χ 2 Verteilung Um die Verteilung von quadratischen Formen normalverteilter Zufallsvektoren zu bestimmen, führen wir die parametrische Familie der nichtzentralen χ 2 Verteilungen ein Definition Sei µ R n und X 1,, X n Nµ, I Dann sagt man, dass die Zufallsvariable Beachte Z = X 1,, X n X 1,, X n = eine nichtzentrale χ 2 Verteilung mit n Freiheitsgraden und dem Nichtzentralitätsparameter λ = µ µ hat Schreibweise: Z χ 2 n,λ Definition Für µ = o ergibt sich als Spezialfall die bereits in Abschnitt I 131 eingeführte zentrale χ 2 Verteilung χ 2 n mit n Freiheitsgraden Um eine Formel für die Dichte der nichtzentralen χ 2 Verteilung herzuleiten, betrachten wir neben der charakteristischen Funktion noch eine weitere Integraltransformation von Wahrscheinlichkeitsdichten Sei f : R [0, die Dichte einer reellwertigen Zufallsvariable, so dass das Integral etx fx dx wohldefiniert ist für jedes t a, b aus einem gewissen Intervall a, b mit a < b Dann heißt die Abbildung ψ : a, b R mit ψt = die momenterzeugende Funktion der Dichte f X 2 i e tx fx dx, t a, b 31

1 EINLEITUNG UND GRUNDLAGEN 22 Es gilt der folgende Eindeutigkeitssatz für momenterzeugende Funktionen, den wir hier ohne angeben Lemma 112 Seien f, f : R [0, die Dichten von reellwertigen Zufallsvariablen, und seien die zugehörigen momenterzeugenden Funktionen ψ : a, b R bzw ψ : a, b R auf einem gemeinsamen Intervall a, b mit a < b wohldefiniert Es gilt ψt = ψ t für jedes t a, b genau dann, wenn fx = f x für fast jedes x R Mit Hilfe von Lemma 112 können wir nun die Dichte der nichtzentralen χ 2 Verteilung bestimmen Theorem 18 Sei Z n,λ : Ω R eine χ 2 n,λ verteilte Zufallsvariable mit n Freiheitsgraden und Nichtzentralitätsparameter λ Dann ist die Dichte von Z n,λ gegeben durch λ jz n exp λ + z 2 +j 1 2 f Zn,λ z = 2 j=0 j! 2 n n, wenn z > 0, 2 +j Γ 2 + j 0 sonst 32 Sei µ R n und X 1,, X n Nµ, I ist im Inter- Die momenterzeugende Funktion ψ Z t von Z = X 1,, X n X 1,, X n = n vall, 1/2 wohldefiniert, und es gilt für jedes t < 1/2, dass j=1 X2 j ψ Z t = E exp t = = j=1 X 2 j n/2 1 2π n j=1 = 2π 1/2 exp exp t exp t x 2 j 1 2 j=1 j=1 x 2 j n j=1 1 2π exp 1 2 x j µ j 2 dx 1 dx n x j µ j 2 dx 1 dx n j=1 tx 2j 12 x j µ j 2 dx j Dabei lässt sich der Exponent des letzten Ausdruckes wie folgt umformen: tx 2 j 1 2 x j µ j 2 = 1 2 2tx2 j + x 2 j 2x j µ j + µ 2 j = 1 x 2 2 j1 2t 2x j µ j + µ 2 j1 2t 1 + µ 2 j µ 2 j1 2t 1 = 1 x j µ j 1 2t 1 2 1 2t + µ 2 2 j1 1 2t 1

1 EINLEITUNG UND GRUNDLAGEN 23 Somit gilt ψ Z t = exp 1 2 1 1 2t 1 j=1 µ 2 j n j=1 = 1 2t n/2 exp λ 2 1 1 2t 1, 2π 1/2 exp x j µ j 1 2t 1 2 21 2t 1 dx j weil unter dem Integral die Dichte der eindimensionalen Normalverteilung bis auf den konstanten Faktor 1 2t 1/2 steht; λ = µ µ Andererseits ergibt sich für die momenterzeugende Funktion ψt der in 32 gegebenen Dichte f Zn,λ z, dass ψt = j=0 e λ/2 λ/2 j j! 0 e tz zn/2+j 1 e z/2 dz, 2 n 2 +j n Γ 2 + j wobei das Integral die momenterzeugende Funktion der zentralen χ 2 Verteilung χ 2 n+2j mit n + 2j Freiheitsgraden ist Ähnlich wie die charakteristische Funktion vgl Theorem I 15 ist die momenterzeugende Funktion dieser Verteilung gegeben durch 1 ψ χ 2 n+2j t = 1 2t n/2+j Somit gilt bzw 0 e tz 1 dz = 2 n 2 +j n Γ 2 + j 1 2t, n/2+j zn/2+j 1 e z/2 ψt = e λ/2 1 2t n/2 1 λ j! 2 1 2t 1 j j=0 = 1 2t n/2 exp λ 2 1 1 2t 1 Somit gilt ψt = ψ Z t für jedes t < 1/2, und die Behauptung folgt aus Lemma 112 133 Verteilungs und Unabhängigkeitseigenschaften linearer und quadratischer Formen Zur Erinnerung: Bei der Definition der nichtzentralen χ 2 Verteilung in Abschnitt 132 wurde die Quadratsumme der Komponenten von Nµ, I-verteilten Zufallsvektoren betrachtet Man kann nun zeigen, dass die entsprechend modifizierte Quadratsumme auch dann eine nichtzentrale χ 2 Verteilung besitzt, wenn der betrachtete normalverteilte Zufallsvektor eine beliebige positiv definite Kovarianzmatrix hat Und zwar sei µ R n, und sei K eine symmetrische und positiv definite n n Matrix Wenn Z = Z 1,, Z n Nµ, K, dann ergibt sich aus Theorem 13, dass K 1/2 Z NK 1/2 µ, I

1 EINLEITUNG UND GRUNDLAGEN 24 Aus der Definition der nichtzentralen χ 2 Verteilung folgt somit, dass wobei λ = K 1/2 µ K 1/2 µ = µ K 1 µ Z K 1 Z = K 1/2 Z K 1/2 Z χ 2 n,λ, 33 Die Verteilungseigenschaft 33 für quadratische Formen von normalverteilten Zufallsvektoren lässt sich wie folgt verallgemeinern Dabei ist Lemma 17 über die Faktorisierung symmetrischer und nichtnegativ definiter Matrizen nützlich Theorem 19 Sei Z = Z 1,, Z n Nµ, K, wobei die Kovarianzmatrix K positiv definit sei Außerdem sei A eine symmetrische n n Matrix mit rga = r n Wenn die Matrix AK idempotent ist, dh, wenn AK = AK 2, dann gilt Z AZ χ 2 r,λ, wobei λ = µ Aµ Die Matrix AK sei idempotent Dann gilt AK = AKAK Weil K regulär ist, kann man beide Seiten dieser Gleichung von rechts mit K 1 multiplizieren Dabei ergibt sich, dass A = AKA 34 bzw für jedes x R n x Ax = x AKAx = Ax KAx 0, dh, A ist nichtnegativ definit Gemäß Lemma 17 gibt es somit eine Zerlegung so dass die n r Matrix H den vollen Spaltenrang r hat A = HH, 35 Wegen Lemma 12 bedeutet dies, dass die inverse Matrix H H 1 existiert Aus Theorem 13 über die lineare Transformation von normalverteilten Zufallvektoren ergibt sich nun für den r dimensionalen Vektor Z = H Z, dass weil Z NH µ, I r, 36 H KH = H H 1 H HH KHH HH H 1 = H H 1 H AKAHH H 1 = H H 1 H AHH H 1 = I r, wobei sich die letzten drei Gleichheiten aus 34 bzw 35 ergeben

1 EINLEITUNG UND GRUNDLAGEN 25 Weil andererseits Z AZ = Z HH Z = H Z H Z = Z Z und weil H µ H µ = µ HH µ = µ Aµ, ergibt sich die Behauptung nun aus 36 und aus der Definition der nichtzentralen χ 2 Verteilung Außerdem ist das folgende Kriterium für die Unabhängigkeit von linearen bzw quadratischen Formen normalverteilter Zufallsvektoren nützlich Es kann als vektorielle Verallgemeinerung von Lemma 53 im Skript zur Vorlesung Statistik I aufgefasst werden Theorem 110 Sei Z = Z 1,, Z n Nµ, K, wobei K eine beliebige symmetrische, nichtnegativ definite Kovarianzmatrix sei Außerdem seien A, B beliebige r 1 n bzw r 2 n Matrizen mit r 1, r 2 n, und sei C eine symmetrische und nichtnegativ definite n n Matrix Wenn zusätzlich die Bedingung AKB = 0 bzw AKC = 0 37 erfüllt ist, dann sind die Zufallsvariablen AZ und BZ bzw AZ und Z CZ unabhängig Wir zeigen zunächst, dass aus 37 die Unabhängigkeit der linearen Formen AZ und BZ folgt Wegen des Eindeutigkeitssatzes für charakteristische Funktionen von Zufallsvektoren vgl Lemma 19 genügt es zu zeigen, dass für beliebige t 1 R r1, t 2 R r2 E exp i t 1 AZ + t 2 BZ = E exp i t 1 AZ E exp i t 2 BZ Aus 37 folgt, dass BKA = BKA = AKB = 0 und somit auch, dass für beliebige t 1 R r1, t 2 R r2 t 1 AKt 2 B = t 1 AKB t 2 = 0, t 2 BKt 1 A = t 2 BKA t 1 = 0 38 Aus der in Theorem 14 hergeleiteten Darstellungsformel 25 für die charakteristische Funktion von normalverteilten Zufallsvektoren und aus 38 ergibt sich dann, dass E exp i t 1 AZ + t 2 BZ = E exp i t 1 A + t 2 BZ = exp i t 1 A + t 2 Bµ 1 2 t 1 A + t 2 BKt 1 A + t 2 B = exp i t 1 A + t 2 Bµ 1 2 t 1 AKt 1 A 1 2 t 2 BKt 2 B = exp i t 1 Aµ 1 2 t 1 AKt 1 A exp i t 2 Bµ 1 2 t 2 BKt 2 B = E exp i t 1 AZ E exp i t 2 BZ

1 EINLEITUNG UND GRUNDLAGEN 26 Wir zeigen nun noch, dass die Unabhängigkeit von AZ und Z CZ aus der zweiten Bedingung in 37 folgt Sei rgc = r n Gemäß Lemma 17 gibt es dann eine n r Matrix H mit rgh = r, so dass C = HH Aus 37 ergibt sich dann, dass AKHH = 0 bzw AKHH H = 0 Hieraus folgt schließlich, dass AKH = 0, weil die r r Matrix H H wegen Lemma 12 den vollen Rang rgh = r hat und deshalb invertierbar ist Aus dem ersten Teil des es ergibt sich somit, dass die linearen Formen AZ und H Z unabhängig sind Wegen Z CZ = Z HH Z = H Z H Z ergibt sich nun aus dem Transformationssatz für unabhängige Zufallsvektoren vgl Theorem I 18, dass auch AZ und Z CZ unabhängig sind

2 LINEARE MODELLE; DESIGNMATRIX MIT VOLLEM RANG 27 2 Lineare Modelle; Designmatrix mit vollem Rang Zur Erinnerung vgl Kapitel 5 der Vorlesung Statistik I : Bei der einfachen linearen Regression wird von zwei Datensätzen x 1,, x n R n und y 1,, y n R n ausgegangen, die stochastisch modelliert werden sollen Dabei fassen wir die Vektoren x 1, y 1,, x n, y n als Realisierungen von n Zufallsvektoren X 1, Y 1,, X n, Y n auf, die typischerweise nicht identisch verteilt sind Wir deuten die Zufallsvariablen Y 1,, Y n als Zielvariablen und nehmen an, dass sie auf die folgende Weise von den Ausgangsvariablen X 1,, X n abhängen: wobei Y i = ϕx i + ε i, i = 1,, n, 1 ϕ : R R eine beliebige Borel messbare Funktion, die so genannte Regressionsfunktion ist und ε 1,, ε n : Ω R Zufallsvariablen, so genannte Störgrößen sind, durch die beispielsweise zufällige Messfehler modelliert werden können Ein wichtiger Spezialfall liegt vor, wenn die Regressionsfunktion ϕ : R R eine lineare Funktion ist, die so genannte Regressionsgerade, dh, wenn es reelle Zahlen β 1, β 2 R gibt mit ϕx = β 1 + β 2 x, x R, 2 wobei β 1 die Regressionskonstante und β 2 der Regressionskoeffizient genannt wird Die Größen β 1, β 2 R sind unbekannte Modellparameter, die aus den beobachteten Daten x 1,, x n R n und y 1,, y n R n geschätzt werden sollen Wir betrachten nun die folgende multivariate Verallgemeinerung des einfachen linearen Regressionsmodells, wobei m, n 2 beliebige natürliche Zahlen seien, so dass m n Wir nehmen an, dass die Zielvariablen Y 1,, Y n von vektoriellen m dimensionalen Ausgangsvariablen X 11,, X 1m,, X n1,, X nm abhängen, dh, es gelte wobei Y i = ϕx i1,, X im + ε i, i = 1,, n, 3 die Regressionsfunktion ϕ : R m R gegeben ist durch ϕx 1,, x m = β 1 x 1 + + β m x m, x 1,, x m R m 4 mit unbekannten Regressionskoeffizienten β 1,, β m R und die zufälligen Störgrößen ε 1,, ε n : Ω R den folgenden Bedingungen genügen: E ε i = 0, Var ε i = σ 2, Cov ε i, ε j = 0, i, j = 1,, n mit i j 5 für eine gewisse unbekannte Zahl σ 2 > 0 Dabei betrachten wir hier nur den Fall, dass die Ausgangsvariablen X 11,, X 1m,, X n1,, X nm deterministisch sind, dh, es gelte X 11,, X 1m = x 11,, x 1m,, X n1,, X nm = x n1,, x nm für gewisse Vektoren x 11,, x 1m,, x n1,, x nm R m

2 LINEARE MODELLE; DESIGNMATRIX MIT VOLLEM RANG 28 Beachte In Matrixschreibweise lässt sich dann das in 3 und 4 gegebene Modell wie folgt formulieren: Y = Xβ + ε, 6 wobei Y = Y 1, X = x 11 x 1m, β = β 1, ε = ε 1 7 Y n x n1 x nm β m ε n Dabei wird X die Designmatrix des Regressionsmodells genannt 21 Methode der kleinsten Quadrate Das Ziel dieses Abschnittes besteht darin, die unbekannten Modellparameter β 1,, β m und σ 2 aus den beobachteten Daten x 11,, x 1m,, x n1,, x nm R m und y 1, y n R n zu schätzen Ähnlich wie in Abschnitt I 51 betrachten wir hierfür die Methode der kleinsten Quadrate zur Bestimmung von Schätzern β 1,, β m für die unbekannten Regressionskoeffizienten β 1,, β m Und zwar soll ein Zufallsvektor β = β 1,, β m bestimmt werden, so dass der mittlere quadratische Fehler eβ = 1 Yi β 1 x i1 + + β m x im 2 n 8 für β = β minimal wird Beachte Außer den in 5 gemachten Modellannahmen werden zunächst keine zusätzlichen Voraussetzungen über die Verteilung der zufälligen Störgrößen ε 1,, ε n : Ω R benötigt 211 Normalengleichung Man kann leicht zeigen, dass die in 8 betrachtete Funktion eβ ein eindeutig bestimmtes Minimum hat, wenn die Designmatrix X vollen Spalten Rang hat, dh, wenn rgx = m gilt Theorem 21 Sei rgx = m Der mittlere quadratische Fehler eβ in 8 ist genau dann minimal, wenn β Lösung der folgenden Normalengleichung ist: X Xβ = X Y 9 Dabei hat 9 die eindeutig bestimmte Lösung β = X X 1 X Y 10

2 LINEARE MODELLE; DESIGNMATRIX MIT VOLLEM RANG 29 Die in 8 gegebene Funktion eβ ist differenzierbar, wobei eβ e eβ 2 β =,, = X Xβ X Y β 1 β m n und e β = Aus e β = o ergibt sich die Normalengleichung 9 Außerdem folgt aus Lemma 12, dass rgx X = m 2 eβ = 2 β i β j n X X Die m m Matrix X X und somit auch e β ist deshalb invertierbar und positiv definit Folglich ist eβ ist genau dann minimal, wenn β Lösung von 9 ist Weil die m m Matrix X X invertierbar ist, besitzt 9 eine eindeutig bestimmte Lösung β, die durch 10 gegeben ist Beachte Der Schätzer β = X X 1 X Y für β ist eine Lineartransformation der Zufallsstichprobe Y, dh, β ist ein linearer Schätzer Beispiele einfaches und multiples lineares Regressionsmodell Für m = 2 und 1 x 1 X = 1 x n ergibt sich das bereits in Abschnitt I 51 betrachtete einfache lineare Regressionsmodell als Spezialfall Die Designmatrix X in 11 hat genau dann vollen Rang rgx = 2, wenn nicht alle x 1,, x n gleich sind Der in 10 betrachtete Schätzer β = β 1, β 2 für die Regressionskonstante β 1 bzw den Regressionskoeffizient β 2 hat dann die Form vgl auch Theorem I 51 wobei x n, y n die Stichprobenmittel bezeichnen, dh 11 β 2 = s2 xy s 2, β1 = y n β 2 x n, 12 xx x n = 1 n x i, y n = 1 n y i, und die Stichprobenvarianzen s 2 xx, s 2 yy bzw die Stichprobenkovarianz s 2 xy gegeben sind durch s 2 xx = 1 n 1 Für m > 2 und xi x n 2, s 2 xy = 1 n 1 x i x n y i y n, s 2 yy = 1 2 yi y n 1 n 1 x 12 x 1m X = 1 x n2 x nm ergibt sich das so genannte multiple lineare Regressionsmodell 13

2 LINEARE MODELLE; DESIGNMATRIX MIT VOLLEM RANG 30 212 Güteeigenschaften des KQ Schätzers β Wir setzen von jetzt an in Abschnitt 21 stets voraus, dass die Designmatrix X vollen Spalten Rang hat und leiten drei verschiedene Güteeigenschaften des in 10 gegebenen KQ Schätzers β = β 1,, β m her Theorem 22 Der Schätzer β ist erwartungstreu für β, dh, es gilt E β = β für jedes β R m Wegen E ε = o ergibt sich aus 6 und 10, dass 10 E β = E X X 1 X Y 6 = E X X 1 X Xβ + ε = β + E X X 1 X ε = β + X X 1 X E ε = β Der KQ Schätzer β besitzt außerdem die folgende Eigenschaft der Varianzminimalität Dabei bezeichne L die Familie aller erwartungstreuen linearen Schätzer β = AY + a für β, wobei A eine m n dimensionale Matrix ist und a = a 1,, a m R m Theorem 23 Für jedes β = β 1,, β m L gilt Var β i Var β i, i = 1,, m, 14 wobei die Gleichheit in 14 genau dann für jedes i = 1,, m gilt, wenn β = β Weil vorausgesetzt wird, dass der lineare Schätzer β = AY + a erwartungstreu für β ist, gilt β = E β = E AY + a 6 = E AXβ + ε + a = AXβ + AE ε + a = AXβ + a für jedes β R m, wobei sich die letzte Gleichheit aus E ε = o ergibt Hieraus folgt, dass Somit gilt AX = I und a = o 15 β = AY = AXβ + ε = AXβ + Aε = β + Aε, dh, jeder lineare erwartungstreue Schätzer β für β hat die Form Für die Kovarianzmatrix Cov β des Zufallsvektors β gilt also β = β + Aε 16 Cov β = E β β β β = E AεAε = AE εε A = σ 2 AA, dh Cov β = σ 2 AA 17 Außerdem ergibt sich aus 17 mit A = X X 1 X, dass die Kovarianzmatrix Cov β des KQ Schätzers β gegeben ist durch Cov β = σ 2 X X 1, 18 denn es gilt Cov β = σ 2 X X 1 X X X 1 X = σ 2 X X 1 X XX X 1 = σ 2 X X 1

2 LINEARE MODELLE; DESIGNMATRIX MIT VOLLEM RANG 31 Um die Gültigkeit von 14 zu beweisen, ist somit zu zeigen, dass X X 1 ii AA, i = 1,, m 19 ii Mit D = A X X 1 X gilt denn wegen 15 gilt AA = D + X X 1 X D + X X 1 X = DD + X X 1 X D + DXX X 1 + X X 1 = DD + X X 1, DX = A X X 1 X X = AX I = I I = 0, wobei 0 die Nullmatrix bezeichnet Weil mit D = d ij die Ungleichung DD ii = m von 19 j=1 d2 ij 0 gilt, ergibt sich hieraus die Gültigkeit Außerdem wird klar, dass die Gleichheit in 19 für jedes i = 1,, m genau dann gilt, wenn D = 0, dh A = X X 1 X Beachte Aus den Theoremen 21 und 22 folgt, dass β L Aus Theorem 23 ergibt sich außerdem, dass β im Sinne von 14 bester erwartungstreuer linearer Schätzer für β ist Wir leiten nun noch eine hinreichende Bedingung dafür her, dass β ein schwach konsistenter Schätzer für β ist, wobei der Stichprobenumfang n, dh die Anzahl der Zeilen der Designmatrix X = X n gegen strebt Zur Erinnerung: Ein Schätzer β n = βy 1,, Y n für β heißt schwach konsistent, wenn lim P β β n β > ε = 0, ε > 0, β R m n Unter ähnlichen Bedingungen kann man auch zeigen, dass β n asymptotisch normalverteilt ist, wenn n vgl Abschnitt III32 in Pruscha 2000 Theorem 24 Sei f : N R \ {0} eine Funktion mit lim n fn = 0, so dass der Grenzwert Q = lim fnx n X n n existiert und die m m Matrix Q invertierbar ist Dann ist β n ein schwach konsistenter Schätzer für β 20 Weil β n erwartungstreu ist vgl Theorem 22, gilt für jedes n m m P β β n β > ε = P β β n β 2 > ε 2 = P β βin 2 β i > ε 2 m { P β βin β i 2 > ε2 } m m m ε 2 Var β in, m 2 ε P β βin 2 β i > wobei sich die letzte Abschätzung aus der Tschebyschev Ungleichung ergibt vgl Theorem WR-418 m