Lineare Modelle und Regression. Lutz Dümbgen

Größe: px
Ab Seite anzeigen:

Download "Lineare Modelle und Regression. Lutz Dümbgen"

Transkript

1 Lineare Modelle und Regression Lutz Dümbgen 15. Mai 2017

2

3 Literaturverzeichnis [1] ANDREW D. BARBOUR and LOUIS H.Y. CHEN (2005). An Introduction to Stein s Method. Institute for Mathematical Sciences, University of Singapore, Lecture Notes Series, Volume 4. [2] G. BASSET, JR. and ROGER KOENKER (1982). An empirical quantile function for linear models with iid errors. J. Amer. Statist. Assoc. 77, [3] RUDOLF BERAN and G.R. DUCHARME (1991). Asymptotic Theory for Bootstrap Methods in Statistics. Les Publications CRM, Montreal. [4] PETER J. BICKEL and DAVID A. FREEDMAN (1981). Some Asymptotic Theory for the Bootstrap. Ann. Statist. 9, [5] PETER J. BICKEL and DAVID A. FREEDMAN (1983). Bootstrapping Regression Models with Many Parameters. In: A Festschrift for Erich Lehmann (P. Bickel, K. Doksum and J.L. Hodges, eds.), Wadsworth, Belmont, CA, pp [6] CARL DE BOOR (2002). A Practical Guide to Splines (revised edition). Springer-Verlag. [7] LUTZ DÜMBGEN (2003). Stochastik für Informatiker. Springer-Verlag. [8] LUTZ DÜMBGEN (2015). Einführung in die Statistik. Vorlesungsskriptum, Univ. Bern. [9] LUTZ DÜMBGEN (2006/2007). Wahrscheinlichkeitstheorie. Vorlesungsskriptum, Univ. Bern. [10] BRADLEY EFRON (1979). Bootstrap Methods: Another Look at the Jackknife. Ann. Statist. 7, [11] JIANQING FAN and IRENE GIJBELS (1996). Local Polynomial Modelling and its Applications. Chapman and Hall. [12] DAVID W. HOSMER and STANLEY LEMESHOW (1989). Applied Logistic Regression. John Wiley & Sons. [13] JAMES K. LINDSEY (1997). Applying Generalized Linear Models. Springer-Verlag. [14] REGINA Y. LIU (1988). Bootstrap Procedures under some Non-I.I.D. Models. Ann. Statist. 16,

4 4 LITERATURVERZEICHNIS [15] ENNO MAMMEN (1993). Bootstrap and Wild Bootstrap for High Dimensional Linear Models. Ann. Statist. 21, [16] RUPERT G. MILLER (1981). Simultaneous Statistical Inference (2nd edition). Springer- Verlag. [17] GERHARD OPFER (1994). Numerische Mathematik für Anfänger. Fr. Vieweg & Sohn. [18] ART B. OWEN (1990). Empirical Likelihood Confidence Regions. Ann. Statist. 18, [19] ART B. OWEN (1991). Empirical Likelihood for Linear Models. Ann. Statist. 19, [20] ART B. OWEN (2001). Empirical Likelihood. CRC Press. [21] ROSS L. PRENTICE and RONALD PYKE (1979). Logistic Disease Incidence Models and Case-Control Studies. Biometrika 66, [22] JOHN RICE (1984). Bandwidth choice for nonparametric regression. Annals of Statistics 12, [23] THOMAS P. RYAN (1997). Modern Regression Methods. John Wiley & Sons. [24] SIEGFRIED SCHACH UND THOMAS SCHÄFER (1978). Regressions- und Varianzanalyse - Eine Einführung. Springer-Verlag [25] HENRY SCHEFFÉ (1959). Analysis of Variance. John Wiley & Sons. [26] LARRY SCHUMAKER (1981). Spline Functions: Basic Theory. John Wiley & Sons. [27] DIETER URBAN (1993). Logit-Analyse - Statistische Verfahren zur Analyse von Modellen mit qualitativen Response-Variablen. G. Fischer Verlag. [28] C.F.J. WU (1986). Jackknife, bootstrap, and other resampling methods in regression analysis (with discussion). Ann. Statist. 14, ( ). Danksagungen. Yves Bartels, Gabriel Fischer, Livio Käslin, Dirk Klingbiel, Werner Luginbühl, Paul Ruppen, Günter Sawitzki, Dominic Schuhmacher, Ben Spycher, Christof Strähl, Michael Vock und Niki Zumbrunnen gaben mir zahlreiche Hinweise und Fehlermeldungen zu diesem Skriptum. Dominic Schuhmacher und Christof Strähl unterstützten mich auch tatkräftig bei den Übungen, und Andrea Fraefel spürte einige Tipp- und Ausdrucksfehler auf. Vielen Dank an Alle! Meine erste Einführung in lineare Modelle und viele andere Teilgebiete der Statistik erhielt ich von Prof. Dietrich W. Müller (Heidelberg), ergänzt durch Praktika bei Günter Sawitzki, wofür ich beiden herzlich danke.

5 Inhaltsverzeichnis 1 Einleitung Definition des linearen Modells Beispiele für lineare Modelle Schätzung von Parametern Vektor- und Matrixdarstellung Schätzung von θ Kleinste-Quadrate-Schätzung Beispiele für θ Das Bestimmtheitsmaß Die Präzision von θ Schätzung von σ Das Gauss-Markov-Theorem und Standardfehler Verhalten der Schätzer bei fehlspezifiziertem Modell Parametrisierungen bei kategoriellen Kovariablen Einweg-Varianzanalyse Zweiweg-Varianzanalyse Papier- und Tafelnotation Tests und Konfidenzbereiche Multivariate Normalverteilungen Die gemeinsame Verteilung von θ und σ Student-Konfidenzintervalle und -Tests Student-Konfidenzbereiche Student-Tests F-Konfidenzbereiche und -Tests

6 6 INHALTSVERZEICHNIS F-Konfidenzellipsoide Simultane Konfidenzintervalle Eine Verallgemeinerung F-Tests Geometrischer Zugang zu F-Tests Andere simultane Konfidenzbereiche Die Bonferroni-Methode Tukeys Methode Beispiele für simultane Konfidenzbereiche Vergleich der Methoden Nichtzentrale F-Verteilungen und Approximationsfehler Kalibrierung Zufällige Effekte Regressionsdiagnostik Hebelwirkung (Leverage) Eine Anwendung des Zentralen Grenzwertsatzes Residuenanalyse Normalverteilungs-Q-Q-Plots Plots von Residuen gegen Funktionen der Kovariablen oder des Fits Transformationen Nichtparametrische Regression Spline-Regression Definition von Splines Polynom-Darstellung und eine erste Basis B-Splines Präzision bei linearen Splines Lokale Polynome Beispiele für die Gewichte w i (x) Konkrete Berechnung Präzision der lokal-linearen Schätzer Regularisierung

7 INHALTSVERZEICHNIS Glättungssplines Ein verwandter Ansatz Zur Wahl des Glättungsparameters Allgemeine Überlegungen zur Schätzung Mittelwerte und Quantile als optimale Prädiktoren Verlustfunktionen und Risiken Maximum-Likelihood-Schätzung Anwendung auf Regressionsprobleme Logistische Regression und damit verwandte Modelle Logistische Regression Maximum-Likelihood-Schätzung Das asymptotische Verhalten der Log-Likelihood-Funktion Likelihood-basierte statistische Verfahren Von Asymptopia zurück zu einzelnen Stichproben Ein Datenbeispiel Fall-Kontroll-Studien Allgemeine asymptotische Betrachtungen Methoden für multikategorielle Response Multinomiale Logit-Modelle Das ordinale Logit-Modell Poisson-Regression Ergänzungen Verallgemeinerte lineare Modelle Exakte Konfidenzbereiche für f Permutationstests auf Assoziation Bootstrap-Verfahren Bootstrap-Verfahren für einfache Stichproben Bootstrap-Verfahren für Regressionsmodelle Logistische und Poisson-Regression Bootstrap-Methoden für lineare Modelle Das residuale Bootstrap

8 8 INHALTSVERZEICHNIS Wild Bootstrap Exakte Konfidenzbereiche im linearen Modell Empirische Likelihood-Verfahren Empirische Likelihood für einfache Stichproben Analytische Eigenschaften einer ELLF Inferenz über den Mittelwert Empirische Likelihood für Regressionsmodelle A Diverse Hilfsmittel 193 A.1 Die QR-Zerlegung A.2 Iterativ Gewichtete Kleinste Quadrate A.3 Erwartungswerte und Kovarianzen A.4 B-Splines A.5 Schwache Konvergenz von Verteilungen A.6 Der Zentrale Grenzwertsatz A.6.1 Der univariate Fall A.6.2 Der multivariate Fall A.7 Kopplungen und Mallows-Abstände A.7.1 Optimaler Transport A.7.2 Ein wichtiger Spezialfall A.7.3 Mallows-Abstände A.8 Eine Ungleichung für Summen unabhängiger Zufallsvektoren

9 Kapitel 1 Einleitung Lineare Modelle spielen in der angewandten Statistik eine herausragende Rolle. Mit ihrer Hilfe können Daten aus sehr unterschiedlichen Disziplinen modelliert und analysiert werden. In der Regel geht es dabei um folgende Frage: Es sei (X, Y ) ein Variablenpaar bestehend aus einer Kovariable oder einem Kovariablenvektor X mit Werten in einer Menge X sowie einer Response- Variable Y mit Werten in einer Menge Y. Die Frage ist nun, inwiefern es einen Zusammenhang zwischen X und Y gibt. Genauer gesagt, möchte man die bedingte Verteilung von Y, gegeben dass X = x, modellieren und schätzen. Diese allgemeine Fragestellung bezeichnet man mit Regression(sanalyse). Der erste Teil dieses Kurses behandelt den wichtigen Spezialfall, dass Y eine numerische Variable ist, also Y = R. Im zweiten Teil werden wir unter anderem auch den Fall einer kategoriellen Variable Y behandeln, und im Kurs Multivariate Statistik geht es um den Fall einer vektorwertigen Response Y. Im Falle eines Variablenvektors X = (X(j)) d j=1 nennt man die einzelnen Komponenten auch unabhängige Variablen, und Y wird mitunter als abhängige Variable bezeichnet. Dabei ist unabhängig nicht im Sinne der stochastischen Unabhängigkeit gemeint. Kategorielle Kovariablen werden auch als Faktoren bezeichnet. Die Flut an verschiedenen Bezeichnungen kommt daher, dass lineare Modelle in sehr unterschiedlichen Disziplinen angewandt werden, die jeweils ihre eigenen Begriffe und Bezeichnungen prägen. 1.1 Definition des linearen Modells Je nach Anwendung kann man X als Zufallsvariable oder als feste, willkürlich gewählte Große auffassen. In dieser Vorlesung werden wir uns überwiegend auf die zweite Variante beziehen. Wir betrachten also X als feste Größe. Mathematisch gesprochen heißt das, wir betrachten die bedingte Verteilung von Y, gegeben X. Man unterstellt, dass Y sich schreiben lässt als Y = f(x) + ɛ 9

10 10 KAPITEL 1. EINLEITUNG mit einer unbekannten Regressionsfunktion f : X R und einem zufälligen Fehler ɛ, so dass IE(ɛ) = 0. Die genaue Verteilung dieses Fehlers ɛ kann durchaus von X abhängen. Denkbar wäre beispielsweise, dass ɛ = σ(x)z mit einer gewissen Funktion σ : X [0, ) und einer standardnormalverteilten Zufallsvariable Z. Mitunter unterstellt man zusätzlich, dass die Standardabweichung von ɛ endlich ist und nicht von X abhängt. Diese bezeichnen wir dann mit σ := Std(ɛ) = Var(ɛ). In diesem Spezialfall spricht man von homoskedastischen Fehlern. Anderenfalls spricht man von heteroskedastischen Fehlern. Bei der unbekannten Regressionsfunktion f nimmt man an, dass sie zu einer gegebenen Familie F von Funktionen gehört. Dabei sei F ein endlichdimensionaler Vektorraum reellwertiger Funktionen auf X. Wegen letzterer Eigenschaft spricht man von linearen Modellen. 1.2 Beispiele für lineare Modelle Die Bezeichnungen der nachfolgenden Beispiele sind auch historisch entstanden und werden an späterer Stelle noch erläutert. Beispiel 1.1 (Einweg-Varianzanalyse). Sei X eine kategorielle Kovariable mit Werten in, sagen wir, X = {1, 2,..., L}. Die Menge F aller Funktionen auf X ist ein L dimensionaler Vektorraum. Er entspricht dem R L, wenn man f F mit dem Vektor (f(j)) L j=1 identifiziert. Ein konkretes Beispiel ist der Ertrag Y einer bestimmten Nutzpflanze auf einem Feldabschnitt mit vorgegebener Fläche. Die Kovariable X kann beispielsweise für verschiedene Pflanzenschutzmittel oder Bodenbehandlungen stehen. Man unterstellt also, dass sich der Ertrag schreiben lässt als Grundeffekt f(x), der von der Behandlung X abhängt, plus zufälliger Fehler, der zum Beispiel auf Schwankungen in Umwelteinflüssen zurückgeht. Beispiel 1.2 (Einfache lineare Regression). Sei X eine numerische Kovariable, also X R. Wenn man unterstellt, dass zwischen X und Y ein linearer Zusammenhang besteht, dann ist (1.1) Y = a + bx + ɛ mit unbekannten Konstanten a und b. Wir betrachten also die Menge F aller affin linearen Funktionen auf R. Diese ist ein zweidimensionaler Vektorraum. Ein konkretes Beispiel sind Eichkurven: Angenommen X ist ein physikalisch-chemischer Parameter, zum Beispiel die Konzentration einer bestimmten Substanz in einer Lösung. Oftmals kann man diesen Wert mit einer aufwändigen Methode (nahezu) exakt bestimmen, doch als Alternative gibt es auch eine billigere indirekte Methode, beispielsweise eine Messung der Lichtabsorption.

11 1.2. BEISPIELE FÜR LINEARE MODELLE 11 Diese Methode liefere den Wert Y. Wenn man unterstellt, dass zwischen X und Y ein linearer Zusammenhang wie in (1.1) besteht, dann kommt es darauf an, die Koeffizienten a und b zu schätzen. Wenn der Fehler ɛ recht klein ist im Vergleich zu b, so kann man X aus Y bis auf einen kleinen Fehler rekonstruieren. Beispiel 1.3 (Polynomiale Regression). Wie in Beispiel 1.2 sei X R. Anstelle eines linearen Zusammenhangs zwischen X und Y könnte man allgemeiner unterstellen, dass f ein Polynom bestimmter Ordnung d 1 ist. Wir betrachten also den (d + 1) dimensionalen Vektorraum F aller Funktionen f der Form f(x) = a 0 + a 1 x + a 2 x a d x d. Dieses Modell wird unter anderem verwendet, um das Modell der einfachen linearen Regression (Beispiel 1.2) zu überprüfen. In diesem Falle wählt man beispielweise d = 2 oder d = 3 und testet, ob die Koeffizienten a j mit j > 1 wirklich gebraucht werden. Das spezielle Modell der quadratischen Regression könnte man verwenden, um den Einfluss der Dosis X eines Mittels (z. B. ein bestimmter Dünger) auf die Response Y (z. B. den Ertrag einer bestimmten Nutzpflanze) zu beschreiben. Im Falle von a 1 > 0 > a 2 beschreibt f(x) eine Parabel mit eindeutigem Maximum an der Stelle a 1 /( 2a 2 ) > 0. Beispiel 1.4 (Einfache Kovarianzanalyse). Angenommen X besteht aus einer kategoriellen Variable C {1, 2,..., L} und einer numerischen Variable W R. Ein mögliches Modell F besteht aus allen Funktionen f der Form f(c, w) = a(c) + bw. Man kombiniert also das Modell der Einweg-Varianzanalyse (Beispiel 1.1) mit dem der einfachen linearen Regression (Beispiel 1.2). Ein konkretes Beispiel ist der Cholesterinspiegel Y des Bluts von Erwachsenen. Dieser hängt bekanntlich vom Alter W ab, wird aber eventuell auch von regionalen Faktoren oder dem Geschlecht (C) beinflusst. Ein anderes Beispiel ist das Jahreseinkommen Y von Personen in Abhängigkeit von ihrer Berufsgruppe C und ihrem Intelligenzquotienten W. Beispiel 1.5 (Multiple lineare Regression). Angenommen X = (X(j)) d j=1 ist ein Vektor von d numerischen (oder 0 1 wertigen) Variablen. Ein einfaches Modell für den Zusammenhang zwischen X und Y unterstellt, dass d (1.2) Y = a + b(j)x(j) + ɛ. j=1 Ein konkretes Beispiel ist erneut der Cholesterinspiegel Y und numerische Kovariablen wie das Alter, Körpergröße und -gewicht sowie das Geschlecht, kodiert durch 0 und 1.

12 12 KAPITEL 1. EINLEITUNG Aufgabe 1.6. Für Bäume einer bestimmten Art betrachten wir die Variablen Y : Volumen von Nutzholz nach dem Fällen, X(1) : Höhe (minus Schnitthöhe), X(2) : max. Durchmesser in Schnitthöhe. (a) Welchen Zusammenhang erwarten Sie zwischen Y und X = (X(1), X(2))? (b) Wie sieht Ihr Modell aus, wenn Sie Y durch log Y ersetzen? Aufgabe 1.7 (Periodische Signale). Für t Z sei y t = µ + A cos(ωt φ) mit gewissen Parametern µ R, A > 0, ω R \ (2πZ) und φ R. (a) Zeigen Sie, dass für geeignete Koeffizienten a, b 1, b 2 R gilt: y t = a + b 1 y t 1 + b 2 y t 2 für alle t Z. Sind diese Koeffizienten a, b 1, b 2 eindeutig? (b) Zeigen Sie, dass für T, gleichmäßig in s Z. 1 T s+t t=s+1 y t µ

13 Kapitel 2 Schätzung von Parametern In diesem Kapitel geht es um die Frage, wie man die unbekannte Regressionsfunktion f und unter Homoskedastizität die Standardabweichung σ des Fehlers ɛ = Y f(x) schätzen kann. Dabei gehen wir von n Datenpaaren (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ) aus, wobei Y i = f(x i ) + ɛ i mit stochastisch unabhängigen Fehlern ɛ 1, ɛ 2,..., ɛ n mit Erwartungswert Null. 2.1 Vektor- und Matrixdarstellung Es ist sehr hilfreich, die Daten und das Modell mit Hilfe von Vektoren und Matrizen darzustellen. Zum einen definieren wir den Response-Vektor Y := Y 1 Y 2. Rn Y n sowie den (unbekannten) Fehlervektor ɛ := ɛ 1 ɛ 2. Rn. ɛ n Für das Modell F wählen wir Basisfunktionen f 1, f 2,..., f p. Dann kann man f F schreiben als mit einem Parametervektor f(x) = θ = p θ j f j (x) j=1 θ 1 θ 2. Rp. θ p 13

14 14 KAPITEL 2. SCHÄTZUNG VON PARAMETERN Die Basisfunktionen f j und die Beobachtungen X i liefern uns die sogenannte Design-Matrix f 1 (X 1 ) f 2 (X 1 ) f p (X 1 ) f 1 (X 2 ) f 2 (X 2 ) f p (X 2 ) D :=... Rn p. f 1 (X n ) f 2 (X n ) f p (X n ) Dann kann man schreiben Y = Dθ + ɛ. Mit dem Tupel X := (X i ) n X n und der Konvention g(x) := (g(x i )) n Rn für Funktionen g : X R kann man auch schreiben: D = [ f 1 (X), f 2 (X),..., f p (X) ] und Dθ = f(x). Beispiele für diese Parametrisierung. den Beispielen aus Abschnitt 1.2. Die Vektor- und Matrixdarstellung illustrieren wir an Einweg-Varianzanalyse (Beispiel 1.1). Für den Raum F aller Funktionen auf {1,..., L} wählen wir die Basisfunktionen f j (x) := 1 [x=j] für j = 1,..., L. (Identifiziert man F mit R L, dann entspricht f 1,..., f L der Standardbasis des R L.) In diesem Falle enthält D die Einträge D ij = 1 [Xi =j] {0, 1}. Die i-te Zeile enthält also L 1 Nullen und eine Eins in Spalte Nr. X i. Angenommen, wir haben die Beobachtungspaare (X i, Y i ) so angeordnet, dass (X 1, X 2,..., X n ) = ( ) 1,..., 1, 2,..., 2,..., L,..., L. }{{}}{{}}{{} n(1) mal n(2) mal n(l) mal Dann hat die Designmatrix D die Form D = R n L

15 2.1. VEKTOR- UND MATRIXDARSTELLUNG 15 Einfache lineare Regression (Beispiel 1.2). Hier bieten sich die Basisfunktionen f 1 (x) := 1 und f 2 (x) := x an. Dann ist 1 X 1 1 X 2 D =.. Rn 2 1 X n mit 1 := (1, 1,..., 1) R n. Polynomiale Regression (Beispiel 1.3). Verwendet man die Basisfunktionen f j (x) := x j 1 für j = 1,..., d + 1, dann ist 1 X 1 X1 2 X d 1 1 X 2 X2 2 X d 2 D =.... Rn (d+1). 1 X n Xn 2 Xn d Einfache Kovarianzanalyse (Beispiel 1.4). Ähnlich wie in Beispiel 1.1 nehmen wir an, dass die Beobachtungen (C i, W i, Y i ) so angeordnet wurden, dass (C 1, C 2,..., C n ) = ( ) 1,..., 1, 2,..., 2,..., L,..., L. }{{}}{{}}{{} n(1) mal n(2) mal n(l) mal Mit den Basisfunktionen f j (c, w) := 1 [c=j] für 1 j L sowie f L+1 (c, w) := w ergibt sich die Designmatrix W W n(1) W n(1) D = W n(1)+n(2) R n (L+1) W n n(l) W n Multiple lineare Regression (Beispiel 1.5). Hier ist X i = (X i (j)) d j=1 Rd, und wir betrachten die Basisfunktionen f 1 (x) := 1 sowie f 1+j (x) := x(j) für 1 j d. Dies liefert die Designmatrix 1 X 1 (1) X 1 (2) X 1 (d) 1 X 2 (1) X 2 (2) X 2 (d) D =.... Rn (d+1). 1 X n (1) X n (2) X n (d)

16 16 KAPITEL 2. SCHÄTZUNG VON PARAMETERN 2.2 Schätzung von θ Von nun an nehmen wir an, dass die Designmatrix D vollen Spaltenrang hat, also (2.1) Rang(D) = p n. Das heißt, die Spalten von D sind linear unabhängig. Mit anderen Worten, für beliebige Vektoren η R p \ {0} ist Dη 0, also 0 < Dη 2 = η D Dη. Dabei ist stets die Euklidische Norm. Folglich ist Bedingung (2.1) äquivalent zu (2.2) D D ist positiv definit. Diese Tatsache werden wir mehrfach ausnutzen. Aufgabe 2.1. Für reelle Zahlen X 1, X 2,..., X n und eine natürliche Zahl d sei 1 X 1 X1 2 X d 1 1 X 2 X2 2 X d 2 D :=... 1 X n Xn 2 Xn d (die Designmatrix für polynomiale Regression). Unter welcher Voraussetzung an die Zahlen X i ist Rang(D) = d + 1? Hinweis: Man kann hier mit Determinanten rechnen. Es lohnt sich aber auch zu überlegen, was die Gleichung Dη = 0 für die Funktion R x g(x) := d j=0 η j+1x j bedeutet Kleinste-Quadrate-Schätzung Ein Vektor θ R p heißt Kleinste-Quadrate-Schätzer (KQ-Schätzer) für θ, wenn Y D θ 2 = min η R p Y Dη 2. Mit anderen Worten, man wählt θ R p derart, dass die Quadratsumme ( Y i p j=1 ) 2 θ j f j (X i ) minimal wird. Die Funktion f := p j=1 θ j f j ist dann ein KQ-Schätzer für f. Lemma 2.2. Unter der Bedingung (2.1) existiert genau ein KQ-Schätzer für θ, nämlich θ = (D D) 1 D Y. Anmerkung 2.3 (Numerische Berechnung). Die in Lemma 2.2 angegebene Formel ist für theoretische Betrachtungen nützlich. Für die numerische Berechnung des KQ-Schätzers θ sollte man sie nicht unbedingt verwenden. Dies liegt daran, dass die Matrix D D oftmals sehr schlecht konditioniert ist. Das heißt, das Verhältnis von ihrem größten zu ihrem kleinsten Eigenwert ist sehr groß. Numerisch stabilere Verfahren basieren auf der QR- oder Singulärwertzerlegung von D; siehe Anhang A.1.

17 2.2. SCHÄTZUNG VON θ 17 Anmerkung 2.4 (Geometrische Interpretation). Für das Verständnis der Eigenschaften von θ und später eingeführter Verfahren ist folgende Überlegung hilfreich: Nach Voraussetzung ist der Vektor IE(Y ) = IE(Y 1 ) IE(Y 2 ). IE(Y n ) gleich f(x) = Dθ, liegt also in dem p-dimensionalen linearen Teilraum M := {Dη : η R p } = span ( f 1 (X), f 2 (X),..., f p (X) ) des R n, dem sogenannten Modellraum. Nach Definition des KQ-Schätzers ist Ŷ := D θ = arg min Y v. v M Der gefittete Vektor (vector of fitted values) Ŷ ist also die orthogonale Projektion von Y auf den Modellraum M; siehe auch Abbildung 2.1. Wenn man das lineare Modell anders parametrisiert, also andere Basisfunktionen f j wählt, dann verändern sich D, θ und θ, aber der Modellraum M sowie f(x) = IE(Y ) und Ŷ bleiben unverändert! Anmerkung 2.5 (Hut-Matrix). Mit Hilfe der konkreten Formel aus Lemma 2.2 kann man den gefitteten Vektor Ŷ = D θ schreiben als Ŷ = HY mit der Hutmatrix H := D(D D) 1 D R n n. Diese Matrix beschreibt die orthogonale Projektion von R n auf den Modellraum M. Ihr Name rührt daher, dass sie dem Vektor Y einen Hut aufsetzt. Erster Beweis von Lemma 2.2 (analytisch). Sei Q(η) := Y Dη 2. Für beliebige Vektoren η, v R p ist Q(η + v) = Y Dη Dv 2 = Y Dη 2 2(Y Dη) Dv + Dv 2 = Q(η) 2(D Y D Dη) v + v D Dv. Dies zeigt, dass der Gradient von Q an der Stelle η gleich 2(D Y D Dη) ist, und die Hesse- Matrix (2. Ableitung) ist gleich 2D D. Letztere ist positiv definit gemäß (2.2) und nicht von η abhängig. Daher ist Q eine strikt konvexe Funktion. Der Gradient ist Null genau dann, wenn D Y = D Dη, also η = (D D) 1 D Y. Daher hat Q genau ein lokales Minimum an der Stelle (D D) 1 D Y, und wegen der Konvexität von Q handelt es sich um ein globales Minimum.

18 18 KAPITEL 2. SCHÄTZUNG VON PARAMETERN Abbildung 2.1: Datenvektor Y und seine Projektion Ŷ = HY in den Modellraum M Zweiter Beweis von Lemma 2.2 (quadr. Ergänzung). Man kann schreiben Y Dη 2 = Y 2 2η D Y + η D Dη = Y 2 2η (D D)(D D) 1 D Y + η D Dη = Y 2 2η (D D)η o + η D Dη = Y 2 η o D Dη o + (η η o ) (D D)(η η o ), wobei η o := (D D) 1 D Y. Zusammen mit (2.2) zeigt dies, dass η o der eindeutige KQ- Schätzer ist. Aufgabe 2.6 (Projektionen und orthogonale Projektionen). Mit dieser Aufgabe wiederholen wir etwas Lineare Algebra. (a) Sei X ein reeller Vektorraum und H : X X eine lineare Abbildung. Mit I(x) := x definieren wir H := I H. Dann lässt sich jeder Punkt x X zerlegen als x = x 1 + x 2 mit x 1 := H(x) und x 2 := H(x). Also ist X = X 1 + X 2 mit X 1 := H(X) und X 2 := H(X). Zeigen Sie, dass die folgenden drei Aussagen äquivalent sind: (a.1) H 2 = H; (a.2) H2 = H; (a.3) X 1 X 2 = {0}.

19 2.2. SCHÄTZUNG VON θ 19 Im Falle von (a.1-3) nennt man H eine (lineare) Projektion. Zeigen Sie, dass dann H(x) = x und H(x) = 0 falls x X 1, H(x) = 0 und H(x) = x falls x X 2. (b) Nun sei X = R 2 und H(x) := (x 1 x 2, 0). Zeigen Sie, dass H 2 = H, und bestimmen Sie die Räume X 1, X 2. (c) Nun sei X = R n. Eine lineare Abbildung H : R n R n entspricht dann einer Matrix H R n n. Zeigen Sie, dass die folgenden drei Aussagen äquivalent sind: (c.1) H = H und H 2 = H; (c.2) H = H H; (c.3) X 1 X 2. Im Falle von (c.1-3) nennt man H eine orthogonale Projektion Beispiele für θ In diesem Abschnitt beschreiben wir den KQ-Schätzer in einigen Spezialfällen. Eindimensionale Modelle. Das einfachste lineare Modell ist sicherlich Y = θ + ɛ. Bei n Beobachtungen ist dann D = (1, 1,..., 1), also D Y = n Y i, D 2 = n und θ = Ȳ. Dabei setzen wir v := n 1 n v i für einen beliebigen Vektor v = (v i ) n. Als Verallgemeinerung betrachten wir irgendein eindimensionales lineares Modell. Das heißt, Y = θf 1 (X) + ɛ mit einer bekannten Funktion f 1 : X R und einem unbekannten Parameter θ. In diesem Falle ist D = f 1 (X), also ein n-dimensionaler Spaltenvektor, und θ = D Y D 2. Ein Beispiel für ein solches Modell wurde in Aufgabe 1.6 behandelt: Dort betrachteten wir die Höhe X(1), den Durchmesser X(2) und das Volumen Y eines Baumes. Eine einfache geometrische Überlegung lieferte das Modell also f 1 (X) = X(1)X(2) 2. Y = θx(1)x(2) 2 + ɛ,

20 20 KAPITEL 2. SCHÄTZUNG VON PARAMETERN Einweg-Varianzanalyse (Beispiel 1.1). Hier ist X {1, 2,..., L} und θ = (f(j)) L j=1. Ein naheliegender Schätzer für θ ist sicherlich der Vektor ( Ȳ (j) ) L der gruppenweisen Mittelwerte j=1 Ȳ (j) := n(j) 1 i : X i =j Y i mit den Gruppengrößen n(j) := #{i : X i = j}. Tatsächlich ist dies der KQ-Schätzer. Denn hier kann man sich leicht davon überzeugen, dass n(1) 0 0 D D = diag ( n(1), n(2),..., n(l) ). = 0 n(2) n(l) und D Y = ( i : X i =j Y i ) L j=1. Der gefittete Vektor Ŷ ist hier gleich Ŷ = ( Ȳ (X 1 ), Ȳ (X 2),..., Ȳ (X n) ). Der entsprechende Modellraum M besteht aus allen Vektoren der Form g(x) = (g(x i )) n mit irgendeiner reellwertigen Funktion g auf {1, 2,..., L}. Einfache lineare Regression 1 = (1, 1,..., 1) und X = (X i ) n, so dass [ D 1 D = 1 1 ] X 1 X X 2 (Beispiel 1.2). Hier besteht D aus den beiden Spaltenvektoren (D D) 1 = ( X 2 n X 2) 1 D Y = [ 1 ] Y X Y = [ ] 1 X = n X n 1 X 2, [ n 1 X 2 X ], [ ] n Ȳ X. Y X 1 Also ist so dass [â ] θ = b = ( X 2 n X 2) [ 1 n 1 X 2 X ] [ ] n Ȳ X 1 X Y = ( X 2 n X 2) [ 1 X 2 Ȳ X Y X ] X Y n XȲ = ( [( X 2 n X 2) 1 X 2 n X 2) Ȳ ( X Y n XȲ ) X X Y n XȲ ], (2.3) â = Ȳ b X und b = X Y n XȲ X 2 n X 2.

21 2.2. SCHÄTZUNG VON θ 21 Dies war eine sture Rechnung nach dem Kochrezept aus Lemma 2.2. Die resultierende Formel für b ist durchaus mit Vorsicht zu genießen. Denn kleine Rundungsfehler in X oder Ȳ können starke Auswirkungen bei der Berechnung von b haben. Mit etwas mehr Geometrie kann man äquivalente Formeln eleganter herleiten: Die Berechnung des KQ-Schätzers wäre einfach, wenn die Spalten der Designmatrix paarweise orthogonal wären, denn dann wäre D D eine Diagonalmatrix. Dies kann man stets erzwingen, indem man auf die Spalten der Designmatrix D das Orthogonalisierungsverfahren von Gram-Schmidt anwendet. Im vorliegenden Beispiel bedeutet dies Folgendes: Man ersetzt die Spalte X durch X := X 1 X = X X1, denn dieser Vektor steht senkrecht auf 1. Mit anderen Worten, die Modellgleichung wird wie folgt umgeschrieben: Y = a + bx + ɛ = ã + b(x X) + ɛ, wobei ã := a+b X. Wir verwenden also die neuen Basisfunktionen f 1 (x) = 1 und f 2 (x) = x X. Die entsprechende Designmatrix ist D = [ 1, X] = 1 X 1 X 1 X 2 X.., 1 X n X und [ ] D n 0 D = 0 X 2 [ ] D n Ȳ Y = X = Y [ ] n 0 = 0 X 2 n X 2, [ ] nȳ X Y n XȲ. Also ist ] [ ã b = [ ] Ȳ X Y / X 2 = [ ] Ȳ (X Y n XȲ )/( X 2 n X 2. ) Wegen ã = â + b X ergeben sich hieraus wieder die Formeln (2.3). Anmerkung: Die geschätzte Regressionsfunktion f lässt sich schreiben als f(x) = Ȳ + b(x X). Insbesondere ist f( X) = Ȳ. Die Regressionsgerade verläuft also durch den Schwerpunkt ( X, Ȳ ) aller Datenpaare (X i, Y i ). Mit der Stichprobenstandardabweichung S(V ) := (n 1) 1 (V i V ) 2

22 22 KAPITEL 2. SCHÄTZUNG VON PARAMETERN Abbildung 2.2: Zum Verlauf der Regressionsgerade eines beliebigen Vektors V R n und dem Stichprobenkorrelationskoeffizienten r(x, Y ) := n (X i X)(Y i Ȳ ) n (X i X) n [ 1, 1] 2 (Y i Ȳ )2 kann man schreiben: b = r(x, Y ) S(Y ) S(X). Die Regressionsgerade verläuft also stets zwischen den Graphen der Funktionen siehe auch Abbildung 2.2. x Ȳ ± S(Y ) (x X); S(X) Dass r(x, Y ) [ 1, 1] folgt aus der Cauchy-Schwarz-Ungleichung. Denn r(x, Y ) ist das Skalarprodukt der Einheitsvektoren u := X X1 1 (X X1) und v := Y Ȳ 1 1 (Y Ȳ 1). Die Extremfälle r(x, Y ) = ±1 bedeuten, dass v ein positives bzw. negatives Vielfaches von u ist, und dies ist gleichbedeutend damit, dass alle Punkte (X i, Y i ) auf einer Geraden mit positiver respektive negativer Steigung liegen. Aufgabe 2.7 (Orthogonale Polynome). Das Gram-Schmidt-Verfahren ist nur eine von vielen Möglichkeiten, wie man eine gegebene Basis in eine orthogonale Basis umwandelt. Speziell für die polynomiale Regression gibt es eine elegante Alternative, welche auf sogenannten Drei-Term- Rekursionen beruht.

23 2.2. SCHÄTZUNG VON θ 23 Vorüberlegung: Sei p 0 (x) := 1 und p 1 (x) := x b 0 für ein b 0 R. Nun definieren wir induktiv p k+1 (x) := xp k (x) b k p k (x) c k p k 1 (x) für k = 1, 2, 3,... mit gewissen reellen Zahlen b k, c k. Man kann leicht verifizieren, dass p k (x) für jedes k N 0 ein Polynom vom Grad k mit führendem Koeffizienten 1 ist. Insbesondere lässt sich jedes Polynom p(x) vom Grad k als Linearkombination von p 0 (x),..., p k (x) darstellen. (a) Sei X R n mit #{X 1, X 2,..., X n } d + 1, wobei d N. Zeigen Sie, dass man die Konstanten b 0 und b k, c k (1 k < d) derart wählen kann, dass die Vektoren p 0 (X), p 1 (X),..., p d (X) orthogonal sind. Anleitung: Die Überlegungen zur einfachen linearen Regression zeigten bereits, dass b 0 = Angenommen, für ein 1 k < d sind p 0 (X),..., p k (X) orthogonal. X. (i) Zeigen Sie, dass p k+1 (X) p j (X) = 0 für 0 j k 2 bei beliebiger Wahl von b k und c k. (ii) Bestimmen Sie nun b k und c k derart, dass auch p k+1 (X) p k (X) = p k+1 (X) p k 1 (X) = 0. (b) Implementieren und testen Sie diese Methode auf dem Computer. Einfache Kovarianzanalyse (Beispiel 1.4). Hier ist X = (C, W ) mit der kategoriellen Kovariable C {1, 2,..., L} und der numerischen Kovariable W R. Würde man W ignorieren, so wäre man wieder im Modell der Einweg-Varianzanalyse. Der Name Kovarianzanalyse deutet an, dass es um eine Varianzanalyse unter Einbeziehung zusätzlicher, numerischer Ko-variablen geht. Die Designmatrix besteht aus den L + 1 Spalten D j = ( n 1 [Ci =j]) (1 j L) und W = (W i ) n. Wie wir bei der Einweg-Varianzanalyse schon feststellten, sind die ersten L Spalten paarweise orthogonal. Nur die letzte Spalte, W, sorgt für Ärger. Diesen kann man vermeiden, indem man erneut das Orthogonalisierungsverfahren anwendet: Für einen beliebigen Vektor V = (V i ) n und j {1,..., L} sei mit n(j) := #{i : C i = j}. Dann ist W := W V (j) := n(j) 1 L j=1 W (j)d j = i : C i =j V i W 1 W (C 1 ) W 2 W (C 2 ). W n W (C n ) ein Vektor, der senkrecht auf D 1,..., D L steht. Diesen Vektor an Stelle von W zu verwenden bedeutet, dass wir die Modellgleichung wie folgt umschreiben: Y = a(c) + bw + ɛ = ã(c) + b(w W (C)) + ɛ

24 24 KAPITEL 2. SCHÄTZUNG VON PARAMETERN wobei ã(c) = a(c) + b W (c). Die entsprechende Designmatrix D hat die paarweise orthogonalen Spalten D 1,..., D L, W und es gilt: Folglich ist und b = W Y / W 2 = θ = Ȳ (1). Ȳ (L). W Y / W 2 â(j) = Ȳ (j) b W (j) (1 j L) (W i W / (C i ))Y i (W i W (C i )) 2. Den KQ-Schätzer kann man hier wie folgt interpretieren: Für zwei verschiedene Kategorien j, k {1,..., L} ist Ȳ (k) Ȳ (j) der augenscheinliche Unterschied zwischen diesen. Nun kann es aber sein, dass die Variable W in den beiden Kategorien unterschiedlich verteilt ist, und dass W mit Y zusammenhängt, d.h. b 0. Um den Unterschied, der ausschließlich auf C zurückgeht, zu schätzen, ersetzt man die Differenz Ȳ (k) Ȳ (j) durch Ȳ (k) Ȳ (j) b( W (k) W (j)) = â(k) â(j). Aufgabe 2.8. Leiten Sie die zuvor hergeleiteten konkreten Formeln für die KQ-Schätzer her, indem Sie die entsprechende Quadratsumme Y Dη nach einzelnen Komponenten des Vektors η ableiten Das Bestimmtheitsmaß Mit dem gefitteten Vektor Ŷ = (Ŷi) n bildet man die sogenannten Residuen Y i Ŷi. Eine deskriptive Kenngröße, welche die Qualität der Approximation von Y durch Ŷ quantifiziert, ist das Bestimmtheitsmaß R 2 n := 1 (Y i Ŷi) 2 n (Y i Ȳ = 1 Y Ŷ 2 )2 Y Ȳ 1 2. Dabei vergleicht man die residuale Streuungssumme n (Y i Ŷi) 2 mit der Gesamtstreuung n (Y i Ȳ )2 der Y -Werte. Man kann sagen, R 2 sei der relative Anteil der Streuung der Y - Werte, welcher durch die Kovariable X erklärt wird. In der Regel ist 0 R 2 1. Offensichtlich ist R 2 1, und die erste Ungleichung, R 2 0, ist garantiert gültig, wenn die Famile F der zulässigen Regressionsfunktionen auch die konstanten Funktionen enthält bzw. etwas allgemeiner wenn der Modellraum M den Vektor 1 enthält. Denn nun steht der Vektor Y Ŷ M senkrecht auf dem Vektor Ŷ Ȳ 1 M, so dass Y Ȳ 1 2 = Y Ŷ 2 + Ŷ Ȳ 1 2. Insbesondere ist R 2 = 1 Y Ŷ 2 Y Ŷ 2 + Ŷ Ȳ 1 2 = Ŷ Ȳ 1 2 Y Ŷ 2 + Ŷ Ȳ 1 2 [0, 1].

25 2.2. SCHÄTZUNG VON θ 25 Aufgabe 2.9. Zeigen Sie, dass im Falle der einfachen linearen Regression gilt: R 2 = r(x, Y ) 2. Manche Programmpakete geben zusätzlich ein adjustiertes Bestimmtheitsmaß an. Dabei wird berücksichtigt, wie viele geschätzte Parameter in einer Quadratsumme enthalten sind. Denn mit wachsender Zahl von geschätzten Parametern wird die Quadratsumme stets kleiner. Bei der Summe n (Y i Ŷi) 2 sind p Parameter im Spiel, und in n (Y i Ȳ )2 kann man Ȳ als KQ-Schätzer für µ in der Modellgleichung Y = µ + ɛ interpretieren. Daher definiert man R 2 adj := 1 i (Y i Ŷi) 2/ (n p) i (Y i Ȳ )2/ (n 1). Man kann dies auch geometrisch interpretieren: Y Ŷ ist die orthogonale Projektion des Datenvektors Y auf den (n p)-dimensionalen Untervektorraum M des R n, und Y Ȳ 1 ist seine orthogonale Projektion auf den (n 1)-dimensionalen Unterraum 1. Aufgabe Der Datensatz Trees.txt enthält von n = 31 Schwarzkirschbäumen die Werte der Variablen X(1) = Höhe, X(2) = Durchmesser sowie Y = Volumen; siehe auch Aufgabe 1.6. Bestimmen Sie mit Hilfe eines geeigneten Programms die KQ-Schätzer und Bestimmtheitsmaße (ohne und mit Adjustierung) für die folgenden Modelle: Y = a + b(1)x(1) + b(2)x(2) + ɛ, Y = θ X(1)X(2) 2 + ɛ, log Y = a + b(1) log X(1) + b(2) log X(2) + ɛ, log Y = a + log X(1) + 2 log X(2) + ɛ. Vergleichen und diskutieren Sie die Resultate. Aufgabe Wenden Sie das Modell der einfachen Kovarianzanalyse auf den Datensatz namens Goats.txt an. Dabei geht es um die Gewichtszunahme von Ziegen in Abhängigkeit von ihrem Anfangsgewicht und der Variante einer Wurmkur. Berechnen Sie den KQ-Schätzer an Hand der Formeln aus der Vorlesung, und vergleichen Sie Ihre Ergebnisse mit denjenigen eines Statistikprogramms. Aufgabe Der Datensatz Exam.txt enthält die Klausurresultate n = 88 Studierender in jeweils fünf verschiedenen Fächern. Untersuchen Sie, inwiefern man die Resultate in einem bestimmten Fach durch eine (affin lineare) Funktion der anderen vier Resultate approximieren kann. Aufgabe Der Datensatz BrainSize.txt enthält für n = 40 Studierende jeweils die Werte von drei verschiedenen Intelligenzquotienten, ihr Geschlecht, ihre Körpergröße sowie ihre Gehirngröße bzw. -dichte (basierend auf Magnetresonanz-Bildern). Untersuchen Sie den (augenscheinlichen) Zusammenhang zwischen einem der Intelligenzquotienten (Y ) und den Kovariablen Geschlecht, Körpergröße und Gehirngröße. Was passiert, wenn Sie manche der Kovariablen weglassen? Schreiben Sie jeweils die von Ihnen verwendete Modellgleichung auf und interpretieren Sie die Ergebnisse.

26 26 KAPITEL 2. SCHÄTZUNG VON PARAMETERN Die Präzision von θ In diesem Abschnitt und auch später verwenden wir kommentarlos Definitionen und einige Eigenschaften von Erwartungswerten und Kovarianzen für matrix- bzw. vektorwertige Zufallsvariablen. Diese werden im Abschnitt A.3 zusammengestellt. Die Voraussetzung, dass IE(ɛ i ) = 0 für alle i, lässt sich kurz schreiben als IE(ɛ) = 0. Wenn wir zusätzlich annehmen, dass die unabhängigen Fehler ɛ i ein und dieselbe Varianz σ 2 haben, so ist Var(ɛ) = σ 2 I. Für den KQ-Schätzer ergeben sich daraus folgende Tatsachen: Lemma Aus IE(ɛ) = 0 folgt, dass IE( θ) = θ. Im Falle homoskedastischer Fehler ɛ i mit Varianz σ 2 ist Var( θ) = σ 2 (D D) 1. Beweis von Lemma Aus den allgemeinen Regeln für Erwartungswerte folgt, dass IE(Y ) = IE(Dθ + ɛ) = Dθ, also Ferner ist im homoskedastischen Fall ( ) IE( θ) = IE (D D) 1 D Y = (D D) 1 D IE(Y ) = (D D) 1 D Dθ = θ. Var( θ) = Var(AY ) (mit A := (D D) 1 D ) = A Var(Y )A = σ 2 AA = σ 2 (D D) 1. Einfache lineare Regression (Beispiel 1.2). Um aufwändige Rechnungen zu vermeiden, bedienen wir uns des Orthogonalisierungstricks und schreiben Y = a + bx + ɛ = ã + b(x X) + ɛ. Mit X := (X i X) n ist der KQ-Schätzer für (ã, b) gleich [ ] Ȳ X Y / X 2,

27 2.2. SCHÄTZUNG VON θ 27 und seine Kovarianzmatrix ist [ n σ 2 1 ] 0 0 X 2 Der KQ-Schätzer für θ = (a, b), θ = ] [Ȳ b X, b hat somit die Kovarianzmatrix [ Var(Ȳ ) + X 2 Var( b) X Var( b) X ] Var( b) Var( b) [ = σ 2 n 1 + X 2 X 2 X X 2 X ] X X 2. 2 Für eine feste Stelle x R ist ein naheliegender Schätzwert für f(x) gegeben durch f(x) = â + bx = Ȳ + b(x X), so dass IE f(x) = f(x) und Var( f(x)) = σ 2( 1 n (x X) 2 ) +. X 2 Die Varianz ist also an der Stelle x = X am kleinsten und wird mit wachsendem x X beliebig groß. Einfache Kovarianzanalyse (Beispiel 1.4). Auch hier arbeiten wir mit der modifizierten Modellgleichung, Y = a(c) + bw + ɛ = ã(c) + b(w W (C)) + ɛ. Mit W := (W i W (C i )) n ist der KQ-Schätzer für (ã(1),..., ã(l), b) gleich Ȳ (1). Ȳ (L), W Y / W 2 und seine Kovarianzmatrix ist [ ( diag n(1) σ 2 1,..., n(l) 1) ] 0 0 W 2 Der KQ-Schätzer für θ = (a(1),..., a(l), b), Ȳ (1) b W (1) θ =. Ȳ (L) b W (L), b

28 28 KAPITEL 2. SCHÄTZUNG VON PARAMETERN hat somit folgende Kovarianzen: Var( b) = σ 2 / W 2 und Cov ( â(c), â(d) ) = σ 2( 1 [c=d] n(c) + W (c) W (d) ) W, 2 Cov ( â(c), b ) = σ W 2 (c) W. 2 Speziell für zwei verschiedene Kategorien c, d {1,..., L} ist Var ( â(c) â(d) ) = Var (Ȳ (c) Ȳ (d) + ( W (c) W (d)bigr) b) = σ 2( 1 n(c) + 1 n(d) + ( W (c) W (d)) 2 ) W. 2 Aufgabe Für gegebene Indizes 1 j < k L betrachten wir nun Schätzer γ = γ(daten) für die Differenz γ := a(k) a(j) und beurteilen sie durch den mittleren quadratischen Fehler, MSE( γ) := IE ( ( γ γ) 2). Vergleichen Sie den KQ-Schätzer â(k) â(j) mit dem naiven Schätzer Ȳ (k) Ȳ (j) (aus dem Modell der Einweg-Varianzanalyse). Unter welchen Bedingungen ist der KQ-Schätzer strikt besser als der naive? 2.3 Schätzung von σ Man kann den Beobachtungsvektor Y schreiben als Y = Ŷ + ɛ. Dabei ist Ŷ = HY der gefittete Vektor, und ɛ ist der Residuen-Vektor ɛ := Y Ŷ = (I H)Y. Die i-te Komponente von ɛ ist Y i Ŷi und wird i-tes Residuum genannt. Geometrisch betrachtet, ist Ŷ die orthogonale Projektion von Y auf den Modellraum M, und ɛ ist die orthogonale Projektion von Y auf das orthogonale Komplement M von M. Der KQ-Schätzer θ hängt nur von Ŷ ab. Denn ɛ steht senkrecht auf M, was gleichbedeutend ist mit D ɛ = 0, so dass θ = (D D) 1 D Y = (D D) 1 D Ŷ. Andererseits hängt ɛ nur vom Fehlervektor ɛ ab, denn (I H)D = 0, so dass ɛ = (I H)(Dθ + ɛ) = (I H)ɛ. Nun nehmen wir an, dass alle Fehler ɛ 1, ɛ 2,..., ɛ n Mittelwert Null und Varianz σ 2 < haben. Wenn uns ein Orakel den Fehlervektor ɛ oder zumindest seine euklidische Norm verraten würde,

29 2.3. SCHÄTZUNG VON σ 29 so wäre ɛ 2 /n ein naheliegender Schätzer für σ 2. Man kann dies lesen als quadrierte Norm des Fehlervektors dividiert durch seine Dimension. Da wir zumindest die Projektion von ɛ auf den Raum M kennen, ist ein realistischer Schätzer für σ 2 gegeben durch σ 2 := ɛ 2 dim(m ) = ɛ 2 n p = Y 2 Ŷ 2. n p Der folgende Satz gibt Auskunft über seine statistischen Eigenschaften: Satz Im Falle homoskedastischer Fehler ɛ i mit Varianz σ 2 [0, ) ist IE( σ 2 ) = σ 2. Ist IE(ɛ 4 i ) Kσ4 für alle i und eine reelle Konstante K, dann ist Var( σ 2 ) (K 3)+ + 2 n p Anmerkung Im Falle von normalverteilten Fehlern kann man K = 3 wählen. Dann ergibt sich aus dem Beweis von Satz 2.16, dass Var( σ 2 ) = 2σ 4 /(n p); siehe auch das nächste Kapitel. σ 4. Beweis von Satz Mit der Hutmatrix H beschreibt H := I H die orthogonale Projektion von R n auf M, das orthogonale Komplement des Modellraumes M; siehe auch Aufgabe 2.6. Insbesondere ist H = H = H 2. (Dies lässt sich auch durch Nachrechnen an Hand der konkreten Formel für H verifizieren.) Daher ist ɛ 2 = Hɛ 2 = ɛ H Hɛ = ɛ Hɛ = ɛ i ɛ j Hij. Berücksichtigt man nun, dass IE(ɛ i ɛ j ) = 0 falls i j und IE(ɛ 2 i ) = σ2, so ergibt sich die Gleichung i,j=1 IE ( ɛ 2) = IE(ɛ i ɛ j ) H ij = σ 2 H ii = σ 2 Spur( H) = σ 2 (n p), i,j=1 also insbesondere IE( σ 2 ) = σ 2. Dabei verwendeten wir die Tatsache, dass Spur( H) = dim(m ) = n p. Auch dies ist eine allgemeine Tatsache für Matrizen, welche orthogonale Projektionen beschreiben; siehe Aufgabe Man kann aber auch zu Fuß rechnen. Nun zur Varianz von σ 2. Nach der Varianz-Kovarianz-Formel für Summen von Zufallsvariablen ist Var ( ɛ 2) ( = Var i,j=1 ɛ i ɛ j Hij ) = i,j,k,l=1 Cov(ɛ i ɛ j, ɛ k ɛ l ) H ij Hkl.

30 30 KAPITEL 2. SCHÄTZUNG VON PARAMETERN Doch mit elementaren Rechnungen lässt sich zeigen (Aufgabe 2.19), dass Cov(ɛ i ɛ j, ɛ k ɛ l ) = Zusammen mit der Symmetrie von H folgt hieraus, dass Var ( ɛ 2) = = = = = IE(ɛ 4 i ) σ4 falls i = j = k = l, σ 4 falls i j und {i, j} = {k, l}, 0 sonst. H ii 2 ( IE(ɛ 4 i ) σ 4) + 2σ 4 1 [i j] H2 ij i,j=1 H ii 2 ( IE(ɛ 4 i ) 3σ 4) + 2σ 4 H ij 2 i,j=1 H 2 ii ( IE(ɛ 4 i ) 3σ 4) + 2σ 4 Spur( H H) H 2 ii ( IE(ɛ 4 i ) 3σ 4) + 2σ 4 Spur( H) H 2 ii ( IE(ɛ 4 i ) 3σ 4) + 2σ 4 (n p) (K 3) + σ 4 Spur( H) + 2σ 4 (n p) = ( (K 3) ) (n p)σ 4. Bei der letzten Ungleichung wurde ausgenutzt, dass stets 0 H ii 1, also insbesondere H 2 ii H ii ; siehe Aufgabe Folglich erfüllt Var( σ 2 ) = (n p) 2 Var ( ɛ 2) die behauptete Ungleichung. Aufgabe Die Matrix H R n n beschreibe eine orthogonale Projektion, das heißt, H = H 2 = H. Zeigen Sie, dass in diesem Falle gilt: Hx 2 x 2, = x 2 genau dann, wenn x HR n, = 0 genau dann, wenn x (I n H)R n. Leiten Sie hieraus ab, dass Zeigen Sie außerdem, dass 0 H ii 1 für 1 i n. Spur(H) = dim(hr n ). Aufgabe Zeigen Sie, dass im Falle homoskedastischer Fehler ɛ i mit Varianz σ 2 und endlichen vierten Momenten gilt: IE(ɛ 4 i ) σ4 falls i = j = k = l, Cov(ɛ i ɛ j, ɛ k ɛ l ) = σ 4 falls i j und {i, j} = {k, l}, 0 sonst.

31 2.4. DAS GAUSS-MARKOV-THEOREM UND STANDARDFEHLER 31 Anmerkung 2.20 (Adjustiertes Bestimmtheitsmaß). Vor dem Hintergrund des Varianzschätzers σ 2 kann man auch das adjustierte Bestimmtheitsmaß neu interpretieren. Es ist nämlich Radj 2 = 1 i (Y i Ŷi) 2/ (n p) i (Y i Ȳ )2/ (n 1) = 1 σ2 volles Modell σ Minimalmodell 2. Dabei ist σ 2 volles Modell der bisher beschriebene Varianzschätzer σ 2, wohingegen σ 2 Minimalmodell der aus der einfachen Modellgleichung Y = µ + ɛ resultierende Varianzschätzer ist (nämlich die Stichprobenvarianz der Y -Werte). 2.4 Das Gauss-Markov-Theorem und Standardfehler Mitunter interessiert man sich nicht für den vollen Vektor θ, sondern nur für bestimmte Linearformen hiervon. Ein solche Linearform schreiben wir als ψ θ mit einem von Null verschiedenen Vektor ψ R p. Polynomiale Regression (Beispiel 1.3). Sei X i R und Y i = f(x i ) + ɛ i, wobei f(x) = d+1 j=1 θ jx j 1 mit einem unbekannten Parametervektor θ R d+1. Angenommen, wir möchten nur den Wert von f an einer bestimmten Stelle x R schätzen. Es geht also um f(x) = ψ θ mit ψ = (1, x, x 2,..., x d ). Angenommen, wir möchten die Ableitung f an der Stelle x schätzen. Diese ist gleich f (x) = ψ θ mit ψ = (0, 1, 2x,..., dx d 1 ). Aufgabe Betrachten Sie das Modell der polynomialen Regression, also X i R und Y i = f(x i ) + ɛ i mit f(x) = d+1 j=1 θ jx j 1 und unbekanntem Parametervektor θ R d+1. Stellen Sie die beiden Kenngrößen 1 b f (X i ) und f(x) dx n als ψ θ mit geeigneten Vektoren ψ R d+1 dar. a Einfache lineare Regression (Beispiel 1.2). Sei X i R und Y i = a+bx i +ɛ i mit unbekanntem Parameter θ = (a, b). Angenommen, uns interessiert nur der Steigungsparameter b, also ψ θ mit ψ = (0, 1). Hierfür könnte man viele Schätzer angeben, zum Beispiel: b := ψ θ = (X i X)Y / n i (X i X) 2, Y n Y 1 b := (falls X 1 X n ), X n X 1 b := 1 [Xi <X j ](Y j Y i ) / n 1 [Xi <X j ](X j X i ). i,j=1 i,j=1

32 32 KAPITEL 2. SCHÄTZUNG VON PARAMETERN In allen drei Fällen ist b von der Form a Y mit einem gewissen Gewichtsvektor a R n. Ferner kann man in allen drei Fällen leicht zeigen, dass IE( b) = b. Eine naheliegende Frage ist nun, ob es einen optimalen Schätzer dieser Bauart gibt. Aufgabe Zeigen Sie, dass sich der KQS b für die Steigung b (einfache lineare Regression) schreiben lässt als b = 1 i<j n (X i X j )(Y i Y j ) 1 i<j n (X i X j ) 2. Allgemein ist ψ θ ein naheliegender Schätzer für ψ θ, und diesen kann man schreiben als ψ θ = a ψ Y mit a ψ := D(D D) 1 ψ. Ferner folgt aus Lemma 2.14 oder einer direkten Rechnung, dass IE(ψ θ) = θ. Es handelt sich also um einen unverzerrten linearen Schätzer von ψ θ im Sinne der folgenden Definition: Definition 2.23 (Lineare und erwartungstreue Schätzer). Ein linearer Schätzer für ψ θ ist eine Linearform Y a Y mit einem festen Vektor a R n, der in der Regel von D und ψ abhängt. Ein solcher Schätzer für ψ θ heißt erwartungstreu, wenn stets IE(a Y ) = ψ θ, egal welchen Wert θ hat. Dies ist gleichbedeutend mit der Forderung, dass a Dη = ψ η für alle η R p, also (2.4) D a = ψ. Der folgende Satz zeigt, dass der sogenannte Gauß-Markov-Schätzer ψ θ der eindeutige lineare und erwartungstreue Schätzer für ψ θ mit minimaler Varianz ist. Satz 2.24 (Gauß-Markov). Angenommen die Fehler ɛ 1,..., ɛ n haben eine und dieselbe Varianz σ 2 (0, ). Unter allen linearen, erwartungstreuen Schätzern für ψ θ hat a Y minimale Varianz genau dann, wenn der Vektor a im Spaltenraum M von D liegt, das heißt, Ha = a. Es gibt genau einen Vektor a mit diesen Eigenschaften, nämlich a = D(D D) 1 ψ. Beweis von Satz Die Varianz eines beliebigen linearen Schätzers a Y ist gleich Var(a Y ) = a Var(Y )a = σ 2 a 2. Wir möchten also a 2 unter der Nebenbedingung (2.4) minimieren. Wegen D H = D D(D D) 1 D = D

33 2.5. VERHALTEN DER SCHÄTZER BEI FEHLSPEZIFIZIERTEM MODELL 33 ist mit a Y auch (Ha) Y ein erwartungtreuer Schätzer für ψ θ. Folglich ist Var(a Y ) = σ 2 a 2 = σ 2 Ha 2 + σ 2 a Ha 2 = Var ( (Ha) Y ) + σ 2 a Ha 2 Var ( (Ha) Y ), und Gleichheit gilt genau dann, wenn a = Ha. Zusammen mit (2.4) ergibt sich dann, dass a = Ha = D(D D) 1 D a = D(D D) 1 ψ. Standardfehler. Im Falle von homoskedastischen Fehlern ɛ i mit Standardabweichung σ ist die Standardabweichung Std(ψ θ) des Gauß-Markov-Schätzers für ψ θ gleich := σ ψ (D D) 1 ψ = σ a ψ σ ψ mit a ψ := D(D D) 1 ψ. Diese Standardabweichung σ ψ hängt vom unbekannten Parameter σ ab. Ersetzt man letzteren durch σ, so ergibt sich der Standardfehler σ ψ := σ ψ (D D) 1 ψ = σ a ψ. Allgemein bezeichnet man in der Statistik eine geschätzte Standardabweichung als Standardfehler (standard error). 2.5 Verhalten der Schätzer bei fehlspezifiziertem Modell In diesem Abschnitt diskutieren wir kurz, wie sich die Schätzer θ und σ verhalten, wenn die Fehler ɛ i zwar unabhängig sind, aber die Regressionsfunktion f nicht zu der gegebenen Klasse F gehört. Geometrisch bedeutet dies, dass der Vektor IE(Y ) = f(x) := ( f(x i ) ) n nicht notwendig im Modellraum M liegt. Wir definieren ganz pragmatisch Dann ist θ := IE( θ) = (D D) 1 D f(x). Dθ = Hf(X). Demnach beschreibt θ eine möglichst gute Approximation ˇf := p j=1 θ jf j an die Regressionsfunktion f in dem Sinne, dass minimal ist. f(x) ˇf(X) 2 = ( f(xi ) ˇf(X i ) ) 2 Im Falle von homoskedastischen Fehlern ɛ i mit Varianz σ 2 führt die Fehlspezifikation von f tendenziell zu erhöhten Werten für σ 2. Genauer gesagt, ist (2.5) IE( σ 2 ) = σ 2 + (n p) 1 f(x) ˇf(X) 2.

34 34 KAPITEL 2. SCHÄTZUNG VON PARAMETERN Aufgabe Beweisen Sie diese Gleichung (2.5). Über den Approximationsfehler f(x) ˇf(X) kann man im Falle von polynomialer Regression recht genaue Aussagen treffen: Satz Sei X ein reelles Intervall und X ein Datenvektor mit mindestens d + 2 verschiedenen Komponenten in X, d N 0. Ferner sei f : X R eine (d + 1)-mal differenzierbare Funktion. Für 0 k d + 1 sei p k (x) ein Polynom vom Grad k mit führendem Koeffizienten 1, und die Vektoren p 0 (X)p 1 (X),..., p d+1 (X) seien paarweise orthogonal. Bezeichnen wir mit F den Raum aller Polynome vom Grade höchstens d, dann ist f(x) ˇf(X) sup x X f (d+1) (x) p d+1 (X). (d + 1)! Gleichheit gilt beispielsweise, wenn f ein Polynom vom Grad höchstens d + 1 ist. Beweis von Satz Wir verwenden mehrere bekannte Resultate über orthogonale Polynome und Polynominterpolation, die z.b. in der Monographie von G. Opfer (1994) dargestellt werden. Tatsache 1: Das Polynom p d+1 (x) hat d + 1 verschiedene Nullstellen in X! Beweis von Tatsache 1: Angenommen, es gäbe nur m d Punkte x 1 < < x m in X, an welchen p d+1 (x) das Vorzeichen wechselt. Dann wäre q(x) := ± m (x x i) ein Polynom vom Grad m mit der besonderen Eigenschaft, dass p d+1 (x)q(x) > 0 für alle x X mit p d+1 (x) 0. (Im Falle von m = 0 setzen wir q(x) := ±1.) Da aber q(x) eine Linearkombination von p 0 (x),..., p d (x) ist, wäre 0 = q(x) p d+1 (X), und dies würde bedeuten, dass p d+1 (X) = 0. Tatsache 2: Seien x 0 < x 1 < < x d die Nullstellen von p d+1 (x) in X. Ferner sei p(x) das eindeutige Polynom vom Grad höchstens d mit der Eigenschaft, dass p(x i ) = f(x i ) für 0 i d. Dann gibt es zu jedem z X einen Punkt ξ(z) X derart, dass f(z) p(z) = f (d+1) (ξ(z)) (d + 1)! p d+1 (z). Beweis von Tatsache 2: Für z {x 0, x 1,..., x d } ist nichts zu beweisen, denn dann ist f(z) p(z) = 0 = p d+1 (z). Sei also z {x 0, x 1,..., x d }. Nun setzen wir h(x) := f(x) p(x) γp d+1 (x) mit γ := ( f(z) p(z) )/ p d+1 (z). Dies definiert eine (d + 1)-mal differenzierbare Funktion h : X R mit mindestens d + 2 verschiedenen Nullstellen, nämlich z, x 0, x 1,..., x d. Folglich hat h mindestens d + 1 verschiedene Nullstellen in X, und induktiv kann man folgern, dass h (d+1) mindestens eine Nullstelle ξ(z) in X hat. Da p d+1 (x) vom Grad d+1 mit führendem Koeffizienten 1 ist, ist p (d+1) d+1 (d + 1)!, wohingegen p (d+1) 0. Daher ist 0 = h (d+1) (ξ(z)) = f (d+1) (ξ(z)) γ(d + 1)!, und dies impliziert, dass f(z) p(z) = p d+1 (z)f (d+1) (ξ(z))/(d + 1)!.

35 2.6. PARAMETRISIERUNGEN BEI KATEGORIELLEN KOVARIABLEN 35 Beweis des Satzes: Mit dem Interpolationspolynom p aus Tatsache 2 folgt aus der Definition von ˇf, dass f(x) ˇf(X) 2 f(x) p(x) 2 = ( f (d+1) (ξ(x i )) (d + 1)! ) 2pd+1 (X i ) 2 ( supx X f (d+1) (x) ) 2 p d+1 (X) 2. (d + 1)! Gleichheit gilt beispielsweise, wenn f ein Polynom vom Grad höchstens d + 1 ist. Denn dann ist f = p + cp d+1 für ein c R, und f (d+1) (d + 1)!c. 2.6 Parametrisierungen bei kategoriellen Kovariablen Im Zusammenhang mit kategoriellen Kovariablen (sogenannten Faktoren) verwendet man häufig besondere Parametrisierungen, was wir zunächst im Spezialfall der Einweg-Varianzanalyse und dann in einem komplexeren Modell erläutern Einweg-Varianzanalyse Wie in Beispiel 1.1 betrachten wir eine Kovariable X {1, 2,..., L}. An Stelle der Modellgleichung Y = f(x) + ɛ schreibt man häufig Y = µ + a(x) + ɛ mit unbekannten Parametern, µ, a(1),..., a(l), die eine der folgenden Nebenbedingungen erfüllen: Konvention 1. Für eine bestimmte Kategorie j o ist a(j o ) = 0. In diesem Falle ist µ der Mittelwert von Y im Falle von X = j o, und a(j) beschreibt den Unterschied zwischen Kategorie j und Kategorie j o. Der Zusammenhang mit der Funktion f : {1,..., L} R und den neuen Parametern ist also: µ = f(j o ) und a(j) = f(j) f(j o ). Diese Konvention ist zum Beispiel bei medizinischen Datensätzen sinnvoll, wenn X für eine Behandlungsmethode steht, wobei j o eine Kontrollgruppe (z.b. Placebo) repräsentiert. Verwendet wird diese Konvention beispielsweise von SPSS oder R, und der Benutzer kann j o spezifizieren. Konvention 2. Die Summe L j=1 a(j) ist gleich Null. In diesem Falle kann man µ als Grundeffekt interpretieren, und a(j) ist der Effekt von Kategorie j relativ zu allen übrigen. Diese Konvention wird beispielsweise von DataDesk verwendet. Der Zusammenhang mit der Funktion f : {1,..., L} R und den neuen Parametern ist also: µ = 1 L L f(j) und a(j) = f(j) µ. j=1

36 36 KAPITEL 2. SCHÄTZUNG VON PARAMETERN Zweiweg-Varianzanalyse Angenommen, X besteht aus zwei Kovariablen C {1,..., L} und D {1,..., M}. Nun könnte man X selbst als kategorielle Kovariable mit L M möglichen Werten auffassen. Dies entspricht der Modellgleichung Y = f(c, D) + ɛ mit einer unbekannten Regressionsfunktion f : {1,..., L} {1,..., M} R. Aus Sicht der Anwender ist es aber oft wünschenswert, den Einfluss der beiden Kovariablen zu trennen und zu verdeutlichen. Dabei gibt es zwei verschiedene Vorgehensweisen. Kreuzklassifikation. An Stelle von Y = f(c, D) + ɛ schreibt man Y = µ + a(c) + b(d) + h(c, D) + ɛ mit einem Grundeffekt µ, den Haupteffekten a : {1,..., L} R bzw. b : {1,..., M} R der beiden Kovariablen und ihren Interaktionen h(c, d), also h : {1,..., L} {1,..., M} R. Auch hier benötigt man gewisse Konventionen, damit die Parameter a(j), b(k) und h(j, k) eindeutig sind. Die obige Konvention 1 entspricht hier folgenden Nebenbedingungen: Für gewisse Referenzkategorien j o {1,..., L} und k o {1,..., M} verlangen wir, dass a(j o ) = 0, b(k o ) = 0, h(j o, k) = 0 für 1 k M, h(j, k o ) = 0 für 1 j L. Es gelten also die Formeln µ = f(j o, k o ), a(j) = f(j, k o ) f(j o, k o ), b(k) = f(j o, k) f(j o, k o ), h(j, k) = f(j, k) f(j, k o ) f(j o, k) + f(j o, k o ).

37 2.6. PARAMETRISIERUNGEN BEI KATEGORIELLEN KOVARIABLEN 37 Die obige Konvention 2 entspricht hier folgenden Nebenbedingungen: L a(j) = 0, j=1 M b(k) = 0, k=1 M h(j, k) = 0 für 1 j L, k=1 L h(j, k) = 0 für 1 k M. j=1 Die Haupteffekte wirken also per definitionem additiv, und die Interaktionen beschreiben die Abweichung der Regressionsfunktion f von einer rein additiven Struktur. Es gelten folgende Formeln: µ = 1 LM a(j) = 1 M b(k) = 1 L L j=1 k=1 M f(j, k), M f(j, k) µ, k=1 L f(j, k) µ, j=1 h(j, k) = f(j, k) a(j) b(k) µ = f(j, k) 1 M f(j, k ) 1 M L k =1 L f(j, k) + µ. Aufgabe Diese Aufgabe vertieft unsere Betrachtungen zu Parametrisierungen für Kreuzklassifikation. Es geht eigentlich um Funktionen j =1 f : {1, 2,..., L} {1, 2,..., M} R, die wir aber vorübergehend mit Matrizen im R L M identifizieren. (a) Konstruieren Sie eine Orthogonalbasis v 1, v 2,..., v L des R L derart, dass der erste Basisvektor v 1 gleich (1, 1,..., 1) ist. (Tipp: Es gibt eine elegante Lösung per Induktion nach L.) (b) Nun betrachten wir den L M-dimensionalen Vektorraum R L M mit dem Skalarprodukt A, B := Spur(A B) = i,j A ijb ij. Seien v 1, v 1,..., v L und w 1, w 2,..., w M Orthogonalbasen des R L bzw. R M. Zeigen Sie, dass die L M Matrizen eine Orthogonalbasis des R L M bilden. v j w k, 1 j L, 1 k M, (c) Kombinieren Sie die Teile (a) und (b), um die Zerlegung von f in Konstante, Haupteffekte und Interaktionen, f(j, k) = µ + a(j) + b(k) + h(j, k),

38 38 KAPITEL 2. SCHÄTZUNG VON PARAMETERN geometrisch zu erklären, wenn man Konvention 2 verwendet. Hierarchische Modellierung. An Stelle von Y = f(c, D) + ɛ schreibt man Y = µ + a(c) + b(c, D) + ɛ mit einem Grundeffekt µ, dem Haupteffekt a : {1,..., L} R der Kovariable C und den Nebeneffekten b(j, ) : {1,..., M} R der Kovariable D für 1 j L. Dabei gibt es wieder zwei Konventionen: Konvention 1: Für gewisse Referenzkategorien j o {1,..., L} und k o {1,..., M} ist Dann gelten folgende Formeln: a(j o ) = 0, b(j, k o ) = 0 für 1 j L. µ = f(j o, k o ), a(j) = f(j, k o ) f(j o, k o ), b(j, k) = f(j, k) f(j, k o ). Konvention 2: Wir verlangen, dass Dann gelten folgende Formeln: L a(j) = 0, j=1 M b(j, k) = 0 für 1 j L. k=1 µ = 1 LM a(j) = 1 M L j=1 k=1 M f(j, k), M f(j, k) µ, k=1 b(j, k) = f(j, k) 1 M M f(j, l). l= Papier- und Tafelnotation In vielen Arbeiten und Lehrbüchern versteckt man Faktoren (kategorielle Kovariablen) gerne mit Hilfe von mehrfachen Subskripten. Wir illustrieren dies an drei Beispielen:

39 2.6. PARAMETRISIERUNGEN BEI KATEGORIELLEN KOVARIABLEN 39 Einweg-Varianzanalyse. Wir bezeichnen mit Y j1, Y j2,..., Y jn(j) jene Beobachtungen Y i mit X i = j. Dann können wir schreiben: Y js = f j + ɛ js, 1 j L, 1 s n(j), bzw. Y js = µ + a j + ɛ js, 1 j L, 1 s n(j). Dabei sind f 1,..., f L bzw. µ, a 1,..., a L unbekannte Parameter, und die ɛ js sind unabhängige zufällige Fehler mit Erwartungswert 0. Die KQ-Schätzer für f 1,..., f j sind dann gegeben durch die Mittelwerte f j := Ȳj := 1 n(j) Y js. n(j) s=1 Zweiweg-Varianzanalyse. Wir bezeichnen mit Y jk1, Y jk2,..., Y jkn(j,k) jene Beobachtungen Y i mit (C i, D i ) = (j, k). Dann können wir schreiben: Y jks = f jk + ɛ jks, 1 j L, 1 k M, 1 s n(j, k), bzw. Y jks = µ + a j + b k + h jk + ɛ jks, 1 j L, 1 k M, 1 s n(j, k), bzw. Y jks = µ + a j + b jk + ɛ jks, 1 j L, 1 k M, 1 s n(j, k), Dabei sind die f jk bzw. µ, a j, b k, h jk bzw. µ, a j, b jk unbekannte Parameter, und die ɛ jks sind unabhängige zufällige Fehler mit Erwartungswert 0. Die KQ-Schätzer für die f jk sind dann gegeben durch die Mittelwerte f jk = Ȳjk := 1 n(j,k) Y jks. n(j, k) s=1 Einfache Kovarianzanalyse. Wir bezeichnen mit (Y j1, W j1 ), (Y j2, W j2 ),..., (Y jn(j), W jn(j) ) jene Beobachtungen (Y i, W i ) mit C i = j. Dann können wir schreiben: Y js = a j + bw js + ɛ js, 1 j L, 1 s n(j), mit unbekannten Parametern a 1,..., a L, b und unabhängigen zufälligen Fehlern ɛ js mit Erwartungswert 0. Die KQ-Schätzer für die unbekannten Parameter lassen sich nun schreiben als â j = Ȳj b W j und b = L n(j) j=1 s=1 (W js W j )Y js L n(j) j=1 s=1 (W js W. j ) 2

40 40 KAPITEL 2. SCHÄTZUNG VON PARAMETERN

41 Kapitel 3 Tests und Konfidenzbereiche In diesem Kapitel studieren wir das lineare Modell ausschließlich unter der Annahme, dass die unabhängigen Fehler ɛ 1, ɛ 2,..., ɛ n normalverteilt sind mit Erwartungswert Null und Standardabweichung σ > 0. Was passiert, wenn diese Annahmen verletzt sind, werden wir später noch studieren. 3.1 Multivariate Normalverteilungen Wir erinnern zunächst an die univariaten Normalverteilungen: Eine Zufallsvariable Z ist standardnormalverteilt, wenn ihre Verteilung durch folgende Dichtefunktion φ beschrieben wird: φ(x) := (2π) 1/2 exp ( x2 Insbesondere ist IE(Z) = 0 und Var(Z) = 1. Die entsprechende Verteilung ist die (univariate) Standardnormalverteilung N (0, 1). Für µ R und σ 0 definiert man die Normalverteilung mit Mittelwert µ und Varianz σ 2 bzw. Standardabweichung σ als die Verteilung von X := µ + σz. Bezeichnet wird sie mit N (µ, σ 2 ). Im Falle von σ > 0 hat sie die Dichtefunktion φ µ,σ 2(x) := σ 1 φ(σ 1 (x µ)) = (2πσ 2 ) 1/2 (x ) µ)2 exp ( 2σ 2. Eine wesentliche Eigenschaft von Normalverteilungen ist, dass die Summe zweier unabhängiger normalverteilter Zufallsvariablen erneut normalverteilt ist. Dies kann man beispielsweise mit charakteristischen Funktionen (Fourier-Transformation) nachweisen. Nun betrachten wir einen Zufallsvektor X R k. Seine Verteilung wird eindeutig charakterisiert durch die Verteilungen von b X, wenn b alle Einheitsvektoren im R k durchläuft. Auch diese Tatsache lässt sich mit charakteristischen Funktionen nachweisen. Definition 3.1 (Multivariate Normalverteilung). Der Zufallsvektor X ist normalverteilt mit Erwartungswert(vektor) µ R k und Kovarianz(matrix) Σ R k k, wenn für beliebige Vektoren b R k gilt: b X N ( b µ, b Σb ) ).

42 42 KAPITEL 3. TESTS UND KONFIDENZBEREICHE Seine Verteilung nennt man die (multivariate) Normalverteilung mit Mittelwert µ und Kovarianzmatrix Σ. Bezeichnet wird sie mit N k (µ, Σ). Die spezielle Verteilung N k (0, I k ) nennt man die Standardnormalverteilung im R k oder kurz die k-variate Standardnormalverteilung. Anmerkung 3.2 (Existenz/Simulation). Zu einem beliebigen Vektor µ R k und einer beliebigen symmetrischen, positiv semidefiniten Matrix Σ R k k existiert stets ein Zufallsvektor X mit Verteilung N k (µ, Σ). Sei nämlich Z = (Z i ) k mit stochastisch unabhängigen, nach N (0, 1) verteilten Komponenten. Dieser Vektor Z ist standardnormalverteilt. Denn für einen beliebigen Vektor b R k ist b Z = b 1 Z b k Z k als Summe von unabhängigen, normalverteilten Zufallsvariablen ebenfalls normalverteilt mit Mittelwert Null und Varianz b b2 k = b b. Nun definieren wir X := µ + F Z mit einer Matrix F R k k derart, dass F F = Σ, zum Beispiel F = Σ 1/2. Dieser Zufallsvektor X hat die gewünschte Verteilung, denn b X = b µ + (F b) Z ist für beliebige Vektoren b R k normalverteilt mit Mittelwert b µ und Varianz F b 2 = b F F b = b Σb. Anmerkung 3.3 (Dichtefunktionen). Die k-variate Standardnormalverteilung hat bezüglich des k-dimensionalen Lebesguemaßes folgende Dichtefunktion φ: φ(x) = k φ(x i ) = (2π) k/2 exp ( x 2 ). 2 Für einen beliebigen Vektor µ R k und eine symmetrische, positiv definite Matrix Σ R k k hat N k (µ, Σ) eine Lebesguedichtefunktion φ µ,σ, nämlich φ µ,σ (x) = det(σ) 1/2 φ ( Σ 1/2 (x µ) ) ( = (2π) k/2 det(σ) 1/2 exp (x µ) Σ 1 (x µ) 2 Dies folgt aus der Transformationsformel für das Lebesguemaß unter Diffeomorphismen. Lemma 3.4. Sei X ein Zufallsvektor mit Verteilung N k (µ, Σ). Für einen Vektor a R l und eine Matrix B R l k ist Aufgabe 3.5. Beweisen Sie Lemma 3.4. a + BX N l ( a + Bµ, BΣB ). Als Korollar hieraus ergibt sich eine für uns ganz wesentliche Eigenschaft von Normalverteilungen, die sogenannte Rotationsinvarianz. Diese besagt, dass die k-variate Standardnormalverteilung unter orthonormalen Transformationen (Drehungen und Spiegelungen) invariant ist. ).

43 3.1. MULTIVARIATE NORMALVERTEILUNGEN 43 Korollar 3.6 (Rotationsinvarianz). Sei X ein Zufallsvektor mit k-variater Standardnormalverteilung, und sei T R k k eine orthogonale Matrix. Dann ist auch T X standardnormalverteilt. Aufgabe 3.7 (Stochastische Unabhängigkeit bei Normalverteilungen). Sei X = (X 1, X 2 ) ein Zufallsvektor mit Komponenten X i R k(i) derart, dass ( ) (( ) ( )) X1 µ1 Σ11 Σ N X k(1)+k(2), µ 2 Σ 21 Σ 22 Zeigen Sie, dass folgende Aussagen äquivalent sind: (i) X 1 und X 2 sind stochastisch unabhängig; (ii) Σ 12 = Σ 21 = 0. Spezielle Verteilungen In den folgenden Abschnitten werden uns die folgenden speziellen Verteilungen immer wieder begegnen: Definition 3.8 (Chiquadrat-, Student- und F-Verteilungen). Seien Z 1, Z 2, Z 3,... stochastisch unabhängige, standardnormalverteilte Zufallsvariablen. (a) Die Chiquadrat-Verteilung (χ 2 -Verteilung) mit k Freiheitsgraden ist definiert als die Verteilung von k Zi 2. Bezeichnet wird sie mit dem Symbol χ 2 k. Ihr β-quantil bezeichnen wir mit χ2 k;β. (b) Students t-verteilung (Student-Verteilung, t-verteilung) mit k Freiheitsgraden ist definiert als die Verteilung von Z 1 k 1 k+1 i=2 Z2 i Bezeichnet wird sie mit dem Symbol t k. Ihr β-quantil bezeichnen wir mit t k;β. Hier ist das englische Wort student gemeint, und man spricht es auch englisch aus. Unter diesem Pseudonym veröffentlichte der britische Statistiker William Gosset wesentliche Resultate zur t- Verteilung. (c) Fishers F-Verteilung (F-Verteilung) mit k und l Freiheitsgraden ist definiert als die Verteilung von k 1 k Z2 i l 1. k+l i=k+1 Z2 i Bezeichnet wird sie mit dem Symbol F k,l. Ihr β-quantil bezeichnen wir mit F k,l;β. Man kann zeigen, dass alle hier definierten Verteilungen Dichtefunktionen bezüglich des Lebesguemaßes haben. Insbesondere sind die entsprechenden Verteilungsfunktionen stetig. Chiquadratverteilungen kommen beispielsweise im Zusammenhang mit Konfidenzbereichen vor. Dahinter steht folgendes Resultat:.

44 44 KAPITEL 3. TESTS UND KONFIDENZBEREICHE Lemma 3.9. Sei X normalverteilt mit Mittelwert µ R k und nichtsingulärer Kovarianz Σ R k k. Dann ist (X µ) Σ 1 (X µ) χ 2 k. Beweis von Lemma 3.9. Nach Lemma 3.4 ist der Zufallsvektor Z := Σ 1/2 (X µ) standardnormalverteilt im R k. Insbesondere ist (X µ) Σ 1 (X µ) = Z 2 chiquadratverteilt mit k Freiheitsgraden. Aufgabe Sei X ein Zufallsvektor mit Verteilung N k (0, Σ) und A eine symmetrische Matrix im R k k. Zeigen Sie, dass und wie die Verteilung von X AX nur von den Eigenwerten von Σ 1/2 AΣ 1/2 abhängt. 3.2 Die gemeinsame Verteilung von θ und σ Um die nachfolgenden Formeln zu vereinfachen, schreiben wir Γ := D D. Satz Die Schätzer θ und σ sind stochastisch unabhängig, und θ N p ( θ, σ 2 Γ 1), (n p) σ2 σ 2 χ2 n p. Beweis von Satz Mit B := Γ 1 D R p n lässt sich θ als θ + Bɛ darstellen. Da der Fehlervektor ɛ normalverteilt ist mit Erwartungswert 0 und Kovarianzmatrix σ 2 I n, folgt aus Lemma 3.4, dass ( θ N p θ, σ 2 BB ) ( = N p θ, σ 2 Γ 1). Um nun σ 2 ins Spiel zu bringen, betrachten wir eine Orthonormalbasis t 1, t 2,..., t n des R n, so dass der Modellraum M von t 1,..., t p aufgespannt wird. Dann gilt für einen beliebigen Vektor v R n : Der Zufallsvektor Hv = p (t i v)t i und (I H)v = ( ) n Z := σ 1 t i ɛ (t i v)t i. i=p+1 ist standardnormalverteilt. Dies folgt aus der Tatsache, dass σ 1 ɛ standardnormalverteilt ist, und Korollar 3.6, angewandt auf die orthonormale Matrix [t 1, t 2,..., t n ]. Nun kann man schreiben θ θ = Bɛ = σ Z i Bt i p = σ Z i Bt i, da D t i = 0 für alle i > p. Außerdem ist (n p) σ 2 = (I H)ɛ 2 = σ 2 Zi 2. i=p+1

45 3.3. STUDENT-KONFIDENZINTERVALLE UND -TESTS 45 Diese beiden Darstellungen zeigen, dass θ eine Funktion von Z 1,..., Z p und σ eine Funktion von Z p+1,..., Z n ist. Aus der stochastischen Unabhängigkeit der Z i folgt damit auch die stochastische Unabhängigkeit von θ und σ. Ferner ist (n p) σ 2 /σ 2 = n i=p+1 Z2 i, also χ2 -verteilt mit n p Freiheitsgraden. 3.3 Student-Konfidenzintervalle und -Tests In diesem Abschnitt geht es um Konfidenzaussagen über eine einzelne Linearform ψ θ mit ψ R p \ {0}. Besonders wichtig und nützlich sind Konfidenzbereiche für ψ θ. Außerdem liefern viele Statistik-Programme P-Werte für die Nullhypothese ψ θ = 0, die wir im Anschluss an die Konfidenzbereiche erläutern Student-Konfidenzbereiche Für die Konstruktion von Konfidenzbereichen betrachten wir die Testgröße T ψ := ψ θ ψ θ σ ψ mit dem Standardfehler σ ψ = σ ψ Γ 1 ψ = σ a ψ, wobei a ψ := DΓ 1 ψ. Der Standardfehler dient als Ersatz für die tatsächliche Standardabweichung σ ψ = σ ψ Γ 1 ψ = σ a ψ von ψ θ. Korollar Für einen beliebigen Vektor ψ R p \ {0} ist T ψ student-verteilt mit n p Freiheitsgraden. Beweis von Korollar Nach Lemma 3.4 und Satz 3.11 ist Z := ψ θ ψ θ σ ψ standardnormalverteilt und von σ stochastisch unabhängig. Ferner ist S 2 := (n p) σ 2 /σ 2 nach χ 2 n p verteilt. Folglich ist T ψ = Z σ 2 /σ = Z 2 (n p) 1 S 2 student-verteilt mit n p Freiheitsgraden. Nun wissen wir insbesondere, dass IP ( T ψ t n p;1 α ) IP ( T ψ t n p;1 α ) IP ( T ψ t n p;1 α/2 ) = 1 α. Löst man die Ungleichungen für T ψ nach ψ θ auf, so ergeben sich hierfür Konfidenzbereiche:

46 46 KAPITEL 3. TESTS UND KONFIDENZBEREICHE Die untere (1 α)-konfidenzschranke ψ θ σψ t n p;1 α, die obere (1 α)-konfidenzschranke ψ θ + σψ t n p;1 α, bzw. das (1 α)-konfidenzintervall [ ψ θ ± σψ t n p;1 α/2 ]. Welchen dieser drei Konfidenzbereiche man verwendet, muss schon vor der Datenauswertung festgelegt werden. Beispiel 3.13 (Einfache lineare Regression, Beispiel 1.2). Hier ist X R und f(x) = a + bx. Mit dem zentrierten Vektor X := (X i X) n ist b = X Y X 2 ( N b, σ 2 X 2 ). Ein (1 α)-konfidenzintervall für den Steigungsparameter b ist also gegeben durch σ ] [ b ± X t n 2;1 α/2. Nun betrachten wir die Regressionsfunktion an einer beliebigen Stelle x R. Es ist f(x) = â + bx = Ȳ + b(x X) N ( f(x), σ(x) 2) wobei 1 (x X) 2 σ(x) := σ +. n X 2 Ersetzt man in σ(x) die Standardabweichung σ durch σ, so erhält man den Standardfehler σ(x) von f(x). Ein (1 α)-konfidenzintervall für f(x) ist dann gegeben durch [ f(x) ± σ(x)tn 2;1 α/2 ]. Als Funktion von x ist die obere oder untere Konfidenzschranke eine Hyperbel mit Asymptoten x f(x) x X ± σ X t n 2;1 α/2. Abbildung 3.1 zeigt für einen Datensatz mit n = 50 Beobachtungen die Regressionsgerade sowie die 95%-Konfidenzschranken samt Asymptoten. Beispiel 3.14 (Einfache Kovarianzanalyse, Beispiel 1.4). Wir betrachten zwei Kovariablen, C {1, 2,..., L} und W R, und die Modellgleichung lautet Y = a(c) + bw + ɛ. Für 1 j < k L ist â(k) â(j) = Ȳ (k) Ȳ (j) b ( W (k) W (j) ) N ( a(k) a(j), σ(j, k) 2 ) mit der Standardabweichung σ(j, k) := σ 1 n(j) + 1 n(k) + ( W (k) W ) 2 (j) W, 2

47 3.3. STUDENT-KONFIDENZINTERVALLE UND -TESTS 47 Abbildung 3.1: Regressionsgerade und punktweise 95%-Konfidenzintervalle für f(x) ( wobei W := Wi W (C i ) ) n. Auch hier ersetzen wir σ durch σ und erhalten den Standardfehler σ(j, k) von â(k) â(j). Dann ist [â(k) â(j) ± σ(j, k)tn L 1;1 α/2 ] ein (1 α)-konfidenzintervall für a(k) a(j). Aufgabe Betrachten Sie den Datensatz Trees.txt und die Variablen Y := log(volume), X(1) := log(height) und X(2) := log(diameter). Berechnen Sie nun jeweils ein 95%-Konfidenzintervall für die Parameter a, b 1, b 2 in der Modellgleichung Y = a + b 1 X(1) + b 2 X(2) + ɛ. Welchen Rückschluss können Sie über das Modell Y = a + X(1) + 2X(2) + ɛ ziehen? Student-Tests Anstelle von Konfidenzschranken oder -intervallen für ψ θ kann man auch Hypothesen hierüber testen. Für eine bestimmte Zahl c o betrachten wir die Testgröße T ψ (c o ) := ψ θ co σ ψ. Ferner sei tcdf k ( ) die Verteilungsfunktion von t k. Einseitiger Test. Lautet das Testproblem H o : ψ θ c o versus H A : ψ θ > c o, so kann man die Nullhypothese auf dem Niveau α verwerfen, falls T ψ (c o ) t n p;1 α.

48 48 KAPITEL 3. TESTS UND KONFIDENZBEREICHE Dies ist äquivalent dazu, dass der P-Wert kleiner oder gleich α ist. 1 tcdf n p (T ψ (c o )) Zweiseitiger Test. Nun betrachten wir das Testproblem H o : ψ θ = c o versus H A : ψ θ c o. Hier kann man die Nullhypothese auf dem Niveau α verwerfen, falls Der entsprechende P-Wert ist T ψ (c o ) t n p;1 α/2. 2 (1 tcdf n p ( Tψ (c o ) )). Beispiel 3.16 (Konfidenzbereich für einen Scheitelpunkt). Wir betrachten das Modell der quadratischen Regression, also X R und Y = f(x) + ɛ mit f(x) = a 0 + a 1 x + a 2 x 2 /2. (Der Faktor 1/2 bei x 2 wird sich als praktisch erweisen.) Unter der zusätzlichen Annahme, dass a 2 < 0, möchten wir einen Konfidenzbereich für die Maximalstelle x von f bestimmen. Letztere ist der eindeutige Punkt x R mit f (x) = a 1 + a 2 x = 0, also x = a 1 a 2. Ein naiver Ansatz wäre, für a 1 und a 2 jeweils ein (1 α/2)-vertrauensintervall zu berechnen und daraus einen Vertrauensbereich für den Quotienten x = a 1 /a 2 zu konstruieren. Eine elegantere Methode besteht darin, für jeden Punkt x R die Nullhypothese f (x) = 0 zu testen. Der Gauß-Markov-Schätzer für f (x) ist gleich f (x) = â 1 + â 2 x mit Standardfehler σ(x) = Σ Σ 12 x + Σ 22 x 2. Dabei ist Σ 00 Σ01 Σ02 Σ 10 Σ11 Σ12 Σ 20 Σ21 Σ22 := σ 2 Γ 1, die geschätzte Kovarianzmatrix von θ. Wir wissen, dass f (x ) σ(x ) t n p. Daher ist C = C(Daten, α) := { x R : f (x) σ(x)t n p;1 α/2 }

49 3.4. F-KONFIDENZBEREICHE UND -TESTS 49 ein (1 α)-konfidenzbereich für x. Grob gesagt, besteht er aus allen Punkten x, für welche die Nullhypothese f (x) = 0 nicht abgelehnt wird. Genauer gesagt, enthält er alle Punkte x mit der Eigenschaft, dass das Konfidenzintervall [ f (x) ± σ(x)t n p;1 α/2 ] den Punkt 0 enthält. Die Frage ist noch, ob diese Menge C wirklich brauchbar ist. Mit τ := t n p;1 α/2 können wir schreiben: C = { x R : â â 1 â 2 x + â 2 2x 2 Σ 11 τ Σ 12 τ 2 x + Σ 22 τ 2 x 2} = { x R : (â 2 2 Σ 22 τ 2 )x 2 + 2(â 1 â 2 Σ 12 τ 2 )x Σ 11 τ 2 â 2 1}. Im Falle von â 2 2 > Σ 22 τ 2 ist dies ein beschränktes Intervall mit Mittelpunkt x = Σ 12 τ 2 â 1 â 2 â 2 2 Σ 22 τ 2. Die Bedingung â 2 2 > Σ 22 τ 2 ist übrigens gleichbedeutend damit, dass das Konfidenzintervall für a 2 den Wert 0 nicht enthält. Aufgabe Vervollständigen und implementieren Sie das Verfahren in Beispiel F-Konfidenzbereiche und -Tests F-Konfidenzellipsoide Bisher betrachteten wir nur eine einzelne Linearform ψ θ. Man kann aber auch für den ganzen Vektor θ einen kompakten Konfidenzbereich konstruieren. Die zugrundeliegende Testgröße ist wobei η R p ein hypothetischer Wert von θ ist. F (Y, η) := ( θ η) Γ( θ η) p σ 2, Korollar Die obige Testgröße F (Y, θ) ist verteilt nach F p,n p. Beweis von Korollar Nach Lemma 3.9 ist die Zufallsvariable S 2 o := ( θ θ) Γ( θ θ) σ 2 nach χ 2 p verteilt, und gemäß Satz 3.11 ist sie stochastisch unabhängig von σ 2. Ferner ist S 2 := (n p) σ 2 /σ 2 nach χ 2 n p verteilt. Folglich ist F (Y, θ) = S2 oσ 2 p σ 2 = F-verteilt mit p und n p Freiheitsgraden. Aus Korollar 3.18 folgt, dass p 1 S 2 o (n p) 1 S 2 C = C(Daten, α) := { η R p : F (Y, η) F p,n p;1 α } = { η R p : ( θ η) Γ( θ η) σ 2 pf p,n p;1 α }

50 50 KAPITEL 3. TESTS UND KONFIDENZBEREICHE ein exakter (1 α)-konfidenzbereich für θ ist. Das heißt, IP(θ C) = 1 α. Wenn Γ ein Vielfaches der Einheitsmatrix ist, dann ist die Menge C eine abgeschlossene Kugel im R p mit Mittelpunkt θ. Allgemein ist C ein kompaktes Ellipsoid mit Mittelpunkt θ. Denn mit ĉ := σ pf p,n p;1 α kann man schreiben: C = { θ + v : v R p, v Γv ĉ 2} = { θ + Γ 1/2 w : w R p, w ĉ } Simultane Konfidenzintervalle Das zuvor beschriebene Konfidenzellipsoid C für θ mag im Falle von p 3 hilfreich sein, doch in höheren Dimensionen ist sein Nutzen nicht so offensichtlich. Das folgende Lemma und Korollar liefern aber eine sehr wichtige Aussage. Lemma 3.19 (Henry Scheffé). Für einen Vektor v R p und eine Konstante c > 0 sind die folgenden zwei Bedingungen äquivalent: (3.1) v Γv c 2 ; (3.2) ψ v c ψ Γ 1 ψ für alle ψ R p. Korollar 3.20 (Henry Scheffé). IP ( ψ θ ψ θ σ ψ pfp,n p;1 α für alle ψ R p) = 1 α. Korollar 3.20 zeigt, dass der Konfidenzbereich C simultane (1 α)-konfidenzintervalle für beliebige Linearformen ψ θ liefert. Beispiel 3.21 (Einfache lineare Regression, Bsp. 1.2). Für jedes einzelne x R ist f(x) mit Wahrscheinlichkeit 1 α im Intervall [ ] f(x) ± σ(x)tn 2;1 α/2 enthalten. Nun ersetzen wir das Student-Quantil t n 2;1 α/2 durch einen größeren Wert und betrachten die Schranken f(x) ± σ(x) 2F 2,n 2;1 α. Mit Wahrscheinlichkeit genau 1 α liegt f(x) zwischen zwischen diesen beiden Schranken simultan für alle x R. Dies ergibt sich aus Korollar 3.20 und der Tatsache, dass die Menge aller Vektoren λ(1, x), x R, λ R, eine dichte Teilmenge des R 2 ist; siehe auch Aufgabe Abbildung 3.2 zeigt für die Daten aus Abbildung 3.1 die Regressionsgerade, die punktweisen und die neuen simultanen Konfidenzschranken für f(x). Beweis von Lemma Wegen v Γv = Γ 1/2 v 2 ist Bedingung (3.1) gleichbedeutend mit Γ 1/2 v c. Doch dann folgt aus der Cauchy-Schwarz-Ungleichung, dass (3.3) w Γ 1/2 v c w für alle w R p.

51 3.4. F-KONFIDENZBEREICHE UND -TESTS 51 Abbildung 3.2: Regressionsgerade, punktweise und simultane 95%-Konfidenzintervalle für f(x) Setzt man in (3.3) w = Γ 1/2 v, dann ergibt sich die Ungleichung Γ 1/2 w 2 c Γ 1/2 w, und dies ist wieder gleichbedeutend mit Bedingung (3.1). Somit sind die Bedingungen (3.1) und (3.3) äquivalent. Mit w durchläuft auch ψ := Γ 1/2 w den gesamten R p, und es gelten die beiden Gleichungen w Γ 1/2 v = ψ v sowie w = ψ Γ 1 ψ. Daher ist (3.3) gleichbedeutend mit (3.2). Aufgabe Betrachten Sie das Modell der polynomialen Regression. Schreiben Sie ein Computerprogramm, welches zu vorgegebenen Datenvektoren X, Y R n, einer Ordnung d N der Polynome und einer Zahl α (0, 1) sowohl punktweise als auch simultane Konfidenzschranken für den Wert der Regressionsfunktion f(x) an vorgegebenen Stellen x R berechnet Eine Verallgemeinerung Nicht immer ist man an simultanen Konfidenzintervallen für sämtliche Linearformen ψ θ interessiert. Oftmals liegen die interessanten Vektoren ψ in einer gewissen Teilmenge P von R p. Liegt diese Teilmenge in einem echten Teilvektorraum des R p, so kann man die simultanen Konfidenzbereiche noch verbessern. Alle interessanten Vektoren ψ seien Linearkombinationen von d < p linear unabhängigen Vektoren ψ 1,..., ψ d. Wir fassen diese Vektoren zur Matrix Ψ = (ψ 1,..., ψ d ) R p d zusammen. Dann ist ein Schätzer für den d-dimensionalen Vektor Ψ θ = ( ψ j θ) d j=1 Ψ θ = ( ψ j θ ) d j=1

52 52 KAPITEL 3. TESTS UND KONFIDENZBEREICHE mit Verteilung wobei ( N d Ψ θ, σ 2 Γ 1 ) Ψ, Γ Ψ := (Ψ Γ 1 Ψ) 1. Außerdem ist er stochastisch unabhängig von σ. Definiert man also F Ψ (Y, w) := (Ψ θ w) Γ Ψ (Ψ θ w) d σ 2 für einen hypothetischen Wert w R d von Ψ θ, dann ist die Testgröße F Ψ (Y, Ψ θ) nach F d,n p verteilt. Ein (1 α)-konfidenzbereich für Ψ θ ist also gegeben durch C Ψ = C Ψ (Daten, α) := { w R d : F Ψ (Y, w) F d,n p;1 α } = { w R d : (Ψ θ w) Γ Ψ (Ψ θ w) σ 2 df d,n p;1 α }. Aus Lemma 3.19 kann man ableiten, dass Ψ θ genau dann in der Menge C Ψ liegt, wenn für beliebige Vektoren λ R d und ψ := Ψλ gilt: ψ θ ψ θ σ ψ dfd,n p;1 α. Diese Überlegungen führen zu folgendem allgemeinen Resultat: Satz 3.23 (Henry Scheffé). Sei P eine beliebige Teilmenge des R p \ {0}, und die Dimension des von P aufgespannten Raums sei d. Dann ist ( ψ IP θ ψ θ ) σψ dfd,n p;1 α für alle ψ P 1 α. Gleichheit gilt genau dann, wenn die Menge { ± ψ 1 ψ : ψ P } eine dichte Teilmenge der Einheitssphäre des Raums span(p) ist. Die zusätzliche Aussage zur Gleichheit ergibt sich aus der nachfolgenden Aufgabe. Aufgabe Sei P eine Teilmenge der Einheitssphäre S d 1 des R d. Zeigen Sie, dass { x R d : v x 1 } { x R d : x 1 } v P mit Gleichheit genau dann, wenn P ( P) eine dichte Teilmenge von S d 1 ist F-Tests Um eine Nullhypothese der Form H o : θ = θ o mit einem beliebigen festen Vektor θ o R p zu testen, kann man die zuvor eingeführte Teststatistik F (Y, θ o ) verwenden. Unter H o ist sie verteilt nach F p,n p. Wir verwerfen also diese Nullhypothese auf dem Niveau α, wenn F (Y, θ o ) F p,n p;1 α.

53 3.4. F-KONFIDENZBEREICHE UND -TESTS 53 Mit der Verteilungsfunktion Fcdf k,l von F k,l ist die vorangehende Ungleichung genau dann erfüllt, wenn der P-Wert 1 Fcdf p,n p (F (Y, θ o )) kleiner oder gleich α ist. Allgemeiner kann man für eine Matrix Ψ R p d wie im vorigen Abschnitt und einen beliebigen Vektor η o R d die Nullhypothese H o : Ψ θ = η o wie folgt testen: Man berechnet die Teststatistik F Ψ (Y, η o ) und verwirft die Nullhypothese, falls jene größer oder gleich F d,n p;1 α ist. Der entsprechende P-Wert ist ( 1 Fcdf d,n p FΨ (Y, η o ) ). Aufgabe Betrachten Sie den Datensatz Trees.txt und die Variablen Y := log(volume), X(1) := log(height) und X(2) := log(diameter). Testen Sie für die Modellgleichung Y = a + b 1 X(1) + b 2 X(2) + ɛ die Nullhypothese, dass b 1 = 1 und b 2 = 2, auf dem Niveau von 5%. Aufgabe Die Sauerstoffsättigung des Bluts (X, in Prozent) ist ein wichtiger physiologischer Parameter, welchen man mit Blutanalysen recht genau bestimmen kann. Alternativ kann man die Absorption von Lichtstrahlen verschiedener Wellenlängen auf dem Weg durch die Haut einer Fingerkuppe messen. Pulsoxymeter sind technische Geräte, welche mit solchen Messungen einen Ersatzwert Y für X liefern. Im Idealfall ist Y = X + ɛ. Vom Standpunkt eines Mediziners aus sollte man eher die Untersättigungen X := 100 X und Ỹ := 100 Y betrachten, denn Sättigungsgrade unter 70% sind bereits sehr kritisch und treten selten auf. Das Gerät sollte also im Bereich von 70% bis 100% zuverlässig arbeiten. Angenommen wir möchten testen, ob ein bestimmtes Gerät bei einer Testperson richtig arbeitet. Zu diesem Zweck bestimmt man die tatsächliche Sauerstoffsättigung X i und den Messwert Y i des Pulsoxymeters zu n verschiedenen Zeitpunkten. Dabei wird die Umgebungsluft der Testperson manipuliert, so dass die X-Werte deutlich variieren. (a) Angenommen Ỹ = a + b X + ɛ. Beschreiben Sie einen geeigneten Test für die Nullhypothese, dass das Gerät korrekt arbeitet, das heißt, H o : a = 0, b = 1. (b) Angenommen Ỹ = a + b X + c X 2 + ɛ. Beschreiben Sie einen geeigneten Test für die Nullhypothese, dass das Gerät korrekt arbeitet, das heißt, H o : a = 0, b = 1, c = 0.

54 54 KAPITEL 3. TESTS UND KONFIDENZBEREICHE (c) Beschreiben Sie einen geeigneten Test für die Nullhypothese, dass der Zusammenhang zwischen X und Ỹ (affin) linear ist. (d) Implementieren Sie Ihre Tests, und wenden Sie diese auf einen oder zwei Teildatensätze von Pulsoxymeter.txt an Geometrischer Zugang zu F-Tests Im vorigen Abschnitt ergaben sich die F-Tests als Nebenprodukt von Konfidenzellipsoiden. Es gibt aber auch einen direkten geometrischen Zugang zu solchen Tests. Wir betrachten das lineare Modell mit p-dimensionalem Modellraum M. Nun sei M o ein Teilvektorraum von M mit Dimension p o < p. Wir möchten folgende Nullhypothese über den Vektor µ = IE(Y ) = Dθ testen: H o : µ M o. Zusätzlich zur Hutmatrix H für den Modellraum M gibt es jetzt noch eine Projektionsmatrix H o für den kleineren Modellraum M o, und wir schreiben Ŷ o := H o Y. Ein beliebiger Vektor v R n lässt sich zerlegen in drei orthogonale Komponenten: v = H o v + (H H o )v + (I H)v. Dies entspricht einer Darstellung des R n als direkte Summe dreier orthogonaler Teilräume: R n = M o (M M o ) M. Abbildung 3.3 illustriert diese Zerlegung von Y bzw. R n. In jedem Falle ist Y Ŷ = (I H)ɛ, und unter der Nullhypothese ist zusätzlich Ŷ Ŷ o = (H H o )ɛ. Beide Vektoren enthalten also unter der Nullhypothese ausschließlich Rauschen, während das unbekannte Signal µ ganz in Ŷ o enthalten ist. Ist die Nullhypothese verletzt, dann tendiert Ŷ Ŷ o zu größeren Werten als (H H o )ɛ. Dies werden wir später noch präzisieren. Um die Nullhypothese zu testen, vergleichen wir daher die Norm von Ŷ Ŷ o mit der Norm von Y Ŷ. Die genaue Teststatistik ist F := (p p o) 1 Ŷ Ŷ o 2 (n p) 1 Y Ŷ 2 = Ŷ 2 Ŷ o 2 (p p o ) σ 2. Satz Die zuletzt eingeführte Teststatistik F ist unter der Nullhypothese, dass µ M o, nach F p po,n p verteilt. Beweis von Satz Ähnlich wie im Beweis von Satz 3.11 betrachten wir eine geeignete Orthonormalbasis t 1, t 2,..., t n des R n. Und zwar verlangen wir, dass M o von t 1,..., t po und M von t 1,..., t p aufgespannt wird. Dann gelten für einen beliebigen Vektor v R n die Darstellungen H o v = p o (t i v)t i, (H H o )v = p i=p o+1 (t i v)t i und (I H)v = n i=p+1 (t i v)t i. Definiert man also Z := σ 1 ( t i ɛ) n, dann ist F unter der Nullhypothese gleich (p p o ) 1 (H H o )ɛ 2 (n p) 1 (I H)ɛ 2 = (p p o) 1 p i=p o+1 (t i ɛ)2 (n p) 1 n = (p p p o) 1 i=p o+1 Z2 i i=p+1 (t i ɛ)2 (n p) 1 n. i=p+1 Z2 i Dies ist nach F p po,n p verteilt, da Z standardnormalverteilt ist im R n.

55 3.4. F-KONFIDENZBEREICHE UND -TESTS 55 Abbildung 3.3: Geometrie des F-Tests Aufgabe Angenommen Sie möchten testen, ob ein einfacheres lineares Modell F o F bzw. ein Untervektorraum M o M zu dem gegebenen Datenvektor Y passt. Angenommen Sie kennen nur n, p o = dim(m o ), p = dim(m) und die Varianzschätzer σ 2 o des einfachen sowie σ 2 des vollen Modells. Schreiben Sie die F-Statistik F als Funktion von n, p o, p, σ 2 o und σ 2. Beispiel 3.29 (Einwegvarianzanalyse). Ausgehend von einer Kovariable X {1, 2,..., L} verwenden wir die Papier- und Tafelnotation. Wir identifizieren also den Responsevektor Y mit (Y js ) j,s, wobei Y js = f j + ɛ js, 1 j L, 1 s n(j), mit unbekannten Parametern f 1, f 2,..., f L und unabhängigen Zufallsvariablen ɛ js N (0, σ 2 ). Um nachzuweisen, dass tatsächlich ein Zusammenhang zwischen dem kategoriellen Merkmal X und der Response Y besteht, könnte man testen, ob folgende Nullhypothese zutrifft: H o : f 1 = f 2 = = f L. Diese Nullhypothese entspricht dem Raum M o aller konstanten Vektoren mit Dimension p o = 1. Hier ist Ŷ = ( Ȳ j )j,s und Ŷ o = ( Ȳ ). Also lässt sich die Gesamtstreuung(ssumme) der Y - j,s Werte, SS total := Y Ȳ 1 2 = j,s schreiben als die Streuung(ssumme) innerhalb der Gruppen, SS intra := Y Ŷ 2 = j,s (Y js Ȳ )2 (Y js Ȳj ) 2,

56 56 KAPITEL 3. TESTS UND KONFIDENZBEREICHE plus die Streuung(ssumme) zwischen den Gruppen, SS inter := Ŷ Ŷ o 2 = j,s (Ȳj Ȳ )2 = j n(j)(ȳj Ȳ )2 ; kurz: SS total = SS intra + SS inter. Die Nullhypothese, dass alle Parameter f j identisch sind, wird auf dem Niveau α abgelehnt, wenn größer oder gleich F L 1,n L;1 α ist. F = (L 1) 1 SS inter (n L) 1 SS intra Der Begriff Varianzanalyse bezieht sich übrigens auf solche Zerlegungen der Gesamt varianz SS total in zwei oder mehr Anteile. Beispiel 3.30 (Michelsons und Morleys Messungen der Lichtgeschwindigkeit). Ein berühmtes Datenbeispiel aus der Physik sind die Messungen der Lichtgeschwindigkeit von Albert A. Michelson und Edward Morley gegen Ende des 19. Jahrhunderts. Eine spezieller Datensatz (in R als morley abrufbar) umfasst n = 100 Messwerte, die in der Einheit km/s angegeben werden, und von jedem Wert wurden noch km/s abgezogen. Diese Messwerte stammen aus L = 5 Experimenten, in welchen jeweils n o = 20 Messungen durchgeführt wurden. Wir bezeichnen mit Y js den Messwert Nr. s in Experiment Nr. j. Idealerweise ist Y js = µ + ɛ js, 1 j 5, 1 s 20, wobei µ der tatsächliche Wert der Lichtgeschwindigkeit unter den gegebenen Umständen ist. Denkbar ist aber auch, dass Y js = f j + ɛ js, 1 j 5, 1 s 20, mit gewissen Werten f 1, f 2,..., f 5. In der Tat vermutete Michelson ursprünglich, dass der Wert f j von der jeweiligen Geschwindigkeit des Orts, an welchem gemessen wurde, relativ zum Lichtäther abhängt. Denkbar ist aber auch, dass f j durch andere, eher ungewollte Änderungen der äußeren Bedingungen beinflusst wird. Um die Nullhypothese, dass f 1 = f 2 = = f 5, zu testen, benötigen wir folgende Streuungssummen: Hieraus ergibt sich die F-Teststatistik SS intra = , SS inter = F = / /95 = , und der P-Wert für die besagte Nullhypothese ist gleich 1 Fcdf 4,95 (F )

57 3.4. F-KONFIDENZBEREICHE UND -TESTS 57 Man kann also mit großer Sicherheit davon ausgehen, dass es zwischen den fünf Experimenten systematische Unterschiede gab. Michelson und viele andere Physiker führten zahlreiche Präzisionsmessungen der Lichtgeschwindigkeit durch und kamen letztlich zum Schluss, dass sich ein Lichtäther nicht nachweisen lässt. Michelson erhielt für die von ihm entwickelten Messmethoden 1907 den Nobelpreis in Physik. Von der Hypothese ausgehend, dass es keinen Lichäther gibt, entwickelte Albert Einstein schließlich die Spezielle Relativitätstheorie. Beispiel 3.31 (Funktionenräume). Wir betrachten allgemein ein lineares Modell F mit Basisfunktionen f 1, f 2,..., f p : X R und möchten gegebenenfalls zeigen, dass das Teilmodell F o := span(f 1,..., f po ) nicht adäquat ist, wobei 0 p o < p. (Im Falle von p o = 0 ist einfach F o = {0}.) Gehen wir davon aus, dass die Vektoren f 1 (X), f 2 (X),..., f p (X) linear unabhängig sind, dann geht es um den p-dimensionalen Modellraum M R n, welcher von diesen Vektoren aufgespannt wird, und seinen p o -dimensionalen Unterraum M o, der von f 1 (X),..., f po (X) aufgespannt wird. Schreiben wir f(x) = p j=1 θ jf j (x), dann geht es um die Frage, ob (θ j ) j>p = 0. Die entsprechende F-Teststatistik lässt sich auf zweierlei Arten darstellen: Einerseits ist F = ( θ j ) j>p o Γ o ( θ j ) j>po (p p o ) σ 2, wobei Γ o := ( (Γ 1 ) j,k>po ) 1. Andererseits kann man auch schreiben F = (p p o) 1 f(x) fo (X) 2 (n p) 1 Y f(x) 2 = wobei f o der KQS für f im kleineren Modell F o ist. f(x) fo (X) 2 (p p o ) σ 2, Warnung: Mit dem KQS θ für das volle Modell ist im allgemeinen f o p o j=1 θ j f j! Dies ist nur korrekt, falls {f 1 (X),..., f po (X)} {f po+1(x),..., f p (X)}. Ein wichtiger Spezialfall ist das Testen des Modells der polynomialen Regression vom Grad d o 0 versus Grad d > d o, wobei X R. Hier ist p o = d o + 1 und p = d + 1. Aufgabe In Aufgabe 3.26 wurde für einzelne Probanden und Oxymeter getestet, ob das Gerät richtig funktionierte. Werten Sie nun den Gesamtdatensatz aus, indem Sie mit Y alle Messungen mit einem bestimmten Oxymeter bezeichnen und die Kovariablen W (Sauerstoffsättigung) sowie C (Proband) einbeziehen. Stellen Sie eine oder mehrere denkbare Modellgleichungen auf, und wenden Sie diese Modelle mit einem Programm Ihrer Wahl auf die Daten an. Genauer: Wie könnte man überprüfen bzw. widerlegen, dass die Geräte bei allen Probanden gleich arbeiten?

58 58 KAPITEL 3. TESTS UND KONFIDENZBEREICHE Beispiel 3.33 (Zweiweg-Varianzanalyse: Kreuzklassifikation ohne Interaktionen). Wir betrachten X = (C, D) mit kategoriellen Kovariablen C {1,..., L} und D {1,..., M}. Nun gehen wir über zur Papier- und Tafelnotation, beobachten also Y = (Y jks ) j,k,s mit Y jks = µ + a j + b k + ɛ jks, 1 j L, 1 k M, 1 s n(j, k). Dabei sind µ R, a R L und b R M unbekannte Parameter mit a + := L j=1 a j = 0 und b + := M k=1 b k = 0, und die ɛ jks sind unabhängige Zufallsvariablen mit Verteilung N (0, σ 2 ). Wir nehmen also an, dass der Einfluss der beiden Kovariablen additiv ist. Der entsprechende Modellraum M besteht aus allen Vektoren der Form ( gj + h k ) mit beliebigen reellen Zahlen g j und h k. Man kann ihn auch zerlegen in die folgenden drei Teilräume: j,k,s M 0 := { (µ) j,k,s : µ R } mit dim(m 0 ) = 1, M 1 := { (a j ) j,k,s : a R L, a + = 0 } mit dim(m 1 ) = L 1, M 2 := { (b k ) j,k,s : b R M, b + = 0 } mit dim(m 2 ) = M 1. Mit den orthogonalen Projektionen Ŷ l von Y auf M l (0 l 2) und Ŷ 0,l von Y auf M 0 +M l (l = 1, 2) lassen sich jetzt folgende F-Tests durchführen: (a) Die Nullhypothese laute, dass weder die Variable C noch die Variable D für Y relevant sind; das heißt, a = 0 und b = 0. Der entsprechende Nullmodellraum ist M 0, und die entsprechende Teststatistik ist F = Ŷ Ŷ 0 2 (M + L 2) σ 2 = Ŷ 2 Ŷ 0 2 (M + L 2) σ 2 mit Verteilung F M+L 2,n M L+1 unter der Nullhypothese. (b) Die Nullhypothese laute, dass die Variable C für Y irrelevant ist; das heißt, a = 0. Hier ist der Nullmodellraum gleich M 0 + M 2, und die entsprechende Teststatistik ist F = Ŷ Ŷ 0,2 2 (L 1) σ 2 = Ŷ 2 Ŷ 0,2 2 (L 1) σ 2 mit Verteilung F L 1,n L M+1 unter der Nullhypothese. (c) Die Nullhypothese laute, dass die Variable D keine Rolle spielt; also b = 0.

59 3.4. F-KONFIDENZBEREICHE UND -TESTS 59 Nun ist der Nullmodellraum gleich M 0 + M 1, und die entsprechende Teststatistik ist F = Ŷ Ŷ 0,1 2 (M 1) σ 2 = Ŷ 2 Ŷ 0,1 2 (M 1) σ 2 mit Verteilung F M 1,n L M+1 unter der Nullhypothese. Ein wichtiger Spezialfall ist der eines balancierten Designs. Das heißt, alle Gruppengrößen n(j, k) sind identisch: n(j, k) = n o für 1 j L, 1 k M. Dies impliziert, dass die Räume M 0, M 1, M 2 paarweise orthogonal sind! Denn für beliebige Vektoren v = (a j ) j,k,s M 1 und w = (b k ) j,k,s M 2 ist 1 v = j,k,s a j = Mn o a + = 0, 1 w = v w = M b(d i ) = b(k)ln = 0, k=1 a j b k = n o a + b + = 0. j,k,s Unter diesen Voraussetzungen sind auch die Gauß-Markov-Schätzer für die Parameter µ, a j und b k einfach abzulesen. Hierzu betrachten wir die Mittelwerte Ȳ jk := 1 Y jks, n o s Ȳ j := 1 Y jks = 1 Ȳ jk, Mn o M k,s Ȳ k := 1 Ln o j,s Y jks = 1 L und den Gesamtmittelwert Ȳ = L 1 j Ȳj = M 1 k Ȳ k. Nun kann man schreiben Y = Ŷ + ɛ und Ŷ = Ŷ 0 + Ŷ 1 + Ŷ 2, wobei Ŷ 0 := (Ȳ ) j,k,s M 0, Ŷ 1 := (Ȳj Ȳ ) j,k,s M 1, Ŷ 2 := (Ȳ k Ȳ ) j,k,s M 2. j k Ȳ jk Insbesondere ist µ = Ȳ, â j = Ȳj Ȳ und b k = Ȳ k Ȳ. Die oben eingeführten drei F-Teststatistiken lassen sich nun wie folgt darstellen: (a) Für die Nullhypothese, dass a = 0 und b = 0, ist F = Ŷ Ŷ 2 2 (M + L 2) σ 2.

60 60 KAPITEL 3. TESTS UND KONFIDENZBEREICHE (b) Für die Nullhypothese, dass a = 0, ist (c) Für die Nullhypothese, dass b = 0, ist F = Ŷ 1 2 (L 1) σ 2. F = Ŷ 2 2 (M 1) σ 2. Beispiel 3.34 (Hörtests). Als Datenbeispiel für die Testprobleme in Beispiel 3.33 betrachten wir den Datensatz Hearing.txt. Vierundzwanzig Versuchspersonen wurden jeweils vier verschiedene Listen von Wörtern mit gewissem Hintergrundrauschen vorgelesen. Gemessen wurde jeweils der Prozentsatz richtig erkannter Wörter. Man hat also n = 24 4 = 96 Beobachtungen und die Variablen C = Person, D = Wortliste sowie den Prozentsatz Y korrekt erkannter Wörter. Hier ist Ŷ 1 2 = , Ŷ 2 2 = und ɛ 2 = Ferner ist n L M + 1 = LM L M + 1 = (L 1)(M 1) = 23 3 = 69, so dass σ 2 = /69 = Die F-Teststatistik für die Nullhypothese, dass keine der beiden Kovariablen C und D eine Rolle spielt, ist also gleich F = ( ) = 4.940, und der entsprechende P-Wert ist 1 Fcdf 26,69 (4.940) < Für die Nullhypothese, dass die Versuchsperson keine Rolle spielt, ergibt sich die Teststatistik F = (24 1) = und der P-Wert 1 Fcdf 23,69 (3.868) < Für die Nullhypothese, dass die Wortliste keine Rolle spielt, ergibt sich die Teststatistik F = (4 1) = und der P-Wert 1 Fcdf 3,69 (8.446) < Aufgabe Betrachten Sie nochmals den Datensatz Exam.txt. Wandeln Sie diesen in einen Datensatz mit drei Variablen um, nämlich Klausurergebnis Y, Student(in) S {1, 2,..., 88} und Prüfungsfach F {1, 2, 3, 4, 5}. Werten Sie nun diese Daten mit einem geeigneten linearen Modell aus. Aufgabe 3.36 (Unvollständige Designs). In Beispiel 3.33 nahmen wir stillschweigend an, dass alle Gruppengrößen n(j, k) strikt positiv sind. Man spricht dann von einem vollständigen Design. Denkbar ist aber auch, dass nicht alle Kombinationen der beiden Kovariablen C {1,..., L} und D {1,..., M} vertreten sind. Das heißt, wir lassen jetzt auch zu, dass manche n(j, k) gleich

61 3.4. F-KONFIDENZBEREICHE UND -TESTS 61 null sind, ein unvollständiges Design. Die Dimension des entsprechenden Modellraums M R n hängt dann von der Inzidenzmatrix ab. 1 [n(1,1)>0] 1 [n(1,2)>0] 1 [n(1,m)>0] 1 [n(2,1)>0] 1 [n(2,2)>0] 1 [n(2,m)>0]... 1 [n(l,1)>0] 1 [n(l,2)>0] 1 [n(l,m)>0] (a) Bestimmen Sie jeweils die Dimension des Modellraums M für die folgenden drei Inzidenzmatrizen: , , (b) Zeigen Sie, dass die Dimension des Modellraums gleich M + L 1 ist, falls folgende zwei Bedingungen erfüllt sind: Jede Zeile und jede Spalte der Inzidenzmatrix enthält mindestens eine Eins. Seien (j 0, k 0 ) und ( j, k) zwei verschiedene Elemente von P := { (j, k) : n(j, k) > 0 }. Dann gibt es eine Sequenz (j 1, k 1 ), (j 2, k 2 ),..., (j m, k m ) in P, so dass gilt: (j m, k m ) = ( j, k), und für 1 l m ist entweder j l 1 = j l oder k l 1 = k l. Beispiel 3.37 (Zweiweg-ANOVA: Kreuzklassifikation mit Interaktionen). Wir betrachten dieselbe Datensituation wie in Beispiel 3.33 und gehen von einem vollständigen, balancierten Design aus, wobei n o > 1. Die allgemeinste Modellgleichung ist Y jks = f jk + ɛ jks = µ + a j + b k + h jk + ɛ jks, 1 j L, 1 k M, 1 s n o, mit Parametern µ R, a R L und b R M wie in Beispiel 3.33 und einem zusätzlichen Parameter h R L M, so dass h j+ = 0 für 1 j L und h +k = 0 für 1 k M. Diese Parameter h jk nennt man Interaktionen der beiden Variablen C und D. Man zerlegt also die Matrix f = (f jk ) j,k in einen additiven Anteil (µ + a j + b k ) j,k und einen Rest h. Der entsprechende Modellraum M ist die Summe der paarweise orthogonalen Teilräume M 0, M 1, M 2 und M 3. Dabei sind die ersten drei Räume wie in Beispiel 3.33 definiert, und M 3 besteht aus allen Vektoren der Form (h jk ) j,k,s mit einer Matrix h R L M, so dass sämtliche Zeilen- und Spaltensummen gleich 0 sind. Die Dimension von M 3 ist gleich LM L M + 1 = (L 1)(M 1). Für den Vektor Y bedeutet dies, dass man den Residuenvektor aus Beispiel 3.33 noch einmal in zwei Anteile zerlegt. Dann ergibt sich die Darstellung Y = Ŷ 0 + Ŷ 1 + Ŷ 2 + Ŷ 3 + ɛ

62 62 KAPITEL 3. TESTS UND KONFIDENZBEREICHE mit Ŷ 0, Ŷ 1, Ŷ 2 wie zuvor und Ŷ 3 = ( Ȳ jk Ȳj Ȳ k + Ȳ ) j,k,s, ɛ = ( ) Y jks Ȳks Die Nullhypothese, dass der Einfluss der Variablen C und D rein additiv ist, ist gleichbedeutend damit, dass alle Interaktionen gleich Null sind, also H o : h = 0. Die entsprechende Teststatistik ist j,k,s. F = Ŷ 3 2 (L 1)(M 1) σ 2 mit Verteilung F (L 1)(M 1),n LM unter H o. Der Zusammenhang zwischen den F-Tests in und In Abschnitt betrachteten wir für eine Matrix Ψ R p d mit Rang d und einen Vektor η o R d die Nullhypothese, dass Ψ θ = η o. Zunächst möchten wir gerne η o loswerden. Hierzu wählen wir einen beliebigen Vektor θ o R p, so dass Ψ θ o = η o, zum Beispiel θ o = Ψ(Ψ Ψ) 1 η o. Dann erfüllt Ỹ := Y Dθ o die Modellgleichung Ỹ = D θ + ɛ mit θ := θ θ o, und Ψ θ = η o genau dann, wenn Ψ θ = 0. Daher können wir uns ohne Einschränkung auf den Fall η o = 0, also die Nullhypothese, dass Ψ θ = 0, konzentrieren. Nun schreiben wir Ψ θ = Ψ Γ 1 D Dθ = A µ, wobei µ = Dθ und A = DΓ 1 Ψ R n d. Die Nullhypothese, dass Ψ θ = 0, ist also gleichbedeutend mit der Nullhypothese, dass µ M o := { } v M : v M, wobei M := AR d DR p = M. Insbesondere ist M die direkte Summe der orthogonalen Räume M o und M, und p o := dim(m o ) = dim(m) dim(m ) = p d.

63 3.5. ANDERE SIMULTANE KONFIDENZBEREICHE 63 Ferner ist Ŷ Ŷ o gleich der orthogonalen Projektion von Y auf den Raum M. Die entsprechende Projektionsmatrix is A(A A) 1 A, und Ŷ Ŷ o 2 = Y A(A A) 1 A Y = (Ψ Γ 1 D Y ) (Ψ Γ 1 Ψ) 1 (Ψ Γ 1 D Y ) = (Ψ θ) Γ Ψ (Ψ θ). Folglich ist Ŷ Ŷ o 2 /(p p o ) Y Ŷ 2 /(n p) = (Ψ θ) Γ Ψ (Ψ θ) d σ Andere simultane Konfidenzbereiche Scheffés Methode ist nur eine von vielen Möglichkeiten, um simultane Konfidenzintervalle für Linearformen ψ θ zu konstruieren. Allgemein sei P eine Familie von Vektoren ψ R p \ {0}. Gesucht sind Zahlen c ψ = c ψ (Daten, α), so dass stets gilt: P ( ψ θ ψ θ c ψ für alle ψ P ) 1 α. Mit anderen Worten, mit Wahrscheinlichkeit mindestens 1 α ist ψ θ [ ψ θ ± cψ ] für alle ψ P. Scheffés Methode liefert die Konstanten c ψ = σ df d,n p;1 α mit d := dim(span(p)). Nun werden wir noch zwei alternative Methoden besprechen, wobei wir voraussetzen, dass q := #P < Die Bonferroni-Methode Wie wir bereits wissen, ist P ( ψ θ ψ θ > σ ψ t n p;1 γ/2 ) = γ für alle Vektoren ψ P und beliebige Zahlen γ (0, 1). Definieren wir daher c ψ := σ ψ t n p;1 (α/q)/2,

64 64 KAPITEL 3. TESTS UND KONFIDENZBEREICHE dann folgt aus der einfachen Bonferroni-Ungleichung, dass P ( ψ θ ψ θ c ψ für alle ψ P ) = 1 P ( ψ θ ψ θ > c ψ für mindestens ein ψ P ) 1 P ( ψ θ ψ θ ) > cψ ψ P = 1 ψ P α/q = 1 α Tukeys Methode Nun betrachten wir die Testgröße T := max ψ P ψ θ ψ θ σ ψ. Über ihre Verteilung kann man folgendes sagen: Lemma Die Verteilung von T hängt nicht von den unbekannten Parametern θ und σ ab. Vielmehr ist T verteilt wie max j=1,...,q W j (n p) 1/2 S mit stochastisch unabhängigen Zufallsvariablen W R q und S > 0, so dass gilt: W N q (0, Σ) mit R ij := ψ i Γ 1 ψ j ψ i Γ 1 ψ i ψ j Γ 1 ψ j = Corr(ψ i θ, ψ j θ), S 2 χ 2 n p, wobei {ψ 1, ψ 2,..., ψ q } = P und Γ = D D. Im Allgemeinen ist die Verteilung von T keine bereits bekannte Standardverteilung oder eine einfache Transformation hiervon. Sie kann aber problemlos simuliert werden. In Spezialfällen kann man sie auch exakt bestimmen oder numerisch berechnen. Sei zunächst κ 1 α ihr (1 α)- Quantil. Dann erfüllen die kritischen Werte c ψ := σ ψ κ 1 α die Gleichung ( P ψ θ ψ θ ) c ψ für alle ψ P = 1 α. Wenn man sich für die Monte-Carlo-Simulation entscheidet, resultiert folgende Methode: Man simuliert m stochastisch unabhängige Zufallsvariablen T 1, T 2,..., T m mit der gleichen Verteilung wie T. Dann ordnet man diese Werte der Größe nach und erhält T (1) < T (2) < < T (m). Nun definiert man κ 1 α := T ( (m+1)(1 α) )

65 3.5. ANDERE SIMULTANE KONFIDENZBEREICHE 65 und ĉ ψ := σ ψ κ 1 α. Dann gilt die Gleichung ( P ψ θ ψ θ ) ĉ ψ für alle ψ P = (m + 1)(1 α) m α. Denn die Wahrscheinlichkeit auf der linken Seite ist gleich der Wahrscheinlichkeit, dass T T ( (m+1)(1 α) ). Nun muss man nur noch ausnutzen, dass T, T 1,..., T m stochastisch unabhängig sind mit einer und derselben stetigen Verteilung... Beweis von Lemma Zunächst halten wir fest, dass T = max j=1,...,q ψ θ j ψ j θ /σ ψj σ/σ = max j=1,...,q ψ θ j ψ j θ /σ ψj (n p) 1/2 S mit S := (n p) 1/2 σ/σ. Nach Satz 3.11 sind θ und S stochastisch unabhängig, wobei S 2 χ 2 n p. Es genügt also zu zeigen, dass der Zufallsvektor W R q mit Komponententen W j = ( ψ j θ ψ j θ ) /σ ψj die besagte Normalverteilung N q (0, Σ) hat. Zu diesem Zweck schreiben wir Y = Dθ + σz mit Z N n (0, I). Mit den Vektoren a j := DΓ 1 ψ j R n ist dann ψ j θ ψ j θ = σa j Z und σ ψj = σ a j. Folglich ist W j = a j 1 a j Z, und die Behauptung folgt im wesentlichen aus der Tatsache, dass a i a j = ψ i Γ 1 ψ j für i, j = 1,..., q Beispiele für simultane Konfidenzbereiche Beispiel 3.39 (Einfache lineare Regression, Bsp. 1.2). Konzentrieren wir uns zunächst auf zwei verschiedene X-Werte, sagen wir x 1 < x 2. Nach der Bonferroni-Methode ist P ( f(x i ) [ f(xi ) ± c(x i ) ] für i = 1, 2 ) 1 α, wenn c(x i ) := σ(x i )t n 2;1 α/4 mit dem Standardfehler σ(x i ) von f(x i ). Aus den beiden Ungleichungen f(x i ) f(x i ) c(x i ) ergeben sich durch lineare Interpolation und Extrapolation automatisch Ungleichungen für f(x) an beliebigen Stellen x R. Denn allgemein ist f(x) f(x) = λ 1 (x) ( f(x 1 ) f(x 1 ) ) + λ 2 (x) ( f(x 2 ) f(x 1 ) ) mit Folglich ist λ 1 (x) := x 2 x x 2 x 1 und λ 2 (x) := x x 1 x 2 x 1. f(x) f(x) λ 1 (x) c(x 1 ) + λ 2 (x) c(x 2 ).

66 66 KAPITEL 3. TESTS UND KONFIDENZBEREICHE Numerisches Beispiel. Wir betrachten einen simulierten Datensatz mit n = 50 Datenpaaren (X i, Y i ), wobei X i = (i 1/2)/n. Abbildung 3.4 zeigt den Schätzer f sowie ein 95%-Konfidenzband für f nach Scheffés und der Bonferroni-Methode, wobei x 1 = 0 und x 2 = 1. Die Schranken aus Scheffés Methode sind die beiden Hyperbeln und gegeben durch f(x) ± σ(x) 2F 2,48;0.95 f(x) ± σ(x) f(x) ± σ(x) Die Bonferroni-Methode liefert stückweise lineare Schranken, nämlich f(x) ± ( λ 1 (x) σ(x 1 ) + λ 2 (x) σ(x 2 )) t 48; f(x) ± ( x 1 σ(0) + x σ(1)) Abbildung 3.4: Konfidenzbänder nach Scheffés und der Bonferroni-Methode. Aufgabe Als Alternative zu Scheffés simultanen Konfidenzschranken für eine quadratische Regressionsfunktion f könnte man auch für drei verschiedene Punkte x 1, x 2, x 3 jeweils ein (1 α/3)-konfidenzintervall für f(x j ) berechnen. Diese Schranken könnte man durch Inter- und Extrapolation zu Konfidenzbändern vervollständigen. Präzisieren Sie diesen Vorschlag. (Diese Aufgabe kann man als Spezialfall der nachfolgenden Aufgabe ansehen.) Aufgabe Sei F = span(f 1, f 2,..., f p ) mit Basisfunktionen f j : X R. Sei x = (x j ) p j=1 ein Tupel in X p derart, dass die Matrix D o := [ f 1 (x), f 2 (x),..., f p (x) ] R p p vollen Rang hat. (a) Zeigen Sie, dass es Funktionen λ 1, λ 2,..., λ p : X R gibt, so dass sich jede Funktion g F darstellen lässt als p g(x) = λ j (x)g(x j ), x X. (Hinweis: Verwenden Sie die Vektoren ψ(x) := (f j (x)) p j=1, x X.) j=1

67 3.5. ANDERE SIMULTANE KONFIDENZBEREICHE 67 (b) Bestimmen Sie für beliebige Konstanten c 1, c 2,..., c p 0 und Punkte x X die Menge { g(x) : g F, g(xj ) c j für 1 j p }. Beispiel 3.42 (Einweg-Varianzanalyse, Bsp. 1.1). Wir verwenden die Papier- und Tafelnotation aus Abschnitt 2.6. Sei also Y js = f j + ɛ js, 1 j L, 1 s n(j). Oftmals interessiert man sich in erster Linie für die Gruppenunterschiede f j f k, wobei 1 j < k L. Mit θ = (f j ) L j=1 und der Standardbasis e 1,..., e L des R L entspricht dies der Familie P := { e j e k : 1 j < k L }. Diese besteht aus L(L 1)/2 Vektoren, welche den (L 1)-dimensionalen Raum aller Vektoren v R L mit v + = 0 aufspannen. Nach Scheffés Methode kann man also mit einer Sicherheit von mindestens 1 α davon ausgehen, dass ] f j f k [Ȳj Ȳk ± σ jk (L 1)F L 1,n L;1 α für 1 j < k L, wobei σ jk := σ n(j) 1 + n(k) 1. Mit der Bonferroni-Methode ergeben sich stattdessen die Konfidenzintervalle ] [Ȳj Ȳk ± σ jk t n L;1 α/(l(l 1)). Tukeys Methode kann man im Spezialfall eines balancierten Designs, d.h. n(1) = n(2) = = n(l) = n o, wie folgt anwenden: Definiert man Z j := no 1/2 (Ȳj f j )/σ und S := (n L) 1/2 σ/σ, dann sind die Zufallsvariablen Z 1,..., Z L, S stochastisch unabhängig, wobei Z j N (0, 1) und S 2 χ 2 n L. Ferner ist σ jk = σ 2/n o und T = max 1 j<k L = 2 1/2 max 1 j<k L Ȳ j Ȳk f j + f k σ jk Z j Z k (n L) 1/2 S = 2 1/2 Z j Z k max j,k=1,...,l (n L) 1/2 S = 2 1/2 max(z 1,..., Z L ) min(z 1,..., Z L ) (n L) 1/2. S Bis auf den Faktor 2 1/2 hat also T die Verteilung Q L,n L einer studentisierten Spannweite mit Parametern L und n L; siehe Definition 3.43 unten. Man kann also mit einer Sicherheit von 1 α davon ausgehen, dass für 1 j < k L. f j f k [ Ȳ j Ȳk ± σ jk 2 1/2 ] Q L,n L;1 α = [ Ȳ j Ȳk ± σ ] 1/n o Q L,(no 1)L;1 α

68 68 KAPITEL 3. TESTS UND KONFIDENZBEREICHE Definition 3.43 (Studentisierte Spannweite). Seien Z 1,..., Z k, S stochastisch unabhängige Zufallsvariablen mit Z i N (0, 1) und S 2 χ 2 l. Die Verteilung von max(z 1,..., Z k ) min(z 1,..., Z k ) l 1/2 S nennt man die Verteilung einer studentisierten Spannweite mit Parametern k und l. Wir bezeichnen sie mit dem Symbol Q k,l und ihr γ-quantil mit Q k,l;γ. Tabellen mit Quantilen dieser Verteilungen findet man beispielsweise bei Miller (1981). Aufgabe Von einen Vektor v R L sei bekannt, dass Welche Schranken ergeben sich daraus für v k v j c für 1 j < k L. L ψ j v j j=1 für beliebige Vektoren ψ R L mit L j=1 ψ j = 0? Vergleich der Methoden Ein präziser und allumfassender Vergleich der hier behandelten Methoden ist nicht möglich. Doch für den Grenzfall, dass die Anzahl n p der Freiheitsgrade für die Varianzschätzung gegen Unendlich strebt, kann man gewisse Vergleiche anstellen. Lemma 3.45 (Asymptotik diverser Quantile). Für die Student-Quantile gilt folgende Approximation: t k;1 δ 2 log(1/δ) 1 falls δ 0, k und log(1/δ) k Bei festem γ (0, 1) gilt für die F -Quantile und studentisierten Spannweiten: 0. F k,l;γ 1 und Q k,l;γ 2 2 log(k) 1 falls k, l. Beweis von Lemma Wir betrachten stochastisch unabhängige Zufallsgrößen Z N (0, 1), Z N k (0, I k ) und Tl 2 χ 2 l. Da IE(T l 2/l) = 1 und Var(T l 2 /l) = 2/l, ergibt sich aus der Tshebyshev-Ungleichung, dass IP ( T 2 l /l [1 ± ɛ]) 2/(lɛ 2 ) für beliebige ɛ (0, 1). Also konvergiert Tl 2 /l stochastisch gegen 1 für l. Die gleiche Überlegung lässt sich auf Sk 2 := Z 2 χ 2 k anwenden, so dass für die Zufallsvariable F := S2 k /k T 2 l /l F k,l gilt: F p 1 für k, l.

69 3.5. ANDERE SIMULTANE KONFIDENZBEREICHE 69 Dies ist gleichbedeutend damit, dass F k,l;γ 1 für ein beliebiges festes γ (0, 1) und k, l. Aus Aufgabe 3.47 folgt, dass max(z) 2 log(k) p 1 für k. Aus Symmetriegründen ist min(z) genauso verteilt wie max(z). Folglich verhält sich die Differenz max(z) min(z) wie 2 2 log(k)(1 + o p (1)) für k. Für die Zufallsvariable Q := max(z) min(z) T 2l /l Q k,l ergibt sich hieraus, dass Q 2 2 log(k) p 1 für k, l. Insbesondere gilt: Q k,l;γ = 2 2 log(k)(1 + o(1)) für festes γ (0, 1) und k, l. Bei den Student-Quantilen müssen wir etwas mehr arbeiten: Mit Y k := Sk 2 /k hat der Quotient Z/ Y k Verteilung t k. Für beliebige Zahlen t > 0 ist IP ( Z/ Y k > t ) = IE IP ( Z > t Y k Y k ) = IE Φ ( t Yk ). Einerseits kann man leicht nachrechnen, dass die Funktion [0, ) y Φ ( t y ) strikt konvex ist. Aus Jensen s Ungleichung folgt also, dass Dies impliziert, dass und in Aufgabe 3.47 wird gezeigt, dass IP ( Z/ Y k > t ) > Φ ( t IE(Y k ) ) = Φ( t). t k;1 δ > Φ 1 (1 δ) für beliebige δ (0, 1/2), Φ 1 (1 δ) 2 log(1/δ) 1 für δ 0. Andererseits wird in Aufgabe 3.46 gezeigt, dass Φ( x) exp( x 2 /2)/2 für beliebige x 0, so dass IP ( Z/ Y k > t ) IE exp( t 2 Y k /2)/2. In der späteren Aufgabe 3.52 (a) wird gezeigt, dass IE exp(λs 2 k ) = (1 2λ) k/2 für beliebige λ < 1/2. Mit λ = t 2 /(2k) ergibt sich dann die Ungleichung IP ( Z/ Y k > t ) ( 1 + t2 ) k/2/2 k ( k ( k )) /2 = exp 2 log k + t 2 ( k = exp (1 2 log t2 )) /2 k + t 2 ( < exp t2 /2 ) /2, 1 + t 2 /k

70 70 KAPITEL 3. TESTS UND KONFIDENZBEREICHE da log(1 x) < x für x > 0. Nun setzen wir t = 2c log(1/δ) für ein c > 0, wobei δ (0, 1/2). Dann ist IP ( Z/ Y k > t ) ( c log(δ) ) /2. < exp 1 + 2c log(1/δ)/k Die rechte Seite ist gleich δ/2, wenn c/ ( 1 + 2c log(1/δ)/k ) = 1, was gleichbedeutend ist mit c = log(1/δ)/k. Also wissen wir, dass t k;1 δ < 2 log(1/δ) 1 2 log(1/δ)/k = 2 log(1/δ)(1 + o(1)), wenn δ 0, k und log(1/δ)/k 0. In unserer speziellen Anwendung auf die Einweg-Varianzanalyse mit balanciertem Design lieferten Scheffés Methode, die Bonferroni-Methode und Tukeys Methode simultane (1 α)-konfidenzintervalle für die L(L 1)/2 Gruppenunterschiede mit Länge 2 σ 2/n o (L 1)F L 1,(no 1)L;1 α (Scheffé), t (no 1)L;1 α/(l(l 1)) (Bonferroni), 2 1/2 Q L,(no 1)L;1 α (Tukey). Für den Fall, dass L und n o, liefern die Entwicklungen in Lemma 3.45 die Näherungswerte L (1 + o(1)) (Scheffé), 2 σ 2/n o 2 log(l) (1 + o(1)) (Bonferroni), 2 log(l) (1 + o(1)) (Tukey). Dies zeigt, dass Scheffés Methode sehr konservativ ist gegenüber der Bonferroni- oder Tukeys Methode. Zwischen den beiden letzteren besteht kein drastischer Unterschied. Aufgabe Zeigen Sie, dass für die Verteilungsfunktion Φ und die Dichtefunktion φ der Standardnormalverteilung gilt: φ(x) 1 + x 2 /4 + x/2 1 Φ(x) φ(x) 2/π + x 2 /4 + x/2 für x 0. Insbesondere ist 1 Φ(x) exp( x 2 /2)/2 für alle x 0. Vorschlag: Betrachten Sie die Funktion := 1 Φ φ/h, wobei h(x) := x/2 + c + x 2 /4 für eine Konstante c > 0. Zeigen Sie zunächst, dass = φ h 2 (h c). Begründen und verwenden Sie außerdem die Tatsachen, dass einerseits (0) = 1/2 1/ 2πc und andererseits lim x (x) = 0.

71 3.6. NICHTZENTRALE F-VERTEILUNGEN UND APPROXIMATIONSFEHLER 71 Aufgabe Zeigen Sie mit Hilfe von Aufgabe 3.46, dass { Φ 1 2 log(1/δ) log 4 für 0 < δ 1/2, (1 δ) = 2 log(1/δ) (1 + o(1)) für δ 0. Zeigen Sie außerdem, dass für stochastisch unabhängige, standardnormalverteilte Zufallsvariablen Z 1, Z 2,..., Z n gilt: ( lim IP max Z i ) c log n = n,2,...,n { 1 falls c = 2, 0 falls 0 c < Nichtzentrale F-Verteilungen und Approximationsfehler Möchte man die Wahrscheinlichkeit, dass ein F-Test die entsprechende Nullhypothese ablehnt, berechnen, dann taucht unweigerlich eine nichtzentrale F-Verteilung auf. Definition 3.48 (Nichtzentrale Chiquadrat- und F-Verteilungen). Sei Z 1, Z 2, Z 3,... eine Folge stochastisch unabhängiger, standardnormalverteilter Zufallsvariablen, und seien δ, δ 0 feste Zahlen. (a) Die nichtzentrale Chiquadrat-Verteilung mit k Freiheitsgraden und Nichtzentralitätsparameter δ 2 ist definiert als die Verteilung von (Z 1 + δ) 2 + Z Zk 2. Bezeichnet wird sie mit dem Symbol χ 2 k (δ2 ). (b) Die nichtzentrale F-Verteilung mit k und l Freiheitsgraden sowie Nichtzentralitätsparametern δ 2 und δ 2 ist definiert als die Verteilung von k 1( (Z 1 + δ) 2 + Z ) Z2 k l 1( (Z k+1 + δ) 2 + Zk ). Z2 k+l Bezeichnet wird sie mit dem Symbol F k,l (δ 2, δ 2 ). Anmerkung 3.49 (Monotonie im NZP). Sowohl χ 2 k (δ2 ) als auch F k,l (δ 2, δ 2 ) sind stetig und streng monoton wachsend in δ 0, und F k,l (δ 2, δ 2 ) ist stetig und streng monoton fallend in δ 0. Genauer gesagt, seien T (δ) und U(δ, δ) die in Definition 3.48 beschriebenen Zufallsvariablen. Für eine beliebige Schranke c > 0 ist sowohl IP(T (δ) c) als auch IP(U(δ, δ) c) eine stetige und streng monoton fallende Funktion von δ 0 mit Grenzwert 0 für δ. Ferner ist IP(U(δ, δ) c) eine stetige und streng monoton wachsende Funktion von δ 0 mit Grenzwert 1 für δ. Aufgabe Sei Z eine standardnormalverteilte Zufallsvariable. Für δ R und r 0 sei h(δ, r) := IP ( (Z + δ) 2 r ). Zeigen Sie, dass h : R [0, ) eine stetige Funktion ist, wobei h(δ, 0) = 0 und h(δ, r) = h( δ, r) für beliebige δ R und r 0. Zeigen Sie ferner, dass h(δ, r) für r > 0 streng monoton fallend in δ 0 ist mit lim δ h(δ, r) = 0.

72 72 KAPITEL 3. TESTS UND KONFIDENZBEREICHE Beweisen Sie nun Anmerkung 3.49, indem Sie auf alle Zufallsvariablen Z i außer Z 1 bzw. Z k+1 bedingen. Anmerkung 3.51 (Poisson-Darstellung von χ 2 k (δ2 )). Nichtzentrale Chiquadratverteilungen lassen sich darstellen als Mischungen zentraler Chiquadratverteilungen. Genauer gesagt ist χ 2 k (δ2 ) = j=0 λ λj e j! χ2 k+2j mit λ := δ 2 /2. Die Wahrscheinlichkeitsgewichte e λ λ j /j! auf der rechten Seite sind die Gewichte der Poissonverteilung mit Parameter λ = δ 2 /2. Mit anderen Worten, seien N, Z 1, Z 2, Z 3,... stochastisch unabhängige Zufallsvariablen, wobei N Poiss δ 2 /2 und Z i N (0, 1). Dann beschreibt χ 2 k (δ2 ) die Verteilung von k+2n Sind N, Z 1, Z 2, Z 3,... und Ñ, Z 1, Z 2, Z 3,... stochastisch unabängig mit N Poiss δ 2 /2, Ñ Poiss δ2 /2 und Z i, Z i N (0, 1), dann beschreibt F k,l (δ 2, δ 2 ) die Verteilung von Z 2 i. k 1 k+2n Zi 2 l 1. l+2ñ j=1 Aufgabe 3.52 (Nichtzentrale χ 2 -Verteilungen). Diese Aufgabe verwendet folgende Hilfsmittel aus der Wahrscheinlichkeitstheorie: Die momentenerzeugende Funktion einer reellwertigen Zufallsvariable X ist definiert als m X : R (0, ], m X (t) := IE exp(tx). Falls m X < auf einer nichtleeren offenen Menge, wird die Verteilung von X durch m X eindeutig charakterisiert. Für stochastisch unabhängige Zufallsvariablen X und Y ist m X+Y = m X m Y. (a) Sei Z eine standardnormalverteilte Zufallsvariable. Zeigen Sie, dass für beliebige t < 1/2 gilt: Z 2 i m Z 2(t) = (1 2t) 1/2. Zeigen Sie allgemeiner, dass für beliebige δ R und t < 1/2 gilt: (b) Beweisen Sie nun Anmerkung ( δ m (Z+δ) 2(t) = (1 2t) 1/2 2 /2 ) exp exp( δ 2 /2) 1 2t Eine erste Anwendung. Sei Y ein Zufallsvektor mit Verteilung N n (µ, I n ). Dann ist Y 2 χ 2 n( µ 2 ). Sei nämlich t 1, t 2,..., t n eine Orthonormalbasis des R n derart, dass µ = µ t 1. Dann ist Y genauso verteilt wie µ + Z i t i = (Z 1 + µ )t 1 + Z i t i i=2

73 3.6. NICHTZENTRALE F-VERTEILUNGEN UND APPROXIMATIONSFEHLER 73 mit stochastisch unabhängigen, nach N (0, 1) verteilten Zufallsvariablen Z 1, Z 2,..., Z n. Folglich ist Y 2 = n (t i Y )2 genauso verteilt wie (Z 1 + µ ) 2 + Zi 2 χ 2 n( µ 2 ). i=2 Anwendung auf F-Tests. Nun betrachten wir einen Zufallsvektor Y = µ + ɛ mit unbekanntem Mittelwert µ R n und einem Fehlervektor ɛ N n (0, σ 2 I). Für gegebene Vektorräume M o M R n mit Dimensionen p o < p < n möchten wir die Nullhypothese µ M o versus die Alternativhypothese µ M \ M o testen. Mit den entsprechenden orthogonalen Projektion(smatriz)en H o und H führten wir zu diesem Zweck die Teststatistik F = (p p o) 1 HY H o Y 2 (n p) 1 Y HY 2 ein. Unter der Nullhypothese hat diese eine F-Verteilung mit p p o und n p Freiheitsgraden. Der folgende Satz beschreibt ihre Verteilung im allgemeinen Fall. Satz Die F-Teststatistik F ist verteilt nach F p po,n p(δ 2, δ 2 ), wobei δ := Hµ H oµ σ und µ Hµ δ :=. σ Anmerkung Bei diesem Satz gehen wir nicht a priori davon aus, dass µ im größeren Modellraum M liegt. In der Tat kann man den F-Test als Test der Nullhypothese H o : Hµ M o interpretieren. Unter dieser Nullhypothese ist nämlich F nach F p po,n p(0, δ 2 ) mit δ = µ Hµ verteilt. Zusammen mit Anmerkung 3.49 ergibt sich dann, dass IP(H o wird abgelehnt) = IP(F F p po,n p;1 α) α mit Gleichheit genau dann, wenn µ = Hµ, also µ M. Anmerkung 3.55 (Güte des F-Tests). Unter der üblichen Annahme, dass µ M (gleichbedeutend mit µ = Hµ), ist F nach F p po,n p(δ 2, 0) verteilt, wobei δ = µ H o µ /σ. Bezeichnen wir die Verteilungsfunktion von F p po,n p(δ 2, 0) vorübergehend mit G δ ( ), dann ist IP(H o wird abgelehnt) = IP(F F p po,n p;1 α) = 1 G δ (F p po,n p;1 α) = α falls δ = 0, > α falls δ > 0, 1 falls δ. Beweis von Satz Wir rollen den Beweis von Satz 3.27 noch einmal auf. Dort wählten wir eine Orthonormalbasis t 1, t 2,..., t n des R n so, dass M o von t 1,..., t po und M von t 1,..., t p

74 74 KAPITEL 3. TESTS UND KONFIDENZBEREICHE aufgespannt wird. Wir können ohne weiteres verlangen, dass zusätzlich Mit dem Zufallsvektor ist dann Hµ H o µ = Hµ H o µ t po+1 = σδ t po+1, µ Hµ = µ Hµ t p+1 = σ δ t p+1. ( ) n Z := σ 1 t i ɛ F = (p p o) 1( (Z + po+1 δ)2 + Zp ) o+2 Z2 p (n p) 1( (Z p+1 + δ) 2 + Zp ), Z2 n und dies ist per definitionem nach F p po,n p(δ 2, δ 2 ) verteilt. Schranken für Approximationsfehler. In vielen Anwendungen ist man wenig überrascht, dass ein vereinfachtes Modell (M o ) die Daten nur unzureichend beschreibt. Dennoch ist es möglich, dass der Abstand zwischen µ und M o irrelevant ist. Wenn andererseits der F-Test die Nullhypothese, dass µ M o, nicht verwirft, weiß man noch nicht, ob dies nur an der geringen Datenmenge liegt. Für beide Probleme bieten sich Konfidenzschranken für den standardisierten Abstand δ = µ H oµ σ an. Wir unterstellen, dass µ M. Die obige Teststatistik F ist dann nach F p po,n p(δ 2, 0) verteilt, und die entsprechende Verteilungsfunktion bezeichnen wir wieder mit G δ ; also G δ (r) = IP(F r). Nach Anmerkung 3.49 ist G η (r) für eine beliebige Zahl r > 0 stetig und strikt monoton fallend in η 0 mit Grenzwert Null für η. Außerdem ist G δ (F ) uniform verteilt auf [0, 1]. Folglich gilt für α (0, 1): 1 α = IP(G δ (F ) 1 α), IP(G δ (F ) α), IP ( G δ (F ) [α/2, 1 α/2] ). Löst man die Ungleichungen für G δ (F ) auf der rechten Seite nach δ 0 auf, so ergibt sich die untere (1 α)-konfidenzschranke die obere (1 α)-konfidenzschranke a α (F ) := min { η 0 : G η (F ) 1 α }, b α (F ) := min { η 0 : G η (F ) α } bzw. das (1 α)-konfidenzintervall [ aα/2 (F ), b α/2 (F ) ] für δ = µ H o µ /σ.

75 3.7. KALIBRIERUNG 75 Aufgabe Betrachten Sie eine Einweg-Varianzanalyse mit balanciertem Design, also Y js = f j + ɛ js, 1 j L, 1 s n o, mit unbekannten Parametern f 1, f 2,..., f L und unabhängigen Zufallsfehlern ɛ js N (0, σ 2 ), wobei auch σ > 0 unbekannt ist. (a) Wie ist die Teststatistik F für die Nullhypothese f 1 = f 2 = = f L genau verteilt? Gefragt ist insbesondere ein konkreter Ausdruck für den Nichtzentralitätsparameter δ 2. (b) Zeichnen Sie die Verteilungsfunktion G δ ( ) = IP(F ) im Falle von δ 2 = 0, 1, 4, 9, L = 5 und n o = 20. (c) Zeichnen Sie für L = 5, n o = 20 and α = 0.05 die Gütefunktion δ IP(F > F L 1,L(no 1);1 α). (d) Angenommen Sie erhalten F = 1.2. Berechnen Sie nun eine obere 95%-Konfidenzschranke 5 für den Parameter σ 1 j=1 (f j f) Kalibrierung Der Einfachheit halber diskutieren wir das Kalibrierungsproblem nur im Kontext der einfachen linearen Regression. Wir betrachten also ein Paar (X, Y ) R R der Form Y = a + bx + ɛ mit unbekannten Parametern a und b 0 und einem zufälligen Messfehler ɛ. Man denke an eine Größe X, die mit einer aufwändigen Methode exakt messbar ist, und eine vergleichsweise einfach zu ermittelnde Messgröße Y, aus der man X rekonstruieren will. Die auszuwertenden Daten kann man in zwei Gruppen einteilen: Kalibrierungsphase. In dieser Phase werden die Kalibrierungsdaten D, bestehend aus (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ), erhoben. Dabei geht man von der obigen Modellgleichung aus, wobei die entsprechenden Messfehler ɛ 1, ɛ 2,..., ɛ n stochastisch unabhängig sind mit Verteilung N (0, σ 2 ). Die Kalibrierungsdaten werden verwendet, um die unbekannten Parameter a, b und σ zu schätzen. Prädiktionsphase. Später fallen ein oder mehrere Paare (X o, Y o ) an, von denen jeweils nur Y o beobachtet wird. Man möchte mit Hilfe von D und Y o den Wert von X o schätzen bzw. ein Vertrauensintervall hierfür berechnen. Dabei gehen wir davon aus, dass Y o = a + bx o + ɛ o mit ɛ o N (0, λσ 2 ). Hier ist λ (0, 1] ein bekannter Skalenfaktor. Beispielsweise ist λ = 1/m, wenn Y o durch Mittelung von m Messwiederholungen zustandekommt. Die Messfehler ɛ 1, ɛ 2,..., ɛ n und ɛ o seien stochastisch unabhängig, und X 1, X 2,..., X n, X o betrachten wir als feste Zahlen.

76 76 KAPITEL 3. TESTS UND KONFIDENZBEREICHE Punktschätzung. Ein naheliegender Schätzer für X o ist X o = Y o â b = X + Y o Ȳ b. Dieser ergibt sich durch Auflösen der approximativen Gleichung Y o â+ bx o = Ȳ + b(x o X) nach X o. Anstelle des Punktschätzers X o möchten wir nun ein Vertrauensintervall [c, c] für X o mit Grenzen c = c(d, Y o ) und c = c(d, Y o ) berechnen. Ein erster Ansatz hierfür wäre [ Yo ± σ λφ 1 (1 α) â ] [ Y o = X Ȳ ± σ λφ 1 (1 α) ] +. b b Denn mit Wahrscheinlichkeit 1 α liegt X o in dem Intervall [ Yo ± σ λφ 1 (1 α) a ] [ Y o = X Ȳ ± σ λφ 1 (1 α) ] +. b b Wir würden also darauf vertrauen, dass (â, b, σ) ziemlich nahe an (a, b, σ) ist, und dass die Unsicherheit bei der Bestimmung von X o vor allem durch die Variabilität von Y o bedingt ist. Möchte man auch die Unsicherheit in den Trainingsdaten berücksichtigen, gibt es zwei verschiedene Betrachtungsweisen. Single-Use-Vertrauensintervalle. Zunächst denken wir nur an ein zukünftiges Paar (X o, Y o ). Dann fordern wir, dass IP ( X o [c, c] ) 1 α für beliebige Werte von a, b, σ und X o. Das Standardrezept, einen Punktschätzer plus/minus ein Vielfaches des Standardfehlers zu berechnen, funktioniert hier nur approximativ. Stattdessen beschreiben wir ein anderes Rezept, das direkt auf der Inversion von Tests beruht. Dazu betrachten wir die Zufallsgröße Y o â bx o = Y o Ȳ b(x o X) = ɛ o ɛ ( b b)(x o X). Schreibt man Q := n (X i X) 2, dann sind die Zufallsgrößen ɛ o, ɛ = n 1 n ɛ i und b b = n ɛ i(x i X)/Q stochastisch unabhängig und normalverteilt mit Mittelwert Null sowie Varianzen λσ 2, σ 2 /n bzw. σ 2 /Q. Folglich ist Y o â bx o N (0, σ 2( λ + 1n + (X o X) 2 ) ). Q Ferner ist diese Zufallsgröße von σ stochastisch unabhängig. Daher ist die Teststatistik T (X o ) := Y o â bx o σ λ + 1/n + (X o X) 2 /Q = Y o Ȳ b(x o X) σ λ + 1/n + (X o X) 2 /Q student-verteilt mit n 2 Freiheitsgraden. Ein (1 α)-konfidenzbereich für X o ist also gegeben durch C = C(D, Y o ) := { x o R : T (x o ) t n 2;1 α/2 }.

77 3.7. KALIBRIERUNG 77 Nun ist noch unklar, ob diese Menge C von Nutzen ist, insbesondere ob es sich um ein beschränktes Intervall handelt. Elementare Umformungen zeigen, dass die Ungleichung T (x o ) t n 2;1 α/2 äquivalent ist zur folgenden quadratischen Ungleichung: (3.4) ( b 2 c 2 /Q)(X o X) 2 2 b(y o Ȳ )(X o X) c 2 (λ + 1/n) (Y o Ȳ )2, wobei c := σ t n 2;1 α/2. In der Regel ist b 2 > c 2 /Q, denn diese Ungleichung ist äquivalent dazu, dass man die Nullhypothese b = 0 mit dem entsprechenden Student-Test auf dem Niveau α verwirft. Wenn wir dies voraussetzen, kann man die Ungleichung (3.4) quadratisch ergänzen und nach X o auflösen. Dies ergibt dann folgendes (1 α)-konfidenzintervall für X o : b(yo C = X Ȳ ) + b2 c 2 /Q ± c (λ + 1/n)( b 2 c 2 /Q) + (Y o Ȳ )2 /Q. b2 c 2 /Q Multiple-Use-Vertrauensintervalle. Oftmals sollen viele zukünftige Paare (X o, Y o ) beurteilt werden. In diesem Falle betrachtet man besser die minimale bedingte Überdeckungswahrscheinlichkeit eines Vertrauensintervalls [c, c], gegeben die Kalibrierungsdaten: (3.5) inf X o R IP( X o [c, c] D ). Wünschenswert wäre, dass diese Wahrscheinlichkeit garantiert größer oder gleich 1 α ist. Dann würde man auf lange Sicht bei höchstens (1 α) 100 Prozent der Paare (X o, Y o ) ein inkorrektes Vertrauensintervall für X o angeben. Leider gibt es hierfür keine nichttrivialen Lösungen, denn die Kalibrierungsdaten können mit einer gewissen, wenn auch kleinen Wahrscheinlichkeit beliebig schlechte Schätzer für die Parameter f( ) und σ ergeben. Erreichbar ist aber die Forderung, dass die minimale Überdeckungswahrscheinlichkeit (3.5) mit einer vorgegebenen Sicherheit 1 β nicht kleiner ist als 1 α. Hier ist ein konkretes Kochrezept : Schritt 1: Wir starten mit einer oberen Vertrauensschranke für σ, nämlich n 2 σ := σ für ein γ 1 (0, 1). Das heißt, χ 2 n 2;γ 1 IP (σ σ) = 1 γ 1, denn die Zufallsgröße (n 2) σ 2 /σ 2 ist chiquadrat-verteilt mit n 2 Freiheitsgraden. Schritt 2: Unter der Annahme, dass σ σ, können wir mit Scheffés oder einer anderen Methode ein (1 γ 2 )-Konfidenzband für die Regressionsfunktion f( ) bestimmen, wobei γ 2 (0, 1). Dabei rechnen wir aber mit unendlich vielen Freiheitsgraden. Im Falle von Scheffés Methode bedeutet dies beispielsweise, dass ( [ 1 γ 2 = IP f(x) f(x) ± σ 1/n + (x X) ] ) 2 /Q χ 2 für alle x R 2;1 γ2 ( [ IP f(x) f(x) ± σ 1/n + (x X) ] ) 2 /Q χ 2 für alle x R, 2;1 γ2

78 78 KAPITEL 3. TESTS UND KONFIDENZBEREICHE sofern σ σ. In jedem Falle erhalten wir ein Konfidenzband ( l, û) für f mit Funktionen l = l(, σ, f) und û = û(, σ, f). Da f und σ stochastisch unabhängig sind, ist IP (σ σ und f(x) [ l(x), ] ) û(x) für alle x R IP (σ σ und f(x) [ l(x, ] ) σ, f), û(x, σ, f) für alle x R = (1 γ 1 )(1 γ 2 ). Für geeignete Parameter γ 1, γ 2 ist die vorige Schranke gleich β, beispielsweise wenn γ 1 = γ 2 = 1 1 β. Schritt 3: Nun wissen wir, dass ( IP Y o [ f(x o ) ± λ 1/2 σ Φ 1 (1 α/2) ]) = 1 α, und andererseits ist [ f(xo ) ± λ 1/2 σ Φ 1 (1 α/2) ] [ l(xo ) λ 1/2 σ Φ 1 (1 α/2), û(x o ) + λ 1/2 σ Φ 1 (1 α/2) ] mit Wahrscheinlichkeit mindestens 1 β. Daher haben die Konfidenzschranken c := inf { x R : Y o û(x) + λ 1/2 σ Φ 1 (1 α/2) }, c := sup { x R : Y o l(x) λ 1/2 σ Φ 1 (1 α/2) } die gewünschten Eigenschaften. Ihre konkrete Berechnung läuft wieder auf das Auflösen quadratischer Ungleichungen hinaus. 3.8 Zufällige Effekte In gewissen Anwendungen ist es sinnvoll, manche der Modellparameter als Zufallsvariablen zu betrachten. Wir beschreiben in diesem Abschnitt zwei konkrete Beispiele. Einweg-Varianzanalyse. Ausgehend von X {1, 2,..., L} lautete unsere Modellgleichung in der Papier- und Tafelnotation: Y js = µ + a j + ɛ js, 1 j L, 1 s n(j), wobei a + = 0. Man denke beispielseweise an L verschiedene Probanden, die an einer bestimmten Art von Leistungstest (Geschicklichkeit, Intelligenz o.ä.) ein oder mehrmals teilnehmen. In der obigen Modellgleichung ist dann Y js das Resultat von Proband Nr. j bei seinem Versuch Nr. s. Der Parameter a j beschreibt dann die Fähigkeiten von Proband Nr. j im Vergleich zu den übrigen L 1 Probanden. Betrachtet man allerdings die Probanden als zufällige Stichprobe aus einer großen Population von Personen, dann sollte man eher mit folgendem Modell arbeiten: Y js = µ + A j + ɛ js, 1 j L, 1 s n(j),

79 3.8. ZUFÄLLIGE EFFEKTE 79 mit L + n stochastisch unabhängigen Zufallsvariablen A j und ɛ js, wobei A j N (0, σ 2 A) und ɛ js N (0, σ 2 ). Im konkreten Fall eines Leistungstests und L Probanden beschreibt µ die durchschnittliche Leistung in der Population, σ A beschreibt die Unterschiede von Person zu Person, und σ beschreibt die Leistungsschwankung einer einzelnen Person von Versuch zu Versuch. Die früher betrachtete Nullhypothese, dass a = 0, entspricht nun der Nullhypothese, dass σ A = 0. Doch in vielen Anwendungen ist die Erkenntnis, dass σ A strikt positiv ist, wenig überraschend. Interessanter wären vielleicht Konfidenzschranken für den Quotienten σ A /σ. Diese Frage kann man zumindest dann beantworten, wenn das Versuchsdesign balanciert ist. Das heißt, wir gehen davon aus, dass alle Zahlen n(j) := #{i : X i = j} identisch und gleich n o sind. In diesem Falle ist mit Ā = L 1 L j=1 A j. Hier ist Ȳ j = µ + A j + ɛ j und Ȳ = µ + Ā + ɛ SS intra = j,s (Y js Ȳj ) 2 = j,s (ɛ js ɛ j ) 2 und mit SS inter = j,s (Ȳj Ȳ )2 = n o (V j V ) 2 V j := A j + ɛ j N ( 0, σ 2 A + σ 2 /n o ). Hier kann man leicht zeigen, dass die Zufallsvariablen V 1, V 2,..., V L und SS intra stochastisch unabhängig sind. Folglich sind auch SS inter und SS intra stochastisch unabhängig und bis auf Skalenfaktoren chiquadratverteilt mit L 1 bzw. n L Freiheitsgraden. Genauer gesagt gilt für die Standardteststatistik F : σ 2 n o σ 2 A + σ2 F F L 1,n L. Dies impliziert Konfidenzschranken für den Quotienten σ A /σ. Denn beispielsweise ist σ 2 n o σ 2 A + σ2 F F L 1,n L;1 α mit Wahrscheinlichkeit 1 α, und diese Ungleichung ist äquivalent zu Andererseits ist σ ( A σ F ) + / 1 n o. F L 1,n L;1 α σ 2 n o σ 2 A + σ2 F F L 1,n L;α mit Wahrscheinlichkeit 1 α, und dies liefert die obere (1 α)-konfidenzschranke ( F ) + / 1 n o F L 1,n L;α für σ A /σ. j

80 80 KAPITEL 3. TESTS UND KONFIDENZBEREICHE Zweiweg-Varianzanalyse: Kreuzklassifikation ohne Interaktionen, balanciertes Design. Ausgehend von Kovariablen C {1,..., L} und D {1,..., M}, lautete unsere Modellgleichung bisher Y jks = µ + a j + b k + ɛ jks, 1 j L, 1 k M, 1 s n o, wobei a + = b + = 0. Speziell in Beispiel 3.34 bietet es sich wieder an, die Probanden als zufällige Stichprobe aus einer Population zu betrachten. Dies führt dann zu einem gemischten Modell mit dem zufälligen Faktor Proband und dem festen Faktor Wortliste. Allgemein sei Y jks = µ + A j + b k + ɛ jks, 1 j L, 1 k M, 1 s n o, mit stochastisch unabhängigen Zufallsvariablen A j N (0, σa 2 ), ɛ jks N (0, σ 2 ) und unbekannten Parametern µ R, b R M, wobei b + = 0. Dann gilt für die diversen Mittelwerte: Ȳ j Ȳ k = µ + A j + ɛ j, = µ + Ā + b k + ɛ k, Ȳ = µ + Ā + ɛ. Dies impliziert, dass sich für die F-Teststatistik der Nullhypothese b = 0 keine Änderungen ergeben. Denn unter der Nullhypothese hängen nach wie vor sowohl der Residuenvektor ɛ als auch der Vektor Ŷ 2 = ( Ȳ k Ȳ ) ausschließlich von ɛ ab. j,k,s Nun betrachten wir die F-Teststatistik der Nullhypothese a = 0 bzw. σ A = 0 : F = = (L 1) 1 j,k,s (Ȳj Ȳ )2 (n L M + 1) 1 j,k,s (Y jks Ȳj Ȳ k + Ȳ )2 (L 1) 1 Mn o j (V j V ) 2 (n L M + 1) 1 j,k,s (ɛ jks ɛ j ɛ k + ɛ) 2 mit V j := A j + ɛ j N (0, σ 2 A + σ2 /(Mn o )). Hier überzeugt man sich leicht davon, dass σ 2 Mn o σ 2 A + σ2 F F L 1,n L M+1. Diese Tatsache kann man erneut ausnutzen, um Konfidenzschranken für σ A /σ zu konstruieren. Aufgabe Berechnen Sie für Beispiel 3.34 ein zweiseitiges (1 α)-konfidenzintervall für den Quotienten σ A /σ in dem gemischten Modell, Y jk = µ + A j + b k + ɛ jk, 1 j 24, 1 k 4, mit unabhängigen Zufallsvariablen A j N (0, σ 2 A ), ɛ jk N (0, σ 2 ) und unbekannten Parametern µ R, b R 4, wobei b + = 0.

81 Kapitel 4 Regressionsdiagnostik Im vorangehenden Kapitel wurden diverse Verfahren behandelt, die unabhängige und identisch normalverteilte Fehler ɛ i voraussetzen. Eine erste naheliegende Frage ist nun, inwiefern diese Verfahren auch noch funktionieren, wenn die Fehler nicht mehr normalverteilt sind. Wie wir sehen werden, ist diese Frage mit einer anderen verknüpft: Liegen die Designpunkte X i günstig, oder gibt es einzelne Beobachtungen, die das Gesamtergebnis stark beeinflussen? Eine weitere Frage ist, wie man die diversen Modellannahmen graphisch überprüfen kann. 4.1 Hebelwirkung (Leverage) Die mit einem linearen Modell erzielten Resultate sind mit Vorsicht zu genießen, wenn einzelne Beobachtungen das Gesamtergebnis sehr stark beeinflussen. Gemeint sind nicht Ausreißer in den Y -Werten, also Ausreißer im üblichen Sinne, sondern besondere Designmatrizen D, also besondere Konstellationen der Punkte X i. Um solche Beobachtungen zu identifizieren, betrachten wir den Vektor Ŷ = D θ und den Residuenvektor ɛ = Y Ŷ. Im Falle von Var(ɛ) = σ 2 I ist IE( ɛ ɛ ) = σ 2 (I H)(I H) = σ 2 (I H). Insbesondere ist IE ( (Y i Ŷi) 2) = σ 2 (1 H ii ). Die Zahl H ii ist die Hebelwirkung (leverage) der i-ten Beobachtung. Es handelt sich um eine Zahl zwischen Null und Eins. Je größer sie ist, desto stärker beeinflusst die i-te Beobachtung (X i, Y i ) das Gesamtergebnis Ŷ. Wie schon früher angemerkt wurde, ist Daher ist H ii = p. max H ii p,...,n n. Die maximale Hebelwirkung kann also nur klein sein, wenn deutlich mehr Beobachtungen als zu schätzende Parameter verfügbar sind. 81

82 82 KAPITEL 4. REGRESSIONSDIAGNOSTIK Beispiel 4.1 (Einfache lin. Regression, Bspl. 1.2). Mit der Quadratsumme Q := n (X i X) 2 ist Ŷi gleich n j=1 Ȳ + (X j X)Y j (X i Q X) = H ij Y j mit H ij j=1 = 1 n + (X i X)(X j X). Q Die Hebelwirkung der i-ten Beobachtung ist also gleich H ii = 1 n + (X i X) 2. Q Abbildung 4.1 zeigt für einen simulierten Datenvektor Y im R 20 und zwei verschiedene Vektoren X R 20 die entsprechende KQ-Gerade. Darunter wird jeweils ein Stabdiagramm der Hebelwirkungen gezeigt. Um zu verdeutlichen, welchen Einfluss die Beobachtung mit dem größten X-Wert auf die KQ-Gerade hat, wurde der entsprechende Y -Wert noch durch Y ± 10 ersetzt und die resultierende KQ-Gerade gezeichnet. Aufgabe 4.2. Geben Sie eine allgemeine Formel für die Hebelwirkungen im Modell der einfachen Kovarianzanalyse an. 4.2 Eine Anwendung des Zentralen Grenzwertsatzes Die Kernaussage von Lindebergs Zentralem Grenzwertsatz ist, dass eine Summe stochastisch unabhängiger Zufallsvariablen näherungsweise normalverteilt ist, wenn jeder einzelne Summand nur geringen Einfluss auf die Gesamtsumme hat. Satz A.11 in Abschnitt A.6 gibt eine präzise Formulierung dieses Sachverhalts. Nun wenden wir dieses Resultat auf das lineare Modell an. Wir betrachten stochastisch unabhängige Fehler ɛ 1, ɛ 2,..., ɛ n, wobei wir nur voraussetzen, dass (4.1) Std(ɛ i ) = σ und IE(ɛ 4 i ) Kσ 4 für alle i = 1, 2,..., n und eine Konstante K. Der folgende Satz zeigt, dass unsere Student- Tests und -Konfidenzintervalle aus Kapitel 3 zumindest näherungsweise valide sind, wenn die maximale Hebelwirkung gegen Null konvergiert. Dann sind nämlich alle standardisierten Gauß- Markov-Schätzer und die entsprechenden Teststatistiken Z ψ = ψ θ ψ θ σ ψ T ψ = ψ θ ψ θ σ ψ näherungsweise standardnormalverteilt, ob die Fehler nun normalverteilt sind oder nicht.

83 4.2. EINE ANWENDUNG DES ZENTRALEN GRENZWERTSATZES 83 (X i, Y i ) (X i, Y i ) (X i, H ii ) (X i, H ii ) Abbildung 4.1: Zur Hebelwirkung. Satz 4.3. Unter der Voraussetzung (4.1) gilt für die Student-Teststatistiken T ψ : sup ψ R p \{0}, r R { IP(Zψ r) Φ(r) } IP(T ψ r) Φ(r) 0 falls max,...,n H ii 0. Beweis von Satz 4.3. Für ψ R p \ {0} definieren wir den Einheitsvektor b = b(ψ) := (ψ Γ 1 ψ) 1/2 DΓ 1 ψ R n mit Γ = D D. Dann kann man schreiben: Z ψ = b ɛ/σ und T ψ = (σ/ σ)z ψ. Wir konzentrieren uns zunächst auf die Zufallsgrößen Z ψ. Mit Y i := b i ɛ i /σ sind die Vorausset-

84 84 KAPITEL 4. REGRESSIONSDIAGNOSTIK zungen von Satz A.11 erfüllt, und L = L(ψ) b i 3 IE( ɛ i 3 )/σ 3 b i 3 (Kσ 4 ) 3/4 /σ 3 max 1 i n b i K 3/4 wegen i b2 i = 1. Daher genügt es zu zeigen, dass max b i(ψ) 0. ψ R p \{0}, 1 i n Doch die linke Seite kann man mit der Standardbasis e 1,..., e n des R n schreiben als max ψ R p \{0}, 1 i n ψ Γ 1 D e i ψ Γ 1 ψ = max v R p \{0}, 1 i n v Γ 1/2 D e i v = max 1 i n Γ 1/2 D e i = max e 1 i n i DΓ 1 D e i = max 1 i n H ii. Dabei betrachteten wir im ersten Schritt den Vektor v := Γ 1/2 ψ. Im zweiten Schritt verwendeten wir die Cauchy-Schwarz-Ungleichung, wonach v Γ 1/2 D e i / v kleiner oder gleich Γ 1/2 D e i ist, mit Gleichheit für v = Γ 1/2 D e i. Nach Satz 2.16 erfüllt der Quotient S := σ/σ die Ungleichung IE ( (S 1) 2) ((K 3) + + 2)/(n p). Folglich gilt für beliebige r R und δ (0, 1]: IP(T ψ r) Φ(r) = IP(Z ψ Sr) Φ(r) { IP( S 1 > δ) + max IP(Z ψ (1 + δ)r) Φ(r), IP(Z ψ (1 δ)r) Φ(r) } (K 3)+ + 2 (n p)δ 2 + sup IP(Z ψ s) Φ(s) + sup Φ((1 + δ)s) Φ((1 δ)s). s R s R Die rechte Seite hängt nicht mehr von r ab und konvergiert gegen 0, wenn max,...,n H ii 0 und beispielsweise δ = (n p) 1/ Residuenanalyse Normalverteilungs-Q-Q-Plots Zur graphischen Überprüfung der Normalitätsannahme bieten sich Normalverteilungs-P-P- oder Q-Q-plots der Residuen an. Wir beschreiben solche Darstellungen zunächst für einfache Stichproben und allgemeine stetige Verteilungen. Plots für einfache Stichproben. Angenommen, X 1, X 2,..., X n sind stochastisch unabhängig und identisch verteilt mit stetiger Verteilungsfunktion F. Dann sind F (X 1 ), F (X 2 ),..., F (X n )

85 4.3. RESIDUENANALYSE 85 stochastisch unabhängig und auf [0, 1] uniform verteilt. Mit den Ordnungsstatistiken X (1) X (2) X (n) ergeben sich hieraus die Formeln IE F (X (k) ) = k n + 1 und Var ( F (X (k) ) ) = IE F (X (k)) ( 1 IE F (X (k) ) ) n (n + 2) ; siehe auch Aufgabe 4.4. Wir können also davon ausgehen, dass F (X (k) ) recht nahe an k/(n + 1) ist. Aufgabe 4.4 (Uniforme Ordnungsstatistiken). Seien U (1) U (2) U (n) die Ordnungsstatistiken von unabhängigen, nach Unif[0, 1] verteilten Zufallsvariablen U 1, U 2,..., U n. (a) Zeigen Sie, dass U (k) nach der Dichtefunktion f k auf [0, 1] verteilt ist, wobei ( ) n 1 f k (u) := n u k 1 (1 u) n k. k 1 Hinweis: Für u [0, 1] ist U (k) u genau dann, wenn n 1 [U i u] k. (b) Ein Nebenprodukt von Teil (a) ist, dass 1 0 ( ) l + m 1 u l (1 u) m du = (l + m + 1) 1. l Verifizieren Sie diese Formel. Zeigen Sie dann, dass IE(U (k) ) = k n + 1 und Var(U (k) ) = IE(U (k)) ( 1 IE(U (k) ) ) n (n + 2). P-P-Plots. Um die Annahme, dass die X i nach F verteilt sind, graphisch zu überprüfen, kann man die Punkte ( k ) n + 1, F (X (k)) [0, 1] [0, 1] in einem Diagramm eintragen und schauen, ob sie in etwa auf der ersten Winkelhalbierenden liegen. Q-Q-Plots. Alternativ kann man die Punkte ( F 1( k ) ), X n + 1 (k) R R auftragen und mit der ersten Winkelhalbierenden vergleichen. Lokations- und Skalenfamilien. Angenommen ɛ i F o ( µ σ für eine gegebene stetige Verteilungsfunktion F o und unbekannte Parameter µ R, σ > 0. Mit geeigneten Schätzern µ und σ kann man als P-P-Plot die Punktepaare ) ( k ( X(k) n + 1, F µ )) o σ

86 86 KAPITEL 4. REGRESSIONSDIAGNOSTIK betrachten. Für den Q-Q-Plot bieten sich zwei Varianten an: Man zeichnet die Punktepaare ( ( k ) ), X (k) F 1 o n + 1 und prüft, ob sie in etwa auf irgendeiner Geraden liegen. Oder man zeichnet die Punktepaare ( F 1 o ( k n + 1 und vergleicht sie mit der ersten Winkelhalbierenden. ), X (k) µ ) Aufgabe 4.5 (Q-Q-Plots für t-verteilungen). (a) Schreiben Sie ein Programm, das für einen beliebigen Datenvektor X und einen beliebigen Parameter ν > 0 einen Q-Q-Plot mit der Verteilungsfunktion F ν der Student-Verteilung t ν zeichnet. Falls Sie mit Lokations- und Skalenschätzern arbeiten möchten, bieten sich z.b. der Stichprobenmedian und der Interquartilabstand mit geeignetem Skalenfaktor an. (b) Besorgen Sie sich via Internet die Tageskurse einer bestimmten Aktie oder eines bestimmten Aktienindex über einen längeren Zeitraum. Bilden Sie aus den Rohwerten K t die log-returns σ X t := log 10 (K t+1 /K t ). Untersuchen Sie nun mit Hilfe Ihres Programmes aus Teil (a), inwiefern man die Verteilung der log-returns durch eine t-verteilung modellieren kann. Zusatzfrage: Halten Sie die stochastische Unabhängigkeit der log-returns für plausibel? Lineare Modelle. Im linearen Modell ordnet man die Residuen ɛ i der Größe nach und erhält ɛ (1) ɛ (2) ɛ (n). Dann zeichnet man die Paare oder (4.2) ( ( Φ 1( Φ 1( i ) ), ɛ n + 1 (i) i ) n + 1 Unter der Voraussetzung, dass die ɛ i homoskedastisch und normalverteilt sind, sollten diese Punkte in etwa auf einer Geraden durch den Ursprung mit Steigung σ beziehungsweise 1 liegen, wenn der Quotient p/n klein ist; siehe auch Aufgabe 4.6. Das ist natürlich etwas vage. In der Praxis sollte, ɛ (i) σ man deshalb diesen Normalverteilungsplot mit einem Streudiagramm der Punkte ( Φ 1( i ) ), n + 1 Ẑ(i) bzw. (4.3) ( Φ 1( ). i ) n p Ẑ ) (i), n + 1 Ẑ vergleichen, wobei Z R n ein simulierter standardnormalverteilter Vektor ist, Ẑ := (I H)Z, und Ẑ(1) Ẑ(2) Ẑ(n) sind die Ordnungsstatistiken letzterer Projektion. Diese Simulation kann man beliebig oft wiederholen. Unter der Nullhypothese, dass ɛ unabhängige, identisch

87 4.3. RESIDUENANALYSE 87 normalverteilte Komponenten hat, sollte man keinen systematischen Unterschied zwischen dem Normalverteilungs-Q-Q-Plot der Originaldaten und dem der simulierten Daten sehen, denn dann haben ( ɛ (i) / σ ) n und ( n p Ẑ (i) / Ẑ ) n die gleiche Verteilung. Aufgabe 4.6 (Schätzung der Fehlerverteilung). Angenommen, die Fehler ɛ i sind stochastisch unabhängig und identisch nach Q verteilt, wobei x Q(dx) = 0 und σ 2 = x 2 Q(dx) <. Die empirische Verteilung Q der Residuen ɛ i, also Q(B) := 1 n 1 [ ɛi B] für B R, ist ein konsistenter Schätzer für Q im folgenden Sinne: Für jede beschränkte und Lipschitz-stetige Funktion h : R R gilt: IE h(x) Q(dx) Beweisen Sie diese Aussage! h(x) Q(dx) 0 falls p/n 0. Hinweis: Bringen Sie die empirische Verteilung ˇQ der Fehler ɛ i ins Spiel! Aufgabe 4.7 (Approximation stetiger durch Lipschitz-stetige Funktionen). Sei (X, d) ein metrischer Raum und h eine beschränkte Abbildung von X nach R. Für L > 0 seien Beweisen Sie folgende Aussagen: ( ) h L,1 (x) := inf h(y) + Ld(x, y), y X ( ) h L,2 (x) := sup h(y) Ld(x, y). y X (a) h L,1 und h L,2 sind Lipschitz-stetig mit Konstante L, und (b) Für jede Stetigkeitsstelle x von h ist inf h(y) h L,1 h h L,2 sup h(y). y X y X lim h L,j(x) = h(x) (j = 1, 2). L (Mit dieser Aufgabe kann man die Lipschitz-Stetigkeit von h in Aufgabe 4.6 durch Stetigkeit ersetzen.) Plots von Residuen gegen Funktionen der Kovariablen oder des Fits Neben der Normalverteilungsannahme sollte man das zugrundegelegte lineare Modell selbst und die Homoskedastizität der Fehler überprüfen. Zu diesem Zwecke untersucht man den Residuenvektor ɛ auf Strukturen, die den Modellannahmen widersprechen. Eine Möglichkeit ist die graphische Darstellung der Paare (V i, ɛ i ),

88 88 KAPITEL 4. REGRESSIONSDIAGNOSTIK wobei V = (V i ) n Rn ein willkürlich gewählter Vektor ist, der von X und Ŷ abhängen kann. Oftmals wählt man V i = Ŷi oder die Werte einer bestimmten numerischen Kovariable. Beim Betrachten eines solchen Plots achtet man auf zwei Dinge: Trends im lokalen Mittelwert: Wenn die Residuen nicht um Null gestreut sind, sondern je nach V -Wert eher positiv oder eher negativ sind, dann deutet dies darauf hin, dass unser lineares Modell falsch ist, also IE(Y ) M. Trends in der Variabilität: Wenn die Residuen zwar um Null gestreut sind, ihr Absolutbetrag jedoch deutlich vom V -Wert abhängt, dann ist dies ein Hinweis auf mögliche Heteroskedastizität. Die Beurteilung eines solchen Plots ist eventuell schwierig, wenn die Komponenten von V sehr ungleichmäßig verteilt sind. Dies kann man oft vermeiden, indem man den Vektor V durch den entsprechenden Rangvektor ersetzt. Wenn V zahlreiche Bindungen aufweist, sollte man aber nicht mit den üblichen gemittelten, sondern mit Rängen in {1, 2,..., n} arbeiten. Beispiel 4.8 (Baseball). Wir illustrieren diese Methoden anhand eines Datensatzes, der unter anderem das Einkommen (Y, in USD) und die Berufserfahrung (X, in Jahren) von n = 263 professionellen Baseballspielern enthält. Die Rohdaten enthalten je einmal den X-Wert 23 und 24, alle anderen X-Werte sind kleiner oder gleich 20. Daher ersetzen wir X durch min(x, 20). Zunächst unterstellen wir das Modell der einfachen linearen Regression, also Y = a + bx + ɛ. Die entsprechenden KQ-Schätzer sind â = und b = mit der geschätzten Standardabweichung σ = und dem Bestimmheitsmaß Radj 2 = Abbildung 4.2 zeigt die Daten und die entsprechende Regressionsgerade. Man ahnt schon bei diesem Bild, dass unsere Modellannahmen nicht plausibel sind. Zwei entsprechende Residuenplots werden in Abbildung 4.3 gezeigt. Oben links ist der Normalverteilungs-Q-Q-Plot und oben rechts ein Streudiagramm der Paare (X i, ɛ i ) zu sehen. Der Normalverteilungsplot zeigt eine deutliche Abweichung von der Geradenform. Dies wird noch deutlicher beim Vergleich mit der unteren Reihe. Dort werden Normalverteilungsplots der Form (4.3) für zwei Simulationen gezeigt. Der Normalverteilungsplot und auch das Streudiagramm der Rohdaten deuten an, dass wir es mit rechtsschiefen Verteilungen zu tun haben. Daher versuchen wir es nun mit der Transformation Y Ỹ := log 10(Y ); siehe auch den nächsten Abschnitt. Abbildung 4.4 zeigt die transformierten Daten und den entsprechenden linearen Fit. Nun ist â = 2.253, b = , σ = und Radj 2 = Die neuen Residuenplots werden in Abbildung 4.5 gezeigt. Der Normalverteilungsplot (links) sieht nun sehr gut aus. Doch die Residuen sind tendenziell negativ bei kleinen oder großen X-Werten und tendenziell positiv bei mittleren X-Werten. Dies deutet auf einen nichtlinearen Zusammenhang zwischen X und Y hin. Das Streudiagramm der Paare (X i, Ỹi) deutet an, dass die größten Veränderungen vor allem bei kleinen X-Werten auftreten. Daher verwenden wir nun auch die Transformation X X := log 10 (X). Trotz dieser doppelten Transformation sieht man in den Residuenplots für lineare oder quadratische Regression noch deutliche Effekte. Dies wird auch durch entsprechende F-Tests bestätigt, wenn man als volles Modell polynomiale Regression mit Grad 4, 5 oder höher zugrundelegt. Andererseits suggerieren diese F-Tests, dass das Modell der kubischen Regression ausreicht.

89 4.3. RESIDUENANALYSE Abbildung 4.2: Linearer Fit für Rohdaten. Probieren wir es also damit, das heißt, Ỹ = f( X) + ɛ mit f(x) = 3 ã 0 x j. j=0 Abbildung 4.6 zeigt links oben ein Streudiagramm der Paare ( X i, Ỹi) zusammen mit der geschätzten Regressionsfunktion f sowie punktweisen und simultanen 95%-Konfidenzintervallen für f(x). Rechts oben sieht man den entsprechenden Normalverteilungs-Q-Q-Plot (4.2). Links unten wird ein Streudiagramm der Punkte (X i, ɛ i ) gezeigt. Es ist schwierig zu beurteilen, da die verschiedenen X-Werte unterschiedlich häufig auftreten. Deshalb betrachten wir rechts unten ein Streudiagramm der Punkte (R i, ɛ i ), wobei (R i ) n ein zufällig gewählter Rangvektor von X ohne Mittelung bei Bindungen ist. Jetzt sieht man besser, dass die Modellannahmen recht plausibel sind, nur bei sehr kleinen Werten von X sieht man eine etwas geringere Streuung und Ausreißer nach oben. Aufgabe 4.9. Führen Sie eine Residuenanalyse für den Datensatz Goats.txt durch. Diskutieren Sie die Ergebnisse. Aufgabe Mit Plots von Paaren ( V i (Ŷ ), ɛ i) ist eine Variante von F-Test verwandt, die in speziellen Situationen von J. Tukey vorgeschlagen wurde: Angenommen, wir beobachten Y N n (µ, σ 2 I n ), und M sei ein p-dimensionaler Teilraum des R n mit p < n 1. Nun möchten wir testen, ob µ M. Hierzu könnte man M in einen größeren linearen Teilraum M mit p < p = dim(m ) < n einbetten und einen F-Test von µ M versus µ M \ M durchführen. Interessanterweise müssen wir nicht a priori einen festen Raum M wählen, sondern dürfen M in Abhängigkeit von Ŷ wählen!

90 90 KAPITEL 4. REGRESSIONSDIAGNOSTIK Abbildung 4.3: Residuenplots für Rohdaten (obere Reihe) und simulierte Daten (untere Reihe). Für p < j p und x M sei b j (x) M derart, dass b j (x) b k (x) = 1 [j=k] für j, k = p + 1,..., p. Zeigen Sie, dass im Falle von µ M. p j=p+1 (b j(ŷ ) ɛ) 2 /(p p) ( ɛ 2 p j=p+1 (b j(ŷ ) ɛ) 2) /(n p ) F p p,n p Aufgabe 4.11 (Tukeys Test für Nichtadditivität). Gegeben seien stochastisch unabhängige Beobachtungen Wir nehmen an, dass Y jk N (µ jk, σ 2 ), 1 j L, 1 k M. µ jk = µ + a j + b k

91 4.3. RESIDUENANALYSE Abbildung 4.4: Linearer Fit für log-transformierte Daten. mit gewissen Parametern µ R, a R L und b R M, wobei a + = 0 = b +. Die entsprechenden Gauß-Markov-Schätzer sind dann gegeben durch µ := Y, â j := Y j Y und b k := Y k Y. Nun möchten wir testen, ob tatsächlich (µ jk ) j,k die obige additive Form hat. Zeigen Sie mithilfe von Aufgabe 4.10, dass mit ɛ jk := Y jk Y j Y k + Y unter der Modellannahme gilt: W 2 ( j,k ɛ2 jk W 2) /(LM L M) F 1,LM L M, wobei W := j,k â j bk ɛ jk / j b2 k. â 2 j k Aufgabe Für ein d N sei f : R d R zweimal stetig differenzierbar in einer Umgebung von 0. Mit der Standardbasis e 1, e 2,..., e d des R d definieren wir h j (x) := f(xe j ) f(0) für 1 j d und x R. Angenommen, h j (0) 0 für 1 j d. Zeigen Sie, dass f(x) = f(0) + h j (x j ) + c jk h j (x j )h k (x k ) + o( x 2 ) für x 0 1 j d mit geeigneten Konstanten c jk R. 1 j<k d

92 92 KAPITEL 4. REGRESSIONSDIAGNOSTIK Abbildung 4.5: Residuenplots für log-transformierte Daten mit linearem Fit. 4.4 Transformationen Wenn die Residuenplots auf heteroskedastische Fehler hinweisen, stellt sich die Frage, was man tun sollte. Oftmals kann man durch eine einfache Vortransformation der Y -Werte Homoskedastizität erreichen. Denn in vielen Anwendungen mit nichtnegativen Y -Werten ist die Standardabweichung von Y i augenscheinlich oder bekanntermaßen proportional zu (IE Y i ) γ für ein γ (0, 1]. Im Falle von poissonverteilten Variablen ist beispielsweise γ = 1/2; siehe Aufgabe Hier bietet es sich an, die Rohdaten Y i durch T γ (Y i ) zu ersetzen, wobei T γ (y) := y 1 γ 1 falls 0 < γ < 1, 1 γ log(y) falls γ = 1. Sei nämlich Y eine Zufallsvariable der Form Y = µ + µ γ Z mit einer reellen Konstante µ > 0 und einer Zufallsvariable Z mit IE(Z) = 0 und µ γ Std(Z) << µ. Im Falle von 0 < γ < 1 ist dann T γ (Y ) = µ1 γ( 1 + µ γ 1 Z ) 1 γ 1 1 γ µ1 γ( 1 + (1 γ)µ γ 1 Z ) 1 1 γ = T γ (µ) + Z. Dabei verwendeten wir die Taylorentwicklung (1 + x) 1 γ = 1 + (1 γ)x + O(x 2 ) für x 0. Im Falle von γ = 1 ergibt sich aus log(1 + x) = x + O(x 2 ) für x 0, dass T 1 (Y ) = log(µ) + log(1 + Z) log(µ) + Z = T 1 (µ) + Z. Varianz- oder Regressionsanalysen mit poissonverteilten Y -Werten fallen beispielsweise in der Biologie oder Medizin an, wenn Zellkonzentrationen bestimmt werden. Ein anderes Beispiel ist

93 4.4. TRANSFORMATIONEN Abbildung 4.6: Kubischer Fit und Residuenplots für doppelt log-transformierte Daten. die Bildverarbeitung von Niedrig-Dosis-Röntgenaufnahmen. Hier verwendet man übrigens gerne T (y) := y an Stelle von T 1/2 (y) = 2 y, um die Normalapproximation zu verbessern. Aufgabe Sei Y eine nach Poiss(λ) verteilte Zufallsvariable. Zeigen Sie, dass a + Y a + λ für große Werte von λ und beliebige feste Zahlen a 0 näherungsweise normalverteilt ist mit Erwartungswert Null und Standardabweichung 1/2.

94 94 KAPITEL 4. REGRESSIONSDIAGNOSTIK

95 Kapitel 5 Nichtparametrische Regression Wir betrachten nun den Spezialfall einer numerischen Kovariable X. Hierfür kennen wir bereits die Modelle der einfachen linearen Regression sowie der polynomialen Regression. Letztere wird jedoch mit zunehmender Ordnung der Polynome numerisch und auch statistisch instabil. Wenn man davon ausgeht, dass Y = f(x) + ɛ mit einer hinreichend glatten, aber unbekannten Funktion f : R R, dann gibt es viele alternative Verfahren, von denen wir im vorliegenden Kapitel zwei Typen einführen. Für weitergehende Resultate über nichtparametrische Regression, insbesondere lokale Polynome, verweisen wir auf die Monographie von Fan und Gijbels (1996) sowie die darin genannte Literatur. 5.1 Spline-Regression Definition von Splines Eine Funktion f : [a, b] R heißt Spline d-ter Ordnung mit Knotenpunkten a = t 0 < t 1 < < t m = b, wenn sie folgende Bedingungen erfüllt: (a) Auf jedem Intervall [t k 1, t k ] ist f ein Polynom d-ter Ordnung. (b) f ist (d 1)-mal stetig differenzierbar. Man spricht speziell von linearen Splines, wenn d = 1, quadratischen Splines, wenn d = 2, kubischen Splines, wenn d = 3. Im Folgenden schreiben wir S d (t 0, t 1,..., t m ) := { Splines der Ordnung d mit Knotenpunkten t 0, t 1,..., t m }. 95

96 96 KAPITEL 5. NICHTPARAMETRISCHE REGRESSION Anmerkung. Manche Autoren würden hier von Splines der Ordnung d + 1 sprechen. Für sie ist die Ordnung eines Splines die Anzahl der Polynomparameter auf den einzelnen Intervallen [t k 1, t k ] Polynom-Darstellung und eine erste Basis Man überzeugt sich leicht davon, dass die Menge S d (t 0, t 1,..., t m ) ein endlichdimensionaler Vektorraum von Funktionen auf [a, b] ist. Die Frage ist nur, welche Dimension er hat, und wie geeignete Basen aussehen. Nach Voraussetzung existieren für k = 1,..., m Koeffizienten b k,0, b k,1,..., b k,d derart, dass für x [t k 1, t k ] gilt: f(x) = P k (x) := Mit k := t k t k 1 kann man auch schreiben: d b k,j (x t k 1 ) j. j=0 P k (x) = = = d b k,j (x t k + k ) j j=0 d j b k,j j=0 i=0 d ( d i=0 j=i ( j i ( ) j i j i k (x t k ) i ) j i k b k,j )(x t k ) i. Daher ist (5.1) b k+1,i = P (i) k+1 (t k) i! = d j=i ( j i = f (i) (t k +) i! = f (i) (t k ) i! ) j i k b k,j für 1 k < m, 0 i < d. = P (i) k (t k) i! Wenn man also P 1, P 2,..., P k nacheinander festlegt, so gibt es zu Beginn d + 1 frei wählbare Koeffizienten für P 1. Danach stehen b 2,0,..., b 2,d 1 gemäß (5.1) bereits fest, und nur noch b 2,d ist frei wählbar. Allgemein ist nach Festlegung von P 1,..., P k mit k < m nur noch der Koeffizient b k+1,d von P k+1 frei wählbar. Und zwar gibt d!b k+1,d an, um wieviel die d-te Ableitung von f an der Stelle t k springt. Diese Überlegungen zeigen, dass dim (S d (t 0, t 1,..., t m )) = (d + 1) + (m 1) = d + m. Sie suggerieren auch eine erste Basis für S d (t 0, t 1,..., t k ): f i (x) := (x t 0 ) i 1 für i = 1,..., d + 1, f d+1+k (x) := (x t k ) d + für k = 1,..., m 1,

97 5.1. SPLINE-REGRESSION 97 wobei r + := max(r, 0) für eine reelle Zahl r. Schreibt man eine beliebige Funktion f S d (t 0, t 1,..., t m ) als Linearkombination f = d+m dieser Basisfunktionen, so gilt der folgende Zusammenhang zwischen den Koeffizienten θ i und b k,j : θ i f i θ i = b 1,i 1 für i = 1,..., d + 1, θ d+1+k = b k+1,d b k,d für k = 1,..., m 1. Mit anderen Worten, für 1 k < m ist d! θ d+1+k die Änderung der d-ten Ableitung von f an der Stelle t k B-Splines Ein Nachteil der eben definierten Basisfunktionen ist, dass die entsprechende Designmatrix oftmals schlecht konditioniert ist. Denn zwei Spalten der Form ( (X i t k 1 ) d n +) können nahezu kollinear sein. Daher sollte man Basisfunktionen mit kleinerem Träger wählen. Genauer gesagt, möchten wir nichtnegative Basisfunktionen B 1,..., B d+m festlegen, so dass gilt: {x [a, b] : B i (x) > 0} = (t i 1 d, t i ) [a, b]. Dabei seien t d < t 1 d < < t 0 = a und b = t m < t m+1 < < t m+d beliebig gewählte Punkte. Solche Basisfunktionen kann man in der Tat finden. Für die dahinterstehende allgemeinere Theorie verweisen wir auf de Boor (2002) oder Schumaker (1981); siehe auch Abschnitt A.4 im Anhang. Spezialfall 1: Lineare Splines. Eine Funktion f S 1 (t 0, t 1,..., t m ) wird durch ihre Werte an den m + 1 Knotenpunkten bereits eindeutig festgelegt. Speziell sei B i,1 S 1 (t 0, t 1,..., t m ) mit B i,1 (t j ) := { 1 falls j = i 1, 0 falls j i 1. Abbildung 5.1 zeigt diese Basisfunktionen für den Spezialfall, dass m = 5 und (t 0, t 1,..., t m ) = (0, 1, 2, 4, 5, 6). Die Basisfunktion B 3 wird besonders hervorgehoben. Bei dieser Basis ist einfach θ i = f(t i 1 ) für f S 1 (t 0, t 1,..., t m ) und i = 1,..., m + 1. B-Splines höherer Ordnung. Die vorangehend beschriebenen Basisfunktionen tauchen in einem allgemeinen rekursiven Schema auf. Für gegebenes d o N starten wir mit den Funktionen B z,0 (x) := 1 [tz 1 x<t z], 1 d o z m + d o

98 98 KAPITEL 5. NICHTPARAMETRISCHE REGRESSION Abbildung 5.1: Basisfunktionen B j,1 für S 1 (0, 1, 2, 4, 5, 6). und definieren für d = 1, 2,..., d o die Hilfsgröße z,d := t z t z d sowie B z,d (x) = x t z 1 d z 1,d B z 1,d 1 (x) + t z x z,d B z,d 1 (x) für 1 d o + d z m + d o. Wie im Anhang gezeigt wird, bilden die Funktionen B j,d, 1 j m + d für jedes d {1, 2,..., d o } eine Basis des Raumes S d (t 0, t 1,..., t m ) und haben die gewünschte Eigenschaft, dass B j,d = 0 auf R \ (t j d, t j ), B j,d > 0 auf (t j d, t j ). Ferner ist m+d j=1 B j,d 1 auf [a, b]. Die Abbildungen 5.2 und 5.3 zeigen eine B-Spline-Basis für S 2 (0, 1, 2, 4, 5, 6) beziehungsweise S 3 (0, 1, 2, 4, 5, 6). In beiden Fällen verwendeten wir t z := 0.1 z für z < 0 und t 5+z := z für z > Präzision bei linearen Splines Angenommen, alle X-Werte liegen in einem kompakten Intervall [a, b], und wir verwenden lineare Splines mit den äquidistanten Knoten t m,i = a + (i/m)(b a), 0 i m. Das bedeutet, die geschätzte Regressionsfunktion f kann man als Schätzer für die Funktion deuten, wobei f n,m := arg min f g n g S 1 (t m,0,...,t m,m) h n := n 1 h(x i ) 2 ;

99 5.1. SPLINE-REGRESSION Abbildung 5.2: Basisfunktionen B j,2 für S 2 (0, 1, 2, 4, 5, 6). siehe auch Abschnitt 2.5. Satz 5.1. Im Falle homoskedastischer Fehler ɛ i mit Varianz σ 2 ist IE ( f f 2 ) n f fn,m 2 n + Falls f zweimal differenzierbar ist mit f L, so ist f f n,m 2 n L2 (b a) 4 64m 4. (m + 1)σ2. n Wählt man speziell m = m(n) = (C + o(1))n 1/5 für ein C > 0, so ist IE ( f f 2 n) = O(n 4/5 ). Dieser Satz zeigt, dass man mit Hilfe linearer Splines eine zweimal differenzierbare Regressionsfunktion f mit beschränkter zweiter Ableitung bis auf einen Fehler der Größenordnung O p (n 2/5 ) schätzen kann. Tatsächlich kann man zeigen, dass es unter diesen Voraussetzungen keinen Schätzer mit besserer Konvergenzrate geben kann, was aber über den Rahmen dieser Vorlesung hinausgeht. Beweis von Satz 5.1. Wie schon in Abschnitt 2.5 erwähnt wurde, ist IE ( f f 2 ) n = f fn,m 2 n + wobei p(n, m) die Dimension des Modellraumes p(n, m)σ2, n { (g(xi )) n : g S 1 (t m,0,..., t m,m ) }

100 100 KAPITEL 5. NICHTPARAMETRISCHE REGRESSION Abbildung 5.3: Basisfunktionen B j,3 für S 3 (0, 1, 2, 4, 5, 6). ist. Offensichtlich ist p(n, m) m+1. Als Ersatz für f n,m betrachten wir den Interpolationsspline f m S 1 (t m,0,..., t m,m ) mit f m (t m,i ) = f(t m,i ) für i = 0,..., m. Offensichtlich ist f f n,m 2 n f f m 2 n max f(x) f m(x) 2 x [a,b] L2 (b a) 4 64m 4. Dabei folgt letztere Ungleichung aus Aufgabe 5.2. Die letzte Behauptung des Satzes ergibt sich durch einfaches Nachrechnen. Aufgabe 5.2 (Lineare Interpolation/Extrapolation). Sei f eine zweimal differenzierbare Funktion auf [a, b] mit f L, und für a x 0 < x 1 b sei g(x) := f(x 0 ) + x x 0 x 1 x 0 (f(x 1 ) f(x 0 )). Das heißt, g ist eine lineare Funktion mit g(x 0 ) = f(x 0 ) und g(x 1 ) = f(x 1 ). Zeigen Sie, dass f(x) g(x) L 2 x x 0 x x 1 für beliebige x [a, b]. Folgern Sie hieraus, dass stets f g L(x 1 x 0 ) 2 /8 auf [x 0, x 1 ]. 5.2 Lokale Polynome Wenn die Regressionsfunktion f d-mal stetig differenzierbar ist, dann ergibt sich aus der Taylorschen Formel, dass f(x + s) = d k=0 f (k) (x) sk k! + o(sd ) für s 0.

101 5.2. LOKALE POLYNOME 101 Man kann also f lokal durch ein Polynom d-ter Ordnung approximieren. Um f(x) zu schätzen, könnte man daher eine Umgebung U(x) von x wählen und für die Beobachtungen (X i, Y i ) mit X i U(x) das Modell der polynomialen Regression unterstellen. Eine allgemeinere Beschreibung dieses Verfahrens ist wie folgt: Zu einem festen Punkt x wählt man für 1 i n nichtnegative Gewichte w i (x), so dass Dann minimiert man die Quadratsumme #{X i : w i (x) > 0} d + 1. ( w i (x) Y i d k=0 (X i x) k ) 2 a k k! als Funktion von a = (a k ) d k=0 Rd+1. Sei â(x) := (â k (x)) d k=0 das eindeutige Minimum. Dann kann man â k (x) als Schätzer für f (k) (x) deuten Beispiele für die Gewichte w i (x) Nearest-Neighbor-Methode. und definiert w i (x) := Man wählt man eine ganze Zahl k = k(n) zwischen Eins und n { 1 falls x Xi R k (x), 0 falls x X i > R k (x). Dabei sind R 1 (x) R 2 (x) R n (x) die der Größe nach geordneten Abstände x X j zwischen dem Punkt x und den Stichproben-X-Werten. Die Zahlen k(n) sollten die Bedingungen lim n k(n) = und lim n k(n)/n = 0 erfüllen. Kernfunktionen. Sei K : R R eine nichtnegative Funktion mit 0 < K(x) dx <. Dann definiert man ( x Xi ) w i (x) := K h mit einer hinreichend großen Bandweite h = h(x, X) > 0. In unserem konkreten Beispiel (s.u.) verwenden wir den Epanechnikov-Kern K(x) := max(1 x 2, 0). Stattdessen könnte man für K auch die Gaußsche Glockenkurve φ verwenden Konkrete Berechnung Im Gegensatz zu den früheren KQ-Schätzern minimieren wir nun eine gewichtete Summe von Quadraten. Doch ( w i (x) Y i d k=0 (X i x) k ) 2 a k = Y (x) D(x)a 2 k!

102 102 KAPITEL 5. NICHTPARAMETRISCHE REGRESSION mit Y (x) := ( wi (x) Y i ) n Rn und Demnach ist D(x) := ( wi (x) (X i x) j 1 ) (j 1)! i,j Rn (d+1). â(x) = arg min a R d+1 Y (x) D(x)a 2. Die Spezialfälle d = 0 und d = 1. gewichteten Mittelwert Für einen beliebigen Vektor v R n definieren wir seinen v(x) := π i (x)v i mit π i (x) := w i (x) / n w j (x). j=1 Im Spezialfall d = 0 ergibt sich dann der Schätzer f(x) = Y (x). Im Spezialfall d = 1 kann man schreiben f(x) = Y (x) + â 1 (x)(x X(x)) mit â 1 (x) := S(x) 2 := π i (x) (X i X(x))Y i S(x) 2, π i (x)(x i X(x)) 2. Diese Formeln ergeben sich aus elementaren Rechnungen oder der folgenden Aufgabe. Aufgabe 5.3. Seien X o und Y o Zufallsvariablen auf einem gemeinsamen Wahrscheinlichkeitsraum, so dass IE(X 2 o ), IE(Y 2 o ) < und Var(X o ) > 0. Zeigen Sie, dass genau dann minimal in a, b R ist, wenn IE ( (Y o a bx o ) 2) a = IE(Y o ) b IE(X o ), b = Cov(X o, Y o ) Var(X o ) = IE( ) (X o IE(X o ))Y o. Var(X o ) Wenden Sie dieses Ergebnis auf zwei feste Vektoren x, y R n und die Zufallsvariablen X o := x J, Y o = y J an, wobei J eine Zufallsvariable mit Werten in {1, 2,..., n} ist, und π i := IP(J = i).

103 5.2. LOKALE POLYNOME 103 Beispiel 5.4 (Baseball-Daten). Für die Daten in Beispiel 4.8 zeigt Abbildung 5.4 ein Streudiagramm, in dem die 10er-Logarithmen der Jahreseinkommen (Y ) den Zahlen von Berufsjahren (X) gegenübergestellt werden, wobei Werte größer als 20 durch 20 ersetzt wurden. Zusätzlich wird ein Schätzer f S 3 (0.5, 5.5, 10.5, 15.5, 20.5) für f gezeichnet. Dies ist die mittlere Kurve. Die vier anderen Kurven stellen punktweise und simultane (nach Scheffé) 95%-Konfidenzschranken für f dar. Genauer gesagt, handelt es sich um Konfidenzschranken für die Funktion f o := arg min f g n. g S 3 (0.5, 5.5, 10.5, 15.5, 20.5) Abbildung 5.5 zeigt die gleichen Daten sowie die lokal-linearen Schätzer f, basierend auf dem Epanechnikov-Kern und den globalen Bandweiten h = 2 bzw. h = Abbildung 5.4: Spline-Schätzer für f. Aufgabe 5.5. Implementieren Sie die lokal-linearen und lokal-quadratischen Schätzer. Vergleichen Sie die Methoden anhand simulierter Daten Präzision der lokal-linearen Schätzer In diesem Abschnitt leiten wir eine grobe Schranke für die Präzision der lokal-linearen Schätzer her. Für genauere und allgemeinere Aussagen verweisen wir auf Fan und Gijbels (1996). Den lokal-linearen Schätzer f(x) kann man auch wie folgt darstellen: wobei f(x) = π i (x)k(x, X i )Y i, K(x, t) := 1 + (x X(x))(t X(x)) S(x) 2.

104 104 KAPITEL 5. NICHTPARAMETRISCHE REGRESSION Abbildung 5.5: Lokal-linearer Schätzer für f mit h = 2 (gestrichelt) bzw. h = 4 (durchgezogen). Man kann X(x) und S(x) als Mittelwert und Standardabweichung einer diskreten Wahrscheinlichkeitsverteilung Q x deuten, nämlich Q x (B) := π i (x)1 [Xi B]. Der Erwartungswert von f(x) lässt sich dann schreiben als π i (x)k(x, X i )f(x i ) = Man kann leicht nachrechnen, dass f(t)k(x, t) Q x (dt). K(x, t) Q x (dt) = 1 und tk(x, t) Q x (dt) = x. Daher ist IE f(x) gleich f(x), sofern f eine lineare Funktion ist. Nun wollen wir aber nur voraussetzen, dass f zweimal differenzierbar ist mit Ableitungen f und f, wobei f L. In diesem Falle ist f(t) = f(x) + f (x)(t x) + r(x, t) mit r(x, t) L(t x)2. 2 Mit (x) := max { X i x : 1 i n, w i (x) > 0 }

105 5.2. LOKALE POLYNOME 105 ist daher IE f(x) f(x) = r(x, t)k(x, t) Q x (dt) r(x, t) K(x, t) Q x (dt) L (x)2 ( x X(x) t X(x) S(x) S(x) ( ) 1 +. L (x)2 2 x X(x) S(x) ) Q x (dt) Andererseits gilt mit die Ungleichung σ 2 := max,...,n Var(Y i) Var ( f(x) ) = π i (x) 2 K(x, X i ) 2 Var(Y i ) σ 2 max π i(x),...,n = σ 2 max,...,n π i(x) = σ 2 max,...,n π i(x) K(x, t) 2 Q x (dt) (1 + (1 + (x X(x))2 S(x) 2 (x ) X(x))2 S(x) 2. Dabei verwendeten wir die Tatsache, dass (t X(x)) Q x (dt) = 0. Alles in allem ergibt sich die Ungleichung ( ( ) ) 2 IE f(x) f(x) = ( IE f(x) f(x) ) 2 ( ) + Var f(x) (5.2) ( L 2 (x) 4 2 (t X(x)) 2 S(x) 2 ) Q x (dt) + σ 2 max π (x ) X(x))2 i(x) )(1 +,...,n S(x) 2. Dies zeigt, dass einerseits (x) und andererseits max i π i (x) möglichst klein sein sollten, was natürlich nicht simultan erreicht werden kann. Speziell sei X i = i/n, und die Gewichte seien nach der Nearest-Neighbor-Methode definiert. Dann gilt gleichmäßig für alle x [0, 1]: ( k(n) ) ( 1 ) (x) = O, max n π i(x) = O,,...,n k(n) (x X(x)) 2 S(x) 2 = O(1). Um für die Schranke (5.2) eine möglichst kleine Größenordnung zu erhalten, sollten (k(n)/n) 4 und k(n) 1 von der gleichen Größenordnung sein. Dies ist der Fall, wenn k(n) von der Größenordnung n 4/5 ist. In diesem Falle ist IE ( ( f(x) f(x)) 2) = O(n 4/5 ) und insbesondere f(x) f(x) = O p (n 2/5 )

106 106 KAPITEL 5. NICHTPARAMETRISCHE REGRESSION gleichmäßig in x [0, 1]. Die gleichen Größenordnungen ergeben sich mit den Kernfunktionen, wenn die Bandweite h von der Größenordnung n 1/5 ist. 5.3 Regularisierung Zu guter Letzt beschreiben wir noch einen Spezialfall einer Glättungsmethode, die unter dem Namen Regularisierung bzw. Penalisierung bekannt ist. Allgemein schätzt man die unbekannte Regressionsfunktion f, indem man (Y i g(x i )) 2 + λ Pen(g) für einen gegebenen Regularisierungsparameter λ > 0 und eine Penalisierungsfunktion Pen( ) über alle Funktionen g : R R minimiert. Dabei misst Pen(g) die Irregularität von g und verhindert, dass man Funktionen wählt, deren Graph einfach die Beobachtungen (X i, Y i ) verbindet. Der Parameter λ spielt eine ähnliche Rolle wie k(n) bzw. h 1 bei den lokal-polynomialen Schätzern Glättungssplines Für eine Funktion g : R R sei Pen 1 (g) := R g (x) 2 dx, sofern g absolutstetig ist, ansonsten setzen wir Pen 1 (g) :=. Ferner sei Pen 2 (g) := R g (x) 2 dx, sofern g stetig differenzierbar und g absolutstetig ist; ansonsten setzen wir Pen 2 (g) :=. Minimiert man Pen 1 (g) oder Pen 2 (g) unter gewissen Nebenbedingungen, dann tauchen Funktionen der folgenden Art auf: Definition 5.6 (Natürliche lineare und kubische Splines). Gegeben seien m N und reelle Zahlen t 0 < t 1 < < t m. Eine Funktion f : R R heißt natürlicher linearer Spline mit Knoten t 0, t 1,..., t m, wenn f auf (, t 0 ] und auf [t m, ) konstant und auf jedem Intervall [t j 1, t j ], 1 j m, linear ist. Die Menge aller dieser Funktionen bezeichnen wir mit S nat 1 (t 0, t 1,..., t m ). Eine Funktion f : R R heißt natürlicher kubischer Spline mit Knoten t 0, t 1,..., t m, wenn f zweimal differenzierbar ist und die zweite Ableitung f folgende Eigenschaften hat: Auf (, t 0 ] und auf [t m, ) ist f 0, und auf jedem Intervall [t j 1, t j ], 1 j m, ist f linear. Die Menge aller dieser Funktionen bezeichnen wir mit S nat 3 (t 0, t 1,..., t m ).

107 5.3. REGULARISIERUNG 107 Anmerkung 5.7. Beide Funktionenklassen S nat 1 (t 0, t 1,..., t m ) und S nat 3 (t 0, t 1,..., t m ) haben Dimension m + 1. Für S nat 1 (t 0, t 1,..., t m ) kann man einfach die B-Spline Basisfunktionen B 1, B 2,..., B m+1 von S 1 (t 0, t 1,..., t m ) auf (, t 0 ] und auf [t m, ) konstant fortsetzen. Im Falle von S nat 3 (t 0, t 1,..., t m ) betrachten wir eine beliebige B-Spline-Basis B 1, B 2,..., B m+3 von S 3 (t 0, t 1,..., t m ). Deren Konstruktion beinhaltet, dass B 1 (x) proportional zu (t 1 x) 3 + und B m+3 (x) proportional zu (x t m 1 ) 3 + ist. Insbesondere ist B 1 = B 1 = B 1 = 0 auf [t 1, t m ] und B m+3 = B m+3 = B m+3 = 0 auf [t 0, t m 1 ]. Daher definiert B j (x) := B j+1 (x) B j+1 (t 0) B 1 (t 0) B 1(x) B j+1 (t m) B m+3 (t m) B m+3(x), x [t 0, t m ], linear unabhängige Funktionen B 1, B 2,..., B m+1 in S 3 (t 0, t 1,..., t m ) mit der zusätzlichen Eigenschaft, dass B j (t 0) = B j (t m) = 0. Mit der Fortsetzung B j (x) := { Bj (t 0 ) + B j (t 0)(x t 0 ) für x t 0 B j (t m ) + B j (t m)(x t m ) für x t m erhalten wir eine Basis von S nat 3 (t 0, t 1,..., t m ). Lemma 5.8. Gegeben seien m N und reelle Zahlen t 0 < t 1 < < t m sowie z 0, z 1,..., z m. Ferner sei g : R R eine beliebige Funktion mit der Eigenschaft, dass (5.3) g(t j ) = z j für j = 0, 1,..., m. (a) Es gibt genau eine Funktion g o S nat 1 (t 0, t 1,..., t m ), welche (5.3) erfüllt. Diese Funktion ist auch die eindeutige Minimalstelle von Pen 1 (g) unter allen Funktionen, welche (5.3) erfüllen. (b) Es gibt genau eine Funktion g o S nat 3 (t 0, t 1,..., t m ), welche (5.3) erfüllt. Diese Funktion ist auch die eindeutige Minimalstelle von Pen 2 (g) unter allen Funktionen, welche (5.3) erfüllen. Beweis von Lemma 5.8. Der Beweis von Teil (a) ergibt sich im wesentlichen aus Aufgabe 5.9. Daher konzentrieren wir uns nun auf Teil (b). Für x R definieren wir λ 0 (x) := t m x t m t 0 und λ m (x) := x t 0 t m t 0. Offensichtlich ist λ 0 (x) + λ m (x) = 1, und im Falle von x [t 0, t m ] sind λ 0 (x), λ m (x) [0, 1]. Nun betrachten wir für eine beliebige Funktion g mit Pen 2 (g) < und x [t 0, t m ] die Differenz (x) := λ 0 (x)g(t 0 ) + λ m (x)g(t m ) g(x)

108 108 KAPITEL 5. NICHTPARAMETRISCHE REGRESSION etwas genauer: (x) = λ 0 (x) ( g(t 0 ) g(x) ) + λ m (x) ( g(t m ) g(x) ) = λ 0 (x) = λ 0 (x) = λ 0 (x) = λ 0 (x) x t 0 x g (s) ds + λ m (x) tm x g (s) ds t 0 ( g (s) g (x) ) ds + λ m (x) x x t 0 x s g (t) dt ds + λ m (x) t 0 (t t 0 )g (t) dt + λ m (x) tm x tm s x tm x x ( g (s) g (x) ) ds g (t) dt ds (t m t)g (t) dt. Dabei nutzten wir im dritten Schritt aus, dass λ 0 (x)(x t 0 ) = λ m (x)(t m x). Mit anderen Worten, für x [t 0, t m ] ist mit K(x, t) := (x) = R K(x, t)g (t) dt (t t 0 )(t m x) für t 0 t x, t m t 0 (x t 0 )(t m t) für x t t m, t m t 0 0 sonst. Die Nebenbedingungen (5.3) an g sind gleichbedeutend mit (5.4) g(t 0 ) = z 0, g(t m ) = z m und K(t j, t)g (t) dt = c j für 1 j < m, wobei c j := λ 0 (t j )z 0 + λ m (t j )z m z j. Die Funktionen K(t j, ), 1 j < m, liegen im Raum S1 nat (t 0, t 1,..., t m ), haben kompakten Träger und sind linear unabhängig. Es gibt daher genau eine Linearkombination h = m 1 j=1 a jk(t j, ) welche die Gleichungen K(t j, t)h(t) dt = c j, 1 j < m, R erfüllt. Insbesondere gibt es genau eine Funktion g o S3 nat (t 0, t 1,..., t m ), welche (5.3) erfüllt, und zwar ist g o = h. Für jede andere Lösung g von (5.3) mit Pen 2 (g) < ist g = h + r mit einer Funktion r L 2 (R) welche die Gleichungen K(t j, t)r(t) dt = 0, 1 j < m, R R erfüllt. Insbesondere ist R h(t)r(t) dt = 0 und somit g (t) 2 dt = h(t) 2 dt + r(t) 2 dt R R R R h(t) 2 dt. Gleichheit gilt genau dann, wenn r = 0 fast überall, was gleichbedeutend mit g g o ist. Aufgabe 5.9. Sei g : [a, b] R absolutstetig, das heißt, für eine integrierbare Funktion g : [a, b] R gilt: g(x) = g(a) + x a g (t) dt für beliebige x [a, b]. Zeigen Sie, dass ( ) 2 g(b) g(a) b a g (t) 2 dt b a mit Gleichheit genau dann, wenn g = ( g(b) g(a) ) /(b a) fast überall auf [a, b].

109 5.3. REGULARISIERUNG 109 Nun kommen wir zurück zum Regularisierungsschätzer: Satz Für beliebige Datenvektoren X, Y R n, wobei #{X 1, X 2,..., X n } 2, und Zahlen k {1, 2} sowie λ > 0 gibt es genau eine Funktion f λ : R R welche H λ (g) := (Y i g(x i )) 2 + λ Pen k (g) unter allen Funktionen g : R R minimiert. Diese Funktion f λ liegt in S nat 1 (t 0, t 1,..., t m ), wenn k = 1, und in S nat 3 (t 0, t 1,..., t m ), wenn k = 2. Dabei sind t 0 < t 1 < < t m die verschiedenen Elemente von {X 1, X 2,..., X n }. Beweis von Satz 5.10 und Konstruktion von f λ. Das Zielfunktional H λ (g) lässt sich umschreiben als S 2 0 (X, Y ) + H λ (g) mit H λ (g) := m w i (y i g(t i )) 2 + λ Pen k (g), i=0 w i := #{l : X l = t i }, y i := wi 1 l : X l =t i Y l und S0 2(X, Y ) = m i=0 l : X l =t i (Y l y i ) 2. Nun sei { S1 nat (t 0, t 1,..., t m ) falls k = 1, F := S3 nat (t 0, t 1,..., t m ) falls k = 2. Gemäß Lemma 5.8 gibt es für jede Funktion g : R R genau eine Funktion g o F derart, dass g o = g auf {t 0, t 1,..., t m }. Ferner ist Pen k (g o ) Pen k (g) mit Gleichheit genau dann, wenn g = g o. Daher genügt es, Funktionen g F zu betrachten. Nun wählen wir eine Basis B 1, B 2,..., B m+1 von F und schreiben g = m+1 j=1 θ jb j für ein θ R m+1. In diesem Falle ist mit c = m i=0 w iy 2 i und H λ (g) = c 2b θ + θ A λ θ b := A λ := ( m i=0 ( m i=0 ) m+1 w i y i B j (t i ), j=1 tm w i B j (t i )B k (t i ) + λ t 0 B (k) j (t)b (k) l ) m+1 (t) dt. j,l=1 Letztere Matrix A λ ist symmetrisch und positiv definit. Denn θ A λ θ = 0 würde bedeuten, dass g (k) 0 und g = 0 auf {t 0,..., t m }, also g 0 und θ = 0. Daher liefert θ λ = ( θλ,j ) m+1 := A 1 j=1 λ b die eindeutige Minimalstelle f λ := m+1 j=1 θ λ,j B j von H λ bzw. Hλ.

110 110 KAPITEL 5. NICHTPARAMETRISCHE REGRESSION Ein verwandter Ansatz Wie schon im vorangehenden Abschnitt seien t 0 < t 1 < < t m die verschiedenen Elemente von {X 1, X 2,..., X n }, und wir schreiben w = (w i ) m i=0, y = (y i) m i=0 mit w i = #{l : X l = t i }, und y i = wi 1 Y l. l : X l =t i Möchte man die Regressionsfunktion f ausschließlich auf der Menge {t 0, t 1,..., t m } schätzen, gibt es einen recht einfachen und allgemeinen Ansatz für die Regularisierung: Man minimiert m H λ (g) := w i (y i g i ) 2 + λg Ag i=0 = y diag(w)y 2y diag(w)g + g (diag(w) + λa)g bezüglich g = (g i ) m i=0 Rm+1, wobei A eine symmetrische und positiv semidefinite Matrix im R m+1 ist. Der Vektor g entspricht ( g(t i ) ) m mit g : R R. Die eindeutige Minimalstelle i=0 f λ von H λ ist dann unser Schätzer für ( f(t i ) ) m i=0. := (diag(w) + λa) 1 diag(w)y Betreffend A gibt es viele Möglichkeiten. Angenommen, wir möchten mit g Ag das Funktional tm t 0 g (k) (t) 2 dt für eine natürliche Zahl k imitieren, wobei wir annehmen, dass m k ist. Zu diesem Zweck konstruieren wir für j {0, 1,..., m k} einen Vektor v j = (v ij ) m i=0 Rm+1 derart, dass und v ij = 0 falls i {j,..., j + k} v j (t s i ) m i=0 = 1 [s=k] für s = 0, 1,..., k. Dies lässt sich zum Beispiel mit Hilfe orthogonaler Polynome bewerkstelligen. Falls g (k) auf [t j, t j+k ] näherungsweise konstant ist, ist Definieren wir also (t j+k t j ) ( v j A := ( g(ti ) ) m ) tj+k 2 i=0 (k!) 2 g (k) (t) 2 dt. t j m k 1 (k!) 2 (t j+k t j )v min(k, m + 1 k) j v j, j=0 dann ist g Ag ein möglicher Ersatz für t m t 0 g (k) (t) 2 dt. Der Faktor k o = min(k, m+1 k) rührt daher, dass jedes Intervall [t l 1, t l ] in min(l, m + 1 l, k) k o Intervallen der Form [t j, t j+k ] enthalten ist. Speziell für k = 1 erhalten wir die Vektoren v j = (t j+1 t j ) 1( 1 [i=j+1] 1 [i=j] ) m i=0, 0 j m 1, und für k = 2 ergeben sich die Vektoren v j = (t j+2 2t j+1 t j ) 1( 1 [i=j+2] 1 [i=j+1] t j+2 t j+1 1 [i=j+1] 1 [i=j] t j+1 t j ) m i=0, 0 j m 2.

111 5.3. REGULARISIERUNG Zur Wahl des Glättungsparameters Die zuletzt beschriebenen Methoden wie auch die lokal-polynomialen Schätzer und viele andere nichtparametrische Verfahren hängen von gewissen Parametern ab. Wir beschreiben jetzt zwei mögliche Strategien für die automatische Wahl von λ > 0 bei Regularisierungsverfahren. Ähnliche Ideen sind auch bei anderen Schätzmethoden anwendbar. Kreuzvalidierung. Für i = 1, 2,..., n sei [X i, Y i ] die Datenmatrix nach Entfernen der Zeile (X i, Y i ) aus [X, Y ]. Nun schätzt man für gegebenes λ > 0 die Regressionfunktion f aus den reduzierten Daten [X i, Y i ] durch f λ, i. Die Qualität von λ misst man durch die Quadratsumme Q(λ) := (Y i f λ, i (X i )) 2 und minimiert diese über alle λ > 0 in einer vorgegebenen Menge. Vergleich zweier Varianzschätzer. Für λ > 0 sei f λ der entsprechende Schätzer der Regressionsfunktion. Dieser liefert auch einen Schätzer für die Standardabweichung σ > 0 der (homoskedastischen) Fehler, nämlich σ λ := ( 1 n ) 1/2 (Y i f λ (X i )) 2. Zusätzlich sei σ ein Schätzer für σ, der nicht von λ bzw. f λ abhängt, und für eine große Klasse von Regressionsfunktionen f zuverlässig ist; ein Beispiel folgt gleich. In der Regel ist σ λ monoton wachsend in λ > 0; siehe Aufgabe Nun vergleichen wir σ λ mit σ und wählen λ > 0 derart, dass beide in etwa übereinstimmen. Aufgabe Für eine beliebige Menge X seien Q : X R und P : X [0, ] zwei Funktionen. Angenommen, für reelle Parameter 0 λ < µ existieren Minimalstellen x λ von Q + λp und x µ von Q + µp, wobei P (x λ ), P (x µ ) <. Dann ist notwendig Q(x λ ) Q(x µ ) und P (x λ ) P (x µ ). Spezielle Varianzschätzer. Im Falle von X 1 < X 2 < < X n könnte man σ durch ( n 1 1 ) 1/2 σ := (Y i+1 Y i ) 2 2(n 1) schätzen. Dieser Schätzer wurde von Rice (1981) vorgeschlagen. Dahinter steckt die Überlegung, dass Y i+1 Y i ɛ i+1 ɛ i, falls f(x i ) f(x i+1 ), und IE ( (ɛ i+1 ɛ i ) 2) = 2σ 2 bei homoskedastischen Fehlern. Allgemein sei k eine natürliche Zahl, wobei m k, und v 0, v 1,..., v m k seien die in Abschnitt eingeführten Vektoren. Dann definieren wir ( (5.5) σ 2 1 m := (Y l y i ) 2 + n k i=0 l : X l =t i m k j=0 (v ) j y)2 j+k i=j v2 ij /w. i

112 112 KAPITEL 5. NICHTPARAMETRISCHE REGRESSION Aufgabe Zeigen Sie, dass der Schätzer σ 2 in (5.5) die Gleichung IE( σ 2 ) = σ 2 erfüllt, falls IE(ɛ 2 i ) = σ2 für 1 i n und f (k) 0. Aufgabe Angenommen, X 1 < X 2 < < X n, und sei σ 2 := n 1 1 (Y i+1 Y i ) 2. 2(n 1) Angenommen, IE(ɛ 2 i ) = σ2 und IE(ɛ 4 i ) Kσ4 für 1 i n mit einer Konstanten K 1. (a) Zeigen Sie, dass IE( σ 2 ) = σ 2 + ρ 2 mit ρ 2 := n 1 1 (f(x i+1 ) f(x i )) 2 max 1 i<n(x i+1 X i ) 2(n 1) 2(n 1) (b) Zeigen Sie, dass der Schätzer Xn X 1 f (t) 2 dt. ˇσ 2 := n 1 1 (ɛ i+1 ɛ i ) 2 2(n 1) folgende (Un-)Gleichungen erfüllt: IE(ˇσ 2 ) = σ 2, Var(ˇσ 2 ) Kσ4 n 1 Leiten Sie hieraus ab, dass (( σ 2 ) 2 ) IE σ 2 + ρ 2 1 und IE ( ( σ 2 ˇσ 2 ρ 2 ) 2) 8σ2 n 1 ρ K n 1.

113 Kapitel 6 Allgemeine Überlegungen zur Schätzung In diesem Kapitel betten wir die Schätzung von Regressionsfunktionen in einen recht allgemeinen Rahmen ein. Dabei verwenden wir Konzepte aus der statistischen Entscheidungstheorie, die in Kursen über mathematische Statistik wesentlich ausführlicher behandelt wird. Außerdem führen wir bei dieser Gelegenheit sogenannte (log-) Likelihood-Funktionen ein. 6.1 Mittelwerte und Quantile als optimale Prädiktoren Angenommen, wir möchten den Wert einer Zufallsvariablen Y R, deren Verteilung bekannt ist, möglichst präzise durch eine feste Zahl v vorhersagen. Je nachdem, wie man möglichst präzise definiert, ergeben sich unterschiedliche Lösungen. Allgemein quantifizieren wir den Vorhersagefehler durch ρ(v Y ) für eine vorgegebene konvexe Funktion ρ : R R, die zudem koerziv ist, das heißt, ρ(t) für t. Das Ziel ist eine Vorhersage v derart, dass der mittlere Vorhersagefehler IE ρ(v Y ) minimal wird. Das folgende Lemma beinhaltet für zweieinhalb Spezialfälle die optimale Vorhersage. Lemma 6.1 (Optimale Prädiktion). (a) Mittlerer quadratischer Prädiktionsfehler: Angenommen, IE(Y 2 ) <. Im Falle von ρ(t) = t 2 ist IE ρ(v Y ) = Var(Y ) + (v IE Y ) 2. Die optimale Vorhersage ist also eindeutig v = IE Y. 113

114 114 KAPITEL 6. ALLGEMEINE ÜBERLEGUNGEN ZUR SCHÄTZUNG (b) Mittlerer absoluter Prädiktionsfehler: Angenommen, IE Y <. Sei ρ(t) = t. Dann ist IE ρ(v Y ) minimal in v genau dann, wenn v ein Median von L(Y ) ist. Das heißt, IP(Y < v) 1/2 IP(Y v). (c) Quantile: Angenommen, IE Y <. Seien γ (0, 1) und { 2(1 γ)t falls t 0, ρ(t) := (1 2γ)t + t = 2γ t falls t 0. Dann ist IE ρ(v Y ) minimal in v genau dann, wenn v ein γ-quantil von L(Y ) ist. Das heißt, IP(Y < v) γ IP(Y v). Anmerkung 6.2 (Existenz von Momenten). Die in Lemma 6.1 getroffenen Annahmen, dass Y endliches zweites bzw. erstes Moment hat, kann man noch abschwächen, indem man den Vorhersagefehler ρ(v Y ) durch die Differenz ρ(v Y ) ρ(v o Y ) für einen beliebigen Referenzwert v o ersetzt. Im Falle von ρ(t) = t 2 müssen wir dann nur noch voraussetzen, dass IE Y <, und die optimale Vorhersage ist nach wie vor v = IE Y. Im Falle von ρ(t) = (1 2γ)t + t benötigen wir dann keinerlei Annahmen an die Verteilung von Y, und die Kernaussage, dass Mediane bzw. γ-quantile optimal sind, bleibt gültig. Dies ergibt sich aus dem nachfolgenden Lemma. Lemma 6.3. Sei ρ : R R konvex, und für beliebige v R seien die Erwartungswerte IE ρ ((v Y ) ±) wohldefiniert in R. (Allgemein bezeichnen wir mit h ( ±) die rechts- bzw. linksseitige Ableitung einer Funktion h : R R.) Für beliebiges v o R definiert dann eine konvexe Funktion R : R R, wobei R(v) := IE ( ρ(v Y ) ρ(v o Y ) ) R (v ±) = IE ρ ((v Y ) ±). Beweis von Lemma 6.1. Die Aussage von Teil (a) ist eine bekannte Formel aus der Wahrscheinlichkeitsrechnung. Setzen wir nur voraus, dass IE Y <, so ergibt sich die Optimalität von v = IE Y aus folgender Rechnung: IE ( ρ(v Y ) ρ(v o Y ) ) = IE ( 2v o Y 2vY + v 2 vo 2 ) = 2v o IE Y 2v IE Y + v 2 v 2 o = (v IE Y ) 2 (v o IE Y ) 2. Die Teile (b) und (c) ergeben sich aus Lemma 6.3, wobei Teil (b) ein Spezialfall von Teil (c) ist, nämlich γ = 1/2. Die Funktion ρ : R R mit ρ(t) := (1 2γ)t + t ist offensichtlich konvex, und ihre einseitigen Ableitungen an der Stelle t sind gleich ρ (t ) = 1 2γ + 1 [t>0] 1 [t 0] = 2 1 [t>0] 2γ, ρ (t +) = 1 2γ + 1 [t 0] 1 [t<0] = 2 1 [t 0] 2γ.

115 6.1. MITTELWERTE UND QUANTILE ALS OPTIMALE PRÄDIKTOREN 115 Da also ρ ( ±) eine beschränkte Funktion ist, definiert R(v) := IE ( ρ(v Y ) ρ(v o Y ) ) eine konvexe Funktion R : R R mit Ableitungen R (v ) = 2 IP(v Y > 0) 2γ = 2 IP(Y < v) 2γ, R (v +) = 2 IP(v Y 0) 2γ = 2 IP(Y v) 2γ. Bekanntlich folgt aus der Konvexität von R, dass v genau dann eine Minimalstelle von R ist, wenn R (v ) 0 R (v +). Dies ist aber gleichbedeutend mit IP(Y < v) γ IP(Y v). Beweis von Lemma 6.3. Für beliebige reelle Zahlen r o < s o und verschiedene Punkte s, t [s o, r o ] ergibt sich aus der Konvexität von ρ, dass ρ ((s o Y ) +) ρ(t Y ) ρ(s Y ) t s Insbesondere gilt für v, v o [s o, t o ] die Ungleichung ρ ((t o Y ) ). ρ(v Y ) ρ(v o Y ) v v o ( ρ ((s o Y ) +) + ρ ((t o Y ) ) ), und die Zufallsvariable auf der rechten Seite hat endlichen Erwartungswert. Also ist R(v) wohldefiniert in R. Aus der Konvexität von ρ kann man leicht ableiten, dass auch R konvex ist. Nun zu den Ableitungen: Für verschiedene Punkte v, w (s o, t o ) ist und R(w) R(v) w v = IE ρ(w Y ) ρ(v Y ), w v ρ(w Y ) ρ(v Y ) ρ ((s o Y ) +) + ρ ((t o Y ) ), w v { ρ(w Y ) ρ(v Y ) ρ ((v Y ) +) für w v, w v ρ ((v Y ) ) für w v. Nach dem Satz von der majorisierten Konvergenz konvergiert gilt also: { R(w) R(v) IE ρ ((v Y ) +) für w v, w v IE ρ ((v Y ) ) für w v. Empirischer mittlerer Vorhersagefehler. In fast allen konkreten Anwendungen ist die Verteilung von Y unbekannt und muss aus empirischen Daten geschätzt werden. Angenommen, man beobachtet stochastisch unabhängige Kopien Y 1, Y 2,..., Y n von Y. Dann ist der empirische mittlere Vorhersagefehler R(v) := 1 n ρ(v Y i ) ein naheliegender Ersatz für R(v) := IE ρ(v Y ). Minimierung von R( ) ergibt in den konkreten Beispielen aus Lemma 6.1 den Stichprobenmittelwert, einen Stichprobenmedian bzw. ein Stichproben-γ-Quantil.

116 116 KAPITEL 6. ALLGEMEINE ÜBERLEGUNGEN ZUR SCHÄTZUNG 6.2 Verlustfunktionen und Risiken Die Überlegungen des vorigen Abschnittes kann man wie folgt verallgemeinern: Sei Y eine Zufallsvariable mit Verteilung P auf einem messbaren Raum Y. Über den noch nicht beobachteten Wert Y soll eine Entscheidung v in einem Entscheidungsraum V getroffen werden. Die Qualität einer Entscheidung v quantifizieren wir mit Hilfe einer Verlustfunktion L : V Y (, ] durch den Verlust L(v, Y ) beziehungsweise durch das Risiko (den mittleren Verlust) R(v) := IE L(v, Y ) = L(v, y) P (dy). Im vorigen Abschnitt lernten wir bereits zweieinhalb wichtige Beispiele kennen: In allen Fällen war Y = V = R, die Entscheidung v entsprach einer Vorhersage von Y, und L(v, Y ) = ρ(v Y ). Aufgabe 6.4. Seien Y 0 die Gesundheitskosten, welche ein zufällig ausgewählter Krankenversicherter im kommenden Jahr verursachen wird, sei e > 0 die von seiner Versicherung verlangte Jahresprämie, und v 0 sei sein jährlicher Selbstbehalt. Die Nettoeinnahmen der Versicherung betragen dann e max(y v, 0) = e + min(v Y, 0). Gesucht ist nun ein fairer Selbstbehalt v in dem Sinne, dass ( ) IE ( e max(y v, 0) ) = 0. (a) Zeigen Sie, dass es genau eine Lösung von ( ) gibt, wenn e IE Y <. (b) Bestimmen Sie eine konvexe Funktion ρ : R R derart, dass die Lösung von ( ) identisch ist mit der Minimierung von IE ρ(v Y ) bzw. IE ( ρ(v Y ) ρ( Y ) ). Aufgabe 6.5. Sei Y eine Zufallsvariable mit Werten in R. Wir identifizieren einen Wert y R mit der Indikatorfunktion R t 1 [y t] und möchten diese durch eine Funktion v : R R vorhersagen. Als Verlustfunktion betrachten wir L(v, y) := (v(t) ) 2 1[y t] M(dt) für ein beliebiges endliches Mass M auf R. Bestimmen Sie alle Funktionen v, welche das Risiko R(v) = IE L(v, Y ) minimieren. Der Spezialfall einer endlichen Menge Y. Hier ist Y eine kategorielle Zufallsvariable, deren Verteilung P durch die Wahrscheinlichkeitsgewichte p(z) := IP(Y = z), z Y, gegeben ist. Als Entscheidungsraum V betrachten wir nun die Menge R Y aller Funktionen v : Y R und definieren drei verschiedene Verlustfunktionen.

117 6.2. VERLUSTFUNKTIONEN UND RISIKEN 117 Beispiel 6.6 (Kleinste Quadrate für kategorielle Beobachtungen). Wir identifizieren Y mit der zufälligen Indikatorfunktion Y z 1 [z=y ] und möchten diese durch eine feste Funktion v V vorhersagen. Als Verlustfunktion betrachten wir L(v, y) := z Y( ) 2. v(z) 1[z=y] Hier kann man zeigen, dass R(v) = IE L(v, Y ) genau dann minimal wird, wenn v(z) = p(z) für z Y. Aufgabe 6.7. Beweisen Sie die Optimalitätsaussage in Beispiel 6.6. Zusatzfrage: Zeigen Sie, dass diese Aussage und Teil (a) von Lemma 6.1 Spezialfälle eines allgemeineren Resultates über vektorwertige Beobachtungen Y sind. Beispiel 6.8 (Likelihood für kategorielle Beobachtungen). Bei diesem Beispiel fallen wir mit der Tür ins Haus, indem wir zwei Verlustfunktionen definieren und uns dann überraschen lassen, wonach wir genau suchen. Wir nehmen dabei an, dass p(z) > 0 für alle z Y, Die Verlustfunktionen hängen mit den im nächsten Abschnitt eingeführten Likelihood-Methoden zusammen und sind gegeben durch Die entsprechenden Risiken sind L 1 (v, y) := z Y e v(z) v(y), ( L 2 (v, y) := log e v(z)) v(y). z Y R 1 (v) := IE L 1 (v, Y ) = e v(z) p(z)v(z), z Y z Y ( R 2 (v) := IE L 2 (v, Y ) = log p(z)v(z). z Y e v(z)) z Y In beiden Fällen taucht die Summe z Y ev(z) auf, und diese wird umso kleiner, je kleiner die Werte v(z) sind. Andererseits sollte man versuchen, einen möglichst großen Wert der Summe z Y p(z)v(z) zu erreichen. Für R 1 kann man zeigen, dass R 1 (v) 1 z Y p(z) log p(z) mit Gleichheit genau dann, wenn v(z) = log p(z) für alle z Y. Die Risikofunktion R 2 (v) := IE L 2 (v, Y ) ist minimal an einer Stelle v R Y genau dann, wenn e v(z) y Y ev(y) = p(z) für alle z Y.

118 118 KAPITEL 6. ALLGEMEINE ÜBERLEGUNGEN ZUR SCHÄTZUNG Mit anderen Worten, für eine Konstante c R ist v(z) = log p(z) + c für alle z Y. Eine eindeutige Lösung kann man erzwingen, indem man zusätzlich verlangt, dass beispielsweise (i) y Y ev(y) = 1 oder (ii) v(y o ) = 0 für eine Referenzkategorie y o Y oder (iii) y Y v(y) = 0. Die Varianten (ii) und (iii) kommen später bei der logistischen Regression zum Einsatz. Aufgabe 6.9. Leiten Sie die in Beispiel 6.8 beschriebenen optimalen Funktionen v : Y R her. Empirisches Risiko. Im Falle von stochastisch unabhängigen Kopien Y 1, Y 2,..., Y n von Y und unbekannter Verteilung P von Y kann man R(v) durch das empirische Risiko R(v) := 1 n L(v, Y i ) schätzen. Nun bezeichnen wir mit P die empirische Verteilung der Beobachtungen Y 1, Y 2,..., Y n, also P (B) := #{i : Y i B}/n für B Y und h d P = n 1 n h(y i) für h : Y R. Dann kann man auch schreiben R(v) = L(v, y) P (dy). 6.3 Maximum-Likelihood-Schätzung Angenommen, die Verteilung P von Y ist unbekannt, aber (P θ ) θ Θ sei eine gegebene Familie von Wahrscheinlichkeitsverteilungen P θ auf Y, welche P enthält oder zumindest gut approximiert. Das Ziel ist nun weniger eine Entscheidung über Y als die Bestimmung des wahren Parameters θ o nach Beobachtung von Y. Genauer gesagt, sei P θ durch eine Dichtefunktion p θ bezüglich eines Maßes M auf Y gegeben. Beispielsweise sei Y = R d, und p θ sei eine (Lebesgue-) Wahrscheinlichkeitsdichte von P θ im üblichen Sinne. Oder Y sei eine abzählbare Menge, und p θ sei die Gewichtsfunktion von P θ, das heißt, p θ (z) = P θ ({z}) für z Y. Nun kann man versuchen, den richtigen Parameter θ Θ mit Hilfe der negativen log-likelihood L(θ, y) := log p θ (y) zu schätzen. Die (zufälligen) Funktionen θ p θ (Y ) und θ log p θ (Y ) auf dem Parameterraum Θ nennt man Likelihood- bzw. log-likelihood-funktion. Unter den Annahmen, dass (i) P = P θo für ein θ o Θ, (ii) log p θ dp θ < für alle θ Θ, (iii) P η P θ für alle η, θ Θ mit η θ,

119 6.3. MAXIMUM-LIKELIHOOD-SCHÄTZUNG 119 ist θ o die eindeutige Minimalstelle von R(θ) := IE L(θ, Y ). Dies ergibt sich direkt aus dem nachfolgenden Lemma Falls L( θ, Y ) = min θ Θ L(θ, Y ) für einen Parameter θ = θ(y ) in Θ, dann nennt man θ einen Maximum-Likelihood-Schätzer für θ o. Wenn Annahme (i) nicht erfüllt ist, kann man θ als Schätzer für einen Minimierer des Risikos R( ) auffassen. Lemma Seien P und Q Wahrscheinlichkeitsmaße auf Y mit Dichtefunktionen p bzw. q bezüglich eines Maßes M. Ferner sei log p dp <. Dann ist mit Gleichheit genau dann, wenn P = Q. log(q) dp log(p) dp Beweis von Lemma Die Ungleichung ist äquivalent zu der Aussage, dass die sogenannte Kullback-Leibler-Divergenz log(p/q) dp größer oder gleich Null ist, mit Gleichheit genau dann, wenn P = Q. Um dies zu zeigen, schreiben wir log(p/q) dp = log(q/p)p dm = {p>0} {p>0} {p>0} ( log 1 + q p p (q p) dm = 1 Q({p > 0}) 0. ) p dm Dabei verwendeten wir die Ungleichung log(1 + t) t für alle t 1. Diese ist strikt, wenn t 0. Aus der Gleichung log(p/q) dp = 0 folgt also, dass M ( {p > 0} {p q} ) = 0. Dies impliziert bereits, dass Q = P auf der Menge {p > 0}. Wegen 1 = P ({p > 0}) und Q(Y) = 1 ist dann auch Q({p = 0}) = 0, also Q = P. Unabhängige, identisch verteilte Zufallsvariablen. Angenommen, man beobachtet unabhängige Kopien Y 1, Y 2,..., Y n von Y. Unter der Annahme, dass die Verteilung von Y mit einer der Verteilungen P θ identisch ist, wird die Verteilung des Vektors Y = (Y i ) n durch eine der Dichtefunktionen n Y n y p θ (y) := p θ (y i ) bzgl. des Produktmaßes M n auf Y n beschrieben. Die entsprechende negative log-likelihood- Funktion für die Gesamtbeobachtung Y ist dann gleich L(θ, Y ) = log p θ (Y i ). Mit anderen Worten, n 1 L(θ, Y ) = R(θ) = L(θ, y) P (dy),

120 120 KAPITEL 6. ALLGEMEINE ÜBERLEGUNGEN ZUR SCHÄTZUNG und dies kann als Schätzer für R(θ) = L(θ, y) P (dy) aufgefasst werden. Maximum-Likelihood- Schätzung von θ o basierend auf dem Beobachtungsvektor Y ist also gleichbedeutend mit der Mimimierung des empirischen Risikos R( ) für Einzelbeobachtungen. Beispiel 6.11 (Bernoulli-Variablen und Binomialverteilungen). Sei Y = {0, 1} und p := IP(Y = 1), also P = Bin(1, p). Ferner sei Θ = [0, 1] und P θ = Bin(1, θ). Die Gewichtsfunktion p θ von P θ ist gegeben durch p θ (0) = 1 θ und p θ (1) = θ. Folglich ist L(θ, y) = (1 y) log(1 θ) y log θ und R(θ) = (1 p) log(1 θ) p log θ. Da R (θ) = θ p θ(1 θ) ist p die eindeutige Minimalstelle von R( ). { < 0 falls 0 < θ < p, > 0 falls p < θ < 1, Beobachtet man Y 1, Y 2,..., Y n, dann ist p := n 1 n Y i ein naheliegender Schätzer für p. Dies ist auch der Maximum-Likelihood-Schätzer basierend auf Y bzw. der Minimierer des empirischen Risikos R( ), denn R(θ) = (1 p) log(1 θ) p log θ. Aufgabe 6.12 (Hardy-Weinberg-Modell). Wir betrachten eine gewisse Population von diploiden Organismen und ein bestimmtes Gen mit zwei möglichen Allelen A und a. In Bezug auf dieses Gen haben die Individuen also einen Genotyp in Y := {AA, Aa, aa}. Für ein zufällig gewähltes Individuum sei Y dessen Genotyp und p(z) := IP(Y = z) für z Y. Theoretische Überlegungen (Hardy-Weinberg) legen nahe, dass p( ) = p θo ( ) für einen unbekannten Parameter θ o [0, 1], wobei allgemein p θ (AA) := θ 2, p θ (Aa) := 2θ(1 θ) und p θ (aa) := (1 θ) 2. Bestimmen Sie für dieses Beispiel die Risikofunktion R(θ) := IE log p θ (Y ) sowie deren Minimimalstelle für beliebige Gewichtsfunktion p( ), also ohne anzunehmen, dass p( ) = p θo ( ) für ein θ o [0, 1]. Beschreiben Sie auch den Maximum-Likelihood-Schätzer für θ o, basierend auf unabhängigen Kopien Y 1, Y 2,..., Y n von Y. Stichproben-Lageparameter als Maximum-Likelihood-Schätzer. In Abschnitt 6.1 hatten wir Stichprobenmittelwerte und -quantile als Minimierer empirischer Risikofunktionen dargestellt. Man kann sie auch als Maximum-Likelihood-Schätzer darstellen, indem man geeignete Modelle (P θ ) θ R wählt. Allgemein sei p 0 eine strikt positive Wahrscheinlichkeitsdichte auf R, und für θ R sei P θ die Verteilung mit Dichtefunktion p θ := p 0 ( θ). Dann ist der Maximum- Likelihood-Schätzer θ = θ(y ) eine Minimalstelle von L(θ, Y ) = log p 0 (Y i θ).

121 6.4. ANWENDUNG AUF REGRESSIONSPROBLEME 121 Diese ist gleichzeitig eine Minimalstelle von n R(θ) = n ρ(θ Y i) für eine gegebene konvexe und koerzive Funktion ρ : R R, wenn für gewisse Konstanten c 1, c 2 > 0. p 0 (y) = c 1 exp( c 2 ρ( y)) Im Falle von ρ(t) = t 2 ergibt sich die Dichtefunktion p 0 einer zentrierten Normalverteilung. Im Falle von ρ(t) = t landen wir bei Laplace-Verteilungen, und im Falle von ρ(t) = (1 2γ)t + t ergeben sich unsymmetrische Laplace-Verteilungen. Aufgabe Zeigen Sie, dass die Funktion ρ(t) := log(1 + cosh(t)) strikt konvex ist mit lim t ρ(t) =. Zeigen Sie, dass die Minimierung von n ρ(θ Y i ) bezüglich θ R einem Maximum-Likelihood-Schätzer für gewisse logistische Verteilungen entspricht. (Die logistische Verteilung mit Mittelwert µ und Skalenparameter σ > 0 ist durch die Dichtefunktion p µ,σ (y) := p 0,1 ((y µ)/σ)/σ gegeben, wobei p 0,1 (t) := e t /(1 + e t ) 2.) 6.4 Anwendung auf Regressionsprobleme In Regressionsproblemen betrachten wir Beobachtungspaare (X, Y ) X Y und möchten die bedingten Verteilungen L(Y X = x), x X, oder zumindest Aspekte derselben modellieren bzw. schätzen. Für einen gegebenen Entscheidungsraum V und eine gegebene Verlustfunktion L : V Y R suchen wir nun eine Regressionsfunktion f o : X V derart, dass minimal wird. IE L(f o (X), Y ) Was die Verteilung von X anbelangt, wollen wir uns nicht festlegen. Es soll auch der Fall, dass X oder einzelne Komponenten von X willkürlich wählbar sind, abgedeckt werden. Von daher konzentrieren wir uns wirklich auf die bedingten Verteilungen L(Y X = x), x X, und streben an, dass f o (x) arg min v V IE ( L(v, Y ) X = x ) für alle x X. Im Falle von Y = V = R und L(v, y) = ρ(v y) ist beispielsweise { IE(Y X = x) falls ρ(t) = t 2, f o (x) = Median(Y X = x) falls ρ(t) = t. Nun möchten wir diese optimale Regressionsfunktion f o mit Hilfe unabhängiger Beobachtungen (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ) schätzen, wobei wir die X i (durch Bedingen) als feste Punkte in X betrachten und voraussetzen, dass L(Y i ) = L(Y X = X i ) für i = 1,..., n. Offensichtlich minimiert f o das Risiko R(f) = R(f, X) := IE L(f(X i ), Y i )

122 122 KAPITEL 6. ALLGEMEINE ÜBERLEGUNGEN ZUR SCHÄTZUNG unter allen Funktionen f : X V. Oftmals wird f o durch dieses Minimierungsproblem auf der Menge {X 1, X 2,..., X n } eindeutig festgelegt. An Stellen x {X 1,..., X n } ergibt sich f o (x) nur, wenn zusätzliche Annahmen getroffen werden. Ein naiver Schätzer für f o ergibt sich durch die Minimierung des empirischen Risikos bzw. des beobachteten Verlustes R(f) = R(f, X, Y ) L(f) = L(f, X, Y ) } := L(f(X i ), Y i ) unter allen Funktionen f : X V. In der Regel liefert dies unbrauchbare Ergebnisse. Sind beispielsweise die X i paarweise verschieden, und ist Y = V = R sowie L(v, y) = ρ(v y) mit arg min t R ρ(t) = {0}, dann minimiert f das empirische Risiko R(f) genau dann, wenn f(x i ) = Y i für 1 i n. Doch zwei Erfolg versprechende Strategien sind: (i) Die Einschränkung von f auf eine spezielle Familie F von Funktionen. (ii) Die Minimierung von R(f) + Pen(f) an Stelle von R(f) für einen Bestrafungsterm Pen(f), der die Irregularität von f quantifiziert. Beide Strategien (i) und (ii) haben wir bei den linearen Modellen bereits gesehen (Kapitel 5) und werden wir auch in späteren Kapiteln verfolgen. Strategie (ii) ist bekannt unter den Namen Penalisierung oder Regularisierung. Beispiel 6.14 (Regressionsquantile). Wir illustrieren die oben beschriebene Strategie (i) mit einer weiteren Klasse von Beispielen, ohne allerdings hier auf die algorithmischen Finessen einzugehen (siehe Basset und Koenker 1982). Wir gehen von Beobachtungspaaren (X, Y ) [A, B] R aus und möchten für diverse Werte von γ (0, 1) und x [A, B] das γ-quantil f γ (x) von L(Y X = x) schätzen. Dabei wenden wir obige Strategie (i) an und machen die Modellannahme, dass f γ in einem endlichdimensionalen Vektorraum F von Funktionen auf [A, B] liegt. Dann schätzen wir f γ durch wobei ρ γ (t) := (1 2γ)t + t. f γ arg min f F ρ γ (f(x i ) Y i ), Wir illustrieren diese Methode mit den Baseball-Daten aus Beispiel 4.8. Wir betrachten wieder die 10er-Logarithmen der Jahreseinkommen (Y ) und die Anzahl der Berufsjahre (X), wobei bei einer Beobachtung der Wert X = 24 durch X = 20 ersetzt wird. Abbildung 6.1 zeigt Regressionsquantile f γ für γ = 0.1, 0.25, 0.5, 0.75, 0.9, wobei F aus allen Funktionen der Form f(x) = 3 i=0 a i log 10 (x) i besteht. Abbildung 6.2 zeigt diese Regressionsquantile f γ, wenn man kubische Splines mit Knoten 0.5, 4.0, 11.0 und 20.5 zugrundelegt. Ganz am Rand wird ein Schwachpunkt dieser Methode sichtbar: Im Allgemeinen ist f γ f η für 0 < γ < η < 1.

123 6.4. ANWENDUNG AUF REGRESSIONSPROBLEME Abbildung 6.1: Regressionsquantile für Baseball-Daten im kubischen Modell Abbildung 6.2: Regressionsquantile für Baseball-Daten im Spline-Modell.

124 124 KAPITEL 6. ALLGEMEINE ÜBERLEGUNGEN ZUR SCHÄTZUNG

125 Kapitel 7 Logistische Regression und damit verwandte Modelle In diesem Kapitel betrachten wir vor allem kategorielle Response-Variablen Y mit endlichem Wertebereich Y und beschäftigen uns mit der Modellierung und Schätzung der bedingten Verteilungen L(Y X = x), x X. Dabei werden wir zunächst den einfachen Fall einer dichotomen Response Y betrachten. 7.1 Logistische Regression Sei Y = {0, 1}. Hier sind zwei konkrete Beispiele für eine dichotome Response Y : Kreditausfälle: Mit X beschreibt man eine Kundin oder einen Kunden (Privatperson oder Firma) einer Bank. Die Variable Y gibt an, ob ein an diese Person vergebener Kredit ausfällt oder nicht. Erfolge oder Misserfolge medizinischer Behandlungen: Der Kovariablenvektor X enthält einerseits Kenngrößen einer Patientin oder eines Patienten eines Spitals und beschreibt andererseits Art und Durchführung einer gewissen medizinischen Behandlung. Die Variable Y gibt dann an, ob die besagte Behandlung bei dieser Person ein Erfolg war oder nicht. Die bedingte Verteilung L(Y X = x) wird vollständig durch die bedingte Wahrscheinlichkeit p(x) := IP(Y = 1 X = x) = IE(Y X = x) beschrieben. Da dieser bedingte Erwartungswert stets im Einheitsintervall [0, 1] liegt, macht ein lineares Modell hierfür wenig Sinn, zumal die Beobachtungen in der Regel heteroskedastisch sind. Denn Var(Y X = x) = p(x)(1 p(x)). Ein möglicher Ausweg ist die Verwendung einer monoton wachsenden, bijektiven Abbildung l : R (0, 1) und der folgenden Modellgleichung: p(x) = l(f(x)) mit einer Regressionsfunktion f : X R wie bisher, das heißt, f liegt in einem endlichdimensionalen Vektorraum F von Funktionen auf X. 125

126 126 KAPITEL 7. LOGISTISCHE REGRESSION UND DAMIT VERWANDTE MODELLE Was die Funktion l anbelangt, so gibt es zwei besonders verbreitete Varianten: Probit-Regression mit l(v) = Φ(v). Logistische Regression mit der logistischen Funktion l(v) = exp(v) 1 + exp(v) = 1 exp( v) + 1. Hier ist f(x) = logit(p(x)) mit logit(u) := log(u/(1 u)) für 0 < u < 1. In diesem Abschnitt beschäftigen wir uns ausschließlich mit der logistischen Regression. Eine theoretische Rechtfertigung für dieses Modell werden wir später noch geben. Die Regressionsfunktion f lässt sich über Chancen und Chancenquotienten interpretieren. Denn die Chancen, dass Y = 1, gegeben X = x, sind gleich IP(Y = 1 X = x) IP(Y = 0 X = x) = p(x) 1 p(x) = exp(f(x)). Für zwei verschiedene Punkte x 0, x 1 X ergibt sich der Chancenquotient p(x 1 ) (1 p(x 2 )) (1 p(x 1 )) p(x 2 ) = exp(f(x 1) f(x 2 )) Maximum-Likelihood-Schätzung Wie in früheren Kapiteln betrachten wir nun stochastisch unabhängige Beobachtungen (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ) in X {0, 1}, wobei wir die X i (nach Bedingen) als feste Punkte auffassen, und IP(Y i = 1) = p(x i ). Log-Likelihood-Funktion und Maximum-Likelihood-Schätzer. Unterstellt man, dass p = l f für eine unbekannte Funktion f F, dann ergibt sich die folgende log-likelihood-funktion L = L( Daten) : F R: L(f) := = (Y i log l(f(x i )) + (1 Y i ) log ( 1 l(f(x i )) )) ( Y i f(x i ) log ( 1 + exp(f(x i )) )). Ein Maximum-Likelihood-Schätzer für f ist nun eine Funktion f = f( Daten) arg max L(f). f F

127 7.1. LOGISTISCHE REGRESSION 127 Wie wir später sehen werden, ist f typischerweise eindeutig definiert. Dass dieser Ansatz plausibel ist, erkennt man, indem man den (bedingten) Erwartungswert R : F R von L betrachtet: R(f) := IE L(f) = (p(x i ) log l(f(x i )) + (1 p(x i )) log ( 1 l(f(x i )) )) = ( p(x i )f(x i ) log ( 1 + exp(f(x i )) )). Denn für festes p [0, 1] hat p log θ +(1 p) log(1 θ) als Funktion von θ [0, 1] die eindeutige Maximalstelle p; siehe Kapitel 6. Wenn also tatsächlich p = l f für ein f F, dann ist R(f) R(f ) mit Gleichheit genau dann, wenn f(x) = f (X). Aufgabe 7.1. Angenommen, der Vektorraum F enthält auch alle konstanten Funktionen. Zeigen Sie, dass ein Maximum-Likelihood-Schätzer f F zwingend folgende Gleichung erfüllt: l( f(x i )) = Y i. Verallgemeinern Sie diese Schlussfolgerung auf andere Funktionen g F. Existenz und Eindeutigkeit des ML-Schätzers. Nach Parametrisierung des Modells F durch geeignete Basisfunktionen entspricht f F einem Parametervektor θ R p, und nach Einsetzen der Beobachtungen X i in diese Basisfunktionen erhalten wir Vektoren d 1, d 2,..., d n R p, also eine Designmatrix D = [d 1 d 2 d n ]. Sowohl L als auch R lassen sich dann als Funktionen auf R p auffassen und haben die Form ( L(θ) = ai d i θ log(1 + exp(d i θ)) ) mit gewissen Zahlen a i [0, 1], nämlich a i = Y i für L = L bzw. a i = p(x i ) für L = R. Nun kann man sich leicht davon überzeugen, dass l( ) die Ableitung der Funktion t log(1 + exp(t)) ist. Hieraus ergibt sich, dass Gradient und Hesse-Matrix von L an der Stelle θ gegeben sind durch L(θ) = (a i l(d i θ)) d i bzw. D 2 L(θ) = l (d i θ) d i d i. Dabei ist die Ableitung von l gleich l = l(1 l) (0, 1/4]. Für beliebige Vektoren v R p ist also v D 2 L(θ)v = l (d i θ)(v d i ) 2 0

128 128 KAPITEL 7. LOGISTISCHE REGRESSION UND DAMIT VERWANDTE MODELLE mit Gleichheit genau dann, wenn v senkrecht auf span(d 1,..., d n ) steht. Folglich ist D 2 L überall negativ semidefinit und somit L eine konkave Funktion. Sie ist strikt konkav genau dann, wenn span(d 1,..., d n ) = R p, also wenn (7.1) Rang(D) = p. Unter der Voraussetzung (7.1) gibt es also eine eindeutige oder keine Maximalstelle von L. Wie wir später in Lemma 7.6 sehen werden, existiert dann eine Maximalstelle genau dann, wenn (7.2) lim sup r Doch L(ru) u < 0 für alle u R p \ {0}. (a i l(rd i u))d i u L(ru) u = ( ai 1 [d i u 0] ) d i u (r ), denn lim t l(t) = 0 und lim t l(t) = 1. Folglich ist (7.2) äquivalent zu der Bedingung (7.3) ( ai 1 [d i u 0] ) d i u < 0 für alle u R p \ {0}. Da alle Summanden ( a i 1 [d i u 0]) d i u in (7.3) nichtpositiv sind, kann man diese Bedingung auch wie folgt formulieren: Es gibt keinen Vektor u R p \ {0} derart, dass { a i = 1 falls d i u > 0, (7.4) a i = 0 falls d i u < 0. Umgekehrt folgt aus (7.1) und der Existenz eines Vektors u 0 mit Eigenschaft (7.4), dass keine Maximalstelle von L existiert. Spezialfall: Nichtentartetes p( ). Angenommen, Bedingung (7.1) ist erfüllt, und 0 < p(x i ) < 1 für alle i. Dann besitzt die Funktion L = R eine eindeutige Maximalstelle. Denn Bedingung (7.4) würde bedeuten, dass d i u = 0 für alle i, was Bedingung (7.1) widerspräche. Spezialfall: Multiple logistische Regression. Angenommen, wir beobachten (X i, Y i ) R d {0, 1}, und F bestehe aus allen affin linearen Funktionen f, also f(x) = a + b x für gewisse Parameter a R und b R d. Mit θ := [a, b ] ist dann d i = [1, X i ]. Nun kann man zeigen, dass Bedingung (7.1) gleichbedeutend ist mit der Aussage, dass die Vektoren X 1,..., X n nicht in einer Hyperebene liegen dürfen; siehe Aufgabe 7.3. Unter der Bedingung (7.1) existiert eine eindeutige Maximalstelle θ von L genau dann, wenn es keine Hyperebene im R d gibt, welche die Mengen {X i : Y i = 0} und {X i : Y i = 1} (schwach) trennt. Das heißt, die Werte Y 1,..., Y n dürfen nicht identisch sein, und es darf kein Paar (v, r) (R d \ {0}) R geben derart, dass {X i : Y i = 0} {x R d : v x r} und {X i : Y i = 1} {x R d : v x r}.

129 7.1. LOGISTISCHE REGRESSION 129 Aufgabe 7.2. Seien X = (X i ) n ein fester Beobachtungsvektor mit paarweise verschiedenen Komponenten und Y = (Y i ) n ein Vektor von unabhängigen Bernoulli-Zufallsvariablen mit Parameter p (0, 1). Berechnen Sie die Wahrscheinlichkeit, dass Y so gestaltet ist, dass der Maximum-Likelihood-Schätzer für das logistische Modell mit Daten X und Y nicht existiert. Aufgabe 7.3. Seien x 1, x 2,..., x n Vektoren im R d, und sei D := [d 1 d 2... d n ] mit d i := [1, x i ]. Zeigen Sie, dass folgende Aussagen äquivalent sind: (i) Rang(D) d. (ii) span(x 2 x 1, x 3 x 1,..., x n x 1 ) R d. (iii) span(x 1 x, x 2 x, x 3 x,..., x n x) R d, wobei x := n 1 n x i. (iv) Die Vektoren x 1, x 2,..., x n liegen in einer Hyperebene des R d. Aufgabe 7.4 (Newton-Verfahren und Iterativ Gewichtete Kleinste Quadrate). Die Log-Likelihood-Funktion L( ) für logistische Regression hat bekanntlich folgende Ableitungen: L(θ) = (Y i l(d i θ))d i, D 2 L(θ) = l (d i θ)d i d i. (a) Bestimmen Sie die Maximalstelle h der Taylor-Approximation h L(θ) + L(θ) h h D 2 L(θ)h von L(θ + h). Dies führt zu folgendem Algorithmus: Wenn θ unser momentaner Kandidat für θ ist, dann ist ψ(θ) := θ + h der nächste und hoffentlich bessere Kandidat für θ. (b) Eine alternative Methode betrachtet folgende Zielfunktion: Ist θ unser momentaner Kandidat für θ, dann möchten wir eigentlich h so wählen, dass ( Yi l(d i (θ + h)) ) 2 l (d i θ) möglichst klein ist. (Anmerkung: l (d i θ) = Var(Y i ), falls IP(Y i = 1) = l(d i θ).) Ersetzen Sie in diesem Ausdruck l(d i (θ + h)) durch l(d i θ) + l (d i θ)d i h, und zeigen Sie dann, dass sich der daraus resultierende Minimierer h schreiben lässt als arg min h R p w i (Ỹi d i h ) 2 wobei w i := l (d i θ) > 0 und Ỹi := (Y i l(d i θ))/w i. (c) Zeigen Sie, dass die optimalen Vektoren in (a) und (b) übereinstimmen.

130 130 KAPITEL 7. LOGISTISCHE REGRESSION UND DAMIT VERWANDTE MODELLE (d) Verifizieren Sie, dass sich h mit mit den R-Befehlen a D % % θ, p 1/(1 + exp( a)), v 1/sqrt(2 + exp(a) + exp( a)), h qr.solve ( v D, (Y p)/v ) berechnen lässt, wobei D = [d 1, d 2,..., d n ] und Y = (Y i ) n. Anmerkung: Die Teile (b) und (d) ergeben einen iterativen Algorithmus, bei welchem in jedem Schritt eine gewichtete Quadratsumme minimiert wird. Das Akronym IRLS steht für iteratively reweighted least squares. Im Anhang wird diese Vorgehensweise in allgemeinerem Rahmen beschrieben. Aufgabe 7.5 (Logistische Regression bei fehlspezifiziertem Modell). Simulieren Sie eine Stichprobe X = (X i ) 100 aus der Standardnormalverteilung. Setzen Sie dann Y i := F (X i ), wobei F : R [0, 1] mit (a) F (x) = l(x) = exp(x) / (1 + exp(x)); (b) F (x) = Φ(x) (Verteilungsfunktion der Standardnormalverteilung); (c) F (x) = max(0, 1 exp( x)); (d) F (x) = max ( 0, min ( 1, (x + 1)/2 )). Passen Sie mit R ein logistisches Modell an die Vektoren X und Y an. Beachten Sie, dass die Zielvariable Y beliebige Werte in [0, 1] annehmen kann. (R quittiert dies mit einer entsprechenden Warnung; ignorieren Sie diese.) Plotten Sie dann jeweils die wahre Funktion F gemeinsam mit der angepassten logistischen Funktion. Lemma 7.6. Sei f : R p R eine konkave und differenzierbare Funktion. Dann sind die beiden folgenden drei Aussagen äquivalent: (i) Die Funktion f ist koerziv, das heißt, f(θ) für θ. (ii) Für beliebige feste v R p \ {0} ist (Der Grenzwert kann gleich sein.) lim r f(rv) v < 0. (iii) Die Menge aller Maximalstellen von f ist nichtleer und kompakt. Beweis von Lemma 7.6. Konkavität von f bedeutet, dass für beliebige Vektoren θ, v R p die Funktion R r f(θ + rv) konkav ist, das heißt, d dr f(θ + rv) = f(θ + rv) v

131 7.1. LOGISTISCHE REGRESSION 131 ist monoton fallend in r R. Insbesondere gelten für reelle Zahlen r < s < t die Ungleichungen f(θ + sv) f(θ + rv) s r f(θ + sv) v f(θ + tv) f(θ + sv). t s Angenommen, f erfüllt Bedingung (i). Dann gilt für hinreichend großes r o > 0 die Ungleichung Doch dies impliziert, dass sup u: u =1 γ o := max ( f(ro u) f(0) ) < 0. u: u =1 lim r f(ru) u und diese Ungleichung impliziert Bedingung (ii). sup f(r o u) u γ o /r o < 0, u: u =1 Angenommen, f verletzt Bedingung (i). Dann existieren eine reelle Zahl γ und eine Folge (θ n ) n in R p derart, dass f(θ n ) γ für beliebige n und lim n θ n =. Da die Einheitssphäre im R p kompakt ist, dürfen wir sogar annehmen, dass u n := θ n 1 θ n für n gegen einen Einheitsvektor u konvergiert. Doch für beliebige Zahlen 0 < r < s und λ n := s/ θ n ist f(ru) u ( f(su) f(ru) ) /(s r) ( = lim f(sun ) f(ru) ) /(s r) n ( = lim f((1 λn )0 + λ n θ n ) f(ru) ) /(s r) n ( (1 λn )f(0) + λ n γ f(ru) ) /(s r) lim n = ( f(0) f(ru) ) /(s r). Für s ergibt sich hieraus die Ungleichung Also ist auch Bedingung (ii) verletzt. f(ru) u 0 für beliebige r > 0. Diese Überlegungen zeigen, dass die Bedingungen (i) und (ii) äquivalent sind. Nun zeigen wir die Äquivalenz von (i) und (iii). Angenommen, f erfüllt Bedingung (i). Zusammen mit der Stetigkeit von f ergibt sich daraus, dass K := { θ R p : f(θ) f(0) } eine abgeschlossene und beschränkte, also kompakte Teilmenge des R p ist, welche 0 enthält. Maximierung von f auf R p ist dann gleichbedeutend mit der Maximierung von f auf K. Stetigkeit von f und Kompaktheit von K garantieren dann Bedingung (iii). Angenommen f erfüllt Bedingung (iii). Für einen feste Maximalstelle θ von f und hinreichend großes r o > 0 ist dann Für r r o + θ ist sup f(θ) θ: θ r γ o := max ( f(θ + r o u) f(θ ) ) < 0. u: u =1 sup f(θ) = θ: θ θ r θ sup sup s r θ u: u =1 f(θ + su),

132 132 KAPITEL 7. LOGISTISCHE REGRESSION UND DAMIT VERWANDTE MODELLE und wegen s r θ r o folgt aus der Konkavität von f, dass Demnach ist f(θ + su) f(θ ) + f(θ + r o u) f(θ ) r o s f(θ ) + γ o s/r o. sup f(θ) f(θ ) + γ o (r θ )/r o für r. θ: θ r Daher ist auch Bedingung (i) erfüllt Das asymptotische Verhalten der Log-Likelihood-Funktion Wir betrachten einen ähnlichen Rahmen wie am Ende des vorangehenden Abschnitts, allerdings eingebettet in ein Dreiecksschema: Nach Bedingen auf Kovariablenwerte ergeben sich für jedes n N Beobachtungen (d n1, Y n1 ), (d n2, Y n2 ),..., (d nn, Y nn ) mit festen Vektoren d ni R p und stochastisch unabhängigen Zufallsvariablen Y ni {0, 1}, und wir schreiben p ni := IP(Y ni = 1). Nun beschäftigen wir uns mit dem asymptotischen Verhalten der Log-Likelihood-Funktion L n : R p R und ihrem punktweisen Erwartungswert R n, d. h. L n (θ) = R n (θ) = ( Yni d niθ log(1 + exp(d niθ)) ), ( pni d niθ log(1 + exp(d niθ)) ). Dabei beziehen sich alle asymptotischen Aussagen in diesem Abschnitt auf das Szenario, dass n. Zwei erste Annahmen sind: (A.1) Für hinreichend großes n hat die Designmatrix D n := [d n1 d n2 d nn ] Rang p. (A.2) Die Funktion R n hat eine Maximalstelle θ n R p. Aus (A.1) ergibt sich, dass L n und R n für hinreichend großes n strikt konkave Funktionen sind. Zusammen mit (A.2) ergibt sich dann, dass θ n die eindeutige Maximalstelle von R n ist. Hierbei ist zu beachten, dass wir stets mit dem Modell der logistischen Regression rechnen, ohne aber vorauszusetzen, dass es korrekt ist. Wenn ja, ist Bedingung (A.2) automatisch erfüllt: (A.2 ) Für ein θ n R p ist p ni = l(d niθ n ) für 1 i n. Die nächsten Bedingungen beziehen sich auf den Gradienten der Log-Likelihood-Funktion L n, genauer gesagt, auf Γ n L n (θ) = (Y ni l(d niθ)) d ni, := Cov ( n 1/2 L n (θ n ) ) = 1 n p ni (1 p ni ) d ni d ni.

133 7.1. LOGISTISCHE REGRESSION 133 Des Weiteren betrachten wir die Hesse-Matrix der Funktionen L n und R n, D 2 L n (θ) = D 2 R n (θ) = nγ n (θ) mit Γ n (θ) := 1 n l (d niθ) d ni d ni. (A.3) Es existieren zwei symmetrische Matrizen Γ, Γ R p p, von denen letztere positiv definit ist, so dass Γ n Γ und Γ n (θ n ) Γ. (A.4) Die Designpunkte d ni erfüllen die folgende Lindeberg-Bedingung : Λ n := 1 n ( dni ) min, 1 d ni 2 0. n Ersetzt man Annahme (A.2) durch die stärkere Annahme (A.2 ), dann stimmen Γ n und Γ n (θ n ) in (A.3) überein, und folglich ist Γ = Γ. Spezialfall: Unabhängige, identisch verteilte Beobachtungen. Angenommen, die Beobachtungen (d ni, Y ni ) sind Realisationen von stochastisch unabhängigen Kopien einer Zufallsvariablen (d, Y ) R p {0, 1}, wobei IE ( d 2) endlich und IE ( dd ) positiv definit ist. Ferner sei IP(Y = 1 d = v) = l(θ o v) für alle v R p und einen festen Parametervektor θ o. Dann sind die Bedingungen (A.1), (A.2 ) und (A.3-4) fast sicher erfüllt, wobei θ n = θ o und Γ = Γ = IE ( l (d θ o ) dd ). Die Annahmen (A.1-4), in Kombination mit dem Zentralen Grenzwertsatz, liefern eine essentielle Aussage über die Log-Likelihood-Funktion L n. Satz 7.7. Unter den Voraussetzungen (A.1-4) ist L n (θ n + n 1/2 ) L n (θ n ) = Z n Γ /2 + r n ( ) für beliebige R p. Dabei ist Z n := n 1/2 n (Y ni p ni )d ni ein Zufallsvektor im R p derart, dass Z n L N p (0, Γ ), und r n ( ) ist eine Funktion mit der Eigenschaft, dass sup r n ( ) 0 für jedes feste C > 0. : C Dieser Satz hat diverse wichtige Konsequenzen. Die erste Folgerung betrifft den ML-Schätzer von θ n und seine asymptotische Kovarianzmatrix.

134 134 KAPITEL 7. LOGISTISCHE REGRESSION UND DAMIT VERWANDTE MODELLE Satz 7.8. Unter den Voraussetzungen (A.1-4) hat die Log-Likelihood-Funktion L n mit asymptotischer Wahrscheinlichkeit Eins eine eindeutige Maximalstelle θ n, und für diesen ML-Schätzer gilt: n 1/2 ( θ n θ n ) = Γ 1 Z n + o p (1) L N p (0, Γ 1 Γ Γ 1 ), 2L n ( θ n ) 2L n (θ n ) = Z n Γ 1 Z n + o p (1) mit dem Zufallsvektor Z n aus Satz 7.7. Ferner ist Γ n ( θ n ) ein konsistenter Schätzer von Γ n (θ n ), d. h. Γ n ( θ n ) Γ n (θ n ) p 0. Beweis von Satz 7.7. Wir beginnen mit der matrizenwertigen Funktion Γ n ( ). Für zwei beliebige Vektoren θ, θ R p ist Γ n (θ) Γ n ( θ) = 1 n ( l (d niθ) l (d ni θ) ) d ni d ni. Doch 0 < l = l(1 l) 1/4, und l = (1 2l)l = u(1 u 2 )/4 mit u := 1 2l ( 1, 1) erfüllt die Ungleichung l (6 3) 1 < Mit der Norm A := max { Av : v R p, v = 1 } einer Matrix A R p p gilt also: (7.5) Γ n (θ) Γ n ( θ) 1 n 1 n ( 1 min 4, d ni(θ θ) 10 ( 1 min 4, θ θ d ni 10 ( 1 max 4, n1/2 θ θ ) Λ n. 10 ) d ni 2 ) d ni 2 Nun zur eigentlichen Behauptung: Die Differenz (L n R n )(θ) = (Y ni p ni )d niθ ist linear in θ R p. Zusammen mit der Taylorschen Formel und der Tatsache, dass R n (θ n ) = 0 gemäß (A.2), ergibt sich hieraus die Darstellung L n (θ n + n 1/2 ) L n (θ n ) = (L n R n )(n 1/2 ) + R n (θ n + n 1/2 ) R n (θ n ) = (L n R n )(n 1/2 ) + n 1 D 2 R n (θ n + ξ n, ) /2 = Z n Γ n (θ n + ξ n, ) /2 = Z n Γ /2 + r n ( ) mit dem besagten Zufallsvektor Z n = n 1/2 n (Y ni p ni ) d ni, wobei r n ( ) := ( Γ Γ n (θ n + ξ n, ) ) /2

135 7.1. LOGISTISCHE REGRESSION 135 und 0 ξ n, n 1/2. Aus (A.3-4) und (7.5) folgt nun, dass für beliebige Konstanten C > 0 gilt: sup R p : C r n ( ) C2 ( ( 1 max ), C ) Λ n + Γ n (θ n ) Γ 0. Zu zeigen bleibt, dass Z n L N p (0, Γ ). Hierfür bemühen wir Lindebergs Zentralen Grenzwertsatz (Satz A.11) für vektorwertige Zufallsvariablen: Es ist Z n = n Y ni mit den stochastisch unabhängigen Summanden Y ni := n 1/2 (Y ni p ni )d ni, wobei IE(Y ni ) = 0 und IE ( Y ni Y ) ni = Γ n Γ nach (A.3). Ferner ist die Lindebergsche Bedingung erfüllt, denn Y ni n 1/2 d ni, so dass nach (A.4) IE ( min(1, Y ni ) Y ni 2) Λ n 0. Beweis von Satz 7.8. Die Aussage, dass θ n mit asymptotischer Wahrscheinlichkeit Eins existiert, und auch die Darstellungen n 1/2 ( θ n θ n ) = Γ 1 Z n + o p (1) sowie 2L n ( θ n ) 2L n (θ n ) = Z n Γ 1 Z n + o p (1) ergeben sich aus Satz 7.7 und allgemeinen Überlegungen im späteren Abschnitt 7.2. Die Behauptung über Γ n ( θ n ) ergibt sich dann aus Ungleichung (7.5) im Beweis von Satz 7.7 und der Tatsache, dass n 1/2 θ n θ n = O p (1) Likelihood-basierte statistische Verfahren Aus den asymptotischen Eigenschaften der Log-Likelihood-Funktion L n bzw. des ML-Schätzers θ n ergeben sich zahlreiche statistische Verfahren. Insbesondere können wir Tests und Vertrauensbereiche für affin lineare Funktionen des Parameters θ n konstruieren. Diese Verfahren ähneln den auf Student- und F-Verteilungen beruhenden Verfahren für lineare Modelle. Ein wesentlicher Unterschied ist aber, dass wir hier nur asymptotische Validität erreichen können, weshalb wir auch die Notation für das Dreiecksschema beibehalten und in diesem Abschnitt stets voraussetzen, dass die Bedingungen (A.1), (A.2 ) und (A.3-4) erfüllt sind. Leider ist vielen Anwenderinnen und Anwendern von Statistik-Software nicht klar, dass der Output für logistische Regression und andere verallgemeinerte lineare Modelle zwar demjenigen von linearen Modellen stark ähnelt, dass die gelieferten P-Werte aber definitiv auf asymptotischen Verfahren beruhen und dementsprechend mit Vorsicht zu genießen sind. Die besagte Software gibt nur selten entsprechende Warnungen. In den folgenden Unterabschnitten sei stets ψ ein gegebener Vektor im R p \ {0}, und Ψ sei eine gegebene Matrix im R p k mit Rank k < p.

136 136 KAPITEL 7. LOGISTISCHE REGRESSION UND DAMIT VERWANDTE MODELLE Tests und Vertrauensbereiche nach Wald Wir beginnen zunächst mit relativ einfachen Verfahren, die auch tatsächlich in vielen der zuvor erwähnten Software-Pakete implementiert sind. Dies ist insofern bedauerlich, als dass diese Methode nur für sehr große Stichprobenumfänge zuverlässig ist und bessere Verfahren verfügbar wären; siehe den übernächsten Unterabschnitt. Aus Satz 7.8 folgt, dass mit Σ n := Der Schätzer Σ n := erfüllt die Bedingung, dass θ n appr. N p (θ n, Σ n ) ( 1 l (d niθ n )d ni dni) = n 1 Γ n (θ n ). ( 1 l (d ni θ n )d ni dni) = n 1 Γ n ( θ n ) Σ 1 n Σ n I p. Dies kann man nun wie folgt ausnutzen: Einfache lineare Funktionen von θ n. Angenommen, wir interessieren uns für die reelle Größe ψ θ n. Einerseits ist ψ θn appr. N (ψ θ n, σn,ψ 2 ) mit σ n,ψ := ψ Σ n ψ. Andererseits erfüllt der entsprechende Standardfehler σ n,ψ := ψ Σn ψ die Bedingung, dass σ n,ψ /σ n,ψ 1. Insbesondere ist ψ θn ψ θ n σ n,ψ appr. N (0, 1). Für α (0, 1) ergibt sich hieraus das approximative (1 α)-vertrauensintervall [ ψ θn ± σ n,ψ Φ 1 (1 α/2) ] für ψ θ n. Ferner ist ( 2Φ ψ θn ) σ n,ψ ein approximativer P-Wert für die Nullhypothese, dass ψ θ n = 0.

137 7.1. LOGISTISCHE REGRESSION 137 Allgemeine lineare Funktionen von θ n. Ψ θ n R k. Angenommen, wir interessieren uns für den Vektor Hier kann man sagen, dass Ψ θn appr. N k ( Ψ θ n, Ψ Σ n Ψ ), und (Ψ Σ n Ψ) 1 (Ψ Σn Ψ) I k. Folglich definiert T n (η) := (Ψ θn η) (Ψ Σn Ψ) 1 (Ψ θn η) für jedes η R k eine Teststatistik derart, dass T n (Ψ θ n ) appr. χ 2 k. Dies impliziert einerseits, dass das Konfidenzellipsoid C (W ) = C (W ) (Daten, α) := { η R k : T n (η) χ 2 } k;1 α asymptotisches Vertrauensniveau 1 α hat. Andererseits ergibt sich mit der Verteilungsfunktion F k ( ) von χ 2 k der asymptotische P-Wert 1 F k (T n (η)) für die Nullhypothese, dass Ψ θ n = η. Das heißt, für beliebige α (0, 1) ist IP ( 1 F k (T n (Ψ θ n )) α ) α. Die Methode der Profil-Likelihood Man kann L n (θ) als Maß für die Plausibilität der Nullhypothese θ n gesagt, folgt aus Satz 7.8, dass = θ deuten. Genauer 2L n ( θ n ) 2L n (θ n ) = Z n Γ 1 Z n + o p (1) L χ 2 p. Denn Z n Γ 1 Z n = Γ 1/2 Z 2, und Γ 1/2 Z n L N p (0, I n ) unter (A.1), (A.2 ) und (A.3-4). Folglich ist C (L) = C (L) (Daten, α) := { θ R p : 2L n (θ) 2L n ( θ n ) χ 2 } p;1 α ein Konfidenzbereich für θ n mit asymptotischer Überdeckungswahrscheinlichkeit 1 α. Tatsächlich kann man zeigen, dass dieser Konfidenzbereich und das Waldsche Konfidenzellipsoid für Ψ = I p asymptotisch identisch sind. Numerische Experimente zeigen aber, dass bei kleinen und moderaten Stichprobenumfängen die hier beschriebene Methode weitaus präziser ist als die von Wald.

138 138 KAPITEL 7. LOGISTISCHE REGRESSION UND DAMIT VERWANDTE MODELLE Eine naheliegende Frage ist nun, ob man auch für Ψ θ n ähnliche Konfidenzbereiche konstruieren kann. Zu diesem Zweck benötigt man eine Art Log-Likelihood-Funktion auf R k : Die Profil-Log- Likelihood an der Stelle η R k ist definiert als P L n (η) := sup L n (θ). θ R p : Ψ θ=η Aus Aufgabe 7.9 ergibt sich, dass die Profil-Log-Likelihood-Funktion P L n : R k R wohldefiniert und konkav ist. Ist L n koerziv, dann ist auch P L n koerziv, und das Supremum in der Definition von P L n (η) ist ein Maximum. Aufgabe 7.9 (Profil-Funktionen). Sei L : R p [, ) eine konkave und nach oben beschränkte Funktion. Ferner sei Ψ R p k eine Matrix mit Rang k < p. (a) Zeigen Sie, dass P L(η) := sup { L(θ) : θ R p, Ψ θ = η } eine konkave und nach oben beschränkte Funktion P L : R k [, ) definiert. (b) Zeigen Sie, dass P L koerziv ist, falls L koerziv ist. (c) Angenommen, L ist koerziv und stetig. Zeigen Sie, dass das Supremum in der Definition von P L(η) ein Maximum ist, und dass auch P L stetig ist. (d) Angenommen, L( ) ist koerziv, stetig und strikt konkav auf der Menge {θ R p : L(θ) > }. Zeigen Sie, dass dann auch P L strikt konkav auf {η R k : P L(η > } ist. Anmerkung: In Teil (d) kann man nicht auf Koerzivität von L verzichten. Ein Gegenbeispiel liefern die Funktion L(θ) := exp ( 1 + θ1 2 + θ 2) auf R 2 und Ψ := (1, 0). Wie das nachfolgende Resultat zeigt, verhält sich die Profil-Log-Likelihood-Funktion P L n im wesentlichen wie eine Log-Likelihood-Funktion. Satz Unter den Voraussetzungen (A.1), (A.2 ) und (A.3-4) ist P L n (Ψ θ n + n 1/2 w) P L n (Ψ θ n ) = Z n,ψw w Γ Ψ w/2 + r n,ψ (w) für beliebige w R k. Dabei ist Γ Ψ := (Ψ Γ 1 Ψ) 1 und Z n,ψ := Γ Ψ Ψ Γ 1 Z n mit dem Zufallsvektor Z n aus Satz 7.7, und r n,ψ ( ) ist eine zufällige Funktion mit der Eigenschaft, dass Ferner gilt: Z n,ψ L N k (0, Γ Ψ ), und sup r n,ψ (w) p 0 für jedes feste C > 0. w : w C 2L n ( θ n ) 2P L n (Ψ θ n ) = Z n,ψγ 1 Ψ Z n,ψ + o p (1) L χ 2 k. Dieses Resultat ergibt sich direkt aus Satz 7.7 und den allgemeinen Resultaten in Abschnitt 7.2. Der letzte Teil impliziert, dass C (L) = C (L) (Daten, α) := { η R k : 2P L n (η) 2L n ( θ n ) χ 2 } k;1 α

139 7.1. LOGISTISCHE REGRESSION 139 einen Konfidenzbereich für Ψ θ n mit asymptotischer Überdeckungswahrscheinlichkeit 1 α darstellt. Ferner ist ( 1 F k 2Ln ( θ n ) 2P L n (η) ) für jedes η R k ein asymptotischer P-Wert für die Nullhypothese, dass Ψ θ n = η. Spezialfall: Tests von vereinfachten Modellen. Wir kehren kurzzeitig zur ursprünglichen Beschreibung der logistischen Regression zurück. Angenommen, man möchte testen, ob die zugrundeliegende Regressionsfunktion f = logit p in einem Untervektorraum F o von F liegt, wobei dim(f) dim(f o ) = k. Sei f der Maximum-Likelihood-Schätzer für f im vollen Modell, und f o sei der Maximum-Likelihood-Schätzer für f unter der Nullhypothese. Dann ist 1 F k ( 2L( f) 2L( fo ) ) ein approximativer P-Wert der Nullhypothese, dass f F o Von Asymptopia zurück zu einzelnen Stichproben In konkreten Anwendungen hat man natürlich kein Dreicksschema von Beobachtungen sondern nur eine Stichprobe. Eine naheliegende Frage ist, wie man die zuvor eingeführten Bedingungen (A.1), (A.2 ) und (A.3-4) für einen einzelnen Datensatz von Beobachtungen (d 1, Y 1 ), (d 2, Y 2 ),..., (d n, Y n ) interpretieren könnte. Bedingung (A.1) ist klar, wir verlangen einfach, dass die Designmatrix D = [d 1, d 2,..., d n ] Rang p hat. Bedingung (A.2 ) ist eine Annahme, deren Plausibilität man zumindest durch graphische Methoden überprüfen kann; siehe auch das nachfolgende Datenbeispiel. Wir gehen also davon aus, dass IP(Y i = 1) = l(d i θ ) für 1 i n mit einem unbekannten Parameter θ R p. Bedingung (A.3) ist streng genommen überflüssig. Denn durch eine lineare Transformation des R p könnte man immer erreichen, dass Γ(θ ) = 1 n l (d i θ )d i d i = I p. Hierzu müsste man einfach d i durch Γ(θ ) 1/2 d i und θ durch Γ(θ ) 1/2 θ ersetzen. Allerdings muss man dann Bedingung (A.4) entsprechend anpassen und verlangen, dass die Kenngröße Λ := 1 n ( Γ(θ ) 1/2 d i ) min, 1 Γ(θ ) 1/2 d i 2 n recht klein ist. Da wir θ nicht kennen, könnte man stattdessen Λ := 1 ( Γ( θ) 1/2 d i ) min, 1 Γ( θ) 1/2 d i 2 n n betrachten.

140 140 KAPITEL 7. LOGISTISCHE REGRESSION UND DAMIT VERWANDTE MODELLE Ein Datenbeispiel Ein Datensatz, der uns von PD Dr. Bürk (Lübeck) zur Verfügung gestellt wurde, enthält Daten über sämtliche Operationen, die in einem gewissen Zeitraum in der Chirurgie des Lübecker Universitätsklinikums durchgeführt wurden. Unter anderem enthält dieser Datensatz die Variable Y = Mortality, welche angibt, ob der Patient bzw. die Patientin kurz nach der Operation verstarb (aus Gründen, die mit der OP bzw. Erkrankung zusammenhängen). Ferner wurden die Werte von 21 Kovariablen erhoben, die einerseits die Patientinnen bzw. Patienten und andererseits die Umstände der Operation beschreiben. Tabelle 7.1 enthält eine Liste aller beteiligten Variablen. Die meisten Kovariablen sind dichotom. Numerische Merkmale sind X(1) und X(17). Auch Variable X(3) wurde als numerische Variable behandelt, wobei in der Stichprobe nur Werte in {1, 2, 3, 4, 5} auftraten. Variable Bedeutung X(1) Alter in Jahren X(2) Geschlecht (1 = weiblich, 0 = männlich) X(3) ASA-Wert (American Society of Anesthesiologists), beschreibt den körperlichen Zustand auf einer ordinalen Skala (1 = kerngesund, 2 = leicht erkrankt, 3 = ernsthaft erkrankt, 4 = lebensgefährlich erkrankt, 5 = todgeweiht, 6 = hirntot). X(4) Risikofaktor: cerebral (1 = ja, 0 = nein) X(5) Risikofaktor: cardiovasculär (1 = ja, 0 = nein) X(6) Risikofaktor: pulmonal (1 = ja, 0 = nein) X(7) Risikofaktor: renal (1 = ja, 0 = nein) X(8) Risikofaktor: hepatisch (1 = ja, 0 = nein) X(9) Risikofaktor: immunologisch (1 = ja, 0 = nein) X(10) Risikofaktor: metabolisch (1 = ja, 0 = nein) X(11) Risikofaktor: nicht-kooperativ, unzuverlässig (1 = ja, 0 = nein) X(12) Ätiologie: maligne (1 = ja, 0 = nein) X(13) Ätiologie: vasculär (1 = ja, 0 = nein) X(14) Antibiotikatherapie (1 = ja, 0 = nein) X(15) Operation indiziert (1 = ja, 0 = nein) X(16) Notfalloperation (1 = ja, 0 = nein) X(17) Operationszeit in Minuten X(18) Septische Operation (1 = ja, 0 = nein) X(19) Erfahrener Operateur, d. h. Oberarzt oder höher qualif. (1 = ja, 0 = nein) X(20) Bluttransfusion erforderlich (1 = ja, 0 = nein) X(21) Intensivstation erforderlich (1 = ja, 0 = nein) Y Mortalität (verstorben = 1, überlebend = 0) Tabelle 7.1: Variablen für Datenbeispiel. Erste Auswertung. Der Datensatz enthält Beobachtungen, darunter 662 Beobachtungen mit Y = 1. Hiermit wurden die Parameter a und b(j) für das Modell logit IP(Y = 1 X = x) = a + b x = a + 21 j=1 b(j)x(j)

141 7.1. LOGISTISCHE REGRESSION 141 geschätzt. Tabelle 7.2 enthält die Punktschätzer b(j) zusammen mit Standardfehlern und P-Werten via Profil-log-Likelihood. Zusätzlich werden nach der Bonferroni-Holm-Methode adjustierte P- Werte angegeben. j b(j) (St.fehler) P-Wert adj. P-Wert (0.0041) < < (0.0996) (0.0738) < < (0.1166) (0.1325) (0.1021) (0.1112) < (0.1053) (0.3021) (0.1226) (0.1256) (0.1417) (0.1322) (0.1185) < < (0.2102) < < (0.1368) < < (0.0006) (0.1629) < < (0.1220) (0.1131) < < (0.1345) < < Tabelle 7.2: Regressionsauswertung 1 Eine graphische Darstellung der Ergebnisse. Abbildung 7.1 zeigt einen Teppichfransenplot der Punktepaare (Ẑi, Y i ) mit Ẑi := â + b X i. Zusätzlich sieht man den Graphen einer monoton wachsenden Funktion l : R R, welche n (Y i µ(ẑi)) 2 minimiert, sowie den Graphen der logistischen Funktion l als blaue Kurve. Dass die Treppenfunktion l mit der logistischen Funktion recht gut übereinstimmt, ist ein Indiz dafür, dass das Modell zu den Daten passt. ROC-Kurven. Oft betrachtet man logistische Regression eher als Hilfsmittel, um eine vielversprechende Diskriminanzfunktion R d x b x zu bestimmen. Diese wird dann wie eine Teststatistik benutzt. Das heißt, bei einem zukünftigen Fall (X, Y ), von welchem nur X beobachtet wird, behauptet man, dass { 1 falls Y = b X > c, 0 falls b X c. Dabei ist c ein willkürlich wählbarer Schwellenwert. Dies ist ein medizinischer Test mit unbekannter Sensitivität Sens(c) := IP( b X > c Y = 1) und unbekannter Spezifität Spez(c) :=

142 142 KAPITEL 7. LOGISTISCHE REGRESSION UND DAMIT VERWANDTE MODELLE l(z), l(z), Y i z, Z i Abbildung 7.1: Logistische Regression für Datenbeispiel. IP( b X c Y = 0), wobei hier die Daten (X i, Y i ), 1 i n, und damit auch b als fest betrachtet werden. Diese Größen schätzt man nun durch Ŝens(c) := #{ i : Y i = 1, b X i > c }, #{i : Y i = 1} Ŝpez(c) := #{ i : Y i = 0, b X i c }. #{i : Y i = 0} Die empirische ROC-Kurve (receiver operating characteristic) für diese Familie medizinischer Tests ist die Kurve c ( 1 Ŝpez(c), Ŝens(c)). Abbildung 7.2 zeigt diese Kurve für unser spezifisches Datenbeispiel. Von dieser Kurve kann man beispielweise ablesen, dass für einen geeigneten Schwellenwert c (den man der Kurve nicht ansieht) sowohl die geschätzte Sensitivität als auch die geschätzte Spezifität zwischen und liegen. Manche Leute verwenden die Fläche unterhalb der ROC-Kurve als Maß für die Trennschärfe dieser Familie medizinischer Tests. Ein Likelihood-Quotienten-Test. Beim vorliegenden Beispiel ist dies zwar nicht der Fall, aber mitunter gibt es Gruppen inhaltlich verwandter Kovariablen, von denen keine einzelne einen signifikanten Einfluss auf Y hat, die aber in ihrer Gesamtheit eventuell wichtig sind. Wir illustrieren einen entsprechenden Likelihood-Quotienten-Test mit den Risikofaktoren, also den Kovariablen X(4), X(5),..., X(11): Wir vergleichen das Maximum der Log-Likelihood-Funktion mit dem Maximum der Log-Likelihood-Funktion für das reduzierte Modell, bei dem b(4) = b(5) = =

143 7.1. LOGISTISCHE REGRESSION 143 Sensitivität Spezifität Abbildung 7.2: Empirische ROC-Kurve für Datenbeispiel. b(11) = 0. Mit anderen Worten, wir vergleichen L( θ) = max η R 8 P L(η) mit P L(0), wobei Ψ = I Ein approximativer P-Wert für die Nullhypothese, dass b(4) = b(5) = = b(11) = 0 ist also gegeben durch 1 F 8 ( 2L( θ) 2P L(0) ), wobei F 8 die Verteilungsfunktion von χ 2 8 bezeichnet. Unsere Daten liefern L( θ) und P L(0) Also ist der P-Wert gleich 1 F 8 (39.09) Aufgabe Der Datensatz IrishEd (im passwortgeschützten Bereich der Vorlesungs-Website) besteht aus verschiedenen Angaben zu 435 irischen Primarschülern kurz vor ihrem Übertritt in die Sekundarstufe im Jahr 1967, sowie der Variable lvcert, die angibt, ob der jeweilige Schüler die Sekundarstufe abgeschlossen hat (Abschlusszertifikat erlangt) oder nicht. (a) Benutzen Sie ein statistisches Software-Paket Ihrer Wahl (vorzugsweise R/S-Plus oder SAS), um ein logistisches Modell zu fitten mit lvcert als Zielvariable und allen anderen Variablen bis auf edlevel als Einflussgrössen. Geben Sie eine kurze Interpretation der wesentlichen Punkte des erhaltenen Outputs.

144 144 KAPITEL 7. LOGISTISCHE REGRESSION UND DAMIT VERWANDTE MODELLE (b) Wiederholen Sie Teil (a), aber fügen Sie nun zusätzlich edlevel zu den erklärenden Variablen hinzu. Sie erhalten (hoffentlich!) eine Warnung/Fehlermeldung. Weshalb? (Welche Bedingung aus der Vorlesung ist (anscheinend) verletzt und wie können Sie dies anschaulich begründen?). (c) Führen Sie eine Residuenanalyse nach folgender Anleitung durch: Erstellen Sie einen Plot der Y i -Werte (auf der y-achse) gegen die gefitteten log-odds f(x i ) (auf der x-achse). Zeichnen Sie dann einen (bezüglich der f(x i )-Werte lokalen) Schätzer der Erfolgswahrscheinlichkeit der Y i ein (z. B. ein gleitendes Mittel der Y i -Werte oder (besser) einen lokal linearen Schätzer) und vergleichen Sie die erhaltene Kurve mit dem Graphen der logistischen Funktion l (die durch die gefitteten Wahrscheinlichkeiten l( f(x i )) geht). Aufgabe 7.12 (Wald-Konfidenzbänder). Betrachten Sie die einfache logistische Regression mit Regressionsfunktionen der Form f(x) = a + bx, x R. Gehen Sie von Beobachtungsvektoren X R n, Y {0, 1} n und der zugehörigen Maximum-Likelihood-Schätzung θ = (â, b) aus. (a) Bestimmen Sie das Waldsche (1 α)-konfidenzellipsoid für θ. (b) Leiten Sie daraus ein (1 α)-konfidenzband für die Funktion f her, das heisst ein simultanes (1 α)-konfidenzintervall für f(x), x R. (Hinweis: Verwenden Sie Lemma 3.19.) (c) Implementieren Sie dieses Konfidenzband in R. Ihr Programm sollte als Eingabewerte die Vektoren X, Y sowie das Konfidenzniveau 1 α haben. Aufgrund der Ausgabe soll es möglich sein, die angepasste Funktion l f sowie deren (1 α)-konfidenzband zu plotten. (d) Wenden Sie Ihr Programm auf einen von Ihnen simulierten oder realen Datensatz an. Aufgabe 7.13 (Vergleich von Wald- und Profil-Likelihood-Methode). Wir betrachten erneut die einfache logistische Regression mit Regressionsfunktionen der Form f(x) = a + bx, wobei wir die wahren Parameter mit a o resp. b o bezeichnen. Simulieren Sie die Gütefunktion der Wald- und Profil-Likelihood-Tests von H 0 : b o = 0 gegen H 1 : b o 0 mittels Monte-Carlo-Simulation auf die folgende Weise: Generieren Sie jeweils N-mal eine Stichprobe X aus der uniformen Verteilung auf [ 2, 2] und einen Vektor Y von unabhängigen 0-1-Werten mit IP(Y i = 1) = l(bx i ) (logistisches Modell mit a o = 0 und b o = b). Approximieren Sie die Gütefunktion an der Stelle b durch den Anteil der Tests (gemäss Wald resp. nach der Profil-Likelihood-Methode), die zum Signifikanzniveau 0.05 verworfen werden. Plotten Sie die erhaltenen Gütewerte gegen den Parameter b. Wählen Sie für diese Aufgabe N = 1000, b = 1, 0.5, 0, 0.5, 1.5 und n = 25, 100. Wenn Sie etwas mehr Geduld haben, wählen Sie N grösser (N = 5000 oder N = 10000) und eine engere Schrittweite für b (z. B. 0.25) respektive untersuchen Sie auch andere Werte für n. Geben Sie eine kurze Interpretation Ihrer Ergebnisse Fall-Kontroll-Studien In diesem Abschnitt erklären wir, dass das Modell der logistischen Regression auch in einer Situation anwendbar ist, in welcher die Modellannahmen eigentlich nicht korrekt sind. Ausgangspunkt sind Beobachtungen (X, Y ) R d {0, 1}.

145 7.1. LOGISTISCHE REGRESSION 145 Überlegungen zum Standardmodell. Angenommen, X ist ein Zufallsvektor mit Verteilung Q, und IP(Y = 1 X = x) = l(a o + b o x) für beliebige x R d. Dann ist IP(Y = 1) = IP(Y = 0) = l(a o + b o x) Q(dx), (1 l(a o + b o x)) Q(dx), und für die bedingten Verteilungen Q y := L(X Y = y) gilt: also Q 1 (B) = Q 0 (B) = dq 1 (x) = l(a o + b o x) dq 0 1 l(a o + b o x) B B l(a o + b o x) IP(Y = 1) Q(dx), 1 l(a o + b o x) IP(Y = 0) Q(dx), IP(Y = 0) IP(Y = 1) = exp( a o + b o x logit IP(Y = 1) ). Da (dq 1 /dq 0 )(x) Q 0 (dx) = 1, ergibt sich für a o die Darstellung a o = logit IP(Y = 1) C(b o ) mit C(b) := log exp(b x) Q 0 (dx). Von Querschnitt- zu Fall-Kontroll-Studien. In vielen Anwendungen beschreiben X und Y ein Individuum aus einer Population. Wenn man nun eine einfache Stichprobe aus dieser Population zieht, ergeben sich unabhängige, identisch verteilte Zufallsvariablen (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ). In biomedizinischen Anwendungen spricht man auch von Querschnittstudien. Mitunter ist die Wahrscheinlichkeit IP(Y = 1) sehr gering, und man läuft Gefahr, dass die Stichprobe zu wenige Beobachtungen mit Y i = 1 enthält. In solchen Situationen werden oftmals Fall- Kontroll-Studien durchgeführt. Das bedeutet, man wählt eine Stichprobe vom (festen) Umfang N 1 aus der kleinen Teilpopulation aller Individuen mit Y = 1, die Fälle. Des Weiteren wählt man eine Stichprobe vom Umfang N 0 = n N 1 aus der größeren Teilpopulation aller Individuen mit Y = 0, die Kontrollen. Dies führt also zu Beobachtungen (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ) mit festen Werten Y i und stochastisch unabhängigen Zufallsvektoren { Q 0 falls Y i = 0, X i Q 1 falls Y i = 1. Validität der logistischen Regressionsanalyse. Obwohl die Modellannahmen der logistischen Regression nicht erfüllt sind, kann man die entsprechende Log-Likelihood-Funktion für statistische Inferenz über b o verwenden. Dies wurde von Prentice und Pyke (1979) gezeigt. Wir verzichten aus Zeitgründen auf einen formalen Beweis und geben nur ein einfaches heuristisches Argument:

146 146 KAPITEL 7. LOGISTISCHE REGRESSION UND DAMIT VERWANDTE MODELLE Angenommen, man führt eine Fall-Kontroll-Studie durch, wählt aber N 1 zufällig, nämlich N 1 Bin(n, p ) für ein festes p (0, 1). Dann erfüllen die resultierenden Beobachtungen (X i, Y i ) das Modell der logistischen Regression, allerdings mit Parameter ( ) logit p C(b o ), b o an Stelle von (a o, b o ). Mit Hilfe der Log-Likelihood-Funktion L(a, b) := (Y i (a + b X i ) log ( 1 + exp(a + b X i ) )) bzw. der Profil-Log-Likelihood-Funktion L(b) := max a R L(a, b) kann man also asymptotisch valide Konfidenzbereiche und Tests für b o konstruieren. Übrigens kann man leicht zeigen, dass â(b) := arg max a R L(a, b) eindeutig definiert ist durch die Gleichung siehe auch Aufgabe n l ( â(b) + b ) X i = Ȳ n ; 7.2 Allgemeine asymptotische Betrachtungen In diesem Abschnitt betrachten wir das folgende Szenario: Für n = 1, 2, 3,... sei L n : R p [, ) eine zufällige konkave, stetige und nach oben beschränkte Funktion. Für einen festen Parameter θ n R p sei stets L n (θ n ) >, und für beliebige R p gelte die Darstellung mit L n (θ n + n 1/2 ) = L n (θ n ) + Z n Γ /2 + r n ( ) einem Zufallsvektor Z n R p derart, dass Z n = O p (1), einer festen symmetrischen und positiv definiten Matrix Γ R p p und einem zufälligen Restterm r n ( ) derart, dass sup r n ( ) p 0 für jedes feste C > 0. R p : C (Auch hier beziehen sich asymptotische Aussagen auf den Fall n, sofern nichts anderes gesagt wird.) Aus diesen Eigenschaften von L n ( ) ergeben sich zwei wichtige Aussagen: Satz 7.14 (Asymptotik von M-Schätzern). Unter den zuvor genannten Bedingungen existiert eine Maximalstelle θ n von L n mit asymptotischer Wahrscheinlichkeit Eins. Ferner erfüllt diese die Gleichungen n 1/2( θn θ n ) = Γ 1 Z n + o p (1), 2L n ( θ n ) 2L n (θ n ) = Z n Γ 1 Z n + o p (1).

147 7.2. ALLGEMEINE ASYMPTOTISCHE BETRACHTUNGEN 147 Satz 7.15 (Asymptotik von Profil-Funktionen). Sei Ψ R p k eine feste Matrix mit Rang k < p, und für η R k sei P L n (η) := sup { L n (θ) : θ R p, Ψ θ = η }. Dann ist P L n eine konkave und nach oben beschränkte Abbildung von R k nach R. Ferner gilt für w R k die Darstellung P L n (Ψ θ n + n 1/2 w) = P L n (Ψ θ n ) + Z n,ψw w Γ Ψ w/2 + r n,ψ (w) mit dem Zufallsvektor Z n,ψ := Γ Ψ Ψ Γ 1 Z n = O p (1), der symmetrischen und positiv definiten Matrix Γ Ψ := (Ψ Γ 1 Ψ) 1 und einem zufälligen Restterm r n,ψ (w) derart, dass sup r n,ψ (w) p 0 für jedes feste C > 0. w R k : w C Anmerkung Satz 7.15 zeigt, dass P L n ähnliche Eigenschaften wie L n hat. Wendet man nun Satz 7.14 auf P L n an Stelle von L n an, so ergibt sich die Darstellung 2 sup η R k P L n (η) 2P L n (Ψ θ n ) = Z n,ψγ 1 Ψ Z n,ψ + o p (1). Ferner ist die linke Seite gleich 2L n ( θ n ) 2P L n (Ψ θ n ), sofern θ n existiert. Beweis von Satz Zunächst nehmen wir an, dass Γ = I p. Zur Vereinfachung unserer Rechnungen betrachten wir alles durch ein n-vergrößerungsglas und definieren H n ( ) := L n (θ n + n 1/2 ) L n (θ n ), Ȟ n ( ) := Z n 2 /2 für R p. Dann ist r n ( ) = H n ( ) Ȟn( ), und wir setzen ρ n (C) := max C r n ( ). Ein Vektor n R p maximiert H n genau dann, wenn θ n = θ n + n 1/2 n die Funktion L n maximiert. Zu zeigen ist also, dass H n mit asymptotischer Wahrscheinlichkeit 1 eine Maximalstelle n hat, und dass gilt: n = Z n + o p (1), 2H n ( n ) = Z n 2 + o p (1). Die Funktion Ȟn hat die eindeutige Maximalstelle denn man kann schreiben arg max R p Ȟ n ( ) = Z n, Ȟ n ( ) = Z n 2 /2 Z n 2 /2. Dies zeigt auch, dass 2 max R p Ȟ n ( ) = 2Ȟn(Z n ) = Z n 2,

148 148 KAPITEL 7. LOGISTISCHE REGRESSION UND DAMIT VERWANDTE MODELLE und für w R p ergibt sich die Gleichung (7.6) Ȟ n (Z n + w) Ȟn(Z n ) = w 2 /2. Nach Voraussetzung ist Z n = O p (1). Zusammen mit (7.6) ergeben sich für jedes feste ɛ > 0 und beliebige Konstanten C > 0 die Ungleichungen ( ) IP max H n(z n + w) H n (Z n ) w =ɛ IP ( ρ n ( Z n + ɛ) ɛ 2 /4 ) IP( Z n C) + IP ( ρ n (C + ɛ) ɛ 2 /4 ) lim sup IP( Z n C) + o(1). m Da die rechte Seite mit wachsendem C beliebig klein wird, erhalten wir die Aussage, dass ( ) IP max H n(z n + w) < H n (Z n ) w =ɛ Wegen der Konkavität von H n impliziert die Ungleichung dass sogar max H n(z n + w) = w ɛ max H n(z n + w) < H n (Z n ), w =ɛ 1 für jedes feste ɛ > 0. max H n(z n + w) < H n (Z n ). w =ɛ Denn für w = ru mit einem Einheitsvektor u R p und einem Skalar r ɛ ist H n (Z n + ru) = H n (Z n ) + ( H n (Z n + ru) H n (Z n + 0u) ) H n (Z n ) + r ( Hn (Z n + ɛu) H n (Z n + 0u) ) ɛ H n (Z n ) + ( H n (Z n + ɛu) H n (Z n + 0u) ) max H n(z n + w). w =ɛ Insbesondere existiert dann auch eine Maximalstelle n von H n, und diese erfüllt die Ungleichung n Z n < ɛ. Da ɛ > 0 beliebig klein sein kann, zeigen diese Betrachtungen, dass n mit asymptotischer Wahrscheinlichkeit Eins definiert ist und die Gleichung n = Z n + o p (1) erfüllt. Ferner ist 2H n ( n ) Z n 2 = 2H n ( n ) 2Ȟn(Z n ) { 2Ȟn( n ) 2Ȟn(Z n ) + 2ρ n ( n ) 2ρ n ( n ), 2H n ( n ) 2H n (Z n ) 2ρ n ( Z n ) 2ρ n ( Z n ), so dass 2H n ( n ) Z n 2 2ρ n ( max { n, Z n }) = o p (1).

149 7.2. ALLGEMEINE ASYMPTOTISCHE BETRACHTUNGEN 149 Für allgemeines Γ ersetzen wir (θ, θ n, ) durch ( θ, θ n, ) := (Γ 1/2 θ, Γ 1/2 θ n, Γ 1/2 ), L n (θ) durch Ln ( θ) := L n (Γ 1/2 θ), Z n durch Zn := Γ 1/2 Z n, r n ( ) durch r n ( ) := r n (Γ 1/2 ). Dann ist θ eine Maximalstelle von L n genau dann, wenn Γ 1/2 θ eine Maximalstelle von Ln ist, und das Supremum von L n stimmt mit dem Supremum von L n überein. Aus Z n = O p (1) folgt, dass auch Z n = O p (1), und für R p gilt die Darstellung wobei L n ( θ n + n 1/2 ) Ln ( θ n ) = L n (θ n + n 1/2 Γ 1/2 ) Ln (θ n ) sup r n ( ) : C = Z n 2 /2 + r n ( ), sup r n ( ) p 0 : λ min (Γ) 1/2 C für jedes feste C > 0. Daher zeigen die vorangehenden Betrachtungen, dass mit asymptotischer Wahrscheinlichkeit Eins eine Maximalstelle θ n von L n existiert, und n 1/2 ( θ n θ n ) = Γ 1/2 Zn + o p (1) = Γ 1 Z n + o p (1), 2L n ( θ n ) 2L n (θ n ) = Z n 2 + o p (1) = Z n Γ 1 Z n + o p (1). Beweis von Satz Wir nehmen zunächst an, dass Γ = I p und Ψ Ψ = I k, also Γ Ψ = I k und Z n,ψ = Ψ Z n. Wie schon im Beweis des Satzes 7.14 verwenden wir die lokale Log-Likelihood-Funktion H n, deren Approximation Ȟn und die Fehlerschranken ρ n (C). Definieren wir die Profilfunktionen P H n (w) := sup { H n ( ) : Ψ = w }, P Ȟn(w) := sup { Ȟ n ( ) : Ψ = w }, dann ist P L n (Ψ θ n + n 1/2 w) P L n (Ψ θ n ) = P H n (w) P H n (0). Es genügt also zu zeigen, dass (7.7) sup P H n (w) P Ȟn(w) p 0 w C für jedes feste C > 0 und (7.8) P Ȟn(w) P Ȟn(0) = Z n,ψw w 2 /2 für beliebige w R k. Beginnen wir mit (7.8). Wir zerlegen den Raum R p in zwei orthogonale Teilräume, nämlich ΨR k und V := (ΨR k ) = { v R q : Ψ v = 0 }.

150 150 KAPITEL 7. LOGISTISCHE REGRESSION UND DAMIT VERWANDTE MODELLE Wegen Ψ Ψ = I k beschreibt ΨΨ die orthogonale Projektion auf ΨR k, und I p ΨΨ beschreibt die orthogonale Projektion auf V. Für w R k ist { R p : Ψ = w } = { Ψw + v : v V }, und für beliebige v V ist Ȟ n (Ψw + v) = Z n Ψw + Z n v Ψw 2 /2 v 2 /2 = Z n,ψw + Z n v w 2 /2 v 2 /2 = Z n,ψw w 2 /2 + Z n 2 /2 Z n v 2 /2 mit der Projektion Z n := Z n ΨΨ Z n V. Insbesondere ist und dies impliziert (7.8). P Ȟn(w) = Ȟn(Ψw + Z n ) = Z n,ψw w 2 /2 + Z n 2 /2, Nun zu (7.7). Wir fixieren beliebige Konstanten C > 0 (groß) und ɛ > 0 (klein). Für w R k mit w C und v V mit v = ɛ ist H n (Ψw + Z n + v) H n (Ψw + Z n ) Ȟn(Ψw + Z n + v) Ȟn(Ψw + Z n ) + 2ρ n (C + ɛ + Z n ) = ɛ 2 /2 + 2ρ n (C + ɛ + Z n ) p ɛ 2 /2. Zusammen mit der Konkavität von H n folgt hieraus, dass mit asymptotischer Wahrscheinlichkeit Eins gilt: Für alle w R k mit w C ist P H n (w) = sup H n (Ψw + Z n + v) = v V max H n(ψw + Z n + v), v V: v ɛ und P H n (w) P Ȟn(w) ρ n (C + ɛ + Z n ) p 0, was (7.7) beweist. Im Falle von beliebigen Matrizen Γ und Ψ gehen wir wie im Beweis von Satz 7.14 vor: Zunächst ersetzen wir (θ, θ n, ) durch ( θ, θ n, ) := (Γ 1/2 θ, Γ 1/2 θ n, Γ 1/2 ), L n (θ) durch L n ( θ) := L n (Γ 1/2 θ) und Zn durch Z n := Γ 1/2 Z n. Ferner ersetzen wir Ψ durch und η, w R k durch Ψ := Γ 1/2 ΨΓ 1/2 Ψ = Γ 1/2 Ψ(Ψ Γ 1 Ψ) 1/2 η := Γ 1/2 Ψ η bzw. w := Γ1/2 Ψ w. Dahinter steckt die Überlegung, dass Ψ Ψ = Ik, und die Gleichung Ψ θ = η ist äquivalent to Ψ θ = η. Außerdem erfüllt Zn, Ψ := Ψ Zn die Gleichungen Z n, Ψ w = Z n,ψ w sowie Z n, Ψ 2 = Z nψ Γ 1 Ψ Z n,ψ, und w 2 = w Γ Ψ w...

151 7.3. METHODEN FÜR MULTIKATEGORIELLE RESPONSE Methoden für multikategorielle Response In diesem Abschnitt behandeln wir zwei Methoden für den allgemeinen Fall, dass der Wertebereich Y zwei oder mehr Werte umfasst Multinomiale Logit-Modelle Eine Rechtfertigung bzw. Herleitung von Logit-Modellen. Ein Standardmodell der multivariaten Statistik ist wie folgt: Die gemeinsame Verteilung von Zufallsvariablen X R d und Y Y := {0, 1,..., K} mit K 1 sei gegeben durch die Gewichte und w y := IP(Y = y) > 0 L(X Y = y) = N d (µ y, Σ) mit gewissen Vektoren µ 0,..., µ K R d und einer symmetrischen, positiv definiten Matrix Σ R d d. Dann kann man leicht nachrechnen, dass IP(Y = y X = x) = w y exp ( (x µ y ) Σ 1 (x µ y )/2 ) K z=0 w z exp ( (x µ z ) Σ 1 (x µ z )/2 ) = exp(a y + b y x) K z=0 exp(a z + b z x) mit a y := log(w y ) µ y Σ 1 µ y /2 und b y := Σ 1 µ y. Diese bedingten Wahrscheinlichkeiten bleiben unverändert, wenn man noch die Paare (a y, b y ) durch (a y a 0, b y b 0 ) ersetzt. Für K = 1 ergibt sich dann ein logistisches Regressionsmodell! Im allgemeinen Fall ergibt sich das nachfolgend beschriebene multinomiale Logit-Modell. Die obigen Betrachtungen zeigen nicht nur, dass Logit-Modelle plausibel sind, sondern liefern auch ein Rezept, um Startwerte für die Parameter a y, b y zu bestimmen. Hierzu ersetzt man einfach w y durch ŵ y := N y /n mit N y := #{i : Y i = y}, µ y durch µ y := 1 X i, N y Σ durch Σ := i:y i =y 1 n K 1 K y=0 i: Y i =y (X i µ y )(X i µ y ). Das multinomiale Logit-Modell. Für einen gegebenen endlichdimensionalen Vektorraum F von Funktionen f : X R unterstellt man, dass für gewisse Funktionen f 1, f 2,..., f K F gilt: IP(Y = y X = x) = exp(f y (x)) K z=0 exp(f z(x)) für alle x X, y {0, 1,..., K}, wobei f 0 (x) := 0. Die Funktionen f 1, f 2,..., f K bzw. entsprechende Parametervektoren θ 1, θ 2,..., θ K im R dim(f) kann man wiederum mit der Maximum-Likelihood-Methode bestimmen, und alle vorangehenden Betrachtungen zur Log-Likelihood-Funktion in der logistischen Regression lassen sich auf den Fall K 1 verallgemeinern.

152 von Ỹ beobachten wir nur Y := 1 [Ỹ 0]. 152 KAPITEL 7. LOGISTISCHE REGRESSION UND DAMIT VERWANDTE MODELLE Das ordinale Logit-Modell In manchen Anwendungen ist Y eine ordinal(skaliert)e Variable, das heißt, die Werte 0, 1,..., K stehen in einer natürlichen Reihenfolge. Beispielsweise könnte man bei klinischen Studien eine dichotome Response mit Werten in { gesund, krank } durch eine ordinale Variable mit Werten in { gesund, leicht erkrankt, schwerkrank } ersetzen. Natürlich hindert dies nicht daran, das multinomiale Logit-Modell zu verwenden, aber es gibt noch eine andere Möglichkeit. Logistische Regression via latente Response. lineares Modell mit X X und Ỹ R, wobei Angenommen, hinter unseren Daten steht ein Ỹ = f(x) + Z mit einer Regressionsfunktion f F und einem Zufallsfehler Z, der von X stochastisch unabhängig und nach der logistischen Verteilungsfunktion l( ) verteilt ist. Angenommen, an Stelle Dann genügt (X, Y ) X {0, 1} einem logistischen Regressionsmodell, denn IP(Y = 1 X = x) = IP(f(x) + Z 0) = IP(Z f(x)) = l(f(x)), weil 1 l( z) = l(z) für z R. Wir können f F auch in der Form f(x) = f o (x) a schreiben, wobei a := f(x o ) und f o (x) := f(x) f(x o ) für einen festen Referenzpunkt x o X. Dann ist Y = 1 [fo(x)+z a] und IP(Y = 1 X = x) = l(f o (x) a) = 1 l(a f o (x)), IP(Y = 0 X = x) = 1 l(f o (x) a) = l(a f o (x)). Der allgemeine Fall. Dies lässt sich jetzt auf Beobachtungen (X, Y ) X {0, 1,..., K} verallgemeinern: Wir nehmen an, dass für gewisse Schranken =: a 0 < a 1 < < a K < a K+1 := und eine Funktion gilt: f o F o := {f f(x o ) : f F} IP(Y = y X = x) = l(a y+1 f o (x)) l(a y f o (x)) für y = 0, 1,..., K. Dahinter steht die Vorstellung einer latenten Response f o (X) + Z

153 7.3. METHODEN FÜR MULTIKATEGORIELLE RESPONSE 153 wie zuvor, und Y = y genau dann, wenn a y f o (X) + Z < a y+1. Abbildung 7.3 illustriert diese Konstruktion im Falle von K = 2 und a 1 = 1.5, a 2 = 1.5. Horizontal sind die möglichen Werte von f o (x) aufgetragen, und für jeden Wert f o (x) kann man vertikal die drei Intervalle [0, l(a 1 f o (x))] (hellgrau), [l(a 1 f o (x)), l(a 2 f o (x))] (grau) und [l(a 2 f o (x)), 1] (dunkelgrau) ablesen. Deren Längen entsprechen den Wahrscheinlichkeiten IP(Y = 0 X = x), IP(Y = 1 X = x) bzw. IP(Y = 2 X = x). Abbildung 7.3: Illustration des ordinalen Logit-Modells für K = 2 und a 1 = 1.5, a 2 = 1.5. Auch hier kann man die Parameter a = (a y ) K y=1 und f o mit der Maximum-Likelihood-Methode schätzen. Die entsprechende Log-Likelihood-Funktion ist gegeben durch L(a, f) = log ( l(a Yi +1 f(x i )) l(a Yi f(x i )) ). Aufgabe 7.17 (Konkavität der Log-Likelihood-Funktion). (a) Zeigen Sie, dass h(x) := log(l(x 2 ) l(x 1 )) mit log(z) := für z 0 eine stetige konkave Funktion h : R 2 [, 0) definiert, welche auf {h > } = {x R 2 : x 1 < x 2 } strikt konvex ist. Genauer gesagt, gilt für x R 2 mit x 1 < x 2 : h(x) = 1 l(x 2 ) l(x 1 ) ( l ) (x 1 ) l (x 2 )

y = b 0 + b 1 x 1 x 1 ε 1. ε n b + b 1 1 x n 2) Hat die Größe x einen Einfluss auf y, d.h. gilt die Hypothese: H : b 1 = 0

y = b 0 + b 1 x 1 x 1 ε 1. ε n b + b 1 1 x n 2) Hat die Größe x einen Einfluss auf y, d.h. gilt die Hypothese: H : b 1 = 0 8 Lineare Modelle In diesem Abschnitt betrachten wir eine spezielle Klasse von statistischen Modellen, in denen die Parameter linear auftauchen Wir beginnen mit zwei Beispielen Beispiel 8 (lineare Regression)

Mehr

5 Allgemeine Verfahren zum Testen von Hypothesen

5 Allgemeine Verfahren zum Testen von Hypothesen 5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ).

Mehr

Einführung in die Induktive Statistik: Regressionsanalyse

Einführung in die Induktive Statistik: Regressionsanalyse Einführung in die Induktive Statistik: Regressionsanalyse Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Regressionsanalyse Ziel: Analyse

Mehr

Lineare Algebra und Numerische Mathematik für D-BAUG

Lineare Algebra und Numerische Mathematik für D-BAUG P. Grohs T. Welti F. Weber Herbstsemester 5 Lineare Algebra und Numerische Mathematik für D-BAUG ETH Zürich D-MATH Beispiellösung für Serie Aufgabe. Skalarprodukt und Orthogonalität.a) Bezüglich des euklidischen

Mehr

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell 1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs

Mehr

M U = {x U f 1 =... = f n k (x) = 0}, (1)

M U = {x U f 1 =... = f n k (x) = 0}, (1) Aufgabe 11. a) Es sei M = {(x, y, z) R 3 f 1 = xy = 0; f = yz = 0}. Der Tangentialraum T x M muss in jedem Punkt x M ein R-Vektorraum sein und die Dimension 1 besitzen, damit diese Menge M eine Untermannigfaltigkeit

Mehr

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr. Statistik II Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen Statistik II 2. Parameterschätzung: 2.1 Grundbegriffe; 2.2 Maximum-Likelihood-Methode;

Mehr

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit 3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit Lernziele dieses Kapitels: Mehrdimensionale Zufallsvariablen (Zufallsvektoren) (Verteilung, Kenngrößen) Abhängigkeitsstrukturen Multivariate

Mehr

Reelle Zufallsvariablen

Reelle Zufallsvariablen Kapitel 3 eelle Zufallsvariablen 3. Verteilungsfunktionen esultat aus der Maßtheorie: Zwischen der Menge aller W-Maße auf B, nennen wir sie W B ), und der Menge aller Verteilungsfunktionen auf, nennen

Mehr

Musterlösung. Modulklausur Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn

Mehr

1 Multivariate Zufallsvariablen

1 Multivariate Zufallsvariablen 1 Multivariate Zufallsvariablen 1.1 Multivariate Verteilungen Definition 1.1. Zufallsvariable, Zufallsvektor (ZV) Sei Ω die Ergebnismenge eines Zufallsexperiments. Eine (univariate oder eindimensionale)

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

Lineare Regression. Kapitel Regressionsgerade

Lineare Regression. Kapitel Regressionsgerade Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell

Mehr

Deskriptive Beschreibung linearer Zusammenhänge

Deskriptive Beschreibung linearer Zusammenhänge 9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,

Mehr

Diagonalisierbarkeit symmetrischer Matrizen

Diagonalisierbarkeit symmetrischer Matrizen ¾ Diagonalisierbarkeit symmetrischer Matrizen a) Eigenwerte und Eigenvektoren Die Matrix einer linearen Abbildung ³: Î Î bezüglich einer Basis ( Ò ) ist genau dann eine Diagonalmatrix wenn jeder der Basisvektoren

Mehr

Aufgaben und Lösungen zur Klausur Lineare Algebra im Frühjahr 2009

Aufgaben und Lösungen zur Klausur Lineare Algebra im Frühjahr 2009 I. (4 Punkte) Gegeben sei die Menge Aufgaben und Lösungen zur Klausur Lineare Algebra im Frühjahr 9 G := { a c b a, b, c R }. (a) Zeigen Sie, dass G zusammen mit der Matrizenmultiplikation eine Gruppe

Mehr

Lineare Algebra II 8. Übungsblatt

Lineare Algebra II 8. Übungsblatt Lineare Algebra II 8. Übungsblatt Fachbereich Mathematik SS 11 Prof. Dr. Kollross 1./9. Juni 11 Susanne Kürsten Tristan Alex Gruppenübung Aufgabe G1 (Minitest) Sei V ein euklidischer oder unitärer Vektorraum.

Mehr

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente... Inhaltsverzeichnis 1 Grundlagen der Wahrscheinlichkeitsrechnung 1 1.1 Wahrscheinlichkeitsräume Ein erster mathematischer Blick auf Zufallsexperimente.......... 1 1.1.1 Wahrscheinlichkeit, Ergebnisraum,

Mehr

Statistik in Geodäsie, Geoinformation und Bauwesen

Statistik in Geodäsie, Geoinformation und Bauwesen Wilhelm Benning Statistik in Geodäsie, Geoinformation und Bauwesen 2., überarbeitete und erweiterte Auflage Herbert Wichmann Verlag Heidelberg Matrix-Theorie 1 1.1 Matrizen und Vektoren 1 1.2 Matrixverknüpfungen

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem

Mehr

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar Statistische Methoden in der Physik Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen

Mehr

$Id: linabb.tex,v /01/09 13:27:34 hk Exp hk $

$Id: linabb.tex,v /01/09 13:27:34 hk Exp hk $ Mathematik für Ingenieure I, WS 8/9 Freitag 9. $Id: linabb.tex,v.3 9//9 3:7:34 hk Exp hk $ II. Lineare Algebra 9 Lineare Abbildungen 9. Lineare Abbildungen Der folgende Satz gibt uns eine einfachere Möglichkeit

Mehr

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Oktober 2018 Prof. Dr. Hans-Jörg

Mehr

Elemente der Analysis II

Elemente der Analysis II Elemente der Analysis II Informationen zur Vorlesung: http://www.mathematik.uni-trier.de/ wengenroth/ J. Wengenroth () 8. Mai 2009 1 / 29 Bemerkung In der Vorlesung Elemente der Analysis I wurden Funktionen

Mehr

Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin

Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Angewandte Multivariate Statistik Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Ostap Okhrin 1 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Elementare Operationen

Mehr

Anwendungen der Differentialrechnung

Anwendungen der Differentialrechnung KAPITEL 3 Anwendungen der Differentialrechnung 3.1 Lokale Maxima und Minima Definition 16: Sei f : D R eine Funktion von n Veränderlichen. Ein Punkt x heißt lokale oder relative Maximalstelle bzw. Minimalstelle

Mehr

Regressionsmodelle mit Anwendungen in der Versicherungs- und Finanzwirtschaft Probeklausur Wintersemester 2017/

Regressionsmodelle mit Anwendungen in der Versicherungs- und Finanzwirtschaft Probeklausur Wintersemester 2017/ Regressionsmodelle mit Anwendungen in der Versicherungs- und Finanzwirtschaft Probeklausur Wintersemester 2017/2018 06.12.2018 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN Nachname:...................................................................

Mehr

Mathematische Grundlagen für die Vorlesung. Differentialgeometrie

Mathematische Grundlagen für die Vorlesung. Differentialgeometrie Mathematische Grundlagen für die Vorlesung Differentialgeometrie Dr. Gabriele Link 13.10.2010 In diesem Text sammeln wir die nötigen mathematischen Grundlagen, die wir in der Vorlesung Differentialgeometrie

Mehr

Vorlesung 7b. Der Zentrale Grenzwertsatz

Vorlesung 7b. Der Zentrale Grenzwertsatz Vorlesung 7b Der Zentrale Grenzwertsatz 1 Zentraler Grenzwertsatz (Tschebyscheff) Die standardisierte Summe von unabhängigen, identisch verteilten R-wertigen Zufallsvariablen konvergiert in Verteilung

Mehr

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen... Inhaltsverzeichnis I Grundbegriffe 1 1 Wahrscheinlichkeitsräume......................... 1 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit........... 7 3 Reellwertige Zufallsvariablen........................

Mehr

Mathematik II für Studierende der Informatik (Analysis und lineare Algebra) im Sommersemester 2018

Mathematik II für Studierende der Informatik (Analysis und lineare Algebra) im Sommersemester 2018 (Analysis und lineare Algebra) im Sommersemester 2018 15. April 2018 1/46 Die Dimension eines Vektorraums Satz 2.27 (Basisergänzungssatz) Sei V ein Vektorraum über einem Körper K. Weiter seien v 1,...,

Mehr

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über

Mehr

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) 3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =

Mehr

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) 3 Einfache lineare Regression Einfache lineare Modelle mit R 3.6 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula

Mehr

Inhalt. Mathematik für Chemiker II Lineare Algebra. Vorlesung im Sommersemester Kurt Frischmuth. Rostock, April Juli 2015

Inhalt. Mathematik für Chemiker II Lineare Algebra. Vorlesung im Sommersemester Kurt Frischmuth. Rostock, April Juli 2015 Inhalt Mathematik für Chemiker II Lineare Algebra Vorlesung im Sommersemester 5 Rostock, April Juli 5 Vektoren und Matrizen Abbildungen 3 Gleichungssysteme 4 Eigenwerte 5 Funktionen mehrerer Variabler

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Regression und Korrelation

Regression und Korrelation Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen

Mehr

Konfidenzbereiche. Kapitel Grundlagen. Wir gehen wieder von einem allgemeinen (parametrischen) statistischen Modell aus,

Konfidenzbereiche. Kapitel Grundlagen. Wir gehen wieder von einem allgemeinen (parametrischen) statistischen Modell aus, Kapitel 4 Konfidenzbereiche 4.1 Grundlagen Wir gehen wieder von einem allgemeinen parametrischen statistischen Modell aus, M, A, P ϑ ; sei eine Funktion des Parameters gegeben, die einen interessierenden

Mehr

Lineare Algebra. Mathematik II für Chemiker. Daniel Gerth

Lineare Algebra. Mathematik II für Chemiker. Daniel Gerth Lineare Algebra Mathematik II für Chemiker Daniel Gerth Überblick Lineare Algebra Dieses Kapitel erklärt: Was man unter Vektoren versteht Wie man einfache geometrische Sachverhalte beschreibt Was man unter

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Schätzung im multiplen linearen Modell VI

Schätzung im multiplen linearen Modell VI Schätzung im multiplen linearen Modell VI Wie im einfachen linearen Regressionsmodell definiert man zu den KQ/OLS-geschätzten Parametern β = ( β 0, β 1,..., β K ) mit ŷ i := β 0 + β 1 x 1i +... β K x Ki,

Mehr

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:

Mehr

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik Demokurs Modul 3741 Vertiefung der Wirtschaftsmathematik und Statistik Kurs 41 Vertiefung der Statistik 15. Juli 010 Seite: 14 KAPITEL 4. ZUSAMMENHANGSANALYSE gegeben, wobei die Stichproben(ko)varianzen

Mehr

42 Orthogonalität Motivation Definition: Orthogonalität Beispiel

42 Orthogonalität Motivation Definition: Orthogonalität Beispiel 4 Orthogonalität 4. Motivation Im euklidischen Raum ist das euklidische Produkt zweier Vektoren u, v IR n gleich, wenn die Vektoren orthogonal zueinander sind. Für beliebige Vektoren lässt sich sogar der

Mehr

Varianzkomponentenschätzung

Varianzkomponentenschätzung Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler

Mehr

Mehrdimensionale Zufallsvariablen

Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,

Mehr

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Statistik 7.1 Korrelationsanalyse Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Sommersemester 2012 7 Regressions- und Korrelationsanalyse Kovarianz Pearson-Korrelation Der (lineare)

Mehr

5 Eigenwerte und die Jordansche Normalform

5 Eigenwerte und die Jordansche Normalform Mathematik für Ingenieure II, SS 9 Dienstag $Id: jordantex,v 8 9// 4:48:9 hk Exp $ $Id: quadrattex,v 9// 4:49: hk Exp $ Eigenwerte und die Jordansche Normalform Matrixgleichungen und Matrixfunktionen Eine

Mehr

Euklidische und unitäre Vektorräume

Euklidische und unitäre Vektorräume Kapitel 7 Euklidische und unitäre Vektorräume In diesem Abschnitt ist der Körper K stets R oder C. 7.1 Definitionen, Orthonormalbasen Definition 7.1.1 Sei K = R oder C, und sei V ein K-Vektorraum. Ein

Mehr

Multivariate Verteilungen. Gerhard Tutz LMU München

Multivariate Verteilungen. Gerhard Tutz LMU München Multivariate Verteilungen Gerhard Tutz LMU München INHALTSVERZEICHNIS 1 Inhaltsverzeichnis 1 Multivariate Normalverteilung 3 Wishart Verteilung 7 3 Hotellings T Verteilung 11 4 Wilks Λ 14 INHALTSVERZEICHNIS

Mehr

1 Verteilungsfunktionen, Zufallsvariable etc.

1 Verteilungsfunktionen, Zufallsvariable etc. 4. Test M3 ET 27 6.6.27 4. Dezember 27 Regelung für den.ten Übungstest:. Wer bei den Professoren Dirschmid, Blümlinger, Vogl oder Langer die UE aus Mathematik 2 gemacht hat, sollte dort die WTH und Statistik

Mehr

Analysis II. Vorlesung 47

Analysis II. Vorlesung 47 Prof. Dr. H. Brenner Osnabrück SS 2014 Analysis II Zu einer reellwertigen Funktion Vorlesung 47 interessieren wir uns wie schon bei einem eindimensionalen Definitionsbereich für die Extrema, also Maxima

Mehr

Statistische Datenanalyse

Statistische Datenanalyse Werner A. Stahel Statistische Datenanalyse Eine Einführung für Naturwissenschaftler 3., durchgesehene Auflage vieweg VII 1 Einleitung 1 1.1 Was ist Statistische Datenanalyse? 1 1.2 Ziele 6 1.3 Hinweise

Mehr

Statistik I für Betriebswirte Vorlesung 4

Statistik I für Betriebswirte Vorlesung 4 Statistik I für Betriebswirte Vorlesung 4 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 25. April 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

8 Euklidische und unitäre Vektorräume. Skalarprodukte Orthogonalität Matrizen

8 Euklidische und unitäre Vektorräume. Skalarprodukte Orthogonalität Matrizen 8 Euklidische und unitäre Vektorräume Skalarprodukte Orthogonalität Matrizen 8 Euklidische und unitäre Vektorräume Skalarprodukte Orthogonalität Matrizen In diesem Kapitel werden nur endlich dimensionale

Mehr

simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall

simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall Regression Korrelation simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall Zusammenhänge zw. Variablen Betrachtet man mehr als eine Variable, so besteht immer auch

Mehr

x, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω

x, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω 5. Hilberträume Definition 5.1. Sei H ein komplexer Vektorraum. Eine Abbildung, : H H C heißt Skalarprodukt (oder inneres Produkt) auf H, wenn für alle x, y, z H, α C 1) x, x 0 und x, x = 0 x = 0; ) x,

Mehr

Stochastik Praktikum Lineare Modelle

Stochastik Praktikum Lineare Modelle Stochastik Praktikum Lineare Modelle Thorsten Dickhaus Humboldt-Universität zu Berlin 06.10.2010 Übersicht 1 Einfache lineare Regression 2 Multiple lineare Regression 3 Varianzanalyse 4 Verallgemeinerte

Mehr

6.2 Lineare Regression

6.2 Lineare Regression 6.2 Lineare Regression Einfache lineare Regression (vgl. Kap. 4.7) Y i = θ 0 + θ 1 X i + ǫ i ǫ i (0, σ 2 ) ˆθ 1 ˆθ 0 = S XY S 2 X = 1 ( Yi n ˆθ ) 1 Xi als Lösung der Minimumaufgabe n (Y i θ 1 X 1 θ 0 )

Mehr

2. Prinzipien der Datenreduktion

2. Prinzipien der Datenreduktion 2. Prinzipien der Datenreduktion Man verwendet die Information in einer Stichprobe X 1,..., X n, um statistische Inferenz über einen unbekannten Parameter zu betreiben. Falls n groß ist, so ist die beobachtete

Mehr

Versuchsplanung und multivariate Statistik Sommersemester 2018

Versuchsplanung und multivariate Statistik Sommersemester 2018 Versuchsplanung und multivariate Statistik Sommersemester 2018 Vorlesung 11: Lineare und nichtlineare Modellierung I Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 6.6.2018

Mehr

Mischungsverhältnisse: Nehmen wir an, es stehen zwei Substanzen (zum Beispiel Flüssigkeiten) mit spezifischen Gewicht a = 2 kg/l bzw.

Mischungsverhältnisse: Nehmen wir an, es stehen zwei Substanzen (zum Beispiel Flüssigkeiten) mit spezifischen Gewicht a = 2 kg/l bzw. Kapitel 5 Lineare Algebra 51 Lineare Gleichungssysteme und Matrizen Man begegnet Systemen von linearen Gleichungen in sehr vielen verschiedenen Zusammenhängen, etwa bei Mischungsverhältnissen von Substanzen

Mehr

102 KAPITEL 14. FLÄCHEN

102 KAPITEL 14. FLÄCHEN 102 KAPITEL 14. FLÄCHEN Definition 14.3.1 (Kurve) Es sei M eine k-dimensionale Untermannigfaltigkeit des R n. Eine C 1 - Kurve γ : ( a, a) R n mit γ(( a, a)) M heißt Kurve auf M durch x 0 = γ(0). Definition

Mehr

Goethe-Universität Frankfurt

Goethe-Universität Frankfurt Goethe-Universität Frankfurt Fachbereich Wirtschaftswissenschaft PD Dr. Martin Biewen Dr. Ralf Wilke Sommersemester 2006 Klausur Statistik II 1. Alle Aufgaben sind zu beantworten. 2. Bitte runden Sie Ihre

Mehr

Interpolation, lineare Gleichungen (mit und ohne Lösungen) und lineare Regression

Interpolation, lineare Gleichungen (mit und ohne Lösungen) und lineare Regression Interpolation, lineare Gleichungen (mit und ohne Lösungen) und lineare Regression Franz Pauer Institut für Mathematik, Universität Innsbruck Technikerstr. 13/7, A-6020 Innsbruck, Österreich franz.pauer@uibk.ac.at

Mehr

i =1 i =2 i =3 x i y i 4 0 1

i =1 i =2 i =3 x i y i 4 0 1 Aufgabe (5+5=0 Punkte) (a) Bei einem Minigolfturnier traten 6 Spieler gegeneinander an. Die Anzahlen der von ihnen über das gesamte Turnier hinweg benötigten Schläge betrugen x = 24, x 2 = 27, x = 2, x

Mehr

oder A = (a ij ), A =

oder A = (a ij ), A = Matrizen 1 Worum geht es in diesem Modul? Definition und Typ einer Matrix Spezielle Matrizen Rechenoperationen mit Matrizen Rang einer Matrix Rechengesetze Erwartungswert, Varianz und Kovarianz bei mehrdimensionalen

Mehr

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers 4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis

Mehr

Inhaltsverzeichnis. 4 Statistik Einleitung Wahrscheinlichkeit Verteilungen Grundbegriffe 98

Inhaltsverzeichnis. 4 Statistik Einleitung Wahrscheinlichkeit Verteilungen Grundbegriffe 98 Inhaltsverzeichnis 1 Datenbehandlung und Programmierung 11 1.1 Information 11 1.2 Codierung 13 1.3 Informationsübertragung 17 1.4 Analogsignale - Abtasttheorem 18 1.5 Repräsentation numerischer Daten 20

Mehr

Überbestimmte Gleichungssysteme

Überbestimmte Gleichungssysteme Siebente Vorlesung, 8. Mai 2008, Inhalt Überbestimmte Gleichungssysteme Kleinste Quadrate: einfaches Beispiel, elementare Herleitung Normalengleichungen Transformation mit QR-Zerlegung und SVD Nichtlineare

Mehr

Lösung Übungsblatt 5

Lösung Übungsblatt 5 Lösung Übungsblatt 5 5. Januar 05 Aufgabe. Die sogenannte Halb-Normalverteilung spielt eine wichtige Rolle bei der statistischen Analyse von Ineffizienzen von Produktionseinheiten. In Abhängigkeit von

Mehr

Fehler- und Ausgleichsrechnung

Fehler- und Ausgleichsrechnung Fehler- und Ausgleichsrechnung Daniel Gerth Daniel Gerth (JKU) Fehler- und Ausgleichsrechnung 1 / 12 Überblick Fehler- und Ausgleichsrechnung Dieses Kapitel erklärt: Wie man Ausgleichsrechnung betreibt

Mehr

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Optimierung: Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen Optimierungsprobleme Optimierung Suche nach dem Maximum oder Minimum

Mehr

Lösungen zu Prüfung Lineare Algebra I/II für D-MAVT

Lösungen zu Prüfung Lineare Algebra I/II für D-MAVT Prof. N. Hungerbühler ETH Zürich, Sommer 4 Lösungen zu Prüfung Lineare Algebra I/II für D-MAVT. [ Punkte] Hinweise zur Bewertung: Jede Aussage ist entweder wahr oder falsch; machen Sie ein Kreuzchen in

Mehr

x t2 y t = 160, y = 8, y y = 3400 t=1

x t2 y t = 160, y = 8, y y = 3400 t=1 Aufgabe 1 (25 Punkte) 1. Eine Online Druckerei möchte die Abhängigkeit des Absatzes gedruckter Fotos vom Preis untersuchen. Dazu verwendet die Firma das folgende lineare Regressionsmodell: wobei y t =

Mehr

5 Lineare Algebra (Teil 3): Skalarprodukt

5 Lineare Algebra (Teil 3): Skalarprodukt 5 Lineare Algebra (Teil 3): Skalarprodukt Der Begriff der linearen Abhängigkeit ermöglicht die Definition, wann zwei Vektoren parallel sind und wann drei Vektoren in einer Ebene liegen. Daß aber reale

Mehr

Lösungen zur Prüfung Lineare Algebra I/II für D-MAVT

Lösungen zur Prüfung Lineare Algebra I/II für D-MAVT Prof. N. Hungerbühler ETH Zürich, Winter 6 Lösungen zur Prüfung Lineare Algebra I/II für D-MAVT. Hinweise zur Bewertung: Jede Aussage ist entweder wahr oder falsch; machen Sie ein Kreuzchen in das entsprechende

Mehr

Lösungen ausgewählter Übungsaufgaben zum Buch. Elementare Stochastik (Springer Spektrum, 2012) Teil 5: Aufgaben zu den Kapiteln 9 bis 12

Lösungen ausgewählter Übungsaufgaben zum Buch. Elementare Stochastik (Springer Spektrum, 2012) Teil 5: Aufgaben zu den Kapiteln 9 bis 12 Lösungen ausgewählter Übungsaufgaben zum Buch Elementare Stochastik (Springer Spektrum, 0) Teil 5: Aufgaben zu den Kapiteln 9 bis Aufgaben zu Kapitel 9 Zu Abschnitt 9. Ü9.. Es sei ψ : R R stetig differenzierbar.

Mehr

Grundlagen Kondition Demo. Numerisches Rechnen. (für Informatiker) M. Grepl P. Esser & G. Welper & L. Zhang

Grundlagen Kondition Demo. Numerisches Rechnen. (für Informatiker) M. Grepl P. Esser & G. Welper & L. Zhang Numerisches Rechnen (für Informatiker) M. Grepl P. Esser & G. Welper & L. Zhang Institut für Geometrie und Praktische Mathematik RWTH Aachen Wintersemester 2011/12 IGPM, RWTH Aachen Numerisches Rechnen

Mehr

Fortgeschrittene Ökonometrie: Maximum Likelihood

Fortgeschrittene Ökonometrie: Maximum Likelihood Universität Regensburg, Lehrstuhl für Ökonometrie Sommersemester 202 Fortgeschrittene Ökonometrie: Maximum Likelihood Poissonverteilung Man betrachte die poisson-verteilten Zufallsvariablen y t, t =, 2,...,

Mehr

3 Vektorräume abstrakt

3 Vektorräume abstrakt Mathematik I für inf/swt Wintersemester / Seite 7 Vektorräume abstrakt Lineare Unabhängigkeit Definition: Sei V Vektorraum W V Dann heißt W := LH(W := Menge aller Linearkombinationen aus W die lineare

Mehr

Mathematik für Anwender. Testklausur mit Lösungen

Mathematik für Anwender. Testklausur mit Lösungen Fachbereich Mathematik/Informatik 4. Januar 0 Prof. Dr. H. Brenner Mathematik für Anwender Testklausur mit en Dauer: Zwei volle Stunden + 0 Minuten Orientierung, in denen noch nicht geschrieben werden

Mehr

Analysis 2, Woche 9. Mehrdimensionale Differentialrechnung I. 9.1 Differenzierbarkeit

Analysis 2, Woche 9. Mehrdimensionale Differentialrechnung I. 9.1 Differenzierbarkeit A Analysis, Woche 9 Mehrdimensionale Differentialrechnung I A 9. Differenzierbarkeit A3 =. (9.) Definition 9. Sei U R m offen, f : U R n eine Funktion und a R m. Die Funktion f heißt differenzierbar in

Mehr

Dabei bezeichnet x die Einflussgrösse (Regressor), y die Zielvariable (die eine Folge der Ursache x ist) und die Störung. Die n = 3 Beobachtungen

Dabei bezeichnet x die Einflussgrösse (Regressor), y die Zielvariable (die eine Folge der Ursache x ist) und die Störung. Die n = 3 Beobachtungen Lineare Regression und Matrizen. Einführendes Beispiel Der im Kapitel Skalarprodukt gewählte Lösungsweg für das Problem der linearen Regression kann auch mit Matrizen formuliert werden. Die Idee wird zunächst

Mehr

, v 3 = und v 4 =, v 2 = V 1 = { c v 1 c R }.

, v 3 = und v 4 =, v 2 = V 1 = { c v 1 c R }. 154 e Gegeben sind die Vektoren v 1 = ( 10 1, v = ( 10 1. Sei V 1 = v 1 der von v 1 aufgespannte Vektorraum in R 3. 1 Dann besteht V 1 aus allen Vielfachen von v 1, V 1 = { c v 1 c R }. ( 0 ( 01, v 3 =

Mehr

1.5 Mehrdimensionale Verteilungen

1.5 Mehrdimensionale Verteilungen Poisson eine gute Näherung, da np = 0 und 500p = 5 00 = n. Wir erhalten somit als Näherung Exakte Rechnung ergibt P(2 X 0) = k=2 0 k=2 π (k) = 0,26424. 0 ( ) 00 P(2 X 0) = 0,0 k 0,99 00 k = 0,264238. k.4.2.4

Mehr

Zusammenfassung: Einfache lineare Regression I

Zusammenfassung: Einfache lineare Regression I 4 Multiple lineare Regression Multiples lineares Modell 41 Zusammenfassung: Einfache lineare Regression I Bisher: Annahme der Gültigkeit eines einfachen linearen Modells y i = β 0 + β 1 x i + u i, i {1,,

Mehr

2.3 Basis und Dimension

2.3 Basis und Dimension 23 Basis und Dimension Erinnerung Gegeben ein K-Vektorraum V, ein Vektorensystem x,, x n in V Eine Linearkombination in den x i ist ein Vektor der Form λ x + + λ n x n mit λ i K Die λ i heißen Koeffizienten

Mehr

y (k) (0) = y (k) y(z) = c 1 e αz + c 2 e βz. c 1 + c 2 = y 0 k=1 k=1,...,m y k f k (x)

y (k) (0) = y (k) y(z) = c 1 e αz + c 2 e βz. c 1 + c 2 = y 0 k=1 k=1,...,m y k f k (x) 9 Ausgleichsrechnung 9.1 Problemstelllung Eine Reihe von Experimenten soll durchgeführt werden unter bekannten Versuchsbedingungen z Ê m. Es sollen Größen x Ê n bestimmt werden, für die ein Gesetz gelten

Mehr

4.1. Vektorräume und lineare Abbildungen

4.1. Vektorräume und lineare Abbildungen 4.1. Vektorräume und lineare Abbildungen Mengen von Abbildungen Für beliebige Mengen X und Y bezeichnet Y X die Menge aller Abbildungen von X nach Y (Reihenfolge beachten!) Die Bezeichnungsweise erklärt

Mehr

13 Grenzwertsätze Das Gesetz der großen Zahlen

13 Grenzwertsätze Das Gesetz der großen Zahlen 13 Grenzwertsätze 13.1 Das Gesetz der großen Zahlen Der Erwartungswert einer zufälligen Variablen X ist in der Praxis meist nicht bekannt. Um ihn zu bestimmen, sammelt man Beobachtungen X 1,X 2,...,X n

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Streuungsparameter Varianz Var(X) bzw. σ 2 : [x i E(X)] 2 f(x i ), wenn X diskret Var(X)

Mehr

Lösung zu Serie 18. Lineare Algebra D-MATH, HS Prof. Richard Pink

Lösung zu Serie 18. Lineare Algebra D-MATH, HS Prof. Richard Pink Lineare Algebra D-MATH, HS 201 Prof. Richard Pink Lösung zu Serie 18 1. Sei V,, ein endlich-dimensionaler unitärer Vektorraum. Zeige, dass zu jeder Sesquilinearform f : V V C eine eindeutige lineare Abbildung

Mehr