LS-Schätzer. SSE(β) = (y µ) t (y µ) = y t y 2β t X t y + β t X t Xβ. Minimiere SSE(β) bzgl. β: Minimum definiert durch

Größe: px

Ab Seite anzeigen:

Download "LS-Schätzer. SSE(β) = (y µ) t (y µ) = y t y 2β t X t y + β t X t Xβ. Minimiere SSE(β) bzgl. β: Minimum definiert durch"

Kevin Bäcker
vor 5 Jahren
Abrufe

1 LS-Schätzer Sei µ = Xβ mit rg(x) = p und β = (β 1,..., β p ) t SSE(β) = (y µ) t (y µ) Minimiere SSE(β) bzgl. β: = y t y 2β t X t y + β t X t Xβ β SSE(β) = 2Xt y + 2X t Xβ. Minimum definiert durch X t X ˆβ = X t y. Falls X t X regulär (voller Rang p) ˆβ = (X t X) 1 X t y. Minimum (pos. semidefinit)? 2 β β tsse(β) = 2Xt X > 0. 1

2 Prognosevektor ˆµ = X ˆβ = X(X t X) 1 X t y = Hy mit der Hat Matrix H = X(X t X) 1 X t. H ist symmetrisch und idempotent, da HH t = X(X t X) 1 X t (X(X t X) 1 X t ) t = X(X t X) 1 X t = H. Residuen r = y ˆµ = y Hy = (I H)y. I H symmetrisch und idempotent, da (I H)(I H) t = I 2H + H = I H. 2

3 Da H (bzw. I H) symmetrisch und idempotent ist rg(h) = tr(h) (bzw. rg(i H) = tr(i H)) tr(h) = tr(x(x t X) 1 X t ) = tr(i p ) = p, Weiters ist tr(i H) = tr(i n ) tr(h) = n p. SSE( ˆβ) = r t r = y t (I H) t (I H)y = y t (I H)y. Sei A := I H und E(y) = µ, var(y) = σ 2 I E(SSE( ˆβ)) = E(y t Ay) ( = E (y µ) t A(y µ) ) +µ t Ay + y t Aµ µ t Aµ mit den Skalaren y t Aµ = µ t Ay (A symmetrisch), E(y t Aµ) = µ t Aµ. Somit Summe 2-er Skalare E(y t Ay) = E((y µ) t A(y µ)) + µ t Aµ. 3

4 Nun ist ( ) E((y µ) t A(y µ)) = tr E((y µ) t A(y µ)) ( ) = tr E(A(y µ)(y µ) t ) und = tr(aσ 2 I) = σ 2 tr(i H) = σ 2 (n p) µ t Aµ = (Xβ) t (I H)(Xβ) = β t X t Xβ β t X t X(X t X) 1 X t Xβ = 0. Daher Somit ist E(SSE( ˆβ)) = σ 2 (n p). 1 n p SSE( ˆβ) = 1 n p n (y i ˆµ i ) 2 ein unverzerrter Schätzer für σ 2. 4

5 Momente ˆβ = (X t X) 1 X t y, ˆµ = Hy, r = (I H)y. Falls E(y) = Xβ gilt: E( ˆβ) = (X t X) 1 X t E(y) = β, E(ˆµ) = HE(y) = Xβ = µ, E(r) = (I H)E(y) = Xβ HXβ = 0. Falls var(y) = σ 2 I gilt: var( ˆβ) = σ 2 (X t X) 1, var(ˆµ) = Hvar(y)H t = σ 2 H, var(r) = (I H)var(y)(I H) t = σ 2 (I H). 5

6 ANOVA-Zerlegung (yi ȳ) 2 }{{} SST = {(y i ˆµ i ) (ȳ ˆµ i )} 2 = (y i ˆµ i ) 2 }{{} SSE + (ȳ ˆµ i ) 2 }{{} SSR 2 (y i ˆµ i )(ȳ ˆµ i ). Nun ist bei Intercept-Modellen (yi }{{ ˆµ } i )(ȳ ˆµ i ) = ȳ ri ˆµ i r i r i = 0 (Hy) t (I H)y = y t Hy + y t Hy = 0. Daher gilt SST = SSE + SSR. Totale Variabilität (SST) = durch Modell nicht erklärte Variabilität (SSE) + durch Modell erklärte Variabilität (SSR). 6

7 Unabhängigkeit linearer Formen Sei y ein ZV mit E(y) = µ und Kovarianzmatrix Σ. Die Kovarianz 2-er linearer Formen u = a t y, v = b t y ist cov(u, v) = cov(a t y, b t y) = a t cov(y, y)b = a t var(y)b = a t Σb. Falls y N(µ, σ 2 I), ist cov( ˆβ, r) = σ 2 (X t X) 1 X t (I X(X t X) 1 X t ) = 0, womit die Unabhängigkeit von ˆβ mit r folgt. 7

8 Unabhängigkeit lin.-quadrat. Formen Sei y N(0, I). B sei eine feste q n Matrix und A eine feste symmetrische n n Matrix. By ist unabhängig von y t Ay, falls BA = 0. Mit SSE( ˆβ) = y t (I H)y und ˆβ = (X t X) 1 X t y folgt wegen (X t X) 1 X t (I H) = 0 die Unabhängigkeit von ˆβ und SSE( ˆβ). Wie ist SSE( ˆβ) verteilt? 8

9 Unabhängigkeit quadratischer Formen Satz von Cochran: Sei y N(0, I). Lässt sich die quadratische Form y t y als Summe von k quadratischen Formen y t A i y schreiben, wobei A i symmetrische Matrizen mit rg(a i ) = r i sind, also y t y = y t I n y = k y t A i y, dann ist k r i = rg(i n ) = n eine notwendige und hinreichende Bedingung für 1. y t A i y χ 2 r i 2. y t A i y sind unabhängig. Bemerkung: Falls y N(0, σ 2 I), dann betrachte y/σ und man erhält y t A i y/σ 2 χ 2 r i. 9

10 Verallgemeinerung: auf die Zerlegung von y t By möglich, d.h. läßt sich y t By mit rg(b) = r B und B idempotent schreiben als y t By = k y t A i y, dann ist k r i = rg(b) eine notwendige und hinreichende Bedingung für die Aussagen des Satzes von Cochran. Satz: Falls y N(µ, Σ), so ist 1. y t Ay nicht-zentral χ 2 -verteilt 2. mit Nichtzentralitätsparameter Ω = 1 2 µt Aµ 3. und Freiheitsgrad rg(a) dann und nur dann wenn AΣ idempotent. Bemerkung: Für eine χ 2 n-verteilung (µ = 0, Σ = I, A = I) ist Ω = 0 und AΣ = I idempotent. 10

11 Mit dem Einsvektor 1 lässt sich schreiben: SST = n (y i ȳ) 2 = (y ȳ1) t (y ȳ1) = (y 1 n 1t y1) t (y 1 n 1t y1) = (y t 1 n yt 11 t )(y 1 n 11t y) = y t (I 1 n 11t )(I 1 n 11t )y. Da I 1 n 11t symmetrisch und wegen 11 t 11 t = = n11 t folgt (I 1 n 11t )(I 1 n 11t ) = I 2 n 11t + 1 n 2n11t = I 1 n 11t, die Idempotenz der Zentriermatrix. Somit ist SST = y t (I 1 n 11t )y. 11

12 Weiters ist SSE( ˆβ) = y t (I H)y. Außerdem resultiert SSR( ˆβ) = n (ˆµ i ȳ) 2 = (ˆµ ȳ1) t (ˆµ ȳ1) = (y t H 1 n yt 11 t )(Hy 1 n 11t y) = y t (H 1 n 11t )(H 1 n 11t )y. Da H eine Projektionsmatrix auf den von den Spalten von X aufgespannten Raum ist, also 1 t H = 1 gilt, folgt die Idempotenz (H 1 n 11t )(H 1 n 11t ) = H 2 n 11t + 1 n 211t 11 t und damit = H 1 n 11t SSR( ˆβ) = y t (H 1 n 11t )y. 12

13 Ränge der ANOVA-Zerlegung SST = y t (I 1 n 11t )y = y t By rg(b) = tr(i) 1 n tr(11t ) = n 1. SSE( ˆβ) = y t (I H)y = y t A 1 y rg(a 1 ) = tr(i) tr(h) = n p. SSR( ˆβ) = y t (H 1 n 11t )y = y t A 2 y rg(a 2 ) = tr(h) 1 n tr(11t ) = p 1 n n = p 1. Also gilt: rg(b) = rg(a 1 ) + rg(a 2 ), woraus die Unabhängigkeit von SSE( ˆβ) und SSR( ˆβ) folgt. 13

14 Wie bereits gezeigt, ist für E(y) = µ, var(y) = Σ und A idempotent E(y t Ay) = tr(aσ) + µ t Aµ. Somit ist für E(y) = Xβ, var(y) = σ 2 I E(SSR( ˆβ)) = tr(σ 2 A 2 ) + β t X t A 2 Xβ = σ 2 (p 1) + β t X t (H 1 n 11t )Xβ. Für den zweiten Term (2Ω) folgt β t X t (H 1 n 11t )Xβ = β t X t (I 1 n 11t )Xβ. Nun gilt für Interceptmodelle 1 1 n 1 n... X t 1 n 1 1 n n 1 n 1 n 1 1 n X = x. xx. x. x xx x, wobei der mit x markierte Block Dimension (p 1) p hat. Daher ist Ω = 0 nur für β = (β 1, 0,..., 0) t. In diesem Fall ist SSR( ˆβ)/σ 2 χ 2 p 1. 14

15 Interessanterweise gilt jedoch für beliebiges β E(SSE( ˆβ)) = tr(σ 2 A 1 ) + β t X t A 1 Xβ = σ 2 (n p) + 0 und SSE( ˆβ)/σ 2 χ 2 n p. Unter H 0 : β 2 =... = β p = 0 ist deshalb SSR( ˆβ)/(p 1) SSE( ˆβ)/(n p) F p 1,n p. Anmerkung: Die Größe SSE( ˆβ)/(n p) ist erwartungstreuer Schätzer für σ 2 unter E(y i ) = x t i β. SSR( ˆβ)/(p 1) ist nur erwartungstreu, falls E(y i ) = β 1 für alle i = 1,..., n. 15

16 Likelihood-Ratio Test Sei β = (β 1, β 2 ) t Θ R p mit β 1 = (β 1,..., β q ) t und β 2 = (β q+1,..., β p ) t, q < p. Betrachtet wird die p q dimensionale Hypothese H 0 : β 2 = β 20 oder allgemeiner: H 0 bildet R p auf R q ab. L(β; y) sei die Likelihood Funktion der Stichprobe Nun gilt Λ = sup β H 0 L(β; y) sup β Θ L(β; y) λ = 2 log Λ χ 2 p q. Freiheitsgrade entsprechen der Anzahl der Parameter, die in H 0 fixiert sind. Für y N(Xβ, σ 2 I) (σ 2 fest) gilt log L(β; y) = n 2 log(2πσ2 ) 1 2σ 2 n (y i ˆµ i ) 2 16

17 Sei H 0 : β 2 = 0, X = (X 1 X 2 ), ˆβ MLE für das Modell E(y) = Xβ und ˆβ 1 MLE für das reduzierte Modell E(y) = X 1 β 1. Dann ist max β Θ L(β; y) = L( ˆβ; y) max L(β; y) = L( ˆβ 1 ; y) β H 0 Somit resultiert als Likelihood-Ratio Statistik ( λ = 2 log L( ˆβ 1 ; y) log L( ˆβ; ) y) = 1 ( n σ 2 (y i x t ˆβ i 1 ) 2 n (y i x t ˆβ) ) i = 1 σ 2(SSE( ˆβ 1 ) SSE( ˆβ)) = 1 σ 2(SSR( ˆβ) SSR( ˆβ 1 )) H 0 χ 2 p q. Merke: Die doppelte Log-Likelihood Differenz zweier nested models (Deviance-Reduktion)ist χ 2 -verteilt. 17

18 Falls σ 2 unbekannt, wird es basierend auf das saturierte Modell geschätzt und oben verwendet,z.b. durch SSE( ˆβ)/(n p). Für die LRT-Statistik ergibt sich (SSR( ˆβ) SSR( ˆβ 1 ))/(p q) SSE( ˆβ)/(n p) F p q,n p. Multiples Bestimmtheitsmaß Die multiple Korrelation zwischen y und X = (X 1... X p ) wird geschätzt durch R y,x mit R 2 y,x = R t y,xr 1 X,X R y,x, mit R y,x = (R y,x1,..., R y,xp ) t und der p p Matrix R X,X = (R Xi,X j ). Es gilt R y,x 1. Das multiple Bestimmtheitsmaß B y,x = SSR( ˆβ) SST = R 2 y,x beschreibt den Anteil der Variabilität in y, der durch das Modell erklärt ist. Es gilt 0 B y,x 1. 18

19 Wald-Test Test auf eine Komponente β j von β: H 0 : β j = β 0 j (= 0) Da ˆβ N(β, σ 2 (X t X) 1 ), ist Z = ˆβ j β 0 j σ x t i x i H 0 N(0, 1) Weiters sind S 2 = 1 n p (yi ˆµ i ) 2 und ˆβ unabhängig und Daher gilt V = n p σ 2 S2 = 1 σ 2SSE( ˆβ) χ 2 n p. T = Z = ˆβ j x t i V/(n p) S x i H 0 t n p. Daher T 2 H 0 F 1,n p. 19

Ähnliche Dokumente

5 Allgemeine Verfahren zum Testen von Hypothesen

5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ).