5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ). Die Verteilung von X hängt von einem Parametervektor θ ab, dessen wahrer Wert unbekannt ist. Problem: Schätze θ 1. Schritt: Berechnen der Likelihoodfunktion L(θ) Stetige Verteilung mit multivariater Dichtefunktion f( x) f( x θ): L(θ) L(x 1,..., x n θ) = f(x 1 θ) f(x 2 θ) f(x n θ) Log-Likelihoodfunktion: ln L(θ) = n ln f(x i θ) 2. Schritt: Maximieren von ln L(θ) Maximum Likelihood Schätzung ˆθ 51
Beispiel 1: X 1,..., X n Zufallsstichprobe mit X N d (µ, Σ). Zu schätzen ist θ = (µ, Σ) Dann gilt L(µ, Σ) = 2πΣ n/2 exp( 1 2 ln L(µ, Σ) = n 2 ln 2πΣ 1 2 n n ( X i µ) T Σ 1 (X i µ)) ( X i µ) T Σ 1 (X i µ) Mit S := n 1 n S = n 1 n n (X i X)(X i X) T lässt sich die Log-Likelihoodfunktion in folgende Form umschreiben: ln L(µ, Σ) = n 2 ln 2πΣ n 2 spur(σ 1 S) n 2 ( X µ) T Σ 1 ( X µ) Resultierende Maximum Likelihood Schätzer: ˆµ = X, ˆΣ = S 52
Beispiel 2: Regression unter der Annahme multivariater Normalität Regressionsmodell mit normalverteilten Fehlertermen ɛ i N(0, σ 2 ): Y i = β 0 + p β j X ij + ɛ i j=1 Y i N(β 0 + p β j X ij, σ 2 ) j=1 Log-Likelihoodfunktion: ln L(β, σ 2 ) = n 2 ln(2πσ2 ) 1 2 n (Y i β 0 p j=1 β jx ij ) 2 σ 2 ˆβ maximiert die Likelihoodfunktion genau dann, wenn ˆβ die Summe der Quadrate n (Y i β 0 p j=1 β jx ij ) 2 minimiert. Der Kleinste-Quadrate Schätzer ˆβ = ( ˆβ 0,..., ˆβ p ) T der Maximum Likelihood Schätzer von β. ist auch 53
Inferenz für Likelihood Schätzer Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ). Die Verteilung von X hängt von einem Parametervektor θ = (θ 1,....θ k ) ab, dessen wahrer Wert unbekannt ist. Man beachte, dass die Likelihoodfunktion L(θ) von den Daten abhängt, L(θ) L(θ X 1,..., X n ), und daher selbst zufällig ist. Score Funktion: l(θ) = θ ln L(θ) Die Score Funktion hängt wiederum von den Daten ab, l(θ) l(θ X 1,..., X n ) Fisher Informations Matrix: J(θ) = E ( l(θ)l(θ) T ) = COV (l(θ)) Beispiel: X N(µ, σ 2 I), σ 2 bekannt l(µ) = µ = 1 2σ 2 ln L(µ) µ = n σ 2 ( X µ) n (X i µ) T (X i µ) J(µ) = n2 σ 4 COV ( X µ) = n σ 2 I 54
Man betrachte nun die Dierenz ˆθ θ zwischen dem Maximum Likelihood Schätzer und dem wahren Wert des Parametervektors. Unter einigen Regularitätsbedingungen gilt für groÿe Stichprobengröÿe n approximativ ˆθ θ N(0, J(θ) 1 ) Resultat von Cramer Rao: Für jeden alternativen Schätzer θ von θ gilt COV ( θ) J(θ) 1, d.h. die Matrix COV ( θ) J(θ) 1 ist positiv semidenit. Dies bedeutet insbesondere, dass für die Schätzer der einzelnen Komponenten des Parametervektors gilt. var( θ j ) (J(θ) 1 ) jj var(ˆθ j ), j = 1,..., k, J(θ) 1 lässt sich durch J(ˆθ) 1 konsistent schätzen Approximatives 1 α Kondenzintervall für θ j : ˆθ j ± z 1 α/2 (J(θ) 1 ) jj 55
Beispiel: X N(µ, σ 2 I), σ 2 bekannt. Dann gilt J(θ) 1 = σ2 n I Kondenzintervall: Xj ± z 1 α/2 σ n Beispiel 2: Regression (Fehlervarianz σ 2 bekannt) l(β) = ln L(µ) β = 1 n p 2σ 2 (Y i β 0 β j X ij ) 2 β j=1 1 = 1 n Xi1 p σ 2 (Y i β 0 β j X ij ). j=1 J(β) = 1 σ 2 X ip 1 = 1 n Xi1 σ 2. n X ip ɛ i 1 Xi1 (1, X i1,..., X ip ) = 1. σ 2 XT X X ip und J(β) 1 = σ 2 (X T X) 1. 56
5.2 Der Likelihood-Quotienten Test Der Likelihood Ansatz liefert ein allgemeines Verfahren zur Konstruktion von Parameterschätzern. Er lässt sich jedoch ebenfalls in allgemeiner Weise zum Testen von Hypothesen verwenden. Dies führt auf die sogenannten Likelihood-Quotienten Tests. Verteilung einer Stichprobe {X i },...,n hängt von einem Parametervektor θ ab L(θ) Likelihood Funktion Testproblem: H 0 : θ Ω 0, wobei Ω 0 q 0 -dimensionaler Raum; es sind q 0 unbekannte Parameterwerte zu schätzen gegen H 1 : θ Ω 1, wobei Ω 1 q 1 -dimensionaler Raum, q 1 > q 0 ; es sind q 1 > q 0 unbekannte Paramterwerte zu schätzen Beispiel: X 1,..., X n i.i.d., X i N(µ, σ 2 ), σ 2 bekannt H 0 : µ {µ 0 } q 0 = 0, es ist kein unbekannter Parameter zu schätzen H 1 : µ µ 0 q 1 = 1, ein unbekannter Paramter 57
ˆθ 0 maximiere L(θ) über alle θ Ω 0 ˆθ 1 maximiere L(θ) über alle θ Ω 1 Teststatistik (Likelihood-Quotienten Test): ( ) L(ˆθ 0 ) T = 2 ln L(ˆθ 1 ) Resultat der mathematischen Statistik: n groÿ, H 0 wahr: T χ 2 q 1 q 0 Ablehung von H 0, falls T χ 2 q 1 q 0 ;1 α klein) (bzw. p-wert zu Beispiel: X i N(µ, σ 2 ), σ 2 bekannt Unter H 0 : µ {µ 0 }: ˆµ 0 = µ 0 Unter H 1 : µ IR\{µ 0 }: ˆµ = X T = 2 ln L(µ 0 ) + 2 ln L( X) = n( X µ 0 ) 2 Unter H 0 : T χ 2 1 σ 2 58
Anmerkungen: In dem angebenen Beispiel ist der Likelihood- Quotient unter H 0 auch für kleinen Stichproben- umfang n exakt χ 2 -verteilt. Im Allgemeinen beruht der Likelihood-Quotienten Test jedoch auf einer asymptotischen Approximation (n groÿ) der Verteilung der Teststatistik. In manchen Anwendung gibt es nit exakte Teststatistiken, die asymptotisch mit einem Likelihood-Quotienten Test übereinstimmen. Auch in komplexen Situationen lässt sich der Likelihood- Quotient mit Hilfe von numerischen Verfahren aus den Daten berechnen. Ein wesentlicher Punkt ist eine korrekte Bestimmung der Freiheitsgrade q 1 q 0 der χ 2 -Verteilung. Die jeweiligen Werte q 0, q 1 beziehen sich auf die Anzahl der eektiv zu schätzenden Parameter, d.h. auf die Dimension der Räume Ω 0 und Ω 1. Beispiel: Zwei unbekannte Parameter θ = (θ 1, θ 2 ) unter H 0, Nebenbedingung θ 1 + θ 2 = 1. Ω 0 ist dann der eindimensionale Raum aller θ = (θ 1, θ 2 ) mit θ 1 + θ 2 = 1. Eektiv ist nur ein einziger Parameter zu schätzen, denn bei gegebenem θ 1 erhält man θ 2 aus θ 2 = 1 θ 1. Es gilt dann q 0 = 1 59
Beispiel 1: Inferenz für den Mittelwert einer multivariaten Normalverteilung Zufallsstichprobe: X 1,..., X n unabhängig und identisch verteilt, X i N d (µ, Σ) Testproblem: H 0 : µ = µ 0 gegen H 1 : µ µ 0 1) Σ bekannt: Likelihood-Quotienten Test Ω 0 = {µ 0 } ˆµ 0 = µ 0, q 0 = 0 Ω 1 = IR d ˆµ 1 = X, q 1 = d Likelihood-Quotient ( ) L(ˆµ0 ) T = 2 ln L(ˆµ 1 ) = n( X µ 0 ) T Σ 1 ( X µ 0 ) unter H 0 : T χ 2 d (dies gilt auch für kleinen Stichprobenumfang n) Ablehnung von H 0, falls T χ 2 d;1 α 510
Beispiel 2: Regression Full Model: Y i = β 0 + β 1 X i1 +... + β p X ip + ɛ i Ŷ F i = ˆβ 0 + β 1 X i1 +... + ˆβ p X ip Reduced Model: Y i = β 0 + β 1 X i1 +... + β q X iq + ɛ i, q < p Ŷ R i = ˆβ 0 + β 1X i1 +... + ˆβ q X iq Sei σ 2 = var(ɛ i ) bekannt. Man erhält dann ( L( T = 2 ln ˆβ ) ) L( ˆβ) = 1 n σ 2 (Y i Ŷ i R ) 2 1 n σ 2 (Y i Ŷ i F ) 2 = 1 σ 2 n (Y F i Ŷ R i ) 2 Unter H 0 : β q+1 =... = β p = 0 gilt approximativ T χ 2 p q Zur Erinnerung: Unter H 0 F = mit ˆσ 2 = 1 n p 1 n (Y F i Ŷ R i ) 2 /(p q) ˆσ 2 n (Y i Ŷ F i ) 2 F p q,n p 1 n groÿ: Es lässt sich zeigen, dass ˆσ 2 σ 2 sowie (approximativ) (p q) F χ 2 p q 511
5.3 Hotellings T 2 Hotellings T 2 Statistik wird zum Testen von Hypothesen bezüglich des Vektors der Mittelwerte einer multivariaten Normalverteilung verwendet. Asymptotisch (n groÿ) sind die resultierenden Testverfahren äquivalent zu einem Likelihood- Quotienten Test. Hotellings T 2 erlaubt jedoch auch bei kleinen Stichprobengröÿen eine exakte Berechnung von kritischen Werten. Seien X 1,..., X n i.i.d, X i N d (µ, Σ) und S = 1 n 1 i (X i X)(X i X) T. Dann gilt T 2 H = n( X µ) T S 1 ( X µ) T 2 (d, n 1), wobei T 2 (d, n 1) Hotellings T 2 -Verteilung mit d und n 1 Freiheitsgraden bezeichnet. Kritische Werte lassen sich mit Hilfe der Beziehung berechnen Spezialfall d = 1: TH 2 i (X i X) 2 1 n 1 n d (n 1)d T 2 H = F d,n d = n( X µ) 2 S 2 T (1, n 1), S 2 = Man beachte, dass n( X µ) S t n 1, und dass das Quadrat einer t n 1 -verteilten Variablen eine F -Verteilung mit 1 und n-1 Freiheitsgraden besitzt. Hotellings T 2.Verteilung kann also als Verallgemeinerung der t-verteilung angesehen werden Hypothesentest: H 0 : µ = µ 0 gegen H 1 : µ µ 0 512
Teststatistik: T 2 = n d (n 1)d n( X µ 0 ) T S 1 ( X µ 0 ) Unter H 0 : T 2 F d,n d Ablehnung von H 0, falls T 2 F d,n d;1 α Beispiel: Schweizer Banknoten Datensatz von 200 Schweizer Banknoten. 100 davon sind echt, 100 Banknoten sind gefälscht. d = 6 dimensionaler Beobachtungsvektor: X 1 - Länge der Banknote X 2 - Höhe der Banknote (links) X 3 - Höhe der Banknote (rechts) X 4 - Abstand des inneren Rahmens von der Unterkante X 5 - Abstand des inneren Rahmens von der Oberkante X 6 - Länge der Bilddiagonale bekannter wahrer Mittelwert der echten Banknoten µ 0 = (214.9, 129.9, 129.7, 8.3, 10.1, 141.5) T geschätzter Mittelwert der gefälschten Banknoten X = (214.8, 130.3, 130.2, 10.5, 11.1, 139.4) T Empirische Kovarianzmatrix 513
0.14 0.03 0.02 0.10 0.01 0.08 0.03 0.12 0.10 0.21 0.10 0.21 S = 0.02 0.10 0.16 0.28 0.12 0.24 0.10 0.21 0.28 2.07 0.16 1.03 0.01 0.10 0.12 0.16 0.64 0.54 0.08 0.21 0.24 1.03 0.54 1.32 T 2 H = n( X µ 0 ) T S 1 ( X µ 0 ) = 7362.3 T 2 = n d (n 1)d T H 2 = 100 6 99 6 7362.3 = 1165.1 > F 6,94,0.999 = 4.04 514
Konstruktion von simultanen Kondenzintervallen für µ: Resultat der linearen Algebra: Für jede symmetrische d s Matrix A und jeden Vektor c IR d gilt c T Ac λ 1 c T c, wobei λ 1 der gröÿte Eigenwert von A ist. Man beachte: Ist A 0, so gilt λ 1 spur(a). Anwendung: Für jeden Vektor a IR d, a 0 erhält man mit c := S 1/2 a (a T ( X µ)) 2 a T Sa = (ct S 1/2 ( X µ)) 2 c T c = ct S 1/2 ( X µ)( X µ) T S 1/2 c c T c spur(s 1/2 ( X µ)( X µ) T S 1/2 ) = ( X µ) T S 1 ( X µ) Sei K α : (n 1)d n(n d) F d,n d;1 α. Hieraus folgt, dass für alle α > 0 1 α = P [ ( X µ) T S 1 ( X ] µ) K α [ (a T ( P X µ)) 2 a T Sa ] K α für alle a IR d, a 0 515
Bezeichnen a 1 = (1, 0,..., 0) T,..., a d = (0, 0,..., 1) T die d verschiedenen Einheitsvektoren, so gilt insbesondere P [ (a T i ( X µ)) 2 s 2 i K α für alle i = 1,..., d ] 1 α, wobei s 2 i = at i Sa i = 1 n 1 j (X ij X i ) 2 Simultane Kondenzintervalle für µ i, i = 1,..., d: µ i = X i ± s i Kα Beispiel: Simultane Kondenzintervalle für die Mittelwerte der gefälschten Banknoten: 214.692 µ 1 214.954 130.206 µ 2 130.395 130.082 µ 3 130.304 10.108 µ 4 10.952 10.896 µ 5 11.370 139.242 µ 6 139.658 516
5.4 Inferenz für lineare Hypothesen Seien X 1,..., X n i.i.d, X i N d (µ, Σ) und S = 1 n 1 i (X i X)(X i X) T. Man betrachte nun eine lineare Transformation Y = CX für eine q d-matrix C (q d). Die Matrix CΣC T sei invertierbar. Es gilt Y = CX N q (Cµ, CΣC T ) und Man erhält dann n(c X Cµ) T (CΣC T ) 1 (C X Cµ) χ 2 q n q (n 1)q n(c X Cµ) T (CSC T ) 1 (C X Cµ) }{{} T 2 (q,n 1) F q,n q Anwendung: Multivariates Verfahren der Varianzanalyse mit Messwiederholungen Messungen der Reaktionen eines Individuums (Versuchseinheit) auf jede von i = 1,..., c verschiedenen Stufen eines Faktors n zufällig ausgewählte Individuen Beobachtungen Y ij, i = 1,..., c Faktorstufen; j = 1,..., n Individuen Für jedes Individuum wird Y j = (Y 1j, Y 2j,..., Y cj ) als Vektor von Beobachtungen aufgefasst, Y j N c (µ, Σ), µ = (µ 1,..., µ c ) T 517
Nullhypothese (kein Eekt der Faktorstufen): H 0 : µ 1 = µ 2 = = µ c Die Nullhypothese lässt sich umschreiben in die Form: H 0 : Cµ = 0 für die (c 1) c Matrix 1 1 0 0... 0 0 0 1 1 0... 0 0 C :=...... 0 0 0 0... 1 1 Teststatistik: F = n(n c + 1) (n 1)(c 1) (CȲ Cµ)T (CSC T ) 1 (CȲ Cµ) mit Ȳ = 1 n Y j und S := 1 n 1 n j=1 (Y j Ȳ )(Y j Ȳ )T. Unter H 0 : F F c 1,n c+1 Ablehnung, falls F beob zu groÿ 518
Beispiel: Für n = 40 zufällig ausgewählte Kinder wurde jeweils das Vokabular in c = 4 aufeinanderfolgenden Schuljahren mit Hilfe eines Tests überprüft (Klassen 8-11) Beobachtungen: Y j = (Y 1j,..., Y 4j ) T, j = 1,..., n Nullhypothese: µ 1 =..., µ 4 bzw. 1 1 0 0 H 0 : Cµ = 0, C := 0 1 1 0 0 0 1 1 Es ergab sich: Ablehnung von H 0. Ȳ = (1.086; 2.544; 2.851; 3.420) 2.902 2.438 3.049 S = 2.963 2.775 4.281 2.183 2.319 2.939 3.162 F beob = 54.496 > 26.5 = F 3,37;0.99 Simultane 95% Kondenzintervalle: 1.96 µ 1 µ 2 0.96 0.95 µ 2 µ 3 0.335 1.17 µ 3 µ 4 0.036 519