Klassische Schätz- und Testtheorie

Größe: px
Ab Seite anzeigen:

Download "Klassische Schätz- und Testtheorie"

Transkript

1 Kapitel 2 Klassische Schätz- und Testtheorie Grundmodell: Die Stichprobe X = (X 1,..., X n ) besitzt die Verteilung P P = {P θ : θ Θ}, Θ R k, wobei θ: k-dimensionaler Parameter Θ: Parameterraum k < n, oft k n, mit dim(θ) = k fest für asymptotische (n )-Betrachtungen. In der Regel vorausgesetzt: Es existiert Dichte f(x θ) = f(x 1,,..., x n θ) zu P θ, so dass man analog schreiben kann: P = {f(x θ) : θ Θ}. Klassische Schätz- und Testtheorie für finite (d.h. für festen Stichprobenumfang n) i.i.d.-stichprobe von besonderer Relevanz; es gilt: f(x θ) = f(x 1 θ)... f(x n θ). Viele Begriffe, insbesondere der Schätztheorie, jedoch von genereller Bedeutung. Literatur: Lehmann & Casella (1998), Lehmann & Romano (2005), Rüger (1999, 2002) Band I+II Definition 2.1 (Statistik). Eine Statistik ist eine messbare Funktion { X R l T : x T (x). Normalerweise ist l < n, da mit der Statistik T eine Dimensionsreduktion erzielt werden soll. 19

2 Beispiel 2.1. T (x) Schätzfunktion T (x) Teststatistik T (x) = l(θ; x) Log-Likelihoodfunktion 2.1 Klassische Schätztheorie Gesucht: Punkt- oder Bereichsschätzung für θ oder einen transformierten Parametervektor τ(θ). Beispiel 2.2. X 1,..., X n i.i.d. N(µ, σ 2 ) mit θ = (µ, σ 2 ). Hier könnte τ(θ) = µ sein (d.h. σ 2 ist Nuisance-Parameter) oder τ(θ) = 1/σ 2 (d.h. die Präzision ist von Interesse). Definition 2.2 (Punktschätzung, Schätzer, Schätzfunktion). Sei { X Θ R k T : x T (x) eine messbare Abbildung. Man bezeichnet mit T (x) den Schätzwert oder die Punktschätzung (zu konkreter Realisation x) und mit T (X) den Punktschätzer von θ, der eine Zufallsvariable ist (auch gebräuchlich: θ(x) oder kurz θ, d.h. notationell wird nicht zwischen Schätzwert und Schätzfunktion unterschieden) Suffizienz Der Begriff der Suffizienz ist von grundlegender Bedeutung in der klassischen parametrischen Inferenz; darüber hinaus ist die Bedeutung (stark) abgeschwächt, vgl. auch Statistik IV. Definition 2.3. Eine Statistik T heißt suffizient für θ (oder auch für P) def die bedingte Verteilung bzw. Dichte von X gegeben T (x) = t ist für alle Werte von T (x) = t von θ unabhängig, d.h. f X T (x T (x) = t, θ) = f X T (x T (x) = t) hängt nicht von θ ab. Idee: Zusätzliche Information in X, die nicht in T enthalten ist, ist durch f X T gegeben. Falls f X T von θ unabhängig ist, dann enthält die Stichprobe x nicht mehr Information über θ als T (x). Folgender Satz ist äquivalent und konstruktiv: Satz 2.4 (Faktorisierungssatz, Neyman-Kriterium). Eine Statistik T ist suffizient für θ genau dann wenn f(x θ) = h(x)g(t (x) θ) für fast alle x, d.h. die Dichte lässt sich in zwei Teile faktorisieren, von denen ein Teil von x, aber nicht von θ, und der andere nur von θ und T (x) abhängt. 20

3 Beweis. : Falls T suffizient ist, gilt: f X T (x T (x) = t, θ) = f X,T (x, t θ) f T θ (t θ). Weiterhin ist d.h. f X,T (x, t θ) = { f X θ (x θ) 0 sonst, für T (x) = t f X T (x t) f T θ (t θ) = f X θ (x θ). }{{}}{{} h(x) g(t (x) θ) : Man erhält die Dichte von T, ausgewertet an t, indem man im obigen Faktorisierungskriterium über die x, für die T (x) = t gilt, summiert (bzw. integriert). Im diskreten Fall also: f T θ (t θ) = h(x)g(t (x) θ) = g(t θ) h(x). x:t (x)=t Damit ist die bedingte Dichte von X gegeben T = t, f X θ (x θ) f T θ (t θ) = h(x)g(t (x) θ) x:t (x)=t h(x)g(t θ) = x:t (x)=t h(x) x:t (x)=t h(x), unabhängig von θ. Im stetigen Fall werden Summen durch Integrale ersetzt; im Detail werden Messbarkeitsbedingungen verwendet. i.i.d. Beispiel 2.3 (Bernoulli-Experiment). Seien X 1,..., X n Bin(1, π) und Z = n X i die Anzahl der Erfolge. Dann ist Z suffizient für π, denn f X Z (x z, π) = P π (X = x Z = z) n = πx i (1 π) 1 x i ( n z) π z (1 π) n z, wobei = ( ) n 1 z ist unabhängig von π. Gemäß Faktorisierungssatz ist f(x π) = ( 1 ( ) n n π z) z (1 π) n z }{{} =h(x) z } {{ } =g(z π) = 1 }{{} =h (x) x i = z π z (1 π) n z. }{{} =g (z π) i.i.d. Beispiel 2.4 (Normalverteilung). Sei X = (X 1,..., X n ) mit X i N(µ, σ 2 ) und θ = (µ, σ 2 ). ( ) ( ) 1 n f X θ (x θ) = exp 1 2πσ 2σ 2 (x i µ) 2 ( ( )) = (2π) n/2 (σ 2 ) n/2 exp 1 }{{} 2σ 2 x 2 i 2µ x i + nµ 2, h(x) }{{} 21 g(( n x i, n x2 i ) θ)

4 d.h. T (x) = ( n x i, n x2 i ) ist suffizient für θ = (µ, σ 2 ). Aber: Die bijektive Transformation T (x) = ( x, s 2 ) ist auch suffizient für θ, wobei s 2 die Stichprobenvarianz bezeichnet. Beispiel 2.5 (Exponentialverteilung). Sei X = (X 1,..., X n ) i.i.d. Exp(λ), dann ( ) n f(x λ) = f(x i λ) = 1 λ n exp λ x i }{{} h(x) mit T (x) = n x i. Nach der ursprünglichen Definition ist f X,T λ (x, t λ) = f T λ (t λ) λ n exp ( λ n x i) λ n Γ(n) ( n x i) n 1 exp ( λ n } {{ } g(t (x) λ) x i) = Γ(n) ( n x i) n 1. Dabei wird benutzt, dass die Summe von n unabhängigen und identisch exponentialverteilten Zufallsvariablen mit Parameter λ gammaverteilt ist mit Parametern n und λ. Beispiel 2.6 (Order-Statistik). Sei X 1,..., X n i.i.d. f(x θ) (wobei f stetige Dichte ist) und T (x) = x ( ) = (x (1),..., x (n) ) die Order-Statistik. Dann gilt f X T,θ (x T = x ( ), θ) = 1 n!. Die Gleichheit folgt aus der Stetigkeit, denn x i x j i j (mit Wahrscheinlichkeit 1). x ( ) ist suffizient für θ. Wir haben also bei i.i.d.-beobachtungen keinen Informationsverlust durch Ordnen der Daten. Bemerkung. Offensichtlich ist T (x) = x, d.h. die Stichprobe selbst, suffizient. Ebenso ist jede eineindeutige Transformation von x oder von einer suffizienten Statistik T (x) suffizient. Ist T suffizient, dann auch (T, T ), wobei T eine beliebige weitere Statistik darstellt. Dies zeigt: Die Dimension einer suffizienten Statistik sollte soweit wie möglich reduziert werden. Definition 2.5 (Minimalsuffizienz). Eine Statistik T heißt minimalsuffizient für θ def T ist suffizient, und zu jeder anderen suffizienten Statistik V existiert eine Funktion H mit T (x) = H(V (x)) P fast überall. Frage: Existieren minimalsuffiziente Statistiken? Wenn ja, sind sie eindeutig? Beispiel 2.7 (Normalverteilung). 1. T (x) = x ist minimalsuffizient für µ bei bekanntem σ T (x) = n (x i µ) 2 ist minimalsuffizient für σ 2 bei bekanntem µ. 22

5 3. T (x) = ( n x i, n x2 i ) ist minimalsuffizient für µ und σ 2. Lemma 2.6. Sind T und S minimalsuffiziente Statistiken, dann existieren injektive Funktionen g 1, g 2, so dass T = g 1 (S) und S = g 2 (T ). Satz 2.7 (Charakterisierung von Minimalsuffizienz durch Likelihood-Quotienten). Definiere den Likelihood-Quotienten Λ x (θ 1, θ 2 ) = f(x θ 1) f(x θ 2 ). Eine notwendige und hinreichende Bedingung für die Minimalsuffizienz einer Statistik T für θ ist, dass für alle θ 1 und θ 2 gilt: T (x) = T (x ) Λ x (θ 1, θ 2 ) = Λ x (θ 1, θ 2 ). Beispiel 2.8 (Suffizienz in Exponentialfamilien). Die Dichte einer k-parametrischen Exponentialfamilie hat die Form f(x θ) = h(x) c(θ) exp(γ 1 (θ)t 1 (x) γ k (θ)t k (x)) = h(x) exp(b(θ) + γ(θ) T (x)), d.h. T (x) = (T 1 (x),..., T k (x)) ist suffizient für θ nach Faktorisierungssatz. Falls Θ ein offenes Rechteck in R k enthält, ist T auch minimalsuffizient. Es folgt nun die Charakterisierung der Minimalsuffizienz nach Lehmann-Scheffé. Dazu wird der Begriff der Vollständigkeit benötigt. Definition 2.8. Eine Statistik T ist vollständig def für jede reelle Funktion g gilt: E θ [g(t )] = 0 θ P θ (g(t ) = 0) = 1 θ. Aus der Definiton wird nicht unmittelbar klar, warum Vollständigkeit eine wünschenswerte Eigenschaft eines Schätzers sein sollte. Einen möglichen Grund liefert der folgende Satz. Satz 2.9 (Lehmann-Scheffé). Angenommen, X besitzt eine Dichte f(x θ) und T (X) ist suffizient und vollständig für θ. Dann ist T (x) minimalsuffizient für θ. Bemerkung (Ancillarity-Statistik). Eine Statistik V (X) heißt ancillary ( Hilfsstatistik ) für P, wenn ihre Verteilung nicht von θ abhängt (also bekannt ist). Häufiger Sachverhalt: T = (U, V ) ist suffizient für θ, V ancillary, U nicht suffizient. Beispiel 2.9. X 1,..., X n i.i.d. U [ θ 1 2, θ + 1 2]. Man kann dann zeigen (Davison, 2004), dass mit U = 1 2 (X (1) + X (n) ) V = X (n) X (1) T = (U, V ) suffizient, aber nicht vollständig für θ ist. Ferner ist U alleine nicht suffizient und V ancillary. 23

6 2.1.2 Erwartungstreue, Varianz und MSE Fehler eines Schätzers θ = θ(x) ist θ θ. Messung des Fehlers durch Verlustfunktion, zum Beispiel L( θ, θ) = θ θ L( θ, θ) = θ θ 2 L( θ, θ) = θ θ 2 θ 2 L( θ, θ) = ( θ θ) D( θ θ) Abstand (θ skalar), quadratischer Fehler, relativer quadratischer Fehler, gewichteter quadratischer Fehler (D positiv definit). Risikofunktion R( θ, θ) = E θ [L( θ, θ)]. Hier wird (hauptsächlich) quadratischer Verlust betrachtet. Definition 2.10 (Erwartungstreue, Bias, Varianz eines Schätzers). θ heißt erwartungstreu def E θ [ θ] = θ. Bias θ ( θ) = E θ [ θ] θ. Var θ ( θ) = E θ [( θ E θ [ θ]) 2 ], θ skalar. Definition 2.11 (MSE). Der mittlere quadratische Fehler (mean squared error) ist definiert als MSE θ ( θ) = E θ [( θ θ) 2 ] = Var θ ( θ) + (Bias θ ( θ)) 2. Der Gesamtfehler lässt sich also aufteilen in einen zufälligen Fehler (Varianz) und einen systematischen (quadrierter Bias). Vergleicht man zwei Schätzer bezüglich ihres MSE, kann für einen Teilbereich von Θ der MSE des einen, für andere Teilbereiche der MSE des zweiten Schätzers kleiner sein: Beispiel X 1,..., X n i.i.d. B(1, π). 1. MSE von π = X: E π [( X π) 2 ] = Var π ( X) = π(1 π). n 2. MSE des Bayes-Schätzers (Posteriori-Erwartungswert) bei einer Priori p(π) Be(α, β): π B = Y + α α + β + n, Y = ( Y + α MSE( π B ) = Var π α + β + n = nπ(1 π) (α + β + n) ) ( + X i, [ ]) Y + α 2 E π α + β + n π ) 2. ( nπ + α α + β + n π

7 Für α = β = n/4 ergibt sich MSE π ( π B ) = E π [( π B π) 2 ] = 1 n 4 (n + = const bezüglich π. n) 2 Fazit: In der Regel wird man keinen MSE-optimalen Schätzer θ opt finden in dem Sinne, dass MSE θ ( θ opt ) MSE θ ( θ) für alle θ und alle konkurrierenden θ. Bei Einschränkung auf erwartungstreue Schätzer ist dies öfter möglich. Deshalb die Forderung: Definition 2.12 (zulässiger ( admissible ) Schätzer). Ein Schätzer θ heißt zulässig def es gibt keinen Schätzer θ mit MSE θ ( θ) MSE θ ( θ) für alle θ und MSE θ ( θ) < MSE θ ( θ) für mindestens ein θ, d.h. es gibt keinen Schätzer θ, der ˆθ gleichmäßig/strikt dominiert. Definition 2.13 (Verallgemeinerungen des MSE auf θ R p, p > 1). zwei Alternativen: Üblich sind die folgenden 1. MSE (skalar): MSE (1) θ ( θ) = E θ [ θ θ 2 ] = p E θ [( θ j θ j ) 2 ] = j=1 p MSE θ ( θ j ) j=1 2. MSE-Matrix: MSE (2) θ ( θ) = E θ [( θ θ)( θ θ) ] = Cov θ ( θ) + (E θ [ θ] θ)(e θ [ θ] θ) Diese Variante wird häufig bei linearen Modellen betrachtet. 25

8 Bemerkung. Das j-te Diagonalelement der MSE-Matrix ist MSE θ ( θ j ). Vergleich von MSE- Matrizen gemäß Löwner -Ordnung: MSE θ ( θ) ( ) < MSE θ ( θ) bedeutet, dass die Differenz MSE θ ( θ) MSE θ ( θ) positiv (semi-)definit ist. Man definiert allgemein für geeignete Matrizen A, B: A B A < B def def B A ist positiv semidefinit, B A ist positiv definit. Beispiel 2.11 (Gauß-Experiment). Seien X 1,..., X n i.i.d. N(µ, σ 2 ). σ 2 bekannt, µ unbekannt: MSE-Vergleich von X und T = b X + a. σ 2 unbekannt, µ bekannt: Eine Möglichkeit: Weitere Möglichkeit: S 2 µ = 1 n (X i µ) 2, E σ 2(Sµ) 2 = σ 2 V 2 µ = 1 n + 2 (X i µ) 2, E σ 2(V 2 µ ) = n n + 2 σ2 Es stellt sich heraus, dass MSE σ 2(V 2 µ ) < MSE σ 2(S 2 µ) ist. µ und σ 2 unbekannt: Eine Möglichkeit: Weitere Möglichkeit: d.h. V 2 dominiert S 2. Der sogenannte Stein-Schätzer S 2 = 1 n 1 (X i X) 2, E σ 2(S 2 ) = σ 2, MSE σ 2(S 2 ) = Var σ 2(S 2 ) = 2 n 1 σ4. V 2 = 1 n + 1 (X i X) 2, E σ 2(V 2 ) = n 1 n + 1 σ2, MSE σ 2(V 2 ) = 2 n + 1 σ4, T = min { 26 V 2, 1 n + 2 X 2 i }

9 dominiert V 2 (und damit S 2 ). Plausibilitätsbetrachtung: Ist µ = 0, so ist n X2 i /(n+2) besserer Schätzer als V 2. Ist µ 0, so ist V 2 ein besserer Schätzer als n X2 i /(n + 2). Beim Stein-Schätzer wird fallweise mit hoher Wahrscheinlichkeit der jeweils bessere Schätzer benutzt. Beispiel 2.12 (Stein s Paradoxon). Seien (X 1,..., X m ) N m (µ, C) multivariat normalverteilt mit µ = (µ 1,..., µ m ), C = diag(σ 2 1,..., σ2 m). Es sollen simultan die Erwartungswerte µ 1,..., µ m geschätzt werden. Man beachte dabei, dass die einzelnen Komponenten als unabhängig angenommen werden. Die Stichprobe hat die Form X 11,..., X 1n1,..., X m1,..., X mnm (i.i.d. Stichproben aus Gruppen 1,..., m). Übliche Schätzer: Der (skalare) MSE ist: Paradoxerweise gilt: T j = X j, j = 1,..., m, T = (T 1,..., T m ) = ( X 1,..., X m ). 1. Für m 2 ist T zulässig. E µ [ T µ 2 ] = m E µ [( X j µ j ) 2 ] = j=1 m j=1 σ 2 j n j. 2. Für m 3 ist T nicht zulässig und wird dominiert durch den Stein-Schätzer ( T = 1 m 2 ) ( ) T T = 1 m 2 T m X j=1 j 2 T. Dieses Ergebnis ist unabhängig von den Stichprobenumfängen n 1,..., n m in den Gruppen. Es lässt sich zeigen: T ist Minimax-Schätzer, aber selbst unzulässig. Der Stein-Schätzer ist ein sogenannter Shrinkage-Schätzer. Beispiel 2.13 (Lineares Modell). y = Xβ + ε, ε (N)(0, σ 2 I) KQ-Schätzer: βkq = (X X) 1 X y Ridge-Schätzer: βridge = (X X + λd) 1 X y, wobei D eine Diagonalmatrix mit positiven Diagonalelementen ist. Für einen MSE-Vergleich siehe Vorlesung/Buch zu Lineare Modelle. Fazit: Bereits im einfachen Beispiel der Schätzung von π in B(1, π) (siehe Beispiel 2.10) zeigt sich, dass es im Allgemeinen keine MSE-optimalen Schätzer gibt. 27

10 Auswege: 1. Einschränkung auf Teilklasse von Schätzern, zum Beispiel erwartungstreue (und lineare) Schätzer, äquivariante Schätzer, MSE-Kriterium verändern: Ersetze MSE θ ( θ) durch Minimierung von max θ Θ MSE θ ( θ) (Minimax-Kriterium) oder ersetzte MSE θ ( θ) durch E p(θ) [MSE θ ( θ)] bei einer Priori-Verteilung p(θ) (Bayes- Schätzer). Hier: Strategie 1 mit erwartungstreuen Schätzern, vgl Fisher-Information und Suffizienz Definition 2.14 (Fisher-reguläre Verteilungsfamilien). Eine Familie von Verteilungen P θ mit Dichte f(x θ) = f(x 1,..., x n θ), θ Θ, heißt Fisher-regulär, wenn Folgendes gilt: 1. Der Träger {x X : f(x θ) > 0} ist unabhängig von θ (dies ist zum Beispiel bei X 1,..., X n i.i.d. U[0; θ] oder bei der Pareto-Verteilung verletzt). 2. Θ ist offen in R p (verletzt zum Beispiel bei σ 2 0). 3. Die ersten und zweiten Ableitungen von f(x θ) bzgl. θ existieren und sind für jedes θ endliche Funktionen von x. 4. Vertauschbarkeit: Sowohl für f(x θ) als auch für log(f(x θ)) kann erstes und zweites Differenzieren nach θ und Integration über x vertauscht werden. Definition 2.15 (Log-Likelihood, Scorefunktion und Information). l(θ; x) = log f(x θ) ( Log-Likelihood von θ bzgl. der Stichprobe x) s(θ; x) = ( ) θ l(θ; x) = l(θ; x),..., l(θ; x) ( Score-Funktion) θ 1 θ p J(θ; x) = 2 l(θ; x) θ θ ( beobachtete Informationsmatrix der Stichprobe mit Elementen (J(θ; x)) ij = 2 log f(x θ) ) θ i θ j I(θ) = E θ [J(θ; X)] ( erwartete oder Fisher-Informationsmatrix) Satz Ist P θ Fisher-regulär, so gilt: 1. E θ [s(θ; X)] = 0 2. E θ [ 2 l(θ;x) θ θ ] = Cov θ (s(θ; X)) 28

11 Beweis. Zu 1.: E θ [s(θ; X)] = s(θ; x)f(x θ) dx = log(f(x θ))f(x θ) dx θ θ = f(x θ) f(x θ) f(x θ)dx = f(x θ)dx = 0 θ Zu 2.: [ ] E θ 2 l(θ; X) θ θ [ = E θ θ ( θ f(x θ) f(x θ) )] [ f(x θ) 2 f(x θ) ( θ θ = E θ f(x θ))( f(x θ)) θ θ f(x θ) 2 ] unter Verwendung der Quotientenregel der Differentiation. Dies ist gleich [ 2 ] [ f(x θ) θ θ E θ θ + E f(x θ) ] f(x θ) θ θ f(x θ) f(x θ) f(x θ) 2 = θ θ f(x θ)dx + E θ[s(θ; X)s(θ; X) ] Der erste Summand ist unter Vertauschung von Differentiation und Integration gleich null. Für den zweiten Teil ergibt sich mit Teil 1. E[s(θ; X)s(θ; X) ] = Cov θ (s(θ; X)). Weitere Eigenschaften: Sind X 1,..., X n unabhängig und gemäß X i f i (x θ), i = 1,..., n, verteilt, so gilt: l(θ) = s(θ) = l i (θ), l i (θ) = log f i (x i θ) s i (θ), s i (θ) = θ log f i(x i θ) J(θ) = 2 l(θ) θ θ = 2 log f i (x i θ) θ θ 29

12 Für X 1,..., X n i.i.d. wie X 1 f 1 (x θ) folgt wobei I(θ) = E θ [J(θ)] = n i(θ), [ ] ( ) i(θ) = E θ 2 l 1 (θ; X) log f1 (X θ) θ θ = Cov θ θ die erwartete Information einer Einzelbeobachtung ist, d.h. die erwartete Informationsmatrix der Stichprobe X 1,..., X n ist die n-fache erwartete Information einer (typischen) Stichprobenvariable X 1. Für eine Statistik T = T (X), X = (X 1,..., X n ) mit T f T (t θ) kann man die Begriffe Score-Funktion und Fisher-Information völlig analog definieren. Insbesondere ist [ ] I T (θ) = E θ 2 log f T (t θ) θ θ. Satz 2.17 (Suffizienz und Fisher-Information). Sei I(θ) die Fisher-Information für X. Dann gilt unter Fisher-Regularität für jede Statistik T : 1. I T (θ) I(θ). 2. I T (θ) = I(θ) T ist suffizient für θ. Also: Bei einer suffizienten Statistik T wird keine (erwartete) Information verschenkt Erwartungstreue Schätzer Schöne Resultate für finites n, aber für vergleichsweise einfache statistische Modelle. Problem: Für komplexere Modelle existieren keine vernünftigen erwartungstreuen Schätzer. Aber: Etliche Resultate besitzen allgemeine Eigenschaften für n. Informationsungleichungen I. θ R (skalar). Neben θ werden auch transformierte Parameter τ(θ) betrachtet. Wenn Ableitungen benötigt werden, nehmen wir stillschweigend an, dass sie existieren. Satz Sei f(x θ) Fisher-regulär. 1. Ist θ erwartungstreu für θ, so gilt: Var θ ( θ) 1 I(θ) (Cramer-Rao-Ungleichung). 2. Ist T = T (x) erwartungstreu für τ(θ), so gilt: Var θ (T ) (τ (θ)) 2. I(θ) (τ (θ)) 2 I(θ) heißt Cramer-Rao-Schranke. 30

13 3. Besitzt θ den Bias B(θ) = E θ [ θ] θ, so gilt MSE θ ( θ) B 2 (θ) + (1 + B (θ)) 2. I(θ) Beweis. Gezeigt wird 2. Daraus folgt 1. für τ(θ) = θ und 3. für τ(θ) = θ + B(θ). Differentiation von τ(θ) = E θ [T ] = T (x)f(x θ) dx bezüglich θ, und Verwendung der Fisher-Regularität liefert: τ (θ) = T (x) d f(x θ) dx dθ = T (x)s(θ; x)f(x θ) dx = Cov θ (T (X), s(θ; X)). Unter Verwendung der Cauchy-Schwarz-Ungleichung folgt Cov(U, V ) Var(U) Var(V ) (τ (θ)) 2 Var θ (T (X))Var θ (s(θ; X)) = Var θ (T (X))I(θ). Also: Var θ (T (X)) (τ (θ)) 2. I(θ) Bemerkung. Die Gleichheit wird genau dann angenommen, wenn eine einparametrische Exponentialfamilie f(x θ) = h(x) exp(γ(θ)t (x)+b(θ)) vorliegt, τ(θ) = b (θ)/γ (θ) gilt und T (x) ein Schätzer für τ(θ) ist. Also: eher eine kleine Modellklasse. II. θ = (θ 1,..., θ p ) bzw. τ (θ) mehrdimensional. Satz Sei f(x θ) Fisher-regulär. 1. Ist θ erwartungstreu für θ, so gilt: Cov θ ( θ) I 1 (θ), wobei sich das auf die Löwner-Ordnung bezieht (vergleiche Seite 26). Daraus folgt insbesondere Var θ ( θ j ) v jj, j = 1,..., p, wobei v jj das j-te Diagonalelement von I 1 (θ) bezeichnet. 2. Ist T erwartungstreu für τ (θ), so gilt Cov θ (T ) H(θ)I 1 (θ)h(θ) mit der Funktionalmatrix (H(θ)) ij = θ j τ i (θ). Die Matrix H(θ)I 1 (θ)h(θ) ist die Cramer-Rao-Schranke. 31

14 Bemerkung. Obige Bemerkung für skalares θ gilt analog für f(x θ) = h(x) exp(b(θ) + γ (θ)t (x)), d.h. für mehrparametrische Exponentialfamilien. Beispiel 2.14 (Cramer-Rao-Schranke bei X N(µ, σ 2 )). X 1,..., X n i.i.d. wie X N(µ, σ 2 ), θ = (µ, σ 2 ). Dann gilt für die Informationsmatrix ( n ) ( ) 0 σ 2 I(θ) = σ 2 n bzw. I 1 (θ) = n 0 0 2σ. 2σ n Beste erwartungstreue Schätzer Erwartungstreue Schätzer minimaler Varianz innerhalb einer vorgegebenen Klasse nennt man effizient. Die Informationsungleichungen motivieren: Definition 2.20 (Gleichmäßig bester erwartungstreuer (UMVU) Schätzer). 1. θ skalar: Der Schätzer θ eff für θ heißt gleichmäßig bester erwartungstreuer oder UMVU ( uniformly minimum variance unbiased )-Schätzer def θ eff ist erwartungstreu, und es gilt Var θ ( θ eff ) Var θ ( θ) für alle θ und jeden erwartungstreuen Schätzer θ. 2. θ mehrdimensional: Ersetze in 1. Var θ ( θ eff ) Var θ ( θ) durch Cov θ ( θ eff ) Cov θ ( θ). Satz 2.21 (Effizienz und Informationsungleichungen). Sei f(x θ) Fisher-regulär und θ erwartungstreu für θ. Falls Cov θ ( θ) = I 1 (θ) für alle θ, so ist θ ein UMVU-Schätzer. Beweis. Die Aussage folgt direkt aus der Informationsungleichung und obiger Definition. i.i.d. Beispiel 2.15 (Gauß-Experiment). Seien X 1,..., X n N(µ, σ 2 ) mit µ, σ 2 unbekannt. Aus Beispiel 2.14 wissen wir, dass I(µ) = n/σ 2 und somit I 1 (µ) = σ 2 /n = Var( X). Dann ist X UMVU für µ. Aber Var(S 2 ) = 2σ4 n 1 > 2σ4 n = I 1 (σ 2 ). Die Cramer-Rao-Schranke wird also nicht erreicht, somit kann nicht gefolgert werden, dass S 2 UMVU für σ 2 ist. Beispiel 2.16 (Lineares Modell). y = Xβ + ε, ε N(0, σ 2 I) bzw. y N(Xβ, σ 2 I) β KQ = β ML = (X X) 1 X y ist effizient für β, σ 2 = 1 (y i ŷ i ) 2 ist nicht effizient für σ 2. n p 32

15 Bemerkung. Zu unterscheiden sind folgende Situationen: 1. Es existiert ein UMVU-Schätzer, dessen Varianz gleich der Cramer-Rao-Schranke ist. 2. Es existiert ein UMVU-Schätzer, dessen Varianz größer als die Cramer-Rao-Schranke ist (findet man mit dem Satz von Lehmann-Scheffé, siehe Satz 2.23). 3. Der häufigste Fall: Es existiert (für finiten Stichprobenumfang) kein UMVU-Schätzer. Fazit: Finite Theorie erwartungstreuer Schätzer ist von eingeschränkter Anwendungsrelevanz. Aber: Es existiert eine analoge asymptotische Theorie mit breiter Anwendungsrelevanz, die sich an finiter Theorie orientiert (siehe Abschnitt 2.1.5). Zur Konstruktion von UMVU-Schätzern sind folgende zwei Aussagen nützlich: Satz 2.22 (Rao-Blackwell). Sei T = T (X) suffizient für θ bzw. P θ und θ erwartungstreu für θ. Für den Schätzer θ RB = E θ [ θ T ] ( Rao-Blackwellization ) gilt: 1. θ RB ist erwartungstreu für θ. 2. Var θ ( θ RB ) Var θ ( θ). 3. In 2. gilt die Gleichheit, wenn θ nur von T abhängt, d.h. θ RB = θ mit Wahrscheinlichkeit 1. Satz 2.23 (Lehmann-Scheffé). Ist T = T (X) suffizient und vollständig (also minimalsuffizient) und θ = θ(x) ein erwartungstreuer Schätzer, so ist θ = E θ [ θ T ] der mit Wahrscheinlichkeit 1 eindeutig bestimmte UMVU-Schätzer für θ Asymptotische Eigenschaften und Kriterien Wichtige Schätzer (Momentenschätzer, Shrinkage-Schätzer, ML- und Quasi-ML-Schätzer etc.) sind im Allgemeinen nicht erwartungstreu, besitzen aber günstige asymptotische (n ) Eigenschaften. Im Folgenden sei Schätzer für θ. ˆθ n = ˆθ(X 1,..., X n ) Definition 2.24 (Asymptotische Erwartungstreue). θ n heißt asymptotisch erwartungstreu def lim E θ[ θ n ] = θ für alle θ. n 33

16 Definition 2.25 (Konsistenz). 1. θ n ist (schwach) konsistent für θ (in Zeichen: θ n P θ (für alle θ)) def 2. θ n heißt MSE-konsistent für θ def lim P θ( θ n θ ε) = 1 für alle ε > 0 und alle θ. n lim MSE θ( θ n ) = 0 für alle θ. n 3. θ n ist stark konsistent für θ def ( ) P θ lim θ n = θ = 1 für alle θ. n Bemerkung. 1. Aus der (verallgemeinerten) Tschebyscheff-Ungleichung folgt θ n MSE-konsistent θ n schwach konsistent. 2. Wegen MSE θ ( θ n ) = Var θ ( θ n ) + (Bias θ ( θ n )) 2 folgt: θ n ist MSE-konsistent Var θ ( θ n ) 0 und Bias θ ( θ n ) 0 für alle θ. 3. Ist θ n konsistent für θ und g eine stetige Abbildung, so ist auch g( θ n ) konsistent für g(θ) (Continuous Mapping Theorem/Stetigkeitssatz). 4. Konsistenznachweise bestehen in der Regel in der Anwendung (schwacher) Gesetze großer Zahlen (für i.i.d. Variablen; i.n.i.d. Variablen; abhängige Variablen, z.b. Martingale, Markov-Prozesse,...). Beispiel Xn = 1 n 2. S 2 n = 1 n 1 X i ist wegen E( X n ) = µ und Var( X n ) = σ2 n (X i X n ) 2 und S n 2 = 1 n 0 für n konsistent. (X i X n ) 2 sind MSE-konsistent für σ Mit g(x) = x folgt, dass S n = 1 (X i n 1 X n ) 2 und Sn = 1 n konsistent sind für σ. (X i X n ) 2 4. S n / X n ist konsistent für σ 2 /µ für µ > 0, da mit θ = (µ, σ) und g(θ) = σ 2 /µ wieder der Stetigkeitssatz benutzt werden kann. 5. π n ist konsistent für π (im Bernoulli-Experiment). 6. βkq, β Ridge sind konsistent für β im linearen Modell. 34

17 Asymptotische Normalität Viele Schätzer (KQ-, Momenten-, ML-, Quasi-ML-, Bayes-Schätzer) sind unter Regularitätsannahmen asymptotisch normalverteilt. Informell ausgedrückt heißt das: Für große n ist θ n nicht nur approximativ erwartungstreu, sondern zusätzlich approximativ normalverteilt, kurz mit (approximativer) Kovarianzmatrix die durch θ n a N(θ, V (θ)) Cov θ ( θ n ) a V (θ), Ĉov θ ( θ n ) := V ( θ n ) geschätzt wird. In der Diagonalen von V ( θ n ) stehen dann die (geschätzten) Varianzen der Komponenten θ j, j = 1,..., p, von θ. θ j }{{} Schätzer Var( θ j ) = v jj ( θ n ) Üblicher Output statistischer Software ist = v σ θj jj ( θ) } {{ } Standardfehler t }{{} t-statistik p }{{} p-wert i.i.d. Beispiel Seien X 1,..., X n F (x θ) mit E(X i ) = µ und Var(X i ) = σ 2. Aber F sei nicht gleich Φ, sondern z.b. die Verteilungsfunktion von B(π) oder P o(λ). Für X n gilt E( X n ) = µ und Var( X n ) = σ2 n. Aufgrund des zentralen Grenzwertsatzes folgt ( ) a X n N µ, σ2, n zum Beispiel X n a N ( π, Genauere Formulierung: n( Xn µ) im Beispiel also bzw. n( Xn π) X µ σ X π ) π(1 π) n bei B(π). d N(0, σ 2 ) für n, d N(0, π(1 π)) n d N(0, 1), π(1 π) n d N(0, 1). } für n zentraler Grenzwertsatz Die n-normierung ist vor allem bei i.i.d. Stichprobenvariablen geeignet. Für nicht identisch verteilte Stichprobenvariablen wie zum Beispiel y 1 x 1,..., y n x n in Regressionssituationen benötigt man bei n-normierung Voraussetzungen, die (teilweise) unnötig restriktiv sind. Besser ist dann eine Matrix-Normierung mit Hilfe einer Wurzel I 1 2 (θ) der Informationsmatrix. 35

18 Einschub: Wurzel einer positiv definiten Matrix A ist positiv definit, wenn A symmetrisch ist und x Ax > 0 für alle x 0 gilt. Dann heißt eine Matrix A 1 2 (linke) Wurzel von A def A 1 2 (A 1 2 ) }{{} =A 2, rechte Wurzel = A. Allerdings ist A 1 2 nicht eindeutig, da für eine beliebige orthogonale Matrix auch A 1 2 Q eine linke Wurzel ist: A Q(A 2 Q) = A 1 2 QQ A 2 = A. }{{} =I Zwei gebräuchliche Wurzeln sind: 1. Symmetrische Wurzel: Betrachte die Spektralzerlegung von A R p p. Mit der Matrix P R p p der orthonormalen Eigenvektoren als Spalten ist P AP = Λ = λ λ p wobei für alle i die λ i > 0 die Eigenwerte von A sind. (Diese Zerlegung ist numerisch aufwändig!) Dann gilt auch, A = P ΛP = P Λ 1 2 }{{} (Λ 1 2 ) P, }{{} =A 1 2 und A 1 2 heißt symmetrische Wurzel von A. 2. Cholesky-Wurzel: Sei A 1 2 := C untere Dreiecksmatrix mit positiven Diagonalelementen und CC = A. Dann ist C die eindeutig bestimmte Cholesky-Wurzel von A. (Diese ist numerisch vergleichsweise einfach zu erhalten!) Anwendungen in der Statistik 1. Erzeugen von N p (0, Σ)-verteilten Zufallszahlen (Σ vorgegeben): Falls Z N p (0, I), ist einfache Simulation möglich, indem p unabhängige N(0, 1)-verteilte Zufallsvariablen Z 1,..., Z p simuliert werden. Dann gilt auch =A 2 Σ 1/2 Z N(0, Σ 1/2 IΣ /2 ). = N(0, Σ). Also: Berechne Cholesky-Wurzel von Σ, ziehe p N(0, 1)-verteilte Zufallsvariablen Z = (z 1,..., z p ), berechne Y = Σ 1/2 Z. Dann ist Y = (Y 1,..., Y p ) ein N p (0, Σ)- verteilter Zufallsvektor. 36

19 2. Matrixnormierung bei asymptotischer Normalverteilung: Beispiel 2.19 (Asymptotische Normalität des KQ-Schätzers im linearen Modell). Seien y 1 x 1,..., y n x n unabhängig. Dann gilt Der KQ-Schätzer ist E[y i x i ] = x i β, Var(y i x i ) = σ 2, i = 1,..., n, y n = X n β + ε n, E[ε n ] = 0, Cov(ε n ) = σ 2 I n. β n = (X n X n ) 1 X n y n, E[ β n ] = β, Cov( β n ) = σ 2 (X n X n ) 1. Die Informationsmatrix unter der Normalverteilungsannahme ist I(β) = X n X n σ 2 = Cov( β n ) 1. Zentrale Grenzwertsätze (für unabhängige, nicht identisch verteilte Zufallsvariablen, kurz: i.n.i.d.) liefern unter geeigneten Voraussetzungen (informell): β n a N(β, σ 2 (X n X n ) 1 ). Genauere Formulierungen nehmen an, dass 1 lim n n X n X n =: A > 0 (2.1) existiert (also: X n X n na (X n X n ) 1 A 1 /n für große A). Anwendung des (multivariaten) zentralen Grenzwertsatzes liefert dann: n( βn β) d N(0, σ 2 A 1 ) bzw. β n a N(β, σ 2 A 1 /n) β n a N(β, σ 2 (X n X n ) 1 ). Die Annahme (2.1) ist zum Beispiel erfüllt, wenn x i, i = 1,..., n, i.i.d. Realisierungen stochastischer Kovariablen x = (x 1,..., x p ) sind. Dann gilt nach dem Gesetz der großen Zahlen: 1 n X n X n = 1 n x i x i n E[xx ] =: A. Typischerweise ist die Annahme (2.1) nicht erfüllt bei deterministischen Regressoren mit Trend. Das einfachste Beispiel hierfür ist ein linearer Trend: x i = i für i = 1,..., n und y i = β 1 i + ε i. Dann ist X n X n = i 2 37

20 und daher 1 n n X n X n = i2 n n. n In diesem Fall ist eine andere Normierung nötig, zum Beispiel eine Matrixnormierung mit C n = (Xn X n ). Dann lässt sich die asymptotische Normalität des KQ-Schätzers bzw. C 1/2 n ( β n β) d N p (0, σ 2 I) C n 1/2 ( β n β) := C1/2 n σ ( β d n β) N p (0, I) unter folgenden, sehr schwachen Bedingungen zeigen: (D) Divergenzbedingung: Für n gilt: Eine äquivalente Forderung ist: (X n X n ) 1 0. λ min (X n X n ), wobei λ min den kleinsten Eigenwert von X n X n bezeichnet. Die Divergenzbedingung sichert, dass die Informationsmatrix X n X n = x i x i für n gegen divergiert, die Information mit n also laufend wächst. Es gilt: (D) ist hinreichend und notwendig für die (schwache und starke) Konsistenz des KQ-Schätzers βn. (N) Normalitätsbedingung: max,...,n x i (Xn X n ) 1 x i 0 für n (N) sichert, dass die Information jeder Beobachtung i asymptotisch gegenüber der Gesamtinformation n x ix i vernachlässigbar ist. Unter (D) und (N) gilt (X n X n ) 1/2 ( β n β) d N(0, σ 2 I) (Beweis mit Grenzwertsätzen für unabhängige, nicht identisch verteilte Zufallsvariablen), d.h. für praktische Zwecke: β n a N(β, σ 2 (X n X n ) 1 ) für genügend großen Stichprobenumfang n. Dabei darf zusätzlich σ 2 durch einen konsistenten Schätzer σ 2 ersetzt werden. 38

21 Definition 2.26 (Asymptotische Normalität). 1. Mit n-normierung: θ n heißt asymptotisch normalverteilt für θ def n( θn θ) d N(0, V (θ)) für n mit nicht-negativ definiter (in der Regel positiv definiter) asymptotischer Kovarianzmatrix V (θ). 2. Mit Matrix-Normierung: θ n heißt asymptotisch normalverteilt für θ def eine Folge von Matrizen A n mit λ min (A n ), so dass es existiert An 1/2 ( θ n θ) d N(0, V (θ)). Bemerkung. 1. Praxisformulierung: θ n a N(θ, V (θ)/n) bzw. θ n a N(θ, (A 1/2 n ) 1 V (θ)(a 1/2 n ) ). Dabei darf θ in V (θ) durch θ n ersetzt werden. 2. Oft: V (θ) = I möglich, wenn geeignet normiert wird, zum Beispiel bei ML-Schätzung. Beispiel Seien X 1,..., X n i.i.d. Zufallsvariablen mit (bekanntem) Erwartungswert µ und Varianz σ 2. Sµ 2 = 1 (X i µ) 2 n ist asymptotisch normal für σ 2 mit V (θ) = µ 4 σ 4, µ 4 = E[(X i µ) 4 ] <. Sµ 2 ist erwartungstreu. Für die Varianz erhält man: ( ) Var(Sµ) 2 1 = Var (X i µ) 2 n = 1 n 2 n Var [ (X 1 µ) 2] = 1 (E[(X 1 µ) 4 ] ( E[(X 1 µ) 2 ] ) ) 2 n = 1 n (µ 4 σ 4 ). Es liegen die Voraussetzungen zur Anwendung des zentralen Grenzwertsatzes vor. Aus ihm folgt: a N(σ 2, (µ 4 σ 4 )/n) bzw. n(s 2 µ σ 2 ) d N(0, µ 4 σ 4 ). S 2 µ 39

22 Die Delta-Methode θ n sei asymptotisch normalverteilter Schätzer für θ. Frage: Wie ist für eine gegebene Abbildung h : R p R k, k p der Schätzer h( θ) für h(θ) verteilt? Satz 2.27 (Delta-Methode). Sei h wie oben. 1. θ skalar: Für alle θ, für die h stetig differenzierbar ist mit h (θ) 0, gilt: n( θn θ) d N(0, V (θ)) n(h( θ n ) h(θ)) d N(0, [h (θ)] 2 V (θ)) 2. θ vektoriell: Sei θ = (θ 1,..., θ p ) h(θ) = (h 1 (θ),..., h k (θ)) mit Funktionalmatrix (H(θ)) ij = h i(θ) θ j mit vollem Rang. Für alle θ, für die h(θ) komponentenweise stetig partiell differenzierbar ist und jede Zeile von H(θ) ungleich dem Nullvektor ist, gilt: n( θn θ) d N(0, V (θ)) n(h( θ n ) h(θ)) d N(0, H(θ)V (θ)h(θ) ). Beweisskizze für skalares θ. Taylorentwicklung von h( θ n ) um θ liefert: h(θ n ) = h(θ) + ( θ n θ)h (θ) + o( θ n θ) 2. Dabei ist für eine Folge von Zufallsvariablen X n P X n = o(a n ) falls X n /a n 0 für n. Also: bzw. h( θ n ) h(θ) + ( θ n θ)h (θ) n(h( θn ) h(θ)) n( θ n θ)h (θ) Aus n( θ n θ) d N(0, V (θ)) folgt dann, dass n(h( θ n ) h(θ)) d N(0, h (θ) 2 V (θ)). 40

23 Asymptotische Cramer-Rao Schranke und asymptotische Effizienz Seien X 1,..., X n i.i.d. f(x θ) und [ 2 ] log f(x θ) i(θ) = E θ θ die erwartete Fisher-Information einer Beobachtung X i. Die Information der gesamten Stichprobe X 1,..., X n ist dann I(θ) = n i(θ). Satz 2.28 (Asymptotische Cramer-Rao Ungleichung). Unter Fisher-Regularität sowie leichten Zusatzannahmen gilt: 1. Aus n( θ n θ) d N(0, V (θ)) folgt V (θ) i 1 (θ). 2. Aus n(h( θ n ) h(θ)) d N(0, D(θ)) folgt D(θ) H(θ)i 1 (θ)h(θ) mit Löwner-Ordnung (und den Bezeichnungen aus der Delta-Regel, Satz 2.27). Definition 2.29 (Bester asymptotisch normaler (BAN)-Schätzer). θ n heißt BAN-Schätzer, falls in 1. oben gilt: V (θ) = i 1 (θ). Mit der Delta-Regel folgt unmittelbar: Satz 2.30 (Transformation von BAN-Schätzern). Ist θ n BAN-Schätzer für θ, so ist h( θ n ) BAN-Schätzer für h(θ). Bemerkung. Das Konzept der asymptotischen Effizienz lässt sich auf die Matrix-Normierung übertragen: θ ist BAN-Schätzer für θ genau dann, wenn I 1/2 (θ)( θ n θ) d N(0, I) bzw. θ a n N(θ, I 1 ( θ n )), mit I 1/2 (θ) Wurzel der Fisher-Information I(θ) der Stichprobe X 1,..., X n. Anstelle der erwarteten kann auch die beobachtete Fisher-Information J(θ) verwendet werden. 2.2 Klassische Testtheorie Ziel: Finde Test zum Niveau α mit optimaler Güte (Power) für θ Θ 1. Dabei ist n finit. 41

24 2.2.1 Problemstellung Sei Θ der Parameterraum; die Hypothesen seien H 0 : θ Θ 0 vs. H 1 : θ Θ 1, mit Θ 0 Θ 1 =, d.h. Θ 0 und Θ 1 sind disjunkt. Möglicherweise, jedoch nicht notwendigerweise, gilt Θ 0 Θ 1 = Θ. Eine Nullhypothese heißt einfach, wenn sie aus einem einzelnen Element aus Θ besteht, d.h. Θ 0 = {θ 0 }. Ansonsten spricht man von zusammengesetzten Hypothesen. Dabei ist Folgendes zu beachten: Etliche Nullhypothesen sind scheinbar einfach, aber tatsächlich zusammengesetzt. Dies ist häufig dann der Fall, wenn Nuisanceparameter auftauchen. Beispiel: Seien X 1,..., X n N(µ, σ 2 ) mit µ und σ 2 unbekannt. Die Nullhypothese H 0 : µ = 0 ist eine zusammengesetzte Hypothese, da Θ = {(µ, σ 2 ) : < µ, 0 < σ 2 < } und Θ 0 = {(µ, σ 2 ) : µ = 0, 0 < σ 2 < }. Ergebnisse/Aktionen: A 0 : A 1 : H 0 wird nicht abgelehnt H 0 wird abgelehnt Test zum Niveau α: P θ (A 1 ) α, für alle θ Θ 0 Testfunktionen (vgl. Abschnitt 1.2.1): Tests werden oft folgendermaßen formuliert: Wähle eine Teststatistik T (X), eine Stichprobe X und einen kritischen Bereich C α. Dann lautet der Test { 1, falls T (x) Cα (H φ(x) = 0 ablehnen), 0, falls T (x) / C α (H 0 nicht ablehnen). Für die Testtheorie dieses Abschnitts werden solche Testfunktionen φ(x) {0, 1} erweitert zu randomisierten Testfunktionen φ(x) [0, 1]: 1. Für gegebene Daten X = x ist φ(x) [0, 1]. 2. Ziehe eine (davon unabhängige) Bernoullivariable W Bin(1, φ(x)). 3. Lehne H 0 genau dann ab, wenn W = 1. Interpretation: φ(x) ist die Wahrscheinlichkeit für die Ablehnung von H 0 gegeben die Beobachtung X = x. Im Spezialfall φ(x) {0, 1} reduziert sich ein randomisierter Test auf einen üblichen, nicht randomisierten Test. Randomisierte Tests sind (für die Theorie) vor allem bei diskreten Teststatistiken relevant. 42

25 Beispiel 2.21 (Randomisierter Binomialtest). Sei X Bin(10, π) und H 0 : π 1 2, H 1 : π > 1 2. Test: H 0 ablehnen X k α, wobei k α so, dass Es ist P π (X k α ) α für π = , k = , k = 9 P 0.5 (X k) = , k = 8... Für α = 0.05 würde die Wahl k α = 8 wegen > 0.05 nicht möglich sein. Wählt man aber k α = 9, so schöpft man α = 0.05 bei weitem nicht aus, d.h. der Test ist sehr konservativ. Die Lösung ist ein randomisierter Test 1, x {9, 10} φ(x) = 67/75, x = 8 0, x 7, d.h. ziehe bei x = 8 eine bernoulliverteilte Zufallsvariable mit Wahrscheinlichkeit 67/75. Wird 1 realisiert, so wird H 0 abgelehnt. Die Randomisierung ist ein künstlicher Vorgang, um das Signifikanzniveau α auszuschöpfen, d.h. P θ (A 1 ) = α für dasjenige θ auf dem Rand zwischen Θ 0 und Θ 1 zu erreichen. Ein randomisierter Test besitzt in der Regel folgende Struktur: 1, x B 1 φ(x) = γ(x), x B 10 0, x B 0. Der Stichprobenraum wird also in drei Teile zerlegt: B 1 strikter Ablehnungsbereich von H 0, d.h. x B 1 Aktion A 1. B 0 strikter Annahmebereich, d.h. x B 0 Aktion A 0. B 10 Randomisierungsbereich, d.h. x B 10 führt mit Wahrscheinlichkeit γ(x) zur Ablehnung und mit Wahrscheinlichkeit 1 γ(x) zur Annahme von H 0. B 10 kann als Indifferenzbereich interpretiert werden. 43

26 In der Regel wird ein Test mit einer Teststatistik T = T (X) formuliert. Dann haben randomisierte Tests oft die Form: 1, T (x) > c φ(x) = γ, T (x) = c 0, T (x) < c. Falls T (X) eine stetige Zufallsvariable ist, gilt P(T (X) = c) = 0, d.h. für stetige T reduziert sich φ(x) zu { 1, T (x) c φ(x) = 0, T (x) < c. Bei diskreten Teststatistiken T wie beim exakten Binomialtest ist γ = P(T (X) = c) > 0. Der Wert c ist an der Entscheidungsgrenze zwischen A 1 und A 0. Dass man die Entscheidung durch eine zufällige Prozedur herbeiführt, stößt in der Praxis auf Bedenken. Die (frequentistische) Theorie zeigt, dass die Priori-Wahrscheinlichkeit P θ (A 1 ) = P(A 1 x) f(x θ)dx = E X }{{}}{{} θ [φ(x)], θ Θ 1 φ(x) dp θ bei Randomisierung maximiert werden kann (φ(x) ist die bedingte Wahrscheinlichkeit, a posteriori, d.h. bei gegebener Stichprobe, für A 1 zu entscheiden). Maximal bezieht sich auf durchschnittliche Optimalität des Tests bei wiederholter Durchführung. Subjektive Sichtweise: Man wird bei T (x) = c bzw. x B 10 eher noch keine Entscheidung treffen ( Indifferenzbereich ). Für n geht (in der Regel) P(T (X) = c) gegen 0, d.h. für großes n wird der Randomisierungsbereich B 10 immer kleiner. Idee: Bei T (x) = c zusätzliche Daten erheben. Güte, Gütefunktion (power, power function) Bei einer Testentscheidung gibt es folgende Möglichkeiten: A 0 : H 0 beibehalten A 1 : H 1 ist signifikant H 0 trifft zu richtige Aussage Fehler 1. Art H 1 trifft zu Fehler 2. Art richtige Aussage Es ist φ(x) = P(A 1 x) die bedingte Wahrscheinlichkeit für A 1 gegeben die Stichprobe x. Ist P θ (A 1 ) die unbedingte Wahrscheinlichkeit / Priori-Wahrscheinlichkeit, dann gilt (wie oben) P θ (A 1 ) = P(A 1 x)f(x θ) dx = φ(x)f(x θ) dx = E θ [φ(x)] und somit auch P θ (A 0 ) = E θ (1 φ(x)) für θ Θ. X 44

27 Definition 2.31 (Gütefunktion eines Tests φ). 1. Die Abbildung g φ (θ) = E θ [φ(x)] = P θ (A 1 ), θ Θ, heißt Gütefunktion des Tests φ. Außerdem: g φ (θ) = P θ (A 1 ) Wahrscheinlichkeit für Fehler 1. Art, θ Θ 0 1 g φ (θ) = P θ (A 0 ) Wahrscheinlichkeit für Fehler 2. Art, θ Θ 1 g φ (θ) = P θ (A 1 ) Macht (power) des Tests, θ Θ 1 2. Die Größe α(φ) = sup θ Θ 0 P θ (A 1 ) = sup θ Θ 0 g φ (θ) heißt (tatsächliches) Niveau (level, size) von φ und ist die supremale Wahrscheinlichkeit für den Fehler 1. Art. β(φ) = sup θ Θ 1 P θ (A 0 ) = 1 inf θ Θ 1 g φ (θ) ist die supremale Wahrscheinlichkeit für den Fehler 2. Art. Bei den üblichen Tests gilt wegen der Monotonie und Stetigkeit von g φ (θ) α(φ) + β(φ) = 1, d.h. α(φ) kann nur auf Kosten von β(φ) klein gehalten werden (und umgekehrt). Allgemein gilt dagegen nur α(φ) + β(φ) 1, zum Beispiel beim einseitigen Gauß-Test. Programm der klassischen Testtheorie: Maximiere unter Beschränkung g φ (θ) α für alle θ Θ 0 bei fest vorgegebenem α > 0 die Güte für θ Θ 1, d.h. g φ (θ) max g φ(θ) für θ Θ 1 φ bei konkurrierenden Tests φ. H 0 und H 1 werden also unsymmetrisch betrachtet. Wegen der Beziehung α(φ) + β(φ) = 1 muss dabei das vorgegebene Signifikanzniveau α ausgeschöpft werden, d.h. α(φ) = α gelten. Bei α(φ) < α wird automatisch β(φ) = 1 inf θ Θ 1 g θ (φ) für θ Θ 1 größer als notwendig, d.h. die Güte des Tests schlechter. 45

28 Folgende Problemstellungen werden nach diesem Konzept betrachtet: 1. Einfaches H 0 vs. einfaches H 1 : Neyman-Pearson-Theorem zeigt, wie bester Test zu konstruieren ist. 2. Einfaches H 0 vs. zusammengesetztes H 1 : Basierend auf dem Neyman-Pearson- Theorem kann für bestimmte Fälle ein gleichmäßig bester Test (UMP, uniformly most powerful test) konstruiert werden. In anderen Fällen existiert zumindest ohne weitere Restriktionen kein UMP-Test. 3. Zusammengesetztes H 0 vs. zusammengesetztes H 1 : Suche nach einem UMP-Test ist noch schwieriger Satz von Neyman-Pearson Problemstellung: Einfache Nullhypothese vs. einfache Alternativhypothese, also H 0 : θ = θ 0, vs. H 1 : θ = θ 1 mit θ 0 θ 1. Sei f 0 (x) = f(x θ 0 ), f 1 (x) = f(x θ 1 ). Dann heißt Λ(x) = f 1(x) f 0 (x) Likelihood-Quotient. Ein (bester) Test hat nach Neyman-Pearson die Form: H 0 ablehnen Λ(x) > k α mit k α so gewählt, dass der Test das Niveau α einhält. Aber: Falls Λ(x) diskret ist, gibt es ein theoretisches Problem. Dies führt zu Definition 2.32 (Randomisierter LQ-Test). Ein Test φ (x) heißt randomisierter Likelihood- Quotienten-Test, kurz LQ-Test (likelihood ratio test, LRT) def φ (x) hat die Struktur 1, f 1 (x) > kf 0 (x) Λ(x) > k φ (x) = γ(x), f 1 (x) = kf 0 (x) Λ(x) = k 0, f 1 (x) < kf 0 (x) Λ(x) < k mit Konstante k > 0 und 0 < γ(x) < 1. Falls Λ(X) stetig ist, gilt P θ (Λ(X) = k) = 0. Dann reicht ein nicht-randomisierter Test { φ 1, f 1 (x) > kf 0 (x) Λ(x) > k (x) = 0, sonst. Satz 2.33 (Neyman-Pearson, Fundamentallemma). 1. Optimalität: Für jedes k und γ(x) hat der Test φ maximale Macht unter allen Tests, deren Niveau höchstens gleich dem Niveau von φ ist. 2. Existenz: Zu vorgegebenem α (0, 1) existieren Konstanten k und γ, so dass der LQ-Test φ mit diesem k und γ(x) = γ für alle x exakt das Niveau α besitzt. 46

29 3. Eindeutigkeit: Falls ein Test φ mit Niveau α maximale Macht (= kleinsten Fehler 2. Art) unter allen anderen Tests mit Niveau α besitzt, dann ist φ ein LQ-Test (eventuell mit Ausnahme einer Nullmenge X 0 X von Stichproben x, d.h. P θ0 (X 0 ) = P θ1 (X 0 ) = 0). Beweis. 1. Sei φ ein Test mit und E θ0 [φ(x)] E θ0 [φ (X)] (2.2) U(x) = (φ (x) φ(x))(f 1 (x) kf 0 (x)). Für f 1 (x) kf 0 (x) > 0 ist φ (x) = 1, also U(x) 0. Für f 1 (x) kf 0 (x) < 0 ist φ (x) = 0, also U(x) 0. Für f 1 (x) = kf 0 (x) = 0 ist U(x) = 0. Also: U(x) 0 für alle x. Somit: 0 U(x)dx = (φ (x) φ(x))(f 1 (x) kf 0 (x)) dx ( = φ (x)f 1 (x) dx φ(x)f 1 (x) dx + k φ(x)f 0 (x) dx ) φ (x)f 0 (x) dx = E θ1 [φ (X)] E θ1 [φ(x)] + k(e θ0 [φ(x)] E θ0 [φ (X)]) }{{} 0 wegen (2.2) E θ1 [φ (X)] E θ1 [φ(x)], d.h. die Macht von φ ist größer als die Macht von φ. 2. Die Verteilungsfunktion G(k) = P θ0 (Λ(x) k) ist monoton steigend in k. Sie ist ferner rechtsstetig, d.h. G(k) = lim y k G(y) für alle k. Betrachtet man die Gleichung G(k ) = 1 α und versucht diese bezüglich k zu lösen, so gibt es zwei Möglichkeiten: (i) Entweder ein solches k existiert, (ii) oder die Gleichung kann nicht exakt gelöst werden, aber es existiert ein k, so dass G (k ) = P θ0 (Λ(X) < k ) 1 α < G(k ) (das entspricht der Niveaubedingung ). Im ersten Fall setzt man γ = 0, im zweiten γ = G(k ) (1 α) G(k ) G (k ). 47

30 In diesem Fall hat der Test genau das Niveau α, wie behauptet, denn: ( ) ( ) f1 (X) E θ0 [φ(x)] = P θ0 f 0 (X) > k + G(k ) 1 + α G(k ) G (k ) P f1 (X) θ 0 f 0 (X) = k = (1 G(k )) + G(k ) 1 + α G(k ) G (k ) (G(k ) G (k )) = α. 3. Sei φ der LQ-Test definiert durch eine Konstante k und eine Funktion γ(x) und man nehme an, φ ist ein anderer Test mit gleichem Niveau α und der gleichen Macht wie φ. Definiert man U(x) wie in 1., dann ist U(x) 0 für alle x und U(x) dx = 0, da E θ1 [φ (X)] E θ1 [φ(x)] = 0 und E θ0 [φ (X)] E θ0 [φ(x)] = 0 nach Annahme. Daraus, dass U nicht-negativ mit Integral 0 ist, folgt, dass U(x) = 0 für fast alle x. Dies wiederum bedeutet, dass φ(x) = φ (x) oder f 1 (x) = kf 0 (x), d.h. φ(x) ist ein LQ-Test. Bemerkung. Für einfache Hypothesen H 0 und H 1 sind klassische Testtheorie und Likelihood- Quotienten-Test noch identisch. Für zusammengesetzte Hypothesen (der Praxisfall) trennen sich die Konzepte: Klassische Testtheorie sucht weiter nach optimalen Tests (für finite Stichproben). Likelihoodbasierte Tests verallgemeinern Λ(x) bzw. sind quadratische Approximationen von Λ(x), deren Verteilungsfunktion (unter H 0 ) nur asymptotisch (n ) gilt. Beispiel 2.22 (Binomialtest). Betrachte H 0 : π = π 0 vs. H 1 : π = π 1 mit 0 < π 0 < π 1 < 1. Die Dichte (Wahrscheinlichkeitsfunktion) der i.i.d. Stichprobe X = (X 1,..., X n ) lautet der Likelihood-Quotient f(x π) = π z (1 π) n z mit z = Λ(x) = πz 1 (1 π 1) n z π z 0 (1 π 0) n z = ( ) 1 n π1 1 π 0 x i, ( ) π1 (1 π 0 ) z := Λ(z). π 0 (1 π 1 ) Da Λ(x) = Λ(z) streng monoton in z ist, lässt sich Λ(z) > k äquivalent umformen in z > Λ 1 (k) =: c. Der Likelihood-Quotienten-Test φ mit kritischer Zahl k und (konstanter) Randomisierung γ hat dann die Form 1, Z = Z(x) > c φ (x) = γ, Z = Z(x) = c 0, Z = Z(x) < c mit der Teststatistik Z. Dabei können wir uns (wegen des Wertebereichs von Z) auf c {0, 1,..., n} beschränken. γ ist aus der Niveaubedingung P π0 (Z > c) + γ P π0 (Z = c)! = α zu bestimmen. Der Test φ hängt von π 0 ab, jedoch nicht von π 1! 48

31 Bemerkung. Falls H 1 wahr ist, dann bestimmt π 1 die Wahrscheinlichkeit für den realisierten Fehler 2. Art P π1 (A 0 ). Je weiter π 1 von π 0 entfernt ist, umso kleiner ist die Wahrscheinlichkeit für den Fehler 2. Art und umso größer ist die Power an der Stelle π = π Gleichmäßig beste Tests Definition 2.34 (Gleichmäßig bester (UMP, uniformly most powerful) Test). Ein Niveauα-Test φ heißt gleichmäßig bester oder UMP Test zum Niveau α def 1. E θ [φ (X)] α für alle θ Θ Für jeden anderen Niveau-α-Test φ mit E θ [φ(x)] α für alle θ Θ 0 gilt: E θ [φ (X)] E θ [φ(x)] für alle θ Θ 1. Bemerkung. Der Begriff gleichmäßig in obiger Definition bezieht sich auf die Gleichmäßigkeit der Eigenschaft g φ g φ auf Θ 1 für jeden anderen Test φ. Beste einseitige Tests bei skalarem θ In Beispiel 2.22 (Binomialtest für einfache Hypothesen) hing die Power nicht vom speziellen π 1 ( H 1 ) > π 0 ( H 0 ) ab. Daraus folgt, dass φ für alle π 1 > π 0 besser ist als ein anderer Test φ. Entscheidend dafür ist, dass der Dichte- bzw. Likelihood-Quotient monoton in z ist. Dies gilt allgemeiner und führt zu folgender Definition. Definition 2.35 (Verteilungen mit monotonem Dichtequotienten). Die Verteilungsfamilie {f(x θ), θ Θ R} mit skalarem Parameter θ besitzt monotonen Dichte- bzw. Likelihood- Quotienten (kurz: MLQ) def es existiert eine Statistik T, so dass Λ(x) = f(x θ 1) f(x θ 0 ) monoton wachsend in T (x) für je zwei θ 0, θ 1 Θ mit θ 0 θ 1 ist. 49

32 Bemerkung. 1. Monoton wachsend ist keine echte Einschränkung; ist T (x) monoton fallend, so definiert man T (x) = T (x). 2. Jede einparametrische Exponentialfamilie in T (x) und γ(θ) besitzt monotonen Dichtequotienten, wenn γ(θ) monoton in θ ist. Letzteres gilt für die natürliche Parametrisierung γ(θ) = θ. Satz 2.36 (UMP-Test bei MLQ). Gegeben sei P θ = {f(x θ) : θ Θ R} mit MLQ in T (x) und die Hypothesen H 0 : θ θ 0 vs. H 1 : θ > θ Existenz: Es gibt einen UMP-Test φ zum Niveau α, nämlich 1, T (x) > c φ (x) = γ, T (x) = c 0, T (x) < c. Dabei sind c und γ eindeutig bestimmt durch die Niveaubedingung P θ0 (T (X) > c) + γp θ0 (T (X) = c) = α. 2. Die Gütefunktion g φ (θ) ist monoton wachsend in θ und sogar streng monoton wachsend für alle θ mit 0 < g φ (θ) < 1. Die maximale Wahrscheinlichkeit für den Fehler 1. Art ist g φ (θ 0 ) = α. 3. φ besitzt auch gleichmäßig minimale Wahrscheinlichkeiten für den Fehler 2. Art unter allen Tests φ für H 0 vs. H 1 mit g φ (θ 0 ) = α. 4. φ ist (mit Wahrscheinlichkeit 1) eindeutig bestimmt. Bemerkung. Es gilt weiterhin: Ist φ der beste Test für das einfache Alternativproblem H 0 : θ = θ 0 vs. H 1 : θ = θ 1, so ist φ auch der UMP-Test zum Niveau α für zusammengesetzte Hypothesen H 0 : θ Θ 0 vs. H 1 : θ Θ 1, wenn φ nicht von dem speziellen Wert θ 1 H 1 abhängt und für alle θ H 0 das Niveau α einhält. Beispiel Binomialtest mit H 0 : π π 0 gegen H 1 : π > π 0 hat MLQ in Z(x) = Anzahl der Erfolge (vgl. obiges Beispiel und Bemerkung). Der Binomialtest ist also UMP-Test. 2. Gleichverteilung 3. Gauß-Test 50

33 4. Exponentialverteilung 5. Poissonverteilung Bemerkung. Oft existiert zwar kein UMP-Test, jedoch ein lokal bester (einseitiger) Test: φ lok heißt lokal bester Niveau α-test def wobei g φlok (θ 0 ) = g φ (θ 0 ) = α gilt. g φ lok (θ 0 ) = d dθ g φ lok (θ 0 ) d dθ g φ(θ 0 ), Beste unverfälschte zweiseitige Tests bei skalarem θ Für zweiseitige Testprobleme der Form H 0 : θ = θ 0 vs. H 1 : θ θ 0 gibt es in der Regel keinen UMP-Test, insbesondere auch dann nicht, wenn MLQ vorliegt. Deshalb wird eine Restriktion auf eine kleinere Klasse von konkurrierenden Tests notwendig. Definition 2.37 (Unverfälschter Niveau-α-Test). Ein Test φ für H 0 vs. H 1 heißt unverfälschter (unbiased) Niveau-α-Test def g φ (θ) α für alle θ Θ 0, g φ (θ) α für alle θ Θ 1. Satz 2.38 (Zweiseitige UMPU (uniformly most powerful unbiased) Tests). Sei f(x θ) = c(θ) exp(θt (x))h(x) eine einparametrische Exponentialfamilie mit natürlichem Parameter θ Θ (Θ sei ein offenes Intervall) und Statistik T (x). Dann ist 1, T (x) < c 1 γ 1, T (x) = c 1 φ (x) = 0, c 1 < T (x) < c 2 γ 2, T (x) = c 2 1, T (x) > c 2 ein UMPU-Test zum Niveau α unter allen unverfälschten Tests φ zum Niveau α. Dabei werden c 1, c 2, γ 1, γ 2 aus E θ0 [φ (X)] = α, E θ0 [φ (X)T (X)] = αe θ0 [T (X)] bestimmt. Beispiel Zweiseitiger Binomial-Test H 0 : π = π 0 vs. H 1 : π π 0 ist UMPU-Test. 51

34 i.i.d. 2. Zweiseitiger Gauß-Test mit X 1,..., X n N(µ, σ 2 ), σ 2 bekannt, ist für UMPU-Test. H 0 : µ = µ 0 vs. H 1 : µ µ 0 3. Zweiseitiger Poisson-Test: Bei X 1,..., X n i.i.d. Po(λ) H 0 : λ = λ 0 vs. H 1 : λ λ 0 liegt eine einparametrische Exponentialfamilie mit natürlichem Parameter θ = log λ vor. Äquivalente Hypothesen in θ sind Bestimmung der Prüfgröße: H 0 : θ = θ 0 vs. H 1 : θ θ 0. f(x i θ) = h(x i )c(θ) exp (θx i ) ( f(x θ) = f(x 1 θ)... f(x n θ) exp θ x i }{{} T (x) ) und somit φ (x) = 1, n x i < c 1 γ 1, n x i = c 1 0, c 1 < n x i < c 2 γ 2, n x i = c 2 1, n x i > c Zweiseitiger χ 2 -Test auf die Varianz: Seien X 1,..., X n i.i.d. N(µ, σ 2 ), µ bekannt. Getestet wird H 0 : σ 2 = σ 2 0 vs. H 1 : σ 2 σ 2 0. Mehrparametrische Verteilungsannahme Bislang: θ skalar. θ = (µ, σ 2 ) ist bei N(µ, σ 2 ) Verteilung nicht in der Theorie optimaler Tests enthalten. t-test auf µ (bei unbekanntem σ 2 ) und andere sind nicht erfasst. Idee: Optimale Tests lassen sich (noch) für eine skalare Komponente η von θ = (η, ξ), wobei ξ mehrdimensional sein darf, konstruieren. ξ ist als Stör-/Nuisanceparameter zu betrachten. Voraussetzung an Verteilungsfamilie: {f(x θ), θ Θ R k } ist eine (strikt) k-parameterische Exponentialfamilie mit natürlichem Parameter θ = (η, ξ) und T = (U, V ), U skalar. Dies führt auf die Theorie bedingter Tests. 52

35 Passend zum Beispiel für t-test: Vergleich von µ 1, µ 2 bei unabhängigen Stichproben nur, falls σ 2 1 = σ2 2 = σ2 ist. Test auf Signifikanz von β 1 in linearer Einfachregression. Bereits nicht mehr anwendbar für Vergleich von µ 1, µ 2 bei σ 2 1 σ2 2 (Behrens-Fisher-Problem). Test auf Signifikanz von β 1 im Logit- oder Poisson-Regressionsmodell. (asymptotische) Likelihood-Theorie, Bayes-Inferenz. 2.3 Bereichsschätzungen und Konfidenzintervalle Definition und Beurteilung der Güte Definition 2.39 (Bereichsschätzung). Eine Bereichsschätzung (ein Konfidenzbereich) C für τ(θ) zum (vorgegebenen) Vertrauensgrad ( Konfidenzniveau) 1 α ist eine Abbildung des Stichprobenraums X in die σ-algebra L m des R m, also x C(x)( R m ) L m, mit Dabei sei τ(θ) m-dimensionaler Parameter. P θ (τ(θ) C(X)) 1 α für alle θ. C(X) ist ein zufälliger Bereich im R m. Nach Beobachtung der Stichprobe X = x ist C(x) gegeben. Der Aussage! τ(θ) C(x) (richtig oder falsch) wird der Vertrauensgrad 1 α zugeordnet. Dabei gilt die bekannte Häufigkeitsinterpretation. Ist C(x) für jedes x ein Intervall, so heißt C(x) Konfidenzintervall und C eine Intervallschätzung. Eine Wahrscheinlichkeitsaussage zu τ(θ) C(x) bei gegebenem x ist im Rahmen der Bayes-Inferenz (ohne logische Probleme) möglich. Die Präzision von C(X) wird gemessen durch die erwartete Größe des Bereichs bzw. durch die Länge des Konfidenzintervalls. i.i.d. Beispiel Seien X 1,..., X n N(µ, σ 2 ) und [ ( α ) S n C(X) = X t n 1, 2 X ( α ) ] S n + t n 1 2 ein Konfidenzintervall für µ. Die Länge L = 2 t n 1 ( α 2 ) S n 53

2.2 Klassische Testtheorie

2.2 Klassische Testtheorie 2.2 Klassische Testtheorie iel: Finde Test zum Niveau mit optimaler Güte (Power) für 2 1. Dabei ist n finit. 2.2.1 Problemstellung Sei der Parameterraum; die Hypothesen seien H 0 : 2 0 vs. H 1 : 2 1, mit

Mehr

2.2 Klassische Testtheorie

2.2 Klassische Testtheorie 192 2.2.1 Problemstellung Ziel: Finde Test zum Niveau mit optimaler Güte (Power) für 2 1.Dabeiistn finit. Problemstellung: I Sei der Parameterraum; die Hypothesen seien H 0 : 2 0 vs. H 1 : 2 1, mit 0 \

Mehr

Formelsammlung zur Vorlesung Schätzen und Testen I

Formelsammlung zur Vorlesung Schätzen und Testen I Schätzen und Testen I WS 2008/09 Ludwig Fahrmeir, Christian Heumann, Christiane Dargatz Formelsammlung zur Vorlesung Schätzen und Testen I 1 Einführung in statistische Modelle und Inferenzkonzepte 1.1

Mehr

5 Konfidenzschätzung. 5.1 Einige Grundbegriffe zur Konfidenzschätzung

5 Konfidenzschätzung. 5.1 Einige Grundbegriffe zur Konfidenzschätzung 5 Konfidenzschätzung 5. Einige Grundbegriffe zur Konfidenzschätzung Diesem Kapitel liegt das parametrische Modell {X, B X, P } mit P {P Θ} zugrunde. {Θ, B Θ } sei ein Meßraum über Θ und µ ein σ-finites

Mehr

3.3 Methoden zur Evaluierung von Schätzern

3.3 Methoden zur Evaluierung von Schätzern 3.3 Methoden zur Evaluierung von Schätzern Bis jetzt haben wir nur glaubwürdige Techniken zur Konstruktion von Punktschätzern besprochen. Falls unterschiedliche Schätzer für einen Parameter resultieren,

Mehr

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr. Statistik II Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen Statistik II 2. Parameterschätzung: 2.1 Grundbegriffe; 2.2 Maximum-Likelihood-Methode;

Mehr

Signifikanztests Optimalitätstheorie

Signifikanztests Optimalitätstheorie Kapitel Signifikanztests Optimalitätstheorie Randomisierte Tests In einem statistischen Modell M, A, P ϑ sei ein Testproblem gegeben: H : ϑ Θ gegen H : ϑ Θ ; wobei also durch Θ Θ Θ eine Zerlegung des Parameterbereichs

Mehr

2.2 Klassische Testtheorie

2.2 Klassische Testtheorie 2.2 Klassische Testtheorie iel: Finde Test zum Niveau mit optimaler Güte (Power) für 2 1. Dabei ist n finit. 2.2.1 Problemstellung Sei der Parameterraum; die Hypothesen seien H 0 : 2 0 vs. H 1 : 2 1, mit

Mehr

Statistik IV. Modul P8: Grundlagen der Statistik II Vorlesung P8.1: Wahrscheinlichkeitstheorie und Inferenz II

Statistik IV. Modul P8: Grundlagen der Statistik II Vorlesung P8.1: Wahrscheinlichkeitstheorie und Inferenz II Statistik IV Modul P8: Grundlagen der Statistik II Vorlesung P8.1: Wahrscheinlichkeitstheorie und Inferenz II Prof. Dr. Torsten Hothorn Institut für Statistik Ludwig Maximilians Universität München L A

Mehr

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt Konfidenzintervalle Annahme: X 1,..., X n iid F θ. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt P θ (U θ O) = 1 α, α (0, 1). Das Intervall [U, O] ist ein Konfidenzintervall

Mehr

Mathematische Statistik Aufgaben zum Üben. Schätzer

Mathematische Statistik Aufgaben zum Üben. Schätzer Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch

Mehr

Schätzen und Testen I

Schätzen und Testen I Schätzen und Testen I Wintersemester 2007/08 Skript zur Vorlesung von Ludwig Fahrmeir Christian Heumann bearbeitet von Christiane Dargatz Susanne Heim L A TEX von Martin Slawski Martina Weber 20. Oktober

Mehr

3 Grundlagen statistischer Tests (Kap. 8 IS)

3 Grundlagen statistischer Tests (Kap. 8 IS) 3 Grundlagen statistischer Tests (Kap. 8 IS) 3.1 Beispiel zum Hypothesentest Beispiel: Betrachtet wird eine Abfüllanlage für Mineralwasser mit dem Sollgewicht µ 0 = 1000g und bekannter Standardabweichung

Mehr

Punktschätzer Optimalitätskonzepte

Punktschätzer Optimalitätskonzepte Kapitel 1 Punktschätzer Optimalitätskonzepte Sei ein statistisches Modell gegeben: M, A, P ϑ Sei eine Funktion des Parameters ϑ gegeben, γ : Θ G, mit irgendeiner Menge G, und sei noch eine Sigma-Algebra

Mehr

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer 3.4 Asymptotische Evaluierung von Schätzer 3.4.1 Konsistenz Bis jetzt haben wir Kriterien basierend auf endlichen Stichproben betrachtet. Konsistenz ist ein asymptotisches Kriterium (n ) und bezieht sich

Mehr

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar Statistische Methoden in der Physik Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen

Mehr

Schätzen und Testen I

Schätzen und Testen I Schätzen und Testen I Wintersemester 2009/10 Skript zur Vorlesung von Ludwig Fahrmeir Christian Heumann bearbeitet von Christiane Dargatz L A TEX von Martin Slawski Martina Weber 6. April 2010 Verbesserungen

Mehr

Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren

Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren Kapitel 9 Schätzverfahren und Konfidenzintervalle 9.1 Grundlagen zu Schätzverfahren Für eine Messreihe x 1,...,x n wird im Folgenden angenommen, dass sie durch n gleiche Zufallsexperimente unabhängig voneinander

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

6. Schätzverfahren für Parameter

6. Schätzverfahren für Parameter 6. Schätzverfahren für Parameter Ausgangssituation: Ein interessierender Zufallsvorgang werde durch die ZV X repräsentiert X habe eine unbekannte Verteilungsfunktion F X (x) Wir interessieren uns für einen

Mehr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schätzvariablen für Parameter von Verteilungen. Sei X = (X 1,..., X n ). Bei X

Mehr

Einführung in die statistische Testtheorie

Einführung in die statistische Testtheorie 1 Seminar Simulation und Bildanalyse mit Java von Benjamin Burr und Philipp Orth 2 Inhalt 1. Ein erstes Beispiel 2. 3. Die Gütefunktion 4. Gleichmäßig beste Tests (UMP-Tests) 1 Einführendes Beispiel 3

Mehr

Nachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester Oktober 2011

Nachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester Oktober 2011 Nachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester 2011 28. Oktober 2011 Prof. Dr. Torsten Hothorn Institut für Statistik Nachname: Vorname: Matrikelnummer: Anmerkungen: ˆ Schreiben

Mehr

3.4 Bayes-Verfahren Begrifflicher Hintergrund. Satz 3.22 (allgemeines Theorem von Bayes)

3.4 Bayes-Verfahren Begrifflicher Hintergrund. Satz 3.22 (allgemeines Theorem von Bayes) 3.4 Bayes-Verfahren 203 3.4.1 Begrifflicher Hintergrund Satz 3.22 (allgemeines Theorem von Bayes) Seien X und U zwei Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsfunktion f X,U ( ) bzw. Dichte f

Mehr

OLS-Schätzung: asymptotische Eigenschaften

OLS-Schätzung: asymptotische Eigenschaften OLS-Schätzung: asymptotische Eigenschaften Stichwörter: Konvergenz in Wahrscheinlichkeit Konvergenz in Verteilung Konsistenz asymptotische Verteilungen nicht-normalverteilte Störgrößen zufällige Regressoren

Mehr

Schätzen und Testen I in 90 Minuten. 8. Februar 2010

Schätzen und Testen I in 90 Minuten. 8. Februar 2010 Schätzen und Testen I in 90 Minuten 8. Februar 2010 1. Einführung in statistische Modelle und Inferenzkonzepte 2. Klassische Schätz- und Testtheorie 3. Likelihood-Inferenz 4. Bayes-Inferenz 5. Einführung

Mehr

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Oktober 2018 Prof. Dr. Hans-Jörg

Mehr

Stochastik Praktikum Parametrische Schätztheorie

Stochastik Praktikum Parametrische Schätztheorie Stochastik Praktikum Parametrische Schätztheorie Thorsten Dickhaus Humboldt-Universität zu Berlin 05.10.2010 Prolog Momentenmethode X : Ω 1 Ω Zufallsgröße, die Experiment beschreibt. Ein statistisches

Mehr

Einführung in die Induktive Statistik: Testen von Hypothesen

Einführung in die Induktive Statistik: Testen von Hypothesen Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte

Mehr

Statistik I für Betriebswirte Vorlesung 13

Statistik I für Betriebswirte Vorlesung 13 Statistik I für Betriebswirte Vorlesung 13 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 4. Juli 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit 3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit Lernziele dieses Kapitels: Mehrdimensionale Zufallsvariablen (Zufallsvektoren) (Verteilung, Kenngrößen) Abhängigkeitsstrukturen Multivariate

Mehr

1.2 Summen von Zufallsvariablen aus einer Zufallsstichprobe

1.2 Summen von Zufallsvariablen aus einer Zufallsstichprobe 1.2 Summen von Zufallsvariablen aus einer Zufallsstichprobe Nachdem eine Stichprobe X 1,..., X n gezogen wurde berechnen wir gewöhnlich irgendwelchen Wert damit. Sei dies T = T (X 1,..., X n, wobei T auch

Mehr

Statistik. Andrej Depperschmidt. Sommersemester 2016

Statistik. Andrej Depperschmidt. Sommersemester 2016 Statistik Andrej Depperschmidt Sommersemester 2016 Schätzen der Varianz mit Stichprobenmittel Sei X = (X 1,..., X n ) eine Stichprobe u.i.v. ZV mit E[X i ] = µ R, Var[X i ] = σ 2 (0, ) und µ 4 = E[(X i

Mehr

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum), Kapitel 14 Parameterschätzung Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum), = ( 1,..., n ) sei eine Realisierung der Zufallsstichprobe X = (X 1,..., X n ) zu

Mehr

11 Testen von Hypothesen

11 Testen von Hypothesen Testen von Hypothesen Ausgehend von einem statistischen Modell X, B,P ϑ,x, ϑ Θ, interessiert manchmal nicht der genaue Wert des unbekannten Parameters ϑ, sondern lediglich, ob ϑ in einer echten Teilmenge

Mehr

Konfidenzbereiche. Kapitel Grundlagen. Wir gehen wieder von einem allgemeinen (parametrischen) statistischen Modell aus,

Konfidenzbereiche. Kapitel Grundlagen. Wir gehen wieder von einem allgemeinen (parametrischen) statistischen Modell aus, Kapitel 4 Konfidenzbereiche 4.1 Grundlagen Wir gehen wieder von einem allgemeinen parametrischen statistischen Modell aus, M, A, P ϑ ; sei eine Funktion des Parameters gegeben, die einen interessierenden

Mehr

2.3 Intervallschätzung

2.3 Intervallschätzung 2.3.1 Motivation und Hinführung Bsp. 2.11. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler 2009 war genau 33.7%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau

Mehr

2.3 Intervallschätzung

2.3 Intervallschätzung 2.3.1 Motivation und Hinführung Bsp. 2.15. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler unter allen Wählern war 2009 auf eine Nachkommastelle gerundet genau 33.7%. Wie groß ist die Wahrscheinlichkeit,

Mehr

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,

Mehr

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9. 7. Übung: Aufgabe 1 b), c), e) Aufgabe a), c), e) Aufgabe 3 c), e) Aufgabe 4 b) Aufgabe 5 a) Aufgabe 6 b) Aufgabe 7 e) Aufgabe 8 c) Aufgabe 9 a), c), e) Aufgabe 10 b), d) Aufgabe 11 a) Aufgabe 1 b) Aufgabe

Mehr

4. Verteilungen von Funktionen von Zufallsvariablen

4. Verteilungen von Funktionen von Zufallsvariablen 4. Verteilungen von Funktionen von Zufallsvariablen Allgemeine Problemstellung: Gegeben sei die gemeinsame Verteilung der ZV en X 1,..., X n (d.h. bekannt seien f X1,...,X n bzw. F X1,...,X n ) Wir betrachten

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!!

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!! Nachholklausur zur Vorlesung Schätzen und Testen I 04. April 2013 Volker Schmid, Ludwig Bothmann, Julia Sommer Aufgabe 1 2 3 4 5 6 Punkte Note Bitte ausfüllen und unterschreiben!!! Name, Vorname: Matrikelnummer:

Mehr

5 Optimale erwartungstreue Schätzer

5 Optimale erwartungstreue Schätzer 33 5 Optimale erwartungstreue Schätzer 5.1 Definition Seien X 1,..., X n reelle Zufallsvariablen, T T (X 1,..., X n ) reellwertige Statistik. T heißt linear : c 1,..., c n R mit T n c j X j 5.2 Satz Seien

Mehr

Die Momentenmethode. Vorteil: Oft einfach anwendbar. Nachteil: Güte kann nur schwer allgemein beurteilt werden; liefert zum Teil unbrauchbare

Die Momentenmethode. Vorteil: Oft einfach anwendbar. Nachteil: Güte kann nur schwer allgemein beurteilt werden; liefert zum Teil unbrauchbare 17.1.3 Die Momentenmethode Vorteil: Oft einfach anwendbar. Nachteil: Güte kann nur schwer allgemein beurteilt werden; liefert zum Teil unbrauchbare Lösungen. Sei ϑ = (ϑ 1,...,ϑ s ) der unbekannte, s-dimensionale

Mehr

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Statistik II Version A 1. Klausur Sommersemester 2011 Hamburg, 27.07.2011 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................

Mehr

2 Klassische statistische Verfahren unter Normalverteilungs-Annahme

2 Klassische statistische Verfahren unter Normalverteilungs-Annahme 7 Klassische statistische Verfahren unter Normalverteilungs-Annahme. χ s, t s, F r,s -Verteilung a) N,..., N s uiv N (0, ) Verteilung von Y := N +... + N s heißt Chi-Quadrat-Verteilung mit s Freiheitsgraden

Mehr

Wir gehen wieder von einem allgemeinen (parametrischen) statistischen Modell aus, (

Wir gehen wieder von einem allgemeinen (parametrischen) statistischen Modell aus, ( Kapitel 4 Konfidenzbereiche Wir gehen wieder von einem allgemeinen parametrischen statistischen Modell aus, M, A, P ϑ ; sei eine Funktion des Parameters gegeben, die einen interessierenden Teil-Parameter

Mehr

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Streuungsparameter Varianz Var(X) bzw. σ 2 : [x i E(X)] 2 f(x i ), wenn X diskret Var(X)

Mehr

So berechnen Sie einen Schätzer für einen Punkt

So berechnen Sie einen Schätzer für einen Punkt htw saar 1 EINFÜHRUNG IN DIE STATISTIK: SCHÄTZEN UND TESTEN htw saar 2 Schätzen: Einführung Ziel der Statistik ist es, aus den Beobachtungen eines Merkmales in einer Stichprobe Rückschlüsse über die Verteilung

Mehr

2. Prinzipien der Datenreduktion

2. Prinzipien der Datenreduktion 2. Prinzipien der Datenreduktion Man verwendet die Information in einer Stichprobe X 1,..., X n, um statistische Inferenz über einen unbekannten Parameter zu betreiben. Falls n groß ist, so ist die beobachtete

Mehr

Stochastik für Mathematiker Teil 2: Wahrscheinlichkeitstheorie

Stochastik für Mathematiker Teil 2: Wahrscheinlichkeitstheorie Stochastik für Mathematiker Teil 2: Wahrscheinlichkeitstheorie Sommersemester 2018 Kapitel 8: Elemente der mathematischen Statistik Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik

Mehr

Wahrscheinlichkeitstheorie und Statistik

Wahrscheinlichkeitstheorie und Statistik Wahrscheinlichkeitstheorie und Statistik Definitionen und Sätze Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 2018 2.5.2018 Diskrete Wahrscheinlichkeitsräume Diskreter

Mehr

1.3 Wiederholung der Konvergenzkonzepte

1.3 Wiederholung der Konvergenzkonzepte 1.3 Wiederholung der Konvergenzkonzepte Wir erlauben nun, dass der Stichprobenumfang n unendlich groß wird und untersuchen das Verhalten von Stichprobengrößen für diesen Fall. Dies liefert uns nützliche

Mehr

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Statistik 2 1. Klausur Sommersemester 2013 Hamburg, 26.07.2013 A BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................

Mehr

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell 1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs

Mehr

Allgemeines zu Tests. Statistische Hypothesentests

Allgemeines zu Tests. Statistische Hypothesentests Statistische Hypothesentests Allgemeines zu Tests Allgemeines Tests in normalverteilten Grundgesamtheiten Asymptotische Tests Statistischer Test: Verfahren Entscheidungsregel), mit dem auf Basis einer

Mehr

Tests einzelner linearer Hypothesen I

Tests einzelner linearer Hypothesen I 4 Multiple lineare Regression Tests einzelner linearer Hypothesen 4.5 Tests einzelner linearer Hypothesen I Neben Tests für einzelne Regressionsparameter sind auch Tests (und Konfidenzintervalle) für Linearkombinationen

Mehr

5 Allgemeine Verfahren zum Testen von Hypothesen

5 Allgemeine Verfahren zum Testen von Hypothesen 5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ).

Mehr

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:

Mehr

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen Kapitel 8 Schätzung von Parametern 8.1 Schätzmethoden Gegeben seien Beobachtungen Ü Ü ¾ Ü Ò die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen ¾ Ò auffassen. Die Verteilung

Mehr

2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X

2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X Hypothesentests Bisher betrachtet: Punkt- bzw. Intervallschätzung des unbekannten Mittelwerts Hierzu: Verwendung der 1 theoretischen Information über Verteilung von X empirischen Information aus Stichprobenrealisation

Mehr

Mehrdimensionale Zufallsvariablen

Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,

Mehr

4.2 Methoden um Tests zu finden: Likelihood Quotienten Tests (LRT) Falls X 1,..., X n iid aus f(x θ), so gilt für die Likelihood Funktion

4.2 Methoden um Tests zu finden: Likelihood Quotienten Tests (LRT) Falls X 1,..., X n iid aus f(x θ), so gilt für die Likelihood Funktion 4.2 Methoden um Tests zu finden: Likelihood Quotienten Tests (LRT) Falls X 1,..., X n iid aus f(x θ), so gilt für die Likelihood Funktion L(θ x) = f(x θ) = n f(x i θ). Falls L(θ x) > L(θ x), für θ, θ Θ,

Mehr

Statistische Entscheidungstheorie

Statistische Entscheidungstheorie KAPITEL 6 Statistische Entscheidungstheorie 6.1. Verlustfunktion, Risiko, Minimax Schätzer Es sei (, A, (P θ ) θ ) ein statistisches Modell. Das heißt, ist die Menge aller möglichen Stichproben, A ist

Mehr

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen Die Familie der χ (n)-verteilungen Sind Z 1,..., Z m für m 1 unabhängig identisch standardnormalverteilte Zufallsvariablen, so genügt die Summe der quadrierten Zufallsvariablen χ := m Z i = Z 1 +... +

Mehr

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen Die Familie der χ (n)-verteilungen Sind Z 1,..., Z m für m 1 unabhängig identisch standardnormalverteilte Zufallsvariablen, so genügt die Summe der quadrierten Zufallsvariablen χ := m Z i = Z 1 +... +

Mehr

Statistik I für Betriebswirte Vorlesung 4

Statistik I für Betriebswirte Vorlesung 4 Statistik I für Betriebswirte Vorlesung 4 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 25. April 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten: Aufgabe 1 (8=2+2+2+2 Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten: Die Zufallsvariable X bezeichne die Note. 1443533523253. a) Wie groß ist h(x 5)? Kreuzen

Mehr

Einführung in die statistische Testtheorie II

Einführung in die statistische Testtheorie II 1 Seminar: Simulation und Bildanalyse mit Java Einführung in die statistische Testtheorie II Guntram Seitz Sommersemester 2004 1 WIEDERHOLUNG 2 1 Wiederholung Grundprinzip: Annahme: Beobachtungen bzw.

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2

Mehr

Suffizienz und Vollständigkeit

Suffizienz und Vollständigkeit KAPITEL 7 Suffizienz und Vollständigkeit 7.1. Definition der Suffizienz im diskreten Fall Beispiel 7.1.1. Betrachten wir eine unfaire Münze, wobei die Wahrscheinlichkeit θ, dass die Münze Kopf zeigt, geschätzt

Mehr

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Stefan Etschberger für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2017 Rechenregeln für den Erwartungswert Ist f symmetrisch bzgl. a, so gilt E(X)

Mehr

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1 Aufgabe 1 (2 + 2 + 2 + 1 Punkte) Gegeben sei folgende gemeinsame Wahrscheinlichkeitsfunktion f(x, y) = P (X = x, Y = y) der Zufallsvariablen X und Y : 0.2 x = 1, y = 1 0.3 x = 2, y = 1 f(x, y) = 0.45 x

Mehr

7. Hypothesentests. Ausgangssituation erneut: ZV X repräsentiere einen Zufallsvorgang. X habe die unbekannte VF F X (x)

7. Hypothesentests. Ausgangssituation erneut: ZV X repräsentiere einen Zufallsvorgang. X habe die unbekannte VF F X (x) 7. Hypothesentests Ausgangssituation erneut: ZV X repräsentiere einen Zufallsvorgang X habe die unbekannte VF F X (x) Interessieren uns für einen unbekannten Parameter θ der Verteilung von X 350 Bisher:

Mehr

Statistische Entscheidungsmodelle

Statistische Entscheidungsmodelle 2008 AGI-Information Management Consultants May be used for personal purporses only or by libraries associated to dandelon.com network. Statistische Entscheidungsmodelle Von o. Prof. Dipl.-Vw. Dr. Gerhard

Mehr

DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 234/467 Ernst W. Mayr

DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 234/467 Ernst W. Mayr 1.4.2 Kontinuierliche Zufallsvariablen als Grenzwerte diskreter Zufallsvariablen Sei X eine kontinuierliche Zufallsvariable. Wir können aus X leicht eine diskrete Zufallsvariable konstruieren, indem wir

Mehr

1.8 Mehrdimensionale Zufallsvariablen

1.8 Mehrdimensionale Zufallsvariablen 1.8 Mehrdimensionale Zufallsvariablen 1.8 Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Schnelldurchgang unter Bezug auf das

Mehr

Stochastik Serie 11. ETH Zürich HS 2018

Stochastik Serie 11. ETH Zürich HS 2018 ETH Zürich HS 208 RW, D-MATL, D-MAVT Prof. Marloes Maathuis Koordinator Dr. Marvin Müller Stochastik Serie. Diese Aufgabe behandelt verschiedene Themenbereiche aus dem gesamten bisherigen Vorlesungsmaterial.

Mehr

Beispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10

Beispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10 6 Hypothesentests Gauß-Test für den Mittelwert bei bekannter Varianz 6.3 Beispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10 G(µ) 0 α 0. 0.4 0.6 0.8 1 n = 10 n =

Mehr

Gegenbeispiele in der Wahrscheinlichkeitstheorie

Gegenbeispiele in der Wahrscheinlichkeitstheorie Gegenbeispiele in der Wahrscheinlichkeitstheorie Mathias Schaefer Universität Ulm 26. November 212 1 / 38 Übersicht 1 Normalverteilung Definition Eigenschaften Gegenbeispiele 2 Momentenproblem Definition

Mehr

Diskrete Wahrscheinlichkeitstheorie

Diskrete Wahrscheinlichkeitstheorie SS 2013 Diskrete Wahrscheinlichkeitstheorie Javier Esparza Fakultät für Informatik TU München http://www7.in.tum.de/um/courses/dwt/ss13 Sommersemester 2013 Teil V Induktive Statistik Induktive Statistik

Mehr

3.4 Bayes-Verfahren Begrifflicher Hintergrund. Satz 3.19 (allgemeines Theorem von Bayes)

3.4 Bayes-Verfahren Begrifflicher Hintergrund. Satz 3.19 (allgemeines Theorem von Bayes) 3.4 Bayes-Verfahren 202 3.4.1 Begrifflicher Hintergrund Satz 3.19 (allgemeines Theorem von Bayes) Seien X und U zwei Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsfunktion f X,U ( ) bzw. Dichte f

Mehr

Lösungen ausgewählter Übungsaufgaben zum Buch. Elementare Stochastik (Springer Spektrum, 2012) Teil 5: Aufgaben zu den Kapiteln 9 bis 12

Lösungen ausgewählter Übungsaufgaben zum Buch. Elementare Stochastik (Springer Spektrum, 2012) Teil 5: Aufgaben zu den Kapiteln 9 bis 12 Lösungen ausgewählter Übungsaufgaben zum Buch Elementare Stochastik (Springer Spektrum, 0) Teil 5: Aufgaben zu den Kapiteln 9 bis Aufgaben zu Kapitel 9 Zu Abschnitt 9. Ü9.. Es sei ψ : R R stetig differenzierbar.

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Reelle Zufallsvariablen

Reelle Zufallsvariablen Kapitel 3 eelle Zufallsvariablen 3. Verteilungsfunktionen esultat aus der Maßtheorie: Zwischen der Menge aller W-Maße auf B, nennen wir sie W B ), und der Menge aller Verteilungsfunktionen auf, nennen

Mehr

Institut für Statistik der LMU. FORMELSAMMLUNG 2003 zur STOCHASTIK FÜR BIOINFORMATIKER

Institut für Statistik der LMU. FORMELSAMMLUNG 2003 zur STOCHASTIK FÜR BIOINFORMATIKER Institut für Statistik der LMU FORMELSAMMLUNG 2003 zur STOCHASTIK FÜR BIOINFORMATIKER 2003 2003 Inhaltsverzeichnis 1 Elementare Wahrscheinlichkeitsrechnung 1 1.1 Die Axiome von Kolmogorov...........................

Mehr

6. Statistische Hypothesentests

6. Statistische Hypothesentests 6. Statistische Hypothesentests Ausgangssituation erneut: ZV X repräsentiere einen Zufallsvorgang X habe die unbekannte VF F X (x) Interessieren uns für einen unbekannten Parameter θ der Verteilung von

Mehr

3. Übungsblatt - Lösungsskizzen. so, dass f tatsächlich eine Wahrscheinlichkeitsdichte

3. Übungsblatt - Lösungsskizzen. so, dass f tatsächlich eine Wahrscheinlichkeitsdichte Einführung in die Wahrscheinlichkeitstheorie und Statistik Prof. Dr. Jan Johannes Sandra Schluttenhofer Wintersemester 208/9 3. Übungsblatt - Lösungsskizzen Aufgabe 9 Stetige Verteilungen, 4 =.5 +.5 +

Mehr

Wirtschaftsmathematik

Wirtschaftsmathematik Einführung in einige Teilbereiche der Wintersemester 206 Prof. Dr. Stefan Etschberger HSA Unabhängigkeit von Ereignissen A, B unabhängig: Eintreten von A liefert keine Information über P(B). Formal: P(A

Mehr

Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung

Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer 014 Musterlösung 1. 8 Punkte) a) 1 Pt)Für das Komplement gilt PR A) = 1 PR c A) = 0.968. b) 1 Pt)Nach Definition der bedingten Wahrscheinlichkeit

Mehr

Schätzung im multiplen linearen Modell VI

Schätzung im multiplen linearen Modell VI Schätzung im multiplen linearen Modell VI Wie im einfachen linearen Regressionsmodell definiert man zu den KQ/OLS-geschätzten Parametern β = ( β 0, β 1,..., β K ) mit ŷ i := β 0 + β 1 x 1i +... β K x Ki,

Mehr