SKRIPTUM. zur Lehrveranstaltung MATHEMATISCHE STATISTIK. von. Ferdinand Österreicher. Institut für Mathematik der Universität Salzburg

Größe: px
Ab Seite anzeigen:

Download "SKRIPTUM. zur Lehrveranstaltung MATHEMATISCHE STATISTIK. von. Ferdinand Österreicher. Institut für Mathematik der Universität Salzburg"

Transkript

1 SKRIPTUM zur Lehrveranstaltung MATHEMATISCHE STATISTIK von Ferdinand Österreicher Institut für Mathematik der Universität Salzburg Salzburg Februar 200 (Version 5)

2 Inhaltsverzeichnis SCHÄTZEN VON PARAMETERN 3. KONSTRUKTION VON PUNKTSCHÄTZERN DieMomentenmethode DieMaximum-Likelihood-Methode Ausblick: Die Minimum-χ 2 -Methode GÜTEKRITERIEN FÜR PUNKTSCHÄTZER Erwartungstreue Schätzer Effizienz Konsistenz Suffizienz Die Sätze von Rao-Blackwell und Lehmann-Scheffé KONSTRUKTIONVONKONFIDENZINTERVALLEN Konstruktion von Konfidenzintervallen vermittels Pivot-Variablen Ausblick: Vergleich des Score-Konfidenzintervalls mit dem Wald schenapproximationsintervall METHODE DER KLEINSTEN QUADRATE UND LINEARE MOD- ELLE Einleitung MatrixdarstellungvonlinearenModellen Der Satz von Gauß-Markoff Kanonische Darstellung und Schätzung von σ Der Satz von Gauß-Markoff unter Normalverteilungsannahme 8 2 ÜBUNGSAUFGABEN UND PROJEKTE 85

3 2 INHALTSVERZEICHNIS

4 Abschnitt SCHÄTZEN VON PARAMETERN. KONSTRUKTION VON PUNKTSCHÄTZERN.. Die Momentenmethode Wir gehen im Folgenden stets von identisch gemäß P θ, θ Θ verteilten Zufallsvariablen X,...,X n aus, wobei Parameter und Verteilung einander umkehrbar eindeutig entsprechen. Der Einfachheit halber werden wir stets unabhängige, reellwertige Zufallsvariable mit Werten in einem offenen Intervall (a, b) R betrachten und annehmen, dass die Parametermenge eine offene, zusammenhängende Teilmenge von R oder R 2 ist. Die Dimension n des Zufallsvektors X (= X n ) = (X,..., X n ) bzw. dessen Reali-sierungen werden wir nur in Ausnahmefällen vermerken. Beispiel 0 (zur Motivation der Momentenmethode): In einer Urne befindet sich eine unbekannte Anzahl N von Kugeln. Um dies Anzahl zu schätzen, werden der Urne s Kugeln (zufällig und ohne Zurücklegen) entnommen, markiert und wieder in die Urne zurückgelegt. Daher enthält die Urne nunmehr s markierte und N s unmarkierte Kugeln. NunwerdenderUrne n Kugeln zufällig und a) mit bzw. b) ohne Zurücklegen gezogen und die Anzahl S n der markierten Kugeln gezählt. Aufgrund des Empirischen Gesetzes der großen Zahlen ist anzunehmen, dass der Anteil der markierten Kugeln in der Stichprobe mit dem in der Urne für große n gut 3

5 4 ABSCHNITT. SCHÄTZEN VON PARAMETERN übereinstimmt, oder - formal - S n n ' s N für große Stichprobenumfänge n. Nach dem unbekannten Parameter N aufgelöst, legt dies folgenden Schätzer für N nahe ˆN = n s S n. Anmerkung : Die oben beschriebene Vorgangsweise heißt Capture-Recapture- Methode und wird beipielsweise dazu verwendet, die Anzahl der Fische in einem See zu schätzen. Der sogenannte Petersen-Schätzer ˆN ist ein typisches Beispiel für die Anwendung der Momentenmethode. Die auf dem Gesetz der Großen Zahlen beruhende Momentenmethode geht auf den englischen Statistiker Karl Pearson ( ) zurück. Seien r N, p j ((a, b)) das Bild von (a, b) unter der Potenzfunktion p j (x) = x j,j {,..., r}, m j (θ) =E θ (X j ) für j {,..., r}, ˆm j = n P n Xj i g : Q r j= p j((a, b)) 7 R eine stetige Abbildung und q(θ) =g(m (θ),..., m r (θ)). Dann ist T (X) =g(ˆm,..., ˆm r ) der Momentenschätzer für q(θ). Im Folgenden bezeichnen X n = n P n X i das Stichprobenmittel und S 2 n = n P n Xi X n 2 die (unmodifizierte) Stichprobenvarianz. Genaueres dazu kann folgendem Beitrag entnommen werden: Österreicher, F.: Schätzen des Umfangs von Populationen. Fortbildungsseminar, Meran 990

6 .. KONSTRUKTION VON PUNKTSCHÄTZERN 5 Spezialfälle r =und r =2:Für r =: m (θ) = μ = E θ (X ) ˆm = ˆμ = X n r =2: q(θ) =m 2 (θ) m 2 (θ) = σ 2 = V θ (X ) T (X) = ˆm 2 ˆm 2 = ˆσ 2 P = n n X2 i 2 Xn P = n 2 n Xi X n = S n 2 Beispiel a: Seien X,..., X n N(μ, σ 2 0) unabhängig (normalverteilt) mit dem Parameter θ = μ R = Θ. D.h. μ ist unbekannt und σ 2 0 ist bekannt. Gemäß Spezialfall r = istdermomentenschätzer wegen μ = E (μ,σ 2 0 )(X ) gleich ˆμ = X n. Beispiel b: Seien X,..., X n N(μ, σ 2 ) unabhängig (normalverteilt) mit dem Parameter θ =(μ, σ 2 ) R (0, ) =Θ. D.h. μ und σ 2 sind unbekannt. Gemäß Spezialfall r = und r = 2 ist der Momentenschätzer wegen μ = E (μ,σ 2 )(X ) und σ 2 = V (μ,σ 2 )(X ) gleich (ˆμ, ˆσ 2 )=( X n, S n) 2. Beispiel 2a: Seien X,..., X n U[0, θ] unabhängig (gemäß einer stetigen Gleichverteilung auf [0, θ] verteilt) mit θ (0, ) =Θ. Gemäß E θ (X )= θ 2 = m (θ) ist der Momentenschätzer ˆθ =2 X n. Zudem betrachten wir noch die diskrete Version von Beispiel 2a: Beispiel 2b: Seien X,..., X n U{,..., N} unabhängig (gemäß einer diskreten Gleichverteilung auf {,...,N} verteilt) mit N N = Θ. Gemäß E N (X )= N+ = m 2 (N) ist der Momentenschätzer ˆN =2 X n. Beispiel 3: Seien X,..., X n unabhängig (exponentialverteilt) mit dem Parameter θ = λ (0, ) =Θ. a) Für die Parametrisierung E λ (X ) = λ = m (λ) ist der Momentenschätzer naturgemäß ˆλ a = X n. b) Für die Parametrisierung E λ (X )= λ = m (λ) ist der Momentenschätzer naturgemäß ˆλ b =/ X n. Beispiel 4: Seien X,...,X n A p unabhängig (alternativverteilt) mit dem Parameter θ = p (0, ) = Θ. Wegen E p (X )=p = m (p) ist der Momentenschätzer ˆp = X n.

7 6 ABSCHNITT. SCHÄTZEN VON PARAMETERN Beispiel 5: Seien X,..., X n P λ unabhängig (poissonverteilt) mit dem Parameter θ = λ (0, ) =Θ. Schätzer nach r =:Wegen E λ (X )=λ ist ˆλ = X n ein Momentenschätzer. Schätzer nach r =2:Wegen V λ (X )=λ ist ˆλ2 = S n 2 ein weiterer Momentenschätzer...2 Die Maximum-Likelihood-Methode Im Folgenden wird stets vorausgesetzt, dass X =(X,..., X n ) eine Stichprobe von unabhängigen und identisch verteilten Zufallsvariablen ist, welche gemäß einer Verteilung P θ einer gegebenen Verteilungsfamilie {P θ, θ Θ} verteilt sind. Sei nun x = (x,..., x n ) eine Realisierung der Stichprobe X. Dann ist es naheliegend, jenen Wert des Parameters θ als Schätzwert zu verwenden, der die Dichte- bzw. Wahrscheinlichkeitsfunktion des Zufallsvektors X an der Stelle des beobachteten Wertes x zu einem Maximum macht. Eine Vorschrift, die dies für jeden möglichen Beobachtungswert x bewerkstelligt, nennt man einen Maximum- Likelihood-Schätzer. Definition: Seien X,..., X n unabhängige, identisch verteilte Zufallsvariable. Die zugehörige Familie {P θ, θ Θ} der durch die Wahrscheinlichkeits- bzw. Dichtefunktion f(x, θ) gegebenen Wahrscheinlichkeitsverteilungen habe die Eigenschaft,dasseszujedermöglichen Realisierung x der Stichprobe (X,...,X n )genau einen Parameterwert ˆθ = ˆθ (x,..., x n ) Θ gibt, welcher die Likelihood-Funktion L x (θ) = ny f(x i, θ) maximiert. Dann nennt man ˆθ (X,..., X n )denmaximum-likelihood-schätzer des Parameters θ. Für spezifische Anwendungssituationen wurde diese Vorgangsweise bereits von Johann Heinrich Lambert ( ) und Carl Friedrich Gauß ( ) verwendet, als allgemein anwendbare Methode stammt die Maximum-Likelihood- Methode jedoch vom englischen Statistiker Ronald Aylmer Fisher ( ). Zu Beispiel a: Für X N(μ, σ 2 ), μ R, wobei die Varianz σ 2 = σ 2 0 > 0 bekannt ist, ist die Likelihood-Funktion L x (μ) = ny 2πσ0 e (x 2 i μ) 2σ 2 0 = e P n 2σ 2 (x i μ) 2 0 (2πσ 2 0) n/2.

8 .. KONSTRUKTION VON PUNKTSCHÄTZERN 7 Auf Grund des Steinerschen Verschiebungssatzes (x i μ) 2 = (x i x n ) 2 + n(μ x n ) 2 ( ) gilt L x (μ) L x ( x n )=e P n 2σ 2 (x i x n) 2 0 (2πσ 2 0) n/2 μ R, wobei Gleichheit genau dann gilt, wenn μ = x n ist. Demgemäß ist der Maximum- Likelihood-Schätzer (MLS) das Stichprobenmittel Xn. Zu Beispiel 2a: Sei X gemäß einer stetigen Gleichverteilung auf dem Intervall [0, θ], θ > 0, verteilt. Dann gilt L x (θ) = Q n θ [0,θ](x i ) = θ½ n [0,θ] (max{x,...,x n }) 0 für θ = <xn:n θ n [0,θ] (x n:n ) =, für θ x θ n n:n wobei x n:n das Maximum der Beobachtungswerte bezeichnet. Also gilt L x (θ) L x (x n:n )= (x n:n θ > 0 mit Gleichheit genau dann, wenn θ = x ) n n:n ist. Für dieses Beispiel ist der MLS somit das Stichprobenmaximum X n:n. Zu Beispiel 2b: Für die diskrete Version dieses Beispiel ergibt sich ganz analog, dass das Stichprobenmaximum X n:n der MLS ist. Vielfach ist es zweckmäßig, anstelle der Likelihood-Funktion den Logarithmus des geometrischen Mittels der Likelihood-Funktion zu betrachten. 2 Wir werden dies in allen folgenden Beispielen tun. Zu Beispiel 3: Sei X Ex(λ). a) Für die durch E λ (X )=λ gegebene Parametrisierung ist und somit L x (λ) = ny λ x i e λ = e P n xi λ λ n n ln L x(λ) = x n λ ln λ. 2 Der Logarithmus der Likelihood-Funktion wird üblicherweise als Log-Likelihood-Funktion bezeichnet.

9 8 ABSCHNITT. SCHÄTZEN VON PARAMETERN Wir nehmen an, dass das Stichprobenmittel x n > 0 ist. (Dies ist keine wirkliche Einschränkung, zumal wegen λ > 0 gilt P ( X n > 0) =.) Differentiation nach λ ergibt d dλ n ln L x(λ) = x n λ 2 λ = λ 2 [ x n λ]. > 0 λ < x n =0 für λ = x n < 0 λ > x n Das Maximum der Likelihood-Funktion wird also für λ = x n angenommen. Der MLS ist also das Stichprobenmittel. Q 3b: Für die durch E λ (X )=/λ gegebene Parametrisierung ist L x (λ) = n λ e λ x i = e λ P n xi λ n und daher n x(λ) = λ x n +lnλ. Somit ist d dλ n ln L x(λ) = x n + λ = x n λ [ x λ] n > 0 λ < / x n =0 für λ =/ x n < 0 λ > / x n. angenom- Das Maximum der Likelihood-Funktion wird in diesem Fall für λ =/ x n men. In diesem Fall ist der MLS der Kehrwert des Stichprobenmittels. Zu Beispiel 5: Ist X gemäß einer Poissonverteilung mit Parameter λ > 0 verteilt, so ist L x (λ) = ny λ xi e λ x i! = λpn xi e nλ Q n x i! und daher n ln L x(λ) = x n ln λ λ n ln(x i!). Für den Fall x n =0 ist x i =0 i {,..., n} und daher n ln L x(λ) = λ 0 mit Gleichheit genau dann, wenn λ =0 ist.für den Fall x n (0, ) ist d dλ n ln L x(λ) = x n λ = λ [ x n λ]. > 0 λ < x n =0 für λ = x n < 0 λ > x n Somit nimmt die Likelihood-Funktion in beiden Fällen ihr Maximum für λ = x n an.

10 .. KONSTRUKTION VON PUNKTSCHÄTZERN 9 Zu Beispiel b: Für X N(μ, σ 2 ), (μ, σ 2 ) R (0, ), wobei sowohl μ als auch σ 2 zu schätzen sind, ist die Likelihood-Funktion, wie bereits aus Beispiel a bekannt, L x (μ, σ 2 )=e 2σ 2 P n (x i μ) 2 (2πσ 2 ) n/2. Dabei nehmen wir (mit Wahrscheinlichkeit o.b.d.a.) an, dass nicht alle Stichprobenwerte P gleich sind und daher der Wert der die Stichprobenvarianz s 2 n = n n (x i x n ) 2 > 0 ist. Wegen ( ) gilt n ln L x(μ, σ 2 ) = 2 [ σ 2 n (x i μ) 2 +ln2πσ 2 ] 2 [ s2 n σ 2 +ln2πσ2 ]= n ln L x( x n, σ 2 ) μ R, wobei Gleichheit genau dann zutrifft, wenn μ = x n Sei nun f(σ 2 )= [ s2 n σ 2 +ln2πσ 2 ]. Dann ist f 0 (σ 2 )= s2 n (σ 2 ) 2 σ = 2 (σ 2 ) 2 [ s2 n σ 2 ]= ist. > 0 σ 2 < s 2 n =0 für σ 2 = s 2 n < 0 σ 2 > s 2 n Also ist L x ( x n, s 2 n) L x (μ, σ 2 ) (μ, σ 2 ) R (0, ) mit Gleichheit genau dann, wenn μ = x n und σ 2 = s 2 n sind. In diesem Fall ist der MLS der Zufallsvektor ( X n, S n) 2. Zu Beispiel c: Für X N(μ, σ 2 ), wobei σ 2 (0, ) zu schätzen und der Erwartungswert μ = μ 0 bekannt ist, ist der MLS Ŝn 2 = (x i μ n 0 ) 2. Dies sieht man dadurch, dass man in den Überlegungen von Beispiel b s 2 n durch ŝ 2 n ersetzt. Zu Beispiel 4: Im Fall der Alternativverteilung mit dem Parameter p (0, ), welche durch P (X = x) =p x ( p) x,x {0, }, gegeben ist, ist. L x (p) = ny p x i ( p) x i = p P n x i ( p) n P n x i

11 0 ABSCHNITT. SCHÄTZEN VON PARAMETERN und somit n ln L x(p) = x n ln p +( x n )ln( p). Für den Fall x n =0 ist ln L n x(p) =ln( p) 0 mit Gleichheit genau dann, wenn p =0. Für den Fall x n = ist ln L n x(p) =lnp 0 mit Gleichheit genau dann, wenn p =. Im weiteren können wir also x n (0, ) annehmen. Differentiation ergibt d dp n ln L x(p) = x n p x n p = p( p) [ x n( p) ( x n )p] = p( p) [ x n p] > 0 p< x n =0 für p = x n < 0 p> x n. Somit nimmt die Likelihood-Funktion in jedem der drei Fälle ihr Maximum für p = x n an. Wieder ist der MLS das Stichprobenmittel. Im Folgenden betrachten wir eine Verallgemeinerung von Beispiel 4, verwenden allerdings für die Bestimmung des MLS eine andere Methode. Beispiel 6: Gegeben sei eine Multinomialverteilung M,P, wobei der Parameter eine Wahrscheinlichkeitsverteilung P =(p 0,..., p m ) auf {0,..., m} ist. Demgemäß ist P ((Y 0,..., Y m )=(y 0,..., y m )) = my j=0 p y j j, (y 0,..., y m ) {0, } m+ : mx y i = j=0 Sei nun x =(x,..., x n ) {0,..., m} n. Dann ist [L x (P )] /n = " n Y my j=0 p y j(x i ) j # /n = my j=0 P n y j (x i ) j = j=0 p n my pˆp j j, P wobei y j (x) = {j} (x), x {0,..., m}, und ˆp j = n n y j(x i ) die relative Häufigkeit des Symbols j {0,..., m} ist. Da die zugehörige Log-Likelihood- Funktion n ln L x(p )= mx ˆp j ln p j j=0

12 .. KONSTRUKTION VON PUNKTSCHÄTZERN nur dann endlich ist, wenn für alle j {0,...,m} für welche ˆp j > 0ist,auchp j > 0 ist, müssen wir stets annehmen, dass der Träger T (P ) der W-Verteilung P den der W-Verteilung ˆP =(ˆp 0,..., ˆp m ) der relativen Häufigkeiten umfasst, dass also gilt T (P ) T ( ˆP ). Anmerkung : T ( ˆP ) T (P ) ist - wie gesagt - gleichbedeutend damit, dass sofern für ein j {0,..., m} ˆp j > 0 gilt, dann auch p j > 0 gilt. Es kann jedoch durchaus j {0,..., m} geben, für die p j > 0und ˆp j = 0 gilt. Das Maximum der Log-Likelihood-Funktion lässt sich bequem mit Hilfe einer Ungleichung bestimmen. Definition: Sind P = (p 0,..., p m ) und Q = (q 0,..., q m ) zwei Wahrscheinlichkeitsverteilungen auf {0,..., m}, wobei gilt T (Q) T (P ). Dann heißt die Größe I(Q k P )= mx j=0 q j ln q j p j die I-Divergenz von Q und P und die Größe H(Q) = mx q j ln q j j=0 die Entropie der Verteilung Q. Aufgrund des nachstehenden Lemmas gilt folgende Proposition. Proposition : Seien W m die Menge aller Wahrscheinlichkeitsverteilungen auf der Menge {0,...,m}, ˆP =(ˆp 0,..., ˆp m ) P m fest und Dann gilt P m = {P W m : T ( ˆP ) T (P ) }. mx ˆp j ln p j j=0 mx ˆp j ln ˆp j j=0 P P m mit Gleichheit genau dann, wenn P = ˆP ist.

13 2 ABSCHNITT. SCHÄTZEN VON PARAMETERN Beweis: Es gilt n ln L x(p ) = = mx ˆp j ln p j j=0 mx j=0 ˆp j ln p j ˆp j + mx ˆp j ln ˆp j j=0 = I( ˆP k P ) H( ˆP ) H( ˆP ) = n ln L x( ˆP ) mit Gleichheit genau dann, wenn P = ˆP. Also ist ˆP der MLS. Lemma : Unter den Voraussetzungen der obigen Definition gilt I(Q k P ) 0 mit Gleichheit genau dann, wenn P = Q ist. Beweis: Wegen 0 ln 0 = 0 und ln u (mit Gleichheit u = ) gilt u mx j=0 q j ln q j p j = X j T (Q) X j T (Q) = X j T (Q) q j ln q j p j q j ( p j q j ) (q j p j )= X j T (Q) p j 0. Gleichheit gilt also genau dann, wenn p j = q j j T (Q) und daher T (P )= T (Q) ist. Anmerkung 2: Für m = erhaltenwir n ln L x(p )= X ˆp j ln p j =ˆp ln p +( ˆp )ln( p ) j=0 und somit den n-ten Teil der Log-Likelihood-Funktion der Alternativverteilung. Beim klassischen Verfahren, bei dem die Bestimmung des Maximums durch Differenzieren erfolgt, ist naturgemäß zu berücksichtigen, dass das Extremum auch

14 .. KONSTRUKTION VON PUNKTSCHÄTZERN 3 am Rand angenommen werden kann. Der Vorteil des vorliegenden Verfahrens, das Maximum vermittels eines Vergleichs mit Hilfe der I-Divergenz zu ermitteln, besteht unter anderem darin, dass eine besondere Beachtung der Verhaltens der Likelihood- Funktion am Rand nicht erforderlich ist. Im Folgenden bezeichne W m = {(q 0,..., q m ) [0, ] m+ : P m j=0 q j =} die Menge der Wahrscheinlichkeitsverteilungen auf {0,..., m}. Für den Fall, dass die Wahrscheinlichkeitsverteilung P (θ) =(p 0 (θ),..., p m (θ)) W m von einem Parameter θ Θ =[a, b] R abhängt, wobei die Koordinaten der Abbildung P : Θ 7 W m stetig differenzierbar sind, ermitteln wir den MLS wieder durch Differenzieren der Log-Likelihood-Funktion Dies ergibt n ln L x(p (θ)) = d dθ n ln L x(p (θ)) = mx ˆp j ln p j (θ). j=0 mx j=0 ˆp j p0 j(θ) p j (θ). In den folgenden beiden Beispielen sei der Einfachheit halber T ( ˆP )={0,..., m} angenommen, sodass der MLS ˆθ (a, b) istundlösung der Likelihood-Gleichung ist. d dθ n ln L x(p (θ)) = 0 Beispiel eines gezinkten Würfels: In diesem Beispiel gehen wir von einer Stichprobe (X,...,X n ) {,..., 6} n eines durch die Familie von Wahrscheinlichkeitsverteilungen P (θ) =(θ,,,,, θ), θ (0, ), beschriebenen gezinkten Würfel aus

15 4 ABSCHNITT. SCHÄTZEN VON PARAMETERN Für ˆp, ˆp 6 > 0 gilt 6X ˆp j p0 j(θ) p j (θ) j= = = ˆp θ ˆp 6 = θ( 3 θ) θ 3 ˆp ( 3 θ) ˆp 6θ = ˆp > < +ˆp 6 ˆp θ( θ) θ = 0 für θ = ˆp 3 ˆp 3 ˆp 3 +ˆp 6 +ˆp 6. > > Beispiel zum Hardy-Weinberg -Gesetz: Wir gehen von eine Stichprobe (X,..., X n ) {0,, 2} n aus einer Population im genetischen Gleichgewicht hinsichtlich eines Gens mit zwei Allelen und somit von der durch P (θ) =(θ 2, 2θ( θ), ( θ) 2 ), θ (0, ) gegebenen Familie von Wahrscheinlichkeitsverteilungen aus. Für ˆp 0 +ˆp /2 (0, ) gilt unter Beibehaltung der oben verwendeten Bezeichnungen 2X ˆp j p0 j(θ) 2θ = ˆp 0 p j=0 j (θ) θ 2 +ˆp 2( 2θ) 2θ( θ) ˆp 2( θ) 2 ( θ) 2 2 = ˆp 0 ( θ)+ ˆp θ( θ) 2 ( 2θ) ˆp 2θ 2 θ( θ) [ˆp 0 +ˆp /2 θ] > < = 0 für θ = ˆp 0 +ˆp /2 > > Satz (C.F. Gauß): Sei ϕ : R [0, ) die nirgends verschwindende, stetig differenzierbare Dichtefunktion einer absolutstetigen Verteilung mit der Eigenschaft, dass für alle Stichprobenumfänge n N der Maximum-Likelihood-Schätzer ˆθ n des Parameters θ der Verteilungsfamilie { ϕ(x θ), θ R } das Stichprobenmittel ist. Dann hat ϕ die Gestalt ϕ(x) e dx2 mit d>0. Beweis: Sei n {2, 3,...}, x =(x,..., x n ) R n und L x (θ) = Q n ϕ(x i θ). Dann ist d ln L x (θ) = ln(ϕ(x i θ)) und somit d θ ln L x(θ) = (ln ϕ) 0 (x i θ)..

16 .. KONSTRUKTION VON PUNKTSCHÄTZERN 5 Aufgrund der Voraussetzung, dass der MLS von θ ˆθ n = X n ist, gilt (ln ϕ) 0 (x i x n )=0. Wählt man m {,..., n } und c 6= 0 undsetzt dann ist x n = 0 und mithin ( c für i {,..., m} x i = m, c für i {m +,..., n} n m (ln ϕ) 0 (x i )=m(ln ϕ) 0 ( c)+(n m)(lnϕ) 0 m ( n m c). Also gilt (ln ϕ) 0 m ( n m c)= (ln m ϕ)0 ( c) n m m {,..., n }, n 2 und wegen der aus der Regularitätsvoraussetzung über ϕ folgenden Stetigkeit von (ln ϕ) 0 gilt (ln ϕ) 0 (x) = (ln ϕ)0 ( c) x c x R und daher mit 2d := (ln ϕ)0 ( c) c durch Integration ln ϕ(x) = dx 2 +lnk mit k>0. Somit hat ϕ die Gestalt ϕ(x) =ke dx2 x R. Wegen R ϕ(x)dx =< muss d>0 sein...3 Ausblick: Die Minimum-χ 2 -Methode Wegen f(u) =u ln u = u + (u )2 2

17 6 ABSCHNITT. SCHÄTZEN VON PARAMETERN und P m j=0 q j = P m j=0 p j = giltfür die I-Divergenz folgende Approximation 2. Ordnung: I (Q k P ) = = = mx q j ln q j = p j j=0 X m j=0 mx ( q j ln q j )p j p j p j j=0 µ qj p j + 2 ( q j p j ) 2 mx (q j p j )+ 2 j=0 p j mx (q j p j ) 2 j=0 p j = 2 χ2 (Q, P ). Definition: Seien also P und Q zwei Wahrscheinlichkeitsverteilungen auf {0,..., m}, wobei T (Q) T (P ) gelte. Dann heißt die Größe χ 2 (Q, P )= mx (q j p j ) 2 p j=0 j χ 2 -Divergenz der Wahrscheinlichkeitsverteilungen Q und P. Anmerkung : Analog zur I-Divergenz gilt für die χ 2 -Divergenz χ 2 (Q, P ) 0 mit Gleichheit genau dann, wenn P = Q. Seien nun ˆP =(ˆp 0,..., ˆp m ) die empirische Verteilung eines Experiments mit den möglichen Ausfällen 0,..., m und P eine W-Verteilung, für deren Träger T (P ) T ( ˆP ) gelte. DannwissenwirausdenÜberlegungen zu Beispiel 6 in Abschnitt..2, dass gilt ln([l x (P )] /n )+H( ˆP )= I( ˆP k P ) 0 mit Gleichheit genau dann, wenn P = ˆP.D.h. dass ˆP der Maximum-Likelihood- Schätzer ist. Entlogarithmiert man diese Beziehung, so erhält man λ( ˆP,P):= my ( p j )ˆp j = e I ( ˆP kp). ˆp j j=0

18 .. KONSTRUKTION VON PUNKTSCHÄTZERN 7 Nach der obigen Approximation gilt demgemäß ln λ( ˆP,P)=I( ˆP k P ) = 2 χ2 ( ˆP,P). Für Beispiel 6 aus Abschnitt..2 ist der Maximum-Likelihood-Schätzer ˆP gemäß Anmerkung zugleich auch der Minimum-χ 2 -Schätzer. Im Folgenden wollen wir jedoch den interessanteren Fall betrachten, dass der jeweilige Schätzer eine Prameter einer parametrischen Familie von W-Verteilungen ist. Definition: Gegeben sei ein Experiment mit den möglichen Ausfällen 0,..., m und ˆP = (ˆp 0,..., ˆp m ) die empirische W-keitsverteilung. Sei weiters I R ein abgeschlossenes Intervall und P = { P (θ) =(p 0 (θ),..., p m (θ)) : θ I und T (P (θ)) T ( ˆP ) } eine Familie von W-keitsverteilungen, deren Träger T (P ) denvon ˆP umfasst. Dann heißt ein ˆθ I,welches die Funktion θ 7 χ 2 ( ˆP,P(θ)), θ I minimiert, ein Minimum-χ 2 -Schätzer. Beziehung zwischen Maximum-Likelihood- und Minimum-χ 2 -Methode Seien ˆP, I und P wie oben und überdies derart, dass alle W-keitsfunktionen θ 7 p j (θ),j {0,..., m} stetig differenzierbar sind und sei C (θ) :=χ 2 ( ˆP,P (θ)) = mx (ˆp j p j (θ)) 2. p j (θ) j=0 Dann gilt wegen P m j=0 p j (θ) = P m j=0 p0 j (θ) =0 undsomit C 0 (θ) = 2 = 2 mx (ˆp j p j (θ)) p 0 j (θ) p j (θ) j=0 mx ˆp j p 0 j (θ) 2 p j (θ) j=0 = 2 d dθ n L x(θ) mx j=0 mx (ˆp j p j (θ)) 2 p 0 j (θ) j=0 mx p 0 j (θ) j=0 p 2 j (θ) mx (ˆp j p j (θ)) 2 p 0 j (θ) j=0 (ˆp j p j (θ)) 2 p 0 j (θ) p 2 j (θ). p 2 j (θ)

19 8 ABSCHNITT. SCHÄTZEN VON PARAMETERN Für den Fall, dass T ( ˆP )={0,..., m} ist, ist der MLS ˆθ aus der offenen Hülle von I und genügt der Gleichung d dθ n L x(θ) θ=ˆθ= 0. Gilt nun zudem die Gleichung mx j=0 (ˆp j p j (θ)) 2 p 0 j (θ) p 2 j (θ) θ=ˆθ= 0, (*) dann stimmen MLS und Minimum-χ 2 -Schätzer überein. Aus Stetigkeitsgründen stimmen MLS und Minimum-χ 2 -Schätzer demnach auch dann überein, wenn einzelne der Häufigkeiten ˆp j,j {0,..., m} verschwinden. Beispiel eines gezinkten Würfels (Fortsetzung): Um die obige Aussage anwendenzukönnen, sei x =(x,..., x n ) {,..., 6} n derart, dass für die Verteilung ˆP n =(ˆp,...,ˆp 6 ) der relativen Häufigkeiten der Augenzahlen gilt ˆp, ˆp 6 > 0. (Ein sinnvoller Schätzer lässt sich selbstverständlich nur dann angeben, wenn gilt ˆp + ˆp 6 > 0. ) Es stellt sich heraus, dass für dieses Beispiel der MLS ˆθ n = 3 Minimum-χ 2 -Schätzer übereinstimmt, d.h. dass χ 2 ( ˆP n,p(θ)) = (ˆp θ) 2 θ + (ˆp 6 (/3 θ)) 2 /3 θ + ˆp ˆp +ˆp 6 5X (ˆp j /6) 2 j=2 /6 mit dem genau dann minimal ist, wenn θ = ˆθ n Beziehung (*) erfüllt. Es gilt nämlich ist. Tatsächlich ist für χ 2 ( ˆP n,p(θ)) die (ˆθ) : = ˆθ 2 (/3 ˆθ) 6X (ˆp 2 j p j (ˆθ)) 2 p 0 j(ˆθ) j= p 2 j à (ˆθ) = ˆθ 2 (/3 ˆθ) 2 (ˆp ˆθ) 2 (+) + (ˆp 6 (/3 ˆθ))! 2 ( ) ˆθ2 (/3 ˆθ) 2 = (ˆp ˆθ) 2 (/3 ˆθ) 2 (ˆp 6 (/3 ˆθ)) 2ˆθ2 ˆp ˆp 6 ˆp 6 ˆp = (ˆp 3(ˆp +ˆp 6 ) )2 ( 3(ˆp +ˆp 6 ) )2 (ˆp 6 3(ˆp +ˆp 6 ) )2 ( 3(ˆp +ˆp 6 ) )2 ˆp ˆp 6 = ( 3(ˆp +ˆp 6 ) )2 ( 3(ˆp +ˆp 6 ) ( 3(ˆp +ˆp 6 ) )) = 0.

20 .. KONSTRUKTION VON PUNKTSCHÄTZERN 9 Beispiel zum Hardy-Weinberg-Gesetz (Fortsetzung): Wir betrachten zunächst den Minimum-χ 2 -Schätzer für folgende Spezialfälle: Wegen P () = (, 0, 0) gilt für ˆP =(, 0, 0) χ 2 ( ˆP,P()) = 0. Daher ist ˆθ = der Minimum-χ 2 -Schätzer. Für ˆP =(0, 0, ) ist der Minimum-χ 2 -Schätzer aus Symmetriegründen ˆθ =0. Für ˆP =(0,, 0) ist der Minimum-χ 2 -Schätzer naheliegenderweise ˆθ =/2. Dies trifft auchfür eine allgemeine symmetrische Verteilung ˆP =(ˆp 0, ˆp, ˆp 2 ), also eine Verteilung zu, die ˆp 2 =ˆp 0 erfüllt: Sei zu diesem Zweck χ 2 (θ) = (ˆp 0 θ 2 ) 2 θ 2 + (ˆp 2θ ( θ)) 2 2θ ( θ) + (ˆp 2 ( θ) 2 ) 2 ( θ) 2. Dann ist für p = ˆp 2 =ˆp 0 und ˆP =(p, 2p, p), p [0, /2] χ 2 (θ) = (p θ2 ) 2 θ 2 + (p ( θ)2 ) 2 ( θ) 2 + ( 2p 2θ ( θ))2 2θ ( θ) = χ 2 ( θ) und es gilt θ χ2 (θ) = ( 2 + θ ( θ)( 4p) θ)4p2 θ 3 ( θ) 3. Wegen ½ 4p 4p 2 2 für p [0, /4] + θ ( θ)( 4p) 3 für p [/4, ] 6 wird das Maximum von χ 2 (θ) tatsächlich für θ =/2 angenommen. Wegen ˆθMLS =ˆp 0 + ˆp 2 = p + 2 ( 2p) = 2 stimmen daher zumindest in den betrachteten Spezialfällen auchfür dieses Beispiel MLS und Minimum-χ 2 -Schätzer überein. Wie der folgende Spezialfall zeigt, trifft diesjedochnichtfür alle möglichen empirischen Verteilungen ˆP zu: Sei nämlich ˆP =(p, 0, p) für p (0, )\{/2}. Dann ist der MLS ˆθ =ˆp 0 + ˆp = p.die Funktion 2 χ2 (θ) ist in diesem Fall χ 2 (θ,p)= (p θ2 ) 2 θ 2 +2θ ( θ)+ (p + θ (θ 2))2 ( θ) 2.

21 20 ABSCHNITT. SCHÄTZEN VON PARAMETERN Für p =/4 hatχ 2 (θ,p) folgende Form Übrigens gilt und daher Abbildung: θ :[0.2, 0.5] 7 χ 2 (θ, /4) und χ 2 (/4, /4). θ χ2 (θ,p)= 2 θ 3 ( 2p( p)) p 2 ( 3θ ( θ)) θ 3 ( θ) 3 2(2p ) θ χ2 (θ,p) θ=p = 6=0 für p 6= /2. p ( p).2 GÜTEKRITERIEN FÜR PUNKTSCHÄTZER.2. Erwartungstreue Schätzer Definition: Seien X,...,X n (unabhängige) und identisch verteilte Zufallsvariable mit Dichte- bzw. Wahrscheinlichkeitsfunktion und sei f(x, θ), θ Θ R ˆθ = h(x,..., X n )

22 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 2 ein Schätzer für θ. Der Schätzer ˆθ heißt erwartungstreu (unbiased), wenn gilt E θ h(x,..., X n )=θ θ Θ. Sofern ein Schätzer ˆθ nicht erwartungstreu ist, besitzt er eine Verfäschung. Definition: Die durch bˆθ(θ) =E θ (ˆθ) θ definierte Funktion bˆθ : Θ 7 R heißt Verfälschung (bias). Seien die Voraussetzungen wie oben und seien unbekannt. Dann sind X n = n μ = E(X ) und σ 2 = V (X ) X i und S n 2 = n 2 Xi X n bekanntlich die Momentenschätzer für μ und σ 2. Anmerkung : Aufgrund der Linearität des Erwartungswerts und der Voraussetzung, dass die Zufallsvariablen identisch verteilt sind und somit E (X i )=μ i {,..., n} gilt, ist E( X i )= E (X i )= μ = μ. n n n Somit ist der Momentenschätzer Xn ein erwartungstreuer Schätzer für μ. Anmerkung 2: Das Spezifikum der Beispiele a, 3a, 4 und 5 besteht darin, dass der Parameter identisch mit dem Erwartungswert der zugehörigen Zufallsvariablen ist. Daher ist das Stichprobenmittel X n der natürliche und somit erwartungstreue Schätzer für diese Beispiele. Frage: Ist auch der Momentenschätzer S n 2 ein erwartungstreuer Schätzer für σ 2? Zur Antwort: Die Anwendung des Erwartungswerts auf den Steinerschen Verschiebungssatz in der Form 3 2 Xi X n = (X i μ) 2 n X n μ 2 3 Der Nachweis lässt sich leicht durch quadratisches Ergänzen erbringen.

23 22 ABSCHNITT. SCHÄTZEN VON PARAMETERN ergibt wegen der Linearität des Erwartungswerts, E( X n )=μ,derdefinition der Varianz und des Sachverhalts V ( X n )=σ 2 /n Daher ist 2 E[ Xi X n ] = E[ (X i μ) 2 ] n E[ X n μ 2 ] = E[(X i μ) 2 ] n V ( X n ) = n σ 2 σ 2 = (n ) σ 2. E( S 2 n)= n n σ2 (< σ 2 ). Multiplikation dieser Gleichung mit dem Faktor Daher ist S 2 n = n n n E( n S n)=σ 2 2. n n S n 2 = n ergibt (X i X n ) 2 ein erwartungstreuer Schätzer für σ 2. Anmerkung 3: Die naheliegende Interpretation des Obigen ist wie folgt: Wegen n < schätzt S 2 n n den Parameter σ 2 im Mittel um eben diesen Faktor zu kurz. Eine Streckung von S n 2 mit dessem Reziprokwert behebt diese Verfälschung. Der Bias des Schätzers Ŝn 2 ist demnach b S n 2(σ2 )= σ2 n < 0. Beispiel ( X,..., X n N(μ, σ 2 ) ) eignet sich besonders gut zur Illustration: Für den Fall c, dass μ bekannt und σ 2 unbekannt ist, ist Ŝ 2 n = n (X i μ) 2

24 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 23 der naheliegende erwartungstreue Schätzer für σ 2. Für den Fall b ( μ und σ 2 sind unbekannt) muss auch μ geschätzt werden. Da dies auf natürliche P Weise durch ˆμ = X n erfolgtundderwert μ = X n die Funktion f(μ) = n n (X i μ) 2 minimiert, schätzt S n 2 den Parameter σ 2 im Mittel zu kurz und zwar - wie wir bereits n wissen - um den Faktor. Daher ist in diesem Fall n S2 n der natürliche erwartungstreue Schätzer für σ 2. Im Folgenden ermitteln wir für Beispiel 2 ausgehend vom Maximum-Likelihood- Schätzer und für Beispiel 3b ausgehend vom Momenten-Schätzer erwartungstreue Schätzer für die zugehörigen Parameter. Zu Beispiel 2a ( X,..., X n U[0, θ]): Für dieses Beispiel sind der Momentenschätzer und der Maximum-Likelihood-Schätzer wesentlich verschieden. a) Der Momentenschätzer 2 X n ist - zumal m (θ) = θ 2 eine homogene lineare Funktion ist - naturgemäß erwartungstreu. b) Der Maximum-Likelihood-Schätzer für θ ist bekanntlich das Stichprobenmaximum X n:n =max(x,..., X n ). Dessen Verteilungsfunktion ist für x [0, θ] daher P (X n:n x) =P (X x,..., X n x) = Die zugehörige Dichtefunktion ist somit ny P (X i x) =( x θ )n. f Xn:n (x) = n θ (x θ )n [0,θ] (x). Da der Integrand des zweiten Integrals die Dichte der Verteilung der Zufallsvariablen ist, ist der Erwartungswert X n+:n+ E(X n:n )= Also ist Z θ 0 x n θ (x θ )n dx = n n + θ n + n X n:n Z θ ein erwartungstreuer Schätzer für den Parameter θ. 0 n + ( x θ θ )n dx = n θ (< θ). n +

25 24 ABSCHNITT. SCHÄTZEN VON PARAMETERN Anmerkung 4: Es gilt X n:n θ, wobei X n:n mit Wahrscheinlichkeit zu kurz schätzt. Der Bias des MLS ist b Xn:n (θ) = θ n + < 0. c) Die Familie der mit Hilfe der Ordnungsstatistiken konstruierten erwartungstreuen Schätzer: Ordnet man die Zufallsgrößen X,..., X n nach aufsteigender Größe, d.h. derart dass X :n := min(x,..., X n ) X 2:n... X n:n =max(x,..., X n ), d.h. X i:n ist die i-t-kleinste der n Zufallsvariablen oder die sogenannte i-te Ordnungsstatistik. Eslässt sich zeigen, dass f Xi:n (x) = n µ n ( x θ i θ )i ( x θ )n i [0,θ] (x) die Dichtefunktion von X i:n istund-analogzufallb-dass E θ (X i:n )= i n+ θ gilt. Daher ist n + X i:n,i {,..., n}, i eine Familie von erwartungstreuen Schätzern. Diese enthält für i = n offensichtlich den unter b) betrachteten Schätzer n+x n n:n. Zu Beispiel 2b ( X,..., X n U{,..., N} ): Sei k {,...,N}. Dann gilt, da die Zufallsvariablen X i unabhängig und identisch verteilt sind, und somit P n N(X n:n k) =P n N(X k,..., X n k) =(P N (X k)) n = kn N n P n N(X n:n = k) =P n N(X n:n k) P n N(X n:n k ) = kn (k ) n N n. Wir wollen nun eine Funktion f n : {,..., N} 7 [, ) derartfinden, dass f(x n:n ) ein erwartungstreuer Schätzer für den Parameter N ist. Das heißt formal, dass NX k= f n (k) kn (k ) n N n = N N N

26 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 25 oder - gleichbedeutend - NX f n (k) kn (k ) n = N N N n+ k= gilt. Setzt man in diese Beziehung f n (k) = kn+ (k ) n+ ( ) ein, so ergibt sich k n (k ) n daraus NX k n+ (k ) n+ = N N. N n+ k= Diese Beziehung trifft deswegen zu, weil ihre linke Seite die Gesamtsumme der Elementarwahrscheinlichkeiten des Stichprobenmaximums X n+:n+ von n + unabhängigen, identisch gemäß U{,..., N} verteilten Zufallsvariablen ist. Zu Beispiel 3b ( X,..., X n Ex(λ) mit E(X )= ):Sei n 2. Bekanntlich λ gilt X i Γ(n, λ). Da der Integrand des zweiten Integrals die Dichte der Γ(n, λ)-verteilung ist, ist der Erwartungswert des Momentenschätzers Also ist µ n E P n X i = = = Z n n n P n X i n P n X i n 0 x λn x n (n )! e λx dx Z n n λ λ n x n 2 0 (n 2)! e λx dx n λ (> λ). n = n P n X i ein erwartungstreuer Schätzer für den Parameter λ. Anmerkung 5: Der Bias des Momentenschätzers / X n ist demnach b / X n (λ) = λ n > 0.

27 26 ABSCHNITT. SCHÄTZEN VON PARAMETERN Motivation für das Folgende: Selbstverständlich könnte man für alle betrachteten Beispiele erwartungstreue Schätzer konstruieren, die nicht alle der n Beobachtungsergebnisse berücksichtigen. (So wären für die Beispiele a, 3a, 4 und 5 auch einzelne Beobachtungen - wie etwa X - erwartungstreue Schätzer für die zugehörigen Parameter.) Es scheint jedoch äußerst unzweckmäßig, solche Schätzwerte zu betrachten, da man auf diese Weise Information unnötig vergeuden würde. Zu Beispiel 2a: Sowohl der Momentenschätzer 2 X n als auch der Maximumn+ Likelihood-Schätzer X n+ n n:n und auch die Schätzer der Familie X i i:n,i {,..., n} sind erwartungstreu und stützen sichaufalle n Beobachtungen. Zu Beispiel 5: Die beiden Schätzer ˆλ = X n und ˆλ 2 = Sn 2 sind erwartungstreu und stützen sich auf alle n Beobachtungen. Naturgemäß stellt sich für die Beispiele 2 und 5 die Frage, welchen der angegebenen erwartungstreuen Schätzern der Vorzug zu geben ist. Anmerkung 6: (a) Da die Varianz der natürliche Skalenparameter i einer Verteilung ist, liegt es nahe, die Varianz V (ˆθ n )=E h(ˆθ n θ) 2 von erwartungstreuen Schätzern ˆθ n für einen unbekannten (Lage-)Parameter θ zu derem Vergleich heranzuziehen. Der zugehörige Begriff heißt Effizienz. 4 (b) Es gibt ein Kriterium, welches charakterisiert, ob ein Schätzer ˆθ n die dem Beobachtungsvektor (X,..., X n ) in Bezug auf den zu schätzenden Parameter θ innewohnende Information ausschöpft oder nicht. Der zugehörige - wirklich tiefliegende -Begriff heißt Suffizienz. Eine naheliegende Frage ist, ob es zu jedem Schätzproblem stets einen erwartungstreuen Schätzer gibt. Wie das folgende Beispiel zeigt, ist diese Frage mit nein zu beantworten. Zu Beispiel 0a: In einer Urne mit s markierten und N s unmarkierten Kugeln werden zufällig und mit Zurücklegen n Kugeln entnommen. Die Gesamtanzahl N der Kugeln in der Urne ist mit Hilfe der Anzahl S n der markierten Kugeln in der Stichprobe zu schätzen, wobei s als bekannt anzunehmen ist. Dazu lässt sich das Folgende sagen: (a) Es gibt keine Funktion f s : {0,...,n} 7 [s, ) derart, dass die Statistik f s (S n ) ein erwartungstreuer Schätzer für N ist, 4 Da die Varianz nur einer von (unendlich) vielen Skalenparametern ist, kommt diesem Begriff ein gewisses Maß an Willkürlichkeit zu.

28 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 27 (b) Der Schätzer f s (S n )= n+ S n s ( s) besitzt den Erwartungswert + E N [f s (S n )] = N ³ ( s )n+, N (c) lim n E N [f s (S n )] = N. 5 Anmerkung 7: Wegen n n + S n S n + = n S n S n (S n +) 0 schätzt der Momentenschätzer ns S n im Fall S n <n weiter als der Schätzer (n+)s. S n + Zu (a): Angenommen, es gibt eine Funktion f s : {0,..., n} 7 [s, ) derart, dass die Statistik f s (S n ) ein erwartungstreuer Schätzer für N ist, dann gilt µ n ( E N [f s (S n )] =) f s (k) ( s k N )k ( s N )n k = N N {s, s +,...} k=0 k=0 oder - gleichbedeutend - µ f s (k) n ( s s k N )k+ ( s N )n k = N {s, s +,...}. DamitjederderFunktionen ( s N )k+ ( s N )n k, k {0,..., n}, die gesamte linke Seite für N gegen 0 geht, erhalten wir einen Widerspruch zu unserer Annahme. Zu (b): Berücksichtigt man auf der linken Seite der obigen (unzutreffenden) Beziehung = k+ n+, setzt anschließend f s (k) n k n+ k+ k+ = und berücksichtigt schließlich, s n+ verteilte Zufallsvariable Xn+ Xn+ µ n + = P (S n+ = j) = ( s j N )j ( s N )n+ j dass für eine gemäß S n+ B n+, s N k=0 j=0 gilt, so erhält man µ f s (k) n ( s s k N )k+ ( s N )n k = = j=0 µ f s (k) k + n + ( s s n + k + N )k+ ( s N )n k µ n + ( s k + N )k+ ( s N )n+ (k+) k=0 k=0 = ( s N )n+. 5 In diesem Zusammenhang spricht man von einem asymptotisch erwartungstreuen Schätzer.

29 28 ABSCHNITT. SCHÄTZEN VON PARAMETERN Durch Multiplikation von N erhält man die in (b) getroffene Aussage..2.2 Effizienz Zur Unterscheidung erwartungstreuer Schätzer hinsichtlich ihrer Präzision (Varianz) Definition: Seien X,..., X n unabhängig identisch verteilte reellwertige Zufallsvariable mit Dichte f(x, θ), θ (a, b) R und seien ˆθ () n = h (X,..., X n ) und ˆθ(2) n = h 2 (X,..., X n ) zwei erwartungstreue Schätzer für den Parameter θ (a, b). Dann heißt der Schätzer ˆθ(2) n effizienter als der Schätzer ˆθ() n, wenn gilt V θ (ˆθ (2) n ) V θ (ˆθ () n ) θ (a, b) und wenn es mindestens ein θ (a, b) gibt, für welches das strikte < -Zeichen gilt. Beispiel: Zur Illustration betrachten wir die Familie der Schätzer n+ X i i:n i {,..., n}. Wegen Z θ E θ (Xi:n) 2 = x 2 n µ n ( x θ i θ )i ( x θ )n i dx ist = = 0 i n + θ Z θ 0 x n + θ i n + θ E θ(x i+:n+ )= µ n ( x i θ )i ( x θ )n i i n + θ i + n +2 θ = i(i +) (n +)(n +2) θ2 V θ (X i:n ) = E θ (Xi:n) 2 [E θ (X i:n )] 2 i(i +) i = (n +)(n +2) θ2 n + θ = i [(i +)(n +) i(n ++)] θ 2 = (n +) 2 (n +2) Die Varianz des Schätzers n+ X i i:n ist daher V θ ( n + µ 2 n + X i:n )= V θ (X i:n) =( n + i i i 2 i(n + i) (n +) 2 (n +2) θ2. θ 2 ) n +2.

30 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 29 Für i {,..., n } gilt n+ i > n+ i+ und somit V θ ( n + i + X i+:n) <V θ ( n + X i:n ). i D.h. der Schätzer n+x i+ i+:n ist effizienter als der Schätzer n+ X i i:n. Mithin ist n+ der Maximum-Likelihood-Schätzer X n n:n der effizienteste Schätzer dieser Familie. Seine Varianz ist V θ ( n + n X n:n) = n(n +2) θ2. Der Schätzer (n +)X :n ist der am wenigsten effiziente Schätzer diese Familie. Seine Varianz ist V θ ((n +)X :n )= n n +2 θ2. Der Momentenschätzer 2 X n hat wegen V θ (X) = θ2 2 die Varianz V θ (2 X n )= 4 n V θ(x) = θ2 3n. n+ Er ist effizienter als die Schätzer X i i:n der Familie für i< 3n(n+), jedoch 4(n+/2) weniger effizient als jene für i> 3n(n+) ( 3n, 3 (n +)). 4(n+/2) 4 4 Naturgemäß ist man bestrebt, den erwartungstreuen Schätzer mit gleichmäßig kleinster Varianz 6 zu verwenden. Im Fall von Beispiel 2 stellt sich die Frage, ob der n+ Maximum-Likelihood-Schätzer X n n:n -wiemanvermutenkönnte - ein solcher ist. 7 Allgemein stellt sich die Frage, ob bzw. unter welchen Voraussetzungen ein erwartungstreuer Schätzer mit gleichmäßig kleinster Varianz existiert. Es gibt zwei Zugänge, die Möglichkeiten bieten, solche Fragen zu beantworten. Wir werden zunächst den historisch älteren Zugang wählen. Dieser schließt jedoch die Behandlung von Situationen aus, bei welchen - wie in Beispiel 2 - die Trägermenge der Wahrscheinlichkeitsverteilungen P θ, θ Θ vom Parameter θ abhängt. Zur Motivation der zentralen Aussage dieses Abschnitts greifen wir zwei der Beispiele a, c, 3a, 3b, 4 und 5 heraus. 6 In der angelsächsichen Literatur nennt man einen solchen Schätzer uniformly best estimator oder uniformly minimum variance estimator. 7 Im Übrigen ist jeder Schätzer, der Schätzwerte < x n:n zulässt, fragwürdig, zumal θ x n:n sein muss.

31 30 ABSCHNITT. SCHÄTZEN VON PARAMETERN Motivation der Ungleichung von Frechét-Rao-Cramér Anhand von Beispiel 4: Für X,..., X n A p unabhängig (alternativverteilt) mit p (0, ) ) ist bekanntlich L Xn (p) =p P n X i ( p) n P n X i und d dp ln L n X n (p) = Xn p. p( p) Der Erwartungswert des Quadrats dieser Beziehung ist wegen V p ( X n )= p( p) n E p ( d 2 dp ln L X n (p)) = E p X n p 2 V p ( X = n ) 2 V p ( X n ). Daher lässt sich die Varianz des Schätzers Xn folgendermaßen darstellen: V p ( X n )= h i. E p ( d ln L dp X n (p)) 2 Anhand von Beispiel 3b: Sei n 3. Für X,..., X n Ex(λ) unabhängig (exponentialverteilt) mit E λ (X )=/λ ist L Xn (λ) =e λ P n Xi λ n und d dλ ln L X n (λ) = n( X n λ ). Der Erwartungswert des Quadrats dieser Beziehung ist wegen V λ ( X n )= ( λ) 2 n E λ ( d dλ ln L X n (λ)) 2 = n 2 V λ ( X n )= n λ 2. n Die Varianz des erwartungstreuen Schätzers P n X i ist wegen E λ ( P n 2 Z (n ) 2 n X ) = λn x n i 0 x 2 (n )! e λx dx = n Z n 2 λ n 2 λ n x n 2 0 x (n 2)! e λx dx = n n 2 λ E n 2 λ( P n X )= n i n 2 λ2

32 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 3 V λ ( P n n X )=E λ ( n 2 P n i X ) λ 2 = n i n 2 λ2 λ 2 = λ2 n 2. folgende Ab- Daher gilt für die Varianz des erwartungstreuen Schätzers schätzung n P n X i V λ ( P n n X )= λ2 i n 2 > λ2 n = E λ ( d ln L dλ X n (λ)) 2. Zur Vorbereitung des Beweises des Satzes von Frechét-Rao-Cramér sei folgendes Lemma in Erinnerung gebracht, welches man als die stochastische Form der Chauchy-Schwarzschen Ungleichung bezeichnen könnte. Lemma: Seien X, Y reellwertige Zufallvariable mit 0 < σ 2 X = V (X), σ2 Y = V (Y ) <. Dann gilt ± Cov(X, Y ), σ X σ Y wobei für den Fall des positiven Vorzeichens genau dann Gleichheit gilt, wenn Y = σ Y σ X (X E(X)) + E(Y ). Beweis: Die Aussage des Lemmas ist eine unmittelbare Folgerung der Beziehung V ( X Y ) = V ( X )+V( Y ) 2 Cov( X, Y ) σ X σ Y σ X σ Y σ X σ µ Y = 2 Cov(X, Y ) σ X σ Y und der Tatsache, dass V ( X σ X Y σ Y ) 0 ist. Gleichheit gilt somit genau dann, h i wenn X σ X Y σ Y = E Y σ Y = E(X) σ X E(Y ) σ Y. X σ X Satz (Frechét-Rao-Cramér) 8 : Seien X,...,X n unabhängige, identisch verteil-te reellwertige Zufallsvariable. Die Familie der durch die Dichtefunktionen f(x, θ), θ (a, b) R gegebenen Wahrscheinlichkeitsverteilungen habe folgende Eigenschaften: 8 In der angelsächsischen Literatur findet man diesen Satz vielfach unter der Bezeichnung Information inequality.

33 32 ABSCHNITT. SCHÄTZEN VON PARAMETERN () Der Träger T f = {x R : f(x, θ) > 0} der Dichtefunktion f hängt nicht vom Parameter θ ab, ln f(x, θ) besitzt für alle x T f und θ (a, b) eine endliche partielle Ableitung nach θ und es gilt ln f(x, θ) 2 E θ ( ) (0, ) θ (a, b). θ (2) Für alle Statistiken g(x n ) derart, dass E θ ( g(x n ) ) < θ (a, b) gilt θ Z... Z g(x n ) f(x n, θ)dx... dx n = Z... Z g(x n ) θ f(x n, θ)dx... dx n sofern linke und rechte Seite dieser Beziehung endlich sind. Sei schließlich ˆθ n = h(x,..., X n ) ein erwartungstreuer Schätzer mit V θ (ˆθ n ) < θ (a, b). Dann gilt V θ (ˆθ n ) h i, ln f(x,θ) ne θ ( ) θ 2 mit Gleichheit genau dann, wenn ln f(x i, θ) θ = ˆθ n θ V θ (ˆθ n ). Definition: Die Größe ln f(x, θ) 2 I n (θ) =ne θ ( ) θ heißt das Fisher sche Informationsmaß 9 (für n unabhängige Beobachtungen). Anmerkung : Das Fisher sche Informationsmaß I (θ) steht in einem engen Zusammenhang mit der I-Divergenz. Ist nämlich P = { P (θ) :θ (a, b) } eine Familie von Wahrscheinlichkeitsverteilungen mit gemeinsamen Träger T f (etwa T f = {0,..., m} wie Beispiel 6 in Abschnitt..2) und derart, dass deren Dichten f(x, θ) eine stetige zweite Ableitung nach θ besitzen und ist θ 0 (a, b) ein fester Parameterwert. Dann gilt 2 θ 2 I (P (θ 0)kP (θ)) θ=θ0 = I (θ 0 ). 9 In der angelsächsichen Literatur wird diese Größe Fisher information number genannt.

34 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 33 Definition: Angenommen, die Voraussetzungen () und (2) des Satzes seien erfüllt. Dann nennt man einen erwartungstreuen Schätzer, für welchen in der Frechét-Rao-Cramér-Ungleichung für alle θ (a, b) Gleichheit gilt, einen effizienten erwartungstreuen Schätzer. Folgerung : Sind die Voraussetzungen des Satzes von Frechét-Rao-Cramèr erfüllt und ist der erwartungstreue Schätzer ˆθn für θ effizient, so ist dies der Maximum-Likelihood-Schätzer. Beweis: Diese Aussage gilt wegen ϑ ln f(x i, θ) ϑθ = ˆθ n θ V θ (ˆθ n ) Anmerkung 2: Sofern die Dichte f nach θ besitzt, gilt zudem E θ ( ln f(x, θ) 2 ) θ > 0 für θ < ˆθ n =0 für θ = ˆθ n < 0 für θ > ˆθ n. eine stetige zweite partielle Ableitung 2 ln f(x, θ) = E θ θ 2. Beweis des Satzes: Es ist zweckmäßig, den Beweis etwas zu strukturieren. Behauptung : Es gilt E θ hˆθn P i n ln f(x i,θ). θ Beweis: Differentiation von E θ (ˆθ n ) θ ergibt θ E θ(ˆθ n )= θ θ. Behauptung ist eine unmittelbare Folgerung daraus und aus der folgenden, wegen Voraussetzung (2) gültigen Beziehung θ E θ(ˆθ n ) = Z Z ny... h(x,..., x n ) f(x i, θ)dx... dx n θ Z Z =... h(x,..., x n ) f(x θ i, θ) ny f(x i, θ)dx... dx n f(x i, θ) Z Z ln f(x i, θ) ny =... h(x,..., x n ) f(x i, θ)dx... dx n θ! ln f(x i, θ) = E θ Ãh(X,..., X n ). θ

35 34 ABSCHNITT. SCHÄTZEN VON PARAMETERN h Pn i ln f(x Behauptung 2: Es gilt E i,θ) θ 0. θ Beweis: Differentiation der Beziehung E θ () ergibt θ E θ () = θ 0. Die Beziehung θ E ln f(x i, θ) θ () = E θ ( ) θ ergibt sich aus der analogen Beziehung im Beweis von Behauptung ebenfalls dadurch, dass man die Funktion ˆθ n = h(x,..., x n ) durch die konstante Funktion ersetzt. Behauptung 3: Es gilt Cov(ˆθ n, ln f(x i, θ) ). θ Beweis: Berücksichtigung von Cov(X, Y ) = E(X Y) E(X) E(Y ) und Anwendung der Behauptungen 2 und ergibt # " ln f(x i, θ) # ln f(x i, θ) ln f(x i, θ) Cov(ˆθ n, ) = E θ "ˆθn ( ) E θ (ˆθ n )E θ θ θ θ # ln f(x i, θ) = E θ "ˆθn ( ) =. θ Behauptung 4: Es gilt V θ " # ln f(x i, θ) ln f(x, θ) 2 = ne θ ( ) θ θ Beweis: Da mit den Zufallsvariablen X,...,X n auch deren Funktionen ln f(x,θ) ln f(xn,θ)..., unabhängig und identisch verteilt sind, gilt unter Berücksichtigung θ des Spezialsfalles von Behauptung 2 für n = " # ln f(x i, θ) ln f(xi, θ) ln f(x, θ) V θ = V θ = nv θ θ θ θ ln f(x, θ) 2 = ne θ ( ). θ θ,

36 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 35 Die Aussage des Satzes ergibt sich durch Anwendung des Lemmas auf X = ˆθ ln f(x i, θ) n und Y = θ und unter Berücksichtigung der Behauptungen 3, 4 und 2. 0 Anmerkung 3: Die Beispiele a, c, 3a, 3b, 4 und 5 erfüllen die Voraussetzungen des Satzes von Frechét-Rao-Cramér. Mit Ausnahme von Beispiel 3b gilt in der Aussage des Satzes Gleichheit. Anmerkung 4: Unter den Voraussetzungen des Satzes ist die untere Schranke für die Varianzen V θ (ˆθ n ) eine Funktion des Stichprobenumfangs n der Form c mit n c = I (θ). Für Beispiel 2a ist die Varianz des Maximum-Likelihood-Schätzers n+x n n:n - wie wir bereits wissen - jedoch V θ ( n + n X n:n) = n(n +2) θ2. Das bedeutet, dass sie für wachsende n drastisch schneller gegen 0 fällt als die sogenannte Frechét-Rao-Cramér-Schranke I n (θ). Zumal ln f(x, θ) für alle x [0, θ) eine partielle Ableitung nach θ - nämlich ln f(x, θ) = - besitzt, und somit θ θ E θ ( ln f(x, θ))2 = θ θ 2 ist, ist die Frechét-Rao-Cramér-Schranke gleich θ2. Dass diese jedoch ohne Wert n ist, sieht man daran, dass die Behauptungen und 2 des Satzes im vorliegenden Fall nicht zutreffen. Dies macht man sich am besten am Spezialfall n = undfür den erwartungstreuen Schätzer ˆθ =2X klar. Es sind nämlich µ Z ln f(x, θ) θ E θ 2X = 2x( 2 )dx = (6= ) θ 0 θ und µ Z ln f(x, θ) θ E θ = ( θ θ 2 )dx = (6= 0). θ 0 0 Die Aussage des Lemmas erhält unter den hier gegebenen Voraussetzungen Cov(X, Y )= und E(Y ) = 0 folgende Form: Es gilt σ X σ Y mit Gleichheit genau dann, wenn Y = X E(X) σ 2 X

37 36 ABSCHNITT. SCHÄTZEN VON PARAMETERN Dies wiederum kann nur bedeuten, dass im vorliegenden Fall die Vertauschung von Differentiation und Integration unzulässig ist: Tatsächlich ist der Differenzenquotient für x aus dem Träger T f =[0, θ] h (x, θ) = = ln f(x, θ) ln f(x, θ h) = ln θ [0,θ](x) ln θ h [0,θ h](x) ( h h ln θ ln θ h für x [0, θ h) h. für x [θ h, θ] Somit ist der nachstehende Erwartungswert für eine Funktion g(x) wie etwa g(x) = 2x oder g(x) = E θ (g(x) h (X, θ)) = θ Z θ 0 g(x) h (x, θ)dx =. Dass die Vertauschung von Differentiation und Integration im vorliegenden Fall unzulässig ist, liegt letztlich daran, dass der Träger T f =[0, θ] der Dichtefunktion f(x, θ) = θ [0,θ](x) vom Parameter θ abhängt. Zu Anmerkung 2: Diese ergibt sich aus und E θ ( 2 2 ln f(x, θ) θ 2 = 2 θ ( f(x, θ) f(x, θ) θ θ )= 2 ( f(x, θ) f(x, θ) θ 2 f(x,θ) f(x,θ).2.3 Konsistenz = )= 2 θ 2 E θ () 0. 2 f(x, θ) θ ln f(x, θ) 2 ( ) 2 f(x, θ) θ f(x, θ) f(x, θ) )2 Motivation: Seien θ = E θ (X ) R und σ 2 = V θ (X ) (0, ) und X n = n P n X i. Dann gilt aufgrund des Bernoullischen Gesetzes der Großen Zahlen θ lim P θ n ( X n θ >²)=0 ε > 0, θ Θ. n Definition: Seien X,..., X n unabhängig identisch gemäß P θ, θ Θ, verteilte Zufallsvariable und sei q : Θ 7 R eine stetige Funktion und T n : WX n 7 R eine

38 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 37 reellwertige Zufallsvariable. Dann heißt T n, n N eine konsistente Folge von Schätzern für q(θ), wenn gilt lim n P n θ ( T n (X,..., X n ) q(θ) >²)=0 ε > 0, θ Θ. Proposition: Sei ˆθn, n N eine Folge von asymptotisch erwartungstreuen Schätzern für θ und gelte lim n V θ(ˆθ n )=0 θ Θ. Dann ist die Folge der Schätzer ˆθ n konsistent. Beweis: Sei ε > 0 und θ Θ beliebig. Da die Folge ˆθ n,n N asymptotisch erwartungstreu ist, gibt es ein N = N (ε, θ) N derart, dass gilt E θ (ˆθ n ) θ < ε 2 n N. Sei im Folgenden n N. Dann gilt wegen ˆθ n θ ˆθ n E θ (ˆθ n ) + E θ (ˆθ n ) θ o n ˆθn θ >² n ˆθn E θ (ˆθ n ) > ε o 2 und somit aufgrund der Tschebyschewschen Ungleichung Pθ n ( ˆθ n θ >²) Pθ n ( ˆθ n E θ (ˆθ n ) > ε 2 ) V θ(ˆθ n ) (ε/2) 2. Anmerkung : Aus dem Obigen folgt, dass alle betrachteten Folgen von Schätzern für die Beispiele a, c, 3a, 3b, 4 und 5 konsistent sind. Aus dem Obigen folgt weiters, dass für Beispiel 2a die Folgen der Schätzer 2 X n und n+x n n:n konsistent sind und darüber hinaus die Folgen aller Schätzer n+ i n X in:n, sofern (i n ) eine Folge natürlicher Zahlen ist, welche für n gegen strebt. Für jedes feste i {,..., n} ist die Folge der Schätzer n+ X i i:n hingegen nicht konsistent. Wir überlegen uns dies im Folgenden für den Spezialfall (n +)X :n.

39 38 ABSCHNITT. SCHÄTZEN VON PARAMETERN Sei x [0, θ]. Dann ist P n θ (X :n >x)=p n θ (X > x,..., X n >x)=p θ (X >x) n =( x θ )n. Für ε (0, θ) gilt daher wegen Pθ n ( (n +)X :n θ > ε) Pθ n ((n +)X :n < θ ε) = Pθ n (X :n θ ε n + ) und lim n ( ε θ n+ )n = e ( ε θ ) < = ( ε θ n + )n lim inf n P n θ ( (n +)X :n θ > ε) = e ( ε θ ) > 0. Daher ist die Folge der Schätzer (n +)X :n, wie behauptet, nicht konsistent. Anmerkung 2: Seien (X n ) n N eine Folge unabhängiger, identisch verteilter Zufallsvariabler mit unbekanntem Erwartungswert μ und Varianz σ 2. Bekanntlich sind Sn 2 = Xi n X 2 n,n N\{} erwartungstreue Schätzer für σ 2. Ist überdies E(X) 4 < und bezeichne m 4 = E [(X μ) 4 ], dann gilt V Sn 2 = n (m 4 ( 2 n ) σ4 ), sodass Sn 2,n N\{} eine konsistente Folge von Schätzern für σ 2 ist..2.4 Suffizienz Wir gehen im Folgenden stets von identisch gemäß P θ, θ Θ verteilten Zufallsvariablen X,..., X n aus, wobei Parameter und Verteilung einander umkehrbar eindeutig entsprechen. Der Einfachheit halber werden wir stets unabhängige, reellwertige Zufallsvariable betrachten und die Parametermenge als Teilmenge der reellen Zahlen annehmen. (Für Beispiel 2b ist Θ die Menge der natürlichen Zahlen, für

40 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 39 alle anderen Beispiele ein offenes Teilintervall von R.) Die Dimension n des Zufallsvektors X (=X n )=(X,..., X n ) bzw. dessen Realisierungen werden wir nicht vermerken. Zu Beispiel 2b: Seien X,..., X n unabhängig gemäß einer diskreten Gleichverteilung P N auf {,..., N} verteilte Zufallsgrößen und sei W X = N N {,..., N} = N die Vereinigung der Trägermengen aller Verteilungen P N. Dann gilt P n N(X = x) = Q n N {,...,N}(x i ) = N n {,...,N} (max{x,..., x n }) = N n {,...,N} (T n (x)), wobei als Definitionsbereich des Stichprobenmaximums T n (X) =X n:n die Menge ( W X ) n = N n in Betracht zu ziehen ist. T n (X) besitzt bekanntlich folgende Verteilung ½ t n PN(T n (t ) n für t {,..., N} n (X) =t) = N n 0 für t>n. Sei nun t ein beliebiges Element aus dem Wertebereich W Tn = N von T n.dann gilt für die durch das Ereignis {T n (X) =t} bedingte Verteilung von X wegen der Gültigkeit von PN(X n = x) = x {,..., N} n N n PN(X n = x T n (X) =t) = N n t n (t ) = n N n t n (t ) n für x Tn (t) und t {,..., N} nicht definiert für t>n. Also ist die bedingte Verteilung PN( n Tn (t)) für alle t W Tn, für welche diese definiert ist, unabhängig vom Parameter N.Wir werden eine Zufallsgröße T n mit dieser Eigenschaft eine suffiziente (oder erschöpfende) Statistik nennen. Anmerkung : Für Beispiel 2a, die stetige Version des obigen Beispiels, ergibt sich ganz analog, dass das Stichprobenmaximum X n:n eine suffiziente Statistik für den Parameter θ ist. Definition: Seien X,..., X n unabhängige, identisch gemäß P θ, θ Θ verteilte reelle Zufallsvariable, welche vermittels der Wahrscheinlichkeits- bzw. Dichtefunktion f θ (x) gegeben sind. Weiters sei W X = θ Θ {x R : f θ (x) > 0} die Vereinigung der Trägermengen aller Verteilungen P θ. Dann heißt ein Schätzer T n :( W X ) n 7 R suffizient bezüglich der Familie {P θ, θ Θ}, wenn die durch die Ereignisse Tn (t) bedingten Verteilungen Pθ n ( Tn (t)) für alle t W Tn, für welche diese definiert sind, unabhängig vom Parameter θ sind.

41 40 ABSCHNITT. SCHÄTZEN VON PARAMETERN Anmerkung 2: Das Spezifikum der Beispiele 2a und 2b ist, dass die Trägermengen der Verteilungen P θ vom Parameter abhängen, sodass die Bildung der Vereinigung W X = θ Θ {x R : f θ (x) > 0} eine nicht-triviale Operation ist. In allen weiteren Beispielen wird die Trägermenge nichtvomparameterabhängen. In diesem Fall ist W X = W X = {x R : f θ0 (x) > 0},wobei θ 0 ein beliebiges Element aus Θ ist. Zu Beispiel 4: Für die durch P (X = x) =p x ( p) x,x {0, } gegebene Alternativverteilung mit dem Parameter p (0, ) ist P n p (X = x) = ny p x i ( p) x i = p P n x i ( p) n P n x i = p Sn(x) ( p) n Sn(x), wobei die Gesamtanzahl der Erfolge S n (X) = P n X i bekanntlich gemäß einer Binomialverteilung mit den Parametern n und p verteilt ist und somit den Wertebereich W Sn = {0,..., n} besitzt. Sei nun t W Sn beliebig. Dann gilt µ n Pp n (Sn (t)) = p t ( p) n t. t Sei weiters x {0, } n derart, dass S n (x) =t ist. Dann ist Pp n (X = x) =p t ( p) n t. Somit ist die durch das Ereignis {S n (X) =t} bedingte Wahrscheinlichkeitsverteilung von X die durch Pp n (X = x Sn (t)) = pt ( p) n t pt ( p) = n t n, x Sn t (t) n t gegebene Gleichverteilung auf Sn (t). Diese Verteilung ist tatsächlich für alle t W Sn unabhängig vom zu schätzenden Parameter p. (Für x {0, } n derart, dass x / Sn (t) ist Pp n (X = x Sn (t)) = 0 ). Also ist S n ein suffizienter Schätzer. Anmerkung 3: Durch die Zufallsgröße S n wird eine Partition A t = {x {0, } n : S n (x) =t},t W Sn der Grundmenge {0, } n definiert, die wesentlich für das Schätzproblem ist. Ist nun f : W Sn 7 R eine invertierbare Funktion, dann wird wegen A t = {x {0, } n : f(s n (x)) = f(t)},t W Sn

42 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 4 durch die Zufallsgröße f S n dieselbe Partition wie durch S n selbst definiert. Somit hat man beträchtliche Freiheit in der Wahl der Zufallsgröße, die die gesamte Information bezüglich des zu schätzenden Parameters ausschöpft. Demnach sind die erwartungstreuen Schätzer der bisher behandelten Beispiele 2a und 4, nämlich n+ X n n:n bzw. Xn = S n n ebenfalls suffiziente Schätzer. Dass auch der für Beispiel 2b in Abschnitt.2. konstruierte Erwatungstreue Schätzer f n (X n:n )= Xn+ n:n (X n:n ) n+ Xn:n n (X n:n ) n suffizienz ist, liegt daran, dass die Funktionen f n : N 7 [, ) für alle n N streng monoton wachsend sind (vgl. Aufgabe 32). Anmerkung 4: Bezeichnet S n (x) = P n x i dieanzahldererfolgeinden ersten n Beobachtungen einer Stichprobe vom Umfang n und sind x, x 0 {0, } n derart, dass S n (x) =S n (x 0 ). Dann gilt Pp n (X = x) Pp n (X = x 0 ) =( p p )(S n (x)+x n ) (S n (x 0 )+x 0 n) p =( p )x n x 0 n. Also hängt der Likelihood-Quotient - selbst wenn die ersten n Beobachtungen beider Stichproben dieselbe Anzahl der Erfolge zeigen - im Allgemeinen noch vom Parameter p ab. Nur wenn zudem die letzten Beobachtungen der beiden Stichprobenvektoren übereinstimmen, hängt P p n (X=x) nichtmehrvon p ab. Man könnte Pp n (X=x 0 ) also mit Hilfe von S n und X n gemäß B s,x = {x {0, } n : S n (x) =s, x n = x}, (s, x) {0,..., n } {0, } eine Partition von {0, } n definieren, welche offensichtlich feiner als die ursprüngliche Partition ist. Diese schöpft naturgemäß umso mehr alle Information bezüglich p aus. Die mit Hilfe von S n definierte Partition ist offensichtlich die gröbste, die die ganze Information bezüglich des zu schätzenden Parameters extrahiert. Eine Statistik, welche diese gröbste Partition erzeugt, nennt man minimalsuffizient. Anmerkung 5: Dass der zu schätzende Parameter die Form der Partition (und allenfalls die eines minimalsuffizienten Schätzers) bestimmt, wird aus folgendem Beispiel ersichtlich. Angenommen, wir wollen anstelle der Erfolgswahrscheinlichkeit p die Varianz σ 2 = p( p) schätzen. Dann ist es naheliegend, anstelle des Stichprobenmittels X n = Sn die Stichprobenvarianz n n (X i X n ) 2 = n(n ) S n(n S n )

43 42 ABSCHNITT. SCHÄTZEN VON PARAMETERN als Schätzer zu verwenden, die aufgrund von Xi 2 = X i die oben angegebene Form besitzt. (Da die Stichprobenvarianz ein erwartungstreuer Schätzer für die Varianz ist, ist es selbstverständlich auch der betrachtete Spezialfall.) Es ist offenkundig, dass die Zufallsgröße S n (n S n ) und somit die Partition C t(n t) = {x {0, } n : S n (x)(n S n (x)) = t(n t)} = A t A n t,t {0,..., [n/2]}, welche naturgemäß gröber als die ursprüngliche Partition ist, die gesamte Information bezüglich des Parameters p( p) extrahiert. Das Spezifikum dieses Beispiels ist freilich, dass Parameter und Verteilung einander nicht eineindeutig entsprechen, sodass die oben gegebene Definition der Suffizienz nicht anwendbar ist. Zu Beispiel 5: Ist X gemäß einer Poissonverteilung mit Parameter λ > 0 verteilt, so ist P n λ (X = x) = ny λ xi e λ x i! = λpn xi e nλ Q n x i! = λs n(x) e nλ Q n x i! wobei die Statistik S n (X) = P n X i gemäß einer Poissonverteilung mit dem Parameter nλ verteilt ist und daher den Wertebereich W Sn = N 0 besitzt. Sei nun t W Sn. Dann ist und daher Pλ n (X = x Sn = µ t x,...,x n Pλ n (Sn (t)) = (nλ)t e nλ t! µ (t)) = λt e Q nλ (nλ) t n x i! / e nλ = t! ( n )t, x Sn (t). t! Q n x i! ( n )t Wie zu erwarten, ist die Verteilung Pλ n( S n (t)) t W Sn unabhängig vom Parameter λ. Also ist S n suffizient. Zu Beispiel 3b: Sei X gemäß einer Exponentialverteilung mit dem Parameter λ > 0 in der durch E λ (X )= λ gegebenen Parametrisierung verteilt. Dann ist, f λ (x) = ny λ e λ x i = λ n e λ P n x i = λ n e λ Sn(x),

44 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 43 wobei die Zufallsvariable S n (X) = P n X i gemäß einer Γ-Verteilung mit den Parametern n und λ verteilt ist und daher den Wertebereich W Sn =(0, ) besitzt. Sei nun t W Sn beliebig. Dann ist die durch das Ereignis Sn (t) bedingte Verteilung die durch f λ (x Sn (t)) = f λ(x) f λ (Sn (t)) = λ n e λ t (n )! λ n t =, x S n e λ t t n n (t) gegebene Gleichverteilung auf Sn (t). Da diese unabhängig vom Parameter λ ist, ist S n ein suffizienter Schätzer. n Anmerkung 6: Der Maximum-Likelihood-Schätzer, der bekanntlich S n (X) ist, lässt sich mittels der invertierbaren Funktion f n (x) = n, x (0, ) x aus der ursprünglichen suffizienten Statistik S n (X) erhalten und ist mithin ebenfalls suffizient. Für alle behandelten Beispiele lässt sich die Likelihood-Funktion als Produkt einer vom suffizienten Schätzer und vom Parameter abhängigen Funktion und einer nur vom Vektor x abhängigen Funktion darstellen. Besitzt die Likelihood-Funktion eine solche Produktdarstellung, so ist der involvierte Schätzer immer suffizient. Ein derartiger Schätzer ist definitionsgemäß minimal-suffizient. Faktorisierungssatz: Seien X,..., X n unabhängige, identisch gemäß P θ, θ Θ verteilte Zufallsvariable. Eine notwendige und hinreichende Bedingung dafür, dass der Schätzer T n :( W X ) n 7 R suffizient bezüglich der Familie {P θ, θ Θ} ist, ist, dass sich die Wahrscheinlichkeits- bzw. Dichtefunktion f θ (x n ) in folgender Form darstellen lässt Γ(n) f θ (x) =g(t n (x), θ) h(x). Dabei sind g : W Tn Θ 7 [0, ) und h :( W X ) n 7 (0, ) geeignete (messbare) Funktionen. Anmerkung 7: Falls der Träger W X (θ) ={x R : f θ (x) > 0} vom Parameter θ abhängt, kann es sein, dass g(t, θ) = 0 ist. Dies trifft genau dann zu, wenn t/ T n (WX n (θ)) ist. Beweis des Faktorisierungssatzes: Da sich der Beweise nur im diskreten Fall ohne Zuhilfenahme der Maß- und Integrationstheorie führen lässt, beschränken wir uns auf diesen Fall. Im folgenden sei t W Tn beliebig. = : Wir gehen davon aus, dass sich Pθ n in der Form Pθ n(x = x) =g(t n(x), θ) h(x) darstellen lässt. Ist nun t / T n (WX n (θ)), dann ist mit g(t, θ) = 0

45 44 ABSCHNITT. SCHÄTZEN VON PARAMETERN auch Pθ n (Tn (t)) = 0. Demzufolge ist Pθ n (X = x Tn (t)) nicht definiert. Andernfalls ist g(t, θ) > 0 und deshalb auch Pθ n (Tn (t)) = X X Pθ n (X = x 0 )=g(t, θ) h(x 0 ) > 0. Somit ist die durch P n θ (X = x T n (t)) = x 0 Tn (t) x 0 Tn (t) g(t, θ) h(x) g(t, θ) P x 0 Tn (t) h(x0 ) = h(x) P x 0 Tn (t) h(x0 ), x T n (t) gegebene bedingte Verteilung auf Tn (t) unabhängig vom Parameter θ. =: Sei umgekehrt Pθ n (X = x Tn (t)) = s(x) definiert und unabhängig von θ. Dann ist P n θ (X = x )=P n θ (T n (t)) Pθ n (x T (t)) = Pθ n (T (t)) s(x), x T (t) n und daher von der gewünschten Produktform. Für x Tn (t) mit Pθ n (Tn (t)) = 0 setzen wir Pθ n(x = x )=P θ n (Tn (t)) h(x) mit h(x) =. Aus Anmerkung 6 geht hervor, dass sich der Maximum-Likelihood-Schätzer von Beispiel 3b als Funktion eines suffizienten Schätzers darstellen lässt. Dieser Sachverhalt ist jedoch nicht auf einzelne Beispiele beschränkt, sondern eine allgemeingültige Tatsache. Folgerung : Seien X,..., X n unabhängige, identisch gemäß P θ, θ Θ verteilte Zufallsvariable. und T n : ( W X ) n 7 R ein bezüglich der Familie {P θ, θ Θ} suffizienter Schätzer. Dann hängt der Maximum-Likelihood-Schätzer ˆθn in eindeutiger Weise vom suffizienten Schätzer ab. Beweis: Es gilt g(t n (x), θ)h(x) =L x (θ) L x (ˆθ n (x)) = g(t n (x), ˆθ n (x))h(x) mit Gleichheit genau dann, wenn θ = ˆθ n (x) ist. Da die Likelihood-Funktion wegen h(x) > 0 durch die Funktion g charakterisiert ist und diese nur als Funktion des suffizienten Schätzers T n vom beobachteten Vektor x abhängt, gibt es eine Funktion f n, sodass gilt ˆθ n = f n T n. Die Minimal-Suffizienz lässt sich auch folgendermaßen mit Hilfe des Likelihood- Quotienten charakterisieren. n n

46 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 45 Anmerkung 8: Ein Schätzer T n ist genau dann minimalsuffizient bezüglich der Familie {P θ, θ Θ}, wenn für alle t W Tn der durch LQ(θ, x, x 0 )= f θ (x 0 ) f θ (x) falls f θ (x) > 0 falls f θ (x) =0 und f θ (x 0 )=0 falls f θ (x) =0 und f θ (x 0 ) > 0 definierte Likelihood-Quotient genau dann unabhängig vom Parameter θ ist, wenn x, x 0 Tn (t) ist. Ausblick: Zur Motivation des Begriffs der Suffizienz Wir beschränken uns dabei auf den Spezialfall n =2 vonbeispiel2b. Bezeichnen X = X und Y = X 2, dann ist der Mittelschätzer bekanntlich 2 X + Y =X + Y. 2 Beispielsweise sind die Realisierungen (x, y) =(5, 6), (x, y) =(4, 7), (x, y) =(3, 8), (x, y) =(2, 9) und (x, y) =(, 0) hinsichtlich der Summe X + Y (und damit des Mittelschätzers) gleichwertig. Weiß man jedoch zusätzlich zu etwa X + Y = max(x, Y )=0, so lassen sich die Parameter N {6, 7, 8, 9} mit Sicherheit ausschließen. Allgemein liefert max(x, Y ) 7 stets eine zusätzliche Information zu X + Y =. Dieser Umstand manifesiert sich auch in den bedingten Wahrscheinlichkeiten P 2 (max(x, Y )=t X + Y = s),t ds/2e, (s, t) N 2, wie wir im Folgenden sehen werden. Seien X, Y unabhängig und gemäß der diskreten Gleichverteilung auf {,..., N}

47 46 ABSCHNITT. SCHÄTZEN VON PARAMETERN verteilt. Dann sind und PN(max(X, 2 Y )=t) = 2t N 2 {,...,N} (t) P 2 N(X + Y = s) = min(s, 2N + s) N 2 {2,...,2N} (s) Ist max(x, Y )=t gegeben, so kann X = t, Y t (oder umgekehrt) und daher t + X + Y 2t sein. Der Wertevorrat {,..., N} {2,...,2N} des Zufallsvektors (max(x, Y ),X + Y ) ist somit der obigen Einschränkung unterworfen. Demgemäß ist 0 für 2 s t N PN(X 2 2 für 2 t + s<2t 2N + Y = s, max(x, Y )=t) = N 2 für 2 s =2t 2N N 2 0 für 2 2t <s 2N. Die bedingte Verteilung des Stichprobenmaximums max(x, Y ) bei gegebenem Wert der Zufallssumme X + Y = s ist für s {2,..., N +} (wegen s 2N + s ) PN(max(X, 2 P (max(x, Y )=t, X + Y = s) Y ) = t X + Y = s) = P (X + Y = s) 0 für t< s 2 = = für t = s min(s,2n+ s) s 2 2 = 2 s für <t s min(s,2n+ s) s 2 0 für s t N und für s {N +2,..., 2N} (wegen s 2N + s ) PN(max(X, 2 P (max(x, Y )=t, X + Y = s) Y ) = t X + Y = s) = P (X + Y = s) 0 für t< s 2 = min(s,2n+ s) = für t = s 2N+ s 2 2 = 2 s für <t N. min(s,2n+ s) 2N+ s 2

48 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 47 Die bedingte Verteilung der Zufallssumme X + Y bei gegebenem Wert des Stichproben-maximums max(x,y )=t {,..., N} ist PN(X 2 P (X + Y = s, max(x, Y )=t) + Y = s max(x, Y )=t) = P (max(x, Y )=t) 0 für 2 s t 2 für t + s<2t = 2t für s =2t 2t 0 für s>2t. Ein Vergleich der beiden bedingten Verteilungen zeigt: Die bedingte Verteilung des Stichprobenmaximums max(x, Y ) beigegebenem Wert der Zufallssumme X + Y = s ist vom Parameter N abhängig. Daher liefert die zusätzliche Kenntnis von max(x, Y ) eine weitere Information hinsichtlich des zu schätzenden Parameters. Die bedingte Verteilung der Zufallssumme X + Y bei gegebenem Wert des Stichprobenmaximums max(x, Y )= t ist nicht vom Parameter N abhängig. Daher liefert die Kenntnis von X + Y keine weitere Information hinsichtlich des zu schätzenden Parameters. R.A. Fisher beschreibt den Begriff der Suffizienz in seinem im Jahr 922 veröffentlichten Artikel On the mathematical foundation of statistics wie folgt A statistic satisfies the criterion of sufficiency when no other statistic which can be calculated from the sample provides any additional information as to the value of the parameter to be estimated..2.5 Die Sätze von Rao-Blackwell und Lehmann-Scheffé Motivation Zur Motivation des Folgenden ist es zweckmäßig, eine knappe Bestandsaufnahme aus den Abschnitten..2,.2.,.2.2 und.2.4 zu machen und wichtige Sachverhalte zusammenzufassen. Abschnitt..2: Maximum-Likelihood-Schätzer sind nicht notwendigerweise erwartungstreu. Die Maximum-Likehood-Schätzer ˆθ n für folgende Beispiele sind nicht erwartungstreu. Beispiel b: S n 2

49 48 ABSCHNITT. SCHÄTZEN VON PARAMETERN Beispiel 2a: X n:n Beispiel 2b: X n:n Beispiel 3b: n/( P n X i) Abschnitt.2.: Für alle diese Beispiele gibt es eine invertierbare Funktion f n des Maximum-Likehood-Schätzers ˆθ n derart, dass f n (ˆθ n ) erwartungtreu ist. Beispiel b: f n (t) = n t, t (0, ),n 2 n Beispiel 2a: f n (t) = n+ t, t (0, ),n n Beispiel 2b: f n (t) = tn+ (t ) n+,t N,n t n (t ) n Beispiel 3b: f n (t) = n t, t (0, ),n 2 n Abschnitt.2.2, Folgerung : Sind (a) die Voraussetzung des Satzes von Frechét- Rao-Cramér erfüllt und (b) ist der erwartungstreue Schätzer effizient, so ist dies der Maximum-Likelihood-Schätzer. Beispiele b, 2a, 2b: (a) ist nicht erfüllt Beispiel 3b: (a) ist erfüllt, nicht aber (b) Abschnitt.2.4, Anmerkung 3: Invertierbare Funktionen von suffizienten Statistikensindwiedersuffizient. Abschnitt.2.4, Folgerung : Der Maximum-Likelihood-Schätzer hängt in eindeutiger Weise von einer suffizienten Statistik ab. Kann ein MLS mittels einer invertierbaren Transformationzueinemerwartungstreuen Schätzergemachtwerden(wiediesindenBeispielen2a,2bund3bderFall ist), so ist dieser Schätzer ebenfalls suffizient. Da eine suffziente Statistik aus der Stichprobe die gesamte Information hinsichtlich des zu schätzenden Parameters extrahiert, besteht die begründete Hoffnung, dass ein erwartungstreuer und suffizienter Schätzer ein Schätzer mit gleichmäßig kleinster Varianz ist. Vorbereitungen über bedingte Erwartungen Sei (X, Y ) ein Paar (diskreter) Zufallsvariabler, wobei E ( X ) < ist. Definition: Sei y W Y mit p (y) > 0. Dann definiert E (X Y = y) = X x x p (x, y) p (y) die Erwartung von X bedingt durch Y = y (bedingte Erwartung von X gegeben y ).

50 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 49 Bezeichnung: E (X Y ) bezeichnet die Funktion der Zufallsvariablen Y, deren Funktionswert an der Stelle Y = y gleich E (X Y = y) ist. Proposition : Es gilt E (X) =E (E [X Y ]). Beweis: E (E [ X Y ]) = X y ( X x (x, y) x p )p (y) p (y) = X x x X y p (x, y) =E ( X ) <. Damit ist die Vertauschung der Summationsreihenfolge analog zum Obigen für E (E [X Y ]) gerechtfertigt, was den Beweis der Behauptung abschließt. Beispiel: Seien X,X 2,... identisch verteilte Zufallsvariable mit E (X ) R und sei N eine von der Folge X,X 2,... unabhängige Zufallsvariable mit W N = N. P Zu bestimmen ist E( N X i ). Wegen NX E( X i N = n) =E( X i N = n) =E( X i )= E (X i )=n E (X ) P ist E( N X i N) =N E (X ). Daraus folgt mit Hilfe von Proposition NX NX E[ X i ]=E[E( X N )] = E (N) E (X ). Der folgende triviale Sachverhalt wird im Beweis von Proposition 2 mehrfach verwendet. Anmerkung : Seien f : R R beschränkt und E( X ) <. Dann gilt E (f (Y ) X Y )=f(y) E (X Y ). Für den Spezialfall X gilt daher E (f (Y ) Y )=f (Y ). Beweis: E (f (Y ) X Y = y) =E (f (y) X Y = y) =f (y) E (X Y = y).

51 50 ABSCHNITT. SCHÄTZEN VON PARAMETERN Proposition 2: Es gilt V (X) V (E [X Y ]), wobei im Fall V (X) < Gleichheit genau dann zutrifft, wenn X = E (X Y ) ist. Beweis: Auf Grund obiger Anmerkung gilt E (X E (X)) 2 Y = E (X E (X Y )+E(X Y ) E (X)) 2 Y wobei der letzte Term wegen = E (E (X Y ) E (X)) 2 Y + E [(X E (X Y )) Y ] +2E [(E (X Y ) E (X)) (X E (X Y )) Y ] = (E (X Y ) E (X))2 + E [(X E (X Y )) 2 Y ] +2(E (X Y ) E (X)) E [X E (X Y ) Y ], E [X E (X Y ) Y ]=E [X Y ] E [E (X Y ) Y ]=E [X Y ] E (X Y )=0 verschwindet. Durch Bildung des Erwartungswerts bezüglich Y ergibt sich vermittels Proposition E (X E (X)) 2 = V (E (X Y )) + E (X E (X Y )) 2 und daraus das Resultat. Im Folgenden seien wieder X,..., X n unabhängige und identisch gemäß P θ, θ Θ verteilte Zufallsvariable, wobei θ unbekannt ist. Der Funktionswert g (θ) einer geeigneten Funktion g : Θ R ist zu schätzen, wobei vielfach g (θ) = θ ist. Schließlich bezeichne wieder X =(X,..., X n ). Vorgangsweise zur Konstruktion von,,denkbar guten Schätzern Die,,Ingredienzien sind:. eine suffiziente, vollständige Statistik T = T (X) und 2. irgendein erwartungstreuer Schätzer S = S (X). Der,,denkbar gute Schätzer ist sodann T (X) =E (S (X) T (X)). Folgende Punkte sind dabei wichtig: (i) Da die Statistik T suffizient ist, d.h. da die bedingte Verteilung von X, gegeben T (X) = t unabhängig von θ ist, ist auch die bedingte Erwartung E (S T ) unabhängig von θ. Die Suffizienz von T bewirkt also erst, dass T (X) = E (S T ) ein brauchbarer Schätzer für g (θ) ist.

52 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 5 (ii) Auf Grund von Proposition gilt E (T )=E(E[S T ]) = E (S), sodass mit S auch T erwartungstreu ist. (iii) Die noch zu definierende Vollständigkeit von T bewirkt, dass T = E (S T ) unabhängig davon ist, von welchem erwartungstreuen Schätzer S man ausgeht. (iv) T ist - im Sinn der kleinsten Varianz - der beste erwartungstreue Schätzer für g (θ). Zu Beispiel 2b: Seien X,..., X n unabhängige und auf {,..., N} gleichverteilte Zufallsvariable mit unbekanntem und zu schätzendem Parameter N. T (X) =X n:n =max(x,x 2,..., X n ) ist bekanntlich eine suffiziente Statistik. S (X) =2X ist wegen NP x = 2 N 2 N x= N(N+) 2 =N erwartungstreu. Um E (S T = t), t {,..., N} zu bestimmen, bestimmen wir zunächst die durch X n:n = t bedingte Verteilung von X. Wegen P (X n:n = t) = tn (t ) n a) x {,..., t } : N n ist für P (X = x X n:n = t) = P (X = x, max (X,X 2,..., X n )=t) P (max (X,..., X n )=t) = P (X = x, max (X 2,..., X n )=t) P (max (X,..., X n )=t) N = t n (t ) n N n (t n (t ) n ) = tn n (t ) t N n (t ) n, n b) x = t : P (X = t X n:n = t) = P (X {,..., t } /X n:n = t) = (t ) t n (t ) n t n t n (t ) n = t n (t ) n und für c) x {t +,...,N} : P (X = x/x n:n = t) =0. Somit ist wegen t P x= (2x ) = (t ) 2 und (t ) 2 t n (t ) n +(2t ) t n = t n (t ) 2 +2t (t ) n+ = t n+ (t ) n+

53 52 ABSCHNITT. SCHÄTZEN VON PARAMETERN E (2X X n:n = t) = = NX (2x ) P (X = x X n:n = t) x= t X x= (2x ) tn (t ) n t n (t ) n +(2t ) = (t )2 t n (t ) n +(2t ) t n t n (t ) n = tn+ (t ) n+ t n (t ) n. t n t n (t ) n Also ist T (X) = E (2X T (X)) = T n+ (T ) n+ T n n (X) der gewünschte (T ) Schätzer. Der Satz von RAO-BLACKWELL (über die Verbesserung von Schätzern): Satz: Sei T (X) eine suffiziente Statistik für {P θ, θ Θ} und S (X) ein Schätzer für g (θ) mit E θ ( S (X) ) < θ Θ. Dann ist T (X) = E (S (X) T (X)) ein Schätzer für g (θ) mit der Eigenschaft, dass E θ (T (X) g (θ)) 2 E θ (S (X) g (θ)) 2 () für alle θ Θ gilt, wobei im Fall V θ (S) < Gleichheit genau dann zutrifft, wenn T (X) =S (X) ist. Beweis: Auf Grund des Steinerschen Verschiebungssatzes und E θ (S) =E θ (E [S T ]) = E θ (T ) ist E θ (S (X) g (θ)) 2 V θ (S (X)) = (E θ (S (X)) g (θ)) 2 = (E θ (T (X)) g (θ)) 2 = E θ (T (X) g (θ)) 2 V θ (T (X)). Somit ist () gleichbedeutend mit V θ (T (X)) V θ (S (X)), was - zusammen mit der Bedingung für die Gleichheit - mit Proposition 2 (angewandt auf S für X und T für Y ) zutrifft. Definition: Sei f : R R (messbar). Dann heißt die Statistik T = T (X) vollständig bezüglich der Verteilungsfamilie {P θ, θ Θ} 2, wenn gilt E θ (f (T )) = 0 θ Θ = f (y) =0 y W T. Dieser Satz wurde unabhängig voneinander vom indischen Statistiker C.R. Rao (945) und vom U.S.-amerikanischen Statistiker David H. Blackwell (947) bewiesen. 2 Genauer: bezüglich der Familie der Verteilungen Pθ n T der Statistik T (X), θ Θ

54 .2. GÜTEKRITERIEN FÜR PUNKTSCHÄTZER 53 Anmerkung 2: Die Statistik T (X,...,X n )=max(x,..., X n ) der Verteilungsfamilie { N {,...,N}(x), N N} vollständig. Beweis: Wegen E (f (T )) = f () für N = und ist bezüglich E N (f (T )) ( N )n E N (f (T )) = ( ( N )n ) f (N) für N 2 sieht man unmittelbar, dass aus E N (f (T )) = 0 N N folgt f (N) =0 N N. Der Satz von LEHMANN-SCHEFFÉ 3 Satz: Sei T (X) eine vollständige, suffiziente Statistik und S (X) ein erwartungstreuer Schätzer für g (θ), dann ist auch T (X) =E (S (X) T (X)) ein erwartungstreuer Schätzer für g (θ). Sei S e (X) ein weiterer erwartungstreuer Schätzer für g (θ). Dann gilt V θ (T (X)) V θ ( es (X)) θ Θ, ³ wobei im Fall V θ S < Gleichheit genau dann zutrifft, wenn T (X) = S (X) ist. Bezeichnung: Mansagt,derSchätzer T (X) hatgleichmäßig kleinste Varianz. Folgerung:Ist T (X) einesuffiziente und bezüglich der Verteilungsfamilie {P θ, θ Θ} vollständige Statistik, f : W T R eine streng monotone Funktion und S (X) = f(t (X)) ein erwartungstreuer Schätzer für g(θ), dann ist wegen Anmerkung T = E(f(T ) T )=f(t)=s und somit S(X) der Schätzer mit gleichmäßig kleinster Varianz. Beweis des Satzes: Wegen Proposition sind mit S und S e auch T = f (T )=E(S T ) und f e (T )=E( S e T ) erwartungstreu, womit gilt E θ (( e f f)(t )) = E θ ( e f (T ) f (T )) = E θ ( e f (T )) E θ (f (T )) = 0 θ Θ. Daraus folgt wegen der Vollständigkeit e f f,sodasst = E (S T )=E( e S T ) ist. Die Ungleichung V θ (T (X)) V θ ( es (X)) schließlich folgt - einschließlich der 3 Dieser Satz wurde von dem in Deutschland geborenen Statistiker Erich L. Lehmann und dem U.S.-amerikanischen Statistiker Henry Scheffé in ihrer Arbeit Completeness, similar regions and unbiased estimates (950) bewiesen.

55 54 ABSCHNITT. SCHÄTZEN VON PARAMETERN Aussage über die Gleichheit - aus dem Satz von RAO-BLACKWELL. Anmerkung 3: Der für Beispiel 2b ermittelte Schätzer T (X) = T n+ (T ) n+ (X) ist T n (T ) n - im Hinblick auf Anmerkung 2 und die Folgerung aus dem Satz von LEHMANN- SCHEFFÉ - der erwartungstreue Schätzer mit gleichmäßig kleinster Varianz. Zu Beispiel 2a: Sei θ (0, ) und seien X,..., X n unabhängige, auf [0, θ] gleichverteilte Zufallsvariable. Gesucht ist der Schätzer für θ mit gleichmäßig kleinster Varianz. Lösung: Bekanntlich ist T (X) =max(x,...,x n ) eine suffiziente Statistik und S (X) = n+ T (X) ein erwartungstreuer Schätzer für θ. Somit ist S (X) = n E [S (X) T (X)]. Um den Satz von LEHMANN-SCHEFFÉ anwendenzukönnen - und damit zu zeigen, dass S (X) der gesuchte Schätzer mit gleichmäßig kleinster Varianz ist - ist noch nachzuweisen, dass T (X) vollständig ist. Sei f :[0, ) R stetig und auf jedem Intervall [0, θ] integrierbar. Dann ist gleichbedeutend mit E θ [f (T )] = G (θ) = Z θ 0 Z θ 0 f (t) ntn θ n dt 0 f (t) t n dt 0. Somit ist G eine auf (0, ) stetig differenzierbare Funktion, deren Ableitung G 0 (θ) =f (θ) θ n ebenfalls identisch verschwindet. Somit gilt schließlich f (θ) = 0 θ (0, ). Zu Beispiel 3b: Seien n 3 und X,...,X n unabhängige, gemäß einer Exponentialverteilung mit dem Parameter λ =/E λ (X ) verteilte Zufallsvariable. Die Statistik S n (X) = n ist gemäß Abschnitt.2.4 suffizient P und X i zudem vollständig bezüglich der Familie der Exponentialverteilungen {Ex λ, λ > 0} (Übungsaufgabe). Wie in Abschnitt.2. gezeigt, ist (n ) /S n(x) ein erwartungstreuer Schätzer für λ.da die Funktion t 7 (n )/t streng montonon fallend ist, ist (n ) /S n (X) aufgrund der Folgerung des Satzes von Lehmann- Scheffé der erwartungstreue Schätzer mit gleichmäßig kleinster Varianz.

56 .3. KONSTRUKTION VON KONFIDENZINTERVALLEN 55.3 KONSTRUKTION VON KONFIDENZINTER- VALLEN Zu Beispiel a: Es seien X,..., X n unabhängige und N(μ, σ 2 )-verteilte Zufallsvariable, wobei μ unbekannt und σ 2 bekannt ist. Dann ist T X (μ) = X n μ σ/ n N(0, )-verteilt. Sei weiters 0 < α und z β = Φ (β), β (0, ). Dann gilt Pμ n (z α/2 X n μ σ/ n z α/2) = α und wegen z α/2 = z α/2 {z α/2 X n μ σ/ n z α/2} = { X n σ z α/2 μ X n + σ z α/2 }. n n Somit hat das (zufällige) Intervall X n σ z α/2, X n + σ z α/2 n n die Eigenschaft, dass es mit der Wahrscheinlichkeit α den unbekannten Parameter μ überdeckt. Man spricht von einem Konfidenzintervall mit ( α) 00 % -iger statistischer Sicherheit. Allgemeine Definition einer Konfidenzmenge Es seien allgemein X,...,X n unabhängige gemäß P θ verteilte Zufallsvariable, wobei der Parameter θ Θ unbekannt ist. x =(x,..., x n ) Ω n bezeichne eine aktuelle Stichprobe. Absicht ist, die Parametermenge Θ in Abhängigkeit von der Stichprobe x in eine plausible Menge S x Θ und in eine nicht plausible Menge Θ\S x zu teilen, sodass - wenn möglich - gilt P n θ (x Ω n : θ S x )= α θ Θ. S X heißt dann Konfidenzmenge für θ mit ( α) 00 % -iger statistischer Sicherheit. Anmerkung : Bei uns steht Θ R im Vordergrund, wobei S x -der Eigenschaft der betreffenden Familie (P θ, θ Θ) entsprechend-einintervallist.

57 56 ABSCHNITT. SCHÄTZEN VON PARAMETERN.3. Konstruktion von Konfidenzintervallen vermittels Pivot- Variablen Vorausgesetzt sei Θ R und die Existenz einer Abbildung T :(Ω n, Θ) 7 R mit den Eigenschaften (i) T x (.) :=T (x,.) ist für alle x Ω n eine monotone (o.b.d.a. monoton wachsende) Funktion auf Θ (ii) T (2) θ (.) := T (., θ) ist eine Zufallsvariable, deren Verteilung unabhängig von θ ist. Bezeichnung: Man nennt T (X, θ) eine Pivot-Variable. Gilt nun für 0 < α << und t,t + R mit t <t + Pθ n (x Ω n : t T (2) θ (x) t + )= α für ein - und somit wegen (ii) - für alle θ Θ, dann ist aufgrund von T (2) θ (x) = T x (θ) und - weil wegen (i) t T x (θ) t + und Tx (t ) θ Tx (t + ) gleichbedeutend sind - T X (t ),T X (t +) ein Konfidenzintervall mit ( α) 00 % -iger statistischer Sicherheit. Dass ein Konfidentintervall keineswegs eindeutig ist, wird durch folgende Modifikation von Beispiel a illustriert. Zu Beispiel a: ZusätzlichzudenVoraussetzungenvonBeispielasei γ [0, ]. Dann ist wegen P n μ (z α ( γ) X n μ σ/ n z α γ) = α z β = z β und somit {z α ( γ) X n μ σ/ n z α γ} = { X n σ n z α γ μ X n + σ n z α ( γ) }

58 .3. KONSTRUKTION VON KONFIDENZINTERVALLEN 57 [ X n σ n z α γ, X n + σ n z α ( γ) ] für jedes feste γ [0, ] ein Konfidenzintervall mit ( α) 00 % -iger statistischer Sicherheit. Anmerkung 2: Die Länge l α (γ) = σ n z α ( γ) + z α γ = σ n z α/2 +α(γ /2) + z α/2+α(/2 γ) dieses Konfidenzintervalls ist aufgrund der Symmetrie der Dichte der N(0, )-Verteilung offensichtlich genau dann minimal, wenn γ = /2 ist. Zu Beispiel 2a: Seien X,..., X n unabhängig und auf [0, θ] gleichverteilt, X n:n das Stichprobenmaximum und 0 < α das vorgegebene Signifikanzniveau. Dann gilt P n θ (X n:n x) =P (X x,..., X n x) =( x θ )n = α genau dann, wenn x = θ n α. Also gilt wegen X n:n θ und der entscheidenden Identität θ n α X n:n θ ª = X n:n θ X n:n / n α ª die Beziehung P n θ Xn:n θ X n:n / n α = P n θ Xn:n θ n α = α. Also ist Xn:n,X n:n / n α ein Konfidenzintervall mit ( α) 00 % -iger statistischer Sicherheit. Anmerkung 3: Dieses Konfidenzintervall ist jenes mit minimaler Länge. Anmerkung 4: Zur Konstruktion eines Konfidenzintervalls für den Parameter θ kann anstelle des Stichprobenmaximums X n:n beispielsweise auch das Stichprobenminimum X :n herangezogen werden. Auf dessen Basis erhält man analog zur obigen Vorgangsweise das Konfidenzintervall [X :n,x :n /( n α)].

59 58 ABSCHNITT. SCHÄTZEN VON PARAMETERN Während die Länge des Konfidenzintervalls [X n:n,x n:n / n α] mit wachsendem n gegen 0 geht, geht die des vorliegenden Konfidenzintervalls mit wachsendem n gegen. Dies ist ein deutlicher Hinweis darauf, dass es ratsam ist, zur Konstruktion von Konfidenzintervallen konsistente Schätzer heranzuziehen. Zu Beispiel 2b: Seien X,..., X n unabhängig und auf {,..., N} gleichverteilt. Dann ist [X n:n,x n:n / n α] ein Konfidenzintervall mit mindestens ( α) 00 % - iger statistischer Sicherheit. Zu Beispiel 3b: Es seien X,..., X n unabhängige, gemäß einer Exponentialverteilung mit Parameter λ > 0 verteilte Zufallsvariable. Wegen P (X i >x)=p (λx i > λx) =e λx gilt λx i Ex() = Γ(, ) und daher 2λX i Γ(, 2 )=χ2 2. Daher ist T (X, λ) =2λ P n X i χ 2 2n-verteilt, weswegen P n λ (χ 2 2n,α γ 2λ X i χ 2 2n, α ( γ)) = α gilt. Somit ist " χ 2 2n,α γ 2 P n X, χ2 2n, α ( γ) i 2 P n X i # ein Konfidenzintervall mit ( α) 00 % -iger statistischer Sicherheit. Anmerkung 5: Die Länge des Konfidenzintervalls l α (γ) =χ 2 2n, α ( γ) χ 2 2n,α γ ist offensichtlich genau dann minimal, wenn der Parameter γ [0, ] so gewählt ist, dass die Werte der Dichtefunktion f 2n der χ 2 -Verteilung mit 2n Freiheitsgraden an den Stellen α γ und α ( γ) gleich sind, d.h. wenn gilt f 2n (χ 2n, α ( γ) )=f 2n (χ 2n, α γ ). BeidennachstehendenbeidenBeispielenfolgenwirderüblichen Vorgangsweise, nämlich vermittels der Anwendung des Zentralen Grenzverteilungssatzes asymptotische Konfidenzintervalle zu konstruieren. Anhand von Beispiel 4 führen wir

60 .3. KONSTRUKTION VON KONFIDENZINTERVALLEN 59 schließlich vor, wie die zugehörigen exakten Konfidenzintervalle konstruiert werden können. Zu Beispiel 5: Seien X,...,X n P λ unabhängig (poissonverteilt) mit dem Parameter λ (0, ) und ˆλ n = X n. Dann ist bekanntlich E(ˆλ n )=λ und V (ˆλ n )= λ ˆλn. Aufgrund des Zentralen Grenzverteilungssatzes ist daher λ asymptotisch N(0, )-verteilt. Somit gilt für hinreichend große n und α (0, n λ/n )! ˆλ Pλ Ã n n λ p z λ/n α/2 = α. Da die Diskriminante der zur nachstehenden quadratischen Ungleichung gehörigen quadratischen Gleichung gleich ist, gilt (ˆλ n + z2 α/2 2n )2 ˆλ 2 n = z2 α/2 n (ˆλ n + z2 α/2 4n ) z λ/n α/2 (ˆλ n λ) 2 λ z2 α/2 ˆλ n λ λ 2 2λ(ˆλ n + z2 α/2 )+ˆλ 2 2n n 0 λ λ n, λ + n. n Dabei sind λ ± n = ˆλ n + z2 α/2 2n s ± z α/2 ˆλ n + z2 α/2 n 4n die beiden Lösungen der entsprechenden quadratischen Gleichung. Daher ist λ n, λ + n ein ( α) 00%-iges Näherungskonfidenzintervall für λ. Da n groß im Verhältnis zu z 2 α/2 ist, wird in der Praxis der Term z2 α/2 /n zumeist vernachlässigt. Dementsprechend erhält man für die Endpunkte λ ± n des obigen Konfidenzintervalls folgende Approximationen λ ± n = ˆλ n ± z α/2 n qˆλ n.

61 60 ABSCHNITT. SCHÄTZEN VON PARAMETERN Das in der Praxis verwendete Näherungskonfidenzintervall für die gesuchte Wahrscheinlichkeit λ ist daher ˆλ n z q α/2 ˆλ n, ˆλ n + z q α/2 ˆλ n. n n Zu Beispiel 4: Seien X,..., X n A p unabhängig (alternativverteilt) mit dem Parameter p (0, ) und sei 0 < α das vorgegebene Konfidenzniveau. Konstruktion des asymtotischen Konfidenzintervalls: Sei ˆp n = X n. Da ˆp aufgrund des Zentralen Grenzverteilungssatzes n p asymptotisch N(0, )- p( p)/n verteilt ist, gilt für hinreichend große n! Pp à n ˆp n p p z α/2 = α. p ( p) /n Weil die Diskriminante der zur nachstehenden quadratischen Ungleichung gehörigen quadratischen Gleichung gleich (ˆp n + z2 α/2 2n )2 ( + z2 α/2 n )ˆp2 n = z2 α/2 n (ˆp n ( ˆp n )+ z2 α/2 4n ) ist, gilt ˆp n p z p( p)/n α/2 (ˆp n p) 2 p ( p) z2 α/2 n Dabei sind p ± n = + z2 α/2 n p 2 ( + z2 α/2 ) 2p(ˆp n n + z2 α/2 2n )+ˆp2 n 0 p [p n,p + n ]. ˆp n + z2 α/2 2n s ± z α/2 ˆp n ( ˆp n )+ z2 α/2 n 4n die beiden Lösungen der entsprechenden quadratischen Gleichung. Daher ist [p n,p + n ] ein ( α) 00%-iges Näherungskonfidenzintervall für p, welches wir - entsprechend der angelsächsischen Bezeichnung - Score-Konfidenzintervall 4 nennen. 4 Mit seinem Score-Konfidenzintervall hat der U.S.-amerikanische Statistiker Edwin B. Wilson ( ) im Jahre 927 die inbesondere durch Jerzy Neyman vorangetriebene Arbeit über Konfidenzintervalle eingeleitet.

62 .3. KONSTRUKTION VON KONFIDENZINTERVALLEN 6 Vernachlässigt man den Term z α/2 2 /n,soerhält man das in der Praxis zumeist verwendete, sogenannte Wald sche Näherungskonfidenzintervall 5 ˆp n z α/2 pˆpn ( ˆp n ), ˆp n + z α/2 pˆpn ( ˆp n ). n n Konstruktion des exakten Konfidenzintervalls: Seien der Stichprobenumfang n N fest vorgegeben, y {0,..., n} die tatsächlich beobachtete Anzahl der Erfolge und F y :[0, ] 7 [0, ] die folgendermaßen definierte Funktion yx µ n F y (p) =Pp n (S n y) = p k ( p) n k. k k=0 Der nachstehende, leicht nachzuprüfende Sachverhalt stellt sicher, dass die Funktion F y für y {0,..., n } invertierbar ist. Behauptung : Für y {0,..., n } besitzt F y (p) die Ableitung µ n Fy(p) 0 = n p y ( p) n y < 0. y Daher ist F y (p) streng monoton fallend. Ferner gilt F y (0) = und F y () = 0. Sei nun y {0,..., n} die tatsächlich beobachtete Anzahl der Erfolge und γ [0, ] ein - mit Ausnahme der Beobachtungswerte y =0 und y = n -freizu wählender Parameter. Dann werden die untere Grenze p = p (y) und die obere Grenze p + = p + (y) des exakten Konfidenzintervalls folgendermaßen festgelegt: DieuntereGrenze p (y) ist - für y {,..., n} -sogewählt, dass die Wahrscheinlichkeit, die Hypothese H 0 : p p (y) irrtümlich abzulehnen, gleich α γ ist. Die obere Grenze p + (y) ist-für y {0,...,n } -sogewählt, dass die Wahrscheinlichkeit, die Hypothese H : p p + (y) irrtümlich abzulehnen, gleich α ( γ) ist. Für y {,..., n } gilt dementsprechend einerseits P n p (S n y) = P n p (S n y ) = F y (p )=α γ 5 Dieses Näherungskonfidenzintervall wurde im Jahre 943 von Abraham Wald ( ) vorgeschlagen. Der aus Klausenburg (Kolozsvár, Cluj) im heutigen Rumänien stammende Statistiker war von an dem damals von Oskar Morgenstern geleiteten Österreichischen Institut für Konjunkturforschung in Wien beschäftigt. Nach seiner Flucht in die U.S.A. war er im Zusammenhang mit der Qualitätssicherung bei der Waffenproduktion maßgeblich daran beteiligt, die sequentielle Statistik zu entwickeln.

63 62 ABSCHNITT. SCHÄTZEN VON PARAMETERN und somit p (y) =F y ( α γ) und andererseits P n p + (S n y) =F y (p + )=α ( γ) und daher p + (y) =Fy (α ( γ)). Das exakte Konfidenzintervall ist demnach I n (y, γ) =[F y ( α γ),f y (α ( γ))]. Durch geeignete Wahl des Parameters γ [0, ] kann die Länge Fy (α ( γ)) Fy ( α γ) dieses Intervalls minimal gemacht werden. Für y = 0 ist einerseits P n p (S n 0) P n 0 (S n =0)= und somit p (0) = 0 und γ = 0 und andererseits P n p + (S n 0) = ( p + ) n = α und daher p + (0) = n α. Das exakte Konfidenzintervall ist demnach Für y = n ist einerseits I n (0, 0) = [0, n α]. P n p (S n n) P n (S n = n) = und somit p + (n) = und γ = und andererseits P n p (S n n) =p n = α und daher p (n) = n α. Das exakte Konfidenzintervall ist demnach I n (n, ) = [ n α, ]. Schließlich seien zusammenfassend die Konfidenzintervalle I n (y, γ),y {0,..., n} für die Stichprobenumfänge n = und 2 angegeben.

64 .3. KONSTRUKTION VON KONFIDENZINTERVALLEN 63 n = : I (0, 0) = [0, α], I (, ) = [α, ] n = 2 : I 2 (0, 0) = [0, 2 α], I 2 (, γ) =[ 2 α γ, 2p α ( γ)], I 2 (2, ) = [ 2 α, ]. Anmerkung 6: Die Länge f α (γ) = 2p α ( γ) + 2 α γ des Konfidenzintervalls I 2 (, γ) ist wegen f 0 α(γ) = α 2 ( α ( γ)) /2 ( α γ) /2 für γ {0, } minimal. Demnach sind > 0 für γ < /2 =0 für γ =/2 < 0 für γ > /2 I 2 (, 0) = [0, 2 α] und I 2 (, ) = [ 2 α, ] für n = 2 und y = die Konfidenzintervalle mit minimaler Länge..3.2 Ausblick: Vergleich des Score-Konfidenzintervalls mit dem Wald schen Approximationsintervall Seien α n =(+ z2 n ) und z = z α/2, α (0, ). Dann ist der Mittelpunkt des Score-Konfidenzintervalls gemäß p n = p+ n + p n 2 = α n ˆp n +( α n ) 2 = ˆp n + z 2 /2n +z 2 /n. ein gewichtetes Mittel aus ˆp n und und es gilt 2 2 p n = α n ( 2 ˆp n). () Das bedeutet, dass die Lage des Wald schen Approximationsintervalls im Vergleich zu der des Score-Intervalls zu den Rändern 0 und hin verschoben ist. In der Tat ist es nur dann zur Gänze im Intervall [0, ] enthalten, wenn gilt ˆp n [ α n, α n ]. q 2z Die Länge n α n ˆp n ( ˆp n )+ z 2 des Score-Intervalls ist genau dann größer als 4 n die des Wald schen Approximationsintervalls, nämlich 2z pˆpn n ( ˆp n ), wenn gilt ˆp n s 2 > 2 2+z 2 /n.

65 64 ABSCHNITT. SCHÄTZEN VON PARAMETERN (Dies trifft insbesonderefür die Extremfälle ˆp n =0 und ˆp n = zu,für welche sich das Wald sche Approximationsintervall auf je einen Punkt reduziert.) Aus den beiden genannten Gründen ist die Überdeckungswahrscheinlichkeit des Wald schen Approximationsintervalls für p nahe 0 oder und kleine n deutlich kleineralsdersollwert α. Abschließend bieten wir eine zukunftsträchtige Verbesserung des Score-Intervalls an. Wegen und () ist p( p) = 4 ( 2 p)2 p n ( p n ) = 4 ( 2 p n) 2 = 4 α2 n( 2 ˆp n) 2 = α 2 4 n + α 2 n ( 4 ( 2 ˆp n) 2 ) = α 2 n ˆp n ( ˆp n )+ α 2 4 n. Also gilt für das n/(2z) 2 -Fache des Quadrats der Länge des Score-Konfindenzintervalls α 2 n (ˆp n ( ˆp n )+ z 2 4 n ) = p n ( p n ) 4 ( α2 n( + z2 n )) = p n ( p n ) 4 ( α n) wobei die Ungleichung wegen = p n ( p n ) 4(n/z 2 +) n n + z p 2 n ( p n ), = n p n ( p n ) n + z 2 ( p n ( p n ) = z 2 ( 4 p n ( p n )) 0 z 2 4(n + z 2 ) )

66 .4. METHODE DER KLEINSTEN QUADRATE UND LINEARE MODELLE65 gilt. Daher hat das Score-Konfidenzintervall in Abhängigkeit von p n die Form p ± n = p n ± z s p n ( p n ) n 4(n/z 2 +), wobei die Approximation r p ± pn ( p n ) n = p n ± z, n + z 2 welche ähnlich handlich wie die Wald sche ist, im Unterschied zu dieser jedoch die Überdeckungswahrscheinlichkeit auch für kleine n geringfügig erhöht 6. Dieser Vorteil der letztgenannten Approximation führt dazu, dass sie die Wald sche Approximation in jüngster Zeit zu ersetzen beginnt..4 METHODE DER KLEINSTEN QUADRATE UND LINEARE MODELLE.4. Einleitung Im Folgenden sei angenommen, dass Beobachtungen Y i als Summen der Form Y i = g i (θ,..., θ r )+ε i,i {,..., n} geschrieben werden können, wobei die g i bekannte reelle Funktionen eines Vektors θ = (θ,..., θ r ) von unbekannten Parametern und die ε i Zufallsgrößen mit den folgenden Eigenschaften sind: und E (ε i )=0, V (ε i )=σ 2,i {,...,n} Cov (ε i, ε j )=0, i<j n. (**) Vielfach wird zudem angenommen, dass ε,..., ε n unabhängig und identisch N(0, σ 2 )- verteilt sind. 6 vgl. Agresti, A. and B.A. Coull: Approximate is better than exact for interval estimation of binomial proportions. The American Statistician 52 (998), 9 26

67 66 ABSCHNITT. SCHÄTZEN VON PARAMETERN Sei y = (y,...,y n ) eine Realisierung von Y = (Y,..., Y n ). Dann sieht die Methode der kleinsten Quadrate vor, jenen Vektor ˆθ =(ˆθ,...,ˆθ r )zufinden, welcher die Summe der Abweichungsquadrate [y i g i (θ,..., θ r )] 2 für θ =(θ,..., θ r ) aus einem geeigneten Bereich Θ minimiert. Wir verwenden q(ˆθ) um die Funktion q(θ) =(g (θ),..., g n (θ)) zu schätzen. Das entsprechende Verfahren heißt der Kleinste-Quadrate-Schätzer KQS (least square estimate LSE). Die Methode der kleinsten Quadrate wurde, unabhängig voneinander, von Carl Friedrich Gauß ( ) und Adrien-Marie Legendre ( ) angewandt bzw. entwickelt. Die Größen y i g i (ˆθ,..., ˆθ r ), i {,..., n} heißen Residuen. Wenn g i differenzierbar und der Wertebereich abgeschlossen ist, dann ist ˆθ stets definiert. Wenn Θ offen ist, muss ˆθ die sogenannten Normalgleichungen (normal equations) θ j [y i g i (θ,..., θ r )] 2 =0, j {,..., r} erfüllen. Lineare Modelle haben die Form rx Y i = θ k c ik + ε i,i {,..., n}. k= Die Normalgleichungen haben in diesem Fall wegen θ j [y i rx θ k c ik ] 2 = 2 k= = 2 [y i [y i rx θ k c ik ] ( θ j rx θ k c ik ]c ij k= k= rx θ k c ik ) k=

68 .4. METHODE DER KLEINSTEN QUADRATE UND LINEARE MODELLE67 die Form oder, mit c 0 ji = c ij rx c ij [y i θ k c ik ]=0,j {,..., r} k= gleichbedeutend, c 0 ji( k= rx c ik θ k )= c 0 jiy i,j {,..., r}. Beispiel (Mess- oder Shiftmodell): Dieses Beispiel entspricht Beispiel a aus Abschnitt..2. Es werden daher (**) und Y i = μ + ε i, i {,...,n}. angenommen. Es handelt sich um folgenden Spezialfall des allgemeinen Modells: r =, g i (θ) =θ = μ,i {,..., n}. Da die Likelihood-Funktion L y (μ) = ny 2πσ e (y i μ)2 2σ 2 = e 2σ 2 P n (y i μ) 2 (2πσ 2 ) n/2 ist, liefert das Likelihood-Prinzip in diesen Fall den Schätzwert für μ, für welchen minimal ist, nämlich ˆμ =ȳ n. (y i μ) 2 Beispiel 2 (Regressionsmodell): In diesem Fall wird Y i = θ + θ 2 x i + ε i, i {,..., n}, angenommen, wobei (x,..., x n ) R n ist. Zwei-Stichproben Shiftmodell: In diesem Fall seien n {,..., n } und n 2 = n n und ½ 0 für i {,...,n } x i = für i {n +,..., n}

69 68 ABSCHNITT. SCHÄTZEN VON PARAMETERN θ = μ und θ 2 = μ 2 μ. Beispiel 3 (Lineare Regression in zwei Variablen): In diesem Fall ist Y i = β + β 2 c i2 + β 3 c i3 + ε i,i {,...,n} bzw. etwa für c i2 = x i und c i3 = x 2 i Y i = β + β 2 x i + β 3 x 2 i + ε i,i {,...,n}. Beispiel 4 (p-stichproben Shiftmodell): Y kl = β k + ε kl,l {,..., n k },k {,...,p}. Dieses Modell lässt sich für n(j) = P j k= n k,j {,...,p}, n = n(p) und c ij = {n(j )+,...,n(j)} (i),j {,..., p} als lineares Modell in der üblichen Form interpretieren..4.2 Matrixdarstellung von linearen Modellen Seien und ξ i = px c ij β j, y i = j= px c ij β j + ε i,i {,..., n} j= c 0 ki( k= px c ij β j )= c 0 kiy i,k {,..., p} die zugehörigen Normalgleichungen. Y = Mit Y. Y n, ξ = ξ. ξ n, ε = ε. ε n, β = β. β p, und C = c c p... c n c np

70 .4. METHODE DER KLEINSTEN QUADRATE UND LINEARE MODELLE69 gelten ξ = Cβ und Y = ξ + ε. Somit ist die grundlegende Darstellung eines linearen Modells Die Matrixdarstellung der Normalgleichungen ist Y = Cβ + ε. (*) C 0 C ˆβ = C 0 Y und heißt Normalgleichung. Erwartungswert und Varianz von Zufallsvektoren: Der Erwartungswert des Zufallsvektors ist der Vektor der Erwartungswerte seiner Komponenten, d.h. E β (Y ) E β (Y )=.. E β (Y n ) Daher gilt E β (Y )=ξ = Cβ. Die Varianz V β (Y ) eines Zufallsvektors ist die zugehörige Kovarianzmatrix, d.h. V β (Y )=(Cov(Y i,y j )) (i,j) {,...,n} 2. Die Varianz von Linearkombinationen b 0 Y, b R n ist V β (b 0 Y )=b 0 V β (Y )b und somit speziell für V β (Y )=σ 2 I, wobei I = I n die zugehörige Einheitsmatrix ist, denn es ist - wie üblich - V β (b 0 Y ) = V β ( b i Y i )= b i b j Cov β (Y i,y j )= j= = b 0 V β (Y )b = σ 2 b 0 Ib = σ 2 b 0 b = σ 2 kbk 2. b i Cov β (Y i,y j )b j Abschließend sei darauf hingewiesen, dass die obigen Ergebnisse eine unmittelbare Konsequenz unserer Grundvoraussetzungen E β (ε) = 0 und V β (ε) =σ 2 I j=

71 70 ABSCHNITT. SCHÄTZEN VON PARAMETERN sind. Anmerkung : Der durch die Vektoren c j = c j. c nj,j {,..., p} aufgespannte lineare Raum L C, nämlich gemäß L C = { P p j= c jβ j = Cβ : β R p } R n das Bild von C 7 ist im Folgenden sehr wichtig. Wir haben hinsichtlich der Dimension r = dim(l C ) p von L C naturgemäß die beiden Fälle r = p und r < pzu unterscheiden. Fall ( β ist identifizierbar (identifyable)): In diesem durch dim(l C )=p gegebenen Fall sind die Vektoren c j, j {,..., p} linear unabhängig und es gibt eine eineindeutige Zuordnung zwischen dem Parameter β und ξ = Cβ, und die Matrix C 0 C ist invertierbar. Fall 2 ( β ist nicht identifizierbar): Dieser durch dim(l C ) <p gegebene Fall ist etwas schwieriger zu behandeln. Für den Fall, für welchen die Matrix C 0 C invertierbar ist, gilt daher ˆβ =(C 0 C) C 0 Y. Anmerkung 2: Die Normalgleichung ist zu folgenden Bedingungen äquivalent: C 0 (Y C ˆβ) =0 c 0 j(y C ˆβ) =0 j {,..., p} a 0 (Y C ˆβ) =0 a L C Die nachstehende Aussage ist allgemein gültig. Verallgemeinerung des Steinerschen Verschiebungssatzes: Erfüllt ˆβ die Normalgleichung C 0 (Y Cˆβ) =0, dann gilt ky Cβk 2 = Y Cˆβ 2 + C(ˆβ β) 2 7 genauer im Bild der durch C definierten linearen Abbildung x 7 Cx ist

72 .4. METHODE DER KLEINSTEN QUADRATE UND LINEARE MODELLE7 und somit ky Cβk 2 Y C ˆβ 2 β R p. Sofern C den Rang p besitzt, gilt Gleichheit genau dann, wenn β = ˆβ ist. Anmerkung 3: Gemäß (*) ist ε = Y Cβ = Y C ˆβ + C(ˆβ β), wobei C(ˆβ β) L C ist, während Y C ˆβ aufgrund der Normalgleichung normal zu L C ist. Die beiden Vektoren Y C ˆβ und C(ˆβ β) stehen aufeinander normal und die obige Identität entspricht dem Pythagoräischen Lehrsatz. C ˆβ, die sogenannte Projektion von Y auf L C, minimiert die Funktion β 7 ky Cβk 2 = (Y i px c ij β j ) 2. Beweis: Es gilt ky Cβk 2 = (Y Cβ) 0 (Y Cβ) = (Y C ˆβ + C(ˆβ β)) 0 (Y Cˆβ + C(ˆβ β)) = (Y C ˆβ) 0 (Y C ˆβ)+2(C(ˆβ β)) 0 (Y C ˆβ) +(C(ˆβ β)) 0 C(ˆβ β) = Y C ˆβ 2 + C(ˆβ β) 2, zumal das gemischte Glied wegen der Gültigkeit der Normalgleichung verschwindet. (C(ˆβ β)) 0 (Y Cˆβ) =(ˆβ β) 0 C 0 (Y Cˆβ) =0 Im Folgenden gehen wir von den Standardvoraussetzungen hinsichtlich des linearen Modells aus, machen jedoch nicht die Voraussetzung (**) hinsichtlich der Art der Verteilung.

73 72 ABSCHNITT. SCHÄTZEN VON PARAMETERN.4.3 Der Satz von Gauß-Markoff Satz von Gauß-Markoff (Gauss-Markov theorem) - Fall : (Rang(C) =p, d.h. β ist identifizierbar): Sei ˆβ = (C 0 C) C 0 Y der eindeutige Kleinste- Quadrate-Schätzer von β und Φ = c 0 β,c R p eine beliebige lineare parametrische Funktion von β. Dann ist c 0ˆβ ein erwartungstreuer Schätzer von Φ. Ist Φ irgend ein anderer in Y linearer erwartungstreuer Schätzer von Φ, dann gilt V β (c 0ˆβ) <Vβ ( Φ) β R p. Beweis: Anwendung des Erwartungswerts auf ˆβ =(C 0 C) C 0 Y liefert E β (ˆβ) =E β (C 0 C) C 0 Y =(C 0 C) C 0 E β (Y )=(C 0 C) C 0 Cβ = β. Also ist der Schätzer ˆβ von β erwartungstreu. Wegen der Linearität des Erwartungswerts ist daher auch der Schätzer c 0ˆβ von Φ erwartungstreu: E β (c 0ˆβ) =c 0 E β (ˆβ) =c 0 β = Φ. Da Φ ein in Y linearer Schätzer ist, lässt er sich in der Form b 0 Y mit b R n anschreiben und es gilt E β ( Φ) =E β (b 0 Y )=b 0 E β (Y )=b 0 Cβ. Da Φ zudem ein erwartungtreuer Schätzer für Φ ist, und somit zudem gilt, ist c 0 = b 0 C. Die Varianz von Φ ist Die Varianz von c 0ˆβ ist wegen und c 0 = b 0 C E β ( Φ) =Φ = c 0 β V β ( Φ) =V β (b 0 Y )=σ 2 b 0 Ib= σ 2 kbk 2. V β (ˆβ) = V β ((C 0 C) C 0 Y )=σ 2 (C 0 C) C 0 ((C 0 C) C 0 ) 0 = σ 2 (C 0 C) C 0 C (C 0 C) = σ 2 (C 0 C) V β (c 0ˆβ) =c 0 V β (ˆβ)c = σ 2 c 0 (C 0 C) c = σ 2 b 0 C (C 0 C) C 0 b.

74 .4. METHODE DER KLEINSTEN QUADRATE UND LINEARE MODELLE73 Daher ist V β ( Φ) V β (c 0ˆβ) h i = σ 2 b 0 Ib b 0 C (C 0 C) C 0 b h i = σ 2 b 0 I C (C 0 C) C 0 b 0 b R n gleichbedeutend damit, dass die Matrix P = I C (C 0 C) C 0 positiv semidefinit ist. Dies folgt aus der Tatsache, dass P gemäß (I C (C 0 C) C 0 ) 2 = I 2 2I C (C 0 C) C 0 +(C (C 0 C) C 0 )(C (C 0 C) C 0 ) = I 2C (C 0 C) C 0 + C (C 0 C) C 0 = I C (C 0 C) C 0 idempotent und zudem offenbar symmetrisch ist. Daher gilt nämlich b 0 Pb = b 0 PPb = b 0 P (Pb)=b 0 P 0 (Pb)=(Pb) 0 (Pb)=kPbk 2 0. Zu Beispiel 2: Einfache Lineare Regression Für diesen Spezialfall sind µ x β β = und C = β.. 2 x n und daher µ C 0 C = x x n x.. x n = µ P n n x i P n x i P n x2 i und µ C 0 Y = x x n Y. Y n = µ P n Y i P n x iy i.

75 74 ABSCHNITT. SCHÄTZEN VON PARAMETERN Im Folgenden berücksichtigen wir die Bezeichnungen x n = n P n x i, Ȳ n = n P n Y i, s 2 x = n (x i x n ) 2 und s xy = n (x i x n ) Y i Ȳ n. Fall (r = p =2, d.h. β ist identifizierbar): Nicht alle x i, i {,..., n} sind gleich. Daher ist die Determinante von C 0 C C 0 C = n( x 2 i n x 2 n)=n (x i x n ) 2 = n(n )s 2 x > 0 und somit C 0 C invertierbar. Wegen µ µ a b c b =, b c ac b 2 b a P n x iy i n x n Ȳ n = P n (x i x n ) Y i Ȳ n =(n )sxy und somit Ȳ n x 2 i x n x i Y i = Ȳ n ( x 2 i n x 2 n) x n ( x i Y i n x n Ȳ n ) = s 2 x = Ȳn ist ˆβ = (C 0 C) C 0 Y = n(n )s 2 x = (n )s 2 x µ Ȳn s 2 x x n s xy. s xy (x i x n ) 2 x n (x i x n ) Y i Ȳn = (n )(Ȳ n s 2 x x n s xy ), µ P n x2 i P n x i P n x i n µ P n P Ȳn x2 i x n n x Pn iy i x iy i n x n Ȳ n Die Kovarianzmatrix ist wegen P n x2 i =(n )s 2 x + n ( x n ) 2 µ V β (ˆβ) = σ 2 (C 0 C) σ 2 P n = x2 i P n x i n(n )s 2 P n x x i n µ σ 2 ( = (n )s 2 n )s2 x +( x n ) 2 x n. x x n µ P n Y P i n x iy i

76 .4. METHODE DER KLEINSTEN QUADRATE UND LINEARE MODELLE75 Fall 2 (r = < p = 2, d.h. alle x i gleich (= x ), d.h. β ist nicht identifizierbar): In diesem Fall sind C = x.. x. Wegen c 0 = b 0 C = x b b n.. = P n b i x P n b i x = n bn x µ sind nur c 0 β β = n b n 0 x = n b β n (β 0 + x β ), b n R schätzbar. Dies entspricht dem Umstand, dass im vorliegenden Fall R C = {(β 0 + x β ). : β 0 + x β R } ein eindimensionaler Unterraum von R n ist und somit das Shiftmodell von Beispiel mit dem Parameter β 0 = β 0 + β x das adäquate Modell ist. In dem bereits behandelten Fall des Satzes von Gauß-Markoff erweist sich ˆβ = (C 0 C) C 0 Y als erwartungstreuer Schätzer für den unbekannten Parameter β. Aus der Linearität des Erwartungswerts folgt, dass sich demnach auch alle Linearkombinationen Φ = c 0 β, c R p der Komponenten β,...,β p erwartungstreu schätzen lassen. FürderFall2,beiwelchem β nicht identifizierbar ist, (a) ist offensichtlich C 0 C nicht invertierbar, sodass sich der Schätzer ˆβ nicht explizit als Lösung der Normalgleichung C 0 Cˆβ = C 0 Y darstellen lässt. Aus dem Fall 2 des obigen Beispiels geht jedoch hervor, (b) dass sich überdies nicht alle Φ der Form Φ = c 0 β, c R p mit Hilfe einer geeigneten linearen Funktion von Y erwartungstreu schätzen lassen.

77 76 ABSCHNITT. SCHÄTZEN VON PARAMETERN Aus diesem Grund bedarf es eines neuen Begriffs. Definition: Eine Funktion Φ = c 0 β, c R p heisst schätzbar, wenn es einen in Y linearen erwartungstreuen Schätzer Φ von Φ gibt. Im Rahmen des Beweises des obigen Satzes von Gauß-Markow sieht man bereits, welcher Einschränkung der Vektor c 0 R p unterliegt, damit Φ = c 0 β schätzbar ist. Charakterisierung der Schätzbarkeit von Φ = c 0 β : Die Funktion Φ = c 0 β ist genau dann schätzbar, wenn sich c 0 als Linearkombination der Zeilenvektoren von C darstellen lässt, d.h. wenn gilt c 0 = b 0 C, b R n. Beweis (Wiederholung): Ist Φ = b 0 Y ein erwartungtreuer Schätzer von Φ = c 0 β, so gilt wegen E β (Y )=Cβ E β (b 0 Y )=b 0 E β (Y )=b 0 Cβ = c 0 β β R p und somit b 0 C = c 0 oder, gleichbedeutend, c = C 0 b. Satz von Gauß-Markoff -Fall2: (Rang(C) < p, d.h. β ist nicht identifizierbar): Sei Φ = c 0 β schätzbar. Dann gilt für jede Lösung ˆβ der Normalgleichung C 0 (C ˆβ Y )=0, dass c 0ˆβ ein in Y linearer erwartungstreuer Schätzer von Φ = c 0 β ist. Sei weiters Φ irgend ein in Y linearer erwartungstreuer Schätzer von Φ, dann gilt V β (c 0ˆβ) Vβ ( Φ) β R p. Beweis: Sei b R n derart, dass c 0 = b 0 C, und sei b 0 Y ein erwartungstreuer Schätzer von Φ = c 0 β. Sei weiters a die Projektion von b auf L C, sodass b a L C,d.h.(b a) 0 C = 0 gilt. Daher gelten und a 0 C =(a b) 0 C + b 0 C = b 0 C = c 0 E β (a 0 Y )=E β (a b) 0 Y + b 0 Y =(a b) 0 Cβ + Φ = Φ. Zusammenfassend hat also mit b R n auch dessen Projektion a auf L C die Eigenschaften (i) a 0 C = c 0 und (ii) a 0 Y ist ein erwartungstreuer Schätzer für Φ. Für dieses a L C ergibt sich aus der Normalgleichung in der Form a 0 (C ˆβ Y )= 0 0=a 0 (C ˆβ Y )=a 0 Cˆβ a 0 Y = c 0ˆβ a 0 Y

78 .4. METHODE DER KLEINSTEN QUADRATE UND LINEARE MODELLE77 und somit c 0ˆβ = a 0 Y. Zusammenfassend gilt also E β (c 0ˆβ) (=Eβ (a 0 Y )) = c 0 β. Nun gilt aber wegen (b a) 0 a =0 kbk 2 = b 0 b =(b a) 0 (b a)+a 0 a = kb ak 2 + kak 2 und somit V β (b 0 Y )=σ 2 b 0 b = σ 2 kbk 2 σ 2 kak 2 = σ 2 a 0 a = V β (a 0 Y )=V β (c 0ˆβ). Anmerkung : Die Projektion a von b ist der einzige Vektor aus L C, für den a 0 Y ein erwartungstreuer Schätzer für Φ ist. Beweis: Wäre a L C ein weiterer derartiger Vektor, dann gilt 0=E β (a a ) 0 Y =(a a ) 0 E β (Y )=(a a ) 0 Cβ β R p und somit (a a ) 0 C = 0 oder, gleichbedeutend, a a L C. Da aber gleichermaßen a a L C gilt, muss a a =0,d.h a = a sein..4.4 Kanonische Darstellung und Schätzung von σ 2 Seien v = v. v n,..., v n = n-dimenisonale Spaltenvektoren, welche eine orthonormale Basis für R n bilden und von denen die Vektoren v,..., v r denlinearenteilraum L C aufspannen. D.h. es gilt einerseits v n. v nn v 0 iv j = ½ für j = i 0 für j 6= i (.)

79 78 ABSCHNITT. SCHÄTZEN VON PARAMETERN und andererseits neben der allgemeinen Beziehung speziell t = t = (t 0 v i ) v i t R n rx (t 0 v i ) v i t L C. (.2) Ist nun P =(v ij ) (i,j) {,...,n} 2 die aus den Spaltenvektoren v j,j {,...,n} gebildete Matrix, dann lauten die Beziehungen (.) und (.2) in Matrixdarstellung P 0 P = PP 0 = I bzw. P 0 Y L C. Wir definieren die neuen Größen Z i = Y 0 v i = oder, in Matrixdarstellung, Y j v ji und η i = ξ 0 v i = j= Z 0 = Y 0 P bzw. η 0 = ξ 0 P. ξ j v ji j= Dann gelten wegen t = P n (t0 v i ) v i oder, in Matrixdarstellung, Y = Z i v i und ξ = rx η i v i Z Daher ist Z =. Z n hinsichtlich dessen L C Y = PZ bzw. ξ = P η. eine Darstellung von Y durch die ersten r der n Vektoren 0 0 0,, in einem Koordinatensystem,

80 .4. METHODE DER KLEINSTEN QUADRATE UND LINEARE MODELLE79 aufgespannt ist. Daher hat die Statistik (Z,..., Z n ) eine sehr einfache Struktur. Für den Mittelwertsvektor und die Kovarianzmatrix von δ = P 0 ε gelten E β (δ) =P 0 E β (ε) =0 und V β (δ) =P 0 V β (ε) P = P 0 σ 2 IP = σ 2 P 0 P = σ 2 I. Darüber hinaus gilt im Hinblick auf (*) mit δ = P 0 ε = P 0 C(ˆβ β)+p 0 (Y C ˆβ) P 0 C(ˆβ β) = und somit wegen PP 0 = I i=r+ δ. δ r 0. 0, P 0 (Y C ˆβ) = 0. 0 δ r+ δ 2 i = (P 0 (Y C ˆβ)) 0 P 0 (Y C ˆβ) =(Y C ˆβ) 0 PP 0 (Y C ˆβ). δ n = (Y C ˆβ) 0 I (Y C ˆβ) =(Y Cˆβ) 0 (Y C ˆβ). Für den Erwartungswert von (Y C ˆβ) 0 (Y Cˆβ) gilt daher unter Berücksichtigung von V β (δ i )=E β δ 2 i = σ 2,i {,..., n} E β [(Y C ˆβ) 0 (Y C ˆβ)] = E β [ i=r+ δ 2 i ]= i=r+ E β δ 2 i =(n r) σ 2. Somit ist n r (Y Cˆβ) 0 (Y C ˆβ) ein erwartungstreuer Schätzer für σ 2. Anmerkung : Für den Fall, dass C den Rang p besitzt und somit ˆβ =(C 0 C) C 0 Y und V β (ˆβ) =σ 2 (C 0 C)

81 80 ABSCHNITT. SCHÄTZEN VON PARAMETERN gilt, ist ˆσ 2 = n p (Y C ˆβ) 0 (Y Cˆβ) (.3) ein erwartungstreuer Schätzer für σ 2 und daher ˆσ 2 (C 0 C) ein erwartungstreuer Schätzer der Kovarianzmatrix V β (ˆβ). Ferner ist c 0ˆβ ein erwartungstreuer Schätzer von c 0 β mit gleichmäßig kleinster Varianz V β (c 0ˆβ) =σ 2 c 0 (C 0 C) c. Wählt man für i {,..., p} den Vektor c 0 i = {i} (),..., {i} (p), so erhält man mit c 0 iˆβ = ˆβ i die i-te Komponente von ˆβ. Diese ist der erwartungstreue Schätzer der Komponente β i von β mit der Varianz V β (ˆβ i )=σ 2 (i, i)-tes Element von (C 0 C). Spezialfälle: Da die Formel (.3) für das Mess- oder Shiftmodell Y i = μ + ε i, i {,..., n} von Beispiel die Gestalt ˆσ 2 = Yi Ȳn 2 n annimmt, handelt es sich dabei um die entsprechende Verallgemeinerung dieses wohlbekannten erwartungstreuen Schätzers für σ 2. Für das p-stichproben Shiftmodell Y kl = β k + ε kl,l {,..., n k },k {,..., p} von Beispiel 4 hat die Formel (.3) die Gestalt wobei ˆσ 2 = n p Ȳ k = n k px Xn k k= Xn k l= l= 2 Ykl Ȳk, Y kl,k {,...,p} die - in der Varianzanalyse übliche - Bezeichnung der Kleinste-Quadrate-Schätzer des Parameters β k ist.

82 .4. METHODE DER KLEINSTEN QUADRATE UND LINEARE MODELLE8.4.5 Der Satz von Gauß-Markoff unter Normalverteilungsannahme Im Folgenden setzen wir zweierlei voraus: (A) der stochastische Vektor ε des linearen Modells Y = Cβ + ε besitzt die Verteilung ε N(0, σ 2 I n ) oder, gleichbedeutend, Y N(Cβ, σ 2 I n ). D.h. die Dichtefunktion des Zufallsvektors Y ist p Y 0(y 0 ; β 0, σ 2 )= 2πσ 2 n 2 exp( 2σ 2 (y Cβ)0 (y Cβ)). (B) die n p-matrix C besitzt den Rang p (es liegt also Fall vor), womit sich die Lösung der Normalgleichung explizit darstellen lässt. Bevor wir uns dem Beweis des Satzes von Gauß-Markoff unter Normalverteilungsannahme zuwenden, beweisen wir zunächst den folgenden für die Anwendungen sehr wichtigen Sachverhalt. Proposition: Seien ˆβ =(C 0 C) C 0 Y und ˆσ 2 = n p (Y C ˆβ) 0 (Y C ˆβ). Dann gelten folgende Sachverhalte (i) Der Vektor ˆβ besitzt die Verteilung N(β, σ 2 (C 0 C) ), (ii) (n p) ˆσ 2 /σ 2 ist χ 2 n p-verteilt, (iii) ˆβ und ˆσ 2 sind stochastisch unabhängig. Beweis: Der Übergang zur kanonischen Darstellung Z0 = Y 0 P bzw. η 0 = ξ 0 P mit Hilfe der orthogonalen Matrix P =(v ij ) (i,j) {,...,n} 2 liefert aufgrund des Transformationssatzes, welcher wegen (.) und mithin P = P 0 und det(p 0 ) = dieform f Z 0 (z 0 )=f Y 0 z 0 (P ) det((p ) ) = f Y 0 (z 0 P 0 )

83 82 ABSCHNITT. SCHÄTZEN VON PARAMETERN erhält, und (.2) p Z 0(z 0 ; η 0, σ 2 ) = 2πσ 2 n 2 exp( 2σ 2 (z i η i ) 2 ) = 2πσ 2 n 2 exp( 2σ [ z 2 2 i 2 px z i η i + = 2πσ 2 n 2 exp( px 2σ [ (z 2 i η i ) 2 + i=r+ px η 2 i ]) z 2 i ]). D.h. die Komponenten Z,..., Z n des Vektors Z sind unabhängig und normalverteilt und zwar derart, dass gilt ½ N(ηi, σ Z i 2 ) für i {,...,p} N(0, σ 2 ) für i {p +,..., n}. Dies hat wegen und δ = P 0 ε = P 0 C(ˆβ β)+p 0 (Y C ˆβ) P 0 C(ˆβ β) =(δ,...,δ p, 0,..., 0) 0 und P 0 (Y C ˆβ) =(0,..., 0, δ p+,..., δ n ) 0 und der Tatsache, dass P 0 eine orthogonale Matrix ist, zur Folge, dass die Zufallsvektoren ˆβ β und Y C 0ˆβ stochastisch unabhängig sind. Daraus ergibt sich, dass auch ˆβ β und ˆσ 2 (als Funktion von Y C 0ˆβ ) stochastisch unanhängig sind und somit (iii) gilt. (ii) Da die Zufallsvariablen δ p+ σ,..., δ n σ unabhängig und N(0, )-verteilt sind, ist σ 2 (Y Cˆβ) 0 (Y C ˆβ) = als Summe deren Quadrate χ 2 n p-verteilt. ( δ i i=p+ (i) Da ein Normalverteilter Zufallsvektor Y N(Cβ, σ 2 I n ) durch eine lineare Transformation ˆβ =(C 0 C) C 0 Y wieder in einen Normalverteilten Zufallsvektor übergeht und E β (ˆβ) =β und V β (ˆβ) =σ 2 (C 0 C) gelten, gilt ˆβ N(β, σ 2 (C 0 C) ). σ )2

84 .4. METHODE DER KLEINSTEN QUADRATE UND LINEARE MODELLE83 Satz von Gauß-Markoff unter Normalverteilungsannahme: Unter den Annahmen (A) und (B) gilt: Die Komponenten ˆβ i des Schätzers ˆβ =(C 0 C) C 0 Y sind unter allen erwartungstreuen Schätzern für β i jene mit kleinster Varianz. Anmerkung : Dies ist eine beträchtliche Verschärfung gegenüber der verteilungsfreien Form des Satzes von Gauß-Markoff (Fall ), der bloß aussagt, dass die Komponenten ˆβ i von ˆβ unter allen linearen erwartungstreuen Schätzern für β i jene mit kleinster Varianz sind. Beweis: Wegen 2σ 2 (y Cβ)0 (y Cβ) = 2σ 2 y0 y px kann die Dichtefunktion p Y 0(y 0 ; β 0, σ 2 ) mit ½ βi für i {,..., p} θ i = σ 2 für i = p + 2σ 2 und t i (y) = sowie β i σ 2 (C0 y) i + 4 ( 2σ 2 ) ( β σ 2 )0 C 0 C β σ 2 ½ (C 0 y) i für i {,...,p} y 0 y für i = p + θ 0 =(θ,...,θ p+ ) und t 0 (y) =(t (y),..., t p+ (y)) in der folgenden Form dargestellt werden p Y 0(y 0 ; β 0, σ 2 ) = 2πσ 2 n 2 exp( 2σ (y 2 Cβ)0 (y Cβ)) = 2πσ 2 n 2 exp( px 2σ 2 β0 C 0 β Cβ)exp( i σ 2 (C0 y) i y0 y 2σ ) 2 = C (θ)exp( px θ i t i (y)). Aufgrund des Faktorisierungssatzes gilt, dass t 0 (Y )einesuffiziente Statistik bezüglich θ ist. Weiters besagt ein fundamentaler Satz über die Vollständigkeit von Exponentialfamilien, hinsichtlich dessen Formulierung auf Theorem in Silvey (970) und hinsichtlich dessen Beweises auf Lehmann (959), pp , verwiesen sei, dass die gegebene Verteilungsfamilie der Statistik t 0 (Y ) vollständig ist, sofern keine Einschränkungen hinsichtlich der Parameter β und σ 2 vorliegen, zumal die Parametermenge dann ein p + -dimensionales Rechteck enthält.

85 84 ABSCHNITT. SCHÄTZEN VON PARAMETERN Nun ist β i = 2 θ i/θ p+ eine reelle Funktion von θ, und ˆβ i ist wegen ˆβ =(C 0 C) C 0 Y eine Funktion der suffizienten Statistik t 0 (Y ). Darüber hinaus ist ˆβ i ein erwartungstreuer Schätzer von β i. Daraus folgt aufgrund des Satzes von Rao-Blackwell, dass ˆβ i unter allen erwartungstreuen Schätzern für β i jenermitkleinstervarianzist.

86 Abschnitt 2 ÜBUNGSAUFGABEN UND PROJEKTE Aufgaben zu Abschnitt.. Die Momentenmethode. Eine Zufallsvariable X mit Wertebereich N 0 heißt negativ-binomialverteilt mit den Parametern k (0, ) und P (0, ), wenn gilt µ k + i P (X = i) = ( i Q )k ( P Q )i,i N 0, wobei Q =+P ist. Seien nun X,..., X n unabhängig und negativbinomialverteilt mit den genannten Parametern. Zeigen Sie E k,p (X i )=kp und V k,p (X i )=kpq und geben Sie mit Hilfe dieser Darstellungen von Erwartungswert und Varianz Momentenschätzer für die Parameter k und P an. Aufgaben zu Abschnitt..2 Die Maximum-Likelihood-Methode 2. Zu Beispiel b: Maximieren Sie die Log-Likelihood-Funktion 2 n ln L x(μ, σ 2 )= (x σ 2 i μ) 2 ln 2πσ 2 n der N(μ, σ 2 ) -Verteilung für den Beobachtungsvektor R n mit Hilfe partieller Ableitungen. 85 x = (x,..., x n )

87 86 ABSCHNITT 2. ÜBUNGSAUFGABEN UND PROJEKTE 3. Seien X,..., X n unabhängige und geometrisch verteilte Zufallsvariable mit dem Parameter p (0, ), d.h. es ist P (X i = x) =p( p) x,x N,i {,..., n}. Bestimmen Sie den Maximum-Likelihood-Schätzer (a) auf herkömmliche Art und (b) unter Verwendung der I-Divergenz. 4. Zum Beispiel zur Motivation des Momentenschätzers: Ermitteln Sie den Maximum- Likelihood-Schätzer für die Gesamtanzahl N der Kugeln in der Urne für den Fall des Ziehens (a) mit und (b) ohne Zurücklegen. 5. Ein Beispiel, für welches kein Maximum-Likelihood-Schätzer existiert: Seien X,X 2 unabhängig und Cauchy-verteilt mit unbekanntem Lageparameter m R und Skalenparameter. Seien weiters x und x 2 die zugehörigen Realisierungen und bezeichne x 2 = x + x 2 2 und = x x 2 2. Bestimmen Sie jene Parameterwerte m,für welche die Likelihood-Funktion f (x,x 2 ) ihr Maximimum annimmt. 6. Zeigen Sie Proposition in Abschnitt..2 mit Hilfe der Methode der Lagrangeschen Multiplikatoren. Hinweis: Zeigen Sie zunächst, dass das Supremum der Funktion f ˆP (P )= mx ˆp j ln p j,p P m j=0 nur dann angenommen werden kann, wenn T (P )=T ( ˆP ) oder, gleichbedeutend, P j T ( ˆP ) p j = gilt. Aufgaben zum Abschnitt..3 Ausblick: Die Minimum-χ 2 -Methode 7. Zum Beispiel zu einem gezinkten Würfel: Es sei ˆp +ˆp 6 > 0. Zeigen Sie ohne Nutzung der Beziehung (*), dass Maximum-Likelihood-Schätzer und Minimum-χ 2 -Schätzer übereinstimmen.

88 8. Zum Beispiel zum Hardy-Weinberg-Gesetz: Es sei ˆP = (ˆp0, ˆp, ˆp 2 ) in der folgenden Parametrisierung gegeben ˆP =(p + δ, 2p, p δ), p [0, /2], δ [ p, p]. Zeigen Sie, dass Maximum-Likelihood-Schätzer ( und Minimum-χ 2 -Schätzer dann {0} für alle p [0, ] 4 und nur dann übereinstimmen, wenn δ q { qp 4, 0, p } für alle p (, ] Seien ϕ(u) =u ln u + u, χ 2 (u) =(u ) 2 und (u) =ϕ(u) 2 χ2 (u). Dann gilt ½ u 3 für u [0, ) (u) 2 für u [, ). 3 Zeigen Sie dies und folgern Sie daraus die Gültigkeit der Ungleichung I (Q k P ) 2 χ2 (Q, P ) mx q j p j 3, 2 wobei P und Q zwei Wahrscheinlichkeitsverteilungen auf {0,..., m} sind, für welche T (Q) T (P )gelteund I (Q k P ) bzw. χ 2 (Q, P ) die I-Divergenz und χ 2 -Divergenz von Q und P bezeichnen. Aufgaben zu Abschnitt.2. Erwartungstreue Schätzer 0. (C.A.F. Peters, 856undF.R. Helmert, 875): Seien X,...,X n unabhängig und identisch verteilte Zufallsvariable mit unbekanntem Erwartungswert μ und unbekannter Varianz σ 2. Dann sind bekanntlich das Stichprobenmittel X n und Sn 2 = Xi n X 2 n erwartungstreue Schätzer für μ bzw. σ 2. Zeigen Sie, dass unter der zusätzlichen Voraussetzung X N(μ, σ 2 ) P n X i X n ˆϑ n = p n(n ) q 2 ein erwartungstreuer Schätzer für ϑ = E ( X i μ ) = σ ist. π Die Größe ϑ hieß im 9. Jahrhundert Durchschnittsfehler. j=0 p 2 j 87

89 88 ABSCHNITT 2. ÜBUNGSAUFGABEN UND PROJEKTE. Zu Beispiel 0b: Einer Urne mit s markierten und N s unmarkierten Kugeln werden zufällig und ohne Zurücklegen n N Kugeln entnommen. S n sei die Anzahl der markierten Kugeln in der Stichprobe. (a) Sei n N s. Ermitteln Sie unter dieser Bedingung - analog zur Vorgangsweise bei Beispiel 0a - einen erwartungstreuen Schätzer für N. (b) Sei n < N s. Ermitteln Sie den Bias des für den Fall n N s konstruierten Schätzers. 2. Inverse Sampling: Um den Ausschussanteil p (0, ), p, eines Fließbandartikels zu schätzen, geht man gelegentlich folgendermaßen vor. Man wählt ein festes k {2, 3,...} und untersucht soviele Artikel, bis man k fehlerhafte gefunden hat. Die Anzahl der untersuchten Artikel sei T k. (a) Verifizieren Sie, dass der Momentenschätzer p k = k T k besitztund(b)schätzen Sie diesen nach oben ab. einen positiven Bias (c) Modifizieren Sie den Momentenschätzer für den Fall k 2 so, dass der neue Schätzer f k (T k )mitf k : N\{,..., k } 7 [0, ] erwartungstreu ist und (d) zeigen Sie, dass die einschlägige Lösung für den Fall k = gleich f (T )= {} (T )=X ist und dass somit X der zugehörige erwartungstreue Schätzer ist. 3. Zu Beispiel 4: Zeigen Sie, dass es keinen erwartungstreuen Schätzer für die Standardabweichung p p( p) gibt. 4. (a) Sei T G p die Wartezeit bis zum ersten Erfolg eines Alternativexperiments. Zeigen Sie, dass es keine Funktion f : N 7 [0, ) derartgibt,dass die Statistik f(t ) ein erwartungstreuer Schätzer für p p( p) ist. (b) Das Alternativexperiment werde solange durchgeführt, bis beide Ausfälle aufgetreten sind. Die Anzahl T der nötigen Würfe besitzt bekanntlich die Verteilung p n = P (T = n) =pq n + qp n = pq(p n 2 + q n 2 ),n {2, 3,...}. Zeigen Sie, dass es auch in diesem Fall keine Funktion g : N\{} 7 R derart gibt, dass die Statistik g(t ) ein erwartungstreuer Schätzer für p p( p) ist.

90 5. Zu Beispiel 3a: Seien X,..., X n unabhängig und exponentialverteilt mit der Parametrisierung E λ (X )=λ und sei X n =( ny X i ) /n das geometrische Mittel der Stichprobe (X,...,X n ). Auf Grund der geometrischarithmetischen Ungleichung und der Tatsache, dass das Stichprobenmittel X n ein erwartungtreuer Schätzer für λ ist, schätzt X n den Parameter λ im Mittel zu kurz. (a) Berechnen Sie den Bias von Xn und(b)bestimmensiedie Faktoren c n so, dass λ n = c n X n,n N erwartungtreue Schätzer für λ sind. (c) Ermitteln Sie schließlich c 2 und lim n c n. 6. Sei μ der Erwartungswert einer Zufallsvariablen X und μ 3 = E [(X μ) 3 ] dessen dritte zentrierte Moment. Ferner seien X,..., X n n 3 unabhängig, identisch verteilte Zufallsvariable und X n das zugehörige Stichprobenmittel. Zeigen Sie, dass n 2 (n )(n 2) ein erwartungstreuer Schätzer für μ 3 ist. 3 Xi X n 7. (R.A. Fisher, 920): Seien X,..., X n n 2 unabhängige und gemäß N(μ, σ 2 )- verteilte Zufallsvariable. Für die Stichprobenvarianz S 2 n = n 2 Xi X n gilt dann bekanntlich (n )Sn/σ 2 2 χ 2 n. Folgern Sie daraus, dass r n Γ n 2 2 Γ S n n 2 ein erwartungstreuer Schätzer für σ ist. 89

91 90 ABSCHNITT 2. ÜBUNGSAUFGABEN UND PROJEKTE Aufgaben zu Abschnitt.2.2 Effizienz 8. Seien X,...,X n unabhängige, identisch verteilte Zufallsvariable mit Erwartungswert μ und positiver und endlicher Varianz σ 2 und sei R n = { α =(α,..., α n ) R n : α i =}. Dann ist durch ˆp α = α i X i, α R n offensichtlich eine Familie von erwartungstreuen Schätzern für μ definiert. Zeigen Sie: (a) für die Varianz jedes Schätzer ˆp α dieser Familie gilt σ 2 n V (ˆp α), wobei Gleichheit genau dann zutrifft, wenn ˆp α = X n ist. (b) für die Varianz jedes Schätzer ˆp α der Teilfamilie W n = { α =(α,..., α n ) [0, ] n : α i =} von R n gilt V (ˆp α ) σ 2, wobei Gleichheit genau dann gilt, wenn ˆp α = X i,i {,..., n} ist. 9. Fortsetzung der Aufgabe 3: (a) Berechnen Sie die Varianzen der in Aufgabe 2 ermittelten erwartungstreuen Schätzer λ n für λ, (b) berechnen Sie die Effizienz e n = (ni(λ)),n N V λ ( λ n ) dieser Schätzer und (c) ermitten Sie den Grenzwert lim n e n.

92 20. Zu Beispiel 2a: Seien X,...,X n unabhängig und gemäß einer stetigen Gleichverteilung auf [0, θ] verteilt und seien X :n das Stichprobenminimum und X n:n das Stichprobenmaximum. (a) Weisen Sie nach, dass alle Schätzer der Schar ˆθ γ =( γ) n + n X n:n + γ(n +)X :n, γ [0, ] erwartungsteu sind und (b) ermitteln Sie jenen Schätzer dieserscharmit(gleichmäßig) kleinster Varianz Zu Beispiel 4: Berechnen Sie (a) eine nichttriviale obere Schranke für die Varianz des in Aufgabe 6 ermittelten erwartungstreuen Schätzers f k (T k ), (b) die Varianz dieses Schätzers für den Spezialfall k = 2 und (c) das Produkt V p (f 2 (T 2 ))E p (T 2 ) aus der Varianz dieses Schätzers und dem Erwartungswert der Anzahl der nötigen Alternativexperimente, welches den Anteil der Varianz V p (f 2 (T 2 )) pro Alternativexperiment misst. (d) Weisen Sie nach, dass dieses Produkt gleichmäßig größer als die Varianz p( p) eines Alternativexperiments ist. 22. Berechnen Sie für Beispiel 5 die Varianz des erwartungstreuen Schätzers ˆλ (2) n = S 2 n für den Stichprobenumfang n = 2 und vergleichen Sie diese mit der Varianz () des zugehörigen Standardschätzers ˆλ n = X n. 23. Seien X,..., X n unabhängige, identisch verteilte Zufallsvariable, welche eine Pareto-Verteilung (Vilfredo Pareto, ) der folgenden Form besitzen f θ (t) = θ t [, )(t), θ (0, ). +/θ (a) Geben Sie den Maximum-Likelihood-Schätzer für den Parameter θ an und (b) zeigen Sie, dass dieser ein erwartungstreuer Schätzer mit gleichmäßig kleinster Varianz ist. 2 Damit der Schätzer ˆθ γ stets X n:n ausfällt, müsste γ n+ gewählt werden. 9

93 92 ABSCHNITT 2. ÜBUNGSAUFGABEN UND PROJEKTE 24. Zum Beispiel eines gezinkten Würfels: (a) Weisen Sie nach, dass alle Schätzer der Schar ˆp γ =( γ)ˆp + γ( 3 ˆp 6), γ [0, ] erwartungstreue Schätzer des Parameters θ sind, (b) ermitteln Sie die Varianz V θ (ˆp γ )für jeden Schätzer dieser Schar und (c) ermitteln Sie das Minimum der Varianzen. v(θ) =min{ V θ (ˆp γ ):γ [0, ] } 25. Zum Beispiel zum Hardy-Weinberg-Gesetz: (a) Weisen Sie nach, dass der Maximum-Likelihood-Schätzer ˆp 0 + ˆp 2 ein erwartungstreuer Schätzer des Parameters θ ist, (b) ermitteln Sie dessen Varianz und (c) weisen Sie nach, dass dieser Schätzer effizient ist. 26. Seien X 0 und X zwei reelle Zufallsvariable mit voneinander verschiedenen Erwartungswerten μ i = E(X i ), voneinander verschiedenen Varianzen σ 2 i = V (X i ) > 0, i {, 2} und Korrelationskoeffizienten ρ = E(X μ )(X 2 μ 2 ) σ σ 2. Weiters seien X γ =( γ)x 0 + γx, γ [0, ] Konvexkombinationen (oder Mischungen) der Zufallsvariablen X 0 und X. (a) Ermitteln Sie Erwartungswert und Varianz von X γ, γ [0, ] und (b) stellen Sie die Kurve (E(X γ ),V(X γ )), γ [0, ] in R 2 dar und klassifizieren Sie diese. Unterscheiden Sie dabei die Fälle (a) ρ =, (b) ρ =0, (c) ρ =+ und(d)ρ (, ).

94 93 Aufgaben zu Abschnitt.2.3 Konsistenz 27. Sei (X n ) n N eine Folge von unabhängigen, identisch verteilten Zufallsvariablen mit unbekanntem Erwartungswert μ und endlicher positiver Varianz σ 2. Sei nun n N\{}. Dann ist S 2 n = n 2 Xi X n bekanntlich ein erwartungstreuer Schätzer für σ 2. Zeigen Sie, dass unter der Zusatzvoraussetzung X i N(μ, σ 2 ),i N gilt V (S 2 n)= 2σ4 n, und dass die Schätzfolge (S 2 n) n N\{} daher konsistent ist. 28. Zeigen Sie die in Abschnitt.2.3, Anmerkung 2 angegebene Formel für die Varianz des erwartungstreuen Schätzers S 2 n für σ Zum Beispiel zur Motivation des Momentenschätzers: Sei S n die Anzahl der markierten Kugeln in der Stichprobe. Beweisen Sie für den Fall des Ziehens mit Zurücklegen, dass die Folge der Schätzer konsistent ist. s n + S n Zu Beispiel 2a: Weisen Sie nach, dass die Schätzerfolge für kein festes i N konsistent ist. ( n + X i:n ) n {i,i+,...} i Aufgaben zu Abschnitt.2.4 Suffizienz 3. Zu Beispiel 3b: Ermitteln Sie eine suffiziente Statistik für die sogenannte Zuverlässigkeit e λ.

95 94 ABSCHNITT 2. ÜBUNGSAUFGABEN UND PROJEKTE 32. Zu Beispiel 2b: Es sei n N. Zeigen Sie, (a) dass die durch f n (t) = tn+ (t ) n+,t Ndefinierten Funktionen streng t n (t ) n monotonwachsendsindund (b) dass sie t f n+ (t) f n (t) n + n t erfüllen. Aufgaben zu Abschnitt.2.5 Die Sätze von Rao-Blackwell und Lehmann-Scheffé In den folgenden drei Aufgaben wird stets von einer Stichprobe X =(X,..., X n ) mit Stichprobenumfang n und der Statistik S n (X) =X +...+X n ausgegangen. 33. Zu Beispiel 4: Weisen Sie nach, dass die Statistik S n (X) vollständig bezüglich der Familie {B,p,p (0, ) } der Alternativverteilungen ist. 34. Zu Beispiel 5: Weisen Sie nach, dass die Statistik S n (X) vollständig bezüglich der Familie {P λ, λ (0, ) } der Poissonverteilungen ist. 35. Zu Beispiel 3: Versuchen Sie nachzuweisen, dass die Statistik S n (X) vollständig bezüglich der Familie {Ex(λ), λ (0, ) } der Exponentialverteilungen ist. Aufgaben zu Abschnitt.3. Konfindenzintervalle 36. Zu Beispiel a: Begründen Sie Anmerkung 2 aus Abschnitt Zu Beispiel 2a (Anmerkung 3): Zeigen Sie, dass unter allen Konfidenzintervallen für θ der Familie X n:n [ p, X n:n n α( γ) n ], γ [0, ] αγ jenes für γ = das Konfidenzintervall mit minimaler Länge ist. 38. ZuBeispiel2a(Anmerkung4):ZeigenSie,dass X :n [X :n, n α ] ein Konfidenzintervall für θ mit der statistischen Sicherheit α ist.

96 Zu Beispiel 3b: Begründen Sie Anmerkung 5 aus Abschnitt Zu Beispiel 5: Seien ˆλ n [0, ) der Schätzwert und [λ n, λ + n ] das Score- Konfidenzintervall für den Parameter λ der Poissonverteilung. Dann genügen die Punkte (λ n, ˆλ n ), (λ + n, ˆλ n ) R 2 der Gleichung 2 ³ˆλn λ = λ c, (*) mit c = z2 α/2 > 0. Zeigen Sie, dass der geometrische Ort aller Punkte (λ, ˆλ n n ) R 2 c, die der Gleichung (*) genügen, eine Parabel mit dem Scheitel (, 3) ist, 6 indem Sie (a) zunächst nachweisen, dass die Kurve symmetrisch bezüglich der Geraden y (λ) =λ c 4 ist, und (b) dann eine Hauptachsentransformation durchführen: Indem Sie c zuerst den Punkt (, 6 3)0 durch Parallelverschieben zum Koordinatenursprung machen und anschließend mittels der Matrix A = µ 2 eine Drehung um 45 im Gegenuhrzeigersinn vornehmen. 4. Zu Beispiel 4: Beweisen Sie Behauptung aus Abschnitt ZuBeispiel4: Seien ˆp n [0, ] der Schätzwert und [p n,p + n ] das Score- Konfidenzintervall für den Parameter p der Alternativverteilung. Dessen Endpunkte sind die beiden Lösungen der Gleichung (p ˆp n ) 2 = c p( p), bzw. - im Hinblick auf p( p) = 4 (p 2 )2 -von (p ˆp n ) 2 + c (p 2 )2 = c 4, mit c = z2 α/2 > 0. Für x := p und y := ˆp n 2 n 2 Gleichung ergibt sich daraus die ( + c) x 2 + y 2 2xy = c 4.

97 96 ABSCHNITT 2. ÜBUNGSAUFGABEN UND PROJEKTE Seien λ (c) undλ 2 (c) die beiden Lösungen des charakteristischen Polynoms µ +c λ λ = λ 2 (2 + c) λ + c der zugehörigen Quadrik. (a) Konstruieren Sie mit deren Hilfe eine Transformationsmatix, (b) führen Sie die Hauptachsentransformation durch und (c) überzeugen Sie sich davon, dass die Ellipsengleichung nach Durchführung der Hauptachsentransformation folgende Form besitzt: λ (c) x 2 + λ 2 (c) y 2 = c 4. (d) Ermitteln Sie daraus die Längen der Hauptachsen dieser Ellipse. 43. Zu Beispiel 4: Geben Sie für den Stichprobenumfang n = 3 die exakten Konfidenzintervalle I 3 (0, 0), I 3 (, 0), I 3 (2, 0) und I 3 (3, ) für den Parameter p einer Alternativverteilung an, wobei die für S 3 = und S 3 = 2 auftretenden kubischen Gleichungen exakt zu lösen sind. Aufgaben zu Abschnitt.3.2 Ausblick: Vergleich des Score-Konfindenzintervalls mit dem Wald schen Approximationsintervall 44. Zeigen Sie, dass die Länge des Score-Konfidenzintervalls genau dann größer alsdiedeswald schenapproximationsintervallsist,wenngilt ˆp n 2 > s 2 2+z α/2 2 /n. Aufgaben zu Abschnitt.4 Methoden der Kleinsten Quadrate und Lineare Modelle 45. Ermitteln Sie den Kleinste-Quadrate-Schätzer durch Spezifikation von ˆβ =(C 0 C) C 0 Y und geben Sie Erwartung und Varianz unter den Standardvoraussetzungen hinsichtlich des Fehlervektors ε an:

98 97 (a) für Beispiel (Mess- oder Shiftmodell) und (b) für den Spezialfall θ = 0 von Beispiel 2 (homogenes Regressionsmodell) mit P n j= x2 j > 0. (c) Geben Sie für Beispiel 2 auch den zugehörigen erwartungstreuen Schätzer für σ 2 an. 46. (a) Ermitteln Sie den Schätzer ˆγ für Beispiel 2 für den Fall {x,..., x n } 2 in der Reparametrisierung Y i = β + β 2 x i + ε i = β + β 2 x n + β 2 (x i x n )+ε i = γ + β 2 (x i x n )+ε i,i {,...,n} mit γ 0 =(γ, β 2 ), γ = β + β 2 x n und (b) geben Sie den Schätzer für σ 2 an. 47. Gegeben sei folgendes Lineare Modell in drei Variablen Y i = β + β 2 a i + β 3 b i + ε i = β + β 2 ā n + β 3 bn + β 2 (a i ā n )+β 3 (b i b n )+ε i = γ + b 2 (a i ā n )+β 3 (b i b n )+ε i mit n 3. (a) Zeigen Sie, dass γ mit γ 0 =(γ, β 2, β 3 ), γ = β + β 2 ā n + β 3 bn genau dann identifizierbar ist, wenn gilt s 2 as 2 b s2 ab > 0. Ermitteln Sie unter dieser Voraussetzung (b) den Kleinste-Quadrate-Schätzer ˆγ, (c) die Kovarianzmatrix und (d) den zugehörigen erwartungstreuen Schätzer für σ Gegeben sei für n 3 folgendes Lineare Modell in drei Variablen Y i = β + β 2 x i + β 3 x 2 i + ε i,i {,...,n} und bezeichne x n = n P n j= x j und s 2 x = n P n j= (x j x n ) 2. Betrachten Sie folgende Parametrisierung gemäß Aufgabe 45: Y i = β + β 2 x i + β 3 x 2 i + ε i 2 = β + β 2 x n + β 3 x n + s x 2 +(β2 +2β 3 x n )(x i x n )+β 3 ((x i x n ) 2 s 2 x) = γ + γ 2 (x i x n )+β 3 ((x i x n ) 2 s 2 x) mit γ = β + β 2 x n + β 3 ( x 2 n + s 2 x), γ 2 = β 2 +2β 3 x n.

99 98 ABSCHNITT 2. ÜBUNGSAUFGABEN UND PROJEKTE (a) Zeigen Sie, dass γ mit γ 0 =(γ, γ 2, β 3 ) genau dann identifizierbar ist, wenn {x,..., x n } mindestens drei verschiedene Werte enthält. Ermitteln Sie unter dieser Voraussetzung (b) den Kleinste-Quadrate-Schätzer ˆβ und (c) den zugehörigen erwartungstreuen Schätzer für σ Es seien für das Lineare Modell von Aufgabe 46 drei verschiedene Werte x,x 2,x 3 mit denentsprechendenvielfachheiten l,l 2,l 3 gegeben. Zeigen Sie, dass die Determinante in diesem Fall folgende Gestalt hat C 0 C = l l 2 l 3 (x x 2 ) 2 (x x 3 ) 2 (x 2 x 3 ) 2. PROJEKTE Projekt : Zur geometrischen Verteilung Gegeben seien X,..., X n unabhängige, gemäß einer geometrischen Verteilung G p,p (0, ) verteilte Zufallsvariable (d.h. P (X = k) =p( p) k,k N) (a) Ermitteln Sie einen Momentenschätzer. (b) Ermitteln Sie den Maximum-Likelihood-Schätzer. (c) Ermitteln Sie die Frechét-Rao-Cramér-Schranke. (d) Weisen Sie nach, dass S n = P n X i eine suffiziente Statistik ist. (e) Weisen Sie nach, dass S n eine vollständige Statistik bezüglich {G p,p (0, )} ist. (f) Finden Sie für n 2eineFunktionf : {n, n +,...} [0, ] derart, dass f(s n ) ein erwartungstreuer Schätzer ist. (g) Ermitteln Sie eine nichttriviale obere Schranke für die Varianz dieses Schätzers für n 3. (h) Berechnen Sie die Varianz dieses Schätzers für den Spezialfall n = 2. Projekt 2: Zur Schätzung der Zuverlässigkeit Zu Beispiel 3b: Seien X,...,X n unabhängig exponentialverteilt mit Parameter λ > 0 in der Parametrisierung λx i Ex und sei S n = P n X i. (a) Ermitteln Sie den Maximum-Likelihood-Schätzer für die sogenannte Zuverlässigkeit e λ und (b) zeigen Sie, dass ( /S n ) n [, ) (S n )

100 99 der zugehörige erwartungstreue Schätzer mit gleichmäßig kleinster Varianz ist. Projekt 3: Exakte Konfidenzintervalle für den Parameter der Poissonverteilung Zu Beispiel 5: Ermitteln Sie mit Hilfe der im Fall von Beispiele 4 beschriebenen Vorgangsweise exakte Konfidenzintervalle für den Parameter λ der Poissonverteilung.

101 00 ABSCHNITT 2. ÜBUNGSAUFGABEN UND PROJEKTE.

102 0 LITERATURHINWEISE Auswahl von Lehrbüchern Schmetterer, Leopold: Mathematische Statistik. Springer, Wien 966 (Kapitel 7.3: Sätze vom Kolmogorow-Smirnow Typ) Lehmann, Erich L.: Testing Statistical Hypotheses. Wiley & Sons, New York 966, pp Silvey, S. D.: Statistical Inference. Chapman and Hall, London 975 (Chapter 2: Minimum-Variance Unbiased Estimation, Chapter 3: The Method of Least Squares, Chapter 4: The Method of Maximum Likelihood, Chapter 5: Confidence Sets) Bickel, Peter J. and Kjell A. Doksum: Mathematical Statistics. Basic Ideas and Selected Topics. Holden-Day, San Francisco 977 (Chapter 3: Methods of Estimation, Chapter 4: Comparison of Estimates - Optimality Theory, Chapter 7: Linear Models - Regression and Analysis of Variance) Friedman, David, Pisani, Robert and Roger Purves: Statistics. Norton & Co., New York 978 (sehr lohnender, technisch einfacher Zugang) Larsen, Richard J. andmorris L. Marx: An Introduction to Mathematical Statistics and its Applications. Pearson Prentice-Hall, London etc., 2006 (Chapter 0: Goodness-of-Fit Tests, Chapter : Regression, Case Studies) Zur Methodenvielfalt Hartung, Joachim, Bärbel Elpelt und Karl-Heinz Klösener: Statistik: Lehr- und Handbuch der angewandten Statistik. Oldenbourg, München 99 Kotz, Samuel and Norman L. Johnson (Editors): Encyclopedia of Statistical Sciences. John Wiley, New York 983 Beiträge aus Salzburg Österreicher, Ferdinand: Ausgewählte Kapitel der Statistik. Skriptum, Salzburg 987 Österreicher, Ferdinand: Statistik für Lehramt. Skriptum, Salzburg 200 Österreicher, Ferdinand: Informationstheorie. Skriptum, Salzburg 2004 Seiser, Gunther: Zur Analyse von Mendels Versuchsdaten. Diplomarbeit, Salzburg 989 Leidinger, Josef :Derχ 2 -Test: Motivation und ausgewählte Anwendungsbeispiele. Diplomarbeit, Salzburg 99

103 02 ABSCHNITT 2. ÜBUNGSAUFGABEN UND PROJEKTE Bankhamer, Wolfgang: DerBegriff der Suffizienz. Diplomarbeit, Salzburg 994 Wimmer-Gaibinger, Christine: Theorie und Anwendungen der Negativen Binomialverteilung. Diplomarbeit, Salzburg 994 Kafka, Peter: Erzeugen von Topologien und Projektionen in Wahrscheinlichkeitsräumen mittels f-divergenzen. Diplomarbeit, Salzburg 995 Nussbaumer, Thomas: Der Maximum-Likelihood-Schätzer. Diplomarbeit, Salzburg 996 Kolmberger, Margit: Statistik in der Nußschale - Ist unser Würfel fair? Diplomarbeit, Salzburg 997 Guggenberger, Andrea: DieErfindung des Konfidenzintervalls und dessen frühe Anwendungen. Magisterarbeit, Salzburg 2006 Müller, Claudia: Normalapproximation der hypergeometrischen Verteilung. Masterarbeit, Salzburg 2008 Naderer, Clemens: Log-optimale und semi-log-optimale Portfolios. Masterarbeit, Salzburg 2009 Erla Susanne: Zur Geschichte erwartungstreuer Schätzer. Masterarbeit, Salzburg 2009

104 Calyampudi R. Rao (920- ) David H. Blackwell (99-200) Erich L. Lehmann ( ) Henry Scheffé ( ) Abraham Wald ( ) Egon S. Pearson ( ) Jerzy Neyman (894-98) Carl H. Cramer ( ) Ronald A. Fisher ( ) Edwin B. Wilson ( ) Maurice R. Frechét ( ) William S. Gosset ( ) Karl Pearson ( ) Andrej A. Markoff ( ) Francis Y. Edgeworth ( ) Francis Galton (822-9) Lambert A.J. Quetele ( ) Jakob Steiner ( ) Carl F. Gauß ( ) Adrien-Marie Legendree ( ) Pierre S. De Laplace ( ) Thomas Simpson (70-76) Abraham De Moivre ( ) Jakob Bernoulli ( )

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum), Kapitel 14 Parameterschätzung Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum), = ( 1,..., n ) sei eine Realisierung der Zufallsstichprobe X = (X 1,..., X n ) zu

Mehr

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar Statistische Methoden in der Physik Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Die Momentenmethode. Vorteil: Oft einfach anwendbar. Nachteil: Güte kann nur schwer allgemein beurteilt werden; liefert zum Teil unbrauchbare

Die Momentenmethode. Vorteil: Oft einfach anwendbar. Nachteil: Güte kann nur schwer allgemein beurteilt werden; liefert zum Teil unbrauchbare 17.1.3 Die Momentenmethode Vorteil: Oft einfach anwendbar. Nachteil: Güte kann nur schwer allgemein beurteilt werden; liefert zum Teil unbrauchbare Lösungen. Sei ϑ = (ϑ 1,...,ϑ s ) der unbekannte, s-dimensionale

Mehr

Mathematische Statistik Aufgaben zum Üben. Schätzer

Mathematische Statistik Aufgaben zum Üben. Schätzer Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch

Mehr

Wirtschaftsmathematik

Wirtschaftsmathematik Einführung in einige Teilbereiche der Wintersemester 206 Prof. Dr. Stefan Etschberger HSA Unabhängigkeit von Ereignissen A, B unabhängig: Eintreten von A liefert keine Information über P(B). Formal: P(A

Mehr

3.3 Methoden zur Evaluierung von Schätzern

3.3 Methoden zur Evaluierung von Schätzern 3.3 Methoden zur Evaluierung von Schätzern Bis jetzt haben wir nur glaubwürdige Techniken zur Konstruktion von Punktschätzern besprochen. Falls unterschiedliche Schätzer für einen Parameter resultieren,

Mehr

13 Grenzwertsätze Das Gesetz der großen Zahlen

13 Grenzwertsätze Das Gesetz der großen Zahlen 13 Grenzwertsätze 13.1 Das Gesetz der großen Zahlen Der Erwartungswert einer zufälligen Variablen X ist in der Praxis meist nicht bekannt. Um ihn zu bestimmen, sammelt man Beobachtungen X 1,X 2,...,X n

Mehr

Wahrscheinlichkeitstheorie und Statistik

Wahrscheinlichkeitstheorie und Statistik Wahrscheinlichkeitstheorie und Statistik Definitionen und Sätze Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 2018 2.5.2018 Diskrete Wahrscheinlichkeitsräume Diskreter

Mehr

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Modellanpassung und Parameterschätzung. A: Übungsaufgaben 7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit

Mehr

Wahrscheinlichkeit und Statistik: Zusammenfassung

Wahrscheinlichkeit und Statistik: Zusammenfassung HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1

Mehr

6. Schätzverfahren für Parameter

6. Schätzverfahren für Parameter 6. Schätzverfahren für Parameter Ausgangssituation: Ein interessierender Zufallsvorgang werde durch die ZV X repräsentiert X habe eine unbekannte Verteilungsfunktion F X (x) Wir interessieren uns für einen

Mehr

Mathematik für Biologen

Mathematik für Biologen Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 8. Dezember 2010 Teil V Schließende Statistik 1 Parameterschätzung Erwartungstreue und Konsistenz Maximum-Likelihood

Mehr

Statistik I für Betriebswirte Vorlesung 13

Statistik I für Betriebswirte Vorlesung 13 Statistik I für Betriebswirte Vorlesung 13 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 6. Juli 2017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 13 Version: 7. Juli

Mehr

Schätzer und Konfidenzintervalle

Schätzer und Konfidenzintervalle Kapitel 2 Schätzer und Konfidenzintervalle Bisher haben wir eine mathematische Theorie entwickelt, die es uns erlaubt, gewisse zufällige Phänomene zu modellieren. Zum Beispiel modellieren wir die Anzahl

Mehr

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß

Mehr

Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren

Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren Kapitel 9 Schätzverfahren und Konfidenzintervalle 9.1 Grundlagen zu Schätzverfahren Für eine Messreihe x 1,...,x n wird im Folgenden angenommen, dass sie durch n gleiche Zufallsexperimente unabhängig voneinander

Mehr

5 Konfidenzschätzung. 5.1 Einige Grundbegriffe zur Konfidenzschätzung

5 Konfidenzschätzung. 5.1 Einige Grundbegriffe zur Konfidenzschätzung 5 Konfidenzschätzung 5. Einige Grundbegriffe zur Konfidenzschätzung Diesem Kapitel liegt das parametrische Modell {X, B X, P } mit P {P Θ} zugrunde. {Θ, B Θ } sei ein Meßraum über Θ und µ ein σ-finites

Mehr

2. Prinzipien der Datenreduktion

2. Prinzipien der Datenreduktion 2. Prinzipien der Datenreduktion Man verwendet die Information in einer Stichprobe X 1,..., X n, um statistische Inferenz über einen unbekannten Parameter zu betreiben. Falls n groß ist, so ist die beobachtete

Mehr

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer 3.4 Asymptotische Evaluierung von Schätzer 3.4.1 Konsistenz Bis jetzt haben wir Kriterien basierend auf endlichen Stichproben betrachtet. Konsistenz ist ein asymptotisches Kriterium (n ) und bezieht sich

Mehr

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung Version: 22. September 2015 Evelina Erlacher 1 Mengen Es sei Ω eine Menge (die Universalmenge ) und A, B seien Teilmengen von Ω. Dann schreiben

Mehr

1 Verteilungsfunktionen, Zufallsvariable etc.

1 Verteilungsfunktionen, Zufallsvariable etc. 4. Test M3 ET 27 6.6.27 4. Dezember 27 Regelung für den.ten Übungstest:. Wer bei den Professoren Dirschmid, Blümlinger, Vogl oder Langer die UE aus Mathematik 2 gemacht hat, sollte dort die WTH und Statistik

Mehr

Suffizienz und Vollständigkeit

Suffizienz und Vollständigkeit KAPITEL 7 Suffizienz und Vollständigkeit 7.1. Definition der Suffizienz im diskreten Fall Beispiel 7.1.1. Betrachten wir eine unfaire Münze, wobei die Wahrscheinlichkeit θ, dass die Münze Kopf zeigt, geschätzt

Mehr

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen Kapitel 8 Schätzung von Parametern 8.1 Schätzmethoden Gegeben seien Beobachtungen Ü Ü ¾ Ü Ò die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen ¾ Ò auffassen. Die Verteilung

Mehr

DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 234/467 Ernst W. Mayr

DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 234/467 Ernst W. Mayr 1.4.2 Kontinuierliche Zufallsvariablen als Grenzwerte diskreter Zufallsvariablen Sei X eine kontinuierliche Zufallsvariable. Wir können aus X leicht eine diskrete Zufallsvariable konstruieren, indem wir

Mehr

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen David Geier und Sven Middelberg RWTH Aachen, Sommersemester 27 Inhaltsverzeichnis Information 2 Aufgabe 4 Aufgabe 2 6 4 Aufgabe

Mehr

Statistik. Andrej Depperschmidt. Sommersemester 2016

Statistik. Andrej Depperschmidt. Sommersemester 2016 Statistik Andrej Depperschmidt Sommersemester 2016 Schätzen der Varianz mit Stichprobenmittel Sei X = (X 1,..., X n ) eine Stichprobe u.i.v. ZV mit E[X i ] = µ R, Var[X i ] = σ 2 (0, ) und µ 4 = E[(X i

Mehr

Statistik I für Betriebswirte Vorlesung 14

Statistik I für Betriebswirte Vorlesung 14 Statistik I für Betriebswirte Vorlesung 14 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. Juli 017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Scheinklausur zur Vorlesung Stochastik II

Scheinklausur zur Vorlesung Stochastik II Institut für Mathematische Stochastik WS 2007/2008 Universität Karlsruhe 25. 02. 2008 Dr. B. Klar Scheinklausur zur Vorlesung Stochastik II Muster-Lösung Dauer: 90 Minuten Name: Vorname: Matrikelnummer:

Mehr

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:

Mehr

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1 Aufgabe 1 (2 + 2 + 2 + 1 Punkte) Gegeben sei folgende gemeinsame Wahrscheinlichkeitsfunktion f(x, y) = P (X = x, Y = y) der Zufallsvariablen X und Y : 0.2 x = 1, y = 1 0.3 x = 2, y = 1 f(x, y) = 0.45 x

Mehr

1.3 Wiederholung der Konvergenzkonzepte

1.3 Wiederholung der Konvergenzkonzepte 1.3 Wiederholung der Konvergenzkonzepte Wir erlauben nun, dass der Stichprobenumfang n unendlich groß wird und untersuchen das Verhalten von Stichprobengrößen für diesen Fall. Dies liefert uns nützliche

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Streuungsparameter Varianz Var(X) bzw. σ 2 : [x i E(X)] 2 f(x i ), wenn X diskret Var(X)

Mehr

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen... Inhaltsverzeichnis I Grundbegriffe 1 1 Wahrscheinlichkeitsräume......................... 1 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit........... 7 3 Reellwertige Zufallsvariablen........................

Mehr

Kapitel VI - Maximum-Likelihood-Schätzfunktionen

Kapitel VI - Maximum-Likelihood-Schätzfunktionen Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel VI - Maximum-Likelihood-Schätzfunktionen Induktive Statistik Prof. Dr. W.-D. Heller Hartwig Senska Carlo Siebenschuh

Mehr

Biostatistik, Sommer 2017

Biostatistik, Sommer 2017 1/39 Biostatistik, Sommer 2017 Wahrscheinlichkeitstheorie: Gesetz der großen Zahl, Zentraler Grenzwertsatz Schließende Statistik: Grundlagen Prof. Dr. Achim Klenke http://www.aklenke.de 9. Vorlesung: 16.06.2017

Mehr

4. Verteilungen von Funktionen von Zufallsvariablen

4. Verteilungen von Funktionen von Zufallsvariablen 4. Verteilungen von Funktionen von Zufallsvariablen Allgemeine Problemstellung: Gegeben sei die gemeinsame Verteilung der ZV en X 1,..., X n (d.h. bekannt seien f X1,...,X n bzw. F X1,...,X n ) Wir betrachten

Mehr

1. Grundbegri e der Stochastik

1. Grundbegri e der Stochastik Wiederholung von Grundwissen der Stochastik. Grundbegri e der Stochastik Menge der Ereignisse. Die Elemente! der Menge heißen Elementarereignisse und sind unzerlegbare Ereignisse. Das Ereignis A tritt

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

Institut für Stochastik Prof. Dr. N. Henze Dipl.-Math. V. Riess

Institut für Stochastik Prof. Dr. N. Henze Dipl.-Math. V. Riess Institut für Stochastik Prof. Dr. N. Henze Dipl.-Math. V. Riess Name: Vorname: Matrikelnummer: Lösungsvorschlag zur Klausur zur Vorlesung Wahrscheinlichkeitstheorie und Statistik (Stochastik) Datum: 07.

Mehr

Fit for Abi & Study Stochastik

Fit for Abi & Study Stochastik Fit for Abi & Study Stochastik Prof. Dr. Tilla Schade Hochschule Harz 15. und 16. April 2014 No. 1 Stochastik besteht aus: Wahrscheinlichkeitsrechnung Statistik No. 2 Gliederung Grundlagen Zufallsgrößen

Mehr

3 Statistische Schätzungen

3 Statistische Schätzungen 3 Statistische Schätzungen In der Wahrscheinlichkeitstheorie geht es darum, über Modelle Ereignisse zu bewerten bzw. Voraussagen über ihr Eintreten zu treffen. Sind nun umgekehrt Daten bekannt, und wollen

Mehr

Satz 105 (Gedächtnislosigkeit) Beweis: Sei X exponentialverteilt mit Parameter λ. Dann gilt Pr[X > x + y X > y] = Pr[X > y] Pr[X > x + y] = Pr[X > y]

Satz 105 (Gedächtnislosigkeit) Beweis: Sei X exponentialverteilt mit Parameter λ. Dann gilt Pr[X > x + y X > y] = Pr[X > y] Pr[X > x + y] = Pr[X > y] Gedächtnislosigkeit Satz 105 (Gedächtnislosigkeit) Eine (positive) kontinuierliche Zufallsvariable X mit Wertebereich R + ist genau dann exponentialverteilt, wenn für alle x, y > 0 gilt, dass Pr[X > x

Mehr

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6 Wirtschaftswissenschaftliches Zentrum 0 Universität Basel Mathematik Dr. Thomas Zehrt Grenzwertsätze Benötigtes Vorwissen: Der Stoff der Vorlesung,,Statistik wird als bekannt vorausgesetzt, insbesondere

Mehr

Zufallsvariablen [random variable]

Zufallsvariablen [random variable] Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden

Mehr

Mehrdimensionale Zufallsvariablen

Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,

Mehr

Statistik für Ingenieure Vorlesung 3

Statistik für Ingenieure Vorlesung 3 Statistik für Ingenieure Vorlesung 3 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 14. November 2017 3. Zufallsgrößen 3.1 Zufallsgrößen und ihre Verteilung Häufig sind

Mehr

2 Zufallsvariable, Verteilungen, Erwartungswert

2 Zufallsvariable, Verteilungen, Erwartungswert 2 Zufallsvariable, Verteilungen, Erwartungswert Bisher: Zufallsexperimente beschrieben durch W-Räume (Ω, A, P) Häufig interessiert nur eine zufällige Größe X = X(ω), die vom Ergebnis ω des Zufallsexperiments

Mehr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schätzvariablen für Parameter von Verteilungen. Sei X = (X 1,..., X n ). Bei X

Mehr

5. Statistische Schätztheorie

5. Statistische Schätztheorie 5. Statistische Schätztheorie Problem: Sei X eine Zufallsvariable (oder X ein Zufallsvektor), die einen interessierenden Zufallsvorgang repräsentiere Man möchte die tatsächliche Verteilung von X (oder

Mehr

Statistik. R. Frühwirth Teil 1: Deskriptive Statistik. Statistik. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und

Statistik. R. Frühwirth Teil 1: Deskriptive Statistik. Statistik. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Übersicht über die Vorlesung Teil : Deskriptive fru@hephy.oeaw.ac.at VO 42.090 http://tinyurl.com/tu42090 Teil 2: Wahrscheinlichkeitsrechnung Teil 3: Zufallsvariable und Verteilungen Februar 200 Teil 4:

Mehr

OLS-Schätzung: asymptotische Eigenschaften

OLS-Schätzung: asymptotische Eigenschaften OLS-Schätzung: asymptotische Eigenschaften Stichwörter: Konvergenz in Wahrscheinlichkeit Konvergenz in Verteilung Konsistenz asymptotische Verteilungen nicht-normalverteilte Störgrößen zufällige Regressoren

Mehr

Prüfungsvorbereitungskurs Höhere Mathematik 3

Prüfungsvorbereitungskurs Höhere Mathematik 3 Prüfungsvorbereitungskurs Höhere Mathematik 3 Stochastik Marco Boßle Jörg Hörner Mathematik Online Frühjahr 2011 PV-Kurs HM 3 Stochastik 1-1 Zusammenfassung Wahrscheinlichkeitsraum (WR): Menge der Elementarereignisse

Mehr

FORMELSAMMLUNG STATISTIK B

FORMELSAMMLUNG STATISTIK B Somersemester 2012 FORMELSAMMLUNG STATISTIK B Prof. Kneip / Dr. Scheer / Dr. Arns Version vom April 2012 Inhaltsverzeichnis 1 Wahrscheinlichkeitsrechnung 2 2 Diskrete Zufallsvariablen 5 3 Stetige Zufallsvariablen

Mehr

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung Version: 15. Jänner 2017 Evelina Erlacher Inhaltsverzeichnis 1 Mengen 2 2 Wahrscheinlichkeiten 3 3 Zufallsvariablen 5 3.1 Diskrete Zufallsvariablen............................

Mehr

Chi-Quadrat-Verteilung

Chi-Quadrat-Verteilung Chi-Quadrat-Verteilung Wikipedia http://de.wikipedia.org/wiki/chi-quadrat-verteilung 1 von 7 6/18/2009 6:13 PM Chi-Quadrat-Verteilung aus Wikipedia, der freien Enzyklopädie Die Chi-Quadrat-Verteilung ist

Mehr

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über

Mehr

5. Stichproben und Statistiken

5. Stichproben und Statistiken 5. Stichproben und Statistiken Problem: Es sei X eine ZV, die einen interessierenden Zufallsvorgang repräsentiere Man möchte die tatsächliche Verteilung von X kennenlernen (z.b. mittels der VF F X (x)

Mehr

Kapitel 6. Suffiziente Statistiken. 6.1 Vorbetrachtungen

Kapitel 6. Suffiziente Statistiken. 6.1 Vorbetrachtungen Kapitel 6 Suffiziente Statistiken In diesem Kapitel untersuchen wir einen weiteren statistischen Begriff, der eng mit Likelihoodfunktionen zusammenhängt und mit der Frage nach eventuell möglicher Datenreduktion

Mehr

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Zufallsvariable Erinnerung: Merkmal, Merkmalsausprägung Deskriptive Statistik:

Mehr

Einführung in Quantitative Methoden

Einführung in Quantitative Methoden Einführung in Quantitative Methoden Karin Waldherr & Pantelis Christodoulides 11. Mai 2011 Waldherr / Christodoulides Einführung in Quantitative Methoden- 8.VO 1/40 Poisson-Verteilung Diese Verteilung

Mehr

Prüfungsvorbereitungskurs Höhere Mathematik 3

Prüfungsvorbereitungskurs Höhere Mathematik 3 Prüfungsvorbereitungskurs Höhere Mathematik 3 Stochastik Marco Boßle Jörg Hörner Marcel Thoms Mathematik Online Herbst 211 PV-Kurs HM 3 Stochastik 1-1 Zusammenfassung Wahrscheinlichkeitsraum (WR): Menge

Mehr

1.4 Stichproben aus einer Normalverteilung

1.4 Stichproben aus einer Normalverteilung 1.4 Stichproben aus einer Normalverteilung Die Normalverteilung ist wohl das am stärksten verbreitete Modell. Stichproben daraus führen zu nützlichen Eigenschaften der Statistiken und ergeben bekannte

Mehr

Übung Zeigen Sie, dass dies als Grenzwert der Wahrscheinlichkeitsfunktion der Binomialverteilung mit

Übung Zeigen Sie, dass dies als Grenzwert der Wahrscheinlichkeitsfunktion der Binomialverteilung mit Übung 2 24..23 Ü b u n g 2 Aufgabe Die Poissonverteilung P(λ) hat die Wahrscheinlichkeitsfunktion p(x) = λx e λ (x ) x! Zeigen Sie, dass dies als Grenzwert der Wahrscheinlichkeitsfunktion der Binomialverteilung

Mehr

Kapitel II Kontinuierliche Wahrscheinlichkeitsräume

Kapitel II Kontinuierliche Wahrscheinlichkeitsräume Kapitel II Kontinuierliche Wahrscheinlichkeitsräume 1. Einführung 1.1 Motivation Interpretation der Poisson-Verteilung als Grenzwert der Binomialverteilung. DWT 1.1 Motivation 211/476 Beispiel 85 Wir betrachten

Mehr

Stochastik. 1. Wahrscheinlichkeitsräume

Stochastik. 1. Wahrscheinlichkeitsräume Stochastik 1. Wahrscheinlichkeitsräume Ein Zufallsexperiment ist ein beliebig oft und gleichartig wiederholbarer Vorgang mit mindestens zwei verschiedenen Ergebnissen, bei dem der Ausgang ungewiß ist.

Mehr

Kapitel 3 Schließende Statistik

Kapitel 3 Schließende Statistik Motivation Grundgesamtheit mit unbekannter Verteilung F Stichprobe X 1,...,X n mit Verteilung F Realisation x 1,...,x n der Stichprobe Rückschluss auf F Dr. Karsten Webel 160 Motivation (Fortsetzung) Kapitel

Mehr

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit 3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit Lernziele dieses Kapitels: Mehrdimensionale Zufallsvariablen (Zufallsvektoren) (Verteilung, Kenngrößen) Abhängigkeitsstrukturen Multivariate

Mehr

Lösungen zu Übungsblatt 9 Höhere Mathematik2/Stochastik 2 Master KI/PI

Lösungen zu Übungsblatt 9 Höhere Mathematik2/Stochastik 2 Master KI/PI Lösungen zu Übungsblatt 9 Höhere Mathematik/Stochastik Anpassung von Verteilungen Zu Aufgabe ) a) Zeichnen des Histogranmmes: Um das Histogramm zu zeichnen, benötigen wir die Höhe der Balken. Die Höhe

Mehr

Wahrscheinlichkeitstheorie und Statistik für Studierende des Maschinenbaus vom

Wahrscheinlichkeitstheorie und Statistik für Studierende des Maschinenbaus vom Institut für Stochastik WS 009/10 Karlsruher Institut für Technologie (KIT) Dr. B. Klar Klausur Wahrscheinlichkeitstheorie und Statistik für Studierende des Maschinenbaus vom 08.0.010 Musterlösungen Aufgabe

Mehr

8. Formelsammlung. Pr[ ] = 0. 0 Pr[A] 1. Pr[Ā] = 1 Pr[A] A B = Pr[A] Pr[B] DWT 8.1 Gesetze zum Rechnen mit Ereignissen 203/467 Ernst W.

8. Formelsammlung. Pr[ ] = 0. 0 Pr[A] 1. Pr[Ā] = 1 Pr[A] A B = Pr[A] Pr[B] DWT 8.1 Gesetze zum Rechnen mit Ereignissen 203/467 Ernst W. 8. Formelsammlung 8.1 Gesetze zum Rechnen mit Ereignissen Im Folgenden seien A und B, sowie A 1,..., A n Ereignisse. Die Notation A B steht für A B und zugleich A B = (disjunkte Vereinigung). A 1... A

Mehr

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen... Inhaltsverzeichnis I Grundbegriffe 1 1 Wahrscheinlichkeitsräume......................... 1 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit........... 7 3 Reellwertige Zufallsvariablen........................

Mehr

Kapitel 9. Verteilungsmodelle. 9.1 Diskrete Verteilungsmodelle Die Gleichverteilung

Kapitel 9. Verteilungsmodelle. 9.1 Diskrete Verteilungsmodelle Die Gleichverteilung Kapitel 9 Verteilungsmodelle Es gibt eine Reihe von Verteilungsmodellen für univariate diskrete und stetige Zufallsvariablen, die sich in der Praxis bewährt haben. Wir wollen uns von diesen einige anschauen.

Mehr

Charakteristische Funktionen

Charakteristische Funktionen Kapitel 9 Charakteristische Funktionen Jeder Wahrscheinlichkeitsverteilung auf (, B 1 ) (allgemeiner: (R n, B n )) ist eine komplexwertige Funktion, ihre charakteristische Funktion, zugeordnet, durch die

Mehr

Kapitel 1: Elemente der Statistik

Kapitel 1: Elemente der Statistik 1 Kapitel 1: Elemente der Statistik 1.1 Beispiel Ein Elektromarkt erhält eine Lieferung von N = 10000 Glühbirnen. Darunter ist eine unbekannte Anzahl h defekt, wobei h 0 1 = {0, 1,..., N}. Um Kenntnisse

Mehr

4 Unabhängige Zufallsvariablen. Gemeinsame Verteilung

4 Unabhängige Zufallsvariablen. Gemeinsame Verteilung 4 Unabhängige Zufallsvariablen. Gemeinsame Verteilung Häufig werden mehrere Zufallsvariablen gleichzeitig betrachtet, z.b. Beispiel 4.1. Ein Computersystem bestehe aus n Teilsystemen. X i sei der Ausfallzeitpunkt

Mehr

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen Kapitel 5 Univariate Zufallsvariablen Im ersten Teil dieses Skriptes haben wir uns mit Daten beschäftigt und gezeigt, wie man die Verteilung eines Merkmals beschreiben kann. Ist man nur an der Population

Mehr

Reelle Zufallsvariablen

Reelle Zufallsvariablen Kapitel 3 eelle Zufallsvariablen 3. Verteilungsfunktionen esultat aus der Maßtheorie: Zwischen der Menge aller W-Maße auf B, nennen wir sie W B ), und der Menge aller Verteilungsfunktionen auf, nennen

Mehr

Kapitel V - Erwartungstreue Schätzfunktionen

Kapitel V - Erwartungstreue Schätzfunktionen Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel V - Erwartungstreue Schätzfunktionen Induktive Statistik Prof. Dr. W.-D. Heller Hartwig Senska Carlo Siebenschuh

Mehr

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) := Definition 2.34. Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) := x f(x)dx der Erwartungswert von X, sofern dieses Integral existiert. Entsprechend wird die Varianz V(X)

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

Modellanpassung. Einführung in die induktive Statistik. Statistik. Statistik. Friedrich Leisch

Modellanpassung. Einführung in die induktive Statistik. Statistik. Statistik. Friedrich Leisch Modellanpassung Einführung in die induktive Statistik Friedrich Leisch Institut für Statistik Ludwig-Maximilians-Universität München SS 2009 Statistik Statistik Wahrscheinlichkeitsrechnung: Gesetze bekannt,

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2

Mehr

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte

Mehr

Stochastik I. Vorlesungsmitschrift

Stochastik I. Vorlesungsmitschrift Stochastik I Vorlesungsmitschrift Ulrich Horst Institut für Mathematik Humboldt-Universität zu Berlin Inhaltsverzeichnis 1 Grundbegriffe 1 1.1 Wahrscheinlichkeitsräume..................................

Mehr

Klausur zum Fach GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK. für Studierende der INFORMATIK

Klausur zum Fach GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK. für Studierende der INFORMATIK Institut für Stochastik Prof. Dr. Daniel Hug Name: Vorname: Matr.-Nr.: Klausur zum Fach GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK Datum: 08. Februar 0 Dauer:

Mehr

Sammlung alter Klausuraufgaben zur Stochastik keine Abgabe keine Besprechung in den Tutorien

Sammlung alter Klausuraufgaben zur Stochastik keine Abgabe keine Besprechung in den Tutorien Sammlung alter Klausuraufgaben zur Stochastik keine Abgabe keine Besprechung in den Tutorien Prof. F. Merkl 23. Mai 2016 Zu Ihrer Information und als zusätzliches Übungsmaterial sind hier die Aufgaben

Mehr

Musterlösung zur Klausur im Fach Fortgeschrittene Statistik am Gesamtpunktzahl: 60

Musterlösung zur Klausur im Fach Fortgeschrittene Statistik am Gesamtpunktzahl: 60 WESTFÄLISCHE WILHELMS - UNIVERSITÄT MÜNSTER Wirtschaftswissenschaftliche Faktultät Prof. Dr. Bernd Wilfling Professur für VWL, insbesondere Empirische Wirtschaftsforschung Musterlösung zur Klausur im Fach

Mehr

Computergestützte Datenanalyse in der Kern- und Teilchenphysik

Computergestützte Datenanalyse in der Kern- und Teilchenphysik Computergestützte Datenanalysein der Kern- und Teilchenphysik p. 1/?? Computergestützte Datenanalyse in der Kern- und Teilchenphysik Vorlesung 4 Jan Friedrich Computergestützte Datenanalysein der Kern-

Mehr

1 Vorbemerkungen 1. 2 Zufallsexperimente - grundlegende Begriffe und Eigenschaften 2. 3 Wahrscheinlichkeitsaxiome 4. 4 Laplace-Experimente 6

1 Vorbemerkungen 1. 2 Zufallsexperimente - grundlegende Begriffe und Eigenschaften 2. 3 Wahrscheinlichkeitsaxiome 4. 4 Laplace-Experimente 6 Inhaltsverzeichnis Vorbemerkungen 2 Zufallsexperimente - grundlegende Begriffe und Eigenschaften 2 3 Wahrscheinlichkeitsaxiome 4 4 Laplace-Experimente 6 5 Hilfsmittel aus der Kombinatorik 7 6 Bedingte

Mehr

1 Stochastische Konvergenz 2

1 Stochastische Konvergenz 2 Wirtschaftswissenschaftliches Zentrum 0 Universität Basel Mathematik Dr. Thomas Zehrt Grenzwertsätze Benötigtes Vorwissen: Der Stoff der Vorlesung,,Statistik wird als bekannt vorausgesetzt, insbesondere

Mehr

Lösungen ausgewählter Übungsaufgaben zum Buch. Elementare Stochastik (Springer Spektrum, 2012) Teil 3: Aufgaben zu den Kapiteln 5 und 6

Lösungen ausgewählter Übungsaufgaben zum Buch. Elementare Stochastik (Springer Spektrum, 2012) Teil 3: Aufgaben zu den Kapiteln 5 und 6 1 Lösungen ausgewählter Übungsaufgaben zum Buch Elementare Stochastik (Springer Spektrum, 2012) Teil 3: Aufgaben zu den Kapiteln 5 und 6 Aufgaben zu Kapitel 5 Zu Abschnitt 5.1 Ü5.1.1 Finden Sie eine maximum-likelihood-schätzung

Mehr

7.5 Erwartungswert, Varianz

7.5 Erwartungswert, Varianz 7.5 Erwartungswert, Varianz Def. 7.5.: a) X sei eine diskrete ZV, die bei unendl. vielen Werten x k folgende Zusatzbedingung erfüllt: x k p k

Mehr

4 Absolutstetige Verteilungen und Zufallsvariablen 215/1

4 Absolutstetige Verteilungen und Zufallsvariablen 215/1 4 Absolutstetige Verteilungen und Zufallsvariablen 215/1 23. Bemerkung Integralbegriffe für Funktionen f : R d R (i) Lebesgue-Integral (Vorlesung Analysis IV). Spezialfall: (ii) Uneigentliches Riemann-Integral

Mehr

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten: Aufgabe 1 (8=2+2+2+2 Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten: Die Zufallsvariable X bezeichne die Note. 1443533523253. a) Wie groß ist h(x 5)? Kreuzen

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Punktschätzer Optimalitätskonzepte

Punktschätzer Optimalitätskonzepte Kapitel 1 Punktschätzer Optimalitätskonzepte Sei ein statistisches Modell gegeben: M, A, P ϑ Sei eine Funktion des Parameters ϑ gegeben, γ : Θ G, mit irgendeiner Menge G, und sei noch eine Sigma-Algebra

Mehr

Gegenbeispiele in der Wahrscheinlichkeitstheorie

Gegenbeispiele in der Wahrscheinlichkeitstheorie Gegenbeispiele in der Wahrscheinlichkeitstheorie Mathias Schaefer Universität Ulm 26. November 212 1 / 38 Übersicht 1 Normalverteilung Definition Eigenschaften Gegenbeispiele 2 Momentenproblem Definition

Mehr

Kapitel VII - Funktion und Transformation von Zufallsvariablen

Kapitel VII - Funktion und Transformation von Zufallsvariablen Universität Karlsruhe (TH) Institut für Statistik und Mathematische Wirtschaftstheorie Wahrscheinlichkeitstheorie Kapitel VII - Funktion und Transformation von Zufallsvariablen Markus Höchstötter Lehrstuhl

Mehr