Kapitel 6. Suffiziente Statistiken. 6.1 Vorbetrachtungen

Ähnliche Dokumente
Kapitel 6. Irrfahrten und Bernoullischemata

Stochastik I. Vorlesungsmitschrift

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

2. Prinzipien der Datenreduktion

Wichtige Definitionen und Aussagen

Charakteristische Funktionen

Angewandte Stochastik

Maße auf Produkträumen

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Aufgaben zu Kapitel 0

Gesetze der großen Zahlen

Klausur zur Einführung in die Wahrscheinlichkeitstheorie und Statistik

2.6 Der Satz von Fubini

Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende

Einführung und Grundlagen

σ-algebren, Definition des Maßraums

Reelle Zufallsvariablen

Beweis. Bauer (4. Auflage, 1991), S , Hoffmann-Jørgensen, Vol. I, S. 457.

Wahrscheinlichkeitsrechnung

Unabhängige Zufallsvariablen

Metrische äußere Maße, Borel-Maße

4 Messbare Funktionen

Motivation. Benötigtes Schulwissen. Übungsaufgaben. Wirtschaftswissenschaftliches Zentrum 10 Universität Basel. Statistik

x, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω

Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten

Kapitel 6 Martingale

Darstellungsformeln für die Lösung von parabolischen Differentialgleichungen

Kapitel 1: Elemente der Statistik

Einführung in die Theorie der Markov-Ketten. Jens Schomaker

16.3 Rekurrente und transiente Zustände

Das Lebesgue-Maß im R p

Einführung in die Wahrscheinlichkeitstheorie Lösungsvorschläge zu Übungsblatt 4

Mathematische Statistik Aufgaben zum Üben. Schätzer

Beispiel 6 (Multivariate Normalverteilung)

Gegenbeispiele in der Wahrscheinlichkeitstheorie

1 Bedingte Erwartungswerte

7.5 Erwartungswert, Varianz

Endliche Markov-Ketten - eine Übersicht

Wir gehen wieder von einem allgemeinen (parametrischen) statistischen Modell aus, (

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

Suffizienz und Vollständigkeit

Meßbare Funktionen. Die angemessenen Abbildungen zwischen Meßräumen sind die meßbaren Funktionen.

Zufallsvariablen [random variable]

3 Vektorräume abstrakt

Mathematik für Naturwissenschaften, Teil 2

(b) Man nennt die Menge M beschränkt, wenn sie nach oben und unten beschränkt ist.

Statistik Stochastscher Prozesse

Statistik I für Betriebswirte Vorlesung 14

Mathematische Grundlagen für die Vorlesung. Differentialgeometrie

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

18 Höhere Ableitungen und Taylorformel

Der Ergodensatz. Hendrik Hülsbusch

1.3 Zufallsvariablen

Grundlagen der Wahrscheinlichkeitstheorie

Mathematik für Naturwissenschaftler I WS 2009/2010

Wahrscheinlichkeitsrechnung und Statistik

Differentialgleichungen und Hilberträume Sommersemester 2014 Übungsblatt 11

Ljapunov Exponenten. Reiner Lauterbach

Meßbare Funktionen. bilden die Grundlage der Integrationstheorie. Definition 24.1 :

5. Stichproben und Statistiken

Kardinalzahlen. Bemerkung. Eine unendliche Kardinalzahl α muss eine Limesordinalzahl sein. (Beweis zur Übung)

4.2 Methoden um Tests zu finden: Likelihood Quotienten Tests (LRT) Falls X 1,..., X n iid aus f(x θ), so gilt für die Likelihood Funktion

Erwartungswert und Varianz von Zufallsvariablen

Wahrscheinlichkeit und Statistik: Zusammenfassung

Strassen Type Theorems Proseminar Stochastik

Kapitel 4. Stochastische Grundlagen. 4.1 Filtrationen und Stoppzeiten

Schwache Konvergenz. Ivan Lecei. 18. Juni Institut für Stochastik

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Konvergenz gegen einen Prozess mit unabhängigen Zuwächsen - Anwendungen

Mathematik III. Produkt-Präringe

2. Ein Zufallsvektor X IR d ist multivariat normal verteilt dann und nur dann wenn seine charakteristische Funktion folgendermaßen gegeben ist:

10 Untermannigfaltigkeiten

Lineare Abhängigkeit

Elemente in Φ werden Wurzeln genannt. Bemerkung 3.2. (a) Zu einem Wurzelsystem können wir immer eine Spiegelungsgruppe definieren

p k (1 p) n k s k = (1 p + ps) n. k p(1 p) k 1 s k ((1 p)s) k 1 =

Kapitel II - Wahrscheinlichkeitsraum

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

7 Bedingte Erwartungswerte und Bedingte Verteilungen

1 Der Satz von Poincaré-Birkhoff-Witt. 2 Die freie Algebra. 3 Die universell einhüllende Algebra

Bedingte Wahrscheinlichkeiten und Unabhängigkeit

Multivariate Verteilungen

10 Transformation von Zufallsvariablen

Probeklausur Statistik II

1.3 Stochastische Unabhängigkeit und bedingte

Darstellungssatz von Riesz in vollständig regulären Räumen. Carina Pöll Wintersemester 2012

8. Formelsammlung. Pr[ ] = 0. 0 Pr[A] 1. Pr[Ā] = 1 Pr[A] A B = Pr[A] Pr[B] DWT 8.1 Gesetze zum Rechnen mit Ereignissen 203/467 Ernst W.

3 Markov-Eigenschaft der Brownschen Bewegung

Kapitel II. Brownsche Bewegung. Literatur: Karatzas, Shreve (1999, Chap. 2).

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

2. Integration. {x : f(x) <a+ 1 n }

00. Einiges zum Vektorraum R n

Differentialformen. Lie-Ableitung von Differentialformen und Poincaré-Formel. Differentialform dp dx und ihre Invarianz bzgl. Hamiltonischer Flüsse.

2 Zufallsvariable, Verteilungen, Erwartungswert

Das Bayes'sche Prinzip

2 Die Dimension eines Vektorraums

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

1 Analytische Geometrie und Grundlagen

Kapitel II Kontinuierliche Wahrscheinlichkeitsräume

Lösungen zur Klausur WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK (STOCHASTIK)

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Transkript:

Kapitel 6 Suffiziente Statistiken In diesem Kapitel untersuchen wir einen weiteren statistischen Begriff, der eng mit Likelihoodfunktionen zusammenhängt und mit der Frage nach eventuell möglicher Datenreduktion zu tun hat. Wir gehen der Frage nach, in welchen Fällen man an Stelle der gesamten Stichprobe X lediglich Stichprobenfunktionen H(X) zu verwenden braucht, ohne Informationen über den zugrunde liegenden Parameter ϑ zu verlieren. 6.1 Vorbetrachtungen Es sei (, A, P, X) ein statistisches Modell mit P = (IP ϑ, ϑ Θ) und X als Stichprobe mit Werten in einem meßbaren Raum (E, E ). Die Wahrscheinlichkeitsverteilung IP X ϑ von X auf (E, E ) hängt von ϑ ab. Hat man eine konkrete Stichprobe x, also eine Realisierung von X erhalten, so kann man i.a. daraus Schlüsse über die dem Experiment zugrunde liegende Wahrscheinlichkeitsverteilung IP ϑ, also den wahren Parameter ϑ Θ ziehen. Beispiel 6.1. Es sei X = (X 1, X 2,..., X n ) eine mathematische Stichprobe aus einer auf [ϑ, ϑ + 1] gleichmäßig verteilten Grundgesamtheit, ϑ IR sei unbekannt. Hat man eine Realisierung x = (x 1,..., x n ) von X erhalten, so kann man schließen, daß ( max x k) 1 ϑ min x k k=1,...,n k=1,...,n gilt. Man erhält also aus x Informationen über ϑ. Beispiel 6.2. Ist X = (X 1, X 2,..., X n ) eine mathematische Stichprobe aus einer exponentiell mit dem Parameter λ verteilten Grundgesamtheit, so kann man erwarten, daß X n := 1 n X k n k=1 59

60 KAPITEL 6. SUFFIZIENTE STATISTIKEN in der Nähe von IE λ (X 1 ) = 1 λ liegt (Gesetz der großen Zahlen). Beispiel 6.3. Aus der Beobachtung einer Trajektorie X = ( W (s), s [0, T ] ) des Wienerschen Prozesses mit den Parametern µ und σ 2 auf dem Intervall [0, T ] (T > 0) läßt sich σ 2 exakt berechnen (siehe Kapitel 4). In jedem der genannten Fälle enthält also die Stichprobe X Informationen über den wahren Parameter ϑ. Wir kehren zum eingangs formulierten allgemeinen Fall zurück. Ist H( ) eine Stichprobenfunktion auf (E, E ) (d.h. eine Statistik) mit Werten in (F, F ), so hängt auch ihre Wahrscheinlichkeitsverteilung IP H ϑ auf (F, F ) im allgemeinen von ϑ ab. Wir haben das im Beispiel 6.2 mit H(X) = X n gesehen. Es entsteht die Frage, ob in H(X) noch genau soviel Information über ϑ enthalten ist, wie in der Stichprobe X selbst. Ist dies der Fall, so nennt man H(X) eine suffiziente (oder auch erschöpfende) Statistik für ϑ Θ bzw. für P = (IP ϑ, ϑ Θ). Wir gehen darauf im Folgenden näher ein. 6.2 Suffiziente Statistiken und suffiziente σ-algebren Wir verwenden die Bezeichnungen des Abschnittes 6.1. Ausgangspunkt der folgenden Überlegungen ist die Formel IP X ϑ (B) = IP X ϑ (B H = h) IP H ϑ ( dh), B E, (6.1) F die man als Verallgemeinerung der Formel der totalen Wahrscheinlichkeit ansehen kann. Die Abhängigkeit der Verteilung IP X ϑ von ϑ wird also aufgespaltet in die Abhängigkeit von ϑ der Verteilung IP H ϑ der Statistik H und die Abhängigkeit von ϑ der bedingten Verteilung IP X ϑ ( H = h) von X unter H = h. Beschränkt man sich bei der Datenerhebung auf die Statistik H(X) anstelle X, so geht also ein Teil der Abhängigkeit (und damit ein Teil der Information über ϑ, die in X steckt) verloren. Beispiel 6.4. Es sei X = (X 1, X 2,..., X n ) eine mathematische Stichprobe aus einer zweipunktverteilten Grundgesamtheit mit dem Parameter p (0, 1), genauer, X 1, X 2,..., X n seien unabhängig und identisch verteilt, und es gelte IP p (X k = 1) = p, IP p (X k = 0) = 1 p. (Bernoullischema mit dem Parameter p)

6.2. SUFFIZIENTE STATISTIKEN UND SUFFIZIENTE σ-algebren 61 Wir definieren H(X) := max k=1,...,n X k. Die Statistik H hat die möglichen Werte 0 und 1 und besitzt die Verteilung IP(H = 0) = (1 p) n, IP(H = 1) = 1 (1 p) n. Für IP p (X = x H = i), x = (i 1, i 2,..., i n ) {0, 1} n, i {0, 1} gilt IP p (X = x H = 0) =1, falls x = (0, 0,..., 0), IP p (X = x H = 0) = 0 sonst, IP p (X = x H = 1) = ppn j=1 i j (1 p) n P n j=1 i j, falls 1 (1 p) n x = (i 1, i 2,..., i n ) {0, 1} n mit H(x) = 1. Offensichtlich enthält H(X) = max k=1,...,n X k weit weniger Information über den wahren Parameter p als die Stichprobe X selbst, aus der man zum Beispiel durch X n = 1 n n k=1 X k eine bessere Schätzung für p gewinnt als es auf der Grundlage von H(X) möglich wäre. Wir behandeln im Folgenden die am Ende des Abschnittes 6.1 aufgeworfene Frage in einem allgemeineren Rahmen. Es seien (, A, P) ein statistisches Modell mit P = (IP ϑ, ϑ Θ) und H eine Teilσ-Algebra von A. Definition 6.1. Die σ-algebra H heißt suffizient für P (bzw. für ϑ Θ) hinsichtlich A, falls es für alle A A eine nicht von ϑ abhängende H -meßbare Zufallsgröße Z A gibt mit Z A = IE ϑ (1 A H ) IP ϑ -fast sicher, ϑ Θ. (6.2) Anstelle Z A schreiben wir symbolisch IP(A H ) um anzudeuten, daß Z A für jedes ϑ eine Version der bedingten Wahrscheinlichkeit IP ϑ (A H ) von A unter H ist, allerdings aber nicht von ϑ abhängt. Ist H suffizient, so gilt also IP ϑ (A) = IP(A H ) H ϑ für alle A A, ϑ Θ. (6.3) Hier bestimmt bereits die Abhängigkeit der Einschränkung IP ϑ H auf A. von ϑ diejenige der IP ϑ Definition 6.2. Eine Zufallsgröße T auf (, A ) mit Werten in (E, E ) nennt man suffizient für P hinsichtlich A, falls A T := T 1 (E ) suffizient im genannten Sinne ist.

62 KAPITEL 6. SUFFIZIENTE STATISTIKEN In diesem Fall gilt für alle A A und ϑ Θ: IP ϑ (A) = IP(A σ(t )) ϑ = IP(A T = t) IP T ϑ ( dt). (6.4) Hier bestimmt die Abhängigkeit der Verteilung IP T ϑ Maße IP ϑ von ϑ. E von ϑ bereits die Abhängigkeit der Bemerkung 6.3. Anstelle der σ-algebra A setzt man häufig auch A X für eine Stichprobe X. In diesem Fall fordert man in der Definition der Suffizienz von H die Eigenschaft H A X, was im Fall H = A T für eine Zufallsgröße T bedeutet, daß T sich als meßbare Funktion H von X darstellen läßt: T (ω) = H(X(ω)). Damit haben wir den im Abschnitt 6.1 betrachteten Fall eingeordnet. Beispiel 6.5. (X 1, X 2,..., X n ) sei ein Bernoullischema mit dem Parameter p (0, 1). (Die X k, k = 1,..., n sind unabhängig und es gilt IP p (X k = i) = p i (1 p) 1 i, i = 0, 1.) Dann ist S n := n k=1 X k eine suffiziente Statistik für (IP p, p (0, 1) ) hinsichtlich A X. Die σ-algebra A X wird erzeugt durch die Zerlegung Es gilt {ω X(ω) = (i 1, i 2,..., i n )}, (i 1, i 2,..., i n ) {0, 1} n. ( IP p X = (i1, i 2,..., i n ) S n = m ) = 1 {m} (i 1 +... + i n ) ppn j=1 i j (1 p) n P n j=1 i j IP p (S n = m) = 1 {m}(i 1 +... + i n ) ( n m) und diese bedingte Wahrscheinlichkeit ist unabhängig von p. Beispiel 6.6. Es sei ( W (t), t [0, T ] ) ein Wienerscher Prozess mit den Parametern µ und σ 2. Der Parameter σ 2 sei bekannt, µ sei unbekannt. Dann ist W (T ) eine suffiziente Statistik für µ bezüglich A T = σ ( W (t), t [0, T ] ). Ist Z eine Zylindermenge der Form Z = {ω ( W (t 1 ),..., W (t n ) ) B}

6.3. SUFFIZIENZ IN DOMINIERTEN MODELLEN 63 für gewisse t 1 < t 2 <... < t n = T und ein B B n, so gilt ( ) IP µ Z W (T ) = w = ϕ t1,...,t n (x 1,..., x n 1, w) dx 1... dx n 1 mit ϕ t1,...,t n (x 1,..., x n ) = B n k=1 { 1 exp 2π(tk t k 1 )σ 2 1 2 n k=1 exp (x k x k 1 µ(t k t k 1 )) 2 σ 2 (t k t k 1 ) { 1 (w µt ) 2 2 σ 2 T 1 2πT σ 2 } }. Eine kurze Rechnung zeigt, daß dieser Ausdruck nicht vom Parameter µ abhängt. Wenn IP µ (A W (T ) = w) für jede Zylindermenge A aus A T nicht von µ abhängt, so gilt dasselbe für alle A A T. 6.3 Suffiziente σ-algebren und Statistiken in dominierten Modellen Es sei P = (IP ϑ, ϑ Θ) eine durch ein σ-finites Maß µ auf dominierte Familie von Wahrscheinlichkeitsmaßen auf (, A ). Die Likelihoodfunktion L(ϑ ; ω) ist definiert durch L(ϑ ; ω) = ϑ dµ (ω), und ist für jedes ϑ Θ µ-fast überall eindeutig bestimmt. Die Suffizienz einer σ-algebra H bzw. einer Statistik T (mit Werten in einem meßbaren Raum (E, E )) läßt sich an Hand von L feststellen. Das ist der Inhalt des folgenden Satzes. Mit seiner Hilfe werden wir weitere Beispiele suffizienter σ-algebren und Statistiken gewinnen. Wir beginnen mit einem Lemma technischer Natur. Lemma 6.4. Die Familie P = (IP ϑ, ϑ Θ) sei dominiert durch ein σ-finites Maß µ. Dann existiert eine Wahrscheinlichkeitsverteilung IP auf (, A ), so daß gilt: a) IP(A) = 0 (IP ϑ (A) = 0, ϑ Θ) für alle A A. b) Die Verteilung IP aus a) kann als konvexe Linearkombination IP = k 1 c k IP ϑk einer höchstens abzählbar unendlichen Parametermenge {ϑ k, k 1} Θ gewählt werden. (Für einen Beweis siehe z.b. Dacunha-Castelle, Duflo, Band I.)

64 KAPITEL 6. SUFFIZIENTE STATISTIKEN Eine Wahrscheinlichkeitsverteilung IP mit den Eigenschaften a) und b) nennt man ein bezüglich P = (IP ϑ, ϑ Θ) privilegiertes Maß. Offenbar gilt IP µ und L(ϑ ; ω) = ϑ dµ. (6.5) Zur Untersuchung der Abhängigkeit der Likelihoodfunktion L von ϑ genügt es also, sich auf privilegierte Maße zu beschränken. Sin un zwei privilegierte dominierende Wahrscheinlichkeitsmaße bezüglich P, so sind sie äquivalent: IP IP. Folgerung 6.5. Ist IP ein privilegiertes Wahrscheinlichkeitsmaß bezüglich P, so gilt für jede nichtnegative Zufallsgröße Z auf (, A ) die Gleichung IE IP (Z) = k 1 c k IE ϑk (Z) (6.6) mit der Bezeichnung aus Punkt b) des obigen Lemmas. Die Gleichung (6.6) ist richtig für Z = 1 A, A A, somit auch für Z = m k=1 α k1 Ak. Nun wendet man die Approximationsmethode an. Aussage 6.1 (Charakterisierungssatz). Folgende Eigenschaften sind äquivalent: i) H (bzw. T ) ist suffizient für P hinsichtlich A ii) Für jedes bezüglich P privilegiertes Wahrscheinlichkeitsmaß IP und jedes ϑ Θ gibt es eine IP-Version von ϑ, die bezüglich H (bzw. σ(t )) meßbar ist1 iii) für jedes σ-finite dominierende Maß µ gibt es eine A -meßbare Zufallsgröße h (unabhängig von ϑ) und eine H -meßbare Zufallsgröße G ϑ (bzw. eine Borelmeßbare Funktion g ϑ von (E, E ) in (IR, B)), so daß gilt: L(ϑ ; ω) =h(ω)g ϑ (ω) µ-fast überall, ϑ Θ. (bzw. L(ϑ ; ω) =h(ω)g ϑ (T (ω)) µ-fast überall, ϑ Θ) 1 1 Man beachte: Eine reellwertige Zufallsgröße Y ist σ(t )-meßbar genau dann, wenn es eine (E -B)- meßbare Funktion ψ von E in IR gibt mit Y (ω) = ψ(t (ω)), ω.

6.3. SUFFIZIENZ IN DOMINIERTEN MODELLEN 65 (i)= (ii): H sei suffizient für P hinsichtlich A un sei ein privilegiertes Maß für P. Wir verwenden die Bezeichnungen des Abschnittes 6.2. Nach Definition gibt es für jedes A eine nicht von ϑ abhängende Zufallsgröße Z A, die H -meßbar ist und für die gilt Z A = IP ϑ (A H ) IP ϑ -f.s., ϑ Θ. Das bedeutet Z A ϑ = IP ϑ (A H) für alle H H und alle ϑ Θ. H Daraus ergibt sich (siehe (6.6)) H Z A = IP(A H) und somit IE IP (1 A H ) = Z A IP-fast sicher. Sind ϑ Θ und A A, so gilt folglich IP ϑ (A) = IE IP (1 A H ) ϑ = IE IP (1 A H ) ϑ = ( IE IP IE IP (1 A H ) ) ϑ H = ( IE IP 1 A IE IP ( ) ϑ H ) H = A IE IP (1 A H ) IE IP ( ϑ H ) = IE IP ( ϑ H ). (6.7) Andererseits gilt IP ϑ (A) = A ϑ, A A. (6.8) Somit folgt aus (6.7) und (6.8) ϑ = IE IP ( ϑ ) H IP -fast überall, d.h., es gibt eine H -meßbare Version von ϑ. (ii)= (iii) Dieser Schritt ergibt sich aus Formel (6.5). (ii)= (i)

66 KAPITEL 6. SUFFIZIENTE STATISTIKEN Mit der Formel für die Umrechnung bedingter Erwartungen aus der 4. Übung ergibt sich für jede nichtnegative Zufallsgröße Y IE ϑ (Y H ) = IE ( ϑ IP Y H ) ( IE ϑ IP H ) = IE IP(Y H ) IP -fast sicher für alle ϑ Θ. (6.9) (iii)= (ii) Es sei IP privilegiert, folglich gilt IP µ, und dµ = h c k G ϑk = h(ω) G, (6.10) G ist nach Konstruktion H -meßbar. Nach Voraussetzung ist ϑ dµ = h(ω)g ϑ(ω). (6.11) Aus den beiden Gleichungen (6.10) und (6.11) erhalten wir h(ω)g ϑ (ω) = ϑ dµ = ϑ dµ = ϑ h(ω)g(ω) µ-fast sicher. (6.12) dµ Wegen IP ϑ (h = 0) = {h=0} ϑ dµ dµ = h G ϑ dµ = 0, ϑ Θ, {h=0} gilt IP(h = 0) = 0. Analog ergibt sich IP(G = 0) = 0 aus (6.10). Somit folgt aus (6.12) ϑ = G ϑ(ω)h(ω) G(ω)h(ω) = G ϑ(ω) G(ω) IP -fast sicher, und ϑ hat somit eine H -meßbare Version. 6.4 Minimal suffiziente Statistiken und σ-algebren Es sei (, A, P) ein statistischer Raum mit P = (IP ϑ, ϑ Θ). P werde durch ein σ- finites Maß µ dominiert und H sei eine suffiziente σ-algebra für P hinsichtlich A. Ist H eine Teil-σ-Algebra von A mit H H, so ist auch H suffizient. Das ergibt sich unmittelbar aus dem Faktorisierungssatz. Da andererseits nicht jede Teil-σ-Algebra H von H suffizient ist (man prüfe das für die triviale σ-algebra H = {, }), ergibt sich die Frage, ob es eine minimale suffiziente σ-algebra gibt und ob diese gegebenenfalls

6.4. MINIMAL SUFFIZIENTE STATISTIKEN UND σ-algebren 67 eindeutig ist. Es seien IP eine privilegierte dominierende Wahrscheinlichkeitsverteilung für P und L(ϑ ; ω) := ϑ (ω) die Likelihoodfunktion. Die σ-algebra H 0, definiert durch H 0 := σ ( L ( ϑ ; ), ϑ Θ ) (kleinste σ-algebra von Teilmengen von, bezüglich der alle L (ϑ ; ), ϑ Θ, meßbar sind) ist eine suffiziente σ-algebra für P bezüglich A. Davon überzeugt man sich leicht durch Anwendung von Formel (6.9). Für Z A ergibt sich dabei IP(A H 0 ). Die σ-algebra H 0 hängt davon ab, welche Versionen der Zufallsgrößen L (ϑ ; ) zu ihrer Bildung eingesetzt werden. (L (ϑ ; ) ist ja nach Definition nur IP-fast sicher bestimmt.) Um von diesem Sachverhalt unabhängig zu werden, gehen wir zu Vervollständigung H IP 0 von H 0 bezüglich IP über. (Bezeichnet man mit M die Menge aller A A mit IP(A) = 0, so ist M0 IP definiert als σ ( M 0 M ). Es gilt: X ist M0 IP -meßbar genau dann, wenn es eine M 0 -meßbare Zufallsgröße X gibt mit IP(X X) = 0.) Lemma 6.6. Sind H 0 und L (ϑ ; ), ϑ Θ, erzeugt werden, so gilt H IP H0 IP. 0 = H 0 zwei σ-algebren, die durch verschiedene Versionen von Jede Version von L (ϑ ; ) ist meßbar bezüglich H0 IP und auch bezüglich H 0 IP. Daraus folgt H 0 H 0 IP und H 0 H0 IP und somit H0 IP H 0 IP, sowie H 0 IP H IP Die σ-algebra H IP 0 ist suffizient (siehe die Bemerkung eingangs dieses Abschnittes) und minimal im Sinne der folgenden Aussage Aussage 6.2. Ist H eine suffiziente σ-algebra für P bezüglich A, so gilt H IP 0 H IP. auf Grund des Faktorisierungssatzes eine H -meßbare Ver- Ist H suffizient, so besitzt ϑ sion, folglich ist ϑ und damit H IP eine H IP -meßbare Zufallsgröße für alle ϑ Θ. Somit gilt H 0 H IP 0 H IP. 0.

68 KAPITEL 6. SUFFIZIENTE STATISTIKEN Diese Aussage führt zu folgender Definition 6.7. Eine suffiziente σ-algebra H heißt minimal suffizient, falls H IP für alle suffizienten σ-algebren H gilt. Die obige Aussage erlaubt nun die Folgerung 6.8. H ist minimal suffizient genau dann, wenn H IP = H IP 0 gilt. H IP Definition 6.9. Eine Zufallsgröße H auf (, A ) heißt minimal suffizient ist. minimal suffizient, wenn σ(h) Das bedeutet, daß es zu jedem ϑ Θ eine IP-Version von L (ϑ ; ) gibt mit σ(h) = σ (L (ϑ ; ) ϑ Θ). Kurz ausgedrückt heißt das: Ist die Likelihoodfunktion für jedes ϑ Θ in Abhängigkeit von ω die Funktion einer Statistik H = H(ω), so ist H minimal suffizient. Beispiel 6.7. X = (X 1,..., X n ) sei eine mathematische Stichprobe aus einer gleichmäßig auf [a, b] verteilten Grundgesamtheit, a und b seien unbekannt. Wir setzen Θ = {ϑ = (a, b) : < a < b < }. Als dominierendes Maß für P X verwenden wir das Lebesguemaß λ n auf (IR n, B n ). Dann gilt L X (ϑ ; X (ω)) = (b a) n n k=1 1 [a,b] (X k ) = (b a) n 1 [a,b] ( min k=1,...,n X k) 1 [a,b] ( max k=1,...,n X k). ) eine suffiziente Sta- ( Folglich ist die Stichprobenfunktion T (X) = min X k, max k=1,...,n tistik für P A X bezüglich A X, sie ist sogar minimal suffizient. k=1,...,n X k Beispiel 6.8. Es sei X = (X 0, X 1,..., X n ) eine Markovsche Kette mit dem Zustandsraum E = {e 1, e 2,..., e m }, der Anfangsverteilung ρ und den Übergangswahrscheinlichkeiten } π ij, i, j E. Als unbekannte Parameter werden die π ij angesehen: Θ := {ϑ = (π ij ) i,j E. Die Anfangsverteilung sei bekannt. Dann gilt L n (ϑ ; X) = ρ(x 0 ) π X0 X 1 π X1 X 2... π Xn 1 X n = ρ(x 0 ) i,j E π N ij n ij

6.4. MINIMAL SUFFIZIENTE STATISTIKEN UND σ-algebren 69 mit n 1 Nn ij = l=0 1 {Xl =i,x l+1 =j}. Folglich ist (N ij n, i, j E) eine minimal suffiziente Statistik für ( IP X ϑ, ϑ Θ ) bezüglich A X. Beispiel 6.9. Es sei (X(t), t 0) ein Ornstein-Uhlenbeck-Prozess, d.h. eine Lösung der Differentialgleichung dx(t) = ρx(t) dt + σ dw (t), t 0 X(0) = X 0. (Anfangsbedingung) Dann gilt T ρ T 0 { T T } (ω) = exp ρ X(t) dx(t) ρ2 X 2 (t) dt. 0 2 0 Folglich ist H ( (X (t), 0 t T ) ) ( T = X(t) dx(t), 0 T 0 ) X 2 (t) dt eine minimal suffiziente Statistik für ρ.