Mathematische Statistik Teil II Schätzen

Ähnliche Dokumente
Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren

Die Momentenmethode. Vorteil: Oft einfach anwendbar. Nachteil: Güte kann nur schwer allgemein beurteilt werden; liefert zum Teil unbrauchbare

Einführung in die Maximum Likelihood Methodik

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

6. Schätzverfahren für Parameter

3.3 Methoden zur Evaluierung von Schätzern

Mathematik für Biologen

Mathematische Statistik Aufgaben zum Üben. Schätzer

Mathematische Statistik Teil III Testen

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

Das Bayes'sche Prinzip

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Vorlesung: Statistik II für Wirtschaftswissenschaft

1.3 Wiederholung der Konvergenzkonzepte

Biostatistik, Sommer 2017

Kapitel 3 Schließende Statistik

Punktschätzer Optimalitätskonzepte

5. Statistische Schätztheorie

4.2 Methoden um Tests zu finden: Likelihood Quotienten Tests (LRT) Falls X 1,..., X n iid aus f(x θ), so gilt für die Likelihood Funktion

Statistik. R. Frühwirth Teil 1: Deskriptive Statistik. Statistik. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Einführung in die (induktive) Statistik

Die partielle Likelihood-Funktion

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Unterricht 13: Wiederholung.

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

5 Optimale erwartungstreue Schätzer

Bootstrap: Punktschätzung

Statistik I für Betriebswirte Vorlesung 14

Einführung in die Induktive Statistik: Schätzen von Parametern und Verteilungen

Kapitel VI - Maximum-Likelihood-Schätzfunktionen

Korollar 116 (Grenzwertsatz von de Moivre)

2.3 Intervallschätzung

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Die Maximum-Likelihood-Methode

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

1.4 Stichproben aus einer Normalverteilung

Schätzer und Konfidenzintervalle

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse

Inhaltsverzeichnis. 4 Statistik Einleitung Wahrscheinlichkeit Verteilungen Grundbegriffe 98

Vorlesung: Lineare Modelle

Statistik II SoSe 2006 immer von 8:00-9:30 Uhr

Brownsche Bewegung. M. Gruber. 19. März Zusammenfassung

1 Gemischte Lineare Modelle

2.2 Punktschätzung. Gegeben sei die in Kapitel 2.1 beschriebene Situation, also eine i.i.d. Stichprobe X 1,...,X n eines Merkmales X.

Bayes Inferenz Schätzen und Testen von Hypothesen. Helga Wagner Bayes Statistik WS 2010/11 301

Wichtige Definitionen und Aussagen

Stetigkeit und Dierenzierbarkeit im R n

Klausur zu Statistik II

Kapitel 1 Einführung. Angewandte Ökonometrie WS 2012/13. Nikolaus Hautsch Humboldt-Universität zu Berlin

Mathematische Statistik Gliederung zur Vorlesung im Wintersemester 2006/07

Wahrscheinlichkeitsverteilungen

Willkommen zur Vorlesung Statistik (Master)

4 Statistik der Extremwertverteilungen

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

4.1 Stichproben, Verteilungen und Schätzwerte. N(t) = N 0 e λt, (4.1)

Schwache Konvergenz. Ivan Lecei. 18. Juni Institut für Stochastik

Willkommen zur Vorlesung Statistik (Master)

Auswahl von Schätzfunktionen

Willkommen zur Vorlesung Statistik (Master)

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Einführung in die statistische Testtheorie II

Statistik und Wahrscheinlichkeitsrechnung

Musterlösung zur Klausur im Fach Fortgeschrittene Statistik am Gesamtpunktzahl: 60

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

7. Grenzwertsätze. Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012

Schließende Statistik

Schätzung von Parametern

Reelle Zufallsvariablen

Wahrscheinlichkeitsrechnung und Statistik für Studierende der Informatik. PD Dr. U. Ludwig. Vorlesung 7 1 / 19

Klausur Stochastik und Statistik 31. Juli 2012

Zufallsvariablen [random variable]

Stetige Funktionen. Definition. Seien (X, d) und (Y, D) metrische Räume und f : X Y eine Abbildung. i) f heißt stetig in x 0 (x 0 D(f)), wenn

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

3 Statistische Schätzungen

Lösungen zur Klausur WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK (STOCHASTIK)

Schließende Statistik

3 Optimierung mehrdimensionaler Funktionen f : R n R

Statistik IV. Modul P8: Grundlagen der Statistik II Vorlesung P8.1: Wahrscheinlichkeitstheorie und Inferenz II

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung

Suffizienz und Vollständigkeit

Wenn man den Kreis mit Radius 1 um (0, 0) beschreiben möchte, dann ist. (x, y) ; x 2 + y 2 = 1 }

Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle

Willkommen zur Vorlesung Statistik (Master)

Grundgesamtheit und Stichprobe

Vorlesung 3: Schätzverfahren

Chi-Quadrat-Verteilung

Statistische Methoden

Wahrscheinlichkeit und Statistik: Zusammenfassung

Klassifikation von Daten Einleitung

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

Schließende Statistik

Innere-Punkt-Methoden

Klausur zum Fach GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK. für Studierende der INFORMATIK

Wahrscheinlichkeitstheorie und Statistik für Studierende des Maschinenbaus vom

Transkript:

Mathematische Statistik Teil II Schätzen R. Kovacevic 1 1 Institut für Statistik und Decision Support Systeme Universität Wien Wintersemester 2009

Dieses Werk ist urheberrechtlich geschützt. Jede Vervielfältigung ohne Zustimmung des Autors ist verboten.

Gliederung 1 Grundlegende Begrie 2 3 4

Gliederung 1 Grundlegende Begrie 2 3 4

Schätzen Aufgabe: Anhand der Daten den Wert eines Parameters des Modells aus einer Menge von Alternativen möglichst gut zu bestimmen. Punktschätzer: Der Wert einer Statistik ˆθ(x) wird als Schätzer für den Parameter θ herangezogen. Im Vordergrund steht die Analyse der Stichprobenverteilung von ˆθ(x). Intervallschätzer: Kondenzintervall Prinzipiell eine Entscheidungsproblem, also mit Minimax- und Bayesmethodik zu behandeln. Daneben haben sich Herangehensweisen entwickelt, die mit diesen Hauptmethoden der Entscheidungstheorie nicht direkt in Zusammenhang stehen. Plug-in Schätzer Momentenmethode...

Wichtige Eigenschaften von Punktschätzern Unverzerrtheit minimale Varianz Ezienz Konsistenz Suzienz Robustheit

Unverzerrte Schätzer Denition Eine Statistik ˆθ(X ) heiÿt unverzerrter (erwartungstreuer) Schätzer für ϑ genau dann, wenn ] E[ˆθ(X ) = ϑ Achtung: Im allgemeinen folgt aus der Unverzerrtheit von ˆθ nicht die Unverzerrtheit von Funktionen von ˆθ: ] [ )] E[ˆθ(X ) = ϑ E g (ˆθ(X ) = g(ϑ) Unverzerrte Schätzer sind nicht notwendigerweise eindeutig. Denition Ein Schätzer ˆθ n (eine Folge von Schätzern) heiÿt asymptotisch unverzerrt (erwartungstreu), genau dann wenn ) lim (ˆθ E n = θ n gilt.

minimale Varianz Um zwischen unverzerrten Schätzern auszuwählen, wird oft die Varianz als Kriterium herangezogen: MVUE: minimum variance unbiased estimator Ein Schätzer mit minimaler Varianz heiÿt auch ezient. Bezug zur Entscheidungstheorie: Für unverzerrte Schätzer entspricht die minimale Varianz dem minimalen MSE!

minimale Varianz für mehrdimensionale Schätzer Für eine mehrdimensionale Statistik wird die Varianz-Kovarianzmatrix herangezogen. Vergleich von Kovarianzmatrizen: Σ 1 Σ 2 : Σ 1 Σ 2 positiv definit. Ein derartiger Vergleich basiert auf einer Halbordnung: zwei Kovarianzmatrizen sind nicht notwendigerweise vergleichbar.

relative Ezienz relative Ezienz: Seien ˆθ (1) n, ˆθ (0) n zwei Punktschätzer, basierend auf einer Stichprobe vom Umfang n. Der Quotient ) e n (ˆθ (1) n, ˆθ (0) n ) = Var Var (ˆθ (1) n (ˆθ (0) n wird als relative Ezienz bezeichnet und miÿt die Ezienz des Schätzers ˆθ (1) n relativ zur Ezienz des Schätzersˆθ (0) n. Die asymptotische relative Ezienz ist durch den Grenzwert deniert. e(ˆθ (1) n, ˆθ (0) n ) = lim e n (ˆθ 1, ˆθ 0 ) n Interpretation: Für groÿe Stichprobenumfänge werden für die Statistik ˆθ (1) n e(ˆθ (1) n, ˆθ (0) n )-mal soviele Beobachtungen gebraucht wie für die Statistik ˆθ (0) n, um dieselbe Varianz zu erreichen. )

Konsistenz Beispiel Zuvor wurde die Varianz, bzw. der MSE als Kriterium für die Güte eines Schätzers eingeführt. Es gibt allerdings Situationen, in denen dieses Kriterium nicht funktioniert. Zufallstichprobe aus einer Population mit f (x) = ω ϕ(x) + (1 ω) 1 π 1 1 + (x θ) 2 Eine Alternative: für groÿen Stichprobenumfang n nimmt der Schätzer Werte an, die nahe beim Wert des unbekannten Parameters liegen: Wir können praktisch sicher sein, dass der wahre Wert in einer kleinen Umgebung um den geschätzten Wert liegt.

Konsistenz Denition Eine Statistik ˆθ n ist ein konsistenter Schätzer für den Parameter θ genau dann wenn für jedes ε > 0 gilt ( ) lim ˆθ P n θ < ε = 1 n Das entspricht dem Begri der Konvergenz ) in Wahrscheinlichkeit. Alternative Schreibweise: plim (ˆθ n = θ Aus der Konsistenz von ˆθ folgt die Konsistenz von stetigen Funktionen g( ) von ˆθ: ) ( ) plim (ˆθ n = θ plim g(ˆθ n ) = g(θ) Konsistenz ist erstrebenswert, aber ein Schätzer der für realistische Stichprobengröÿen weit neben dem wahren Wert liegt, ist trotz Konsistenz dennoch ungeeignet.

Konsistenz Satz Wenn ˆθ n ein unverzerrter ) Schätzer für θ ist und weiters lim n Var (ˆθ n 0 gilt, dann ist ein konsisteneter Schätzer für θ. Beispiel Der Stichprobenmittelwert n i=1 X i ist ein konsistenter Schätzer für n den Erwartungswert E einer i.i.d. Zufallsstichprobe, sofern dieser existiert

MSE-Konsistenz Denition Ein Schätzer ˆθ n heisst MSE-konsistent genau dann, wenn ] [ ) t ) lim [ˆθ MSE n = lim E (ˆθ n θ (ˆθ ] n θ 0 n n gilt. Fakt Klarerweise erfordert MSE-Konsistenz asymptotische Erwartungstreue und Aus MSE-Konsistenz folgt Konsistenz. MSE-Konsistenz und und die Bedingungen des Theorems (5) erfordern die Existenz von zweiten Momenten. Konsistenz erfordert dies nicht.

Suzienz minimal suziente Schätzer fassen die Daten maximal zusammen.

Robustheit Ein Schätzer heiÿt robust, wenn seine Stichprobenverteilung durch Verletzungen der Modellannahmen nicht zu stark verändert wird. Verletzungen: Ausreiÿer Verteilungsannahmen (zb. Lebensdauer: Exponentialverteilung -> Weibullverteilung...) Fragen der Robustheit sind schwierig zu beantworten. (Was heiÿt nicht zu stark verändert). Theoretische Ergebnisse sind daher rar. Computersimulationen können Ergebnisse für konkrete Verletzungen liefern.

Gliederung 1 Grundlegende Begrie 2 3 4

Rao-Blackwell Theorem Satz Wie kann ein MVUE gefunden werden? Sei X 1,...,X n eine Stichprobe aus einer Verteilung mit Dichtefunktion (WF) f (x;θ), θ Θ. Sei weiters S = u 1 (X 1,...,X n ) eine suziente Statistik für θ und Y = u 2 (X 1,...,X n ) ein unverzerrter Schätzer für θ. Dabei hänge Y nicht ausschlieÿlich von S ab. Dann ist E [Y S = s] = ψ(s) eine Statistik. Diese Statistik ψ(s) ist eine Funktion der suzienten Statistik S, sowie ein unverzerrter Schätzer für θ. Weiters gilt Var(ψ(S)) Var(Y ). Rao-Blackwellisierung: Ersetze einen unverzerrten Schätzer Y durch den unverzerrten Schätzer E [Y S = s] mit geringerer Varianz. Ganz verkürzt: MVUE muss eine Funktion einer suzienten Statistik sein.

Vollständigkeit Das Rao-Blackwell Theorem ermöglicht es, die Varianz von unverzerrten Schätzern zu verbessern. Aber wie kommen wir zu einem Schätzer mit minimaler Varianz? Denition Eine Statistik S heiÿt vollständig, wenn für jede Funktion g und jedes θ gilt: E(g(S)) = 0 g(s) = 0 Wenn eine Statistik S vollständig ist, sagen wir auch, dass ihre Dichte (WF) f (s, θ) vollständig ist.

Satz von Lehmann und Scheé Satz Sei X 1,...,X n eine Stichprobe aus einer Verteilung mit Dichtefunktion (WF) f (x;θ), θ Θ. Sei weiters S = u 1 (X 1,...,X n ) eine minimal suziente, vollständige Statistik für θ. Wenn es eine Funktion ψ(s) der suzienten Statistik gibt, die auch ein unverzerrter Schätzer für θ ist, dann ist ψ(s) ein MVUE für θ. Achtung: suziente Statistiken, die nicht minimal suzient sind, sind im Allgemeinen nicht vollständig.

Exponentialfamilien Fakt Exponentialfamilien sind besonders geeignet um MVUE zu nden: Die natürlichen suzienten Statistiken von Exponentialfamilien sind stets vollständig, sofern der Parameterraum Θ eine oene Menge um 0 enthält. Wie ndet man einen MVUE für Exponentialfamilien? Vorgehensweise: Beispiel Sind die natürlichen suzienten Statistiken von Exponentialfamilien auch minimal suzient? (Beweis)

Gliederung 1 Grundlegende Begrie 2 3 4

Likelihood Denition Gegeben sei ein vollständig parametriertes Modell P = {P θ : θ Θ} mit (gemeinsamer) Dichte (WF) f ( ;θ). Für xes Daten x ist die Likelihoodfunktion als deniert. L(θ) = L(θ;x) = f (x;θ) Beachte: Für xes θ 0 ist der Wert L(θ 0 ) der Likelihoodfunktion selbst eine Statistik! Denition Die Log-Likelihoodfunktion ist durch l(θ) = ln(l(x))

Likelihood Wenn die Daten (x 1,...,x n ) aus einer Zufallsstichprobe (X 1,...,X n ) von i.i.d. Zufallsvariablen stammt ist die Likelihood durch gegeben. L(θ) = n i=1 f (x i ;θ) Für eine homogenen Markov-Kette mit Übergangsdichte (WF) f (x j x j 1 ;θ) ist die Likelihood durch gegeben. L(θ) = f (x 1 ;θ) n j=2 f (x j x j 1 ;θ)

Erweiterter Likelihoodbegri Beispiel Normalerweise beruht der Begri - wie in der obigen Denition - auf der gemeinsamen Dichte, bzw. Wahrscheinlichkeitsfunktion. In manchen Situationen muss der Begri der Likelihood geeignet erweitert werden. Zensierte Überlebenszeiten: Überlebenszeiten unterschiedlicher Objekte sind i.i.d. gemäÿ einer Dichte f (x;θ) mit zugehöriger Verteilungsfunktion F (x;θ) verteilt. Die Objekte werden über einen Zeitraum beobachtet. Typischerweise gibt es dann Objekte i, deren Ausscheiden - und somit deren Überlebenszeit x i im Beobachtungszeitraum beobachtet werden konnte und Objekte die während der Beobachtung nicht ausgeschieden sind. Überlebenszeiten werden daher durch (x i,δ i ) beschrieben. δ i heiÿt Zensierungsindikator: δ i = 1, falls die Überlebenszeit x i tatsächlich beobachtet wurde und δ i = 0, falls das beobachtete Objekt bis zum Schluss überlebt hat. L(θ) = n f (x i ;θ) δ i {1 F (x i ;θ)} 1 δ i i=1

(statistische) Information Denition In einem Modell mit Log-Likelihood l(θ) und eindimensionalem Parameter θ ist die beobachtete Information deniert als J(θ) = d 2 l(θ) dθ 2. (1) Interpretation: Die Krümmung der Log-Likelihoodfunktion spiegelt die Genauigkeit wieder, mit der das Maximum gefunden werden kann. Hohe Information grenzt den wahren Parameterwert besser ein. Die Information J hängt implizit von den beobachteten Daten ab.

(statistische) Information Denition In einem Modell mit Log-Likelihood l(θ) und eindimensionalem Parameter θ ist die beobachtete Information deniert als J(θ) = d 2 l(θ) dθ 2. (1) Interpretation: Die Krümmung der Log-Likelihoodfunktion spiegelt die Genauigkeit wieder, mit der das Maximum gefunden werden kann. Hohe Information grenzt den wahren Parameterwert besser ein. Die Information J hängt implizit von den beobachteten Daten ab.

Information und Stichprobenumfang Wenn l(θ) eine Summe von n Kompomenten ist, trit dies auch auf J(θ) zu: J (θ) = d 2 l(θ) dθ 2 = d 2 dθ 2 n i=1 l i (θ) = n i=1 d 2 l i (θ) dθ 2 = n i=1 J i (θ) Die tri insbesondere für den Fall von i.i.d. Zufallsvariablen mit beobachteter Information J i (θ) = d2 l i (θ) dθ 2 zu. Da J i (θ) (zumindest in der Nähe des Maximums) dazu tendiert positiv zu sein, wird der Beitrag einer zusätzlichen Beobachtung die Information im Allgemeinen erhöhen. (2)

Fisher-Information Bevor Beobachtungen gemacht werden stehen keine Daten zur Verfügung. Dennoch kann zumindest die erwartete Information (oder Fisher-Information) berechnet werden. Denition Die Fisher-Information ist durch I (θ) = E [ d 2 ] li (θ) dθ 2 (3) deniert. Es handelt sich dabei um die mittlere Information, die die Daten enthalten, wenn das Modell korrekt speziziert ist und der wahre Parameterwert durch θ gegeben ist. Die Fisher-Information ist (in der Nähe des Maximums) stets positiv. Für i.i.d. Zufallsvariable mit Stichprobenumfang [ n, gemeinsamer Dichte (WF) f d und individueller Fisher-Information i(θ) = E 2 ] ln(f (x i ;θ)) dθ 2, ergibt sich aus (2) die Beziehung I (θ) = n i(θ).

Information für mehrdimensionale Parameter Denition Sei θ ein p 1-Vektor. Die Informationsmatrizen sind dann durch J (θ) = 2 l(θ) θ θ T und gegeben. [ ] 2 l(θ) I (θ) = E θ θ T Dies sind symmetrische Matrizen, ( ) deren (i, j)-tes Element durch 2 l(θ) θ i θ, bzw. j E 2 l(θ) θ i θ gegeben ist. j

Eigenschaften der Fisher-Information (Additionseigenschaft der Fisher-Information) Falls unabhängige Experimente X 1,X 2 mit Dichten f 1 ( ;θ) und f 2 ( ;θ) durchgeführt werden mit Fisher-Information I 1 (θ) und I 2 (θ), so gilt für das gemeinsame Experiment mit gemeinsamer Dichte f 1 ( ;θ) f 2 ( ;θ) I (θ) = I 1 (θ) + I 2 (θ) Sei X eine Zufallsvariable mit Fisher-Information I X (θ). Sei weiters Y eine Funktion von X : Y = T (X ). Dann gilt I Y (θ) I X (θ). Durch Transformation wird also der Informationsgehalt nicht gröÿer. Ist T eine bijektive Abbildung, so gilt I Y (θ) = I X (θ). Falls Integration und Dierentiation vertauschbar ist, gilt [ ( ) ] 2 E θ l(θ) = E [ 2 ] θ 2 l(θ) [ ] [ ] Wegen E θ θ l(θ) = 0 gilt daher in diesem Fall Var θ l(θ) = I (θ)

Maximum-Likelihoodschätzer Der Maximum-Likelihood Schätzer θ für einen Parameter θ ist jener Wert, der die Likelihoodfunktion, bzw. die Log-Likelihoodfunktion maximiert. Annahme: (Regularity Conditions) Denition (R0) Die Dichte (WF) nimmt für unterschiedliche Parameterwerte ( unterschiedliche Werte an, d.h. θ θ f (θ) f θ ). (R1) Der Träger der Dichte (WF) hängt nicht von θ ab. (R2) Der wahre Parameterwert θ 0 ist ein innerer Punkt von Θ. Der Parameterraum Θ hat endliche Dimension und ist kompakt. ˆθ = ˆθ(X ) ist ein Maximum-Likelihoodschätzer (MLE) für θ, wenn ˆθ = arg max L(θ), bzw. ˆθ = arg max l(θ),

Maximum-Likelihood: Berechnung Oft (Dierenzierbarkeit, keine Nebenbedingungen an θ) erfüllt der Maximum-Likelihoodschätzer die Likelihoodgleichung l(θ) = 0 (4) θ werden (notwendige Bedingung. stationäre Punkte). Der Gradient u(θ) = l(θ) θ wird auch als Score-Statistik oder Scorevektor bezeichnet. (strikte) Konkavität der Zielfunktion an der Stelle θ: J(θ) = 2 l(θ) θ θ T > 0 Manchmal müssen mehrere infragekommende stationäre Punkte verglichen werden. Es gibt allerdings eine Vielzahl von konkaven Log-Likelihoodfunktionen (Log-Konkavität der Likelihoodfunktion).

Maximum-Likelihood: Berechnung In vielen Fällen kann die Likelihood-Gleichung (4) nicht analytisch gelöst werden. In der Praxis werden daher oft Varianten des Newton-Raphson Algorithmus verwendet, um die Gleichung iterativ zu lösen. Beginne mit einem Starwert θ 0 (Newton-Raphson): θ n+1 = θ n + J( θ n ) 1 u( θ n ) (Fisher-Scoring): θ n+1 = θ n + I ( θ n ) 1 u( θ n ) Fisher-Scoring hängt von den Daten nur über die Score-Statistik ab und wird vor allem angewandt, wenn die beobachte Informationsmatrix J schlecht konditioniert, bzw. nicht positiv denit ist.

Maximum-Likelihood: Hints Bei Nicht-Konkavität führen die iterativen Methoden im Allgemeinen nur zu lokalen Maxima. In diesem Fall empehlt es sich, die Optimierung mehrmals mit unterschiedlichen (ev. zufälligen) Startwerte durchzuführen. Die Iteration führt in einem Schritt zum Optimum, falls l(θ) quadratisch ist. Ist der Parameterraum Θ eingeschränkt (Θ R m ), so ist prinzipiell ein Optimierungsproblem mit Nebenbedingungen zu lösen: ˆθ = arg max {L(θ) : θ Θ} Für häuge Nebenbedingungen kann die Berücksichtigung von Nebenbedingungen durch eine passende Reparametrierung geschehen: θ > 0: Reparametrierung durch η = ln(θ) 0 < θ < 1: Reparametrierung durch η = ln ( ) θ 1 θ

Maximum-Likelihood: Eigenschaften Satz Sei X 1,...,X n eine i.i.d. Stichprobe mit gemeinsamer Dichte (WF) f (x;θ). Für eine Funktion g sei η = g(θ) der untersuchte Parameter. Angenommen ˆθ ist der Maximum-Likelihoodschäter für θ. Dann ist ˆη = g( θ) der Maximum-Likelihoodschätzer für η. Denition (Plug-in Prinzip) Sei θ ein Schätzer für den wahren Parameterwert θ 0. Wenn die Funktion g (θ 0 ) durch g( θ) geschätzt wird, wird der resultierende Schätzer als plug-in Schätzer bezeichnet. Plug-in Schätzer die aus Maximum-Likelihoodschätzern abgeleitet werden sind also selbst wiederum Maximum-Likelihoodschätzer.

Maximum-Likelihood und Suzienz Satz Sei X 1,...,X n eine i.i.d. Zufallsstichprobe mit Dichtefunktion (WF) f (x,θ),θ Θ. Wenn eine suziente Statistik Y 1 = u 1 (X 1,...,X n ) für θ existiert, und falls ein eindeutiger Maximum-Likelihoodschätzer ˆθ für θ existiert, dann ist der Maximum-Likelihoodschätzer ˆθ eine Funktion der suzienten Statistik Y 1.

Maximum-Likelihood: Regularitätsbedingungen Zu den Bedingungen (R0)-(R2) kommen noch weitere technische Regularitätsbedingungen dazu, wenn Aussagen für groÿe Stichprobenumfänge (large sample theory, asymptotische Statistik) erzielt werden sollen. (R3) Es gibt eine Umgebung U um den wahren Parameterwert θ 0 in der die ersten drei Ableitungen der Log-Likelihoodfunktion nach θ fast sicher existieren und für jedes (r,s,t) ist [ 1 n E 3 ] l(θ) θr θs θt gleichmäÿig beschränkt für θ Θ. (R4) In U ist die Fisher-Informationsmatrix I (θ) endlich und positiv denit und für die Matrixelemente gilt: [ I (θ) = E r,s 2 ] [ l(θ) l(θ) = E l(θ) ] θr θs θr θs (R5) Integral und Ableitung sind vertauschbar, es gilt insbesondere 2 [ 2 ] l(θ) E[l(θ)] = E θr θs θr θs Im Folgenden betrachten wir stets i.i.d. Stichproben. Wenn die Regularitätsbedingungen (R0)-(R4) gelten, lassen sich die folgenden Sätze in vielen Fällen auch auf Situationen übertragen, in denen die Daten weder identisch noch unabhängig verteilt sind.

Cramér-Rao Schranke Satz Sei die Dichte (WF) f (x; θ) regulär ((R1)-(R5)) für die Maximum-Likelihood Schätzung des eindimensionalen Parameters θ. Wenn T ein unverzerrter Schätzer für den Skalar ψ (θ) ist, dann gilt für alle θ Var [T ] ( ) ψ(θ) 2 θ I (θ) Die rechte Seite der Ungleichung heiÿt auch Cramér-Rao Schranke. Wenn wir einen unverzerrten Schätzer nden mit Var [T ] = ( ψ(θ) θ I (θ) folgt aus dem Theorem, dass es keinen besseren Schätzer geben kann, T also ein MVUE ist. Wenn T einen kleinen Bias hat und die Varianz nahe bei der Cramér-Rao Schranke liegt, wird er zumindest schwer zu übertreen sein. Gleichheit bei endlichem Stichprobenumfang (!) kann nur für bestimmte Familien von Verteilungen gelten, die die Exponentialfamilien enthalten. ) 2,

Cramér-Rao Schranke Satz Sei die Dichte (WF) f (x;θ) regulär ((R1)-(R5)) für die Maximum-Likelihood Schätzung des Parameters θ. Wenn T ein unverzerrter Schätzer für eine dierenzierbare Funktion ψ (θ) ist, dann gilt für alle θ Var [T ] ψ(θ) T I (θ) 1 ψ(θ) θ θ

Maximum-Likelihood: Asymptotische Eigenschaften Satz Sei θ 0 der wahre Parameter. Unter Voraussetzungen (R0), (R1) gilt für alle θ θ 0 lim P θ n 0 [L(θ 0 ;X n ) L(θ;X n )] = 1 Asymptotisch wird die Likelihoodfunktion durch den wahren Parameterwert maximiert.

Maximum-Likelihood: (starke) Konsistenz Satz Sei θ 0 der wahre Wert des Parameters θ. Angenommen die Regularitätsbedingungen (R1)-(R5) gelten. Dann gibt es für n einen Wert ˆθ von θ, so dass l(ˆθ) ein lokales Maximum von l(θ) ist und es gilt ] P [ˆθ θ 0 = 1. Ein Maximum-Likelihoodschätzer ist daher unter den Regularitätsbedingungen ein stark konsistenter Schätzer. Da fast sichere Konvergenz Konvergenz in Wahrscheinlickeit impliziert ist ˆθ auch ein konsistenter Schätzer.

Maximum-Likelihood: asymptotische Verteilung Satz Sei θ 0 der wahre Wert des p-dimensionalen Parameters θ. Angenommen die Regularitätsbedingungen (R1)-(R5) gelten. Unter weiteren Voraussetzungen an die Glattheit der Ableitungen der Log-Likelihood l(θ) gilt ) I (θ 0 ) 2 (ˆθ 1 D θ 0 Z, wenn n. Z hat dabei eine N p (0,I p )-Verteilung, wobei I p die p-dimensionale Einheitsmatrix bezeichnet. Die Bedingung n kann oft durch die Bedingung I (θ 0 ) ersetzt werden. Für groÿen ) Stichprobenumfang ) n gilt also annähernd ˆθ N(θ 0,I (θ 0 ) 1 ) Da J (ˆθ und I (ˆθ beide in Wahrscheinlichkeit gegen I (θ 0 ) konvergieren, kann die Verteilung des Maximum-Likelihoodchätzers asymptotisch durch ˆθ N(θ 0,I (ˆθ) 1 ), bzw. ˆθ N(θ 0,J (ˆθ) 1) angenähert werden.

Maximum-Likelihood: asymptotische Varianz Denition Ein asymptotisch unverzerrter Schätzer T, der die Cramér-Rao Schranke asymptotisch erreicht heiÿt ezient. Satz (Korrolar) Ein Maximum-Likelihoodschätzer ˆθ ist unter den Regularitätsbedingungen und den zusätzlichen Bedingungen aus Theorem 27 asymptotisch erwartungstreu und erreicht asymptotisch die Cramér-Rao Schranke, ist also ezient.

Gliederung 1 Grundlegende Begrie 2 3 4

Schätzgleichungen und Schätzfunktionen ML-Schätzer haben hervorragende asymptotische Eigenschaften, das Verhalten bei kleiner Stichprobengröÿe kann allerdings problematisch sein. Unverzerrte (MVUE) Schätzer haben unter bestimmten Voraussetzungen hervorragende Eigenschaften auch bei kleiner Stichprobengröÿe. Andererseits ist die Menge der unverzerrten Schätzer oft zu klein, um praktisch relevante Schätzer zu liefern. Beide Typen von Schätzern können problematisch sein, wenn die Daten kontaminiert, oder das Modell inkorrekt speziziert ist...

Maximum-Likelihood: Wiederholung Seien X 1,...,X n i.i.d. verteilte Zufallsvariable und gelten die üblichen Regularitätsbedingungen. Der Maximum-Likelihood Schätzer ˆθ für einen px1-dimensionalen Parameter θ ist dann implizit durch die Lösung der Score-Gleichung u (θ) = n i=1 u(x i ;θ) = n i=1 lnf (X i ;θ) θ = 0 gegeben. Für einen p-dimensionalen Parameter ergibt das ein Gleichungssystem mit p Gleichungen und p Variablen. Wichtige Eigenschaften der Score-Statistik sind E[u (θ)] = 0 und Var [u (θ)] = I (θ). Mit i(θ) = Var [u (X i ;θ)] gilt I (θ) = n i(θ)

Schätzfunktionen Denition Sei g eine Funktion R R p R p. Ein Gleichungssystem der Form n i=1 g (X i,θ) = 0 (5) wird Schätzgleichung genannt. Die Funktion g (X i,θ) heiÿt Schätzfunktion. Maximum-Likelihoodgleichung ist ein Sonderfall! Denition Eine Schätzfunktion g heiÿt unverzerrt, wenn E[g (X i,θ)] = n g (y;θ) df (y;θ) = 0 (6)

Schätzfunktionen Denition Sei g eine Funktion R R p R p. Ein Gleichungssystem der Form n i=1 g (X i,θ) = 0 (5) wird Schätzgleichung genannt. Die Funktion g (X i,θ) heiÿt Schätzfunktion. Maximum-Likelihoodgleichung ist ein Sonderfall! Denition Eine Schätzfunktion g heiÿt unverzerrt, wenn E[g (X i,θ)] = n g (y;θ) df (y;θ) = 0 (6)

Momentenschätzer Sei µ der Erwartungswert der zugrundegelegten Verteilung einer Stichprobe. Wähle als Schätzfunktion g(x; µ) = x µ Daraus resultiert die Schätzgleichung x i = n µ, bzw der Schätzer ˆµ = x i n Allgemeiner sei m r = E [X r ] das r-te (nichtzentrale) Moment der zugrundeliegenden Verteilung. Wähle nun als Schätzfunktion x m 1 x 2 m 2 g(x,(m 1,...,m K ) T ) =. x K m K Um beliebige Parameter zu schätzen, drücke in der obigen Schätzgleichung die Momente durch die zu schätzenden Parameter aus und löse die resultierende Schätzgleichung.

Optimalität von Schätzfunktionen Unverzerrteheit der Schätzfunktion ist eine Eigenschaft der Schätzfunktion. Wie gut ist ein Schätzer, der durch eine Schätzfunktion impliziert wird? Denition Eine Schätzfunktion heisst optimal in der Klasse der unverzerrten Schätzfunktionen, wenn sie den Ausdruck Var [g (X ;θ)] minimiert. E [ dg(x ;θ) dθ Es lässt sich zeigen, dass eine untere Schranke existiert: ] 2 i(θ) 1 Var [g (X ;θ)] [ ] dg(x ;θ) 2 E dθ Die Scorefunktion u(y, θ) erreicht diese Schranke (nicht gleichbedeutend mit dem Erreichen der Cramer-Rao Schranke!!) und ist daher eine optimale Schätzfunktion für endliche Stichprobengröÿe.

Das Prinzip gleicher Funktionale Satz Die empirische Verteilungsfunktion der Beobachtungen X 1,...,X n ist durch ˆF (t) = 1 n 1 {xi t} gegeben. Seien X 1,...,X n unabhängige, identisch verteilte Zufallsvariablen mit der Verteilungsfunktion F. Sei weiters ˆFn (x) die entsprechende empirische Verteilungsfunktion. Man deniert als gröÿte Abweichung der empirischen Verteilung von der zu Grunde liegenden Verteilung der Zufallsvariablen bezüglich aller Ausprägungen x d n = sup ˆFn (x) F (x). x Dann gilt, dass die Dierenz d n mit der Wahrscheinlichkeit 1 gegen Null konvergiert: P( lim n d n = 0) = 1.

Anhang Das Prinzip gleicher Funktionale Ist ein Parameter als Lösung einer Funktionalgleichung der Verteilungsfunktion deutbar, so kann es Sinn machen, als Schätzwert die Lösung der gleichen Funktionalgleichung, angewandt auf die empirische Verteilungsfunktion verwenden. θ = G (F θ ( )) ) ˆθ = G ( F ( )

Anhang Weiterführende Literatur Weiterführende Literatur I