3.2 Methoden zum Auffinden von Schätzern

Ähnliche Dokumente
4.2 Methoden um Tests zu finden: Likelihood Quotienten Tests (LRT) Falls X 1,..., X n iid aus f(x θ), so gilt für die Likelihood Funktion

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

3.3 Methoden zur Evaluierung von Schätzern

1.4 Stichproben aus einer Normalverteilung

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

1.2 Summen von Zufallsvariablen aus einer Zufallsstichprobe

Kapitel 3 Schließende Statistik

2 Klassische statistische Verfahren unter Normalverteilungs-Annahme

2. Prinzipien der Datenreduktion

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Varianzkomponentenschätzung

Wiederholung: Transformationsformel für Dichten

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

LS-Schätzer. SSE(β) = (y µ) t (y µ) = y t y 2β t X t y + β t X t Xβ. Minimiere SSE(β) bzgl. β: Minimum definiert durch

Vorlesung 12a. Schätzen von Parametern. Teil 2

Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung

Statistik. Andrej Depperschmidt. Sommersemester 2016

Stochastik Praktikum Parametrische Schätztheorie

Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren

1.3 Wiederholung der Konvergenzkonzepte

5 Allgemeine Verfahren zum Testen von Hypothesen

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Wahrscheinlichkeitsrechnung und Statistik

Wichtige Definitionen und Aussagen

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Statistik I für Betriebswirte Vorlesung 13

Statistik I für Betriebswirte Vorlesung 13

6. Schätzverfahren für Parameter

Statistik. R. Frühwirth Teil 1: Deskriptive Statistik. Statistik. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und

i =1 i =2 i =3 x i y i 4 0 1

Lösung Übungsblatt 5

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Multivariate Verteilungen. Gerhard Tutz LMU München

13 Grenzwertsätze Das Gesetz der großen Zahlen

2.3 Intervallschätzung

1. Eigenschaften einer Zufallsstichprobe

FORMELSAMMLUNG STATISTIK B

Biostatistik, Sommer 2017

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Schätzer und Konfidenzintervalle

Vorlesung: Lineare Modelle

Teil IX. Verteilungen an Daten anpassen ( Maximum-Likelihood-Schätzung. fitten ) Woche 7: Maximum-Likelihood-Schätzung. Lernziele

2 Invarianz. 2.1 Definitionen

Mathematische Statistik Aufgaben zum Üben. Schätzer

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Review)

Diskrete Wahrscheinlichkeitstheorie

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Einführung in die statistische Testtheorie II

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

5. Stichproben und Statistiken

Vorlesung 13a. Schätzen von Parametern. Teil 2

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Statistik I für Betriebswirte Vorlesung 14

3.2 Maximum-Likelihood-Schätzung

OLS-Schätzung: asymptotische Eigenschaften

1.8 Mehrdimensionale Zufallsvariablen

Formelsammlung Schließende Statistik

3.4 Bayes-Verfahren Begrifflicher Hintergrund. Satz 3.22 (allgemeines Theorem von Bayes)

Lineare Regression. Kapitel Regressionsgerade

Diskrete Zufallsvariablen (Forts.) I

Diskrete Zufallsvariablen (Forts.) I

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

FORMELSAMMLUNG STATISTIK B

2.3 Intervallschätzung

1 Erwartungswert und Kovarianzmatrix von Zufallsvektoren

11.4 Korrelation. Def. 44 Es seien X 1 und X 2 zwei zufällige Variablen, für die gilt: 0 < σ X1,σ X2 < +. Dann heißt der Quotient

Formelsammlung zur Vorlesung: Einführung in die Bayes-Statistik

3 Statistische Schätzungen

Fortgeschrittene Ökonometrie: Maximum Likelihood

Wahrscheinlichkeit und Statistik: Zusammenfassung

Einführung in die Induktive Statistik: Schätzen von Parametern und Verteilungen

Y = g 2 (U 1,U 2 ) = 2 ln U 1 sin 2πU 2

Schriftliche Prüfung (2 Stunden)

Grundidee. χ 2 Tests. Ausgangspunkt: Klasseneinteilung der Beobachtungen in k Klassen. Grundidee. Annahme: Einfache Zufallsstichprobe (X 1,..., X n ).

Aufgabe (12 Punkte) Sei A A eine σ-algebra. (a) Man zeige: Ist X : Ω R A -messbar, dann ist X A-messbar. (b) Gilt die Umkehrung von (a)?

Numerische Methoden der Bayes-Inferenz. Helga Wagner Bayes Statistik WS 2010/11 338

Institut für Stochastik Prof. Dr. N. Henze Dipl.-Math. V. Riess

Zusammenfassung: Kapitel 5, Zusammenhangsmaße

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Statistics, Data Analysis, and Simulation SS 2015

f(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212

Pseude-Likelihood-Methode

2 Aufgaben aus [Teschl, Band 2]

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Statistics, Data Analysis, and Simulation SS 2017

5. Spezielle stetige Verteilungen

Nachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester Oktober 2011

Bootstrap: Punktschätzung

Musterlösung der Klausur vom 29. Juli 2003

Wahrscheinlichkeitstheorie und Statistik vom

Das empirische VaR bzw. CVaR

2.Tutorium Multivariate Verfahren

Einführung in die Maximum Likelihood Methodik

y = b 0 + b 1 x 1 x 1 ε 1. ε n b + b 1 1 x n 2) Hat die Größe x einen Einfluss auf y, d.h. gilt die Hypothese: H : b 1 = 0

Transkript:

3. Methoden zu Auffinden von Schätzern Manchal ist es sehr einfach, intuitiv zu entscheiden, wie ein Paraeter geschätzt werden soll. Für gewöhnlich ist es sinnvoll, einen Paraeter durch dessen Stichprobenversion zu schätzen. So ist das Stichprobenittel eine gute Schätzung für das Populationsittel. Für koplexere Modelle werden generelle Methoden benötigt, u Paraeter zu schätzen. Wir diskutieren nun die Moentenethode, Maxiu Likelihood Schätzer, und Bayes Schätzer. 3..1 Die Moentenethode Dies ist das älteste Verfahren (Karl Pearson, Ende des 19. Jahrhunderts) und auch sehr einfach in der Anwendung. Oftals liefert diese Methode jedoch Schätzer die noch verbessert werden üssen. 88

Sei X 1,...,X n eine Stichprobe aus der Population f(x θ 1,...,θ k ). Schätzer nach der Moentenethode findet an, inde an die ersten k Stichprobenoente j denerstenk Populationsoentenµ j gleichsetztunddiesesgleichungssyste siultan löst. Definiere epirische und theoretische Moente ( u Null ) 1 = 1 n = 1 n k = 1 n Xi 1, µ 1 = E(X 1 ) Xi, µ = E(X ). Xi k, µ k = E(X k ) Die µ j sind typischerweise Funktionen der Paraeter, also µ j = µ j (θ 1,...,θ k ). 89

Die Moentenschätzer ( θ 1,..., θ k ) erhält an daher durch Lösen von 1 = µ 1( θ 1,..., θ k ) = µ ( θ 1,..., θ k ). k = µ k( θ 1,..., θ k ) 90

Beispiel 3..1: Seien X 1,...,X n iid Noral(µ,σ ), µ und σ unbekannt. 1 = 1 n = 1 n X i, µ 1 = µ Xi, µ = σ +µ. Daher lösen wir nach ( µ, σ ). Dies liefert X = µ und 1 n Xi = σ + µ µ = X und σ = 1 n Xi X = 1 n (X i X). 91

Beispiel 3..: Seien X 1,...,X n iid Binoial(k,p), wobei sowohl p als auch k unbekannte Paraeter sind. Dieses Modell wird beispielsweise zur Schätzung von Dunkelziffern bei Verbrechensraten oder Epideien eingesetzt. Dann beschreibt p die Meldewahrscheinlichkeit und k die tatsächliche Anzahl. Wegen E(X) = kp und var(x) = E(X ) E (X) = kp(1 p) folgt 1 n X = k p i X i = k p(1 p)+( k p) also und soit 1 p = 1 n p = 1 X i X i X X ( X 1 n = 1 n i (X i X) X ) (X i X) i 9

Weiters ergibt sich wegen k = X/ p noch k = X 1 n X i (X i X) Interessanterweise gilt auch hier p = X k was de Schätzer X/k (relative Häufigkeit) bei k bekannt entspricht. Dies sind nicht die bestöglichen Schätzer. In der Praxis kann k, und soit auch p, auch negativ sein. Dies ist gerade dann der Fall wenn X < S n gilt, also wenn eine große Datenvariabilität vorherrscht. Der Bereich der Schätzer stit hier nicht it de zulässigen Bereich der Paraeter überein! 93

Die Moentenethode kann jedoch sehr wertvoll bei der Approxiation der Verteilung von Statistiken sein (oent atching). Hierbei werden die Moente von Verteilungen angeglichen. Theoretisch können die Moente der Verteilung einer beliebigen Statistik jenen einer beliebigen Verteilung angeglichen werden. In der Praxis wird an jedoch ähnliche Verteilungen dazu heranziehen. Beispiel 3..3 (Satterthwaite Approxiation): Betrachte zwei unabhängige iid Zufallsstichproben X 1,...,X n, Y 1,...,Y it X i Noral(µ,σX ), Y iid j Noral(µ,σY ). Wir wollen die Verteilung von X Y studieren und erhalten dafür X Y σ X n + σ Y Noral(0,1). Die Paraeter σ X und σ Y sind unbekannt. 94

Wie schon bei der Definition der t-verteilung werden diese durch Schätzer ersetzt. Die Schätzer SX und S Y sind erwartungstreu für σ X und σ Y und es gilt Y 1 = (n 1)S X/σ X χ n 1 und Y = ( 1)S Y/σ Y χ 1. Es ist daher nahe liegend, die Größe S X n + S Y σx n + σ Y = a 1 Y 1 +a Y näher zu betrachten, wobei a 1 = 1 σx nn 1 σx n + σ Y, a = 1 σy 1 σx n + σ Y. 95

Wir untersuchen also, wie die Linearkobination von unabhängigen χ -verteilten Variablen verteilt ist, zuindest approxiativ. ind Es ist bekannt, dass für die Sue von unabhängigen Y i χ r i, i = 1,...,k, gilt k Y i χ i r. i Satterthwaite interessierte sich für die Verteilung einer gewichteten Sue und nah an, dass dafür approxiativ gilt k a i Y i χ ν ν. 96

Da X von S X und Y von S Y unabhängig sind, kann die Verteilung von X Y σ X n + σ Y S X n + S Y σ X n + σ Y = X Y S X n + S Y = Noral(0,1) χ ν /ν durch eine t ν -Verteilung approxiiert werden. Den Freiheitsgrad ν schätzt an it der Moentenethode. Da E(χ ν/ν) = 1 uss ( k ) E a i Y i = k a i E(Y i ) = k a i r i = 1. Dies liefert nur eine Bedingung an die a i, jedoch keine Schätzung von ν. Beerke, dass diese für unseren Fall a 1 (n 1)+a ( 1) = 1 erfüllt ist. 97

Wir betrachten nun auch das zweite Moent und erhalten die notwendige Übereinstiung E ( k ) ( )! χ ( ) a i Y i = E ν χ = var ν ν ν +E ( χ ν ν ) = ν ν + ν ν = ν +1. Dies liefert nun ν = E( i a iy i ) 1. Schätzt an das zweite theoretische Moent u Null ittels Moentenethode, d.h. an lässt den Erwartungswert einfach weg, so folgt ν = ( i a iy i ) 1, ein Schätzer der auch negativ werden kann und daher nicht ier brauchbar ist. 98

Satterthwaite ging weiter und studierte i nächsten Schritt das Verhalten von ( ) E a iy i = var i ( i a iy i )+E ( ) i a iy i [ = E ( ) a var( ] i iy a iy i ) i i E ( i a iy i ) +1 = var( i a iy i ) E ( i a iy i ) +1. Die letzte Identität resultiert aus der Bedingung E( i a iy i ) = 1. Wir verwenden noch einal E( i a iy i ) = ν +1 und erhalten die Identität var( i a iy i ) E ( i a iy i ) +1 = ν +1 ν = ( E i a iy i ) var( i a iy i ). 99

Da E(Y i ) = r i und wir schreiben können var(y i ) = r i = E (Y i )/r i, folgt ( k ) var a i Y i = k a ivar(y i ) = k a ie (Y i )/r i. Moentenschätzung bedeutet wiederu Weglassen der Erwartungswerte. Dadurch resultiert ( k ) a i Y i ν = k a i Yi r i was nun ier positiv und noch heutzutage weit verbreitet ist., 100

Für das otivierende Beispiel it r 1 = n 1, r = 1 und a 1 = 1 σx nn 1 σx n + σ Y, a = 1 σy 1 σx n + σ Y, sowie Y 1 = (n 1)S X /σ X, Y = ( 1)S Y /σ Y gilt a 1 r 1 Y 1 = 1 σx 4 n (n 1) ( σ ) X n + σ Y 1 n 1 (n 1) S 4 X σ 4 X = SX 4 1 n n 1 ( σ ) X n + σ Y a r Y = SY 4 1 1 ( σ ). X + σ Y 101

Soit ist der Nenner von ν a i r i Y i = SX 4 1 n n 1 + S4 Y 1 1 ( σ ). X + σ Y Weiters ist a 1 Y 1 = 1 σx nn 1 (n 1)SX σ X n + σ Y σ X = S X n σ X n + σ Y a Y = S Y σ X n + σ Y. 10

Für den Zähler von ν resultiert daher ( ) a i Y i = ( ) S X n + S Y ( σ ). X n + σ Y Soit folgt für den Freiheitsgrad der von σ X und σ Y unabhängige Schätzer ν = ( ) S X n + S Y SX 4 1 n n 1 + S4 Y 1 1. 103

3.. Maxiu Likelihood Schätzer Dieses Verfahren ist sehr populär. Sei X 1,...,X n eine Zufallsstichprobe it Dichte- oder Wahrscheinlichkeitsfunktion f(x θ 1,...,θ k ), dann ist die Likelihood Funktion definiert durch L(θ x) = L(θ 1,...,θ k x 1,...,x n ) = n f(x i θ). Definition 3..1: Für jeden Stichprobenpunkt x sei ˆθ(x) ein Paraeterwert für den die Likelihood Funktion L(θ x) ihr Maxiu in θ für festes x erreicht. Der Maxiu Likelihood Schätzer (MLE) für den Paraeter θ basierend auf die Stichprobe X ist ˆθ(X). Beerkung: Diese Konstruktionsethode sichert, dass der Bereich des MLE identisch ist it de Bereich des Paraeters. 104

Proble: Maxiiere eine Funktion. Das globale Maxiu ist zu finden und es ist zu prüfen, ob dies auch wirklich das globale Maxiu ist. Falls L(θ x) differenzierbar in θ j, dann sind die öglichen Kandidaten für den MLE jene Werte von θ j für die gilt θ j L(θ x) = 0, j = 1,...,k. Dies ist eine notwendige Bedingung aber nicht hinreichend! Dait findet an nur stationäre Stellen i Inneren des Definitionsbereiches von L(θ x). Falls Extreu a Rand auftritt, dann kann diese Ableitung dort auch ungleich Null sein. Deshalb uss dieser Rand separat geprüft werden. Die Ableitung ist Null für lokale oder globale Minia oder Maxia oder für Wendepunkte. 105

Beispiel 3..4 (Noral Likelihood): X 1,...,X n iid Noral(θ,1), θ R, n L(θ x) = (π) 1/ exp [ [ 1 (x i θ) ] = (π) n/ exp 1 ] (x i θ). Weiters resultiert und es gilt θ L(θ x) = (π) n/ exp [ 1 [ (x i θ) ]( ) 1 ] (x i θ) n L(θ x) = 0 θ (x i θ) = 0 ˆθ = 1 n X i = X. Dies ist die einzige Lösung von i (x i θ) = 0 und soit Kandidat für den MLE. 106

Weiters ist die zweite Ableitung [ n n [ [ θ L(θ x)=(π) (x i θ)] exp 1 (x i θ) ]+exp [ ] [ n =(π) n exp 1 (x i θ) (x i θ)] n }{{} >0 } {{ } = n in ˆθ = x 1 (x i θ) ]( n) negativ in ˆθ = x. Soit ist der einzige Extrewert i Inneren, x, ein Maxiu. Ist x ein globales Maxiu? Dazu üssen die Ränder geprüft werden. Nun ist li L(θ x) = li L(θ x) = 0 θ θ + und x daher auch globales Maxiu und soit der MLE! 107

Alternativ gilt it Satz 1..1 (a) (x i θ) (x i x) it Gleichheit nur für θ = x. Dait gilt für jedes θ R exp [ 1 und X ist der MLE für θ. ] [ (x i θ) exp 1 ] (x i x) Beerkung: Es ist fast ier einfacher it log(l(θ x)) zu arbeiten, der Log- Likelihood Funktion. Dies ist öglich, da die log-funktion onoton wachsend in (0, ) ist. Daher hat L(θ x) dieselben Extrea wie log(l(θ x)). 108

Beispiel 3..5 (Bernoulli MLE): Seien X 1,...,X n iid Bernoulli(p) Variablen, jetzt it 0 p 1. Hierfür gilt L(p x) = n p x i (1 p) 1 x i = p i x i (1 p) i (1 xi). Mit y = i x i, 0 y n, folgt dafür L(p x) = p y (1 p) n y, bzw. logl(p x) = ylogp+(n y)log(1 p). Sei 0 < y < n: Dies ist Null wenn p logl(p x) = y p n y 1 p. y(1 ˆp) = (n y)ˆp ˆp = y n. 109

Wegen p logl(p x) = y p n y (1 p) < 0 in ˆp = y/n ist ˆp eine Maxialstelle. Da L(0 x) = L(1 x) = 0, ist es ein globales Maxiu. Sei y {0,n}: logl(p x) = { nlog(1 p) falls y = 0 (onoton in p ˆp = 0 = y/n) nlogp falls y = n (onoton in p ˆp = 1 = y/n) Also ist der MLE für p generell (für alle y) ˆp = X = 1 n X i. Soit ist auch der Paraeterrau 0 p 1 äquivalent it de Bereich für den MLE, 0 ˆp 1. 110

Beispiel 3..4 Fortsetzung: Seien X 1,...,X n iid Noral(θ,1), und sei θ 0 (Restricted Range Noral Likelihood). Maxiiere nur über den eingeschränkten Bereich θ 0 der Paraeterwerte! Mit 0 < c 0 folgt als Likelihood Funktion [ ] L(θ x) = c 0 exp (x i θ), für θ 0 1 Da exp [ 1 n (x i θ) ] = exp ( 1 n x i) exp ( 1 nθ +nθx ), folgt L(θ x) = c 1 (x)exp ( 1 nθ +nθx ), für θ 0, it 0 < c 1 (x). Falls x 0: wie vorher gezeigt resultiert MLE ˆθ = X, aber für x < 0 ist L(θ x) onoton fallend in θ für θ 0 und soit axial in ˆθ = 0. Restricted MLE: ˆθ = { X falls X 0 0 falls X < 0. 111

Invarianzprinzip des MLE Die Population ist durch den Paraeter θ indiziert. Wir sind aber interessiert, eine Funktion von θ, z.b. τ(θ), zu schätzen. Die Invarianzeigenschaft ist eine nützliche Eigenschaft von MLEs und sagt aus, dass der MLE von τ(θ) gerade τ(ˆθ) ist, wobei ˆθ den MLE von θ bezeichnet. Ist die Abbildung θ τ(θ) eineindeutig (für jeden Wert von θ gibt es einen eindeutigen Wert von τ(θ) und ugekehrt), gibt es kein Proble. Dann acht es keinen Unterschied ob wir die Likelihood Funktion als Funktion in θ oder in τ(θ) axiieren. Wir bekoen in beiden Fällen dasselbe Ergebnis. 11

Sei dazu η = τ(θ), und die Funktion τ( ) eineindeutig. Dann ist die inverse Funktion τ 1 (η) = θ definiert und die Likelihood Funktion zu τ(θ) (als Funktion in η geschrieben) ist L (η x) = n f(x i τ 1 (η)) = L(τ 1 (η) x). Soit folgt auch sup η L (η x) = sup η L(τ 1 (η) x) = sup θ L(θ x) und das Maxiu von L (η x) wird in η = τ(θ) = τ(ˆθ) angenoen. Also ist der MLE von τ(θ) gerade τ(ˆθ). 113

Jedoch tauchen technische Problee auf, falls die Abbildung θ τ(θ) nicht eineindeutig ist, z.b. τ(θ 1 ) = τ(θ ) = η für θ 1 θ. Wollen wir z.b. θ, das Quadrat eines Populationsittel, schätzen, so ist die Abbildung θ θ nicht eineindeutig. Hier ist es notwendig, für τ(θ) eine allgeeinere Definition der Likelihood Funktion zu verwenden, die für τ(θ) definierte induzierte Likelihood Funktion L (η x) = sup L(θ x) {θ:τ(θ)=η} Den Wert ˆη, der L (η x) axiiert, nennt an MLE von η = τ(θ), und es ist ersichtlich, dass die Maxia von L (η x) und von L(θ x) übereinstien. 114

Satz 3..1: (Invarianzeigenschaft des MLE) Falls ˆθ der MLE von θ ist, dann ist für jede beliebige Funktion τ(θ) der MLE τ(ˆθ). Beerkungen: Verwendet an das Invarianzprinzip, so ist es sofort klar, dass z.b. der MLE von µ gleich X ist. Oder für die Standardabweichungeiner Binoial(n,p) Verteilung resultiert als MLE nˆp(1 ˆp) it der relativen Häufigkeit ˆp. Natürlich hält das Invarianzprinzip auch i ultivariaten Fall. So ist der MLE von τ(θ 1,...,θ k ) gleich τ(ˆθ 1,..., ˆθ k ). Ist θ ultivariat, dann uss zur Berechnung des MLEs eine Funktion in ehreren Variablen axiiert werden. Ist die Likelihood Funktion differenzierbar, so entspricht das Nullsetzen aller partiellen Ableitungen nur der notwendigen Bedingung für ein Extreu i Inneren. U zu prüfen, ob es sich dabei u ein Maxiu handelt uss die Matrix aller zweiten Ableitungen bestit werden was häufig sehr aufwendig ist. Eine sukzessive Maxiierung ist dann gewöhnlich einfacher. 115

Beispiel 3..6: Seien X 1,...,X n iid Noral(µ,σ ), it µ und σ unbekannt. [ ] L(µ,σ x) = (πσ ) n/ exp 1 σ (x i µ) logl(µ,σ x) = n log(π) n log(σ ) 1 σ Als partielle Ableitungen erhält an µ logl(µ,σ x) = 1 σ (x i µ) x) = n 1 σ logl(µ,σ σ + 1 σ 4 Nullsetzen liefert ˆµ = x und ˆσ = 1 n (x i ˆµ). (x i µ) (x i µ) 116

Prüfen, ob dies ein globales Maxiu ist. Wegen (x i µ) (x i x) folgt für einen beliebigen Wert von σ > 0 (πσ ) n/ exp [ 1 σ ] [ (x i x) (πσ ) n/ exp 1 σ ] (x i µ). Die linke Seite nennt an Profile-Likelihood Funktion für σ. Sie hängt nur noch von σ ab. Die Maxiierung wurde daher auf ein eindiensionales Proble reduziert. 117

Es verbleibt zu prüfen, ob L P (σ x) = (σ ) n/ exp ein globales Maxiu hat in ˆσ = 1 n gilt, ist ( [ 1 σ ] (x i x) i (x i x). Da für diesen Ter li L P (σ x) = li L P (σ x) = 0 σ 0 σ X, 1 n ) (X i X) der MLE von (µ,σ ) unter Annahe einer Noralverteilung. 118