Statistik. R. Frühwirth Teil 1: Deskriptive Statistik. Statistik. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und

Ähnliche Dokumente
Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/453

6. Schätzverfahren für Parameter

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Modellanpassung. Einführung in die induktive Statistik. Statistik. Statistik. Friedrich Leisch

Einführung in die Induktive Statistik: Schätzen von Parametern und Verteilungen

Wichtige Definitionen und Aussagen

Statistik I für Betriebswirte Vorlesung 14

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Vorlesung: Statistik II für Wirtschaftswissenschaft

FORMELSAMMLUNG STATISTIK B

Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren

Mathematische Statistik Aufgaben zum Üben. Schätzer

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Kapitel 3 Schließende Statistik

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

3 Statistische Schätzungen

OLS-Schätzung: asymptotische Eigenschaften

4.1 Stichproben, Verteilungen und Schätzwerte. N(t) = N 0 e λt, (4.1)

Statistik, Datenanalyse und Simulation

1. Grundbegri e der Stochastik

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Mathematik für Biologen

Statistik I für Betriebswirte Vorlesung 13

Willkommen zur Vorlesung Statistik (Master)

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Biostatistik, Sommer 2017

Mehrdimensionale Zufallsvariablen

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

2.3 Intervallschätzung

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

Fit for Abi & Study Stochastik

3.3 Methoden zur Evaluierung von Schätzern

4. Verteilungen von Funktionen von Zufallsvariablen

Wahrscheinlichkeitsrechnung und schließende Statistik

Willkommen zur Vorlesung Statistik (Master)

2 Aufgaben aus [Teschl, Band 2]

Willkommen zur Vorlesung Statistik (Master)

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Wahrscheinlichkeit und Statistik: Zusammenfassung

Einführung in die Maximum Likelihood Methodik

Statistik und Wahrscheinlichkeitsrechnung

Einführung in die Statistik

Korollar 116 (Grenzwertsatz von de Moivre)

Statistics, Data Analysis, and Simulation SS 2017

Chi-Quadrat-Verteilung

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung

Diskrete Wahrscheinlichkeitstheorie

Statistik. Andrej Depperschmidt. Sommersemester 2016

Spezielle stetige Verteilungen

2.3 Intervallschätzung

Zufallsvariablen [random variable]

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

Statistische Intervalle

Biostatistik, Winter 2011/12

Statistik. R. Frühwirth Teil 1: Deskriptive Statistik. Statistik. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Einführung in die Statistik

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Schätzung des Lageparameters einer symmetrischen Verteilung

5. Spezielle stetige Verteilungen

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Statistische Methoden in den Umweltwissenschaften

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

Wirtschaftsmathematik

Die Momentenmethode. Vorteil: Oft einfach anwendbar. Nachteil: Güte kann nur schwer allgemein beurteilt werden; liefert zum Teil unbrauchbare

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6

4.2 Methoden um Tests zu finden: Likelihood Quotienten Tests (LRT) Falls X 1,..., X n iid aus f(x θ), so gilt für die Likelihood Funktion

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft

1.3 Wiederholung der Konvergenzkonzepte

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

7.2 Moment und Varianz

Wahrscheinlichkeitsrechnung und Statistik

Wahrscheinlichkeitsverteilungen

5. Elemente Statistischer Inferenz

Teil IX. Verteilungen an Daten anpassen ( Maximum-Likelihood-Schätzung. fitten ) Woche 7: Maximum-Likelihood-Schätzung. Lernziele

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Satz 105 (Gedächtnislosigkeit) Beweis: Sei X exponentialverteilt mit Parameter λ. Dann gilt Pr[X > x + y X > y] = Pr[X > y] Pr[X > x + y] = Pr[X > y]

Schätzung von Parametern

3 Stetige Zufallsvariablen

Übungen zur Vorlesung Statistische Methoden Kapitel 1-2

Lösungen zu Übungsblatt 9 Höhere Mathematik2/Stochastik 2 Master KI/PI

13 Grenzwertsätze Das Gesetz der großen Zahlen

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

Klausur zu Statistik II

Vorlesung: Statistik II für Wirtschaftswissenschaft

Einführung in Quantitative Methoden

8. Stetige Zufallsvariablen

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

2.2 Punktschätzung. Gegeben sei die in Kapitel 2.1 beschriebene Situation, also eine i.i.d. Stichprobe X 1,...,X n eines Merkmales X.

Der Erwartungswert E[g(X)] von g(x) ist definiert. g(x k )w(x = x k ),

3 Grundlagen statistischer Tests (Kap. 8 IS)

Die Varianz (Streuung) Definition

2 Induktive Statistik

Transkript:

Übersicht über die Vorlesung Teil : Deskriptive fru@hephy.oeaw.ac.at VO 42.090 http://tinyurl.com/tu42090 Teil 2: Wahrscheinlichkeitsrechnung Teil 3: Zufallsvariable und Verteilungen Februar 200 Teil 4: Schätzen von Parametern /388 2/388 Übersicht über die Vorlesung Teil 5: Testen von Hypothesen Teil 6: Regression und lineare Modelle Teil 7: Einführung in die Bayes- Einleitung Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen e Teil Deskriptive Teil 8: Simulation von Experimenten Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 3/388 4/388

Grenzverteilungssätze Grenzverteilungssätze Eindimensionale Zufallsvariable Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze F(x) 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. Bi(200,0.) No(20,8) 0 0 5 0 5 20 25 30 35 40 x 285/388 Eindimensionale Zufallsvariable Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze ( für großes n) Da eine gemäß Po(λ) verteilte Zufallsvariable als Summe von λ P ()-verteilten Zufallsvariablen dargestellt werden kann, muss die für λ gegen eine streben. Die Abbildung zeigt die Verteilungsfunktion der Po(λ) mit λ = 25, sowie die Verteilungsfunktion der No(µ, σ 2 ) mit µ = λ = 25 und σ 2 = λ = 25. 286/388 Grenzverteilungssätze Eindimensionale Zufallsvariable Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze F(x) 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. Po(25) N(25,25) 0 0 5 0 5 20 25 30 35 40 45 50 x 287/388 n Teil 4 Schätzen von Parametern 288/388

Übersicht Teil 4 Abschnitt 3: n 3 4 5 n 3 4 5 289/388 290/388 Unterabschnitt: n 3 4 5 n X,..., X n seien unabhängige Zufallsvariable, die alle die gleiche Verteilung F haben. Sie bilden dann eine zufällige Stichprobe der Verteilung F. Eine Zufallsvariable Y = h(x,..., X n ) heißt eine Stichprobenfunktion. In vielen Fällen sind Momente oder die Verteilung von Y zu bestimmen. 29/388 292/388

Unterabschnitt: Definition () n 3 4 5 n Das X der Stichprobe X,..., X n ist definiert durch X = X i n Momente des s Hat F das Mittel µ und die Varianz σ 2, gilt: E[X] = µ 2 var[x] = σ2 n 3 Ist F eine, so ist X normalverteilt. 293/388 294/388 Unterabschnitt: Zentraler Grenzwertsatz n Hat F das Mittel µ und die Varianz σ 2, so konvergiert die Verteilung von U = X µ σ/ n gegen die Standardnormalverteilung. 2 Ist F eine, ist U für alle n standardnormalverteilt. n 3 4 5 295/388 296/388

n Definition () Die S 2 der Stichprobe X,..., X n ist definiert durch S 2 = (X i X) 2 n Erwartung der Hat F die Varianz σ 2, gilt: E[S 2 ] = σ 2 n Satz Ist F eine mit Mittel µ und Varianz σ 2, so gilt: (n )S 2 /σ 2 ist χ 2 -verteilt mit n Freiheitsgraden. 2 X und S 2 sind unabhängig. 3 Die Varianz von S 2 ist gegeben durch 4 Die Größe var[s 2 ] = 2σ4 n T = X µ S/ n ist t-verteilt mit n Freiheitsgraden. 297/388 298/388 Unterabschnitt: Definition () n 3 4 5 n Der X der Stichprobe X,..., X n ist definiert durch X ((n+)/2), n ungerade X = ( ) X(n/2) + X (n/2+), n gerade Momente des s 2 Hat F den Median m und die Dichte f, gilt: lim n E[ X] = m 2 lim n var[ X] = 4 nf 2, wenn f(m) > 0 (m) 3 X ist asymptotisch normalverteilt. 299/388 300/388

Abschnitt 4: Unterabschnitt: n n 3 4 n 5 n 3 4 n 5 30/388 302/388 n n n Ein ist eine Stichprobenfunktion, die einen möglichst genauen Näherungswert für einen unbekannten Verteilungsparameter ϑ liefern soll: T = g(x,..., X n ) Die Funktion g(x,..., x n ) wird die Schätzfunktion genannt. Die Konstruktion von sinnvollen n für einen Parameter ϑ ist Aufgabe der Schätztheorie. Für einen Parameter ϑ sind viele möglich. Ein guter sollte jedoch gewisse Anforderungen erfüllen. n Definition (Erwartungstreue) Ein T für den Parameter ϑ heißt erwartungstreu oder unverzerrt, wenn für alle zulässigen Werte von ϑ gilt: E ϑ [T ] = ϑ T heißt asymptotisch erwartungstreu, wenn gilt: lim E ϑ[t ] = ϑ n Ist der unbekannte Parameter gleich ϑ, dann ist die Erwartung des s gleich ϑ. Ein erwartungstreuer hat zwar zufällige Abweichungen vom wahren Wert ϑ, aber keine systematische Verzerrung. 303/388 304/388

n n n Definition (MSE) Die mittlere quadratische Abweichung (mean squared error, MSE) eines s T für den Parameter ϑ ist definiert durch: MSE[T ] = E ϑ [(T ϑ) 2 ] Definition (MSE-Konsistenz) Ein T für den Parameter ϑ heißt konsistent im quadratischen Mittel (MSE-konsistent), wenn gilt: lim MSE[T ] = 0 n n Definition (MSE-Effizienz) Ein T heißt MSE-effizienter als der T 2, wenn für alle zulässigen ϑ gilt: Definition (Effizienz) MSE[T ] MSE[T 2 ] Ein erwartungstreuer T heißt effizienter als der erwartungstreue T 2, wenn für alle zulässigen ϑ gilt: var[t ] var[t 2 ] Ein erwartungstreuer T heißt effizient, wenn seine Varianz den kleinsten möglichen Wert annimmt. 305/388 306/388 n n n Definition (Fisher-Information) Es sei X,..., X n eine Stichprobe mit der gemeinsamen Dichte g(x,..., x n ϑ). Die Erwartung [ ] I ϑ = E 2 ln g(x,..., X n ϑ) ϑ 2 heißt die Fisher-Information der Stichprobe. Satz von Rao und Cramèr Es sei X,..., X n eine Stichprobe mit der gemeinsamen Dichte g(x,..., x n ϑ). Die Varianz eines erwartungstreuen s T für den Parameter ϑ ist nach unten beschränkt durch: var[t ] /I ϑ n Es sei X,..., X n eine Stichprobe aus der Ex(τ). Die gemeinsame Dichte ist dann gleich ( ) g(x,..., x n τ) = τ exp x i/τ n Daraus folgt: [ 2 E ln g(x,..., x n τ) = n ln τ x i/τ 2 τ ln g(x,..., xn τ) = n 2 τ 2 n xi 2 τ 3 ln g(x,..., Xn τ) τ 2 ] = n τ 2 2 nτ τ 3 = n τ 2 307/388 308/388

n Unterabschnitt: (Fortsetzung) n Die Information ist also gleich I τ = n τ 2 Für jeden erwartungstreuen T von τ gilt folglich: var[t ] τ 2 n n 3 4 n 5 309/388 30/388 n Satz Es sei X,..., X n eine Stichprobe aus der Verteilung F mit Erwartung µ. Dann ist das X ein erwartungstreuer von µ. 2 Hat F die endliche Varianz σ 2, so ist X MSE-konsistent. Ist F die No(µ, σ 2 ), so ist X normalverteilt gemäß No(µ, σ 2 /n). Da die Fisher-Information für µ gleich I µ = n/σ 2 ist, ist X effizient für µ. Ist F die Ex(τ), so ist X Gamma-verteilt mit Mittel τ und Varianz τ 2 /n. Da die Fisher-Information für τ gleich I τ = n/τ 2 ist, ist X effizient für τ. n Ist F die Po(λ), hat X Mittel λ und Varianz λ/n. Da die Fisher-Information für λ gleich I λ = n/λ ist, ist X effizient für λ. Ist F die Alternativverteilung Al(p), hat X Mittel p und Varianz p( p)/n. Da die Fisher-Information für p gleich I p = n/[p( p)] ist, ist X effizient für p. 3/388 32/388

Unterabschnitt: Satz n 3 4 n 5 n Es sei X,..., X n eine Stichprobe aus der Verteilung F mit Erwartung µ und Varianz σ 2. Dann ist die S 2 ein erwartungstreuer von σ 2. 2 Hat F das endliche vierte zentrale Moment µ 4, so ist var(s 2 ) = µ 4 n (n 3)µ2 2 n(n ) 3 In diesem Fall ist S 2 MSE-konsistent. 33/388 34/388 Unterabschnitt: n Ist F die No(µ, σ 2 ), so ist (n )S 2 /σ 2 χ 2 -verteilt mit n Freiheitsgraden. Die Varianz von S 2 ist dann gleich var(s 2 ) = Die Fisher-Information für σ 2 ist gleich I 2 σ = 2σ4 n n 2σ 4 S 2 ist also ein asymptotisch effizienter für σ 2. n 3 4 n 5 35/388 36/388

Satz n Es sei X,..., X n eine Stichprobe aus der stetigen Verteilung F mit Median m und Dichte f. Dann ist der X ein asymptotisch erwartungstreuer von m. 2 Für symmetrisches F ist X erwartungstreu. 3 Der X hat asymptotisch die Varianz var( X) 4nf(m) 2 4 Der ist MSE-konsistent, sofern f(m) > 0. n Es sei X,..., X n eine Stichprobe aus der No(µ, σ 2 ). Die Varianz von X ist gleich var(x) = σ2 n Die Varianz von X ist für großes n gleich var( X) = 2 πσ2 4 n.57 σ2 n Sie ist also um mehr als 50 Prozent größer als die Varianz von X. 37/388 38/388 Unterabschnitt: n Es sei X,..., X n eine Stichprobe aus der t-verteilung t(3). Die Varianz von X ist gleich var(x) = 3 n Die Varianz von X ist für großes n gleich var( X) = 4 nf(0) =.8506 0.62 3 2 n n Sie ist also fast um 40 Prozent kleiner als die Varianz von X. n 3 4 n 5 39/388 320/388

Definition (ML-) (ML-Schätzung eines Bernoulli-Parameters) n Es sei X,..., X n eine Stichprobe mit der gemeinsamen Dichte g(x,..., x n ϑ). Die Funktion L(ϑ X,..., X n ) = g(x,..., X n ϑ) heißt die Likelihoodfunktion der Stichprobe. 2 Der plausible oder ˆϑ ist jener Wert von ϑ, der die Likelihoodfunktion der Stichprobe maximiert. Oft wird statt der Likelihoodfunktion ihr Logarithmus, die Log-Likelihoodfunktion l(ϑ) = ln L(ϑ) maximiert. n Es sei X,..., X n eine Stichprobe aus der Alternativverteilung Al(p). Die gemeinsame Dichte lautet: g(x,..., x n p) = n p x i ( p) x i = p x i ( p) n x i Die Log-Likelihoodfunktion ist daher: ( ) l(p) = X i ln p + n X i ln( p) Ableiten nach p ergibt: l(p) p = p ( X i n p ) X i 32/388 322/388 (Fortsetzung) (ML-Schätzung eines Poisson-Parameters) n Nullsetzen der Ableitung und Auflösen nach p ergibt: ˆp = n X i = X Der ML- ist unverzerrt und effizient. n Es sei X,..., X n eine Stichprobe aus der Po(λ). Die gemeinsame Dichte lautet: g(x,..., x n λ) = Die Log-Likelihoodfunktion ist daher: l(λ) = Ableiten nach λ ergibt: n λ x i e λ x i! [X i ln λ λ ln(x i!)] l(λ) λ = λ X i n 323/388 324/388

(Fortsetzung) (ML-Schätzung einer mittleren Lebensdauer) n Nullsetzen der Ableitung und Auflösen nach λ ergibt: ˆλ = n X i = X Der ML- ist unverzerrt und effizient. n Es sei X,..., X n eine Stichprobe aus der Ex(τ). Die gemeinsame Dichte lautet: g(x,..., x n τ) = Die Log-Likelihoodfunktion ist daher: Ableiten nach τ ergibt: l(τ) = l(τ) τ n [ ln τ τ = n τ + τ 2 e x i/τ τ X i] X i 325/388 326/388 (Fortsetzung) (ML-Schätzung der Parameter einer ) n Nullsetzen der Ableitung und Auflösen nach τ ergibt: ˆτ = n X i = X Der ML- ist unverzerrt und effizient. n Es sei X,..., X n eine Stichprobe aus der No(µ, σ 2 ). Die gemeinsame Dichte lautet: g(x,..., x n µ, σ 2 ) = n Die Log-Likelihoodfunktion ist daher: l(µ, σ 2 ) = ] (xi µ)2 exp [ 2πσ 2 σ 2 [ ln 2π 2 ln σ2 Ableiten nach µ und σ 2 ergibt: l(µ, σ 2 ) µ = x i µ σ 2, l(µ, σ 2 ) σ 2 = ] (xi µ)2 2 σ 2 [ ] (xi µ)2 + 2 σ2 2 σ 4 327/388 328/388

n (Fortsetzung) Nullsetzen der Ableitungen und Auflösen nach µ und σ 2 ergibt: ˆµ = n ˆσ 2 = n X i = X (X i X) 2 = n n S2 Der ML- von µ ist unverzerrt und effizient. Der ML- von σ 2 ist asymptotisch unverzerrt und asymptotisch effizient. n Die normierte Likelihoodfunktion kann als a-posteriori Verteilung des geschätzten Parameters interpretiert werden. Für großes n kann man die Varianz der Likelihoodschätzung ˆϑ daher aus dem zweiten zentralen Moment der normierten Likelihoodfunktion ablesen. Ist des geschätzte Parameter ϑ das Mittel einer, so ist diese Vorgangsweise für beliebiges n exakt: [ L(ϑ) = σ n 2 π n exp n ( 2 σ 2 ( ˆϑ ϑ) 2 + )] (xi n ˆϑ) 2 Wird L(ϑ) normiert, so entsteht die Dichte einer mit Mittel ˆϑ und Varianz σ2 n, also gerade die Varianz der Schätzung ˆϑ = n xi. 329/388 330/388 ( Parameters a einer Gammaverteilung) (Fortsetzung) n Die Stichprobe X,..., X n besteht aus n = 200 Werten, die unabhängig aus einer Γ a,-verteilung gezogen werden: e x i f(x i a) = xa i Γ(a), i =,..., n Der (unbekannte) wahre Wert von a ist a w = 2. Die Log-Likelihoodfunktion lautet ln L(a x) = ln f(x i a) = (a ) ln x i x i n ln Γ(a) n Numerische Maximierung von ln L(a) gibt die Maximum Likelihood-Schätzung â. Das Experiment wird N-mal wiederholt und die Schätzungen der einzelnen Experimente (â (k), k =,..., N) werden histogrammiert. Der Vergleich der individuellen (normierten) Likelihoodfunktion mit dem Histogramm (N = 500) zeigt gute Übereinstimmung der Standardabweichungen. Matlab: make ML gamma 33/388 332/388

Der ML- hat die folgende wichtige Eigenschaft: n 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. Histogram: σ=0.08575 LF: σ=0.08502 0.5.6.7.8.9 2 2. 2.2 2.3 2.4 2.5 n Satz Existieren die ersten beiden Ableitungen von L(ϑ), existiert die Information I g (ϑ) für alle ϑ und ist E [(ln L) ] = 0, so ist die Likelihoodschätzung ˆϑ asymptotisch normalverteilt mit Mittel ϑ und Varianz /I g (ϑ). ˆϑ ist daher asymptotisch erwartungstreu und asymptotisch effizient. Satz Daraus folgt sofort die nächste Eigenschaft: Der Likelihoodschätzer ˆϑ ist (unter den selben Voraussetzungen) konsistent. 333/388 334/388 (ML- Lageparameters einer Cauchyverteilung) Es sei X,..., X n eine Stichprobe aus der Cauchyverteilung t() mit Lageparameter µ. Die gemeinsame Dichte lautet: (Fortsetzung) Man kann zeigen, dass die Fisherinformation der Stichprobe gleich I µ = n 2 n g(x,..., x n µ) = n Die Log-Likelihoodfunktion ist daher: l(µ) = n ln π π[ + (x i µ) 2 ] ln[ + (x i µ) 2 ] Das Maximum ˆµ von l(µ) muss numerisch gefunden werden. Matlab: make ML cauchy n ist. Für große Stichproben muss daher die Varianz des ML-s ˆµ ungefähr gleich 2/n sein. Der x ist ebenfalls ein konsistenter für µ. Seine Varianz ist asymptotisch gleich π 2 /(4n) 2.47/n. Sie ist also um etwa 23 Prozent größer als die Varianz des ML-s. 335/388 336/388

n Simulation von 0000 Stichproben der Größe n = 00: 400 200 000 800 600 400 200 µ=0.9998 σ=0.588 0 0 0.5.5 2 500 000 500 µ=.00 σ=0.435 0 0 0.5.5 2 ML Die Korrelation zwischen x und ˆµ ist etwa 90%. n log L(µ) Die Standardabweichung des ML-s kann wieder näherungsweise aus der normierten Likelihoodfunktion einer Stichprobe abgelesen werden: 0 5 0 5 20 25 30 Log Likelihoodfunktion 35 0 0.5.5 2 µ L(µ) 3.5 3 2.5 2.5 0.5 Normierte Likelihoodfunktion σ=0.34 0 0 0.5.5 2 µ 337/388 338/388 (ML- Obergrenze einer Gleichverteilung) (Fortsetzung) n Es sei X,..., X n eine Stichprobe aus der Gleichverteilung Un(0, b) mit Obergrenze b. Die gemeinsame Dichte lautet: g(x,..., x n b) =, 0 x,..., xn b bn Der größte Wert der Likelihoodfunktion ist daher bei ˆb = max X i i Da ein Randmaximum vorliegt, gelten die üblichen asymptotischen Eigenschaften nicht. n Die Dichte von ˆb = max X i lautet: i f(x) = nxn b n Daraus können Erwartung und Varianz berechnet werden: E[ˆb] = n n +, var[ˆb] b 2 n = (n + 2)(n + ) 2 Der ist asymptotisch erwartungstreu, die Varianz geht aber wie /n 2 gegen Null! Der ist auch nicht asymptotisch normalverteilt. Matlab: make ML uniform 339/388 340/388

Abschnitt 5: n Simulation von 0000 Stichproben (b = ) der Größe n = 25 bzw. n = 00: 2500 2000 500 000 500 0 n=25 µ=0.967 σ=0.03632 0.8.2 ML 7000 6000 5000 4000 3000 2000 000 0 n=00 µ=0.9902 σ=0.009755 0.8.2 ML n 3 4 5 34/388 342/388 Unterabschnitt: n 3 4 5 n Neben dem Schätzwert selbst ist auch seine Streuung um den wahren Wert von Interesse. Wir wollen aus einer Stichprobe ein Intervall bestimmen, das den wahren Wert mit einer gewissen Wahrscheinlichkeit enthält. Definition (Konfidenzintervall) Es sei X,..., X n eine Stichprobe aus der Verteilung F mit dem unbekannten Parameter ϑ. Ein Intervall mit den Grenzen G = g (X,..., X n ) und G 2 = g 2 (X,..., X n ) heißt ein Konfidenzintervall mit Sicherheit α, wenn gilt: W (G G2) = W (G ϑ G2) α Ein solches Intervall wird kurz als ( α)-konfidenzintervall bezeichnet. 343/388 344/388

Unterabschnitt: n Zu jedem Wert der Sicherheit α gibt es viele verschiedene Konfidenzintervalle. Ist F stetig, gibt es unendlich viele Konfidenzintervalle mit Sicherheit α. Ist F diskret, ist die Sicherheit in der Regel größer als α. Ein symmetrisches Konfidenzintervall liegt vor, wenn gilt: W (ϑ G ) = W (ϑ G 2 ) Ein einseitiges Konfidenzintervall liegt vor, wenn gilt: W (ϑ G 2 ) α oder W (G ϑ) α n 3 4 5 345/388 346/388 n Es sei Y = h(x,..., X n ) eine Stichprobenfunktion. Die Verteilung G von Y hängt dann ebenfalls vom unbekannten Parameter ϑ ab. Für jeden Wert von ϑ bestimmen wir ein Prognoseintervall [y (ϑ), y 2 (ϑ)] vom Niveau α: W (y (ϑ) Y y 2 (ϑ)) α Ist die Beobachtung gleich Y = y 0, so ist das Konfidenzintervall [G (Y ), G 2 (Y )] gegeben durch: G = min{ϑ y (ϑ) y 0 y 2 (ϑ)} ϑ G2 = max {ϑ y (ϑ) y 0 y 2 (ϑ)} ϑ n Es sei X,..., X n eine Stichprobe aus No(0, σ 2 ) mit unbekannter Varianz σ. Dann ist (n )S 2 /σ 2 χ 2 -verteilt mit n Freiheitsgraden. Für Varianz σ 2 und Y = S 2 ist daher ( ) σ 2 χ 2 α/2,n W S 2 σ2 χ 2 α/2,n = α n n Der Ausdruck in der Klammer kann umgeformt werden zu: Daraus folgt G = (n )S 2 σ 2 (n )S2 χ 2 α/2,n χ 2 α/2,n (n )S2 (n )S2, G χ 2 2 = α/2,n χ 2 α/2,n 347/388 348/388

Unterabschnitt: 0 n σ 2 9 8 7 6 5 4 3 2 0 0 2 4 6 8 0 S 2 Blau: Prognoseintervall für σ 2 = 3; rot: Konfidenzintervall für S 2 = 5 n 3 4 5 349/388 350/388 n Es sei k eine Beobachtung aus der Bi(n, p). Wir suchen ein Konfidenzintervall für p. Je nach Konstruktion des Prognoseintervalls y (p), y 2 (p) ergeben sich verschiedene Konfidenzintervalle. Intervall nach Clopper und Pearson y (p), y 2 (p) sind die Quantile der Bi(n, p): y (p) = max k y 2 (p) = min k k W (k; n, p) α/2 i=0 W (k; n, p) α/2 i=k n Für die praktische Berechnung des Konfidenzintervalls können die Quantile der Betaverteilung benützt werden: G (k) = max(b α/2,k,n k+, 0) G 2 (k) = min(b α/2,k+,n k, ) Dieses Intervall ist konservativ in dem Sinn, dass die Sicherheit praktisch immer größer als α ist. 35/388 352/388

n Approximation durch Für genügend großes n ist ˆp = k/n annähernd normalverteilt gemäß No(p, p( p)/n). Das Standardscore Z = ˆp p σ[ˆp] ist dann annähernd standardnormalverteilt. Aus folgt W ( z α/2 Z z α/2 ) = α W (ˆp z α/2 σ[ˆp] p ˆp + z α/2 σ[ˆp]) = α n Da p nicht bekannt ist, muss σ[ ˆp] näherungsweise bestimmt werden. Bootstrap-Verfahren: p wird durch ˆp angenähert. Robustes Verfahren: p wird so gewählt, dass σ[ ˆp] maximal ist, also p = 0.5. Korrektur gemäß Agresti-Coull Das Intervall nach dem Bootstrap-Verfahren kann eine kleinere Sicherheit als α haben. Eine Verbesserung wird durch die Definition erzielt. ˆp = k + 2 n + 4 353/388 354/388 (Fortsetzung) n Angabe: Bei einer Umfrage unter n = 400 Personen geben k = 57 Personen an, Produkt X zu kennen. Wir suchen ein 95%-Konfidenzintervalle für den Bekanntheitsgrad p. Clopper-Pearson: G (k) = B 0.025,57,244 = 0.3443 G 2(k) = B 0.975,58,243 = 0.4423 Approximation durch : Es gilt ˆp = 0.3925 und z 0.975 =.96. Mit dem Bootstrap-Verfahren ergibt sich σ[ˆp] = 0.0244. Die Grenzen des Konfidenzintervalls sind daher G =0.3925.96 0.0244 = 0.3446 G 2 =0.3925 +.96 0.0244 = 0.4404 n Mit dem robusten Verfahren ergibt sich σ[ˆp] = 0.025 und die Grenzen G =0.3925.96 0.025 = 0.3435 G 2 =0.3925 +.96 0.025 = 0.445 Das robuste Intervall ist nur unwesentlich länger als das Bootstrap-Intervall. Mit der Korrektur von Agresti-Coull ergibt sich ˆp = 0.3936. Die Grenzen des Konfidenzintervalls sind dann Matlab: make KI binomial G =0.3936.96 0.0244 = 0.3457 G 2 =0.3936 +.96 0.0244 = 0.444 355/388 356/388

Unterabschnitt: n α 0.95 0.9 0.85 0.8 0.75 0.7 Sicherheit der Konfidenzintervalle Clopper Pearson 0.65 Bootstrap Robust Agresti Coull 0.6 0 0. 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 p n 3 4 5 357/388 358/388 n Es sei k eine Beobachtung aus der Po(λ). Wir suchen ein Konfidenzintervall für λ. Je nach Konstruktion des Prognoseintervalls [y (λ), y 2 (λ)] ergeben sich verschiedene Konfidenzintervalle. Symmetrisches Intervall y (λ), y 2 (λ) sind die Quantile der Po(λ): y (p) = max k y 2 (p) = min k k W (k; λ) α/2 i=0 W (k; λ) α/2 i=k n Für die praktische Berechnung des Konfidenzintervalls können die Quantile der Gammaverteilung benützt werden: G (k) = Γ α/2,k, G 2 (k) = Γ α/2,k+, Dieses Intervall ist konservativ in dem Sinn, dass die Sicherheit praktisch immer größer als α ist. Liegen n Beobachtungen k,..., k n vor, so ist k = k i Poissonverteilt mit Mittel nλ. Das symmetrische Konfidenzintervall für λ ist daher: G (k) = Γ α/2,k,/n G 2 (k) = Γ α/2,k+,/n 359/388 360/388

n α 0.99 0.98 0.97 0.96 0.95 0.94 0.93 0.92 Sicherheit des symmetrischen Konfidenzintervalls 0.9 n= n=5 n=25 0.9 0 0 20 30 40 50 60 70 80 90 00 λ n Linksseitiges Intervall Eine Beobachtung k: y (λ) = 0, Praktische Berechnung: G (k) = 0, y 2 (λ) = min k n Beobachtungen k,..., k n : G (k) = 0, W (k; λ) α i=k G 2 (k) = Γ α,k+, G 2 (k) = Γ α,k+,/n 36/388 362/388 Unterabschnitt: 0.99 0.98 Sicherheit des linksseitigen Konfidenzintervalls 3 4 n α 0.97 0.96 0.95 0.94 0.93 0.92 0.9 n= n=5 n=25 0.9 0 0 20 30 40 50 60 70 80 90 00 λ n 5 363/388 364/388

n Symmetrisches Intervall für den Mittelwert Es sei X,..., X n eine Stichprobe aus der Ex(τ). Das X = n n X i hat die folgende Dichte: x n ( f(x) = (τ/n) n Γ(n) exp x ) τ/n X ist also Gamma-verteilt gemäß Ga(n, τ/n). Für jedes τ gilt: W ( γ α/2,n,τ/n X γ α/2,n,τ/n ) = α n Daraus folgt ( W γ α/2,n,/n X ) τ γ α/2,n,/n = α und Damit gilt: ( X W τ γ α/2,n,/n G (X) = G 2 (X) = X γ α/2,n,/n X γ α/2,n,/n X γ α/2,n,/n ) = α 365/388 366/388 Unterabschnitt: Linksseitiges Intervall für den Mittelwert n Für jedes τ gilt: Daraus folgt und W W ( γ α,n,τ/n X ) = α W ( γ α,n,/n X ) = α τ ( 0 τ X γ α,n,/n ) = α Rechtsseitiges Intervall für den Mittelwert ( ) X W τ = α γ α,n,/n n 3 4 5 367/388 368/388

n Konfidenzintervall für den Mittelwert Es sei X,..., X n eine Stichprobe aus der No(µ, σ 2 ). X ist normalverteilt gemäß No(µ, σ 2 /n). Ist σ 2 bekannt, ist das Standardscore Z = X µ σ/ n standardnormalverteilt. Aus W ( z α/2 Z z α/2 ) = α folgt W (X z α/2 σ/ n µ X + z α/2 σ/ n) = α n Ist σ 2 unbekannt, wird σ 2 durch die geschätzt, und das Standardscore T = X µ S/ n ist t-verteilt mit n Freiheitsgraden. Aus folgt W ( t n α/2 T tn α/2 ) = α W (X t n α/2 S/ n µ X + t n α/2 S/ n) = α 369/388 370/388 n Eine Stichprobe vom Umfang n = 50 aus der Standardnormalverteilung hat das X = 0.0540 und die S 2 =.0987. Wird die Varianz als bekannt vorausgesetzt, lautet das symmetrische 95%-Konfidenzintervall für µ: G =0.0540.96/ 50 = 0.2232 G 2 =0.0540 +.96/ 50 = 0.332 Wird die Varianz als unbekannt angenommen, lautet das symmetrische 95%-Konfidenzintervall für µ: G =0.0540 2.0.0482/ 50 = 0.2439 G 2 =0.0540 + 2.0.0482/ 50 = 0.359 Matlab: make KI normal n Konfidenzintervall für die Varianz Es sei X,..., X n eine Stichprobe aus der No(µ, σ 2 ). (n )S 2 /σ 2 ist χ 2 -verteilt mit n Freiheitsgraden. Aus folgt W ) 2α/2,n (n )S2 (χ σ 2 χ 2 α/2,n = α W ( (n )S 2 χ 2 σ 2 α/2,n ) (n )S2 χ 2 = α α/2,n 37/388 372/388

Konfidenzintervall für die Differenz von zwei Mittelwerten n Eine Stichprobe vom Umfang n = 50 aus der No(0, 4) hat die S 2 = 4.3949. Das symmetrische 95%-Konfidenzintervall für σ 2 lautet: G =49 4.3949/70.2224 = 3.0667 G 2 =49 4.3949/3.5549 = 6.8246 Werden die Quantile der χ 2 -Verteilung χ 2 (n ) durch die Quantile der No(n, 2(n )) ersetzt, laute das Konfidenzintervall: G =49 4.3949/68.4027 = 3.483 G 2 =49 4.3949/29.5973 = 7.2760 Matlab: make KI normal varianz.m n Es seien X,..., X n und Y,..., Y m zwei unabhängige Stichproben aus den en No(µ x, σ 2 x) bzw. No(µ y, σ 2 y). Wir suchen ein Konfidenzintervall für µ x µ y. Die Differenz D = X Y ist normalverteilt gemäß No(µ x µ y, σ 2 ), mit σ 2 D = σ2 x/n + σ 2 y/m. Sind die Varianzen bekannt, ist das Standardscore von D standardnormalverteilt. Aus folgt W ( z α/2 D (µ ) x µ y ) z α/2 = α σ D 373/388 374/388 Aus n W ( D z α/2 σ D µ x µ y D + z α/2 σ D ) = α Sind die Varianzen unbekannt und gleich, ist S 2 = (n )S2 x + (m )S 2 y n + m 2 χ 2 -verteilt mit m + n 2 Freiheitsgraden. Das Standardscore T = D (µ x µ y ) S D mit S D = S /n + /m ist daher t-verteilt mit n + m 2 Freiheitsgraden. n folgt W ( t α/2,n+m 2 T t α/2,n+m 2 ) = α W ( D t α/2,n+m 2 S D µ x µ y D + t α/2,n+m 2 S D ) = α Eine Stichprobe aus No(2, 4) vom Umfang n = 50 hat X = 2.080 und S 2 x = 4.3949; eine zweite Stichprobe aus No(, 4) vom Umfang m = 25 hat X =.6692 und S 2 x = 5.2220. Werden die Varianzen als bekannt vorausgesetzt, lautet das 95%=Konfidenzintervall für µ x µ y: G =0.4388.96 0.4899 = 0.523 G 2 =0.4388 +.96 0.4899 =.3990 375/388 376/388

Unterabschnitt: (Fortsetzung) Werden die Varianzen als unbekannt angenommen, ist S 2 = 4.6668 und S D = 0.5292. Das 95%=Konfidenzintervall für µ x µ y lautet dann: 3 4 n G =0.4388.993 0.5292 = 0.658 G 2 =0.4388 +.993 0.5292 =.4935 Matlab: make KI normal difference.m n 5 377/388 378/388 Es sei X,..., X n eine Stichprobe aus der Verteilung F mit Mittel µ und Varianz σ 2. Aufgrund des zentralen Grenzwertsatzes ist das Standardscore Z des s: Für exponentialverteilte Stichproben vom Umfang n gibt die folgende Tabelle die Sicherheit des 95%-Konfidenzintervalls in Näherung durch, geschätzt aus N = 20000 Stichproben: n Z = X µ σ/ n für große Stichproben annähernd normalverteilt. Es gilt also näherungsweise: W (X z α/2 S/ n µ X + z α/2 S/ n) α n n 25 50 00 200 400 α 0.92 0.9289 0.9408 0.9473 0.9476 Matlab: make KI exponential 379/388 380/388