Statistik. R. Frühwirth Teil 1: Deskriptive Statistik. Statistik. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und

Transkript

1 Übersicht über die Vorlesung Teil : Deskriptive fru@hephy.oeaw.ac.at VO Teil 2: Wahrscheinlichkeitsrechnung Teil 3: Zufallsvariable und Verteilungen Februar 200 Teil 4: Schätzen von Parametern /388 2/388 Übersicht über die Vorlesung Teil 5: Testen von Hypothesen Teil 6: Regression und lineare Modelle Teil 7: Einführung in die Bayes- Einleitung Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen e Teil Deskriptive Teil 8: Simulation von Experimenten Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 3/388 4/388

2 Grenzverteilungssätze Grenzverteilungssätze Eindimensionale Zufallsvariable Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze F(x) Bi(200,0.) No(20,8) x 285/388 Eindimensionale Zufallsvariable Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze ( für großes n) Da eine gemäß Po(λ) verteilte Zufallsvariable als Summe von λ P ()-verteilten Zufallsvariablen dargestellt werden kann, muss die für λ gegen eine streben. Die Abbildung zeigt die Verteilungsfunktion der Po(λ) mit λ = 25, sowie die Verteilungsfunktion der No(µ, σ 2 ) mit µ = λ = 25 und σ 2 = λ = /388 Grenzverteilungssätze Eindimensionale Zufallsvariable Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Randverteilungen und bedingte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die und verwandte Verteilungen Momente Erwartung Varianz Schiefe Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze F(x) Po(25) N(25,25) x 287/388 n Teil 4 Schätzen von Parametern 288/388

3 Übersicht Teil 4 Abschnitt 3: n n / /388 Unterabschnitt: n n X,..., X n seien unabhängige Zufallsvariable, die alle die gleiche Verteilung F haben. Sie bilden dann eine zufällige Stichprobe der Verteilung F. Eine Zufallsvariable Y = h(x,..., X n ) heißt eine Stichprobenfunktion. In vielen Fällen sind Momente oder die Verteilung von Y zu bestimmen. 29/ /388

4 Unterabschnitt: Definition () n n Das X der Stichprobe X,..., X n ist definiert durch X = X i n Momente des s Hat F das Mittel µ und die Varianz σ 2, gilt: E[X] = µ 2 var[x] = σ2 n 3 Ist F eine, so ist X normalverteilt. 293/ /388 Unterabschnitt: Zentraler Grenzwertsatz n Hat F das Mittel µ und die Varianz σ 2, so konvergiert die Verteilung von U = X µ σ/ n gegen die Standardnormalverteilung. 2 Ist F eine, ist U für alle n standardnormalverteilt. n / /388

5 n Definition () Die S 2 der Stichprobe X,..., X n ist definiert durch S 2 = (X i X) 2 n Erwartung der Hat F die Varianz σ 2, gilt: E[S 2 ] = σ 2 n Satz Ist F eine mit Mittel µ und Varianz σ 2, so gilt: (n )S 2 /σ 2 ist χ 2 -verteilt mit n Freiheitsgraden. 2 X und S 2 sind unabhängig. 3 Die Varianz von S 2 ist gegeben durch 4 Die Größe var[s 2 ] = 2σ4 n T = X µ S/ n ist t-verteilt mit n Freiheitsgraden. 297/ /388 Unterabschnitt: Definition () n n Der X der Stichprobe X,..., X n ist definiert durch X ((n+)/2), n ungerade X = ( ) X(n/2) + X (n/2+), n gerade Momente des s 2 Hat F den Median m und die Dichte f, gilt: lim n E[ X] = m 2 lim n var[ X] = 4 nf 2, wenn f(m) > 0 (m) 3 X ist asymptotisch normalverteilt. 299/ /388

6 Abschnitt 4: Unterabschnitt: n n 3 4 n 5 n 3 4 n 5 30/ /388 n n n Ein ist eine Stichprobenfunktion, die einen möglichst genauen Näherungswert für einen unbekannten Verteilungsparameter ϑ liefern soll: T = g(x,..., X n ) Die Funktion g(x,..., x n ) wird die Schätzfunktion genannt. Die Konstruktion von sinnvollen n für einen Parameter ϑ ist Aufgabe der Schätztheorie. Für einen Parameter ϑ sind viele möglich. Ein guter sollte jedoch gewisse Anforderungen erfüllen. n Definition (Erwartungstreue) Ein T für den Parameter ϑ heißt erwartungstreu oder unverzerrt, wenn für alle zulässigen Werte von ϑ gilt: E ϑ [T ] = ϑ T heißt asymptotisch erwartungstreu, wenn gilt: lim E ϑ[t ] = ϑ n Ist der unbekannte Parameter gleich ϑ, dann ist die Erwartung des s gleich ϑ. Ein erwartungstreuer hat zwar zufällige Abweichungen vom wahren Wert ϑ, aber keine systematische Verzerrung. 303/ /388

7 n n n Definition (MSE) Die mittlere quadratische Abweichung (mean squared error, MSE) eines s T für den Parameter ϑ ist definiert durch: MSE[T ] = E ϑ [(T ϑ) 2 ] Definition (MSE-Konsistenz) Ein T für den Parameter ϑ heißt konsistent im quadratischen Mittel (MSE-konsistent), wenn gilt: lim MSE[T ] = 0 n n Definition (MSE-Effizienz) Ein T heißt MSE-effizienter als der T 2, wenn für alle zulässigen ϑ gilt: Definition (Effizienz) MSE[T ] MSE[T 2 ] Ein erwartungstreuer T heißt effizienter als der erwartungstreue T 2, wenn für alle zulässigen ϑ gilt: var[t ] var[t 2 ] Ein erwartungstreuer T heißt effizient, wenn seine Varianz den kleinsten möglichen Wert annimmt. 305/ /388 n n n Definition (Fisher-Information) Es sei X,..., X n eine Stichprobe mit der gemeinsamen Dichte g(x,..., x n ϑ). Die Erwartung [ ] I ϑ = E 2 ln g(x,..., X n ϑ) ϑ 2 heißt die Fisher-Information der Stichprobe. Satz von Rao und Cramèr Es sei X,..., X n eine Stichprobe mit der gemeinsamen Dichte g(x,..., x n ϑ). Die Varianz eines erwartungstreuen s T für den Parameter ϑ ist nach unten beschränkt durch: var[t ] /I ϑ n Es sei X,..., X n eine Stichprobe aus der Ex(τ). Die gemeinsame Dichte ist dann gleich ( ) g(x,..., x n τ) = τ exp x i/τ n Daraus folgt: [ 2 E ln g(x,..., x n τ) = n ln τ x i/τ 2 τ ln g(x,..., xn τ) = n 2 τ 2 n xi 2 τ 3 ln g(x,..., Xn τ) τ 2 ] = n τ 2 2 nτ τ 3 = n τ 2 307/ /388

8 n Unterabschnitt: (Fortsetzung) n Die Information ist also gleich I τ = n τ 2 Für jeden erwartungstreuen T von τ gilt folglich: var[t ] τ 2 n n 3 4 n 5 309/388 30/388 n Satz Es sei X,..., X n eine Stichprobe aus der Verteilung F mit Erwartung µ. Dann ist das X ein erwartungstreuer von µ. 2 Hat F die endliche Varianz σ 2, so ist X MSE-konsistent. Ist F die No(µ, σ 2 ), so ist X normalverteilt gemäß No(µ, σ 2 /n). Da die Fisher-Information für µ gleich I µ = n/σ 2 ist, ist X effizient für µ. Ist F die Ex(τ), so ist X Gamma-verteilt mit Mittel τ und Varianz τ 2 /n. Da die Fisher-Information für τ gleich I τ = n/τ 2 ist, ist X effizient für τ. n Ist F die Po(λ), hat X Mittel λ und Varianz λ/n. Da die Fisher-Information für λ gleich I λ = n/λ ist, ist X effizient für λ. Ist F die Alternativverteilung Al(p), hat X Mittel p und Varianz p( p)/n. Da die Fisher-Information für p gleich I p = n/[p( p)] ist, ist X effizient für p. 3/388 32/388

9 Unterabschnitt: Satz n 3 4 n 5 n Es sei X,..., X n eine Stichprobe aus der Verteilung F mit Erwartung µ und Varianz σ 2. Dann ist die S 2 ein erwartungstreuer von σ 2. 2 Hat F das endliche vierte zentrale Moment µ 4, so ist var(s 2 ) = µ 4 n (n 3)µ2 2 n(n ) 3 In diesem Fall ist S 2 MSE-konsistent. 33/388 34/388 Unterabschnitt: n Ist F die No(µ, σ 2 ), so ist (n )S 2 /σ 2 χ 2 -verteilt mit n Freiheitsgraden. Die Varianz von S 2 ist dann gleich var(s 2 ) = Die Fisher-Information für σ 2 ist gleich I 2 σ = 2σ4 n n 2σ 4 S 2 ist also ein asymptotisch effizienter für σ 2. n 3 4 n 5 35/388 36/388

10 Satz n Es sei X,..., X n eine Stichprobe aus der stetigen Verteilung F mit Median m und Dichte f. Dann ist der X ein asymptotisch erwartungstreuer von m. 2 Für symmetrisches F ist X erwartungstreu. 3 Der X hat asymptotisch die Varianz var( X) 4nf(m) 2 4 Der ist MSE-konsistent, sofern f(m) > 0. n Es sei X,..., X n eine Stichprobe aus der No(µ, σ 2 ). Die Varianz von X ist gleich var(x) = σ2 n Die Varianz von X ist für großes n gleich var( X) = 2 πσ2 4 n.57 σ2 n Sie ist also um mehr als 50 Prozent größer als die Varianz von X. 37/388 38/388 Unterabschnitt: n Es sei X,..., X n eine Stichprobe aus der t-verteilung t(3). Die Varianz von X ist gleich var(x) = 3 n Die Varianz von X ist für großes n gleich var( X) = 4 nf(0) = n n Sie ist also fast um 40 Prozent kleiner als die Varianz von X. n 3 4 n 5 39/ /388

11 Definition (ML-) (ML-Schätzung eines Bernoulli-Parameters) n Es sei X,..., X n eine Stichprobe mit der gemeinsamen Dichte g(x,..., x n ϑ). Die Funktion L(ϑ X,..., X n ) = g(x,..., X n ϑ) heißt die Likelihoodfunktion der Stichprobe. 2 Der plausible oder ˆϑ ist jener Wert von ϑ, der die Likelihoodfunktion der Stichprobe maximiert. Oft wird statt der Likelihoodfunktion ihr Logarithmus, die Log-Likelihoodfunktion l(ϑ) = ln L(ϑ) maximiert. n Es sei X,..., X n eine Stichprobe aus der Alternativverteilung Al(p). Die gemeinsame Dichte lautet: g(x,..., x n p) = n p x i ( p) x i = p x i ( p) n x i Die Log-Likelihoodfunktion ist daher: ( ) l(p) = X i ln p + n X i ln( p) Ableiten nach p ergibt: l(p) p = p ( X i n p ) X i 32/ /388 (Fortsetzung) (ML-Schätzung eines Poisson-Parameters) n Nullsetzen der Ableitung und Auflösen nach p ergibt: ˆp = n X i = X Der ML- ist unverzerrt und effizient. n Es sei X,..., X n eine Stichprobe aus der Po(λ). Die gemeinsame Dichte lautet: g(x,..., x n λ) = Die Log-Likelihoodfunktion ist daher: l(λ) = Ableiten nach λ ergibt: n λ x i e λ x i! [X i ln λ λ ln(x i!)] l(λ) λ = λ X i n 323/ /388

12 (Fortsetzung) (ML-Schätzung einer mittleren Lebensdauer) n Nullsetzen der Ableitung und Auflösen nach λ ergibt: ˆλ = n X i = X Der ML- ist unverzerrt und effizient. n Es sei X,..., X n eine Stichprobe aus der Ex(τ). Die gemeinsame Dichte lautet: g(x,..., x n τ) = Die Log-Likelihoodfunktion ist daher: Ableiten nach τ ergibt: l(τ) = l(τ) τ n [ ln τ τ = n τ + τ 2 e x i/τ τ X i] X i 325/ /388 (Fortsetzung) (ML-Schätzung der Parameter einer ) n Nullsetzen der Ableitung und Auflösen nach τ ergibt: ˆτ = n X i = X Der ML- ist unverzerrt und effizient. n Es sei X,..., X n eine Stichprobe aus der No(µ, σ 2 ). Die gemeinsame Dichte lautet: g(x,..., x n µ, σ 2 ) = n Die Log-Likelihoodfunktion ist daher: l(µ, σ 2 ) = ] (xi µ)2 exp [ 2πσ 2 σ 2 [ ln 2π 2 ln σ2 Ableiten nach µ und σ 2 ergibt: l(µ, σ 2 ) µ = x i µ σ 2, l(µ, σ 2 ) σ 2 = ] (xi µ)2 2 σ 2 [ ] (xi µ)2 + 2 σ2 2 σ 4 327/ /388

13 n (Fortsetzung) Nullsetzen der Ableitungen und Auflösen nach µ und σ 2 ergibt: ˆµ = n ˆσ 2 = n X i = X (X i X) 2 = n n S2 Der ML- von µ ist unverzerrt und effizient. Der ML- von σ 2 ist asymptotisch unverzerrt und asymptotisch effizient. n Die normierte Likelihoodfunktion kann als a-posteriori Verteilung des geschätzten Parameters interpretiert werden. Für großes n kann man die Varianz der Likelihoodschätzung ˆϑ daher aus dem zweiten zentralen Moment der normierten Likelihoodfunktion ablesen. Ist des geschätzte Parameter ϑ das Mittel einer, so ist diese Vorgangsweise für beliebiges n exakt: [ L(ϑ) = σ n 2 π n exp n ( 2 σ 2 ( ˆϑ ϑ) 2 + )] (xi n ˆϑ) 2 Wird L(ϑ) normiert, so entsteht die Dichte einer mit Mittel ˆϑ und Varianz σ2 n, also gerade die Varianz der Schätzung ˆϑ = n xi. 329/ /388 ( Parameters a einer Gammaverteilung) (Fortsetzung) n Die Stichprobe X,..., X n besteht aus n = 200 Werten, die unabhängig aus einer Γ a,-verteilung gezogen werden: e x i f(x i a) = xa i Γ(a), i =,..., n Der (unbekannte) wahre Wert von a ist a w = 2. Die Log-Likelihoodfunktion lautet ln L(a x) = ln f(x i a) = (a ) ln x i x i n ln Γ(a) n Numerische Maximierung von ln L(a) gibt die Maximum Likelihood-Schätzung â. Das Experiment wird N-mal wiederholt und die Schätzungen der einzelnen Experimente (â (k), k =,..., N) werden histogrammiert. Der Vergleich der individuellen (normierten) Likelihoodfunktion mit dem Histogramm (N = 500) zeigt gute Übereinstimmung der Standardabweichungen. Matlab: make ML gamma 33/ /388

14 Der ML- hat die folgende wichtige Eigenschaft: n Histogram: σ= LF: σ= n Satz Existieren die ersten beiden Ableitungen von L(ϑ), existiert die Information I g (ϑ) für alle ϑ und ist E [(ln L) ] = 0, so ist die Likelihoodschätzung ˆϑ asymptotisch normalverteilt mit Mittel ϑ und Varianz /I g (ϑ). ˆϑ ist daher asymptotisch erwartungstreu und asymptotisch effizient. Satz Daraus folgt sofort die nächste Eigenschaft: Der Likelihoodschätzer ˆϑ ist (unter den selben Voraussetzungen) konsistent. 333/ /388 (ML- Lageparameters einer Cauchyverteilung) Es sei X,..., X n eine Stichprobe aus der Cauchyverteilung t() mit Lageparameter µ. Die gemeinsame Dichte lautet: (Fortsetzung) Man kann zeigen, dass die Fisherinformation der Stichprobe gleich I µ = n 2 n g(x,..., x n µ) = n Die Log-Likelihoodfunktion ist daher: l(µ) = n ln π π[ + (x i µ) 2 ] ln[ + (x i µ) 2 ] Das Maximum ˆµ von l(µ) muss numerisch gefunden werden. Matlab: make ML cauchy n ist. Für große Stichproben muss daher die Varianz des ML-s ˆµ ungefähr gleich 2/n sein. Der x ist ebenfalls ein konsistenter für µ. Seine Varianz ist asymptotisch gleich π 2 /(4n) 2.47/n. Sie ist also um etwa 23 Prozent größer als die Varianz des ML-s. 335/ /388

15 n Simulation von 0000 Stichproben der Größe n = 00: µ= σ= µ=.00 σ= ML Die Korrelation zwischen x und ˆµ ist etwa 90%. n log L(µ) Die Standardabweichung des ML-s kann wieder näherungsweise aus der normierten Likelihoodfunktion einer Stichprobe abgelesen werden: Log Likelihoodfunktion µ L(µ) Normierte Likelihoodfunktion σ= µ 337/ /388 (ML- Obergrenze einer Gleichverteilung) (Fortsetzung) n Es sei X,..., X n eine Stichprobe aus der Gleichverteilung Un(0, b) mit Obergrenze b. Die gemeinsame Dichte lautet: g(x,..., x n b) =, 0 x,..., xn b bn Der größte Wert der Likelihoodfunktion ist daher bei ˆb = max X i i Da ein Randmaximum vorliegt, gelten die üblichen asymptotischen Eigenschaften nicht. n Die Dichte von ˆb = max X i lautet: i f(x) = nxn b n Daraus können Erwartung und Varianz berechnet werden: E[ˆb] = n n +, var[ˆb] b 2 n = (n + 2)(n + ) 2 Der ist asymptotisch erwartungstreu, die Varianz geht aber wie /n 2 gegen Null! Der ist auch nicht asymptotisch normalverteilt. Matlab: make ML uniform 339/ /388

16 Abschnitt 5: n Simulation von 0000 Stichproben (b = ) der Größe n = 25 bzw. n = 00: n=25 µ=0.967 σ= ML n=00 µ= σ= ML n / /388 Unterabschnitt: n n Neben dem Schätzwert selbst ist auch seine Streuung um den wahren Wert von Interesse. Wir wollen aus einer Stichprobe ein Intervall bestimmen, das den wahren Wert mit einer gewissen Wahrscheinlichkeit enthält. Definition (Konfidenzintervall) Es sei X,..., X n eine Stichprobe aus der Verteilung F mit dem unbekannten Parameter ϑ. Ein Intervall mit den Grenzen G = g (X,..., X n ) und G 2 = g 2 (X,..., X n ) heißt ein Konfidenzintervall mit Sicherheit α, wenn gilt: W (G G2) = W (G ϑ G2) α Ein solches Intervall wird kurz als ( α)-konfidenzintervall bezeichnet. 343/ /388

17 Unterabschnitt: n Zu jedem Wert der Sicherheit α gibt es viele verschiedene Konfidenzintervalle. Ist F stetig, gibt es unendlich viele Konfidenzintervalle mit Sicherheit α. Ist F diskret, ist die Sicherheit in der Regel größer als α. Ein symmetrisches Konfidenzintervall liegt vor, wenn gilt: W (ϑ G ) = W (ϑ G 2 ) Ein einseitiges Konfidenzintervall liegt vor, wenn gilt: W (ϑ G 2 ) α oder W (G ϑ) α n / /388 n Es sei Y = h(x,..., X n ) eine Stichprobenfunktion. Die Verteilung G von Y hängt dann ebenfalls vom unbekannten Parameter ϑ ab. Für jeden Wert von ϑ bestimmen wir ein Prognoseintervall [y (ϑ), y 2 (ϑ)] vom Niveau α: W (y (ϑ) Y y 2 (ϑ)) α Ist die Beobachtung gleich Y = y 0, so ist das Konfidenzintervall [G (Y ), G 2 (Y )] gegeben durch: G = min{ϑ y (ϑ) y 0 y 2 (ϑ)} ϑ G2 = max {ϑ y (ϑ) y 0 y 2 (ϑ)} ϑ n Es sei X,..., X n eine Stichprobe aus No(0, σ 2 ) mit unbekannter Varianz σ. Dann ist (n )S 2 /σ 2 χ 2 -verteilt mit n Freiheitsgraden. Für Varianz σ 2 und Y = S 2 ist daher ( ) σ 2 χ 2 α/2,n W S 2 σ2 χ 2 α/2,n = α n n Der Ausdruck in der Klammer kann umgeformt werden zu: Daraus folgt G = (n )S 2 σ 2 (n )S2 χ 2 α/2,n χ 2 α/2,n (n )S2 (n )S2, G χ 2 2 = α/2,n χ 2 α/2,n 347/ /388

18 Unterabschnitt: 0 n σ S 2 Blau: Prognoseintervall für σ 2 = 3; rot: Konfidenzintervall für S 2 = 5 n / /388 n Es sei k eine Beobachtung aus der Bi(n, p). Wir suchen ein Konfidenzintervall für p. Je nach Konstruktion des Prognoseintervalls y (p), y 2 (p) ergeben sich verschiedene Konfidenzintervalle. Intervall nach Clopper und Pearson y (p), y 2 (p) sind die Quantile der Bi(n, p): y (p) = max k y 2 (p) = min k k W (k; n, p) α/2 i=0 W (k; n, p) α/2 i=k n Für die praktische Berechnung des Konfidenzintervalls können die Quantile der Betaverteilung benützt werden: G (k) = max(b α/2,k,n k+, 0) G 2 (k) = min(b α/2,k+,n k, ) Dieses Intervall ist konservativ in dem Sinn, dass die Sicherheit praktisch immer größer als α ist. 35/ /388

19 n Approximation durch Für genügend großes n ist ˆp = k/n annähernd normalverteilt gemäß No(p, p( p)/n). Das Standardscore Z = ˆp p σ[ˆp] ist dann annähernd standardnormalverteilt. Aus folgt W ( z α/2 Z z α/2 ) = α W (ˆp z α/2 σ[ˆp] p ˆp + z α/2 σ[ˆp]) = α n Da p nicht bekannt ist, muss σ[ ˆp] näherungsweise bestimmt werden. Bootstrap-Verfahren: p wird durch ˆp angenähert. Robustes Verfahren: p wird so gewählt, dass σ[ ˆp] maximal ist, also p = 0.5. Korrektur gemäß Agresti-Coull Das Intervall nach dem Bootstrap-Verfahren kann eine kleinere Sicherheit als α haben. Eine Verbesserung wird durch die Definition erzielt. ˆp = k + 2 n / /388 (Fortsetzung) n Angabe: Bei einer Umfrage unter n = 400 Personen geben k = 57 Personen an, Produkt X zu kennen. Wir suchen ein 95%-Konfidenzintervalle für den Bekanntheitsgrad p. Clopper-Pearson: G (k) = B 0.025,57,244 = G 2(k) = B 0.975,58,243 = Approximation durch : Es gilt ˆp = und z =.96. Mit dem Bootstrap-Verfahren ergibt sich σ[ˆp] = Die Grenzen des Konfidenzintervalls sind daher G = = G 2 = = n Mit dem robusten Verfahren ergibt sich σ[ˆp] = und die Grenzen G = = G 2 = = Das robuste Intervall ist nur unwesentlich länger als das Bootstrap-Intervall. Mit der Korrektur von Agresti-Coull ergibt sich ˆp = Die Grenzen des Konfidenzintervalls sind dann Matlab: make KI binomial G = = G 2 = = / /388

20 Unterabschnitt: n α Sicherheit der Konfidenzintervalle Clopper Pearson 0.65 Bootstrap Robust Agresti Coull p n / /388 n Es sei k eine Beobachtung aus der Po(λ). Wir suchen ein Konfidenzintervall für λ. Je nach Konstruktion des Prognoseintervalls [y (λ), y 2 (λ)] ergeben sich verschiedene Konfidenzintervalle. Symmetrisches Intervall y (λ), y 2 (λ) sind die Quantile der Po(λ): y (p) = max k y 2 (p) = min k k W (k; λ) α/2 i=0 W (k; λ) α/2 i=k n Für die praktische Berechnung des Konfidenzintervalls können die Quantile der Gammaverteilung benützt werden: G (k) = Γ α/2,k, G 2 (k) = Γ α/2,k+, Dieses Intervall ist konservativ in dem Sinn, dass die Sicherheit praktisch immer größer als α ist. Liegen n Beobachtungen k,..., k n vor, so ist k = k i Poissonverteilt mit Mittel nλ. Das symmetrische Konfidenzintervall für λ ist daher: G (k) = Γ α/2,k,/n G 2 (k) = Γ α/2,k+,/n 359/ /388

21 n α Sicherheit des symmetrischen Konfidenzintervalls 0.9 n= n=5 n= λ n Linksseitiges Intervall Eine Beobachtung k: y (λ) = 0, Praktische Berechnung: G (k) = 0, y 2 (λ) = min k n Beobachtungen k,..., k n : G (k) = 0, W (k; λ) α i=k G 2 (k) = Γ α,k+, G 2 (k) = Γ α,k+,/n 36/ /388 Unterabschnitt: Sicherheit des linksseitigen Konfidenzintervalls 3 4 n α n= n=5 n= λ n 5 363/ /388

22 n Symmetrisches Intervall für den Mittelwert Es sei X,..., X n eine Stichprobe aus der Ex(τ). Das X = n n X i hat die folgende Dichte: x n ( f(x) = (τ/n) n Γ(n) exp x ) τ/n X ist also Gamma-verteilt gemäß Ga(n, τ/n). Für jedes τ gilt: W ( γ α/2,n,τ/n X γ α/2,n,τ/n ) = α n Daraus folgt ( W γ α/2,n,/n X ) τ γ α/2,n,/n = α und Damit gilt: ( X W τ γ α/2,n,/n G (X) = G 2 (X) = X γ α/2,n,/n X γ α/2,n,/n X γ α/2,n,/n ) = α 365/ /388 Unterabschnitt: Linksseitiges Intervall für den Mittelwert n Für jedes τ gilt: Daraus folgt und W W ( γ α,n,τ/n X ) = α W ( γ α,n,/n X ) = α τ ( 0 τ X γ α,n,/n ) = α Rechtsseitiges Intervall für den Mittelwert ( ) X W τ = α γ α,n,/n n / /388

23 n Konfidenzintervall für den Mittelwert Es sei X,..., X n eine Stichprobe aus der No(µ, σ 2 ). X ist normalverteilt gemäß No(µ, σ 2 /n). Ist σ 2 bekannt, ist das Standardscore Z = X µ σ/ n standardnormalverteilt. Aus W ( z α/2 Z z α/2 ) = α folgt W (X z α/2 σ/ n µ X + z α/2 σ/ n) = α n Ist σ 2 unbekannt, wird σ 2 durch die geschätzt, und das Standardscore T = X µ S/ n ist t-verteilt mit n Freiheitsgraden. Aus folgt W ( t n α/2 T tn α/2 ) = α W (X t n α/2 S/ n µ X + t n α/2 S/ n) = α 369/ /388 n Eine Stichprobe vom Umfang n = 50 aus der Standardnormalverteilung hat das X = und die S 2 = Wird die Varianz als bekannt vorausgesetzt, lautet das symmetrische 95%-Konfidenzintervall für µ: G = / 50 = G 2 = / 50 = Wird die Varianz als unbekannt angenommen, lautet das symmetrische 95%-Konfidenzintervall für µ: G = / 50 = G 2 = / 50 = Matlab: make KI normal n Konfidenzintervall für die Varianz Es sei X,..., X n eine Stichprobe aus der No(µ, σ 2 ). (n )S 2 /σ 2 ist χ 2 -verteilt mit n Freiheitsgraden. Aus folgt W ) 2α/2,n (n )S2 (χ σ 2 χ 2 α/2,n = α W ( (n )S 2 χ 2 σ 2 α/2,n ) (n )S2 χ 2 = α α/2,n 37/ /388

24 Konfidenzintervall für die Differenz von zwei Mittelwerten n Eine Stichprobe vom Umfang n = 50 aus der No(0, 4) hat die S 2 = Das symmetrische 95%-Konfidenzintervall für σ 2 lautet: G = / = G 2 = / = Werden die Quantile der χ 2 -Verteilung χ 2 (n ) durch die Quantile der No(n, 2(n )) ersetzt, laute das Konfidenzintervall: G = / = G 2 = / = Matlab: make KI normal varianz.m n Es seien X,..., X n und Y,..., Y m zwei unabhängige Stichproben aus den en No(µ x, σ 2 x) bzw. No(µ y, σ 2 y). Wir suchen ein Konfidenzintervall für µ x µ y. Die Differenz D = X Y ist normalverteilt gemäß No(µ x µ y, σ 2 ), mit σ 2 D = σ2 x/n + σ 2 y/m. Sind die Varianzen bekannt, ist das Standardscore von D standardnormalverteilt. Aus folgt W ( z α/2 D (µ ) x µ y ) z α/2 = α σ D 373/ /388 Aus n W ( D z α/2 σ D µ x µ y D + z α/2 σ D ) = α Sind die Varianzen unbekannt und gleich, ist S 2 = (n )S2 x + (m )S 2 y n + m 2 χ 2 -verteilt mit m + n 2 Freiheitsgraden. Das Standardscore T = D (µ x µ y ) S D mit S D = S /n + /m ist daher t-verteilt mit n + m 2 Freiheitsgraden. n folgt W ( t α/2,n+m 2 T t α/2,n+m 2 ) = α W ( D t α/2,n+m 2 S D µ x µ y D + t α/2,n+m 2 S D ) = α Eine Stichprobe aus No(2, 4) vom Umfang n = 50 hat X = und S 2 x = ; eine zweite Stichprobe aus No(, 4) vom Umfang m = 25 hat X =.6692 und S 2 x = Werden die Varianzen als bekannt vorausgesetzt, lautet das 95%=Konfidenzintervall für µ x µ y: G = = G 2 = = / /388

25 Unterabschnitt: (Fortsetzung) Werden die Varianzen als unbekannt angenommen, ist S 2 = und S D = Das 95%=Konfidenzintervall für µ x µ y lautet dann: 3 4 n G = = G 2 = =.4935 Matlab: make KI normal difference.m n 5 377/ /388 Es sei X,..., X n eine Stichprobe aus der Verteilung F mit Mittel µ und Varianz σ 2. Aufgrund des zentralen Grenzwertsatzes ist das Standardscore Z des s: Für exponentialverteilte Stichproben vom Umfang n gibt die folgende Tabelle die Sicherheit des 95%-Konfidenzintervalls in Näherung durch, geschätzt aus N = Stichproben: n Z = X µ σ/ n für große Stichproben annähernd normalverteilt. Es gilt also näherungsweise: W (X z α/2 S/ n µ X + z α/2 S/ n) α n n α Matlab: make KI exponential 379/ /388