Teil 3: Schließende Statistik

Transkript

1 Teil 3: Schließende Statistik Grundfragen der schließenden Statistik 1. Welcher Parameter passt am besten zu den Beobachtungen? 2. Welche Parameterwerte sind mit den Beobachtungen vereinbar? 3. Sind die Beobachtungen mit einem bestimmten Parameterwert vereinbar? Die statistischen Methoden, die auf diese drei Fragen eine Antwort geben, heißen (1) Punktschätzungen (Kap. 9) (2) Intervallschätzungen (Kap. 9) (3) Tests (ab Kap. 10) StatBio 218

2 9 Schätzung von Parametern 9.1 Punkt und Intervallschätzungen 9.2 Konfidenzintervall für einen Mittelwert 9.3 Konfidenzintervall zum Vergleich zweier Mittelwerte 9.4 Die Bedeutung des Stichprobenumfangs 9.5 Konfidenzintervall für einen Anteilswert 9.6 Konfidenzintervall zum Vergleich zweier Anteilswerte Die folgenden Aussagen setzen wieder eine einfache Stichprobe x 1,..., x n voraus (,,Ziehen mit Zurücklegen aus einer homogenen Grundgesamtheit). Diese Aussagen können in der Praxis auch für solche Stichproben übernommen werden, die durch,, Ziehung ohne Zurücklegen gewonnen wurden. Für den Auswahlsatz muss dann nur gelten: n/n StatBio 219

3 9.1 Punkt und Intervallschätzungen Von einer Punktschätzung spricht man, wenn man sich auf die Bestimmung eines Zahlenwertes als Schätzwert für einen Parameter beschränkt. Einer (einfachen) Stichprobe x 1,..., x n wird ein Zahlenwert zugeordnet. Dieser Zahlenwert heißt eine Punktschätzung (point estimation). Plausible Schätzungen für Parameter sind empirische Maßzahlen. Beispiele: (i) Schätzung ˆµ für den Populations Mittelwert µ: der empirische Mittelwert n ˆµ = x = 1 n i=1 x i StatBio 220

4 (ii) Schätzung ˆσ 2 für die Populations Varianz σ 2 : die empirische Varianz ˆσ 2 = s 2 = 1 n 1 n (x i x) 2 i=1 Es gibt verschiedene Gütekriterien für Punktschätzer. Ein Kriterium ist die Unverzerrtheit (Erwartungstreue) einer Punktschätzung:,,Im Mittel schätzt man das Richtige. Empirischer Mittelwert und empirische Varianz sind unverzerrte Schätzungen. Bemerkung: Auf weitere Gütekriterien wie Konsistenz und Effizienz soll hier nicht näher eingegangen werden. Punktschätzungen haben einen entscheidenden Nachteil: Sie machen keine Aussagen über den StatBio 221

5 Schätzfehler. Wie,,weit ist das empirische Stichprobenmittel x von µ entfernt, x µ =? Beachte: x ist ausgesprochen selten gleich µ. Intuitiv ist klar, dass eine Punktschätzung um so genauer sein wird, je größer der Stichprobenumfang ist. Aus theoretischen Überlegungen ist bekannt (Abschnitt 6.3), dass zufallsbedingt ein Fehler in der Größenordnung ESEM = s n zu erwarten ist. Plausible Schätzwerte für µ sind demnach alle Werte des Intervalls ( x s n, x + s ) n StatBio 222

6 also alle Werte zwischen der unteren Grenze = x s/ n und der oberen Grenze = x + s/ n Einer Stichprobe wird somit ein ganzes Intervall von Parameterwerten zugeordnet, die alle,,plausibel (d.h.,,mit den Daten verträglich ) sind. Man spricht von einer Intervallschätzung. Frage: Wie gut ist die,,intervallschätzung? Präziser gefragt: Mit welcher Zuverlässigkeit liegt µ in einem solchen Intervall? Wenn alle Zufallsstichproben (gleichen Umfangs) gezogen werden, dann ist der Anteil der daraus berechneten Intervalle, die den Parameter µ enthalten, eine geeignete Maßzahl für die Zuverlässigkeit, dass ein konkretes Intervall (basierend auf einer einzigen, konkret vorliegenden StatBio 223

7 Stichprobe) den Parameter µ enthält, vgl. die Ausführungen nach Tabelle 6.5. Der Anteil der Intervalle, die µ enthalten, für die also x s < µ < x + n s n gilt, ist gleich dem Anteil der studentisierten Stichprobenmittel, die zwischen 1 und 1 liegen: 1 < x µ s/ n < 1 Dieser Anteil ist annähernd gleich der Wahrscheinlichkeit, dass ein N(0, 1) verteiltes Merkmal Z Werte zwischen 1 und 1 annehmen wird 1 < Z < 1 StatBio 224

8 Denn: Für hinreichend große Stichprobenumfänge (n 30) ist nach dem zentralen Grenzwertsatz (Abschnitt 8.4, Bemerkung 8.1) das studentisierte Stichprobenmittel annähernd verteilt wie Z. Die Wahrscheinlichkeit beträgt P ( 1 < Z < 1) = Φ(1) Φ( 1) = 2 Φ(1) 1 = = Abbildung 9 1 Fläche unter ϕ im Bereich [ 1, 1] StatBio 225

9 Fazit: Wenn alle Stichproben (gleichen Umfangs) aus derselben Grundgesamtheit mit Populationsmittelwert µ gezogen werden, enthalten etwa 68% der daraus berechneten Intervalle den wahren Parameter µ. In diesem Sinne enthält ein konkret vorliegendes Intervall (basierend auf einer einzigen, konkret vorliegenden Stichprobe) ( x s n, x + s ) n den Parameter µ mit einer Vertrauens Wahrscheinlichkeit von etwa 68%. StatBio 226

10 In der Praxis ist aber die umgekehrte Vorgehnesweise von Interesse: Eine Vertrauenswahrscheinlichkeit wird vorgegeben, z. B. 0.95, und das Intervall muss passend gewählt werden. Dies führt zum Vertrauensintervall (confidence interval) zu einer vorgegebenen Vertrauenswahrscheinlichkeit. Man spricht auch von einem Konfidenzintervall zu einem vorgegebenen Konfidenzniveau. 9.2 Konfidenzintervall für einen Mittelwert Um eine Vorstellung von der Genauigkeit einer Punktschätzung zu bekommen, wird eine Intervallschätzung durchgeführt. Man bestimmt ein Intervall, dessen untere und obere Grenze von der Stichprobe abhängen. Dieses zufallsabhängige Intervall soll den Parameter µ mit einer vorgegebenen Wahrscheinlichkeit enthalten, häufig mit 0.9, 0.95 oder StatBio 227

11 Das Konfidenzniveau, die Vertrauenswahrscheinlichkeit (man sagt auch Überdeckungswahrscheinlichkeit) hängt mit der Breite des Konfidenzintervalls (= Intervalllänge) zusammen. Je größer die Sicherheit sein soll, desto breiter muss das Konfidenzintervall gewählt werden. Sei 0.95 die vorgegebene Vertrauenswahrscheinlichkeit. Um ein Konfidenzintervall für µ zur Vertrauenswahrscheinlichkeit 0.95 zu bekommen, muss man den Bereich x ± s n vergrößern. Am sinnvollsten geschieht dies dadurch, dass man ein Vielfaches des geschätzten Standardfehlers s/ n betrachtet: x ± z s n StatBio 228

12 Frage: Wie ist der z Wert in Abhängigkeit von der Vertrauenswahrscheinlichkeit 0.95 zu wählen? Aufgrund der Vorüberlegungen in Abschnitt 9.1 ist klar: Der z Wert muss größer als 1 sein (die Wahl z = 1 führt zu einer Vertrauenswahrscheinlichkeit von lediglich 68%). Nun: µ liegt im Intervall ( x z s n, x + z ) s n wenn x z s n < µ < x + z s n gilt und dies ist gleichbedeutend mit z < x µ s/ n < z StatBio 229

13 Somit ist der Anteil der Intervalle, die µ enthalten, gleich dem Anteil der studentisierten Stichprobenmittel, die zwischen z und z liegen, für die also z < x µ s/ n < z gilt. Der Anteil, der aufgrund des zentralen Grenzwertsatzes erwartet wird, entspricht der Wahrscheinlichkeit des Ereignisses und diese ist z < Z < z P ( z < Z < z) = Φ(z) Φ( z) = 2 Φ(z) 1 Somit bestimmt sich z als Lösung der Gleichung 2 Φ(z) 1 = 0.95 StatBio 230

14 also Φ(z) = = Der z Wert, der diese Gleichung löst, wird als Quantil der Standardnormalverteilung bezeichnet, kurz z (vgl. Problem 2 aus Abschnitt 7.4, Aufgabe 6, Blatt 5). Das Quantil z ist die eindeutig bestimmte Zahl mit der Eigenschaft Φ(z ) = Aus Tab. 7 2 entnimmt man die Lösung z = 1.96 d.h. 97.5% der Gesamtfläche (=1) liegen unterhalb von z = 1.96 (vgl. Abb. 7 6). StatBio 231

15 Somit lauten die Grenzen eines 0.95 Konfidenzintervalls für µ x ± 1.96 s n Häufigkeitsinterpretation: Wenn sehr viele Stichproben (gleichen Umfangs) aus derselben Grundgesamtheit mit Populationsmittelwert µ gezogen werden, überdecken etwa 95% der daraus berechneten Konfidenzintervalle den wahren Parameter µ. Nur etwa 5% aller Stichproben liefern Intervalle, die den Parameter µ nicht enthalten. In diesem Sinne enthält ein konkret vorliegendes Intervall (basierend auf einer einzigen, konkret vorliegenden Stichprobe) ( x 1.96 s n, x ) s n StatBio 232

16 den Parameter µ mit einer Vertrauenswahrscheinlichkeit von 95%. Konfidenzintervalle für µ zu den (Vertrauens-) Wahrscheinlichkeiten 0.9, 0.95 und 0.99 erhält man mit den Quantilen z = z = z = Diese Quantile sind die eindeutigen Lösungen der Gleichungen (in z) 2 Φ(z) 1 = 0.90, also Φ(z) = = Φ(z) 1 = 0.95, also Φ(z) = = Φ(z) 1 = 0.99, also Φ(z) = = StatBio 233

17 90% Konfidenzintervall: ( s x 1.645, x n ) s n Anteil: 5% Anteil: 90% Anteil: 5% ( ) x s n x s n 95% Konfidenzintervall: ( s x 1.96, x n ) s n Anteil: 2.5% Anteil: 95% Anteil: 2.5% ( ) x 1.96 s n x s n StatBio 234

18 99% Konfidenzintervall: ( s x 2.576, x n ) s n Anteil: 0.5% Anteil: 99% Anteil: 0.5% ( ) x s n x s n Für kleine Stichprobenumfänge (n < 30) lässt sich die Stichprobenverteilung von x µ s/ n nicht mehr hinreichend gut durch eine Standard Normalverteilung beschreiben. Es muss dann vorausgesetzt werden, dass die Grundgesamtheit normalverteilt ist. Dann ist die Stichpro- StatBio 235

19 benverteilung die t Verteilung mit n 1 Freiheitsgraden (siehe Abschnitt 8.3). Für die Herleitung von Konfidenzintervallen bedeutet dies, dass man den z Wert durch einen t Wert zu ersetzen hat. Formal wird in den Intervallgrenzen x ± z s n der z Wert ersetzt durch einen t Wert: x ± t s n Man hat also das Quantil der Standard Normalverteilung durch das entsprechende Quantil der t Verteilung mit n 1 Freiheitsgraden zu ersetzen. Diese sind tabelliert, vgl. Tab StatBio 236

20 Allgemeine Bezeichnungen für Quantile der t Verteilung mit df = n 1 Freiheitsgraden: Zum Konfidenzniveau 0.9: t df;0.950 = t n 1;0.950 (0.95 Quantil) Zum Konfidenzniveau 0.95: t df;0.975 = t n 1;0.975 (0.975 Quantil) Zum Konfidenzniveau 0.99: t df;0.995 = t n 1;0.995 (0.995 Quantil) Die konkreten Werte sind für df 30 in Tab. 9.1 zusammengefasst. StatBio 237

21 Allgemeine Darstellung der Konfidenzintervalle zum Niveau 0.9, 0.95, 0.99 und Stichprobenumfang n: 90% Konfidenzintervall: ( s x t n 1;0.950, x + t n 1;0.950 n ) s n 95% Konfidenzintervall: ( s x t n 1;0.975, x + t n 1;0.975 n ) s n 99% Konfidenzintervall: ( s x t n 1;0.995, x + t n 1;0.995 n ) s n StatBio 238

22 Tabelle 9 1 t Werte für Konfidenzintervalle zum Vertrauensniveau 0.90, 0.95 und 0.99 (die Werte in der letzten Zeile (df = ) sind die entsprechenden z Werte der Standard Normalverteilung) 0.90 Niveau 0.95 Niveau 0.99 Niveau df t df;0.950 t df;0.975 t df; StatBio 239

23 0.90 Niveau 0.95 Niveau 0.99 Niveau df t df;0.950 t df;0.975 t df; StatBio 240

24 Aus Tab. 9 1 ist zu erkennen, dass mit wachsendem Stichprobenumfang, sprich mit wachsender Anzahl der Freiheitsgrade, die Quantile der t Verteilung kleiner werden und sich den Quantilen der Standard Normalverteilung annähern. 9.1 Beispiel: Bei 30 Studentinnen ergab sich eine Durchschnittsgröße (in cm) von x = und eine Standardabweichung von s = 5.2. Als Vertrauensniveau sei 0.95 vorgegeben. Der Stichprobenumfang ist n = 30, also df = n 1 = 30 1 = 29 Nach Tab. 9 1 ist der t Wert gleich t 29;0.975 = Daraus ergibt sich das 0.95 Konfidenzintervall StatBio 241

25 ( , ) = (166.4, 170.2) Interpretation: Mit 95% iger Sicherheit liegt die durchschnittliche Körpergröße von Studentinnen zwischen 166 cm und 170 cm. Verbundene Stichproben Häufig werden Stichproben in Form von Paaren (x 1i, x 2i ), i = 1,..., n erhoben. Paare treten auf bei Parallelisierte Stichproben (matched samples), bei denen die Merkmalsträger in den StatBio 242

26 beiden Stichproben nach einem sinnvollen Kriterium paarweise einander zugeordnet werden. Ein Paar (x 1i, x 2i ) beschreibt dann den Beobachtungswert des Merkmalsträgers i aus Stichprobe 1 und den Beobachtungswert des zugeordneten Merkmalsträgers aus Stichprobe 2. Beispiel: Methodenvergleich bei benachbarten Feldern. Messwiederholungen, wenn bei jedem Merkmalsträger in der Stichprobe zwei Messungen durchgeführt werden (Vorher Nachher Vergleich). Ein Paar (x 1i, x 2i ) beschreibt dann die Messwerte des Merkmalsträgers i zu den beiden Zeitpunkten 1 (vorher) und 2 (nachher). Beispiel: Körpergewicht vor und nach einer Diät. StatBio 243

27 Stichprobe 1 Stichprobe 2 x 11 x 21 x 12 x 22 x 13. x 23. x 1n x 2n Die Beobachtungen x 1i und x 2i sind dabei typischerweise abhängig. Die Streuung von Stichprobe 1 wird beeinflusst von der Streuung der Stichprobe 2 (und/oder umgekehrt). Man spricht daher von einer verbundenen Stichprobe oder einer gepaarten Stichprobe (paired samples). Aufgrund der Abhängigkeit ist es sinnvoll, nicht beide Stichproben einzeln zu betrachten, sondern nur die jeweils zusammengehörenden Paare (x 11, x 21 ), (x 12, x 22 ), (x 13, x 23 ),..., (x 1n, x 2n ) StatBio 244

28 Für jedes Paar i bildet man die Differenz d i = x 1i x 2i, i = 1,..., n Häufig ist es gerechtfertigt, die Unabhängigkeit der Differenzen anzunehmen, so dass d 1, d 2,..., d n als eine einfache Stichprobe aufgefasst werden kann. Der Mittelwert der Paardifferenzen d = 1 n d i n i=1 ist ein geeigneter Schätzwert für µ d = µ 1 µ 2 (µ d ist der Mittelwert der Paardifferenzen in der Grundgesamtheit). StatBio 245

29 Frage: Gibt es einen systematischen, bedeutsamen Unterschied in den Beobachtungspaaren der einer Interpretation wert ist, oder sind Unterschiede nur auf Zufälligkeiten, auf die Variabilität der Daten zurückzuführen? Wenn es keinen Unterschied zwischen den Populationsmittelwerten µ 1 und µ 2 gibt, ist zu erwarten, dass der Schätzwert ˆµ d = d in der Nähe von 0 liegt. Abweichungen von der Null können zufallsbedingt sein. Ein Konfidenzintervall für µ d ist hier wesentlich informativer! Ein 0.95 Konfidenzintervall für µ d ist gegeben durch die Grenzen d ± 1.96 sd n StatBio 246

30 wobei s d = 1 n 1 n (d i d) 2 i=1 die Standardabweichung der Paardifferenzen d 1,..., d n bezeichnet. 9.2 Beispiel: Morton et al. (1982), American Journal of Epidemiology 155, , untersuchten den Bleigehalt im Blut von Kindern, deren Eltern in einer Fabrik arbeiteten, die Blei zu Herstellung von Batterien verwendete. Um die Fragestellung zu untersuchen, ob die Kinder einer Bleibelastung ausgesetzt waren, die von ihren Eltern herrührte, wurde der Bleigehalt von 33 Kindern aus verschieden Familien untersucht und mit demjenigen von 33 jeweils gleichaltrigen und aus der Nachbarschaft stammenden Kontrollkindern verglichen. Deren Eltern arbeiteten in Industriezweigen, in denen kein Blei verwendet wurde. Eine Antwort soll ein 95% StatBio 247

31 Konfidenzintervall geben. Die 33 Paardifferenzen ergaben die Werte d = und s d = (Differenz: Bleigehalt Kind Bleigehalt Kontrollkind). Als 0.95 Konfidenzintervall für µ d erhält man ( ) d 1.96 sd, d sd n n = ( , ) = (10.55, 21.37) StatBio 248

32 Der Wert 0 liegt nicht im 0.95 Konfidenzintervall. Interpretation: Mit 95% iger Sicherheit nehmen Kinder, deren Eltern der oben beschriebenen Bleibelastung ausgesetzt sind, ebenfalls Blei auf. Die Belastung liegt mindestens bei Bei kleinen Stichprobenumfängen (n < 30) muss angenommen werden, dass die Paardifferenzen der zugrundeliegenden Grundgesamtheit normalverteilt sind. Ein 0.95 Konfidenzintervall ist dann gegeben durch d ± t n 1;0.975 sd n Bemerkung: Bei zwei verbundenen Stichproben sind nur die Paardifferenzen von Interesse. Somit hat man es bei der statistischen Analsyse nur mit einer Stichprobe zu tun (Ein Stichproben Problem). StatBio 249

33 9.3 Konfidenzintervall zum Vergleich zweier Mittelwerte (Zwei-Stichproben-Problem) Frage: Unterscheiden sich zwei Grundgesamtheiten hinsichtlich ihrer Mittelwerte µ 1 und µ 2? Dazu vergleicht man die Mittelwerte zweier Stichproben, die als unabhängig angesehen werden können (ungepaarte Stichproben). Stichprobe aus Stichprobe aus Grundgesamtheit 1 Grundgesamtheit 2 x 11 x 21 x 12 x 22 x 13. x 23 x 1n1. x 2n2 Beachte: n 1 n 2 ist ausdrücklich zugelassen! StatBio 250

34 Man vergleicht die Mittelwerte x 1 = 1 n 1 n 1 i=1 x 1i und x 2 = 1 n 2 n 2 j=1 x 2j der beiden Stichproben. Die Differenz der beiden Mittelwerte x 1 x 2 ist eine (erwartungstreue) Schätzung für die Differenz der Populationsmittelwerte µ 1 µ 2. Neben dieser Punktschätzung für µ 1 µ 2 benötigt man noch den Standardfehler der Differenz der Mittelwerte (= Standardabweichung von x 1 x 2 ). Man kann zeigen, dass der Standardfehler der Differenz x 1 x 2 gegeben ist durch σ1 2 σ x1 x 2 = + σ2 2 (9.1) n 1 n 2 Annahme: Beide Populationen besitzen die glei- StatBio 251

35 che Varianz σ 2 (d.h. σ 2 1 = σ 2 2 = σ 2 ). Man spricht von Varianzhomogenität. Unter der Annahme der Varianzhomogenität geht Formel (9.1) über in σ x1 x 2 = σ 2 n 1 + σ2 n 2 = σ = σ n 1 n 2 n1 + n 2 (9.2) n 1 n 2 Frage: Was ist eine vernünftige Schätzung von σ 2 (und damit für σ) im Zwei Stichprobenfall? Im Fall der Varianzhomogenität ist die StatBio 252

36 gepoolte (Stichproben )Varianz s 2 gepoolt = n1 i=1 ( ) 2 n2 ( ) 2 x1i x 1 + j=1 x2j x 2 n n 2 1 eine vernünftige Schätzung für σ 2. Die gepoolte Varianz lässt sich schreiben in der Form s 2 gepoolt = (n 1 1) s (n 2 1) s 2 2 (n 1 1) + (n 2 1) Dabei bezeichnen = (n 1 1) s (n 2 1) s 2 2 n 1 + n 2 2 s 2 1 = 1 n 1 1 n 1 i=1 ( x1i x 1 ) 2 und s 2 2 = 1 n 2 1 n 2 j=1 ( x2j x 2 ) 2 StatBio 253

37 die Varianzen der Stichproben 1 und 2. Bemerkung: Natürlich sind s 2 1 und s 2 2 ebenfalls plausible Schätzungen für σ 2. Diese Schätzungen beruhen jedoch ausschließlich auf Stichprobe 1 bzw. Stichprobe 2. Die gepoolte Varianz nimmt hingegen Bezug auf beide Stichproben und kombiniert in geeigneter Weise die beiden Schätzungen s 2 1 und s 2 2. Daher ist die gepoolte Varianz eine genauere Schätzung für σ 2 als die,,einzelvarianzen s 2 1 bzw. s 2 2. Ersetzt man in (9.2) σ durch s gepoolt, so erhält man als Schätzung für den Standardfehler von x 1 x 2 s gepoolt n1 + n 2 n 1 n 2 Nach dem zentralen Grenzwertsatz ist die Stichprobenverteilung der studentisierten Mittelwert- StatBio 254

38 differenz x 1 x 2 (µ 1 µ 2 ) (9.3) s gepoolt n1 +n 2 n 1 n 2 annähernd eine N(0, 1) Verteilung, vorausgesetzt die Stichprobenumfänge sind hinreichend groß (n 1 30, n 2 30). Für Stichprobenumfänge n 1 30, n 2 30 sind die Grenzen eines Konfidenzintervalls für µ 1 µ 2 zur Vertrauenswahrscheinlichkeit 0.90, 0.95, 0.99 gegeben durch x 1 x 2 ± z s gepoolt n1 + n 2 n 1 n 2 mit den z Werten 1.645, 1.960, StatBio 255

39 9.3 Beispiel: Es wurden die Körpergrößen von 39 männlichen und von 30 weiblichen Studenten gemessen. Es ergaben sich die folgenden Werte (Stichprobe 1 = männlich, Stichprobe 2 = weiblich): Ist x 1 = 182.5, s 1 = 6.7 x 2 = 168.3, s 2 = 5.2 µ männlich (µ 1 ) = µ weiblich (µ 2 )? Die Differenz der Stichprobenmittel beträgt Ferner ist = 14.2 s gepoolt = = StatBio 256

40 Daraus ergeben sich die folgenden Grenzen eines 0.95 Konfidenzintervalls für µ 1 µ 2 : ± = 14.2 ± 2.91 Ein 0.95 Konfidenzintervall für µ 1 µ 2 ist somit (11.29, 17.11) Die Null ist nicht im Konfidenzintervall enthalten! Interpretation: Die Mittelwertsunterschiede in den Körpergrößen lassen sich nicht nur auf Zufälligkeiten zurückführen. StatBio 257

41 Für kleine Stichprobenumfänge (n 1 < 30, n 2 < 30) muss vorausgesetzt werden, dass die Grundgesamtheiten normalverteilt sind. In diesem Fall besitzt die studentisierte Mittelwertdifferenz (9.3) eine t Verteilung mit Anzahl der Freiheitsgrade (df) = n 1 +n 2 2 Die Grenzen eines Konfidenzintervalls für µ 1 µ 2 sind dann gegeben durch x 1 x 2 ± t s gepoolt n1 + n 2 n 1 n 2 Der t Wert ist das Quantil der t Verteilung mit n 1 + n 2 2 Freiheitsgraden. Dieses wird wieder aus Tab. 9 1 entsprechend der vorgegebenen Vertrauenswahrscheinlichkeit entnommen. StatBio 258

42 Anmerkung: Auch im Fall ungleicher Varianzen lässt sich ein (approximatives) Konfidenzintervall für µ 1 µ 2 angeben. Der Standardfehler der Differenz x 1 x 2 ist nach (9.1) σ 2 1 n 1 + σ2 2 n 2 und somit ist s s2 2 n 1 n 2 der geschätzte Standardfehler. Unter der Normalverteilungsannahme sind die Grenzen eines approximativen Konfidenzintervalls gegeben durch x 1 x 2 ± t s 2 1 n 1 + s2 2 n 2 Warum nur approximativ? StatBio 259

43 Im Fall heterogener Varianzen ist die (exakte) Stichprobenverteilung der studentisierten Mittelwertdifferenz x 1 x 2 (µ 1 µ 2 ) s 2 1 n 1 + s2 2 n 2 bis heute nicht bekannt (Behrens Fisher Problem). Man kann aber zeigen, dass die Stichprobenverteilung näherungsweise eine t Verteilung ist, wobei die Anzahl der Freiheitsgrade aus den Daten heraus geschätzt werden muss. Statistische Softwarepakete berechnen dieses Konfidenzintervall. Literatur: Welch, B.L. (1947), The generalization of Student s problem when several different population variances are involved, Biometrika 34, StatBio 260

44 9.4 Die Bedeutung des Stichprobenumfangs 1. Mit zunehmenden Stichprobenumfang nimmt die Bedeutung von Verteilungsannahmen (Normalverteilung, Varianzhomogenität) ab. Begründung: Für hinreichend große Stichprobenumfänge lassen sich Stichprobenkennwertverteilungen von Mittelwerten durch eine Normalverteilung ersetzen (zentraler Grenzwertsatz). 2. Mit zunehmenden Stichprobenumfang erhöht sich die Schätzgenauigkeit, d.h. die Länge eines Konfidenzintervalls nimmt ab. Begründung: Der Standardfehler des Mittelwertes und die Quantile der t Verteilung (Tabelle 9 1) werden mit wachsendem Stichprobenumfang kleiner. StatBio 261

45 Der Anwender kann die Länge eines Konfidenzintervalls (nur) über die Überdeckungswahrscheinlichkeit und den Stichprobenumfang beeinflussen. In der Praxis wird häufig die Frage nach dem Mindeststichprobenumfang gestellt: Wie groß muss mindestens der Stichprobenumfang n gewählt werden, damit die Länge eine Konfidenzintervalls mit vorgegebener Überdeckungswahrscheinlichkeit einen bestimmten Wert L nicht überschreitet? Sei 0.95 die vorgegebene Überdeckungswahrscheinlichkeit. Wie bestimmt man den Mindeststichprobenumfang? Zunächst eine theoretische Vorüberlegung. StatBio 262

46 Im Ein Stichproben Fall wird das Konfidenzintervall ( x 1.96 σ n, x ) σ n mit der Intervalllänge σ n betrachtet. Formal ergibt sich der Mindeststichprobenumfang aus der Lösung der Ungleichung L σ n Durch,,Auflösen nach n erhält man die Ungleichung n σ 2 L 2 StatBio 263

47 Das minimale n, dass diese Ungleichung erfüllt, ist dann der Mindeststichprobenumfang: n min = kleinstes n mit n σ 2 L 2 (9.4) Nun ist σ i. A. nicht bekannt. Wie geht man in der Praxis vor? Entweder liegt bereits eine zuverlässige Schätzung vor (basierened auf eine Paralleluntersuchung) und man ersetzt in Gleichung (9.4) σ durch diesen Schätzwert oder aber man führt eine Voruntersuchung durch und schätzt σ mittels einer Stichprobe von geringem Umfang. Dieser Schätzwert ist normalerweise größer als jede Standardabweichung, die auf der Basis einer umfangreicheren Stichprobe ermittelt werden würde. StatBio 264

48 9.4 Beispiel: In einem bestimmten Bodenhorizont interessiert man sich für eine Schätzung von extrahierbaren P 2 O 5 (gemessen in mg pro 100 g). Wie groß muss die Anzahl der Bodenproben sein, damit ein 0.95 Konfidenzintervall die Länge von 0.2 (Schätzgenauigkeit ±0.1) nicht überschreitet? Aus früheren Forschungen ist bekannt, dass die Standardabweichung von P 2 O 5 bei 0.7 mg liegt. Lösung: Der z Wert ist das Quantil z = Der Mindeststichprobenumfang bestimmt sich aus der Ungleichung n (0.2) 2 = Folglich ist n min = 189. StatBio 265

49 Fordert man eine Länge von 0.1 (doppelte Schätzgenauigkeit), so ergibt sich wegen n = ein Mindeststichprobenumfang von 753 (das Vierfache). Allgemein gilt: Eine doppelte Schätzgenauigkeit L/2 erfordert einen vierfachen Mindeststichprobenumfang: n σ 2 (L/2) 2 = σ 2 L 2 StatBio 266

50 9.5 Konfidenzintervall für einen Anteilswert Im Folgenden sollen die Aussagen von Abschnitt 9.2 für dichotome Grundgesamtheiten formuliert werden. Sei X ein 0/1 kodiertes binäres Merkmal. Nach Abschnitt 7.2 ist X Bernoulli verteilt zum Parameter π (0, 1): P (X = 1) = π, P (X = 0) = 1 π π bezeichnet hier den (unbekannten) Anteilswert, also die relative Häufigkeit der Merkmalsträger einer zugrundeliegenden Grundgesamtheit mit Ausprägung 1: π = Anteil der Merkmalsträger einer Grundgesamtheit mit Ausprägung 1 Ziel: Intervallschätzung für den Anteilswert π StatBio 267

51 Sei wieder x 1,..., x n eine Stichprobe vom Umfang n. Eine Punktschätzung für π ist die relative Trefferhäufigkeit x = relative Häufigkeit der Ausprägung 1 in der Stichprobe x 1,..., x n (zur Erinnerung: x i ist entweder 1 oder 0). Für die Populationsvarianz gilt: σ 2 = π (1 π) (vgl. Abschnitt 8.4, Aufgabe 3, Blatt 6). Eine vernünftige Schätzung der Varianz ist somit ˆσ 2 = x (1 x) StatBio 268

52 Damit ist ESEM = x (1 x) eine Schätzung von SEM = σ/ n = π (1 π)/ n. n Wenn die Faustregel (8.2) erfüllt ist, d. h. n x (1 x) > 9 so sind die Grenzen eines Konfidenzintervalls für π zur Vertrauenswahrscheinlichkeit 0.9, 0.95, 0.99 gegeben durch x ± z x (1 x) n mit den z Werten z 0.95 = 1.645, z = 1.96, z = StatBio 269

53 9.5 Beispiel: Der plötzliche Kindstod SIDS (Sudden Infant Death Syndrome) ist ein noch ungeklärtes Phänomen. Die relative Häufigkeit (Rate) des SIDS beträgt weltweit im Durchschnitt 4.4 auf 1000 Geburten. Tasmanien wies zwischen den Jahren 1975 und SIDS auf 3939 Geburten aus, was einer Rate von 6.1 auf 1000 entspricht. Ist diese Rate 6.1 wesentlich höher als die Rate von 4.4 oder lässt sich dieser Unterschied nur durch den Zufall erklären? Die Punktschätzung (relative Trefferhäufigkeit) beträgt x = = Wegen ( ) = > 9 ist die Faustregel (8.2) erfüllt. StatBio 270

54 untere Grenze: obere Grenze: Somit ist = = ( ) ( ) (0.0037, ) ein 0.95 Konfidenzintervall für π: 3939 Interpretation: Mit 95% iger Sicherheit liegt der (wahre) Anteilswert π zwischen 3.7 und 8.5. Da im Konfidenzintervall liegt, kann der beobachtete Unterschied auch zufällig begründet sein. StatBio 271

55 9.6 Konfidenzintervall zum Vergleich zweier Anteilswerte (Zwei-Stichproben-Problem) Im Folgenden sollen die Aussagen von Abschnitt 9.3 für dichotome Grundgesamtheiten formuliert werden. Sei X ein 0/1 kodiertes binäres Merkmal. Ausgangspunkt: zwei dichotome Grundgesamtheiten. Es soll entschieden werden, ob sich die Grundgesamtheiten hinsichtlich ihrer Anteilswerte π 1 und π 2 unterscheiden. Dazu werden zwei unabhängige Stichproben x 11,..., x 1n1 (Stichprobe 1) und erhoben. x 21,..., x 2n2 (Stichprobe 2) StatBio 272

56 Jede Beobachtung besitzt entweder den Wert 1 oder 0. Bezeichnen und x 1 = 1 n 1 n 1 i=1 x 2 = 1 n 2 n 2 j=1 x 1i x 2j die Anteilswerte der beiden Stichproben (Schätzungen für π 1 bzw. π 2 ). Wegen σ 2 1 = π 1 (1 π 1 ) und σ 2 2 = π 2 (1 π 2 ) beträgt der Standardfehler der Differenz x 1 x 2 π 1 (1 π 1 ) + π 2 (1 π 2 ) n 1 n 2 (dies entspricht (9.1)). StatBio 273

57 Damit sind x 1 (1 x 1 ) und x 2 (1 x 2 ) (Punkt )Schätzungen für σ 2 1 bzw. σ 2 2. Folglich ist x 1 (1 x 1 ) n 1 + x 2 (1 x 2 ) n 2 eine Schätzung des Standardfehlers von x 1 x 2. StatBio 274

58 Sind die Faustregeln und n 1 x 1 (1 x 1 ) > 9 n 2 x 2 (1 x 2 ) > 9 erfüllt, so sind die Grenzen eines Konfidenzintervalls für π 1 π 2 zur Vertrauenswahrscheinlichkeit 0.9, 0.95, 0.99 gegeben durch x 1 x 2 ± z x 1 (1 x 1 ) n 1 + x 2 (1 x 2 ) n 2 mit den z Werten z 0.95 = 1.645, z = 1.96, z = StatBio 275

59 9.6 Beispiel: (Quelle: New England Journal of Medicine (1992)) Die Sterblichkeit ist bei schwarzen Säuglingen (Gruppe 1) im ersten Jahr doppelt so hoch wie bei weißen Säuglingen von Eltern mit Kollege Ausbildung (Gruppe 2). Der Untersuchungszeitraum war von 1983 bis Der Stichprobenumfang von Gruppe 1 betrug mit einem Anteilswert von 10.2 Promille, der Stichprobenumfang von Gruppe 2 betrug mit einem Anteilswert von 5.4 Promille. Kann man behaupten, dass die Sterblichkeitsraten in den zwei Populationen wesentlich verschieden sind? Anmerkung: Die unverhältnismäßig unterschiedlichen Stichprobenumfänge fallen auf, stören aber die statistische Auswertung nicht. Zunächst gilt x 1 = und x 2 = StatBio 276

60 Wegen und ( ) = > ( ) = > 9 sind obige Faustregeln erfüllt. Ferner beträgt der geschätzte Standardfehler x 1 (1 x 1 ) n 1 + x 2 (1 x 2 ) n 2 = = StatBio 277

61 Die Grenzen eines 0.95 Konfidenzintervall sind gegeben durch Damit ist ± ± (0.0039, ) ein 0.95 Konfidenzintervall für π 1 π 2. Interpretation: Die Null ist nicht im Konfidenzintervall enthalten. Ferner sagt das Konfidenzintervall, dass die Sterblichkeitsrate in Gruppe 1 größer ist als bei Gruppe 2 und dass die Differenz mindestens 3.9 Promille beträgt. StatBio 278

62 Abschließende Bemerkung: Die in diesem Kapitel aufgeführten Beispiele machen deutlich, dass ein Konfidenzintervall eine wesentlich bessere Beurteilung des Schätzwertes erlaubt als eine Punktschätzung. Während die Bestimmung einer Punktschätzung (relativ) einfach ist (ein allgemeines Konstruktionsprinzip ist die Maximum Likelihood Methode), kann die Bestimmung eines Konfidenzintervalls äußerst kompliziert sein, da hierzu Verteilungsaussagen über eine Punktschätzung benötigt werden. StatBio 279