Teil 3: Schließende Statistik
|
|
- Falko Heinz Meinhardt
- vor 6 Jahren
- Abrufe
Transkript
1 Teil 3: Schließende Statistik Grundfragen der schließenden Statistik 1. Welcher Parameter passt am besten zu den Beobachtungen? 2. Welche Parameterwerte sind mit den Beobachtungen vereinbar? 3. Sind die Beobachtungen mit einem bestimmten Parameterwert vereinbar? Die statistischen Methoden, die auf diese drei Fragen eine Antwort geben, heißen (1) Punktschätzungen (Kap. 9) (2) Intervallschätzungen (Kap. 9) (3) Tests (ab Kap. 10) StatBio 218
2 9 Schätzung von Parametern 9.1 Punkt und Intervallschätzungen 9.2 Konfidenzintervall für einen Mittelwert 9.3 Konfidenzintervall zum Vergleich zweier Mittelwerte 9.4 Die Bedeutung des Stichprobenumfangs 9.5 Konfidenzintervall für einen Anteilswert 9.6 Konfidenzintervall zum Vergleich zweier Anteilswerte Die folgenden Aussagen setzen wieder eine einfache Stichprobe x 1,..., x n voraus (,,Ziehen mit Zurücklegen aus einer homogenen Grundgesamtheit). Diese Aussagen können in der Praxis auch für solche Stichproben übernommen werden, die durch,, Ziehung ohne Zurücklegen gewonnen wurden. Für den Auswahlsatz muss dann nur gelten: n/n StatBio 219
3 9.1 Punkt und Intervallschätzungen Von einer Punktschätzung spricht man, wenn man sich auf die Bestimmung eines Zahlenwertes als Schätzwert für einen Parameter beschränkt. Einer (einfachen) Stichprobe x 1,..., x n wird ein Zahlenwert zugeordnet. Dieser Zahlenwert heißt eine Punktschätzung (point estimation). Plausible Schätzungen für Parameter sind empirische Maßzahlen. Beispiele: (i) Schätzung ˆµ für den Populations Mittelwert µ: der empirische Mittelwert n ˆµ = x = 1 n i=1 x i StatBio 220
4 (ii) Schätzung ˆσ 2 für die Populations Varianz σ 2 : die empirische Varianz ˆσ 2 = s 2 = 1 n 1 n (x i x) 2 i=1 Es gibt verschiedene Gütekriterien für Punktschätzer. Ein Kriterium ist die Unverzerrtheit (Erwartungstreue) einer Punktschätzung:,,Im Mittel schätzt man das Richtige. Empirischer Mittelwert und empirische Varianz sind unverzerrte Schätzungen. Bemerkung: Auf weitere Gütekriterien wie Konsistenz und Effizienz soll hier nicht näher eingegangen werden. Punktschätzungen haben einen entscheidenden Nachteil: Sie machen keine Aussagen über den StatBio 221
5 Schätzfehler. Wie,,weit ist das empirische Stichprobenmittel x von µ entfernt, x µ =? Beachte: x ist ausgesprochen selten gleich µ. Intuitiv ist klar, dass eine Punktschätzung um so genauer sein wird, je größer der Stichprobenumfang ist. Aus theoretischen Überlegungen ist bekannt (Abschnitt 6.3), dass zufallsbedingt ein Fehler in der Größenordnung ESEM = s n zu erwarten ist. Plausible Schätzwerte für µ sind demnach alle Werte des Intervalls ( x s n, x + s ) n StatBio 222
6 also alle Werte zwischen der unteren Grenze = x s/ n und der oberen Grenze = x + s/ n Einer Stichprobe wird somit ein ganzes Intervall von Parameterwerten zugeordnet, die alle,,plausibel (d.h.,,mit den Daten verträglich ) sind. Man spricht von einer Intervallschätzung. Frage: Wie gut ist die,,intervallschätzung? Präziser gefragt: Mit welcher Zuverlässigkeit liegt µ in einem solchen Intervall? Wenn alle Zufallsstichproben (gleichen Umfangs) gezogen werden, dann ist der Anteil der daraus berechneten Intervalle, die den Parameter µ enthalten, eine geeignete Maßzahl für die Zuverlässigkeit, dass ein konkretes Intervall (basierend auf einer einzigen, konkret vorliegenden StatBio 223
7 Stichprobe) den Parameter µ enthält, vgl. die Ausführungen nach Tabelle 6.5. Der Anteil der Intervalle, die µ enthalten, für die also x s < µ < x + n s n gilt, ist gleich dem Anteil der studentisierten Stichprobenmittel, die zwischen 1 und 1 liegen: 1 < x µ s/ n < 1 Dieser Anteil ist annähernd gleich der Wahrscheinlichkeit, dass ein N(0, 1) verteiltes Merkmal Z Werte zwischen 1 und 1 annehmen wird 1 < Z < 1 StatBio 224
8 Denn: Für hinreichend große Stichprobenumfänge (n 30) ist nach dem zentralen Grenzwertsatz (Abschnitt 8.4, Bemerkung 8.1) das studentisierte Stichprobenmittel annähernd verteilt wie Z. Die Wahrscheinlichkeit beträgt P ( 1 < Z < 1) = Φ(1) Φ( 1) = 2 Φ(1) 1 = = Abbildung 9 1 Fläche unter ϕ im Bereich [ 1, 1] StatBio 225
9 Fazit: Wenn alle Stichproben (gleichen Umfangs) aus derselben Grundgesamtheit mit Populationsmittelwert µ gezogen werden, enthalten etwa 68% der daraus berechneten Intervalle den wahren Parameter µ. In diesem Sinne enthält ein konkret vorliegendes Intervall (basierend auf einer einzigen, konkret vorliegenden Stichprobe) ( x s n, x + s ) n den Parameter µ mit einer Vertrauens Wahrscheinlichkeit von etwa 68%. StatBio 226
10 In der Praxis ist aber die umgekehrte Vorgehnesweise von Interesse: Eine Vertrauenswahrscheinlichkeit wird vorgegeben, z. B. 0.95, und das Intervall muss passend gewählt werden. Dies führt zum Vertrauensintervall (confidence interval) zu einer vorgegebenen Vertrauenswahrscheinlichkeit. Man spricht auch von einem Konfidenzintervall zu einem vorgegebenen Konfidenzniveau. 9.2 Konfidenzintervall für einen Mittelwert Um eine Vorstellung von der Genauigkeit einer Punktschätzung zu bekommen, wird eine Intervallschätzung durchgeführt. Man bestimmt ein Intervall, dessen untere und obere Grenze von der Stichprobe abhängen. Dieses zufallsabhängige Intervall soll den Parameter µ mit einer vorgegebenen Wahrscheinlichkeit enthalten, häufig mit 0.9, 0.95 oder StatBio 227
11 Das Konfidenzniveau, die Vertrauenswahrscheinlichkeit (man sagt auch Überdeckungswahrscheinlichkeit) hängt mit der Breite des Konfidenzintervalls (= Intervalllänge) zusammen. Je größer die Sicherheit sein soll, desto breiter muss das Konfidenzintervall gewählt werden. Sei 0.95 die vorgegebene Vertrauenswahrscheinlichkeit. Um ein Konfidenzintervall für µ zur Vertrauenswahrscheinlichkeit 0.95 zu bekommen, muss man den Bereich x ± s n vergrößern. Am sinnvollsten geschieht dies dadurch, dass man ein Vielfaches des geschätzten Standardfehlers s/ n betrachtet: x ± z s n StatBio 228
12 Frage: Wie ist der z Wert in Abhängigkeit von der Vertrauenswahrscheinlichkeit 0.95 zu wählen? Aufgrund der Vorüberlegungen in Abschnitt 9.1 ist klar: Der z Wert muss größer als 1 sein (die Wahl z = 1 führt zu einer Vertrauenswahrscheinlichkeit von lediglich 68%). Nun: µ liegt im Intervall ( x z s n, x + z ) s n wenn x z s n < µ < x + z s n gilt und dies ist gleichbedeutend mit z < x µ s/ n < z StatBio 229
13 Somit ist der Anteil der Intervalle, die µ enthalten, gleich dem Anteil der studentisierten Stichprobenmittel, die zwischen z und z liegen, für die also z < x µ s/ n < z gilt. Der Anteil, der aufgrund des zentralen Grenzwertsatzes erwartet wird, entspricht der Wahrscheinlichkeit des Ereignisses und diese ist z < Z < z P ( z < Z < z) = Φ(z) Φ( z) = 2 Φ(z) 1 Somit bestimmt sich z als Lösung der Gleichung 2 Φ(z) 1 = 0.95 StatBio 230
14 also Φ(z) = = Der z Wert, der diese Gleichung löst, wird als Quantil der Standardnormalverteilung bezeichnet, kurz z (vgl. Problem 2 aus Abschnitt 7.4, Aufgabe 6, Blatt 5). Das Quantil z ist die eindeutig bestimmte Zahl mit der Eigenschaft Φ(z ) = Aus Tab. 7 2 entnimmt man die Lösung z = 1.96 d.h. 97.5% der Gesamtfläche (=1) liegen unterhalb von z = 1.96 (vgl. Abb. 7 6). StatBio 231
15 Somit lauten die Grenzen eines 0.95 Konfidenzintervalls für µ x ± 1.96 s n Häufigkeitsinterpretation: Wenn sehr viele Stichproben (gleichen Umfangs) aus derselben Grundgesamtheit mit Populationsmittelwert µ gezogen werden, überdecken etwa 95% der daraus berechneten Konfidenzintervalle den wahren Parameter µ. Nur etwa 5% aller Stichproben liefern Intervalle, die den Parameter µ nicht enthalten. In diesem Sinne enthält ein konkret vorliegendes Intervall (basierend auf einer einzigen, konkret vorliegenden Stichprobe) ( x 1.96 s n, x ) s n StatBio 232
16 den Parameter µ mit einer Vertrauenswahrscheinlichkeit von 95%. Konfidenzintervalle für µ zu den (Vertrauens-) Wahrscheinlichkeiten 0.9, 0.95 und 0.99 erhält man mit den Quantilen z = z = z = Diese Quantile sind die eindeutigen Lösungen der Gleichungen (in z) 2 Φ(z) 1 = 0.90, also Φ(z) = = Φ(z) 1 = 0.95, also Φ(z) = = Φ(z) 1 = 0.99, also Φ(z) = = StatBio 233
17 90% Konfidenzintervall: ( s x 1.645, x n ) s n Anteil: 5% Anteil: 90% Anteil: 5% ( ) x s n x s n 95% Konfidenzintervall: ( s x 1.96, x n ) s n Anteil: 2.5% Anteil: 95% Anteil: 2.5% ( ) x 1.96 s n x s n StatBio 234
18 99% Konfidenzintervall: ( s x 2.576, x n ) s n Anteil: 0.5% Anteil: 99% Anteil: 0.5% ( ) x s n x s n Für kleine Stichprobenumfänge (n < 30) lässt sich die Stichprobenverteilung von x µ s/ n nicht mehr hinreichend gut durch eine Standard Normalverteilung beschreiben. Es muss dann vorausgesetzt werden, dass die Grundgesamtheit normalverteilt ist. Dann ist die Stichpro- StatBio 235
19 benverteilung die t Verteilung mit n 1 Freiheitsgraden (siehe Abschnitt 8.3). Für die Herleitung von Konfidenzintervallen bedeutet dies, dass man den z Wert durch einen t Wert zu ersetzen hat. Formal wird in den Intervallgrenzen x ± z s n der z Wert ersetzt durch einen t Wert: x ± t s n Man hat also das Quantil der Standard Normalverteilung durch das entsprechende Quantil der t Verteilung mit n 1 Freiheitsgraden zu ersetzen. Diese sind tabelliert, vgl. Tab StatBio 236
20 Allgemeine Bezeichnungen für Quantile der t Verteilung mit df = n 1 Freiheitsgraden: Zum Konfidenzniveau 0.9: t df;0.950 = t n 1;0.950 (0.95 Quantil) Zum Konfidenzniveau 0.95: t df;0.975 = t n 1;0.975 (0.975 Quantil) Zum Konfidenzniveau 0.99: t df;0.995 = t n 1;0.995 (0.995 Quantil) Die konkreten Werte sind für df 30 in Tab. 9.1 zusammengefasst. StatBio 237
21 Allgemeine Darstellung der Konfidenzintervalle zum Niveau 0.9, 0.95, 0.99 und Stichprobenumfang n: 90% Konfidenzintervall: ( s x t n 1;0.950, x + t n 1;0.950 n ) s n 95% Konfidenzintervall: ( s x t n 1;0.975, x + t n 1;0.975 n ) s n 99% Konfidenzintervall: ( s x t n 1;0.995, x + t n 1;0.995 n ) s n StatBio 238
22 Tabelle 9 1 t Werte für Konfidenzintervalle zum Vertrauensniveau 0.90, 0.95 und 0.99 (die Werte in der letzten Zeile (df = ) sind die entsprechenden z Werte der Standard Normalverteilung) 0.90 Niveau 0.95 Niveau 0.99 Niveau df t df;0.950 t df;0.975 t df; StatBio 239
23 0.90 Niveau 0.95 Niveau 0.99 Niveau df t df;0.950 t df;0.975 t df; StatBio 240
24 Aus Tab. 9 1 ist zu erkennen, dass mit wachsendem Stichprobenumfang, sprich mit wachsender Anzahl der Freiheitsgrade, die Quantile der t Verteilung kleiner werden und sich den Quantilen der Standard Normalverteilung annähern. 9.1 Beispiel: Bei 30 Studentinnen ergab sich eine Durchschnittsgröße (in cm) von x = und eine Standardabweichung von s = 5.2. Als Vertrauensniveau sei 0.95 vorgegeben. Der Stichprobenumfang ist n = 30, also df = n 1 = 30 1 = 29 Nach Tab. 9 1 ist der t Wert gleich t 29;0.975 = Daraus ergibt sich das 0.95 Konfidenzintervall StatBio 241
25 ( , ) = (166.4, 170.2) Interpretation: Mit 95% iger Sicherheit liegt die durchschnittliche Körpergröße von Studentinnen zwischen 166 cm und 170 cm. Verbundene Stichproben Häufig werden Stichproben in Form von Paaren (x 1i, x 2i ), i = 1,..., n erhoben. Paare treten auf bei Parallelisierte Stichproben (matched samples), bei denen die Merkmalsträger in den StatBio 242
26 beiden Stichproben nach einem sinnvollen Kriterium paarweise einander zugeordnet werden. Ein Paar (x 1i, x 2i ) beschreibt dann den Beobachtungswert des Merkmalsträgers i aus Stichprobe 1 und den Beobachtungswert des zugeordneten Merkmalsträgers aus Stichprobe 2. Beispiel: Methodenvergleich bei benachbarten Feldern. Messwiederholungen, wenn bei jedem Merkmalsträger in der Stichprobe zwei Messungen durchgeführt werden (Vorher Nachher Vergleich). Ein Paar (x 1i, x 2i ) beschreibt dann die Messwerte des Merkmalsträgers i zu den beiden Zeitpunkten 1 (vorher) und 2 (nachher). Beispiel: Körpergewicht vor und nach einer Diät. StatBio 243
27 Stichprobe 1 Stichprobe 2 x 11 x 21 x 12 x 22 x 13. x 23. x 1n x 2n Die Beobachtungen x 1i und x 2i sind dabei typischerweise abhängig. Die Streuung von Stichprobe 1 wird beeinflusst von der Streuung der Stichprobe 2 (und/oder umgekehrt). Man spricht daher von einer verbundenen Stichprobe oder einer gepaarten Stichprobe (paired samples). Aufgrund der Abhängigkeit ist es sinnvoll, nicht beide Stichproben einzeln zu betrachten, sondern nur die jeweils zusammengehörenden Paare (x 11, x 21 ), (x 12, x 22 ), (x 13, x 23 ),..., (x 1n, x 2n ) StatBio 244
28 Für jedes Paar i bildet man die Differenz d i = x 1i x 2i, i = 1,..., n Häufig ist es gerechtfertigt, die Unabhängigkeit der Differenzen anzunehmen, so dass d 1, d 2,..., d n als eine einfache Stichprobe aufgefasst werden kann. Der Mittelwert der Paardifferenzen d = 1 n d i n i=1 ist ein geeigneter Schätzwert für µ d = µ 1 µ 2 (µ d ist der Mittelwert der Paardifferenzen in der Grundgesamtheit). StatBio 245
29 Frage: Gibt es einen systematischen, bedeutsamen Unterschied in den Beobachtungspaaren der einer Interpretation wert ist, oder sind Unterschiede nur auf Zufälligkeiten, auf die Variabilität der Daten zurückzuführen? Wenn es keinen Unterschied zwischen den Populationsmittelwerten µ 1 und µ 2 gibt, ist zu erwarten, dass der Schätzwert ˆµ d = d in der Nähe von 0 liegt. Abweichungen von der Null können zufallsbedingt sein. Ein Konfidenzintervall für µ d ist hier wesentlich informativer! Ein 0.95 Konfidenzintervall für µ d ist gegeben durch die Grenzen d ± 1.96 sd n StatBio 246
30 wobei s d = 1 n 1 n (d i d) 2 i=1 die Standardabweichung der Paardifferenzen d 1,..., d n bezeichnet. 9.2 Beispiel: Morton et al. (1982), American Journal of Epidemiology 155, , untersuchten den Bleigehalt im Blut von Kindern, deren Eltern in einer Fabrik arbeiteten, die Blei zu Herstellung von Batterien verwendete. Um die Fragestellung zu untersuchen, ob die Kinder einer Bleibelastung ausgesetzt waren, die von ihren Eltern herrührte, wurde der Bleigehalt von 33 Kindern aus verschieden Familien untersucht und mit demjenigen von 33 jeweils gleichaltrigen und aus der Nachbarschaft stammenden Kontrollkindern verglichen. Deren Eltern arbeiteten in Industriezweigen, in denen kein Blei verwendet wurde. Eine Antwort soll ein 95% StatBio 247
31 Konfidenzintervall geben. Die 33 Paardifferenzen ergaben die Werte d = und s d = (Differenz: Bleigehalt Kind Bleigehalt Kontrollkind). Als 0.95 Konfidenzintervall für µ d erhält man ( ) d 1.96 sd, d sd n n = ( , ) = (10.55, 21.37) StatBio 248
32 Der Wert 0 liegt nicht im 0.95 Konfidenzintervall. Interpretation: Mit 95% iger Sicherheit nehmen Kinder, deren Eltern der oben beschriebenen Bleibelastung ausgesetzt sind, ebenfalls Blei auf. Die Belastung liegt mindestens bei Bei kleinen Stichprobenumfängen (n < 30) muss angenommen werden, dass die Paardifferenzen der zugrundeliegenden Grundgesamtheit normalverteilt sind. Ein 0.95 Konfidenzintervall ist dann gegeben durch d ± t n 1;0.975 sd n Bemerkung: Bei zwei verbundenen Stichproben sind nur die Paardifferenzen von Interesse. Somit hat man es bei der statistischen Analsyse nur mit einer Stichprobe zu tun (Ein Stichproben Problem). StatBio 249
33 9.3 Konfidenzintervall zum Vergleich zweier Mittelwerte (Zwei-Stichproben-Problem) Frage: Unterscheiden sich zwei Grundgesamtheiten hinsichtlich ihrer Mittelwerte µ 1 und µ 2? Dazu vergleicht man die Mittelwerte zweier Stichproben, die als unabhängig angesehen werden können (ungepaarte Stichproben). Stichprobe aus Stichprobe aus Grundgesamtheit 1 Grundgesamtheit 2 x 11 x 21 x 12 x 22 x 13. x 23 x 1n1. x 2n2 Beachte: n 1 n 2 ist ausdrücklich zugelassen! StatBio 250
34 Man vergleicht die Mittelwerte x 1 = 1 n 1 n 1 i=1 x 1i und x 2 = 1 n 2 n 2 j=1 x 2j der beiden Stichproben. Die Differenz der beiden Mittelwerte x 1 x 2 ist eine (erwartungstreue) Schätzung für die Differenz der Populationsmittelwerte µ 1 µ 2. Neben dieser Punktschätzung für µ 1 µ 2 benötigt man noch den Standardfehler der Differenz der Mittelwerte (= Standardabweichung von x 1 x 2 ). Man kann zeigen, dass der Standardfehler der Differenz x 1 x 2 gegeben ist durch σ1 2 σ x1 x 2 = + σ2 2 (9.1) n 1 n 2 Annahme: Beide Populationen besitzen die glei- StatBio 251
35 che Varianz σ 2 (d.h. σ 2 1 = σ 2 2 = σ 2 ). Man spricht von Varianzhomogenität. Unter der Annahme der Varianzhomogenität geht Formel (9.1) über in σ x1 x 2 = σ 2 n 1 + σ2 n 2 = σ = σ n 1 n 2 n1 + n 2 (9.2) n 1 n 2 Frage: Was ist eine vernünftige Schätzung von σ 2 (und damit für σ) im Zwei Stichprobenfall? Im Fall der Varianzhomogenität ist die StatBio 252
36 gepoolte (Stichproben )Varianz s 2 gepoolt = n1 i=1 ( ) 2 n2 ( ) 2 x1i x 1 + j=1 x2j x 2 n n 2 1 eine vernünftige Schätzung für σ 2. Die gepoolte Varianz lässt sich schreiben in der Form s 2 gepoolt = (n 1 1) s (n 2 1) s 2 2 (n 1 1) + (n 2 1) Dabei bezeichnen = (n 1 1) s (n 2 1) s 2 2 n 1 + n 2 2 s 2 1 = 1 n 1 1 n 1 i=1 ( x1i x 1 ) 2 und s 2 2 = 1 n 2 1 n 2 j=1 ( x2j x 2 ) 2 StatBio 253
37 die Varianzen der Stichproben 1 und 2. Bemerkung: Natürlich sind s 2 1 und s 2 2 ebenfalls plausible Schätzungen für σ 2. Diese Schätzungen beruhen jedoch ausschließlich auf Stichprobe 1 bzw. Stichprobe 2. Die gepoolte Varianz nimmt hingegen Bezug auf beide Stichproben und kombiniert in geeigneter Weise die beiden Schätzungen s 2 1 und s 2 2. Daher ist die gepoolte Varianz eine genauere Schätzung für σ 2 als die,,einzelvarianzen s 2 1 bzw. s 2 2. Ersetzt man in (9.2) σ durch s gepoolt, so erhält man als Schätzung für den Standardfehler von x 1 x 2 s gepoolt n1 + n 2 n 1 n 2 Nach dem zentralen Grenzwertsatz ist die Stichprobenverteilung der studentisierten Mittelwert- StatBio 254
38 differenz x 1 x 2 (µ 1 µ 2 ) (9.3) s gepoolt n1 +n 2 n 1 n 2 annähernd eine N(0, 1) Verteilung, vorausgesetzt die Stichprobenumfänge sind hinreichend groß (n 1 30, n 2 30). Für Stichprobenumfänge n 1 30, n 2 30 sind die Grenzen eines Konfidenzintervalls für µ 1 µ 2 zur Vertrauenswahrscheinlichkeit 0.90, 0.95, 0.99 gegeben durch x 1 x 2 ± z s gepoolt n1 + n 2 n 1 n 2 mit den z Werten 1.645, 1.960, StatBio 255
39 9.3 Beispiel: Es wurden die Körpergrößen von 39 männlichen und von 30 weiblichen Studenten gemessen. Es ergaben sich die folgenden Werte (Stichprobe 1 = männlich, Stichprobe 2 = weiblich): Ist x 1 = 182.5, s 1 = 6.7 x 2 = 168.3, s 2 = 5.2 µ männlich (µ 1 ) = µ weiblich (µ 2 )? Die Differenz der Stichprobenmittel beträgt Ferner ist = 14.2 s gepoolt = = StatBio 256
40 Daraus ergeben sich die folgenden Grenzen eines 0.95 Konfidenzintervalls für µ 1 µ 2 : ± = 14.2 ± 2.91 Ein 0.95 Konfidenzintervall für µ 1 µ 2 ist somit (11.29, 17.11) Die Null ist nicht im Konfidenzintervall enthalten! Interpretation: Die Mittelwertsunterschiede in den Körpergrößen lassen sich nicht nur auf Zufälligkeiten zurückführen. StatBio 257
41 Für kleine Stichprobenumfänge (n 1 < 30, n 2 < 30) muss vorausgesetzt werden, dass die Grundgesamtheiten normalverteilt sind. In diesem Fall besitzt die studentisierte Mittelwertdifferenz (9.3) eine t Verteilung mit Anzahl der Freiheitsgrade (df) = n 1 +n 2 2 Die Grenzen eines Konfidenzintervalls für µ 1 µ 2 sind dann gegeben durch x 1 x 2 ± t s gepoolt n1 + n 2 n 1 n 2 Der t Wert ist das Quantil der t Verteilung mit n 1 + n 2 2 Freiheitsgraden. Dieses wird wieder aus Tab. 9 1 entsprechend der vorgegebenen Vertrauenswahrscheinlichkeit entnommen. StatBio 258
42 Anmerkung: Auch im Fall ungleicher Varianzen lässt sich ein (approximatives) Konfidenzintervall für µ 1 µ 2 angeben. Der Standardfehler der Differenz x 1 x 2 ist nach (9.1) σ 2 1 n 1 + σ2 2 n 2 und somit ist s s2 2 n 1 n 2 der geschätzte Standardfehler. Unter der Normalverteilungsannahme sind die Grenzen eines approximativen Konfidenzintervalls gegeben durch x 1 x 2 ± t s 2 1 n 1 + s2 2 n 2 Warum nur approximativ? StatBio 259
43 Im Fall heterogener Varianzen ist die (exakte) Stichprobenverteilung der studentisierten Mittelwertdifferenz x 1 x 2 (µ 1 µ 2 ) s 2 1 n 1 + s2 2 n 2 bis heute nicht bekannt (Behrens Fisher Problem). Man kann aber zeigen, dass die Stichprobenverteilung näherungsweise eine t Verteilung ist, wobei die Anzahl der Freiheitsgrade aus den Daten heraus geschätzt werden muss. Statistische Softwarepakete berechnen dieses Konfidenzintervall. Literatur: Welch, B.L. (1947), The generalization of Student s problem when several different population variances are involved, Biometrika 34, StatBio 260
44 9.4 Die Bedeutung des Stichprobenumfangs 1. Mit zunehmenden Stichprobenumfang nimmt die Bedeutung von Verteilungsannahmen (Normalverteilung, Varianzhomogenität) ab. Begründung: Für hinreichend große Stichprobenumfänge lassen sich Stichprobenkennwertverteilungen von Mittelwerten durch eine Normalverteilung ersetzen (zentraler Grenzwertsatz). 2. Mit zunehmenden Stichprobenumfang erhöht sich die Schätzgenauigkeit, d.h. die Länge eines Konfidenzintervalls nimmt ab. Begründung: Der Standardfehler des Mittelwertes und die Quantile der t Verteilung (Tabelle 9 1) werden mit wachsendem Stichprobenumfang kleiner. StatBio 261
45 Der Anwender kann die Länge eines Konfidenzintervalls (nur) über die Überdeckungswahrscheinlichkeit und den Stichprobenumfang beeinflussen. In der Praxis wird häufig die Frage nach dem Mindeststichprobenumfang gestellt: Wie groß muss mindestens der Stichprobenumfang n gewählt werden, damit die Länge eine Konfidenzintervalls mit vorgegebener Überdeckungswahrscheinlichkeit einen bestimmten Wert L nicht überschreitet? Sei 0.95 die vorgegebene Überdeckungswahrscheinlichkeit. Wie bestimmt man den Mindeststichprobenumfang? Zunächst eine theoretische Vorüberlegung. StatBio 262
46 Im Ein Stichproben Fall wird das Konfidenzintervall ( x 1.96 σ n, x ) σ n mit der Intervalllänge σ n betrachtet. Formal ergibt sich der Mindeststichprobenumfang aus der Lösung der Ungleichung L σ n Durch,,Auflösen nach n erhält man die Ungleichung n σ 2 L 2 StatBio 263
47 Das minimale n, dass diese Ungleichung erfüllt, ist dann der Mindeststichprobenumfang: n min = kleinstes n mit n σ 2 L 2 (9.4) Nun ist σ i. A. nicht bekannt. Wie geht man in der Praxis vor? Entweder liegt bereits eine zuverlässige Schätzung vor (basierened auf eine Paralleluntersuchung) und man ersetzt in Gleichung (9.4) σ durch diesen Schätzwert oder aber man führt eine Voruntersuchung durch und schätzt σ mittels einer Stichprobe von geringem Umfang. Dieser Schätzwert ist normalerweise größer als jede Standardabweichung, die auf der Basis einer umfangreicheren Stichprobe ermittelt werden würde. StatBio 264
48 9.4 Beispiel: In einem bestimmten Bodenhorizont interessiert man sich für eine Schätzung von extrahierbaren P 2 O 5 (gemessen in mg pro 100 g). Wie groß muss die Anzahl der Bodenproben sein, damit ein 0.95 Konfidenzintervall die Länge von 0.2 (Schätzgenauigkeit ±0.1) nicht überschreitet? Aus früheren Forschungen ist bekannt, dass die Standardabweichung von P 2 O 5 bei 0.7 mg liegt. Lösung: Der z Wert ist das Quantil z = Der Mindeststichprobenumfang bestimmt sich aus der Ungleichung n (0.2) 2 = Folglich ist n min = 189. StatBio 265
49 Fordert man eine Länge von 0.1 (doppelte Schätzgenauigkeit), so ergibt sich wegen n = ein Mindeststichprobenumfang von 753 (das Vierfache). Allgemein gilt: Eine doppelte Schätzgenauigkeit L/2 erfordert einen vierfachen Mindeststichprobenumfang: n σ 2 (L/2) 2 = σ 2 L 2 StatBio 266
50 9.5 Konfidenzintervall für einen Anteilswert Im Folgenden sollen die Aussagen von Abschnitt 9.2 für dichotome Grundgesamtheiten formuliert werden. Sei X ein 0/1 kodiertes binäres Merkmal. Nach Abschnitt 7.2 ist X Bernoulli verteilt zum Parameter π (0, 1): P (X = 1) = π, P (X = 0) = 1 π π bezeichnet hier den (unbekannten) Anteilswert, also die relative Häufigkeit der Merkmalsträger einer zugrundeliegenden Grundgesamtheit mit Ausprägung 1: π = Anteil der Merkmalsträger einer Grundgesamtheit mit Ausprägung 1 Ziel: Intervallschätzung für den Anteilswert π StatBio 267
51 Sei wieder x 1,..., x n eine Stichprobe vom Umfang n. Eine Punktschätzung für π ist die relative Trefferhäufigkeit x = relative Häufigkeit der Ausprägung 1 in der Stichprobe x 1,..., x n (zur Erinnerung: x i ist entweder 1 oder 0). Für die Populationsvarianz gilt: σ 2 = π (1 π) (vgl. Abschnitt 8.4, Aufgabe 3, Blatt 6). Eine vernünftige Schätzung der Varianz ist somit ˆσ 2 = x (1 x) StatBio 268
52 Damit ist ESEM = x (1 x) eine Schätzung von SEM = σ/ n = π (1 π)/ n. n Wenn die Faustregel (8.2) erfüllt ist, d. h. n x (1 x) > 9 so sind die Grenzen eines Konfidenzintervalls für π zur Vertrauenswahrscheinlichkeit 0.9, 0.95, 0.99 gegeben durch x ± z x (1 x) n mit den z Werten z 0.95 = 1.645, z = 1.96, z = StatBio 269
53 9.5 Beispiel: Der plötzliche Kindstod SIDS (Sudden Infant Death Syndrome) ist ein noch ungeklärtes Phänomen. Die relative Häufigkeit (Rate) des SIDS beträgt weltweit im Durchschnitt 4.4 auf 1000 Geburten. Tasmanien wies zwischen den Jahren 1975 und SIDS auf 3939 Geburten aus, was einer Rate von 6.1 auf 1000 entspricht. Ist diese Rate 6.1 wesentlich höher als die Rate von 4.4 oder lässt sich dieser Unterschied nur durch den Zufall erklären? Die Punktschätzung (relative Trefferhäufigkeit) beträgt x = = Wegen ( ) = > 9 ist die Faustregel (8.2) erfüllt. StatBio 270
54 untere Grenze: obere Grenze: Somit ist = = ( ) ( ) (0.0037, ) ein 0.95 Konfidenzintervall für π: 3939 Interpretation: Mit 95% iger Sicherheit liegt der (wahre) Anteilswert π zwischen 3.7 und 8.5. Da im Konfidenzintervall liegt, kann der beobachtete Unterschied auch zufällig begründet sein. StatBio 271
55 9.6 Konfidenzintervall zum Vergleich zweier Anteilswerte (Zwei-Stichproben-Problem) Im Folgenden sollen die Aussagen von Abschnitt 9.3 für dichotome Grundgesamtheiten formuliert werden. Sei X ein 0/1 kodiertes binäres Merkmal. Ausgangspunkt: zwei dichotome Grundgesamtheiten. Es soll entschieden werden, ob sich die Grundgesamtheiten hinsichtlich ihrer Anteilswerte π 1 und π 2 unterscheiden. Dazu werden zwei unabhängige Stichproben x 11,..., x 1n1 (Stichprobe 1) und erhoben. x 21,..., x 2n2 (Stichprobe 2) StatBio 272
56 Jede Beobachtung besitzt entweder den Wert 1 oder 0. Bezeichnen und x 1 = 1 n 1 n 1 i=1 x 2 = 1 n 2 n 2 j=1 x 1i x 2j die Anteilswerte der beiden Stichproben (Schätzungen für π 1 bzw. π 2 ). Wegen σ 2 1 = π 1 (1 π 1 ) und σ 2 2 = π 2 (1 π 2 ) beträgt der Standardfehler der Differenz x 1 x 2 π 1 (1 π 1 ) + π 2 (1 π 2 ) n 1 n 2 (dies entspricht (9.1)). StatBio 273
57 Damit sind x 1 (1 x 1 ) und x 2 (1 x 2 ) (Punkt )Schätzungen für σ 2 1 bzw. σ 2 2. Folglich ist x 1 (1 x 1 ) n 1 + x 2 (1 x 2 ) n 2 eine Schätzung des Standardfehlers von x 1 x 2. StatBio 274
58 Sind die Faustregeln und n 1 x 1 (1 x 1 ) > 9 n 2 x 2 (1 x 2 ) > 9 erfüllt, so sind die Grenzen eines Konfidenzintervalls für π 1 π 2 zur Vertrauenswahrscheinlichkeit 0.9, 0.95, 0.99 gegeben durch x 1 x 2 ± z x 1 (1 x 1 ) n 1 + x 2 (1 x 2 ) n 2 mit den z Werten z 0.95 = 1.645, z = 1.96, z = StatBio 275
59 9.6 Beispiel: (Quelle: New England Journal of Medicine (1992)) Die Sterblichkeit ist bei schwarzen Säuglingen (Gruppe 1) im ersten Jahr doppelt so hoch wie bei weißen Säuglingen von Eltern mit Kollege Ausbildung (Gruppe 2). Der Untersuchungszeitraum war von 1983 bis Der Stichprobenumfang von Gruppe 1 betrug mit einem Anteilswert von 10.2 Promille, der Stichprobenumfang von Gruppe 2 betrug mit einem Anteilswert von 5.4 Promille. Kann man behaupten, dass die Sterblichkeitsraten in den zwei Populationen wesentlich verschieden sind? Anmerkung: Die unverhältnismäßig unterschiedlichen Stichprobenumfänge fallen auf, stören aber die statistische Auswertung nicht. Zunächst gilt x 1 = und x 2 = StatBio 276
60 Wegen und ( ) = > ( ) = > 9 sind obige Faustregeln erfüllt. Ferner beträgt der geschätzte Standardfehler x 1 (1 x 1 ) n 1 + x 2 (1 x 2 ) n 2 = = StatBio 277
61 Die Grenzen eines 0.95 Konfidenzintervall sind gegeben durch Damit ist ± ± (0.0039, ) ein 0.95 Konfidenzintervall für π 1 π 2. Interpretation: Die Null ist nicht im Konfidenzintervall enthalten. Ferner sagt das Konfidenzintervall, dass die Sterblichkeitsrate in Gruppe 1 größer ist als bei Gruppe 2 und dass die Differenz mindestens 3.9 Promille beträgt. StatBio 278
62 Abschließende Bemerkung: Die in diesem Kapitel aufgeführten Beispiele machen deutlich, dass ein Konfidenzintervall eine wesentlich bessere Beurteilung des Schätzwertes erlaubt als eine Punktschätzung. Während die Bestimmung einer Punktschätzung (relativ) einfach ist (ein allgemeines Konstruktionsprinzip ist die Maximum Likelihood Methode), kann die Bestimmung eines Konfidenzintervalls äußerst kompliziert sein, da hierzu Verteilungsaussagen über eine Punktschätzung benötigt werden. StatBio 279
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
MehrTeil II. Der Weg zur schließenden Statistik: Von den Daten zu Wahrscheinlichkeiten. StatSoz 127
Teil II Der Weg zur schließenden Statistik: Von den Daten zu Wahrscheinlichkeiten StatSoz 127 6 Zufallsstichprobe und Parameter 6.1 Parameter einer Grundgesamtheit 6.2 Zufallsstichprobe und Bias 6.3 Stichprobenfehler
MehrStatistische Tests für unbekannte Parameter
Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung
MehrStatistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de
rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Punkt- und Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr.
Mehr1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung
0 Einführung 1 Wahrscheinlichkeitsrechnung Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung Motivation und Hinführung Der wahre Anteil der rot-grün Wähler 009 war genau
MehrGrundgesamtheit und Stichprobe
Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U
MehrGrundgesamtheit und Stichprobe
Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U
MehrProbleme bei kleinen Stichprobenumfängen und t-verteilung
Probleme bei kleinen Stichprobenumfängen und t-verteilung Fassen wir zusammen: Wir sind bisher von der Frage ausgegangen, mit welcher Wahrscheinlichkeit der Mittelwert einer empirischen Stichprobe vom
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
MehrStatistische Tests (Signifikanztests)
Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 9. Dezember 2010 1 Konfidenzintervalle Idee Schätzung eines Konfidenzintervalls mit der 3-sigma-Regel Grundlagen
MehrJost Reinecke. 7. Juni 2005
Universität Bielefeld 7. Juni 2005 Testtheorie Test für unabhängige Stichproben Test für abhängige Stichproben Testtheorie Die Testtheorie beinhaltet eine Reihe von Testverfahren, die sich mit der Überprüfung
Mehr8. Konfidenzintervalle und Hypothesentests
8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars
Mehr10 Der statistische Test
10 Der statistische Test 10.1 Was soll ein statistischer Test? 10.2 Nullhypothese und Alternativen 10.3 Fehler 1. und 2. Art 10.4 Parametrische und nichtparametrische Tests 10.1 Was soll ein statistischer
Mehr10,24 ; 10,18 ; 10,28 ; 10,25 ; 10,31.
Bei einer Flaschenabfüllanlage ist die tatsächliche Füllmenge einer Flasche eine normalverteilte Zufallsvariable mit einer Standardabweichung = 3 [ml]. Eine Stichprobe vom Umfang N = 50 ergab den Stichprobenmittelwert
MehrKapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem
Mehr5. Spezielle stetige Verteilungen
5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für
MehrGrundlegende Eigenschaften von Punktschätzern
Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur
Mehr3 Grundlagen statistischer Tests (Kap. 8 IS)
3 Grundlagen statistischer Tests (Kap. 8 IS) 3.1 Beispiel zum Hypothesentest Beispiel: Betrachtet wird eine Abfüllanlage für Mineralwasser mit dem Sollgewicht µ 0 = 1000g und bekannter Standardabweichung
Mehr4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)
4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 4.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte
MehrPrüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003
Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003. Eine seltene Krankheit trete mit Wahrscheinlichkeit : 0000 auf. Die bedingte Wahrscheinlichkeit, dass ein bei einem Erkrankten durchgeführter
Mehr10. Die Normalverteilungsannahme
10. Die Normalverteilungsannahme Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Bisher haben wir vorausgesetzt, daß die Beobachtungswerte normalverteilt sind. In diesem Fall kann man
MehrBeschreibende Statistik Deskriptive Statistik. Schließende Statistik Inferenzstatistik. Schluss von der Stichprobe auf die Grundgesamtheit
Beschreibende Statistik Deskriptive Statistik Schließende Statistik Inferenzstatistik Beschreibung der Stichprobe Schluss von der Stichprobe auf die Grundgesamtheit Keine Voraussetzungen Voraussetzung:
MehrMethodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft
MehrStatistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe
Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,
MehrStatistik für SozialwissenschaftlerInnen II p.85
Schätzverfahren Statistik für SozialwissenschaftlerInnen II p.85 Schätzverfahren Ziel von Schätzverfahren: Ausgehend von Stichproben Aussagen über Populationskennwerte machen Kenntnis der Abweichung des
MehrVS PLUS
VS PLUS Zusatzinformationen zu Medien des VS Verlags Statistik II Inferenzstatistik 2010 Übungsaufgaben und Lösungen - Inferenzstatistik 1 [Übungsaufgaben und Lösungenn - Inferenzstatistik 1] ÜBUNGSAUFGABEN
MehrZentraler Grenzwertsatz/Konfidenzintervalle
/ Statistik I Sommersemester 2009 Statistik I ZGWS/ (1/37) Kann Ahmadinejad die Wahl gewonnen haben? Im wesentlichen Dreiteilung der polit. Elite 2005: 17.3 Millionen Stimmen (Stichwahl), Wahlbeteiligung
Mehr3 Konfidenzintervalle
3 Konfidenzintervalle Konfidenzintervalle sind das Ergebnis von Intervallschätzungen. Sicheres Wissen über Grundgesamtheiten kann man anhand von Stichproben nicht gewinnen. Aber mit Hilfe der Statistik
Mehr1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...
Inhaltsverzeichnis 0 Einführung 1 1 Zufallsvorgänge und Wahrscheinlichkeiten 5 1.1 Zufallsvorgänge.......................... 5 1.1.1 Ergebnismengen..................... 6 1.1.2 Ereignisse und ihre Verknüpfung............
Mehr11 Tests zur Überprüfung von Mittelwertsunterschieden
11 Tests zur Überprüfung von Mittelwertsunterschieden 11.1 Der z Test (t Test) für verbundene Stichproben 11.2 Der z Test (t Test) für unabhängige Stichproben 11.3 Fehler 1. Art und 2. Art 11.4 Typische
MehrKonfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005
Universität Bielefeld 13. Juni 2005 Einführung Einführung Wie kann die Kenntnis der Wahrscheinlichkeitsverteilung der Parameter einer Stichprobe dazu verhelfen auf die wahren Werte der Grundgesamtheit
Mehr5. Schließende Statistik. 5.1. Einführung
5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.
MehrÜbungen mit dem Applet Vergleich von zwei Mittelwerten
Vergleich von zwei Mittelwerten 1 Übungen mit dem Applet Vergleich von zwei Mittelwerten 1 Statistischer Hintergrund... 2 1.1 Typische Fragestellungen...2 1.2 Fehler 1. und 2. Art...2 1.3 Kurzbeschreibung
MehrSchätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO
Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung
MehrHypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren
Hypothesenprüfung Teil der Inferenzstatistik Befaßt sich mit der Frage, wie Hypothesen über eine (in der Regel unbekannte) Grundgesamtheit an einer Stichprobe überprüft werden können Behandelt werden drei
MehrAllgemeines zu Tests. Statistische Hypothesentests
Statistische Hypothesentests Allgemeines zu Tests Allgemeines Tests in normalverteilten Grundgesamtheiten Asymptotische Tests Statistischer Test: Verfahren Entscheidungsregel), mit dem auf Basis einer
MehrKonkretes Durchführen einer Inferenzstatistik
Konkretes Durchführen einer Inferenzstatistik Die Frage ist, welche inferenzstatistischen Schlüsse bei einer kontinuierlichen Variablen - Beispiel: Reaktionszeit gemessen in ms - von der Stichprobe auf
MehrRegression und Korrelation
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen
MehrEinführung in die Induktive Statistik: Testen von Hypothesen
Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte
MehrEntscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten
Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 4.1 4. Statistische Entscheidungsverfahren Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten Beispiel:
MehrPrüfgröße: Ist die durch eine Schätzfunktion zugeordnete reelle Zahl (etwa Mittelwert 7 C).
Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Aus praktischen Gründen
MehrLösungen zu den Übungsaufgaben in Kapitel 10
Lösungen zu den Übungsaufgaben in Kapitel 10 (1) In einer Stichprobe mit n = 10 Personen werden für X folgende Werte beobachtet: {9; 96; 96; 106; 11; 114; 114; 118; 13; 14}. Sie gehen davon aus, dass Mittelwert
MehrAuswertung und Lösung
Dieses Quiz soll Ihnen helfen, Kapitel 4.7 und 4.8 besser zu verstehen. Auswertung und Lösung Abgaben: 71 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 5.65 Frage 1
Mehr9. Schätzen und Testen bei unbekannter Varianz
9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,
MehrDipl.-Volksw. Markus Pullen Wintersemester 2012/13
Statistische Auswertungen mit R Universität Kassel, FB 07 Wirtschaftswissenschaften Dipl.-Volksw. Markus Pullen Wintersemester 2012/13 Beispiele 8. Sitzung Konfidenzintervalle, Hypothesentests > # Anwendungsbeispiel
MehrWahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen
Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen Noémie Becker & Dirk Metzler 31. Mai 2016 Inhaltsverzeichnis 1 Binomialverteilung 1 2 Normalverteilung 2 3 T-Verteilung
MehrBiometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1
Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1 Aufgabe 1 (10 Punkte). 10 Schüler der zehnten Klasse unterziehen sich zur Vorbereitung auf die Abschlussprüfung einem Mathematiktrainingsprogramm.
MehrChi-Quadrat Verfahren
Chi-Quadrat Verfahren Chi-Quadrat Verfahren werden bei nominalskalierten Daten verwendet. Die einzige Information, die wir bei Nominalskalenniveau zur Verfügung haben, sind Häufigkeiten. Die Quintessenz
Mehr1 Dichte- und Verteilungsfunktion
Tutorium Yannick Schrör Klausurvorbereitungsaufgaben Statistik Lösungen Yannick.Schroer@rub.de 9.2.26 ID /455 Dichte- und Verteilungsfunktion Ein tüchtiger Professor lässt jährlich 2 Bücher drucken. Die
MehrKapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen
Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen Induktive Statistik Prof. Dr. W.-D. Heller
MehrZufallsvariablen [random variable]
Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden
Mehr2 Aufgaben aus [Teschl, Band 2]
20 2 Aufgaben aus [Teschl, Band 2] 2.1 Kap. 25: Beschreibende Statistik 25.3 Übungsaufgabe 25.3 a i. Arithmetisches Mittel: 10.5 ii. Median: 10.4 iii. Quartile: x 0.25 Y 4 10.1, x 0.75 Y 12 11.1 iv. Varianz:
MehrMathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007
Mathematik IV für Maschinenbau und Informatik Stochastik Universität Rostock, Institut für Mathematik Sommersemester 007 Prof. Dr. F. Liese Dipl.-Math. M. Helwich Serie Termin: 9. Juni 007 Aufgabe 3 Punkte
MehrTest auf den Erwartungswert
Test auf den Erwartungswert Wir interessieren uns für den Erwartungswert µ einer metrischen Zufallsgröße. Beispiele: Alter, Einkommen, Körpergröße, Scorewert... Wir können einseitige oder zweiseitige Hypothesen
MehrHypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests
ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen
MehrAnalyse von Querschnittsdaten. Signifikanztests I Basics
Analyse von Querschnittsdaten Signifikanztests I Basics Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 19. Januar 2011 1 Nichtparametrische Tests Ordinalskalierte Daten 2 Test für ein Merkmal mit nur zwei Ausprägungen
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und
MehrAufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.
Aufgabenblock 4 Aufgabe ) Da s = 8. cm nur eine Schätzung für die Streuung der Population ist, müssen wir den geschätzten Standardfehler verwenden. Dieser berechnet sich als n s s 8. ˆ = = =.88. ( n )
Mehr3 Evaluation als Beschreibung von Zuständen
Evaluation als Beschreibung von Zuständen 1 Sind die folgenden Aussagen richtig oder falsch? 1.1 In einer Klumpenstichprobe werden systematisch anfallende Cluster von Personen vollständig untersucht. Die
Mehrb) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!
Aufgabe 1 (3 + 3 + 2 Punkte) Ein Landwirt möchte das durchschnittliche Gewicht von einjährigen Ferkeln bestimmen lassen. Dies möchte er aus seinem diesjährigen Bestand an n Tieren schätzen. Er kann dies
MehrEin- und Zweistichprobentests
(c) Projekt Neue Statistik 2003 - Lernmodul: Ein- Zweistichprobentests Ein- Zweistichprobentests Worum geht es in diesem Modul? Wiederholung: allgemeines Ablaufschema eines Tests Allgemeine Voraussetzungen
MehrWiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)
Statistik I Sommersemester 2009 Statistik I I (1/36) Wiederholung Grenzwertsatz Konfidenzintervalle Logik des 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 Statistik I I (2/36) Zum Nachlesen Agresti/Finlay: Kapitel 6+7
Mehrdie wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen
Kapitel 8 Schätzung von Parametern 8.1 Schätzmethoden Gegeben seien Beobachtungen Ü Ü ¾ Ü Ò die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen ¾ Ò auffassen. Die Verteilung
MehrWahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen
Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen Noémie Becker & Dirk Metzler http://evol.bio.lmu.de/_statgen 7. Juni 2013 1 Binomialverteilung 2 Normalverteilung 3 T-Verteilung
MehrSchließende Statistik
Schließende Statistik Die schließende Statistik befasst sich mit dem Rückschluss von einer Stichprobe auf die Grundgesamtheit (Population). Die Stichprobe muss repräsentativ für die Grundgesamtheit sein.
MehrMathematische und statistische Methoden II
Statistik & Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte
MehrStatistik II für Betriebswirte Vorlesung 1
Statistik II für Betriebswirte Vorlesung 1 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 19. Oktober 2016 Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung
MehrStatistik-Klausur vom
Statistik-Klausur vom 27.09.2010 Bearbeitungszeit: 60 Minuten Aufgabe 1 Ein international tätiges Unternehmen mit mehreren Niederlassungen in Deutschland und dem übrigen Europa hat seine überfälligen Forderungen
MehrWebinar Induktive Statistik. - Wahrscheinlichkeitsrechnung - Stichprobentheorie
Webinar Induktive Statistik - Wahrscheinlichkeitsrechnung - Stichprobentheorie Wahrscheinlichkeitstheorie Aufgabe : Zwei Lieferanten decken den Bedarf eines PKW-Herstellers von 00.000 Einheiten pro Monat.
Mehr7.5 Erwartungswert, Varianz
7.5 Erwartungswert, Varianz Def. 7.5.: a) X sei eine diskrete ZV, die bei unendl. vielen Werten x k folgende Zusatzbedingung erfüllt: x k p k
MehrINFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE. Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße
DAS THEMA: INFERENZSTATISTIK III INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße Inferenzstatistik für Lagemaße Standardfehler
MehrWissenschaftliche Nachrichten: https://www.bmbf.gv.at/schulen/sb/wina/wina.html Vol. 131/2006, 19-21
Der T-Test in Excel NORBERT BRUNNER und MANFRED KÜHLEITNER Ein häufiges Problem ist der Vergleich eines beobachteten Stichprobenmittelwerts mit einem Sollwert. Dabei wird der T-Test angewandt. Wir zeigen
Mehrk np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr
Die so genannte Gütefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein Test die Nullhypothese verwirft. Für unser hier entworfenes Testverfahren gilt ( ) k np g(n, p) = Pr p [T K] = Pr p
MehrWahrscheinlichkeitstheorie und Statistik vom
INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen
MehrÜbungsaufgaben zu Statistik II
Übungsaufgaben zu Statistik II Prof. Dr. Irene Prof. Dr. Albrecht Ungerer Die Kapitel beziehen sich auf das Buch: /Ungerer (2016): Statistik für Wirtschaftswissenschaftler Springer Gabler 4 Übungsaufgaben
MehrKlausur (Modulprüfung) zum Lehrerweiterbildungskurs Stochastik am von 10:00 bis 11:00 Uhr
Klausur (Modulprüfung) zum Lehrerweiterbildungskurs Stochastik am 5..201 von 10:00 bis 11:00 Uhr Bearbeiten Sie zwei der drei folgenden Aufgaben! Sätze aus der Vorlesung und den Übungen dürfen Sie ohne
MehrStatistik. Ronald Balestra CH St. Peter
Statistik Ronald Balestra CH - 7028 St. Peter www.ronaldbalestra.ch 17. Januar 2010 Inhaltsverzeichnis 1 Statistik 1 1.1 Beschreibende Statistik....................... 1 1.2 Charakterisierung von Häufigkeitsverteilungen...........
Mehr30. März Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette
Ruhr-Universität Bochum 30. März 2011 1 / 46 Methodenlehre II NA 3/73 Telefon: 0234 322 8284 Email: holger.dette@rub.de Internet: www.ruhr-uni-bochum.de/mathematik3/index.html Vorlesung: Montag, 8.30 10.00
MehrStandardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend
Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten
MehrStatistik, Geostatistik
Geostatistik Statistik, Geostatistik Statistik Zusammenfassung von Methoden (Methodik), die sich mit der wahrscheinlichkeitsbezogenen Auswertung empirischer (d.h. beobachteter, gemessener) Daten befassen.
MehrProf. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung
Systematische Stichprobe Rel. große Gruppe von Stichprobenverfahren. Allgemeines Merkmal: es existiert ein festes, systematisches Muster bei der Auswahl. Wie passt das zur allgemeinen Forderung nach Randomisierung
MehrDeskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische
MehrInhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5
Inhaltsverzeichnis Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite 1.0 Erste Begriffsbildungen 1 1.1 Merkmale und Skalen 5 1.2 Von der Urliste zu Häufigkeitsverteilungen 9 1.2.0 Erste Ordnung
MehrStatistik III. Walter Zucchini Fred Böker Andreas Stadie
Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................
MehrLösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK
Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 8. Dezember 2010 Teil V Schließende Statistik 1 Parameterschätzung Erwartungstreue und Konsistenz Maximum-Likelihood
MehrKlausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1
Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester 2013 Aufgabe 1 In einer Urne
MehrBiostatistik, Winter 2011/12
Biostatistik, Winter 2011/12 / Übungsaufgaben Prof. Dr. Achim Klenke http://www.aklenke.de 13. Vorlesung: 10.02.2012 1/51 Aufgabe 1 Aufgabenstellung Übungsaufgaben Ein Pharmakonzern möchte ein neues Schlankheitsmedikament
MehrDas (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
MehrAnalyse von Kontingenztafeln
Analyse von Kontingenztafeln Mit Hilfe von Kontingenztafeln (Kreuztabellen) kann die Abhängigkeit bzw. die Inhomogenität der Verteilungen kategorialer Merkmale beschrieben, analysiert und getestet werden.
MehrKapitel 10. Stichproben
Kapitel 10 n In der deskriptiven Statistik werden die Charakteristika eines Datensatzes durch Grafiken verdeutlicht und durch Maßzahlen zusammengefasst. In der Regel ist man aber nicht nur an der Verteilung
MehrNachhol-Klausur - Schätzen und Testen - Wintersemester 2013/14
Prof. Dr. Rainer Schwabe 08.07.2014 Otto-von-Guericke-Universität Magdeburg Institut für Mathematische Stochastik Nachhol-Klausur - Schätzen und Testen - Wintersemester 2013/14 Name:, Vorname: Matr.-Nr.
MehrKapitel 3 Schließende Statistik
Beispiel 3.4: (Fortsetzung Bsp. 3.) bekannt: 65 i=1 X i = 6, also ˆp = X = 6 65 = 0, 4 Überprüfen der Voraussetzungen: (1) n = 65 30 () n ˆp = 6 10 (3) n (1 ˆp) = 39 10 Dr. Karsten Webel 194 Beispiel 3.4:
MehrKlausur zu Statistik II
GOETHE-UNIVERSITÄT FRANKFURT FB Wirtschaftswissenschaften Statistik und Methoden der Ökonometrie Prof. Dr. Uwe Hassler Wintersemester 03/04 Klausur zu Statistik II Matrikelnummer: Hinweise Hilfsmittel
MehrVS PLUS
VS PLUS Zusatzinformationen zu Medien des VS Verlags Statistik II Inferenzstatistik 2010 Übungsaufgaben und Lösungen Inferenzstatistik 2 [Übungsaufgaben und Lösungenn - Inferenzstatistik 2] ÜBUNGSAUFGABEN
MehrParametrische vs. Non-Parametrische Testverfahren
Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer
MehrHypothesentests mit SPSS. Beispiel für einen t-test
Beispiel für einen t-test Daten: museum-f-v04.sav Hypothese: Als Gründe, in ein Museum zu gehen, geben mehr Frauen als Männer die Erweiterung der Bildung für Kinder an. Dies hängt mit der Geschlechtsrolle
Mehr