Mathematik 2 für Naturwissenschaften

Ähnliche Dokumente
Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Online-Aufgaben Statistik (BIOL, CHAB) Auswertung und Lösung

Jost Reinecke. 7. Juni 2005

Hypothesentest, ein einfacher Zugang mit Würfeln

Mögliche Fehler beim Testen

Hypothesentests mit SPSS. Beispiel für einen t-test

2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese:

8. Konfidenzintervalle und Hypothesentests

Biomathematik für Mediziner, Klausur SS 2001 Seite 1

Beurteilende Statistik

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)

Mathematische und statistische Methoden II

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

Aussagen hierzu sind mit einer unvermeidbaren Unsicherheit behaftet, die statistisch über eine Irrtumswahrscheinlichkeit bewertet wird.

Prüfgröße: Ist die durch eine Schätzfunktion zugeordnete reelle Zahl (etwa Mittelwert 7 C).

Angewandte Statistik 3. Semester

Chi-Quadrat Verfahren

Lösungen zu den Übungsaufgaben in Kapitel 10

e) Beim klassischen Signifikanztest muß die Verteilung der Prüfgröße unter der Nullhypothese

Zeit zum Kochen [in min] [10, 20[ [20, 30[ [30, 40[ [40, 50[ [50,60[ [60, 100] Hi

Übungsaufgaben zu Statistik II

Analytische Statistik II

KATA LOGO Mathematik Statistik Roadmap: Von der Hypothese zum p-wert

Statistik II. Statistische Tests. Statistik II

VS PLUS

Statistik-Übungsaufgaben

Lösungen zur Biomathe-Klausur Gruppe A Montag, den 16. Juli 2001

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

11 Tests zur Überprüfung von Mittelwertsunterschieden

Willkommen zur Vorlesung Statistik (Master)

Test auf Varianzgleichheit (F-Test) (einseitiger Test!!)

Diskrete Wahrscheinlichkeitstheorie - Probeklausur

Übungsaufgaben zu Kapitel 5. Aufgabe 101. Inhaltsverzeichnis:

Wie man zwei Kekssorten auf Unterschiede testet

7.3 Chi-Quadrat-Streuungstest und F-Test

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion

INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE. Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße

Webinar Induktive Statistik. - Wahrscheinlichkeitsrechnung - Stichprobentheorie

Grundlagen der Inferenzstatistik

Grundlegende Eigenschaften von Punktschätzern

Statistik und Wahrscheinlichkeitsrechnung

Mathematik 2 für Naturwissenschaften

Statistik. Jan Müller

Test auf einen Anteilswert (Binomialtest) Vergleich zweier Mittelwerte (t-test)

Scheinklausur Stochastik 1 für Studierende des Lehramts und der Diplom-Pädagogik

Statistik II für Betriebswirte Vorlesung 2

methodenlehre ll Grenzen des Signifikanztests methodenlehre ll Grenzen des Signifikanztests

Literatur: Glantz, S.A. (2002). Primer of Biostatistics. New York: McGraw-Hill.

1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests

Forschungsstatistik I

Willkommen zur Vorlesung Statistik (Master)

1. rechtsseitiger Signifikanztest

1.4 Der Binomialtest. Die Hypothesen: H 0 : p p 0 gegen. gegen H 1 : p p 0. gegen H 1 : p > p 0

Mittelwertvergleiche, Teil I: Zwei Gruppen

6. Übung Statistische Tests Teil 1 (t-tests)

Mathematik für MolekularbiologInnen. Vorlesung IX Ausgewählte Kapitel der Statistik

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Mathematik: LehrerInnenteam Arbeitsblatt Semester ARBEITSBLATT 12. Erwartungswert, Varianz und Standardabweichung

Mathematik für Biologen

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Prof. Dr. Günter Hellmig. Aufgabenskript Induktive Statistik

9. Schätzen und Testen bei unbekannter Varianz

Mathematik für Biologen

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

9. StatistischeTests. 9.1 Konzeption

Kapitel 5: Einfaktorielle Varianzanalyse

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Kapitel 5: Einfaktorielle Varianzanalyse

Das Konfidenzintervall (Confidence Interval CI) Vertrauen schaffen, Signifikanz erkennen Autor: Beat Giger

Testentscheidungen. Worum geht es in diesem Modul? Kritische Werte p-wert

t-test für abhängige Stichproben

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum)

Forschungsmethodik II Mag.rer.nat. M. Kickmeier-Rust Karl-Franzens-Universität Graz. Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005

TESTEN VON HYPOTHESEN

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Klausur: Einführung in die Statistik

Grenzen für x -s-regelkarten

K8 Stetige Zufallsvariablen Theorie und Praxis

3.3. Aufgaben zur Normalverteilung und Hypothesentests

Aufgaben zu Kapitel 7:

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Mathematik für Biologen

Kombinatorik. 1. Beispiel: Wie viele fünfstellige Zahlen lassen sich aus den fünf Ziffern in M = {1;2;3;4;5} erstellen?

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.

Statistische Grundlagen I

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Business Value Launch 2006


Tag 7: Statistik. Themen: A) Standardfehler des Mittelwerts B) Median und Quantile C) Signifikanztest D) Hausaufgabe

Transkript:

Hans Walser Mathematik 2 für Naturwissenschaften Modul 207 Testen von Hypothesen 1

Hans Walser: Modul 207, Testen von Hypothesen 1 ii Inhalt 1 Testen von Hypothesen... 1 1.1 Knabengeburten... 1 1.2 Wirkt das Medikament?... 2 1.2.1 Beispiel: n = 10... 2 1.2.2 Beispiel: n = 20... 3 1.3 Fehlermöglichkeiten... 4 1.3.1 Fehler erster Art... 4 1.3.2 Fehler zweiter Art... 5 1.4 Ist die Münze gefälscht?... 7 2 Mittelwert einer Stichprobe... 9 2.1 Vertrauensintervall... 9 2.1.1 Beispiel... 10 2.1.2 Vorgehen... 12 2.2 Vergleich der Mittelwerte zweier Normalverteilungen... 12 2.2.1 Unabhängige Stichproben... 12 2.2.2 Gepaarte Stichproben... 14 3 Varianzenquotienten-Test... 15 3.1 Vergleich zweier Pipettier-Methoden... 15 3.2 Vorgehen... 17 4 Zusammenfassung... 17 4.1 Testen von Hypothesen... 17 4.1.1 Fehler... 17 4.1.2 Vorgehen... 17 4.2 Mittelwert einer Stichprobe... 18 4.2.1 Mittelwert einer Stichprobe. Vertrauensintervall... 18 4.2.2 Vergleich der Mittelwerte zweier Normalverteilungen... 18 4.3 Varianzenquotienten-Test... 19 Modul 207 für die Lehrveranstaltung Mathematik 2 für Naturwissenschaften Sommer 2006 Probeversion Sommer 2007 Ergänzungen und Korrekturen Frühjahr 2008 Geändertes Layout. Fehlerkorrekturen Frühjahr 2009 Fehlerkorrektur Frühjahr 2010 Fehlerkorrektur. Erweiterung Frühjahr 2011 Fehlerkorrekturen Frühjahr 2014 Überarbeitung und Kürzungen last modified: 8. November 2013 Hans Walser Mathematisches Institut, Rheinsprung 21, 4051 Basel www.walser-h-m.ch/hans

Hans Walser: Modul 207, Testen von Hypothesen 1 1 1 Testen von Hypothesen Es geht darum, eine Hypothese über eine Wahrscheinlichkeit p auf Grund einer Stichprobe entweder beizubehalten oder zu verwerfen. 1.1 Knabengeburten John Arbuthnot, 1667-1735 John ARBUTHNOT stellte auf Grund von Eintragungen in Kirchenbüchern (Taufregister) fest, dass in 82 aufeinander folgenden Jahren mehr Knaben als Mädchen geboren wurden. Er überlegte nun folgendermaßen: Nullhypothese H 0 : Der Erwartungswert für den Anteil der Knabengeburten in einem Jahr ist 50%. Nun gibt es aber Schwankungen. Die Wahrscheinlichkeit, dass wir in einem bestimmten Jahr mehr als 50% Knabengeburten haben, ist 1 2. Zwischenbemerkung: Wir haben hier die Zahl 0.5 in zwei verschiedenen Bedeutungen: Zum einen als Erwartungswert des Anteiles der Knabengeburten (50%), zum anderen als Wahrscheinlichkeit 1, diesen Erwartungswert im Einzelfall zu übertreffen. 2 ( ) 82 0. Dies ist praktisch ausgeschlossen, daher kann Die Wahrscheinlichkeit, dass in 82 aufeinanderfolgenden Jahren mehr Knaben als Mädchen geboren werden, ist somit 1 2 die Nullhypothese H 0, nämlich dass der Knabenanteil an den Geburten 50% beträgt, verworfen werden. Man wird annehmen, dass der Knabenanteil mehr als 50% ist. Bemerkungen: Wir haben hier einen einseitigen Test durchgeführt. Der Fall Knabenanteil weniger als 50% steht nicht zur Diskussion. Bei diesem Test wird keine Aussage über den effektiven Wert des Knabenanteils gemacht. (Er beträgt in der Schweiz etwa 51.4%)

Hans Walser: Modul 207, Testen von Hypothesen 1 2 1.2 Wirkt das Medikament? Die meisten Leute werden von selbst wieder gesund. Es ist daher schwierig, über die Wirkung eines Medikamentes schlüssige Aussagen zu machen. Dazu folgendes Beispiel: Bei einer bestimmten Krankheit sei es so, dass ohne Medikament 70% der von der Krankheit befallenden von selbst wieder gesund werden. Nun wird ein (neues) Medikament an n = 10 Patienten getestet. Wir gehen davon aus, dass das Medikament nicht schadet, sondern höchstens nützt; wir haben also einen einseitigen Test. Ab welcher Anzahl von Genesenden können wir sagen, dass das Medikament wirklich nützt? Vorgehen: Nullhypothese H 0 : das Medikament nützt nichts. Wir wählen vor der Durchführung des Experimentes eine kritische Zahl m von Genesenden und studieren das Ereignis E: m oder mehr Patienten werden gesund. Wie groß ist P( E )? 1.2.1 Beispiel: n = 10 Wir benötigen die Tabelle für die summierte binomische Verteilung: p 0.001 0.01 0.05 0.1 1/6 0.2 0.25 0.3 0.4 0.5 n x 10 0 0.990 0.904 0.599 0.349 0.162 0.107 0.056 0.028 0.006 0.001 10 1 1.000 0.996 0.914 0.736 0.485 0.376 0.244 0.149 0.046 0.011 10 2 1.000 1.000 0.988 0.930 0.775 0.678 0.526 0.383 0.167 0.055 10 3 1.000 1.000 0.999 0.987 0.930 0.879 0.776 0.650 0.382 0.172 10 4 1.000 1.000 1.000 0.998 0.985 0.967 0.922 0.850 0.633 0.377 10 5 1.000 1.000 1.000 1.000 0.998 0.994 0.980 0.953 0.834 0.623 10 6 1.000 1.000 1.000 1.000 1.000 0.999 0.996 0.989 0.945 0.828 10 7 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.998 0.988 0.945 10 8 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.998 0.989 10 9 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.999 10 10 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 Die Sache ist trickreich, da p = 0.7 fehlt. Wir müssen uns mit p = 0.3 behelfen. Für die Gegenüberlegung wird aus mindestens m nun höchstens 10 m. P( E ) =

Hans Walser: Modul 207, Testen von Hypothesen 1 3 Für m = 9 erhalten wir P( E ) = 0.149 =14.9%. Ein Verwerfen der Nullhypothese H 0 beinhaltet eine Irrtumswahrscheinlichkeit von 14.9%. Für m = 10 erhalten wir P( E ) = 0.028 = 2.8%. Wir können die Nullhypothese H 0 also mit einer Irrtumswahrscheinlichkeit von 2.8% verwerfen. 1.2.2 Beispiel: n = 20 Wir erhöhen den Umfang n des Versuches und testen das Medikament an 20 Patienten. Wir benötigen wieder die Tabelle für die summierte binomische Verteilung: p 0.001 0.01 0.05 0.1 1/6 0.2 0.25 0.3 0.4 0.5 n x 20 0 0.980 0.818 0.358 0.122 0.026 0.012 0.003 0.001 0.000 0.000 20 1 1.000 0.983 0.736 0.392 0.130 0.069 0.024 0.008 0.001 0.000 20 2 1.000 0.999 0.925 0.677 0.329 0.206 0.091 0.035 0.004 0.000 20 3 1.000 1.000 0.984 0.867 0.567 0.411 0.225 0.107 0.016 0.001 20 4 1.000 1.000 0.997 0.957 0.769 0.630 0.415 0.238 0.051 0.006 20 5 1.000 1.000 1.000 0.989 0.898 0.804 0.617 0.416 0.126 0.021 20 6 1.000 1.000 1.000 0.998 0.963 0.913 0.786 0.608 0.250 0.058 20 7 1.000 1.000 1.000 1.000 0.989 0.968 0.898 0.772 0.416 0.132 20 8 1.000 1.000 1.000 1.000 0.997 0.990 0.959 0.887 0.596 0.252 20 9 1.000 1.000 1.000 1.000 0.999 0.997 0.986 0.952 0.755 0.412 Die Sache ist trickreich, da p = 0.7 fehlt. Wir müssen uns mit p = 0.3 behelfen. Für die Gegenüberlegung wird aus mindestens m nun höchstens 20 m. Für m = 18 erhalten wir P E ( ) = 0.035 = 3.5%. Wir können die Nullhypothese H 0 also mit einer Irrtumswahrscheinlichkeit von 3.5% verwerfen.

Hans Walser: Modul 207, Testen von Hypothesen 1 4 1.3 Fehlermöglichkeiten Wir können uns in zweifacher Hinsicht irren. Fehlerarten 1.3.1 Fehler erster Art Es ist kein Wolf im Wald. Auf Grund falsch gedeuteter Spuren nehmen wir aber an, es habe einen Wolf im Wald. Die Nullhypothese H 0 stimmt, das heißt das Medikament ist wirkungslos, wird aber auf Grund eines zufällig guten Ergebnisses verworfen. Wir nehmen also fälschlicherweise an, dass das Medikament nicht unwirksam ist. Ein solcher Fehler wird als Fehler erster Art bezeichnet. Beim Beispiel mit n = 20, p = 0.7 und der kritischen Zahl m = 18 ist die Wahrscheinlichkeit für einen Fehler erster Art α = 3.5%. Hat es einen Wolf im Wald?

Hans Walser: Modul 207, Testen von Hypothesen 1 5 1.3.2 Fehler zweiter Art Es ist ein Wolf im Wald. Da wir aber keine Spuren sehen, nehmen wir fälschlicherweise an, es habe keinen Wolf im Wald. Die Nullhypothese H 0 ist falsch, wird aber nicht verworfen. Ein solcher Fehler wird als Fehler zweiter Art bezeichnet. Wie groß ist seine Wahrscheinlichkeit β? Für die Berechnung von β benötigen wir eine Zusatzinformation, nämlich die Erfolgswahrscheinlichkeit des Medikamentes. Beispiel: Annahme: Bei Verwendung des Medikamentes werden 80% der Patienten gesund. (Beachte: 70% der Patienten werden ohnehin gesund. Die Wirkung des Medikamentes ist nicht sehr groß, aber immerhin da.) Auf 20 Patienten werden also durchschnittlich 16 bei der Verwendung des Medikamentes gesund. Unsere kritische Zahl ist aber erst bei m = 18. Die Wahrscheinlichkeit β, dass die Nullhypothese H 0 fälschlicherweise beibehalten wird, ist also sehr groß. Wir erhalten: Es ist also β = 79.4%. Die folgende Grafik veranschaulicht den Fall für 20 Patienten. 0.2 0.1 20 k 0.7k 0.3 20 k 20 k 0.8k 0.2 20 k 5 10 15 20 20 Patienten Die Kurven für p = 0.7 (Nullhypothese H 0 ) und p = 0.8 überlappen sich zu einem großen Teil, so dass eine scharfe Unterscheidung nicht möglich ist.

Hans Walser: Modul 207, Testen von Hypothesen 1 6 Für n = 100 sieht die Sache schon besser aus: n = 100 0.08 0.04 50 60 70 80 90 100 k Situation für n = 100 Für die kritische Zahl m = 76 erhalten wir bei der Nullhypothese H 0 mit p = 0.7 eine Wahrscheinlichkeit für einen Fehler erster Art von α = 0.114 =11.4% (immer noch zu groß!) und für p = 0.8 eine Wahrscheinlichkeit für einen Fehler zweiter Art von β = 0.129 =12.9%. Für n = 1000 ist mit m = 751 eine scharfe Trennung möglich: 0.03 n = 1000 0.02 0.01 700 800 k Situation für n = 1000

Hans Walser: Modul 207, Testen von Hypothesen 1 7 1.4 Ist die Münze gefälscht? Hier ist H 0 : p( Kopf ) = 1 2 und H 1 : p( Kopf ) 1, also p Kopf 2 ( ) > 1 2 oder p ( Kopf ) < 1 2 Wir müssen daher zweiseitig testen. Beispiel: n = 10, Verwerfungsbereich für H 0 : { 0,1, 2, 8, 9,10} Wir benötigen die Tabelle für die summierte binomische Verteilung. Für p = 0.5 gibt es eine spezielle Tabelle. n 1 2 3 4 5 6 7 8 9 10 x 0 0.500 0.250 0.125 0.063 0.031 0.016 0.008 0.004 0.002 0.001 1 1.000 0.750 0.500 0.313 0.188 0.109 0.063 0.035 0.020 0.011 2 1.000 0.875 0.688 0.500 0.344 0.227 0.145 0.090 0.055 3 1.000 0.938 0.813 0.656 0.500 0.363 0.254 0.172 Beispiel: n = 20, Verwerfungsbereich für H 0 : { 0,..., 4, 16,..., 20} Summierte binomische Verteilung für p = 0.5 n 11 12 13 14 15 16 17 18 19 20 x 0 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 1 0.006 0.003 0.002 0.001 0.000 0.000 0.000 0.000 0.000 0.000 2 0.033 0.019 0.011 0.006 0.004 0.002 0.001 0.001 0.000 0.000 3 0.113 0.073 0.046 0.029 0.018 0.011 0.006 0.004 0.002 0.001 4 0.274 0.194 0.133 0.090 0.059 0.038 0.025 0.015 0.010 0.006 5 0.500 0.387 0.291 0.212 0.151 0.105 0.072 0.048 0.032 0.021 6 0.726 0.613 0.500 0.395 0.304 0.227 0.166 0.119 0.084 0.058

Hans Walser: Modul 207, Testen von Hypothesen 1 8 Umkehrung der Fragestellung: n = 20. Der Verwerfungsbereich soll möglichst groß sein, aber so, dass α 5%. Dies führt zum Verwerfungsbereich { 0,..., 5, 15,..., 20}. Für den Fall n = 100 wenden wir die Normalverteilung an. 0.08 0.04 k 10 20 30 40 50 60 70 80 90 100 Verwerfungsbereich Für α 5% erhalten wir den Verwerfungsbereich { 0,..., 39, 61,...,100}.

Hans Walser: Modul 207, Testen von Hypothesen 1 9 2 Mittelwert einer Stichprobe 2.1 Vertrauensintervall Wir gehen aus von einer Stichprobe aus einer normalverteilten Grundgesamtheit und fragen, was wir über den Mittelwert µ 0 dieser Grundgesamtheit sagen können. Dabei ist zu beachten, dass die Grundgesamtheit fest gegeben ist. Damit ist auch ihr Mittelwert µ 0 fest gegeben, allerdings leider nicht bekannt. Wenn wir mehrere Stichproben aus dieser gegebenen Grundgesamtheit machen, werden die Mittelwerte x natürlich variieren. Die folgenden Überlegungen beziehen sich auf eine spezifische Stichprobe. Damit ist dann auch das berechnete 95%- Vertrauensintervall von dieser Stichprobe abhängig. Es überdeckt mit einer Wahrscheinlichkeit von 95% den festen Mittelwert µ 0 der Grundgesamtheit. Bei einer anderen Stichprobe aus derselben Grundgesamtheit werden wir ein anderes 95%- Vertrauensintervall finden. Zur Berechnung eines 95%-Vertrauensintervalles verwenden wir die so genannte Studentsche t-verteilung. Sie wurde von William Sealy Gosset eingeführt, der unter dem Pseudonym Student publizierte. Den t-test entwickelte er zur Bearbeitung von kleinen Stichproben zur Qualitätskontrolle in einer Brauerei. William Sealy Gosset, 1876-1937

Hans Walser: Modul 207, Testen von Hypothesen 1 10 2.1.1 Beispiel Wir haben folgende acht Messwerte: Für diese Messwerte gilt: 4.4 5.8 3.7 9.2 4.1 3.8 5.3 3.7 x = 5, s x = SD x =1.8655, SE x = s x 8 = 0.6595 Zur Beantwortung der Frage, ob eine bestimmte Zahl µ 0 als Mittelwert möglich ist, verwenden wir die Testgröße: t = x µ 0 SE x Wir wollen zum Beispiel die Nullhypothese µ = µ 0 = 4 gegen die Alternative µ µ 0 = 4 auf dem Signifikanzniveau α = 5% austesten. Der Test ist zweiseitig, da sowohl die Alternative µ > µ 0 = 4 wie auch die Alternative µ < µ 0 = 4 in Betracht gezogen wird. Für die Testgröße erhalten wir: t Exp = x µ 0 SE x = 5 4 0.6595 =1.5163 Nun gehen wir in die Tabelle der t-verteilung. Dazu benötigen wir noch den Freiheitsgrad. Dieser ist allgemein: ν = n 1 In unserem Beispiel ist also ν = n 1 = 8 1 = 7. Relevanter Ausschnitt aus der Tabelle: FG ν Irrtumswahrscheinlichkeit α für den zweiseitigen Test 0.50 0.20 0.10 0.05 0.02 0.01 0.002 0.001 0.0001 6 0.718 1.440 1.943 2.441 3.143 3.707 5.208 5.959 9.082 7 0.711 1.415 1.895 2.365 2.998 3.499 4.785 5.408 7.885 8 0.706 1.397 1.860 2.306 2.896 3.355 4.501 5.041 7.120 9 0.703 1.383 1.833 2.262 2.821 3.250 4.297 4.781 6.594 10 0.700 1.372 1.812 2.228 2.764 3.169 4.144 4.587 6.211 Schranken der t-verteilung Aus der Tabelle lesen wir den kritischen Schrankenwert t krit = 2.365 ab. Da t Exp =1.5163 kleiner als dieser kritische Schrankenwert ist, können wir die Nullhypothese, also µ = µ 0 = 4, beibehalten. Nun prüfen wir als Variante die Nullhypothese µ = µ 0 = 3. Hier ergibt sich: t Exp = x µ 0 SE x = 5 3 0.6595 = 3.0326 Dieser Wert ist größer als der kritische Schrankenwert t krit = 2.365; die Nullhypothese muss also abgelehnt werden.

Hans Walser: Modul 207, Testen von Hypothesen 1 11 Im folgenden eine Tabelle mit verschiedenen Nullhypothesen: µ 0 t Exp = x µ 0 Entscheid SE x 3 3.03260045 Nullhypothese ablehnen 3.4 2.42608036 Nullhypothese ablehnen 3.8 1.81956027 Nullhypothese beibehalten 4.2 1.21304018 Nullhypothese beibehalten 4.6 0.60652009 Nullhypothese beibehalten 5 0 Nullhypothese beibehalten 5.4 0.60652009 Nullhypothese beibehalten 5.8 1.21304018 Nullhypothese beibehalten 6.2 1.81956027 Nullhypothese beibehalten 6.6 2.42608036 Nullhypothese ablehnen 7 3.03260045 Nullhypothese ablehnen Feldversuch Nun ist es natürlich so, das nur eine der Nullhypothesen richtig sein kann. Wie sind also die vielen Fälle Nullhypothese beibehalten zu verstehen? Hier kommt die Idee des Signifikanzniveaus 5% zum Tragen: Wenn wir eine Nullhypothese aus dem grünen Bereich Nullhypothese beibehalten annehmen, liegen wir mit einer Wahrscheinlichkeit von 95% richtig und mit einer Wahrscheinlichkeit von 5% falsch. Die 5% sind also die Irrtumswahrscheinlichkeit. Der grüne Bereich ist ein so genanntes 95%-Vertrauensintervall für den Mittelwert. Seine Grenzen ergeben sich offensichtlich dadurch, dass wir von der Mitte (also von x = 5) ausgehend in beiden Richtungen die Zahl t krit SE x = 2.365 0.6595 =1.5597 abtragen. Konkret haben wir ein 95%-Vertrauensintervall: [ 5 2.365 0.6595, 5 + 2.365 0.6595] = [ 3.4403, 6.5597] Unsere Überlegungen könnten suggerieren, dass die Mittelwerte µ variabel sind. Das ist aber falsch, da die Grundgesamtheit und damit deren Mittelwert fest gegeben sind. Wir haben nur rein gedanklich verschiedene Mittelwerte angenommen und rechnerisch durchexerziert. Tatsächlich ist es aber so, dass die Stichproben und damit x und die und damit auch die 95%-Vertrauensintervalle vari- Folgedaten s x = SD x und SE x = s x n ieren können.

Hans Walser: Modul 207, Testen von Hypothesen 1 12 2.1.2 Vorgehen Vertrauensintervall zum Niveau 1 α : x t α,ν SE x, x + t α,ν SE x Dabei bedeutet t α,ν die kritische Schranke für das Signifikanzniveau α und ν Freiheitsgrade. ν = n 1 Häufig verwendete Schreibweise: x ± t α,ν SE x 2.2 Vergleich der Mittelwerte zweier Normalverteilungen Getestet werden soll, ob die Mittelwerte µ x und µ y zweier normalverteilter Grundgesamtheiten gleich oder verschieden sind. Die Varianz braucht nicht bekannt zu sein, wird aber als gleich vorausgesetzt. Wir brauchen dazu wiederum die so genannte Studentsche t-verteilung. Für den Test brauchen wir zwei Stichproben. Die folgenden beiden Fälle sind praktisch besonders wichtig: 1. Die beiden Stichproben sind unabhängig und nicht notwendigerweise gleich groß. 2. Die beiden Stichproben sind gleich groß; je ein Wert der einen und je ein Wert der anderen gehören zusammen, weil sie von demselben Individuum stammen. Beispiele: Körpergewicht vor und nach einer Abmagerungskur. Messwerte vom selben Objekt bei Messung mit zwei verschiedenen Messgeräten. In diesem Fall sprechen wir von gepaarten Stichproben. 2.2.1 Unabhängige Stichproben Beispiel: In einer Klinik in Bologna wurde bei n x = 288 Knaben das Durchschnittsgewicht x = 3300g und die Standardabweichung s x = 470g gemessen. Bei n y = 269 Mädchen ergab sich das Durchschnittsgewicht y = 3050 g bei einer Standardabweichung von s y = 460g. Nun testen wir die Nullhypothese, dass Knaben und Mädchen bei der Geburt gleich schwer sind, gegen die Alternative, dass Knaben schwerer sind als Mädchen. Wir haben also einen einseitigen Test. Als Signifikanzniveau wählen wir 1%. Testgröße: t = x y SE x y Dabei ist der im Nenner erscheinende Ausdruck der Standardfehler für die Differenz x y und wird wie folgt berechnet: SE x y = 1 n x + 1 n y Somit erhalten wir für die Testgröße: ( ) 2 2 s x ( nx 1)+s y ny 1 n x +n y 2 = n x +n y n x n y ( ) 2 2 s x ( nx 1)+s y ny 1 n x +n y 2

Hans Walser: Modul 207, Testen von Hypothesen 1 13 t = x y In unserem Beispiel bedeutet das: n x n y n x +n y n x +n y 2 s 2 x ( n x 1)+s 2 y n y 1 ( ) t = x y n x n y n x +n y n x +n y 2 s 2 x ( n x 1)+s 2 y n y 1 ( ) = 250 288 269 557 555 470 2 287+460 2 268 6.3379 Und nun gehen wir in die t-tabelle. Wir haben ν = n x + n y 2 Freiheitsgrade. In unserem Fall ist ν = n x + n y 2 = 287 + 269 2 = 555. Auweia, das ist nicht in der Tabelle. Aber zwischen ν = 500 und ν = gibt es eh keine großen Unterschiede mehr. Weil wir einseitig testen, müssen wir unten in die Tabelle einsteigen. Tabelle, relevanter Ausschnitt: 200 0.676 1.286 1.653 1.972 2.345 2.601 3.131 3.340 3.970 500 0.675 1.283 1.648 1.965 2.334 2.586 3.107 3.310 3.92.2 0.674 1.226 1.645 1.960 2.326 2.575 3.090 3.290 3.890 FG ν 0.25 0.10 0.05 0.025 0.01 0.005 0.001 0.0005 0.00005 Irrtumswahrscheinlichkeit α für den einseitigen Test Schranken der t-verteilung Somit erhalten wir auf dem Signifikanzniveau 1% den kritischen Schrankenwert t krit 2.334. Dies ist deutlich kleiner als unsere berechnete Testgröße t 6.3379. Wir können also die Nullhypothese verwerfen. Mädchen sind das leichte Geschlecht, wenigstens in Bologna. 2.2.1.1 Vorgehen 1. Schritt: Signifikanzniveau wählen. Entscheid, ob zweiseitig oder einseitig testen 2. Testgröße berechnen: t = x y 3. Freiheitsgrad: ν = n x + n y 2 4. Kritische Schranke aus der Tabelle n x n y n x +n y n x +n y 2 s 2 x ( n x 1)+s 2 y n y 1 ( ) 5. Vergleich mit Testgröße. Resultat in Worten formulieren

Hans Walser: Modul 207, Testen von Hypothesen 1 14 2.2.2 Gepaarte Stichproben Abmagerungskur: 12 erwachsene Männer unterziehen sich einer Abmagerungskur. Es interessierte die Frage, ob die Kur das Körpergewicht tatsächlich verringert. Bei den Probanden wird das Körpergewicht am Anfang und am Ende der Kur gemessen. Die Messwerte: vorher - nachher Proband Anfangsgewicht Endgewicht Differenz i x i [kg] y i [kg] x i y i = d i [kg] 1 84.5 83 1.5 2 72.5 72.5 0 3 79 74.5 4.5 4 88.5 89.5-1 5 104.5 94 10.5 6 83 77.5 5.5 7 93.5 95.5-2 8 77 70 7 9 76.5 75 1.5 10 98.5 94.5 4 11 79.5 73.5 6 12 92 83.5 8.5 x = 85.750 y = 81.917 d = 3.833 sx = 9.781 sy = 9.409 s d = 3.898 Die Nullhypothese: Die Abmagerungskur wirkt nicht beziehungsweise µ x = µ y oder µ d = 0 soll auf dem Signifikanzniveau α = 5% geprüft werden. Die x- und die y-werte sind gepaart, weil die Einzelwerte einander paarweise zugeordnet sind. Jedes Gewicht der einen Stichprobe hat einen besonderen Zusammenhang zum zeilengleichen Wert der anderen Stichprobe: Die beiden Werte stammen vom gleichen Probanden. Dadurch sind die beiden Stichproben voneinander abhängig. Die Anwendung des t-tests für unabhängige Stichproben zur Prüfung der Nullhypothese wäre also falsch.

Hans Walser: Modul 207, Testen von Hypothesen 1 15 Allgemein: Zwei Stichproben sind gepaart, wenn je ein Wert der einen Stichprobe einen besonderen Zusammenhang mit einem bestimmten Wert der anderen Stichprobe hat. Bei gepaarten Stichproben untersucht man die Paardifferenzen. Die Paardifferenzen bilden eine neue Stichprobe, die mit Hilfe des Ein-Stichproben-t-Tests geprüft werden kann. Im unserem Beispiel der Abmagerungskur werden die 12 Differenzen d i zur Prüfung der Nullhypothese H 0 : µ d = 0 benützt. Die Testgröße (empirischer t-wert) berechnet sich: t = d SE d = d sd n = 3.83 3.4037 3.898 12 Da der empirische t-wert = 3.4037 größer ist als der entsprechende Schrankenwert (12 Männer ergeben Freiheitsgrad 11; es wird zweiseitig auf dem Signifikanzniveau 5% getestet) t FG =11 ( α = 5% ) = 2.201 wird die Nullhypothese abgelehnt. Die Männer magern also tatsächlich ab. 3 Varianzenquotienten-Test Um den t-test anwenden zu dürfen, mussten wir in den beiden Grundgesamtheiten, denen die zu vergleichenden Stichproben entstammen, dieselben Varianzen voraussetzen, also σ x 2 = σ y 2. Wie können wir diese Bedingung der Varianzgleichheit prüfen? 3.1 Vergleich zweier Pipettier-Methoden Bei Messwiederholungen werden folgende Nettogewichte festgestellt: automatische Pipette manuelle Pipette 1 0.4882 1 0.5011 2 0.5088 2 0.5011 3 0.5122 3 0.4992 4 0.4975 4 0.5063 5 0.5019 5 0.4991 6 0.5001 6 0.5026 7 0.4998 7 0.5005 8 0.4829 8 0.5009 9 0.4982 Mittelwert: 0.50135 10 0.5102 Streuung: 0.002293 Mittelwert: 0.49998 Streuung: 0.00928

Hans Walser: Modul 207, Testen von Hypothesen 1 16 Hat die automatische Pipette eine größere Streuung? Testgröße: F Exp = s x 2 Wegen der Organisation der Tabelle muss im Zähler die größere der beiden Zahlen stehen. Im Idealfall gleicher Varianz muss diese Testgröße in der Nähe von 1 liegen. Je größer die Testgröße ist, um so mehr weichen die Varianzen voneinander ab. In unserem Beispiel muss x für die automatische Pipettierung stehen und y für die manuelle: x = 0.49998 s x = 0.00928 und y = 0.50135 s y = 0.002293 Wir erhalten für die Testgröße: F Exp = s x 2 s y 2 s y 2 = 0.0092802 0.002293 2 16.3790 Das ist recht viel, so dass ein Unterschied der Varianzen zu befürchten ist. Nun gehen wir in die Tabelle für α = 5%. Die Freiheitsgrade sind ν x = 10 1 = 9 und ν y = 8 1 = 7. Tabelle (relevanter Ausschnitt): Freiheitsgrade für den Nenner (kleinere Varianz) Freiheitsgrade für den Zähler (größere Varianz) 1 2 3 4 5 6 7 8 9 10 1 161 199 216 225 230 234 237 239 241 242 2 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 Schranken der F-Verteilung für das Signifikanzniveau 5% Aus der Tabelle erhalten wir in unserem Beispiel den kritischen Schrankenwert F krit = 3.68. Dieser ist deutlich kleiner als F Exp 16.3790 ; wir müssen also die Nullhypothese verwerfen. Die automatische Pipette hat eine größere Streuung.

Hans Walser: Modul 207, Testen von Hypothesen 1 17 3.2 Vorgehen 1. Schritt: Signifikanzniveau wählen. 2. Testgröße berechnen: F = s x 2, Zähler größer als Nenner 3. Freiheitsgrade: ν x = n x 1, ν y = n y 1 4. Kritische Schranke aus der Tabelle s y 2 5. Vergleich mit Testgröße. Nullhypothese beibehalten, wenn Testgröße kleiner als kritische Schranke. Sonst verwerfen. Resultat in Worten formulieren 4 Zusammenfassung 4.1 Testen von Hypothesen Es geht darum, eine Hypothese über eine Wahrscheinlichkeit p auf Grund einer Stichprobe entweder beizubehalten oder zu verwerfen. Nullhypothese H 0 : Es bleibt alles beim alten Alternativhypothese H 1 Wenn unter der Annahme von H 0 ein Ergebnis von sehr kleiner Wahrscheinlichkeit (Signifikanzniveau, zum Beispiel 5%) eintritt, wird H 0 verworfen. 4.1.1 Fehler Fehler erster Art: Nullhypothese H 0 stimmt, wird aber auf Grund eines zufällig extremen Ergebnisses verworfen. Wahrscheinlichkeit eines Fehlers erster Art wird mit α bezeichnet. Fehler zweiter Art: Nullhypothese H 0 ist falsch, wird aber auf Grund eines zufällig nicht extremen Ergebnisses beibehalten. Wahrscheinlichkeit eines Fehlers zweiter Art wird mit β bezeichnet. Beispiel: Nullhypothese H 0 : Er liebt sie nicht. Fehler erster Art: Sie geht eine Beziehung ein, obwohl H 0 zutrifft. Fehler zweiter Art: Sie geht keine Beziehung ein, obwohl H 0 falsch ist. 4.1.2 Vorgehen - Signifikanzniveau festlegen - Entscheid ob einseitig oder zweiseitig testen - Unter Annahme von H 0 Verwerfungsbereich berechnen (Binomialverteilung oder Normalverteilung) - Experiment durchführen.

Hans Walser: Modul 207, Testen von Hypothesen 1 18 4.2 Mittelwert einer Stichprobe Tabelle Studentsche t-verteilung 4.2.1 Mittelwert einer Stichprobe. Vertrauensintervall Standardfehler: SE x = s x n Testgröße für µ 0 als Mittelwert: t = x µ 0 SE x Vertrauensintervall zum Niveau 1 α : x t α,ν SE x, x + t α,ν SE x Dabei bedeutet t α,ν die kritische Schranke für das Signifikanzniveau α und ν Freiheitsgrade, ν = n 1 Schreibweise: x ± t α,ν SE x 4.2.2 Vergleich der Mittelwerte zweier Normalverteilungen 4.2.2.1 Unabhängige Stichproben Nullhypothese: µ x = µ y - α wählen - Entscheiden, ob zweiseitig oder einseitig testen - Testgröße: t Exp = x y SE x y = x y - Freiheitsgrad: ν = n x + n y 2 - Aus Tabelle t krit ablesen. n x n y n x +n y n x +n y 2 s 2 x ( n x 1)+s 2 y n y 1 ( ) - Falls t Exp > t krit Nullhypothese verwerfen 4.2.2.2 Gepaarte Stichproben Zwei Stichproben sind gepaart, wenn je ein Wert der einen Stichprobe einen besonderen Zusammenhang mit einem bestimmten Wert der anderen Stichprobe hat. Nullhypothese: µ x = µ y - α wählen - Entscheiden, ob zweiseitig oder einseitig testen - Testgröße: t Exp = d = d, dabei ist d SE d sd i = x i y i n - Freiheitsgrad: ν = n 1

Hans Walser: Modul 207, Testen von Hypothesen 1 19 - Aus Tabelle t krit ablesen. Bei t Exp > t krit Nullhypothese verwerfen 4.3 Varianzenquotienten-Test Tabelle F-Verteilung Nullhypothese: σ x = σ y - Signifikanzniveau wählen - Testgröße berechnen: F = s x 2 s y 2, Zähler größer als Nenner - Freiheitsgrade: ν x = n x 1, ν y = n y 1 - Kritische Schranke aus der Tabelle. Vergleich mit Testgröße. Nullhypothese beibehalten, wenn Testgröße kleiner als kritische Schranke. Sonst verwerfen. Resultat in Worten formulieren