Kategoriale und metrische Daten

Ähnliche Dokumente
Einfache statistische Testverfahren

Kategoriale Daten. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/17

Varianzanalyse ANOVA

Kapitel 10 Mittelwert-Tests Einstichproben-Mittelwert-Tests 10.2 Zweistichproben Mittelwert-Tests

Angewandte Statistik 3. Semester

Testen von Hypothesen:

Willkommen zur Vorlesung Statistik (Master)

Statistik II: Signifikanztests /1

11. Nichtparametrische Tests

Statistische Tests zu ausgewählten Problemen

Überblick über die Verfahren für Ordinaldaten

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Biostatistik, Winter 2011/12

Einführung in die Induktive Statistik: Testen von Hypothesen

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

Ein- und Zweistichprobentests

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Test auf den Erwartungswert

Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz

Willkommen zur Vorlesung Statistik (Master)

10. Die Normalverteilungsannahme

Statistik II. Statistische Tests. Statistik II

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr

Einfache Varianzanalyse für unabhängige Stichproben

Hypothesentests mit SPSS. Beispiel für einen t-test

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

1.6 Der Vorzeichentest

Grundlagen der Statistik

Auswertung und Lösung

Nicht-parametrische Statistik Eine kleine Einführung

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Vertiefung der. Wirtschaftsmathematik. und Statistik (Teil Statistik)

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Statistik. Jan Müller

Eine Einführung in R: Statistische Tests

Biostatistik, Winter 2011/12

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Schließende Statistik

SPSS V Gruppenvergleiche ( 2 Gruppen) abhängige (verbundene) Stichproben

Ablaufschema beim Testen

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Jost Reinecke. 7. Juni 2005

Computergestützte Methoden. Master of Science Prof. Dr. G. H. Franke WS 07/08

Tests einzelner linearer Hypothesen I

Abhängigkeit zweier Merkmale

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Mathematik für Biologen

Metrische Daten. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/28

7.3 Chi-Quadrat-Streuungstest und F-Test

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007

1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest.

Nichtparametrische statistische Verfahren

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

KATA LOGO Mathematik Statistik Roadmap: Von der Hypothese zum p-wert

Forschungsstatistik I

STATISTIK II. Hans-Otfried Müller Institut für Mathematische Stochastik.

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Chi-Quadrat Verfahren

SPSS III Mittelwerte vergleichen

Business Value Launch 2006

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)

Analyse von Querschnittsdaten. Signifikanztests I Basics

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Mathematische und statistische Methoden II

Statistik und Wahrscheinlichkeitsrechnung

1.5 Berechnung von Rangzahlen

Lösungen zu den Übungsaufgaben in Kapitel 10

Allgemeines zu Tests. Statistische Hypothesentests

3 Evaluation als Beschreibung von Zuständen

Grundlegende Eigenschaften von Punktschätzern

Biomathematik für Mediziner, Klausur SS 2001 Seite 1

Mittelwertvergleiche, Teil I: Zwei Gruppen

DWT 334/460 csusanne Albers

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

DSR Daten, Statistik, Risikobewertung AUSWERTUNG GAHS. Intervention + BMI

Analytische Statistik II

Aufgabe 1. Der Pharmakonzern Sachse hat ein neues Medikament gegen Bluthochdruck entwickelt, dessen Wirkung überprüft werden sollte.

Anpassungstests VORGEHENSWEISE

Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen

Beurteilende Statistik

Aufgaben zu Kapitel 5:

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Mann-Whitney-U-Test für zwei unabhängige Stichproben

Statistik II für Betriebswirte Vorlesung 1

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/453

Wissenschaftliche Nachrichten: Vol. 131/2006, 19-21

1 Dichte- und Verteilungsfunktion

Statistische Tests für unbekannte Parameter

Vorzeichentest. Motivation: Vorzeichentests in der Erfolgskontrolle von Medikamenten

Mathematik für Biologen

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Transkript:

Kategoriale und metrische Daten Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/14

Übersicht Abhängig von der Anzahl der Ausprägung der kategorialen Variablen unterscheidet man die folgenden Szenarien: Unterschiedshypothese mit zwei Stichproben Zweistichproben t-test für unabhängige Stichproben Wilcoxon-Rangsummentest Unterschiedshypothese mit mehr als zwei Stichproben Einfaktorielle Varianzanalyse (siehe Handbuch) Kruskal-Wallis-Test (siehe Handbuch) 2/14

Normalverteilte Daten Voraussetzungen Es liegen zwei Teilstichproben X 1,...,X m N(µ X,σ 2 X ) und Y 1,...,Y n N(µ Y,σ 2 Y ) vor. Es liegt Varianzhomogenität vor: σ 2 X = σ2 Y. Die beiden Teilstichproben sind unabhängig voneinander erhoben worden. Beispiel: Der Einfluss von Kalkung auf den ph-wert des Bodens soll untersucht werden. Dazu wurden Teile eines Waldbodens zusätzlich bekalkt, andere Teile hingegen nicht. Danach wurden jeweils 48 Bodenproben entnommen und der ph-wert bestimmt. 3/14

Der t-test für unabhängige Stichproben Die Nullhypothese beim Zweistichproben t-test für unabhängige Stichproben lautet: H 0 : µ X = µ Y. In Worten bedeutet dies, dass die Mittelwerte der beiden Zufallsvariablen X und Y gleich sind. Bezogen auf das Beispiel also, dass der ph-wert in beiden Gruppen gleich hoch ist. Grundlegender Gedanke: Hat die zusätzliche Kalkung keine Wirkung auf den Waldboden, so sollten die Mittelwerte der beiden Stichproben in etwa gleich sein. Je größer also die Differenz von X m und Ȳn ist, desto eher wird man H 0 anzweifeln. Wird die Differenz zu groß, muss die Nullhypothese verworfen werden. 4/14

Der t-test für unabhängige Stichproben Um eine Aussage über die Gültigkeit von H 0 machen zu können schaut man auf die Statistik T := X m Ȳn, 1 m + 1 n S p die t-verteilt mit (m+n 2) Freiheitsgraden, wobei Sp 2 := (m 1)S2 X,m +(n 1)S2 Y,n. m+n 2 Bei der Gültigkeit von H 0 sollte T nahe bei Null liegen. Je größer, desto eher wird H 0 in Zweifel gezogen. 5/14

Überprüfung der Varianzhomogenität Ist die Voraussetzung der Varianzhomogenität nicht erfüllt, kann der t-test nicht mehr angewendet werden. Man spricht hier vom sog. Behrens-Fisher-Problem. Um die Gleichheit der Varianzen zu überprüfen kann man verschiedene Tests anwenden, einer davon ist der F-Test. Die Nullhypothese zu diesem Test lautet: H 0 : Die beiden Stichproben besitzen die gleiche Varianz. Die Teststatistik hat die folgende Gestalt: Q = max{s2 X,n,S2 Y,m } min{s 2 X,n,S2 Y,m } 6/14

Überprüfung der Varianzhomogenität Wird H 0 nicht verworfen, wird der normale t-test durchgeführt. Unterschieden sich die beiden Varianzen aber signifikant, darf der normale t-test nicht verwendet werden. Für dieses Problem gibt es keinen exakten Test, sondern nur einen approximativen Test, den Welch-Test (auch Satterthwaite-Test genannt). Für diesen Test kann die Voraussetzung der Varianzhomogenität fallen gelassen werden (aber auch nur diese!). Die Teststatistik ist in diesem Fall nur approxmiativ t-verteilt. Der F-Test muss also immer vor dem t-test durchgeführt werden! 7/14

Der t-test für unabhängige Stichproben Der t-test für ungepaarte Stichproben in R # Datenimport und gruppenweise Zusammenfassung ph.daten <- read.csv2("c:/r/rohdaten/ph.csv") tapply(ph.daten$ph, ph.daten$kalkung, summary) # Boxplot der Daten plot(ph.daten$kalkung, ph.daten$ph) # Test auf Normalverteilung tapply(ph.daten$ph, ph.daten$kalkung, shapiro.test) # Test auf Varianzhomogenität var.test(ph.daten$ph ~ ph.daten$kalkung) # t-test (gleiche Varianzen) t.test(ph.daten$ph ~ ph.daten$kalkung, var.equal = T) # Welch-Test (ungleiche Varianzen) t.test(ph.daten$ph ~ ph.daten$kalkung) 8/14

Nicht normalverteilte Daten Voraussetzungen Gegeben sind zwei jeweils identisch verteilte Teilstichproben, die unabhängig voneinander erhoben wurden. Es soll nun die folgende Nullhypothese untersucht werden: H 0 : Die beiden Stichproben entstammen der gleichen Grundgesamtheit Diese Nullhypothese ist quasi die gleiche wie beim t-test für unabhängige Stichproben. Dies wird mit dem Wilcoxon-Rangsummentest oder auch nur Wilcoxon-Test überprüft. 9/14

Der Wilcoxon-Rangsummentest Für den Wilcoxon-Test werden beide Stichproben zunächst zusammengefasst und jedem Wert wird ein Rang zugeordnet, d.h. die kleinste Beobachtung bekommt den Rang 1, die größte Beobachtung den Rang m + n zugewiesen. Hat man die Ränge bestimmt, wird von jeder Gruppe die jeweilige Rangsumme R x und R y berechnet, sowie die beiden folgenden Größen bestimmt: U x = mn+ m(m +1) 2 R x und U y = mn+ n(n+1) 2 R y. Grundlegender Gedanke: Bei Gültigkeit von H 0, sollten die beiden Gruppen in der zu Beginn gebildeten Reihenfolge in etwa gleichmäßig verteilt sein, die Rangsummen R x und R y sollten also ungefähr die gleiche Größe haben. 10/14

Der Wilcoxon-Rangsummentest Für die Teststatistik gilt dann: U := min{u x,u y } U ist unter H 0 approximativ N( mn 12 )-verteilt, d.h. für hinreichend große m und n liefert der Test brauchbare Ergebnisse. Faustregel für den U-Test 2, mn(m+n+1) Damit die Ergebnisse des Der Wilcoxon-Rangsummentests genau genug sind, müssen gelten: n 4 und m 4 n+m 20 R berechnet im Fall keinerer Stichproben die exakte Teststatistik. Die Gewichtung des Ergebnisses sollte bei so kleinen Stichproben natürlich nicht hoch sein. 11/14

Der Wilcoxon-Rangsummentest Der Wilcoxon-Rangsummentest in R # Der Wilcoxon-Rangsummentest: wilcox.test(ph$ph~ph$kalkung) 12/14

Aufgaben zur Vertiefung I Aufgabe zum Datensatz kino Überprüfe die beiden folgenden Nullhypothesen mit einem geeigneten Signifikanztest: H 0 : Männer und Frauen sind gleich alt H 0 : Männer und Frauen gehen gleich häufig ins Kino Aufgabe zum Datensatz gerinnung Der Datensatz enthält die Gerinnungszeiten von zwei Patientengruppen mit der selben Verletzung. Gibt es einen Unterschied in der Gerinnungszeit der beiden Medikamente? 13/14

Aufgaben zur Vertiefung II Aufgabe zum Datensatz urin Der Datensatz enthält die im Urin gemessenen ph-werte und Calcium-Konzentrationen der beobachteten Patienten. Gibt es für eine der beiden Messungen einen Unterschied zwischen Patienten mit und Patienten ohne Kristall im Urin (Variable kristalle)? 14/14