Kategoriale Daten. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/17

Größe: px

Ab Seite anzeigen:

Download "Kategoriale Daten. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/17"

Felix Brauer
vor 7 Jahren
Abrufe

1 Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/17

2 Übersicht Besitzen die Daten, die statistisch ausgewertet werden sollen, kategoriales Skalenniveau, unterscheidet man die folgenden Szenarien: Eine kategoriale Variable Dichtome Daten: Binomialtest (siehe Handbuch) Mehr als 2 Kategorien: χ 2 -Anpassungstest (siehe Handbuch) Zwei kategoriale Variablen Beide Variablen dichotom: Exakter Test nach Fisher Mindestens eine Variable mit mehr als 2 Kategorien: χ 2 -Unabhängigkeitstest 2/17

3 Kontigenztafel Voraussetzungen Für zwei Zufallsvariablen X und Y mit nominalskalierten Werten liegt eine unabhängige Stichprobe (X 1,Y 1 ),...,(X n,y n ) vom Umfang n vor. Für Variablen vom diskreten Typ macht die Erstellung eines Scatterplots natürlich wenig Sinn. Man kann die Daten allerdings mit einer Kontingenztafel ein wenig anschaulicher gestalten. Neben den einzelnen Zellhäufigkeiten ist dabei auch die Gesamthäufigkeit für eine Variablenstufe von Interesse. 3/17

4 Kontigenztafel X := Augenfarbe mit den Ausprägungen X {blau, braun, grün, nuss} Y := Haarfarbe mit den Ausprägungen Y {blond, braun, rot, schwarz} blond braun rot schwarz Gesamt blau braun grün nuss Gesamt /17

5 Kontigenztafel Kontigenztafel in R # Kreuztabelle (tab.haarauge <- table(haarauge)) # Anfügen von Zeilen- und Spaltensummen addmargins(tab.haarauge) # Zeilen- und Spaltenprozente prop.table(tab.haarauge, 1) prop.table(tab.haarauge, 2) 5/17

6 Grafische Veranschaulichung blond braun rot schwarz Haarfarbe Augenfarbe blau braun grün nuss 6/17

7 Grafische Veranschaulichung Balkendiagramm zum Unabhängigkeitstest # Erzeuge eine Tabelle mit den (spaltenweisen) # relativen Häufigkeiten grafik.haarauge <- prop.table(table(haarauge), 2) # Balkendiagramm mit den relativen Häufigkeiten barplot(grafik.haarauge, col = c("darkblue", "saddlebrown", "darkgreen", "tan"), xlim = c(0, 7), xlab = "Haarfarbe") # Erzeuge die Legende am rechten oberen Bildrand legend("topright", legend = rownames(grafik.haarauge), title = "Augenfarbe", fill = c("darkblue", "saddlebrown", "darkgreen", "tan")) 7/17

8 χ 2 -Unabhängigkeitstest Die nominalskalierten Variablen X und Y mit einem statistischen Verfahren auf ihren Zusammenhang zu testen, kann man mit dem χ 2 -Unabhängigkeitstest. Die zu untersuchende Nullhypothese lautet: H 0 : X und Y sind voneinander unabhängig Das Vorgehen des χ 2 -Tests macht man sich am verständlichsten mit Kontingenztafeln deutlich. Das Resultat jeder Sichprobe mit paarweisen Beobachtungen (X i,y i ) lässt sich mit einer Kontingenztafel darstellen. 8/17

9 χ 2 -Unabhängigkeitstest Grundlegender Gedanke: Ausgehend von den vorliegenden Daten berechnet man beim χ 2 -Test die erwarteten Häufigkeiten jeder Faktorstufenkombination unter der Annahme, dass X und Y unabhängig sind. Diese erwarteten Häufigkeiten werden dann mit den tatsächlichen Häufigkeiten verglichen. Trifft H 0 zu, sollte die Differenz der beiden Werte nahe bei Null liegen. Die zugehörige Teststatistik X 2 ist etwas komplizierter vereinfacht gesprochen werden die quadrierten Differenzen für jede Faktorstufenkombination aufsummiert: X 2 := I i=1 j=1 ( J nij n jn i n n j n i n ) 2. Wird diese Gesamtsumme zu groß, wird H 0 verworfen. 9/17

10 χ 2 -Unabhängigkeitstest Der χ 2 -Unabhängigkeitstest ist ein approximatives Testverfahren die zugehörige Teststatistik T P ist nur approximativ χ 2 -verteilt mit (I 1)(J 1) Freiheitsgraden. Das gleiche Problem tritt beispielsweise beim Mann-Whitney-U-Test auf. Damit die Approximation von ausreichender Güte ist, sollte die folgende Faustregel erfüllt sein: Faustregel für den χ 2 -Test (Regel von Cochran) Die erwartete Häufigkeit sollte in jeder Zelle mindestens den Wert 1 betragen und für 80% der Zellen sollte die erwartete Häufigkeit mindestens den Wert 5 betragen. Ist die Regel verletzt, gibt es zwei Möglichkeiten: (i) Weglassen von dünn besetzten Kategorien oder (ii) Zusammenfassen von (fachlich ähnlichen) Kategorien. 10/17

11 χ 2 -Unabhängigkeitstest Der χ 2 -Unabhängigkeitstest in R # Chi-Quadrat-Test chisq.test(haarauge$haar, haarauge$auge) # Erwartete Häufigkeiten chisq.test(haarauge$haar, haarauge$auge)$expected # Residuen der Faktorstufenkombinationen chisq.test(haarauge$haar, haarauge$auge)$residuals 11/17

12 Vierfeldertafel Ein wichtiger Spezialfall tritt auf, wenn die Variablen X und Y beide dichotom sind, d.h. jeweils nur zwei mögliche Ausprägungen besitzen. In diesem Fall spricht man bei der Kontingenztafel auch von einer Vierfeldertafel. Dieser Fall ist unter anderem deshalb so wichtig, weil es für ihn ein spezielles Auswertungsverfahren gibt, dass auf Kontingeztafeln höherer Ordnung nicht anwendbar ist (siehe weiter unten). Allgemeines Schema einer Vierfeldertafel: X/Y n 11 n 12 n 1 2 n 21 n 22 n 2 n 1 n 2 n 12/17

13 Exakter Test nach Fisher Für den Fall zweier binärer Variablen X und Y kann man auf den approximativen χ 2 -Test verzichten. Hierfür ist ein exakter Test möglich, nämlich Fishers exakter Test. Die obigen Faustregeln für eine ausreichende Güte des Tests sind in diesem Fall also nicht zu beachten die Zellenbesetzung in einer Vierfeldertafel kann demzufolge auch sehr dünn sein. Die Nullhypothese H 0 ist hier die gleiche wie beim χ 2 -Test, nämlich dass die beiden Variablen unabhängig voneinander sind. Die Teststatistik ist in diesem Fall sehr einfach definiert durch T F := n 11 also genau der Wert in der linken oberen Zelle. Die Teststatistik T F ist unter H 0 hypergeometrisch verteilt gemäß H(n,n 1,n 1 ). 13/17

14 Exakter Test nach Fisher Fishers exakter Test in R # Fishers exakter Test fisher.test(kino$geschlecht, kino$alter.codiert) 14/17

15 Aufgaben zur Vertiefung I Aufabe zum Datensatz titanic Der Datensatz enthält Informationen über die Klassenzugehörigkeit, das Geschlecht und das Alter aller Passagiere der Titanic. (i) Gibt es einen Zusammenhang zwischen dem Überleben des Schiffsuntergangs und der Klasse? (ii) Gibt es einen Zusammenhang zwischen Überleben und Geschlecht? (iii) Gibt es einen Zusammenhang zwischen Überleben und dem Alter? Erstellen Sie hierfür eine neue Variable mit zwei Kategorien: Passagiere unter 18 Jahre und Passagiere über 18 Jahre. 15/17

16 Aufgaben zur Vertiefung II Aufgabe zum Datensatz suizid Der Datensatz enthält Informationen über die Todesart von Personen, die einen Suizid begangen haben. Gibt es einen Zusammenhang zwischen der Art des Selbstmords und dem Geschlecht? Aufabe zum Datensatz interesse Das Ergebnis einer Umfrage nach den Interesse an Fußball ist im Datensatz interesse dokumentiert. Gibt es einen Zusammenhang zwischen dem Interesse an Fußball und dem Geschlecht der befragten Personen? 16/17

17 Aufgaben zur Vertiefung III Aufgabe zum Datensatz kopfschmerzen Ein neues Medikament (Medikament1) gegen Kopfschmerzen wird gegen ein bereits auf dem Markt zugelassenes Medikament (Medikament2) getestet. Von allen Teilnehmern wird außerdem aufgezeichnet, ob sich ihre Kopfschmerzen durch das Medikament verbessert haben (behandlungserfolg). Untersuche die Fragestellung ob das neue Medikament besser wirkt, als das bereits zugelassene. Aufgabe zum Datensatz kino Öffne den Datensatz kino und definiere die Variable alter.codiert nach dem Schema alter 37 jung alter > 37 alt Gibt es einen Zusammenhang zwischen gender und alter.codiert? 17/17

Ähnliche Dokumente

Abhängigkeit zweier Merkmale

Abhängigkeit zweier Merkmale Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/33 Allgemeine Situation Neben der Untersuchung auf Unterschiede zwischen zwei oder mehreren Untersuchungsgruppen hinsichtlich