Der χ 2 -Test (Chiquadrat-Test)

Ähnliche Dokumente
Tutorial:Unabhängigkeitstest

Chi-Quadrat Verfahren

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:

Statistisches Testen

Statistik II: Signifikanztests /1

Hypothesentests mit SPSS

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

Zwei kategoriale Merkmale. Homogenität Unabhängigkeit

Tutorial: Anpassungstest

Alternative Darstellung des 2-Stcihprobentests für Anteile

3. ZWEI KATEGORIALE MERKMALE (bivariate kategoriale Daten)

Klausur Statistik Lösungshinweise

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Klassifikation von Signifikanztests

Kapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit

Willkommen zur Vorlesung Statistik (Master)

entschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind.

Aufgaben zu Kapitel 9

Analyse von Kontingenztafeln

Biometrieübung 11 Kontingenztafeln

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister

Parametrische vs. Non-Parametrische Testverfahren

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

Hypothesentests mit SPSS. Beispiel für einen t-test

Statistische Überlegungen: Eine kleine Einführung in das 1 x 1

SozialwissenschaftlerInnen II

SozialwissenschaftlerInnen II

Einführung in SPSS. Sitzung 4: Bivariate Zusammenhänge. Knut Wenzig. 27. Januar 2005

Analytische Statistik II

Was sind Zusammenhangsmaße?

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Statistische Methoden in den Umweltwissenschaften

Chi² Test und Kontingenzkoeffizient. - aber keine natürliche Reihenfolge

Modul G.1 WS 07/08: Statistik

Wahrscheinlichkeitsrechnung und Statistik

Mehrere kategoriale Merkmale

Alternative Darstellung des 2-Stichprobentests für Anteile

Tutorial: Vergleich von Anteilen

Aufgaben zu Kapitel 9

Aufgaben zu Kapitel 3

Statistik I. Sommersemester 2009

Statistische Tests (Signifikanztests)

Angewandte Statistik 3. Semester

Wiederholung. Statistik I. Sommersemester 2009

5. Seminar Statistik

Bivariate Zusammenhänge

Unterschiedshypothesen Vergleiche von Häufigkeiten bzw. Mittelwerten zwischen (mindestens) zwei Gruppen Zusammenhangshypothesen Korrelationsanalysen

Vorlesung: Statistik II für Wirtschaftswissenschaft

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Bivariate Kreuztabellen

Ergebnisse VitA und VitVM

Klassifikation von Signifikanztests

Aufgaben zu Kapitel 9

Sven Garbade. Statistik 1

Anpassungstests VORGEHENSWEISE

Kreuztabellenanalyse. bedingte Häufigkeiten

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

Bivariater Zusammenhang in der Mehrfeldertafel PEΣO

Klausur Wiederholung t-tests. Zusammenfassung. Hypothesentests II. Statistik I. Sommersemester Statistik I Hypothesentests I (1/37)

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Hypothesentests II. Statistik I. Sommersemester Klausur Wiederholung t-tests. Zusammenfassung. Statistik I Hypothesentests I (1/37)

Bivariate Verteilungen

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Übungsblatt 3: Bivariate Deskription I (Sitzung 4)

Die widerspenstige. Kapitel 5: Chi-Quadrat oder.. Merkmal B: Spalten. Merkmal A: Zeilen. Kreuztabelle zweidimensionale Häufigkeitstabelle

Konkretes Durchführen einer Inferenzstatistik

Chi Quadrat-Unabhängigkeitstest

Einführung in die Induktive Statistik: Testen von Hypothesen

Kategoriale Daten. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/17

Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Grundlagen sportwissenschaftlicher Forschung Inferenzstatistik 2

Statistik und Wahrscheinlichkeitsrechnung

Die Familie der χ 2 (n)-verteilungen

Lösungen zum Aufgabenblatt 2: Bivariate Kreuztabellen mit nominalem Messniveau

Alte Klausur. Masterstudiengang Sportwissenschaften / Sportmanagement. Abschlussklausur Statistik. Sommersemester , 11:30 Uhr.

Grundlagen der Statistik

5. Kolmogorov-Smirnov-Test und χ 2 -Anpassungstest

Methodenlehre. Vorlesung 13. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Einführung in Quantitative Methoden

Institut für Soziologie Werner Fröhlich. Methoden 2. Kontingenztabellen Chi-Quadrat-Unabhängigkeitstest

VS PLUS

Testen von Hypothesen, Beurteilende Statistik

Mathematik für Biologen

Einfache statistische Auswertungen mit dem Programm SPSS

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

Willkommen zur Vorlesung Statistik (Master)

Zweifache Varianzanalyse

Transkript:

Der χ 2 -Test (Chiquadrat-Test) Der Grundgedanke Mit den χ 2 -Methoden kann überprüft werden, ob sich die empirischen (im Experiment beobachteten) Häufigkeiten einer nominalen Variable systematisch von den erwarteten Häufigkeiten unterscheiden. Warnung: In den hier gezeigten Beispielen stellt der χ 2 -Test eine Näherung für das eigentliche Testproblem dar. Daher ist vor der Anwendung zu prüfen, ob die (weiter unten genannten) Bedingungen erfüllt sind. Andernfalls ist ein exakter Test (Fisher-Test) ins Auge zu fassen. Beispiel (fiktiv) Es wird vermutet, dass in einer grösseren Stadt der Grossteil der weiblichen und männlichen Jugendlichen ihre Kleider in unterschiedlichen Geschäften einkauft. Um die Signifikanz dieser Hypothese zu untersuchen, wurden 120 zufällig ausgewählte Jugendliche befragt, in welchem Geschäft sie ihre Kleider am liebsten einkaufen: Kleidergeschäft A 13 17 30 Kleidergeschäft B 28 12 40 Kleidergeschäft C 14 16 30 andere 5 15 20 Summe 60 60 120 Beobachtete Häufigkeiten Da in der Umfrage nur die populärsten Kleidergeschäfte erfasst wurden und bei der Kategorie andere kein Vergleich möglich ist, beschränkt man sich auf die Geschäfte A, B und C: Kleidergeschäft A 13 17 30 Kleidergeschäft B 28 12 40 Kleidergeschäft C 14 16 30 Summe 45 55 100 Dies ist eine Kontingenztafel (Kreuztabelle), die alle Ausprägungskombinationen der Merkmale Geschlecht (m, f) und bevorzugtes Kleidergeschäft (A, B, C) enthält. Die Nullhypothese H 0 Wenn wir kein Vorwissen über die Verhältnisse in der Grundgesamtheit haben, ist es sinnvoll, (vorläufig) davon auszugehen, dass keines der Geschäfte von weiblichen (oder männlichen) Jugendlichen bevorzugt wird und dass Unterschiede in der Stichprobe zufälliger Natur sind. Dieser Standpunkt entspricht der Nullhypothese H 0. 1

Beachte: Die Nullhypothese ist eine Aussage über die Grundgesamtheit. Die Alternativhypothese H 1 Die Alternativhypothese (H 1 ) ist komplementär zur Nullhypothese. Sie besagt, dass es einen Unterschied gibt. In Bezug das Beispiel bedeutet dies, dass in mindestens einem Geschäft weibliche Jugendliche häufiger (oder seltener) einkaufen als ihre männlichen Altersgenossen. Beachte: Auch die Alternativhypothese ist eine Aussage über die Grundgesamtheit. Gerichtete Alternativhypothese Bei zwei Geschäften wäre es möglich, die Alternativhypothese so zu präzisieren, dass beispielsweise weibliche Jugendliche in einem Geschäft häufiger (oder seltener) einkaufen als im anderen. Bei drei oder mehr Kategorien ist es jedoch nicht mehr sinnvoll eine Richtung für die Bevorzugung anzugeben; d. h. eine gerichtete Alternativhypothese zu formulieren. Moral: Bei mehr als zwei Ausprägungen ist die Alternativhypothesen immer ungerichtet. Anzahl Freiheitsgrade Für weiter unten folgenden Überlegungen geht man davon aus, dass die Randsummen (Geschäfte: 30, 40, 30) und (Geschlecht: 45, 50) unveränderlich sind. In diesem Fall können nicht mehr alle Häufigkeiten im Innern der Tabelle unabhängig von den übrigen gewählt werden. Genauer: Setzt man alle Randsummen als fest voraus, so ist die Tabelle durch die Angabe von zwei Häufigkeiten eindeutig bestimmt. Diese zwei Wahlmöglichkeiten bezeichnet man als Anzahl Freiheitsgrade (df = degrees of freedom). Bei zwei Merkmalen mit jeweils n 1 bzw. n 2 Ausprägungen gilt allgemein: df = (n 1 1) (n 2 1). Im Beispiel gilt deshalb df = (3 1) (2 1) = 2. Erwartete Häufigkeiten Die aufgrund der Nullhypothese erwarteten Häufigkeiten berechnet man so: Für jede innere Zelle der Tabelle bildet man das Produkt der entsprechenden Zeilen- und Spaltensumme und dividiert es durch das Gesamttotal (100): Kleidergeschäft A 16.5 13.5 30 Kleidergeschäft B 22 18 40 Kleidergeschäft C 16.5 13.5 30 Summe 45 55 100 Man beachte, dass diese Berechnungsvorschrift die unterschiedlichen Häufigkeiten in den Randsummen berücksichtigt. Das bedeutet auch, dass die Stichprobe nicht zwingend aus 2

gleich vielen weiblichen und männlichen Jugendlichen bestehen muss. Die Testidee Bei den χ 2 -Tests berechnen wir ein Mass dafür, wie sehr die beobachteten Werte von den erwarteten Werten abweichen. Die Vorschrift dafür ist relativ einfach: Berechne für jede innere Zelle der Kontingenztafel in der Zeile i und der Kolonne j die Differenz aus dem beobachteten Wert (B ij ) und dem erwarteten Wert (E ij ), quadriere dieses Differenz und teile sie durch den erwarteten Wert. Bilde anschliessend die Summe dieser Quotienten. Formal: χ 2 = ( ) 2 Bij E ij Zelle ij Je grösser χ 2 ist, desto mehr weicht das beobachtete vom erwarteten Ergebnis (der Nullhypothese) ab. E ij Mit den Beispieldaten erhält man: χ 2 = (13 16.5)2 16.5 6.13 (12 18)2 18 (17 13.5)2 13.5 (14 16.5)2 16.5 (28 22)2 22 (16 13.5)2 13.5 Die Wahrscheinlichkeitsdichte Um den berechneten Wert zu interpretieren, benötigen wir die Wahrscheinlichkeitsdichtefunktion der χ 2 -Verteilung zur Anzahl Freiheitsgrade df = 2. 0.5 dp 0.25 0 6.13 9 x Wie diese Funktion genau definiert ist, spielt hier keine Rolle. Wichtig ist nur, dass ihr Graph mit den Koordinatenachsen eine Fläche vom Inhalt 1 (100%) einschliesst. Die Entscheidung Die rot eingefärbte Fläche stellt die Wahrscheinlichkeit aller Ergebnisse dar, die einen χ 2 - Wert von 6.13 oder grösser haben; also gleich stark oder stärker von der Nullhypothese abweichen als das beobachtete Ergebnis. 3

Der Inhalt dieser farbigen Fläche ist der p-wert und beträgt 0.0467 Flächeneinheiten. Auch hier braucht man sich über die konkrete Berechnung nicht den Kopf zu zerbrechen. Es genügt, wenn die Idee anschaulich verstanden wird. Da der p-wert das Signifikanzniveau von 5% nicht übertrifft, entscheiden wir uns gegen die Nullhypothese: Die Wahl des Kleidergeschäfts ist bei jugendlichen Kunden offenbar abhängig vom Geschlecht (α = 5%, p-wert = 0.0467, n = 100, df = 2). Voraussetzungen Da der χ 2 -Test nur eine Näherung für unser eigentliches Testproblem darstellt, muss geprüft werden, ob folgende Voraussetzungen erfüllt sind: (a) Die Einzelbeobachtungen müssen durch eine Zufallsstichprobe zustande kommen; d. h. unabhängig voneinander sein. (b) Die erwarteten Häufigkeiten pro Zelle sollten grösser als 5 sein. Andernfalls ist der exakte Fisher-Yates-Test zu verwenden (siehe weiter unten). Bemerkung Das Resultat des χ 2 -Tests auf Unabhängigkeit sagt uns nur, dass es irgendwo in den Daten mindestens eine Zeile gibt, deren Häufigkeiten sich überzufällig unterscheiden. Der Test sagt uns aber nicht, um welche Zeilen es sich handelt. Dafür sind weitere Analysen (sogenannte Post-Hoc-Tests) nötig, bei denen man jeweils die Merkmalspaarungen einzeln untersucht. Der χ 2 -Test mit dem TI-84 Plus Zuerst müssen die beobachteten Häufigkeiten im Matrix-Editor in eine Matrix (z. B. [A]) eingegeben werden. 2ND/MATRIX/EDIT/ENTER/1:[A]/ENTER/3x2/ENTER/13/ENTER/.../2ND QUIT Dann wählt man die Funktion STAT/TESTS/C:χ 2 -Test... zur Untersuchung der Unabhängigkeit zweier Merkmale. Expected: [A] der Name einer Matrix mit den beobachteten Häufigkeiten. Observed: [B] der Name einer Matrix, in der die erwarteten Häufigkeiten gespeichert werden sollen. (optional) Wählt man Calculate, wird der χ 2 -Wert und der p-wert berechnet und angezeigt. Wählt man Draw, werden χ 2 - und p-wert grafisch dargestellt. Evtl. muss man hier 9:ZoomStat aus dem ZOOM-Menü wählen. Der χ 2 -Test mit R Die folgende Eingabe erzeugt aus der Liste der Elemente 13, 28, 14, 17, 12, 16 eine Matrix mit 3 Zeilen und 2 Kolonnen, wobei die Elemente standardmässig kolonnenweise eingefüllt werden. 4

> daten <- matrix(c(13,28,14,17,12,16), 3, 2) Auf Wunsch können die Zeilen und Kolonnen in der entsprechenden Reihenfolge beschriftet werden. Dies ist aber nicht unbedingt nötig. > dimnames(daten) <- list( c("a", "B", "C"), c("f", "m")) Zur Kontrolle kann die Datenmatrix angezeigt werden: > daten f m A 13 17 B 28 12 C 14 16 Wenn alles stimmt, kann der Test durchgeführt werden: > chisq.test(daten) Pearson s Chi-squared test data: daten X-squared = 6.1279, df = 2, p-value = 0.0467 R zeigt eine Warnung an, falls Voraussetzung (b) verletzt ist. Der exakte Test von Fisher und Yates Falls die Voraussetzung (b) für den χ 2 -Test verletzt ist, kann man den exakten Test von Fisher und Yates verwenden. Die Vorbereitung der Eingabedaten ist dieselbe. Die Elemente der Matrix werden von oben nach unten und dann von links nach rechts interpretiert. Die Dimension und die Beschriftung der Matrix bezieht sich zerst auf die drei Zeilen und dann auf die zwei Kolonnen. daten <- matrix(c(13,28,14,17,12,16),3,2) dimnames(daten) <- list(c("a","b","c"),c("f","m")) fisher.test(daten) Der Fisher-Yates-Test ergibt einen p-wert von 0.04578 was mit dem des χ 2 -Tests vergleichbar ist. Bei grösseren Stichproben muss man etwas länger auf das Resultat warten, da dieser Test sehr rechenintensiv ist. 5