Analyse von Kontingenztafeln

Ähnliche Dokumente
Klassifikation von Signifikanztests

Statistische Tests (Signifikanztests)

Chi-Quadrat Verfahren

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

Klassifikation von Signifikanztests

Schließende Statistik

Alternative Darstellung des 2-Stcihprobentests für Anteile

Statistisches Testen

Kapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit

Mathematik für Biologen

Mathematik für Biologen

Die Familie der χ 2 (n)-verteilungen

Analyse bivariater Kontingenztafeln

Lehrinhalte Statistik (Sozialwissenschaften)

Bivariate Kreuztabellen

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Alternative Darstellung des 2-Stichprobentests für Anteile

Kategoriale Daten. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/17

Parametrische vs. Non-Parametrische Testverfahren

Vorlesung: Statistik II für Wirtschaftswissenschaft

Bivariater Zusammenhang in der Mehrfeldertafel PEΣO

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Tutorial:Unabhängigkeitstest

Der χ 2 -Test (Chiquadrat-Test)

Hypothesentests mit SPSS

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Test auf den Erwartungswert

Statistik II. IV. Hypothesentests. Martin Huber

Einführung in Quantitative Methoden

Statistik II für Betriebswirte Vorlesung 3

Die Funktion f wird als Regressionsfunktion bezeichnet.

10. Die Normalverteilungsannahme

Allgemeines zu Tests. Statistische Hypothesentests

7 Kategoriale Daten. 7.1 Eine kategoriale Variable Der χ 2 -Anpassungstest

Forschungsstatistik I

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Name Vorname Matrikelnummer Unterschrift

Dr. Matthias Rudolf: M3 Multivariate Statistik Vorlesung LogRA. Folie Nr. 1

Einführung in Quantitative Methoden

Kapitel XIV - Anpassungstests

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Wahrscheinlichkeitsrechnung und Statistik

Statistik II für Betriebswirte Vorlesung 1

Aufgaben zu Kapitel 9

Multivariate Verfahren

Statistische Methoden in den Umweltwissenschaften

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

5. Seminar Statistik

Arbeitsbuch zur deskriptiven und induktiven Statistik

Zwei kategoriale Merkmale. Homogenität Unabhängigkeit

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Zusammenhangsanalyse in Kontingenztabellen

Einführung in die Induktive Statistik: Testen von Hypothesen

Statistik II. Weitere Statistische Tests. Statistik II

7. Hypothesentests. Ausgangssituation erneut: ZV X repräsentiere einen Zufallsvorgang. X habe die unbekannte VF F X (x)

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

Angewandte Statistik 3. Semester

6. Multivariate Verfahren Übersicht

Aufgaben zu Kapitel 9

Lösungen zu den Übungsaufgaben in Kapitel 10

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007

3 Grundlagen statistischer Tests (Kap. 8 IS)

Statistik II: Signifikanztests /1

2. Formulieren von Hypothesen. Nullhypothese: H 0 : µ = 0 Gerät exakt geeicht

1.4 Der Binomialtest. Die Hypothesen: H 0 : p p 0 gegen. gegen H 1 : p p 0. gegen H 1 : p > p 0

Klausur zu Statistik II

12 Rangtests zum Vergleich zentraler Tendenzen

Grundidee. χ 2 Tests. Ausgangspunkt: Klasseneinteilung der Beobachtungen in k Klassen. Grundidee. Annahme: Einfache Zufallsstichprobe (X 1,..., X n ).

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

- Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden.

Ergebnisse VitA und VitVM

Einfaktorielle Varianzanalyse

Statistische Methoden in den Umweltwissenschaften

5. Lektion: Einfache Signifikanztests

Bereiche der Statistik

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Statistik II. Statistische Tests. Statistik II

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Einführung in Quantitative Methoden

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Forschungsstatistik I

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Es sei x 1. Zeigen Sie mittles vollständiger Induktion, dass dann für jede natürliche Zahl n 0 gilt: n x k = 1 xn+1 1 x.

Aufgaben zu Kapitel 9

5. Kolmogorov-Smirnov-Test und χ 2 -Anpassungstest

Grundlagen der Statistik

Einführung in die computergestützte Datenanalyse

Anpassungstests VORGEHENSWEISE

Klausur zu Statistik II

Übung 5 im Fach "Biometrie / Q1" Thema: Wilcoxon, Chi-Quadrat, multiples Testen

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

Transkript:

Analyse von Kontingenztafeln Mit Hilfe von Kontingenztafeln (Kreuztabellen) kann die Abhängigkeit bzw. die Inhomogenität der Verteilungen kategorialer Merkmale beschrieben, analysiert und getestet werden. Die Einbeziehung zweier oder mehrerer evtl. nur nominalskalierter Merkmale in eine Analyse ist in den Sozialwissenschaften eine häufig auftretende Situation (z. B. Geschlecht, Art des Schulabschlusses, Parteienpräferenz). 1

In vielen Fällen z. B. bei Sekundäranalysen liegen nicht die Rohdaten, sondern bereits Häufigkeitstabellen vor. In SPSS können derartige Datensätze eingegeben und mit Hilfe von Gewichtungen analysiert werden. Vor der bi- oder multivariaten Analyse sind die beteiligten kategorialen Merkmale zunächst einzeln univariat zu untersuchen. 2

Univariate Analyse kategorialer Daten Deskriptiv werden Tabellen (z.b. Häufigkeitstabellen) und Grafiken (z.b. Balken- und Kreisdiagramme) eingesetzt. Als deskriptive Kenngröße für den Zentralwert der Verteilung kommt der Modalwert in Betracht. Als deskriptives Maß für die Variabilität einer kategorialen Verteilung wird beispielsweise die Devianz eingesetzt. Diese Kenngröße bewertet die Stärke der Konzentration einer kategorialen Verteilung. 3

Sei X ein kategoriales Merkmal mit den k möglichen Ausprägungen a 1,..., a k. Für eine Stichprobe vom Umfang n bezeichne h j die absoluten und f j = h j /n die relativen Häufigkeiten des Auftretens von a j. Dann heißt D X k = 2 ln(h j /n) h j j=1 k = 2 ln(f j ) h j j=1 Devianz. Dabei bezeichnet ln(f j ) den natürlichen Logarithmus (ln(0) 0 wird Null gesetzt! Nicht realisierte Ausprägungen liefern also keinen Beitrag!). 4

In die Berechnung der Devianz gehen also nur die Häufigkeiten der Ausprägungen und nicht die Ausprägungen selbst ein. Damit ist die Devianz ein Streuungsmaß, das bereits für nominalskalierte Merkmale berechnet werden kann. Da die Devianz D X bei sonst gleicher Verteilung mit wachsendem Stichprobenumfang wächst, wird häufig die relative Devianz verwendet. d X = D X n 5

Beispiel: In einer Umfrage unter n = 100 StudentInnen wurden die dichotomen Merkmale Geschlecht G und Motivation M für das Studium der Sozialwissenschaften erhoben. Dabei ergaben sich die Häufigkeitsverteilungen: Geschlecht G a G j h G j fj G weiblich 50 0.5 männlich 50 0.5 Motivation M a M j h M j fj M motiviert 100 1 nicht motiviert 0 0 6

Für die Devianz D G ergibt sich 2 D G = 2 ln(fj G ) h G j j=1 ( ) = 2 ln(1/2) 50 + ln(1/2) 50 = 100 2 ln(2) 138.6 und für D M erhalten wir 2 D M = 2 ln(fj M j=1 ) h M j = 2(ln(1) 100 + ln(0) 0) = 0 7

Damit gilt für die relative Devianz d G = 2 ln(2) 1.386 und d M = 0. Die Devianz ist in der Lage, die Fehlerwahrscheinlichkeit bei der Vorhersage einer kategorialen Variablen zu erfassen. Nimmt die Variable mit Sicherheit nur eine Ausprägung an, dann ist bei Verwendung dieser Ausprägung eine Voraussage ohne jeden Fehler möglich. Die Devianz für derartige entartete Verteilungen ist Null. Das Merkmal Motivation ist ein Beispiel dafür. 8

Die größte Unsicherheit besteht bei der Vorhersage dann, wenn jede der möglichen Ausprägungen die gleiche Häufigkeit (Wahrscheinlichkeit) besitzt (also keinerlei Konzentration vorliegt). In diesem Fall gilt d X = 2 ln(k). Das Merkmal Geschlecht (k = 2) ist ein Beispiel für diese Situation. Egal welche der beiden Ausprägungen als Vorhersage verwendet wird, ergeben sich stets 50% Fehlprognosen. 9

Zur Bewertung und zum Vergleich von Anteilswerten (Wahrscheinlichkeiten) werden speziell im englischen Sprachraum Odds verwendet. Odds beschreiben die Chancen des Eintretens eines Ereignisses in Relation zu seinem Nichteintreten. Befinden sich in einer Population z.b. 80% StudentInnen, die sich für Statistik interessieren, und 20%, die sich nicht für Statistik interessieren, dann betragen die Odds (Chancen), zufällig eine Studentin/einen Studenten aus dieser Population auszuwählen, die/der sich für Statistik zu interessiert, 80 : 20 = 4 (vier zu eins). 10

Ein Wert der Odds von 1 bedeutet also eine Chance von 50:50 (eins zu eins). Werte der Odds größer als 1 bedeuten, dass die Chance des Eintretens größer ist als die des Nichteintretens (z.b. 80:20). Werte der Odds kleiner als 1 bedeuten, dass die Chance des Eintretens kleiner ist als die des Nichteintretens (z.b. 40:60). 11

Als Basistechnik der schließenden Statistik kommt bei der Analyse nominalskalierter Daten der χ 2 Anpassungstest zum Einsatz. Er beschreibt und testet die Abweichung der empirischen Verteilung eines kategorialen Merkmals von einer hypothetisch unterstellten Verteilung. Die Testgröße t = k j=1 (h j np j ) 2 np j des χ 2 Anpassungstest stellt für eine vorliegende empirische Verteilung mit den beobachteten absoluten Häufigkeiten h j deren χ 2 Abstand zu der hypothetisch unterstellten Verteilung mit den Wahrscheinlichkeiten p j dar. 12

Hinweise: Da wir von kategorialen Merkmalen ausgehen, entfällt häufig eine Klasseneinteilung; diese ist in natürlicher Weise durch die Kategorien gegeben. Evtl. ist eine Vergröberung notwendig bzw. sinnvoll, wenn viele mögliche Ausprägungen vorliegen. In SPSS kann die hypothetisch unterstellte Verteilung mit Hilfe der Wahrscheinlichkeiten p j, der erwarteten absoluten Häufigkeiten np j oder der entsprechenden Prozentsätze vorgegeben werden. Bei kleineren Stichprobenumfängen sollte von der Möglichkeit der exakten Berechnung der Überschreitungswahrscheinlichkeit Gebrauch gemacht werden. 13

Im Spezialfall eines dichotomen Merkmals sollte als Anpassungstest der Binomialtest verwendet werden. Dieser ist für Merkmale mit nur zwei Ausprägungen äquivalent zum entsprechenden χ 2 Anpassungstest, wenn jeweils die exakten Überschreitungswahrscheinlichkeiten verwendet werden. 14

Nach Ablehnung der Nullhypothese beim χ 2 Anpassungstest interessiert häufig die Frage, für welche der möglichen Ausprägungen des untersuchten kategorialen Merkmals signifikante Unterschiede zwischen den beobachteten und den hypothetisch unterstellten (erwarteten) absoluten Häufigkeiten vorliegen. Dies kann durch Serien von post hoc Tests geklärt werden. Zum Einsatz kommen zwei eng verwandte Techniken: die Konfigurationsfrequenzanalyse (KFA), die die Summanden der χ 2 -Statistik einzeln untersucht und testet (vgl. z.b. Krauth/Lienert 1973) Tests der standardisierten Residuen 15

Unter der Nullhypothese sind die Summanden der Testgröße des χ 2 Anpassungstests asymptotisch χ 2 verteilt mit einem Freiheitsgrad. Für die Entscheidungsfindung können also Überschreitungswahrscheinlichkeiten, die gemäß dieser Verteilung berechnet wurden, oder entsprechende Quantile dieser Verteilung verwendet werden. Da in der Regel Serien von Tests evtl. für alle Ausprägungen des untersuchten Merkmals durchgeführt werden, stellt sich bei diesem multiplen Testverfahren das Problem der Einhaltung eines vorgegebenen Signifikanzniveaus für den Gesamttest (die gesamte Serie von Tests). 16

In der KFA werden dabei verschiedene konservative Strategien vorgeschlagen. Beispielsweise dividiert man das vorgegebene Signifikanzniveau α durch die Zahl der durchzuführenden einzelnen Tests (Bonferroni Korrektur) und vergleicht die Überschreitungswahrscheinlichkeiten für die einzelnen Tests jeweils mit diesem korrigierten Signifikanzniveau bzw. verwendet die Quantile mit diesem korrigierten Quantilsanteil. 17

Die standardisierten Residuen sind unter H 0 asymptotisch normalverteilt. Mit Hilfe der Normalverteilung und entsprechend korrigierten Werten für das Signifikanzniveau lassen sich zur KFA äquivalente Entscheidungsregeln formulieren. 18

Beispiel: In Statistik I untersuchten wir Daten über benutzte Verkehrsmittel. Der χ 2 Anpassungstest führte bei einem Signifikanzniveau α = 0.05 zur Ablehnung der Nullhypothese Die Wahrscheinlichkeit für die Benutzung jedes der fünf Verkehrsmittel ist p j = 1/5. Der Wert der χ 2 Statistik beträgt 89.2, und die zugehörige Überschreitungswahrscheinlichkeit p ist praktisch Null. Dabei wurde für die Berechnung der Überschreitungswahrscheinlichkeit p die χ 2 Verteilung mit 5 1 = 4 Freiheitsgraden verwendet. 19

Für die einzelnen Verkehrsmittel ergaben sich folgende absolute beobachtete (h j ) und erwartete (n p j ) Häufigkeiten sowie Residuen (h j n p j ): Verkehrsmittel h j n p j h j n p j Bahn 7 20 13 Bus 9 20 11 Flugzeug 29 20 9 PKW 53 20 33 Sonstige 2 20 18 Summe: 100 100 0 20

Nach Ablehnung der (globalen) Nullhypothese sollen nun post hoc die Kategorien (Verkehrsmittel) lokalisiert werden, die einzeln signifikante Unterschiede zwischen der beobachteten und erwarteten Häufigkeit aufweisen und damit die (globale) Ablehnung wesentlich verursachen. Wir setzen dazu die KFA ein, die in SPSS in diesem Zusammenhang nicht angeboten wird. Wir wollen für den multiplen Test also für die Serie von Tests insgesamt mit einem Signifikanzniveau α = 0.05 arbeiten. Da 5 einzelne Tests für jedes Verkehrsmittel durchgeführt werden sollen, ergibt sich mit der Bonferroni Korrektur ein Signifikanzniveau α/5 = 0.01 für jeden einzelnen Test der Serie. 21

Jeder Kategorie hier jedem Verkehrsmittel entspricht ein Summand (h j n p j ) 2 n p j der Testgröße t des χ 2 Anpassungstest. Unter der (globalen) Nullhypothese ist für eine mathematische Stichprobe jede dieser Größen asymptotisch χ 2 verteilt mit einem Freiheitsgrad. Wir können daher für jede der 5 Kategorien die (lokale) Nullhypothese Es liegt kein signifikanter Unterschied zwischen der beobachteten und erwarteten Häufigkeit für diese Kategorie vor. mit Hilfe dieser Verteilung der Stichprobenfunktion testen. 22

Zur Entscheidungsfindung benötigen wir jeweils den Wert der Teststatistik, den wir dann mit dem 0.99 Quantil χ 2 1,0.99 = 6.64 (entnommen aus einer entsprechenden Tafel, siehe Umdruck) der χ 2 -Verteilung mit einem Freiheitsgrad vergleichen. Ist der Wert der Teststatistik größer als 6.64, und damit seine Überschreitungswahrscheinlichkeit kleiner als 0.01, lehnen wir die lokale Nullhypothese ab. Insgesamt ergibt sich das folgende Ergebnis: 23

Verkehrsmittel (h j n p j ) 2 /np j Abweichung signifikant Bahn 8.45 ja Bus 6.05 nein Flugzeug 4.05 nein PKW 54.45 ja Sonstige 16.2 ja Summe: 89.2 Bei signifikanten Überbesetzungen von Zellen spricht man in der KFA von Typen und bei signifikanten Unterbesetzungen von Antitypen. Das Merkmal PKW ist demnach ein Typ, und die Merkmale Bahn und Sonstige stellen Antitypen dar. 24