Zusammenhangsanalyse in Kontingenztabellen

Transkript

1 Zusammenhangsanalyse in Kontingenztabellen Bisher: Tabellarische / graphische Präsentation Jetzt: Maßzahlen für Stärke des Zusammenhangs zwischen X und Y. Chancen und relative Chancen Zunächst Kontingenztafel Y h 11 h 12 h 1 X 2 h21 h 22 h 2 h 1 h 2 n Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 176 / 206

2 Chancen ( Odds ) Wir betrachten die Merkmale X und Y zunächst asymmetrisch: Die Ausprägungen von X definieren (hier 2) Subpopulationen, Y ist das interessierende binäre Merkmal in diesen Subpopulationen Unter einer Chance ( odds ) versteht man nun das Verhältnis zwischen dem Auftreten von Y = 1 und Y = 2 in einer Subpopulation X = a i. Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 177 / 206

3 Odds Ratio Die (empirische) bedingte Chance für festes X = a i ist bestimmt durch γ(1, 2 X = a i ) = h i1 h i2. Ein sehr einfaches Zusammenhangsmaß stellen die empirischen relativen Chancen (Odds Ratio) dar, die gegeben sind durch γ(1, 2 X = 1, X = 2) = γ(1, 2 X = 1) γ(1, 2 X = 2) = h 11/h 12 h 21 /h 22 = h 11h 22 h 21 h 12, d.h. γ(1, 2 X = 1, X = 2) ist das Verhältnis zwischen den Chancen der 1. Population (X = 1, 1. Zeile) zu den Chancen der 2. Population (X = 2, 2. Zeile). Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 178 / 206

4 Beispiel: Dauer der Arbeitslosigkeit Beschränkt man sich jeweils nur auf zwei Kategorien der Merkmale Ausbildungsniveau und Dauer der Arbeitslosigkeit, erhält man beispielsweise die Tabelle Kurzzeit- Mittel- und langfristige arbeitslosigkeit Arbeitslosigkeit Fachspezifische Ausbildung Hochschulabschluß 28 7 Daraus ergibt sich für Personen mit fachspezifischer Ausbildung die Chance, kurzzeitig arbeitslos zu sein, im Verhältnis dazu, mittel oder längerfristig arbeitslos zu sein, durch γ(1, 2 fachspezifisch) = = 2.5. Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 179 / 206

5 Für Arbeitslose mit Hochschulabschluß erhält man γ(1, 2 Hochschulabschluß) = 28 7 = 4. Für fachspezifische Ausbildung stehen die Chancen somit 5 : 2, für Arbeitslose mit Hochschulabschluß 4 : 1. Man erhält für fachspezifische Ausbildung und Hochschulabschluß die relativen Chancen (Odds Ratio) γ(1, 2 fachsp. Ausbildung, Hochschule) = = = Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 180 / 206

6 Interpretation Odds Ratio Wegen der spezifischen Form γ(1, 2 X = 1, X = 2) = (h 11 h 22 )/(h 21 h 12 ) werden die relativen Chancen auch als Kreuzproduktverhältnis bezeichnet. Es gilt γ = 1 Chancen in beiden Populationen gleich γ > 1 Chancen in Population X = 1 besser als in Population X = 2 γ < 1 Chancen in Population X = 1 schlechter als in Population X = 2. Die relativen Chancen geben somit an, welche der Populationen die besseren Chancen besitzen und um wieviel besser diese Chancen sind. Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 181 / 206

7 Symmetrie Für die Kontingenztafel h 11 h 12 h 21 h 22 ist das Kreuzproduktverhältnis (relative Chance oder Odds Ratio) bestimmt durch γ = h 11/h 12 h 21 /h 22 = h 11h 22 h 21 h 12. Die asymmetrische Betrachtung der Merkmale X und Y wird aufgehoben Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 182 / 206

8 Fall - Kontroll - Studien Beispiel: Morbus Alzheimer und Genetik ApoE3 ApoE4 Summe Kontrolle Fall OR = 593/ /803 = 0.34 Chance für ApoE3 bei Fällen um den Faktor 3 niedriger als bei Kontrollen? ApoE4 Risiko-Faktor für Morbus Alzheimer Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 183 / 206

9 Fall - Kontroll - Studien Zentrale Argumentation: Odds Ratio ist symmetrisches Maß d.h. Chancenverhältnis für Auftreten von ApoE4 bei Kontrolle zu Auftreten von ApoE4 bei Fällen Person ist krank bei ApoE3 zu Person ist krank bei ApoE4 Interpretation als Risikofaktor zulässig Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 184 / 206

10 Verallgemeinerung auf k m Kontingenztafeln, Anmerkungen Verallgemeinerung des Verfahres auf mehr als zwei Ausprägungen mindestens eines Merkmals: Man beschränkt sich auf jeweils zwei Zeilen X = a i und X = a j und zwei Spalten Y = b r und Y = b s und die zugehörigen vier Zellen einer (k m)-kontingenztafel. Verwendung einer Referenzkategorie Statt Odds Ratio wird oft der logarithmierte Odds Ratio verwendet Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 185 / 206

11 Anwendung: Apolipoprotein E und Morbus Alzheimer Etablierter Zusammenhang zwischen Apolipoprotein Eε4 und Morbus Alzheimer Daten aus Metaanalyse ApoE genotype ε2ε2 ε2ε3 ε2ε4 ε3ε3 ε3ε4 ε4ε4 Clinical controls Clinical Alzheimer PM controls PM Alzheimer Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 186 / 206

12 Anwendung: Apolipoprotein E und Morbus Alzheimer OR im Vergleich zu ε3ε3 (Referenz) ε2ε2 ε2ε3 ε2ε4 ε3ε3 ε3ε4 ε4ε4 OR (klinisch) OR (post mortem) Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 187 / 206

13 Kontingenz- und χ 2 -Koeffizient Ausgangspunkt: Wie sollten gemeinsame Häufigkeiten h ij bzw. f ij verteilt sein, damit - bei vorgegebenen Randverteilungen - die Merkmale X und Y als empirisch unabhängig angesehen werden können? b 1... b m a 1 h 1.?. a k h k h 1... h m n Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 188 / 206

14 Empirische Unabhängigkeit Idee: X und Y empirisch unabhängig Bedingte relative Häufigkeiten f Y (b 1 a i ),..., f Y (b m a i ), i = 1,..., k sind in jeder Schicht X = a i identisch, d.h. unabhängig von a i. Formal: f Y (b 1 a 1 ) = f (b 1 ),..., f Y (b m a 1 ) = f Y (b m ) f Y (b 1 a 2 ) = f (b 1 ),..., f Y (b m a 2 ) = f Y (b m ). =. f Y (b 1 a k ) = f (b 1 ),..., f Y (b m a k ) = f Y (b m ) Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 189 / 206

15 Kunstbeispiel: b 1 b 2 b 3 a a f Y (b 1 a 1 ) = f Y (b 1 a 2 ) = f Y (b 1 ) = 1 6 f Y (b 2 a 1 ) = f Y (b 2 a 2 ) = f Y (b 2 ) = 1 3 f Y (b 3 a 1 ) = f Y (b 3 a 2 ) = f Y (b 3 ) = 1 2 Bemerkung: Lokale Odds Ratios sind alle 1 Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 190 / 206

16 Wie sehen die erwarteten (absoluten und relativen) Häufigkeiten h ij und f ij also aus? f Y (b 1 a i ) = f (b 1 ),..., f Y (b m a i ) = f Y (b m ), i = 1,..., k h ij h i = h j n h ij = h i h j n f ij = f i f j Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 191 / 206

17 Unabhängigkeitstabelle Idee: Vergleiche für jede Zelle (i, j) h ij mit tatsächlich beobachteten h ij χ 2 -Koeffizient Der χ 2 -Koeffizient ist bestimmt durch χ 2 = k m (h ij h ) 2 ij = h ij i=1 j=1 k i=1 j=1 ( m h ij h i h j n h i h j n ) 2 = n i j (f ij f i f j f i f j Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 192 / 206

18 Eigenschaften des χ 2 -Koeffizienten: χ 2 [0, ) χ 2 = 0 X und Y empirisch unabhängig χ 2 groß starker Zusammenhang χ 2 klein schwacher Zusammenhang Nachteil: χ 2 hängt vom Stichprobenumfang n und von der Dimension der Tafel ab. Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 193 / 206

19 Kontingenzkoeffizient und korrigierter Kontingenzkoeffizient Weitere Normierung Kontingenzkoeffizient Der Kontingenzkoeffizient ist bestimmt durch χ K = 2 n + χ 2 und besitzt den Wertebereich K M = min{k, m}. [ ] M 1 0, M, wobei Der korrigierte Kontingenzkoeffizient ergibt sich durch M 1 K = K/ M mit dem Wertebereich K [0, 1]. Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 194 / 206

20 Eigenschaften des Kontingenzkoeffizienten Es wird nur die Stärke des Zusammenhangs gemessen, nicht die Richtung wie beim Odds Ratio. Vorsicht ist geboten bei einem Vergleich von Kontingenztafeln mit stark unterschiedlichen Stichprobenumfängen, da χ 2 mit wachsendem Stichprobenumfang wächst, beispielsweise führte eine Verzehnfachung von h ij und h ij zu zehnfachem χ 2. Sämtliche Maße benutzen nur das Nominalskalenniveau von X und Y. Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 195 / 206

21 Beispiel: Sonntagsfrage Für die Kontingenztafel aus Geschlecht und Parteipräferenz für das Beispiel der Sonntagsfrage erhält man die in der folgenden Tabelle wiedergegebenen zu erwartenden Häufigkeiten h ij. CDU/CSU SPD FDP Grüne Rest Männer (144) (153) (17) (26) (95) 435 Frauen (200) (145) (30) (50) (71) Zu erwartende Häufigkeiten h ij und tatsächliche Häufigkeiten h ij (in Klammern) Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 196 / 206

22 Interpretation: Wenn Geschlecht und Parteipräferenz keinen Zusammenhang aufweisen, wären die CDU/CSU präferierende Männer zu erwarten. Tatsächlich wurden aber nur 144 beobachtet. χ 2 -Wert von , K = 0.145, K = Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 197 / 206

23 Spezialfall: (2 2)-Tafel Für den Spezialfall einer (2 2)-Tafel erhält man χ 2 aus χ 2 = a b a + b c d c + d a + c b + d n(ad bc) 2 (a + b)(a + c)(b + d)(c + d). Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 198 / 206

24 Beispiel: Arbeitslosigkeit Aus der Kontingenztafel Mittelfristige Langfristige Arbeitslosigkeit Arbeitslosigkeit Keine Ausbildung Lehre erhält man also unmittelbar χ 2 = und K = 0.165, K = ( ) = Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 199 / 206

25 Mehrdimensionale Kontingenztabellen Beispiel: Überleben beim Titanic-Untergang Mehrere diskrete Merkmale: Geschlecht, Klasse, Kind/ Erwachsene, Überleben (Ja/Nein) Darstellung durch geeignete bedingte und marginale Verteilungen Berechnung von Odds-Ratio zweier Merkmale bedingt auf ein drittes Merkmal Graphische Darstellung durch Mosaik-Plot Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 200 / 206

26 Mosaik-Plot Flächentreue Darstellung von Häufigkeiten Aufteilung schrittweise Zuerst Einflussgröße, zum Schluss nach Zielgröße aufteilen Gut geeignet für mehrkategoriale ordinale Daten Auch für höhere Dimensionen geeignet Deskriptive Statistik WiSe 2009/2010 Helmut Küchenhoff (Institut für Statistik, LMU) 201 / 206