Analyse bivariater Kontingenztafeln Werden zwei kategoriale Merkmale mit nicht zu vielen möglichen Ausprägungen gemeinsam analysiert, so kommen zur Beschreibung der gemeinsamen Verteilung im allgemeinen Kontingenztafeln (Kreuztabellen) zum Einsatz. 1
Dargestellt werden die absoluten Häufigkeiten h ij für Ausprägungen der gemeinsamen Verteilung der beiden kategorialen Merkmale. Die möglichen Werte sind Kombinationen von Ausprägungen der beteiligten Merkmale. Ergänzt werden diese Tabellen durch die Randhäufigkeiten (Zeilen- und Spaltensummen), die die univariaten Verteilungen der beiden Merkmale beschreiben. 2
Für ein kategoriales Merkmal X (Zeilen) mit den Ausprägungen a 1,..., a k und Y (Spalten) mit den Ausprägungen b 1,..., b l hat die Tabelle die Gestalt: X Y b 1... b j... b l a 1 h 11... h 1j... h 1l h 1..... a i h i1... h ij... h il h i..... a k h k1... h kj... h kl h k h 1... h j... h l h 3
mit und l k h i = h ij, h j = j=1 i=1 h ij k l k l h = h i = h j = i=1 j=1 i=1 j=1 h ij 4
Zur grafischen Darstellung der Verteilung in den Zeilen oder Spalten also z.b. zur Darstellung der Abhängigkeit der Verteilung in den Zeilen von den Ausprägungen des Merkmals in den Spalten bieten sich gestapelte Balkendiagramme an. 5
Basistechnik bei der Analyse von Kontingenztafeln ist die χ 2 Statistik, die sowohl in der beschreibenden als auch in der schließenden Statistik verwendet wird. χ 2 beschreibt dabei im Sinne des χ 2 Anpassungstests den Abstand zwischen der beobachteten Kontingenztafel und der hypothetisch unterstellten Indifferenztabelle. 6
Die Indifferenztabelle wird dabei aus den beiden eindimensionalen Randverteilungen ermittelt, die den beobachteten univariaten Verteilungen der beiden untersuchten Merkmale X und Y entsprechen. In der Indifferenztabelle werden für jede Zelle die bei Unabhängigkeit der beiden Merkmale erwarteten Häufigkeiten h ij aus den vorliegenden Randhäufigkeiten ermittelt h ij = h i h j n = h i n h j n n 7
Damit sind die Zeilen und Spalten einer Indifferenztabelle proportional. Die Unabhängigkeit der Merkmale und die Homogenität (Gleichheit) der Verteilungen in den Zeilen oder in den Spalten sind damit äquivalent. χ 2 beschreibt also den Abstand der beobachteten Kreuztabelle zu der bei Unabhängigkeit der beiden Merkmale bzw. der bei Homogenität der Verteilungen in den Zeilen und Spalten zu erwartenden Tabelle. 8
Kenngrößen zur Beschreibung von Abhängigkeiten in Kontingenztafeln Für die Erfassung von Abhängigkeiten in Kontingenztafeln wurde eine Vielzahl von Kenngrößen entwickelt. Den Kenngrößen liegen z.t. unterschiedliche konzeptionelle Vorstellungen zu Grunde. Bei der Auswahl von geeigneten Kenngrößen spielen auch die Dimension der Tafel und das Skalenniveau der beteiligten Merkmale eine Rolle. Es existiert kein optimales Abhängigkeitsmaß für Kontingenztafeln. 9
Werden zwei dichotome Merkmale X und Y beobachtet, so wird ihre gemeinsame Verteilung durch eine 4 Felder Tafel beschrieben. Wir verwenden für derartige Tafeln die folgenden Bezeichnungen: X \ Y y 1 y 2 Gesamt x 1 a b a + b x 2 c d c + d Gesamt a + c b + d a + b + c + d 10
Bei asymmetrischen Fragestellungen, wenn also von einer Richtung der Abhängigkeit (z.b. Kausalität) ausgegangen werden kann, verwendet man häufig Tafeln mit Zeilen- oder Spaltenprozenten. Prozentuiert wird in Richtung auf die vermutete unabhängige Einflussgröße, um die (bedingten) Verteilungen der vermuteten abhängigen Größe für die verschiedenen Ausprägungen der Einflussgröße vergleichen zu können. Ungleichheit (Inhomogenität) dieser Verteilungen ist ein Indiz für vorhandene Abhängigkeiten, also für den Zusammenhang zwischen den beobachteten Merkmalen. Das einfachste Zusammenhangmaß in einer 4 Felder Tafel ist die zeilen- oder spaltenbezogene Prozentsatzdifferenz. 11
Beispiel: ALLBUS 1996 Geschlechtszugehörigkeit (Spaltenvariable) und Einstellung zum Schwangerschaftsabbruch (Zeilenvariable) bei finanzieller Notlage. Absolute Häufigkeiten männlich weiblich Gesamt dafür a = 908 b = 962 a + b = 1870 dagegen c = 624 d = 606 c + d = 1230 Gesamt a + c = 1532 b + d = 1568 a + b + c + d = 3100 Die Einflussgröße ist das Geschlecht, daher verwenden wir Spaltenprozente. 12
Spaltenprozente männlich weiblich Gesamt dafür (a/(a + c)) 100% = 59.3% 61.4% 60.3% dagegen (c/(a + c)) 100% = 40.7% 38.6% 39.7% Gesamt ((a + c)/(a + c)) 100% = 100% 100% 100% Die Prozentsatzdifferenz bei Verwendung von Spaltenprozenten beträgt also a a + c 100% b b + d 100% = 59.3% 61.4% = 2.1% Die geschlechtsspezifischen Unterschiede bei der Einstellung zum Schwangerschaftsabbruch sind also nicht besonders stark ausgeprägt. 13
Als Maß für den Unterschied zwischen zwei Gruppen kann auch das Odds Ratio eingesetzt werden. Das Odds Ratio setzt die Odds zweier Gruppen zueinander ins Verhältnis. Im Beispiel sind die Odds (Chancen) unter den Frauen eine Befürworterin für den Schwangerschaftsabbruch zu finden b/d = 962/606 und unter Männern a/c = 908/624. Das Odds Ratio das Verhältnis der Odds von Frauen und Männern ist demnach b d : a c = bc ad = 962 624 908 606 = 1.091 Die Chancen, unter Frauen eine Befürworterin des Schwangerschaftsabbruches zu finden, sind also in Relation zu den Männern etwas größer. 14
Sowohl für asymmetrische als auch für symmetrische Zusammenhänge kann χ 2 zur Beschreibung verwendet werden. Für vorgegebene Randverteilungen a + b und c + d bzw. a + c und b + d hat die Indifferenztabelle die Gestalt X \ Y y 1 y 2 Gesamt x 1 x 2 (a+b)(a+c) (a+b+c+d) (c+d)(a+c) (a+b+c+d) (a+b)(b+d) (a+b+c+d) (c+d)(b+d) (a+b+c+d) a + b c + d Gesamt a + c b + d a + b + c + d Mit n = a + b + c + d lässt sich der Abstand χ 2 für eine 4 Felder Tafel in der folgenden Form darstellen: χ 2 = n (ad bc) 2 (a + b)(c + d)(a + c)(b + d) 15
Der maximal mögliche Wert von χ 2 für eine 4 Felder Tafel ist damit gleich n (Stichprobenumfang). Er wird erreicht, wenn in der Tabelle nur eine der Diagonalen besetzt ist, d.h. wenn entweder nur a und d oder nur c und b von Null verschieden sind (perfekter, eineindeutiger Zusammenhang). χ 2 selbst ist als Abhängigkeitsmaß ungeeignet, da es sich mit dem Stichprobenumfang verändert. Abhängigkeitsmaße für 4 Felder Tafeln, die auf χ 2 basieren, sind Φ 2 = χ2 n = (ad bc) 2 (a + b)(c + d)(a + c)(b + d) und Φ = ad bc (a + b)(c + d)(a + c)(b + d) 16
Φ 2 gibt mit Werten zwischen 0 und 1 die Stärke eines Zusammenhanges in einer 4 Felder Tafel an. Φ ist vorzeichenbehaftet. Das Vorzeichen ergibt sich dabei aus den Häufigkeiten auf den Diagonalen. Überwiegen die Häufigkeiten a und d, so ergibt sich ein positives Vorzeichen. Eine Deutung des Vorzeichens ist nur bei ordinalskalierten Merkmalen X und Y sinnvoll. Sind die Merkmale intervallskaliert, so stimmt Φ mit dem Korrelationskoeffizient nach Pearson überein. Im Beispiel ergeben sich χ 2 = 1.4048, Φ 2 = 0.00045319 und Φ = 0.02128. 17
Werden Merkmale X und Y beobachtet, die nicht nur jeweils zwei, sondern k bzw. l mögliche Ausprägungen besitzen, so ist die Kontingenztafel eine Mehrfeldertafel mit k Zeilen, l Spalten und k l Zellen. Bei asymmetrischen Fragestellungen werden wieder Zeilenoder Spaltenprozente zum Vergleich von Verteilungen eingesetzt. Prozentsatzdifferenzen dienen dazu, die Unterschiede zwischen Verteilungen für einzelne Kategorien der vermuteten abhängigen Größe zu beschreiben. Evtl. sind mehrere Prozentsatzdifferenzen zum Vergleich heranzuziehen. Analog kann man mehrere Odds Ratios einsetzen. 18
Beispiel: Wahlabsicht und Konfession (ALLBUS 1996) Als Einflussgröße wird die Konfessionzugehörigkeit vermutet. Prozentuiert wird also bezüglich der Kategorien dieses Merkmals. Deutliche Prozentsatzdifferenzen sind u.a. bei der CDU erkennbar. Die Odds (Chancen) unter KatholikInnen eine/n CDU WählerIn anzutreffen sind 327/349 = 0.937 und unter ProtestantInnen 306/554 = 0.552. Das Odds Ratio von KatholikInnen zu ProtestantInnen CDU zu wählen, beträgt demnach 327 349 : 306 327 554 = 554 349 306 = 1.696 Die Chancen aus den KatholikInnen, eine/n CDU WählerIn auszuwählen, sind also etwa 1.7 mal so groß wie eine derartige Auswahl unter ProtestantInnen. 19
katholisch evangelisch keine Σ CDU 327 306 141 774 48.4% 35.6% 22.3% 35.7% SPD 198 300 216 714 29.3% 34.9% 34.2% 32.9% F.D.P. 49 109 41 199 7.2% 12.7% 6.5% 9.2% B 90/Gr. 92 129 134 355 13.6% 15.0% 21.2% 16.4% PDS 10 16 100 126 1.5% 1.9% 15.8% 5.8% Σ 676 (100%) 860 (100%) 632 (100%) 2168 (100%) 20
Auch für Mehrfeldertafeln kann χ 2 zur Beschreibung sowohl von asymmetrischen als auch von symmetrischen Zusammenhängen eingesetzt werden. Der größte Wert, den χ 2 für eine Mehrfeldertafel annehmen kann, ergibt sich im Fall perfekter (funktioneller) Zusammenhänge. Im Fall einer Mehrfeldertafel mit k l Zellen ist der Maximalwert gleich n min (k 1, l 1) Im Beispiel ist der maximal mögliche Werte von χ 2 also 2168 min (5 1, 3 1) = 2168 2 21
Eine Verallgemeinerung von Φ auf beliebige Mehrfeldertafeln ist Cramérs V. Es ist definiert als χ V = 2 n min(k 1, l 1) V gibt mit Werten zwischen 0 und 1 die Stärke eines Zusammenhanges in einer Mehrfeldertafel an. V ist nicht vorzeichenbehaftet. 22
Als weiteres Zusammenhangsmaß in beliebigen Kontingenztafeln wird der Kontingenzkoeffizient χ C = 2 χ 2 + n verwendet (siehe Statistik I). 23
Eine andere Betrachtungsweise der Abhängigkeit kategorialer Merkmale ist die der prädikativen Assoziation. Ihr entsprechen als Maßzahlen die PRE Maße (Proportional Reduction in Error). Das Konzept besteht darin, dass untersucht wird, wie sich die Schätzung oder Vorhersage der abhängigen Variablen ändert, wenn als zusätzliche Information die bekannte Ausprägung der unabhängigen Variablen verwendet wird, gegenüber der Situation, dass diese Information nicht vorliegt. Die PRE Maße spiegeln also den Grad wider, in dem uns die Kenntnis der Ausprägungen einer Einflussgröße hilft, die andere (abhängige) Größe vorher zusagen. 24
Als Beispiel für ein PRE Maß betrachten wir λ (Lambda) nach Goodman und Kruskal. λ ist ein asymmetrisches Maß für Zusammenhänge in beliebigen Mehrfeldertafeln. Je nach dem welches Merkmal als abhängig angesehen wird, werden zwei verschiedene λ Werte berechnet. Aus den beiden Werten kann noch ein dritter, symmetrischer Wert berechnet werden. λ nimmt Werte zwischen 0 und 1 an und lässt sich im Sinne der Fehlerreduktion bei der Vorhersage des abhängigen Merkmals im Gegensatz zu χ 2 einfach interpretieren. 25
Allen PRE Maßen nicht nur λ liegt die gleiche Konzeption zu Grunde: Verglichen werden die Fehler bei der Vorhersage der abhängigen Größe ohne Kenntnis der Ausprägungen der unabhängigen Größe (Fehler(OK)) mit den Fehlern bei Kenntnis der Ausprägungen der abhängigen Größe (Fehler(MK)). Jedes PRE Maß hat die Gestalt PRE Maß = Fehler(OK) Fehler(MK) Fehler(OK) PRE Maße unterscheiden sich nur hinsichtlich der Regeln (Modelle), die für die Vorhersage verwendet werden und die zugehörige Fehlerdefinition. Die uns bereits bekannten Kenngrößen η 2 und r 2 sind spezielle PRE Maße. 26
Bei der Berechnung von λ wird für die Vorhersage stets die modale Kategorie der Verteilung verwendet. Ohne Kenntnis der Ausprägungen der Einflussgröße verwendet man die modale Kategorie der univariaten Verteilung der abhängigen Größe, d.h. die häufigste Kategorie der entsprechenden Randverteilung, zur Vorhersage. Mit Kenntnis der Ausprägung der Einflussgröße verwendet man die modale Kategorie der entsprechenden bedingten Verteilung, d.h. der Verteilung in der entsprechenden Spalte oder Zeile der Kontingenztafel. Sind die Modalwerte dieser Verteilungen alle gleich dem Modalwert der Randverteilung, so kommt es zu keiner Fehlerreduktion. 27
In unserem Beispiel würden wir ohne Kenntnis der Konfessionszugehörigkeit die Prognose CDU WählerIn verwenden. Ist bekannt, dass die Konfessionszugehörigkeit KatholikIn oder ProtestantIn ist, so verwenden wir wieder die Prognose CDU WählerIn, auch wenn sich die Anteile der CDU WählerInnen in beiden Gruppen stark unterscheiden. Nicht konfessionsgebundene WählerInnen entscheiden sich aber mehrheitlich für die SPD. Bei Kenntnis und Verwendung der Konfessionszugehörigkeit reduziert sich also der Fehlerprozentsatz bei der Vorhersage des Wahlverhaltens. 28
Neben λ werden auch andere PRE Maße für nominalskalierte Merkmale verwendet, die andere Regeln (Modelle) für die Vorhersage oder Fehlerdefinition verwenden. Ein Beispiel ist der Unsicherheitskoeffizient, der die Devianz als Maß für den Vorhersagefehler benutzt. 29