Ausgangsüberlegung: Verschiedene Kontingenztabellen bei gleicher Randverteilung und gleichem Stichprobenumfang n sind möglich. Beispiel: Variable Y V a r i a b l e X x 1 x x 3 x 4 Σ y 1 60 60 y 0 0 y 3 10 10 0 Σ 60 0 10 10 100 Variable Y V a r i a b l e X x 1 x x 3 x 4 Σ y 1 30 10 10 10 60 y 10 10 0 y 3 0 0 Σ 60 0 10 10 100
Offenkundig wird nun: Bei gleichen Randverteilungen ( Marginalhäufigkeiten) und verschiedenen beobachteten konditionalen Häufigkeiten für die einzelnen Merkmalsausprägungen wird ein jeweils anderer Zusammenhang zwischen den beiden Variablen X und Y sichtbar. Dieser Sachverhalt wird bei der Konstruktion des Chi-Quadrat Modells genutzt. Aber wie? Kurz noch zur Nomenklatur: ffrequency ; Subskript b beobachtet Subskript e erwartet also: f b beobachtete (empirisch erfasste) Häufigkeit in der Kontigenztabelle f e erwartete Häufigkeit in der Indifferenztabelle
Indem wir die vorgefundenen Häufigkeiten in der Kontingenztabelle (f b ) mit den Häufigkeiten aus der Indifferenztabelle (f e ) vergleichen. In der Indifferenztabelle finden sich die Häufigkeiten, die wir erwarten würden, wenn keine Beziehung(Indifferenz) zwischen den Variablen bestünde. Exkurs : Zum weiteren Verständnis ist hier die Nomenklatur für die bivariate Tabelle noch wichtig: Die bivariate Tabelle besteht ja aus einer bestimmten Anzahl von Zeilen, Spalten und Zellen. Zur Identifizierung der Häufigkeiten in den Zellen benutzen wir die Subskripte i und j, wobei das erste Subskript i die Zeile und das zweite Subskript j die Spalte bezeichnet, in der die Häufigkeit lokalisiert ist: f ij ist also die Häufigkeit in der Zelle der i-ten Zeile und der j-ten Spalte.
Allgemeine Struktur der bivariaten Tabelle: Variable Y V a r i a b l e X x 1 x x 3 n i. y 1 f 11 f 1 f 13 n 1. y f 1 f f 3 n. y 3 f 31 f 3 f 33 n 3. y 4 f 41 f 4 f 43 n 4. n.j n.1 n. n.3 n
Beispiel zur Bestimmung von Chi-Quadrat: 60 Beschäftigte eines Betriebes wurden nach ihrem Schulabschluss befragt und zudem danach, ob sie in ihrem bisherigen Erwerbsleben bereits einen oder gar mehrere Berufswechsel vorgenommen haben. Variable X: Schulabschluss Abitur x 1 ja x nein Variable Y: Berufswechsel vorgenommen y 1 ja y nein a) Kontingenztabelle (f b ) Abitur/ Berufswechsel ja nein Randhäufigkeiten n i. ja 9 17 6 nein 4 10 34 Randhäufig- 33 7 60 keiten: n.j
Die jeweilige Häufigkeit in der Zelle der Indifferenztabelle wird auf Basis der Randhäufigkeiten der Kontingenztabelle berechnet: n n i.. f e ij N j Oder verbal ausgedrückt Die erwartete Zellenhäufigkeit berechnet sich über die: Randhäufigkeit der Zeile Randhäufigkeit der Spalte N
1.Schritt zur Berechung von Chi-Quadrat: Die erwarteten Häufigkeiten (f e ) mit Hilfe der marginalen Häufigkeiten der Kontingenztabelle bestimmen, so ergibt sich als Indifferenztabelle (hier für unser Beispiel, s.o.) Indifferenztabelle (f e ) Abitur/ Berufswechsel ja nein ja 6 33 60 14,3 6 7 60 11,7 Randhäufigkeiten n i. 6,0 nein 34 33 18,7 60 34 7 34,0 15,3 60 Randhäufig- 33,0 7,0 60,0 keiten: n.j
Was wurde also bisher hier getan? Es wurde berechnet, wie sich die Untersuchungseinheiten (UE) auf die einzelnen Zellen verteilen würden, wenn zwischen den beiden Variablen X und Y kein Zusammenhang (Indifferenz) bestünde: In diesem Fall müssten die Häufigkeiten in den Zellen zur marginalen Verteilung der Y-Variable proportional sein, das meint:
Proportionen der Häufigkeiten in den Zellen in der Indifferenztabelle zu denen der Marginalverteilung der Y-Variable: Indifferenztabelle (f e ) Abitur/ Berufswechsel ja nein ja Randhäufigkeiten n i. 14,3 11,7 6,0 nein 18,7 15,3 34,0 Randhäufig- 33,0 7,0 60,0 keiten: n.j 14,3 11,7 6,0 0,76 0, 76 0, 76 18,7 15,3 34,0
.Schritt zur Berechung von Chi-Quadrat: Differenzen zwischen f b und f e bestimmen Arbeitstabelle zur Berechnung von Chi-quadrat Zeile i Spalte j f b f e (f b f e ) (f b f e ) (f b f e ) /f e 1 1 9 14,3-5,3 8,09 1,96 1 17 11,7 5,3 8,09,40 1 4 18,7 5,3 8,09 1,50 10 15,3-5,3 8,09 1,84 Σ 60.0 60,0 0,0 7,70 3.Schritt: Die Berechung von Chi-Quadrat geschieht mit Hilfe der Formel: χ ( f f ) b e Σ f e
χ χ Deskriptivstatistik Chi-Quadrat ist dann hier nach der obigen Formel zu berechnen mit den Werten: 8,09 14,3 1,96 + +,40 8,09 11,7 + + 1,50 8,09 18,7 + 1,84 Damit ist Chi-Quadrat hier mit dem Wert 7,70 bestimmt. + 8,09 15,3 7,70 Also noch einmal kurz zusammengefasst: Wenn die Konditionalverteilung der Kontingenztabelle gleich der Konditionalverteilung der Indifferenztabelle ist, dann besteht zwischen x und y kein Zusammenhang. Wenn aber die Konditionalverteilung der Kontingenztabelle ungleich der Konditionalverteilung der Indifferenztabelle ist, dann besteht zwischen x und y ein Zusammenhang.
Problem bei χ ist allerdings : Eine Verdoppelung der Zellenhäufigkeiten bei identischen Verteilungen (Proportionen) führt zu einer Verdoppelung des Chi-Quadrat-Wertes. Chi-Quadrat variiert also mit N. Beispiel: 9 17 6 18 34 5 4 10 34 33 7 60 48 0 68 66 54 10 χ 7,70 15, 40 Proportionen: Proportionen: 9 0,375 17 1, 4 10 7 6 0, 34 76 18 0, 48 375 34 1, 0 7 5 0, 68 76 χ
Deutlich wird also: Wenngleich χ das Ausmaß der Abweichung der Kontingenzvon der Indifferenztabelle aufzeigt, kann es - allein für sich genommen - kein sinnvoller Kennwert für die Assoziation zwischen X und Y sein. Das bedeutet dann: χ Alle auf basierenden Assoziationsmaße müssen die Anzahl der Fälle (N) berücksichtigen.
(φ Der Phi-Koeffizient ) ist solch ein Maß, dass die Anzahl der Fälle (N) berücksichtigt. Die Formel für diesen Koeffizienten lautet: χ φ N bzw. φ χ N Für unser obiges Beispiel mit den Werten 7,70 χ und N60 errechnet sich dann ein Phi von: φ 7,70 60 0,183 0,358 Charakteristika zu Phi: Phi ist symmetrisch, zudem - nimmt Phi die Werte zwischen 0 bis 1 an; - Phi ist gleich 0, wenn gilt: X Y; - Phi ist > 0 bis 1, wenn gilt: X Y; - Phi ist 1, wenn gilt: χ N Aber: Phi ist ein Spezialfall für x Tabellen, d.h.: φ > 1, wenn gilt: r> bzw. c> (rrow) (ccolumn)
Eine Verbesserung zu Phi stellt der Assoziationskoeffizient Cramer s V insofern dar, als Cramer s V auch sinnvoll für größere als x-tabellen berechenbar ist. Die Formel für diesen Koeffizienten lautet: V χ N min( r 1, c 1) Dabei steht r für die Anzahl der Zeilen(rows) und c für die Anzahl der Spalten(columns). min steht für Minimum und besagt, dass zunächst zu prüfen ist, ob die Anzahl der Zeilen(r) oder die Anzahl der Spalten(c) kleiner ist. Der jeweils kleinere Wert geht dann in die Berechnung des Koeffizienten ein.
Charakteristika zu Cramer s V: V ist symmetrisch, zudem - nimmt V die Werte zwischen 0 bis 1 an; - V ist gleich 0, wenn gilt: X Y - V ist > 0 bis 1, wenn gilt: X Y Conclusio: χ Von den -basierten Assoziationskoeffizienten ist Cramer s V die geeignete Verallgemeinerung von φ auf Tabellen, die größer als x-tabellen sind. Für unser obiges Beispiel mit χ 7, 70; N60 ; r und c ist dann Cramer s V: V 7,70 60 min( 1, 1) 7,70 60 1 7,70 60 V 0,183 0,358 (in diesem Fall ist also Cramer s V Phi, da eine x-tabelle vorliegt)
Der Kontingenzkoeffizient C Die Formel für diesen Koeffizienten lautet: C χ χ + N Vorteil: Der Kontingenzkoeffizient C ist der für beliebig große rxc-tabellen bereits 1904 von PEARSON konstruierte χ -basierte Assoziationskoeffizient. Aber: Sein Nachteil liegt darin, dass seine praktische Grenze unter 1 liegt, das bedeutet, C nähert sich dem Wert 1 (auch bei einer perfekten Assoziation) nur an und zwar mit Zunahme der Spalten- und Zeilenanzahl.
Für unser obiges Beispiel mit 7,70 χ und N60 ist dann C: C 7,70 7,70+ 60 7,70 67,70 0,1137 0,337 χ Generell ist bei allen -basierten Assoziationskoeffizienten zu beachten, dass ihre Werte nur schwer inhaltlich zu deuten sind: Die Werte vermitteln nur einen rein ziffernmäßigen Eindruck von der Stärke eines Zusammenhanges. Literaturhinweis: KROMREY, Helmut, a.a.o., 006(11.üb.Aufl.):490-493.