Bivariate Kreuztabellen Kühnel, Krebs 2001 S. 307-342 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/33
Häufigkeit in Zelle y 1 x 1 Kreuztabellen Randverteilung x 1... x j... x J Σ y 1 n 11 n 1j n 1J n 1 y i... n ij... n i y I...... n IJ n I Σ n 1 n j n J n Randverteilung Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 2/33
Vierfeldertabelle Beide Variablen dichotom, d.h. es gibt nur die Ausprägungen x 1, x 2 und y 1, y 2 Nur vier innere Zellen Vereinfachung zur Bezeichnung der absoluten Häufigkeiten: a= n 11 n 1 = a+b n = a+b+c+d b= n 12 n 2 = c+d c= n 21 n 1 = a+c d= n 22 n 2 = b+d Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 3/33
Absolute Häufigkeiten in der Vierfeldertabelle Randverteilung x 1 x 2 Σ y 1 a b a+b y 2 c d c+d Σ a+c b+c a+b+c+d Randverteilung Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 4/33
Absolute Häufigkeiten Beispiel Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 5/33
Relative Häufigkeiten bezogen auf die Gesamtfallzahl Randverteilung x 1 x 2 Σ y 1 n 11 / n 12 / n n n 1 / n y 2 n 21 / n 22 / n n n 2 / n Σ n 1 / n 2 / n n Randverteilung 1.0 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 6/33
Relative Häufigkeiten bezogen auf die Gesamtfallzahl Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 7/33
Relative Häufigkeiten bezogen auf die Gesamtfallzahl Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 8/33
Spaltenbezogene relative Häufigkeiten bedingte Verteilung Randvereilung unbedingte Verteilung x 1 x 2 Σ y 1 n 11 / n 12 / n 1 n 2 n 1 / n y 2 n 21 / n 22 / n 1 n 2 n 2 / n Σ 1.0 1.0 1.0 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 9/33
Spaltenbezogene relative Häufigkeiten Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 10/33
Spaltenbezogene relative Häufigkeiten Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 11/33
Zeilenbezogene relative Häufigkeiten bedingte Verteilung x 1 x 2 Σ y 1 n 11 / n 12 / n 1 n 1 1.0 y 2 Σ n 21 / n 22 / n 2 n 2 n 1 / n 2 / n n 1.0 1.0 Randverteilung unbedingte Verteilung Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 12/33
Zeilenbezogene relative Häufigkeiten Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 13/33
Zeilenbezogene relative Häufigkeiten Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 14/33
Zusammenhang zwischen den beiden Variablen in der Kreuztabelle Kein Zusammenhang (Variablen sind unabhängig): Prozentwerte der bedingten Verteilung entsprechen Prozentwerte der Randverteilung Zusammenhang (Variablen sind nicht unabhängig): Prozentwerte der bedingten Verteilung sind ungleich den Prozentwerten der Randverteilung Symmetrischer Zusammenhang: es gibt keine erklärende und keine abhängige Variable Asymmetrischer Zusammenhang: es gibt eine erklärende und eine abhängige Variable Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 15/33
Prozentsatzdifferenzen Maß für die Stärke des asymmetrischen Zusammenhangs Berechnung in der Vierfeldertabelle: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 16/33
Spaltenbezogene relative Häufigkeiten erklärende Variable abhängige Variable d yx %=59.3% - 61.4%= - 2.1 Kein Zusammenhang zwischen Geschlecht und Einstellung zu Schwangerschaftsabbruch Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 17/33
Prozentsatzdifferenzen Vorzeichen spielt bei nominalskalierten Variablen keine Rolle d YX % = 0 bei identischen Spaltenprozentwerten :kein Zusammenhang d YX % = -100 bzw. d YX % = +100 bei perfektem Zusammenhang FAUSTREGELN d YX % > 25 PP starker Zusammenhang d YX % < 10 PP schwacher Zusammenhang d YX % < 5 PP nicht interpretierbar Vorsicht: Bei sehr schiefen Verteilungen können auch Prozentsatzdifferenzen kleiner fünf bedeutsam sein! Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 18/33
Prozentsatzdifferenzen Werden abhängige u. unabhängige Variable vertauscht: Prozentsatzdifferenz ändert isch. SPALTENPROZENT AWL: abhängige Variable EWL: erklärende Variable dxy%=19.8-7.1=12.7 Prozentpunkte (PP) Schwacher Zusammenhang zwischen Einschätzung AWL auf Grund von EWL Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 19/33
Prozentsatzdifferenzen Werden abhängige u. erklärende Variable getauscht: Prozentsatzdifferenz ändert sich. ZEILENPROZENT EWL: abhängige Variable AWL: erklärende Variable dxy%=72.8-45.1=27.7 Starker Zusammenhang zwischen Einschätzung EWL auf Grund von AWL Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 20/33
Unabhängigkeit zweier Variablen Statistische Unabhängigkeit liegt vor wenn, Prozentsatzdifferenz gleich 0 ist alternativ: X und Y (beide dichotom) in der Population sind unabhängig, wenn die relativen Häufigkeiten der bivariaten Verteilung gleich dem Produkt der relativen Häufigkeiten der univariaten Verteilung sind: bedingte Verteilung=unbedingte Verteilung Unabhängigkeit kann dann mittels Hypothesenprüfung nachgewiesen werden Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 21/33
Unabhängigkeit zweier Variablen Die bei statistischer Unabhängigkeit erwarteten absoluten Häufigkeiten e ij ergeben sich aus dem Produkt der relativen Häufigkeiten der entsprechenden Randverteilungen: Die erwarteten absoluten Häufigkeiten stellen somit Schätzungen von Durchschnittswerten dar Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 22/33
Unabhängigkeit zweier Variablen Erwartete Häufigkeiten bei Unabhängigkeit Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 23/33
Pearsons Chiquadrat Teststatistik zum Erfassen der Abweichung zwischen erwarteten und beobachteten Häufigkeiten Ermittlung: Quadrate der Differenzen zwischen erwarteten und beobachteten Häufigkeiten werden durch die jeweiligen ertwarteten Häufigkeiten dividiert und über alle vier Tabellenzellen aufsummiert: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 24/33
Pearsons Chiquadrat alternativ (in Vierfeldertabellen): 2 χ = 3489 ( 338*1660 126*1365) 464*3025*1703*1786 2 = 123.726 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 25/33
Pearsons Chiquadrat Hypothesentest bei Unabhängikeit ist die Teststatistik χ² asymptotisch chiquadratverteilt mit df=1 Freiheitsgrad H0: Zeilen- und Spaltenvariablen sind unabhängig H1: Zeilen- und Spaltenvariablen sind abhängig Nachweis mittels einseitigem Hypothesentest Nullhypothese wird abgelehnt, wenn χ² größer ist als das 1-α-Quantil der Chiquadratverteilung mit df Freiheitsgraden Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 26/33
Pearsons Chiquadrat Hypothesentest Beispiel: χ² -Tabelle Quantilwert des 95% Quantils einer χ²- Verteilung mit df=1 Freiheitsgrad ist 3.841 In einer χ² Verteilung haben 95% der Realisationen einen Wert kleiner gleich 3.841 Da die Teststatistik χ² =123.726 größer ist als der kritische Wert 3.84 kann Nullhypothese abgelehnt werden Es besteht ein Zusammenhang zwischen EWL und AWL Häufigkeiten müssen in allen Tabellenzellen mindestens 5 sein!! Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 27/33
Eigenschaften Pearsons Chiquadrat Maximal höchster Wert für Teststatistik χ² ist der Stichprobenumfang n. Da χ² mit der Fallzahl variiert ist es unbrauchbar für ein Zusammenhangsmaß Gibt an ob ein Zusammenhang besteht, aber nicht, wie stark der Zusammenhang ist!! Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 28/33
Symmetrische Zusammenhangsmaße symmetrischer Zusammenhang, wenn nicht zwischen erklärender und abhängiger Variable unterschieden wird Phi Φ Yules Q basieren beide auf χ² Teststatistik Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 29/33
Symmetrisches Zusammenhangsmaß Phi berücksichtigt die Fallzahlabhängigkeit von χ²: Φ = Φ 2 alternative Berechnung in der Vierfeldertabelle: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 23/33
Symmetrisches Zusammenhangsmaß Phi mißt den Zusammenhang zwischen zwei Variablen der Vierfeldertabelle kein Zusammenhang Φ = 0 perfekter Zusammenhang Φ = 1 oder Φ = -1 Ab Ordinalskalenniveau und bei entsprechender Anordnung der Variablen (höchste bzw geringste Werte in der ersten Zeile ) kann das Vorzeichen folgendermaßen interpretiert werden: - positives Vorzeichen: positive Beziehung, bei höherem Spaltenwert ist mit höherem Zeilenwert zu rechnen und umgekehrt - negatives Vorzeichen: negative Beziehung, bei höherem Spaltenwert ist mit geringerem Zeilenwert zu rechnen und umgekehrt Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 31/33
Beispiel AWL & EWL 2 χ = 3489 ( 338*1660 126*1365) 464*3025*1703*1786 2 = 123.726 H0: AWL & EWL unabhängig ->ablehnen Φ = 338*1660 126*1365 464*3025*1703*1786 = 0.188 Bessere Einschätzung der EWL führt zu besserer Einschätzung der AWL und umgekhrt Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 32/33
Yules Q "robustes" Zusammenhangsmaß, ist unempfindlich gegenüber Änderungen in den Randverteilungen der Kreuztabelle Berechnung: Q ist im allgemeinen größer als Φ, die Vorzeichen stimmt jedoch überein kein Zusammenhang Q = 0 perfekter Zusammenhang Q = 1 oder Q = -1 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 33/33
Unabhängigkeit in Mehrfeldertabellen bei Nominal skalierten Variablen Kühnel & Krebs 2001 S. 343-381 Symmetrischer Zusammenhang 1. Standardisierte Residuen 2. χ2 Test 3. Cramérs V Asymmetrischer Zusammenhang 1. PRE Maße 2. Relative Devianzreduktion 3. Likelihood Ratio Test Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/15
Symmetrischer Zusammenhang Unabhängigkeit in Mehrfeldertabellen Untersuchung mit Pearsons Chiquadrattest Unabhängigkeit liegt vor, wenn die gemeinsame Verteilung der relativen Häufigkeiten von X und Y in den Tabellenzellen mit dem Produkt der relativen Häufigkeiten der Randverteilungen von X und Y übereinstimmt entsprechendes Hypothesenpaar: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 2/15
Unabhängigkeit in Mehrfeldertabellen Ermittlung der erwarteten absoluten Häufigkeiten für alle inneren Zellen analog zur Vierfeldertabelle: ebenso die Berechnung der Teststatistik χ²: Damit ergibt sich für die Beispieltabelle: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 3/15
Unabhängigkeit in Mehrfeldertabellen Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 4/15
Standardisierte Residuen zur Beurteilung die Abweichung zwischen erwarteten und beobachteten Häufigkeiten Berechnung: Vorzeicheninterpretation: + beobachter Wert liegt über erwartetem - beobachter Wert liegt unter erwartetem standardisierte Residuen sind asymptotisch normalverteilt, Werte über +2 oder unter -2 weisen auf überzufällige Abweichungen hin (Irrtumswahrschienlichkeit α = 5 %) Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 5/15
χ² in Mehrfeldertabellen bei zutreffender Nullhypothese ist χ² asymptotisch chiquadratverteilt Berechnung der Freiheitsgrade: Im Beispiel: df = (5-1) (3-1) = 8 Ablesen des (1-α)-Quantils für df=8 χ² 8,0.95 =15,51 berechneter Wert im Beispiel χ²= 252,4 252,4 > 15,51 Nullhypothese ist abzulehnen Fazit: In der Population besteht wahrscheinlich ein Zusammenhang zwischen Konfession und Wahlabsicht Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 6/15
Cramérs V chiquadratbasiertes, symmetrisches Zusammenhangsmaß für nominalskalierte Variablen Verallgemeinerung von Φ² Berechnung: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 7/15
Cramérs V Vorzeichen kann ignoriert werden Werte von V oder χ² ändern sich bei Vertauschen von Zeilen oder Spalten nicht Für die Beispieltabelle Konfession/Wahlabsicht ergibt sich damit: χ² max = 2168 2 Interpretation: Wert für V zwischen 0,10 und 0,20 wird im Allgemeinen als gering bezeichnet Im Beispiel besteht ein mäßiger Zusammenhang zwischen Wahlabsicht und Konfession Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 8/15
Asymmetrischer Zusammenhang PRE-Maße PRE = proportional reduction errors proportionale Fehlerreduktion geben das Ausmaß der Verbesserung der Vorhersage von Y an, das bei Berücksichtigung von X erreicht werden kann berechnet wird der Anteil, um den sich der Fehler dabei verringert: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 9/15
Relative Devianzreduktion Unsicherheitskoeffizient, Likelihood-Ratio-Index, Coefficient of uncertainty Devianz: Streuungsmaß für nominalskalierte Variablen Maß für Vorhersagefehler Berechnung für Variable Y: Devianz ist Null bei perfekten Vorhersagen Berechnung für Variable X erfolgt über die Verteilung von X und Y: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 10/15
Relative Devianzreduktion Devianz läßt sich als Fehlermaß nutzen Konstruktion das PRE-Maßes P² YX gibt die relative Devianzreduktion von Y bei Kenntnis von X an: auch Likelihood-Ratio-Index oder Unsicherheitskoeffizient ist null bei Unabhängigkeit Interpretation: P² YX < 5% gilt als gering P² YX > 20% gilt als stark Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 11/15
Relative Devianzreduktion im Beispiel: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 12/15
Relative Devianzreduktion Veringerung der Devianz der Wahlabsicht um 3,8% bei Kenntnis der Konfession geringer Zusammenhang beim Vertauschen der Variablen ergibt sich ein anderer Wert: P² YX = 0,05 P² YX ist ein asymmetrisches Zusammenhangsmaß für nominalskalierte Variablen Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 13/15
Likelihood-Ratio-Test L² alternative, aber äquivalente Testmethode zu Pearsons Chiquadrattest prüft, ob die relative Devianzreduktion signifikant von null verschieden ist: Hypothesentest H0: D Y =D YX (D Y -D YX =0) H1: D Y <>D YX (D Y -D YX <>0) Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 14/15
Likelihood-Ratio-Test L² für das Beispiel Wahlabsicht & konfessionelle Zugehörigkeit ergibt sich L² = 237,67 H0: D Y =D YX H1: D Y <>D YX Ablesen des 95% Quantils bei df=8 ergibt 15,51 (Chiquadratverteilung mit α = 5 %) 237,67 > 15,51, also ist die Nullhypothese abzulehnen Wahlabsicht hängt signifikant von der konfessionellen Zugehörigkeit ab Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 15/15