Bivariate Zusammenhänge

Bivariate Zusammenhänge Tabellenanalyse: Kreuztabellierung und Kontingenzanalyse Philosophische Fakultät Institut für Soziologie Berufsverläufe und Berufserfolg von Hochschulabsolventen Dozent: Mike Kühne SS 2007 Martin Otto, Robert Pelz

Gliederung 1. Kreuztabellen 2. Tabellenanalyse Chi-Quadrat Chi-Quadrat-Unabhängigkeitstest Zusammenhangsmaße für nominale Daten Zusammenfassung Quellen

Die Kreuztabelle (Kontingenztabelle) i x j Kreuztabelle Merkmal 2 Ausprägung Zeilensummen Merkmal 1 1 2... j Ausprägung 1 n 11 n 12... n 1j n 1. Ausprägung 2 n 21 n 22... n 2j n 2. Ausprägung 3 n 31 n 32... n 3j n 3................... Ausprägung i n i1 n i2... n ij n i. Spaltensumme n. 1 n. 2... n. j n.. Tabelle 1

Vorteile der Kreuztabelle Übersichtliche Darstellung Einfache Auswertung Variablen unterschiedlicher Skalenniveaus können einfach auf ihren Zusammenhang untersucht werden

Beispiel: Analyse der Produktpräferenzen (absolute Werte) Bevorzugter Brotaufstrich Wohnort Margarine Butter ländlich 23 45 68 städtisch 83 30 113 106 75 181 Tabelle 2

Wohnort ländlich städtisch Margarine 21,7% 78,3% 100% Butter 60% 40% 100% Tabelle 3: Darstellung mit Spaltenprozenten Wohnort Margarine Butter ländlich 33,8% 66,2% 100% städtisch 73,5% 26,5% 100% Tabelle 4: Darstellung mit Zeilenprozenten

Nachteile Drittvariableneinflüsse sind nicht erkennbar Tabellendesign kann Zusammenhänge verdecken Unübersichtlich bei vielen Ausprägungen

Tabellenanalyse Besteht eine Abhängigkeit zwischen den beobachteten Variablen? Wie ist die Stärke der Abhängigkeit messbar?

Abhängigkeit? Bevorzugter Brotaufstrich Wohnort Margarine Butter ländlich 12,7% 24,9% 37,6% städtisch 45,9% 16,5% 62,4% 58,6% 41,4% 100% Tabelle 5 Gibt es einen Zusammenhang zwischen den Variablen Wohnort und Brotaufstrich?

Unabhängigkeit Bevorzugter Brotaufstrich Wohnort Margarine Butter ländlich 37,6% städtisch 62,4% 58,6% 41,4% 100% Tabelle 5 Angenommen, es besteht kein Zusammenhang zwischen Brotaufstrich und Wohnort, dann müssten sich diese Verhältnisse in jeder Zeile bzw. Spalte widerspiegeln.

erwartete Werte Werte bei unterstellter Unabhängigkeit Über die Randhäufigkeiten lassen sich die erwarteten Werte errechnen. Erwarteter Wert = Zeilensumme Spaltensumme Gesamtsumme

beobachtete / erwartete Werte Bevorzugter Brotaufstrich Wohnort Margarine Butter ländlich 23 / 40 45 / 28 68 städtisch 83 / 66 30 / 47 113 106 75 181 Tabelle 6

a) Chi - Quadrat χ 2 χ 2 = i,j (n ij - ñ ij ) 2 ñ ij Maß für den Unterschied zwischen beobachteten und erwarteten Werten χ 2 = 0, Variablen X und Y sind unabhängig

b) χ 2 - Unabhängigkeitstest Aufstellen der Hypothesen: H 0 : Wohnort und Brotaufstrich sind unabhängig. H A : Brotaufstrich ist abhängig vom Wohnort Irrtumswahrscheinlichkeit festlegen: Signifikanzniveau: α = 0,05 Berechnung

b) χ 2 -Unabhängigkeitstest χ 2 = (23 40) 2 40 + (45 28) 2 28 + (83 66) 2 66 + (30 47) 2 47 27,47 χ 2 0, d.h. eine Abhängigkeit ist zu vermuten

b) χ 2 -Unabhängigkeitstest χ 2 0, d.h. eine Abhängigkeit ist zu vermuten Vergleichswert bei Signifkanzniveau α = 0,05 ist 3,84 (Bestimmung über χ 2 - Tabelle) χ 2 = 27,47 > 3,84, d.h. H 0 ist mit einer Irrtumswahrscheinlichkeit von 5% abzulehnen

b) χ 2 -Unabhängigkeitstest χ 2 = (23 40) 2 40 + (45 28) 2 28 + (83 66) 2 66 + (30 47) 2 47 27,47 χ 2 = (46 79,6) 2 79,6 + (90 56,4) 2 56,4 + (166 132,4) 2 132,4 + (60 93,6) 2 93,6 54,78 χ 2 0, d.h. eine Abhängigkeit ist zu vermuten, Stärke und Richtung des Zusammenhangs sind nicht erkennbar

Yates-Korrektur und exakter Ungenauigkeit des Fisher-Test χ 2 -Unabhängigkeitstest bei kleinen Stichprobenumfängen Yates-Korrektur bei Stichprobenumfang von 20-60 Exakter Fisher-Test bei n < 20

c) Zusammenhangsmaße für Prozentsatzdifferenz nominale Daten Phi Kontingenzkoeffizient C Cramer s V χ 2 -basierte Maßzahlen Odds Ratio Relative Risiken Spezielle Maßzahlen

Prozentsatzdifferenz Einfachste Art, die Stärke von Zusammenhängen zwischen Merkmalen zu messen Differenzen der relativen Häufigkeiten werden gebildet Bsp: Der Unterschied zwischen Butterkäufern auf dem Land (60%) und Butterkäufern in der Stadt (40%) beträgt 20%.

Phi ϕ= Beruht auf χ 2 Je größer ϕ, desto stärker der Zusammenhang Nimmt Werte zwischen 0 und 1 an Orientierung: ϕ > 0,3 mehr als triviale Abhängigkeit χ 2 N

Nachteile des ϕ-koeffizienten Unterschiedliche ϕ-koeffizienten lassen sich nicht vergleichen Transformation des Skalenniveaus haben Auswirkung auf ϕ Ist nur für Vier-Feldertafel geeignet (sonst ϕ > 1)

Kontingenzkoeffizient C Sinnvoll, bei mehreren Ausprägungen Modifikation von ϕ C = χ 2 χ 2 + N Nimmt Werte zwischen 0 und 1 an Erreicht nur selten 1

Kontingenzkoeffizient C Obergrenze ist abhängig von der Anzahl der Merkmalsausprägungen C = 0,362 C max = C max = 0,707 R -1 R R = min[i,j]

Cramer s V Anwendbar für alle i j - Kreuztabellen Identisch mit ϕ, falls Variablen binär V= χ 2 N (min[i,j] - 1) Nimmt Werte zwischen 0 und 1 an

Odds Ratio und Risk Krankheit Ja Nein Summe Placebo 52 255 307 Medikament 21 294 315 Summe 73 549 622

Odds Ratio Odds - Chancen Verhältnis der Wahrscheinlichkeit, dass ein Ereignis eintritt zu der, dass es nicht eintritt Odds Ratio - relative Chancen Maß für das Chancenverhältnis zwischen zwei Gruppen Odds der Gruppen werden ins Verhältnis zueinander gesetzt Nur für Vier-Feldertabellen geeignet

Odds Odds = p / (1-p) Chance, dass Placebogruppe Krankheit bekommt: O PK = 52 / 255 = 0,204 = 1 : 5 Chance, dass Medikamentengruppe Krankheit bekommt: O MK = 21 / 294 = 0,071 = 1 : 14

Odds Ratio Odds Ratio zwischen den Gruppen Placebo und Medikament Chancenverhältnis der Gruppen, die Krankheit zu bekommen OR = O PK O MK OR = 0,204 0,071 2,9 D.h.: Chancen der Placebogruppe die Krankheit zu bekommen ist 2,9 mal höher als die der Medikamentengruppe

Risk Risiko ist die Wahrscheinlichkeit für ein unerwünschtes Ereignis z.b.: Krankheit in der Placebogruppe bekommen: p = 52 / 307 = 0,169 Relatives Risiko Maß für das Risikoverhältnis zwischen zwei Gruppen Risiken der Gruppen werden ins Verhältnis zueinander gesetzt

Risiko Krankheit: Placebogruppe: 52 / 307 = 0,169 Medikamentengruppe 21 / 315 = 0,067 Relatives Risiko Verhältnis Placebogruppe zu Medikamentengruppe 0,169 / 0,067 2,5 D.h.: Risiko der Placebogruppe, Krankheit zu bekommen ist 2,5 mal höher als das der Medikamentengruppe.

3. Zusammenfassung Zu untersuchende Variablen auswählen Konstruktion der Kreuztabelle Signifikanztest zur Überprüfung einer Abhängigkeit Auswahl eines geeigneten Zusammenhangsmaßes Messniveau beachten

4. Quellen Backhaus, K.; Erichson, B.; Plinke, W.; Weiber, R. (1996): Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Berlin u.a.: Springer Bamberg, G.; Baur, F. (2001): Statistik. 11. Auflage. München: Oldenbourg Diekmann, A. (2003): Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen. Hamburg: Rowohlt Janssen, J.; Laatz, W. (2005): Statistische Datenanalyse mit SPSS für Windows. 5., neu bearbeitet und erweiterte Auflage. Berlin u.a.: Springer Spiegel, M.R. (1990): Statistik. 2., überarb. und erw. Auflage. London u.a.: McGraw-Hill