5 Assoziationsmessung in Kontingenztafeln

Transkript

1 5 Assoziationsmessung in Kontingenztafeln

2 Multivariate Merkmale Die Analyse eindimensionaler Merkmale ist nur der allererste Schritt zur Beschreibung der Daten. Meist ist die Analyse von Zusammenhängen zwischen Merkmalen von grösserem inhaltlichen Interesse. Beispiele für typische Fragestellung: Beeinflusst das Geschlecht das Erwerbseinkommen? Gibt es einen Zusammenhang zwischen Schichtzugehörigkeit (als etwas veralteter, dennoch klassischer soziologischer Begriff) und sozialem Engagement? Spielt die Stärke der Kirchenbindung eine Rolle bei der Parteienpräferenz? Haben Studierende mit guten Mathematikvorkenntnissen bessere Statistiknoten?

3 226 Hierzu werden an jeder Einheit mehrere Merkmale erhoben und ihre Ausprägungen auch gemeinsam analysiert (z.b. wird das Geschlecht der i-ten Person mit ihrem Einkommen in Beziehung gesetzt). Hat man z.b. die Merkmale X,Y,Z und analysiert sie gemeinsam, so nennt man das Paar(X, Y) bzw. das Tripel(X, Y, Z) ein zweidimensionales(bivariates) bzw. dreidimensionales Merkmal (trivariates) Merkmal. Allgemein spricht man von mehrdimensionalen Merkmalen. (X,Y) : Ω (W X W X ) ω (X(ω),Y(ω))

4 227 Achtung: Die später folgenden statistischen Verfahren messen die Stärke von Zusammenhängen, aber erlauben keine Aussagen über Kausalität! Ob eine kausale Interpretation des Zusammenhangs zulässig ist, hängt davon ab, wie die Daten erhoben wurden. Statistische Zusammenhangsmaße können nicht klären: die Richtung des Zusammenhangs (was ist Ursache, was Wirkung?) Längsschnitt-Studie, cross-lag Design ob eine dritte, evtl. unbeobachtete Variable den Zusammenhang verursacht Experiment

5 Kontingenztafeln und bedingte Verteilungen Gemeinsame Verteilung, Randverteilung, Kontingenztafel Betrachtet wird ein zweidimensionales Merkmal (X,Y) bestehend aus den diskreten Merkmalen X und Y und die zugehörige Urliste (x 1,y 1 ),(x 2,y 2 ),...,(x n,y n ). Wir wollen ferner annehmen, dass X und Y nur endlich viele (wenige), verschiedene Werte a 1,...,a i,...,a k bzw. b 1,...,b j,...b m annehmen können.

6 Anmerkung: In vielen Büchern (v.a. zur induktiven Statistik) wird statt a 1,...,a k auch x 1,...,x k und analog statt b 1,...,b m auch y 1,...,y m geschrieben. Bei uns sind aber die (x i,y i ) Werte der Urliste, x i also der Wert der i-ten Einheit. Daraus ergibt sich zwar die Doppeldeutigkeit der Laufindizes i und j, wir bleiben jedoch bei dieser Notation um Einheitlichkeit mit Fahrmeir et al. (2009) und Jann (2005) herzustellen. 229

7 230 Beispiel (fiktiv): Fahrzeugmodell X = aggressives Fahrverhalten Y = 1, Kompaktklasse 2, Mittelklasse 3, Oberklasse { 1, ja 2, nein Typische Urliste des zweidimensionalen Merkmals (X, Y): (3,1),(2,2),(2,1),(3,1),(3,2),(3,1),(1,2),(1,1),(1,1),(1,2),(3,1),(3,1)

8 231 Einheit X Y

9 232 Achtung: Tupel sind im Gegensatz zu Mengen geordnete Anordnungen von Zahlen Die Tupel sind gemeinsam indiziert

10 233 Gemeinsame relative und absolute Häufigkeitsverteilung: h ij = h(a i,b j ), i = 1,...,k, j = 1,...,m, Anzahl von Beobachtungen mit x = a i und y = b j. f ij = h ij /n = f(a i,b j ), i = 1,...,k, j = 1,...,m, Anteil von Beobachtungen mit x = a i und y = b j. Man nennt (h ij ),i = 1,...,k,j = 1,...,m und (f ij ) die gemeinsame Verteilung von (X, Y) in absoluten bzw. relativen Häufigkeiten.

11 234 Kontingenztafel / Kontingenztabelle / Kreuztabelle: Darstellung der Häufigkeiten in Form einer (k m)-dimensionalen Häufigkeitstabelle b 1 b j b m a 1 h 11 h 1j h 1m h 1 a 2 h 21 h 2j h 2m h a i h i1 h ij h im h i..... a k h k1 h kj h km h k h 1 h j h m n

12 235 Der Punkt steht für Summation über den entsprechenden Index. Es ergeben sich die Randverteilungen h i = m j=1 h ij = h i h im = h(a i ), i = 1,...,k, für X und h j = k i=1 h ij = h 1j +...+h kj = h(b j ), j = 1,...,m, für Y. Es gilt also:

13 236 h i ist die absolute Häufigkeit von a i, h j ist die absolute Häufigkeit von b j. h i = m h ij, j=1 h j = k h ij i=1 Also ist h i die i-te Zeilensumme, h j die j-te Spaltensumme (daher der Name Randhäufigkeiten).

14 237 Kontingenztafel der relativen Häufigkeitsverteilung: b 1 b j b m a 1 f 11 f 1j f 1m f 1 a 2 f 21 f 2j f 2m f a i f i1 f ij f im f i..... a k f k1 f kj f km f k f 1 f j f m 1

15 238 mit der relativen Häufigkeiten f ij = h ij n und den Randverteilungen und f i = h i n = f i1+...+f im = f(a i ), i = 1,...,k, für X f j = h j n = f 1j +...+f kj = f(b j ), j = 1,...,m, für Y. Beispiel: Aggressives Fahren und Fahrzeugmodell (fiktiv)

16 239 Beachte: Aus der gemeinsamen Verteilung kann man die Randverteilungen berechnen (aber nicht umgekehrt, s.u.). Beispiel: Wahlabsicht und Bildungsabschluss (ALLBUS 2010: V327, V747). CDU-CSU SPD FDP GRÜNE LINKE NPD ANDERE NICHTW. OHNE ABSCHLUSS VOLKS-,HAUPTSCHULE MITTLERE REIFE FACHHOCHSCHULREIFE HOCHSCHULREIFE ANDERER ABSCHLUSS NOCH SCHUELER

17 240 Bemerkung: Ist k = m = 2 so spricht man von einer Vierfeldertafel. Dabei vereinfachen sich die Tabellen wesentlich, mit der Angabe der Häufigkeit in einer Zelle sind bei gegebenen Randhäufigkeiten auch die Häufigkeiten in den anderen Zellen bestimmt h 11 h 12 h 1 2 h 21 h 22 h 2 h 1 h 2 n z.b. gegeben h 11 h 12 = h 1 h 11 etc.

18 241 Unabhängige und abhängige Variable: Hat man eine Vermutung über die Richtung einer potentiellen Wirkung, so bezeichnet man die Variablen entsprechend als unabhängige (wirkende, erklärende) und abhängige (bewirkte, erklärte) Variable. In der Statistik ist es üblich, die unabhängige Variable mit X zu bezeichnen und die abhängige Variable mit Y, wie gewohnt ist dann Y eine Funktion von X. z.b: unabhängige (X) möglicherweise: Automodell eindeutig: Geschlecht allgemein: unabhängige abhängige (Y) aggressives Fahrverhalten Einkommen abhängige Variable Damit werden die Häufigkeitsverteilungen für feste Werte der unabhängigen Variablen in den Zeilen angegeben.

19 Vorsicht: In einigen sozialwissenschaftlichen Büchern wird entgegen dieser Konvention die unabhängige Variable in den Spalten und die abhängige in den Zeilen abgetragen. 242

20 Ökologischer Fehlschluss Es gibt sehr viele gemeinsame Verteilungen, die zu denselben Randhäufigkeiten passen. Im Beispiel oben passen u.a.: Man sieht also, wie wichtig es zur Feststellung potentieller Zusammenhänge ist, die gemeinsame Verteilung h ij zu kennen, also tatsächlich die Paare (x i,y i ) zu betrachten. Der unzulässige Schluss von der Randverteilung auf Eigenschaften der gemeinsamen Verteilung, also von zwei univariaten Ergebnissen auf ein bivariates, von der Kollektiv- auf die Individualebene, heißt ökologischer Fehlschluss. Kommen zwei Eigenschaften (verschiedene Merkmale) häufig vor, heißt dies nicht notwendig, dass sie gemeinsam häufig vorkommen.

21 Grafische Darstellung der gemeinsamen Verteilung Verschiedene Darstellungsarten: Mosaikplots: Darstellung der gemeinsamen Häufigkeiten h ij als flächentreue Kachelung 3D-Säulendiagramm der gemeinsamen Häufigkeiten h ij normale Säulendiagramme nach einer Variable aufgespalten, d.h. für jeden Wert a i von X werden jeweils die Häufigkeiten h ij bzw. f ij aufgetragen.

22 245 Mosaikplots Grafische Darstellung der gemeinsamen Häufigkeiten zweier diskreter Merkmale. Idee: Teile Quadrat auf in Rechtecke, deren Flächeninhalte f ij entsprechen. Vorgehen: 1. Teile Einheitsquadrat auf in horizontale Streifen deren Höhe proportional zu f i ist. 2. Teile horizontale Streifen in Rechtecke deren Breite für jedes i proportional zu f ij ist.

23 246 Beispiel: Aggressivität & Fahrverhalten Fahrzeugtyp & Fahrverhalten aggro Aggressivität nicht aggro Fahrzeug Oberklasse Mittelklasse Kompakt

24 247

25 248 3D-Säulendiagramm & Heatmaps Grafische Darstellung der gemeinsamen Häufigkeiten zweier diskreter Merkmale, auch erweiterbar auf (quasi)-stetige. Idee: Benutze Merkmalsausprägungen von X, Y als 2-D Koordinatensystem, gemeinsame Häufigkeiten für jede Kombination (a i,b j ) werden graphisch über Höhe oder über Farbe dargestellt.

26 249 Beispiel 1: Habilitationen nach Geschlecht und Fach (nach Fahrmeir et al., 2009). Grundgesamtheit: alle Habilitationen 1993 Geschlecht: X Fächergruppe: Y Sprachw. Rechtsw. Naturw. Kunst Medizin Kulturw. Wirts., Soz weiblich männlich

27 250 3D-Säulendiagramm: Häufigkeit männlich 0 Sprachw./Kulturw. Recht/Wirtschaft/Soz. Naturw. Kunst Medizin weiblich

28 251 Beispiel 2: Wahlabsicht und Bildungsabschluss: Häufigkeit NOCH SCHUELER ANDERER ABSCHLUSS HOCHSCHULREIFE FACHHOCHSCHULREIFE 0 CDU CSU SPD FDP DIE GRUENEN DIE LINKE NPD ANDERE PARTEI WUERDE NICHT WAEHLEN MITTLERE REIFE VOLKS,HAUPTSCHULE OHNE ABSCHLUSS 3D-Säulendiagramm hier ungünstig.

29 252 Oft bessere Alternative: Heatmaps (Häufigkeit wird als Farbe kodiert) OHNE ABSCHLUSS VOLKS,HAUPTSCHULE MITTLERE REIFE Schulabschluss FACHHOCHSCHULREIFE Häufigkeit HOCHSCHULREIFE ANDERER ABSCHLUSS NOCH SCHUELER CDU CSU SPD FDP DIE GRUENEN DIE LINKE Wahlabsicht NPD ANDERE PARTEI WUERDE NICHT WAEHLEN

30 CDU CSU SPD FDP DIE GRUENEN DIE LINKE ANDERE NPD PARTEI WUERDE NICHT WAEHLEN Zum Vergleich der Mosaikplot: OHNE ABSCHLUSS VOLKS,HAUPTSCHULE MITTLERE REIFE FACHHOCHSCHULREIFE HOCHSCHULREIFE NOCH SCHUELER ANDERER ABSCHLUSS 253

31 254 Gestapelte Balkendiagramme & gestapelte skalierte Balkendiagramme Häufigkeit rel. Häufigkeit Fach Sprachw./Kulturw. Recht/Wirtschaft/Soz. Naturw. Kunst Medizin weiblich männlich Geschlecht weiblich männlich Geschlecht

32 Medizin Naturw. Kunst Recht/Wirtschaft/Soz. Sprachw./Kulturw. Medizin Naturw. Kunst Fach Fach Geschlecht weiblich männlich Sprachw./Kulturw. Recht/Wirtschaft/Soz. Häufigkeit rel. Häufigkeit 255

33 Bedingte Häufigkeitsverteilungen Beispiel: Habilitationen nach Geschlecht und Fach (nach Fahrmeir et al., 2007). Grundgesamtheit: alle Habilitationen 1993 Geschlecht: X Fächergruppe: Y Sprachw. Rechtsw. Naturw. Kunst Medizin Kulturw. Wirts., Soz weiblich männlich

34 Zur Interpretation: 257

35 258 Definition: Seien h i > 0 und h j > 0 für alle i,j. Für jedes i = 1,...,k heißt f Y (b 1 a i ) := h i1 = h(a i,b 1 ) h i h(a i ),..., f Y(b m a i ) := h im = h(a i,b m ) h i h(a i ) bedingte (relative) Häufigkeitsverteilung von Y unter der Bedingung X = a i. Analog heißt für jedes j = 1,...,m f X (a 1 b j ) := h 1j = h(a 1,b j ) h j h(b j ),..., f X(a k b j ) := h kj = h(a k,b j ) h j h(b j ) bedingte (relative) Häufigkeitsverteilung von X unter der Bedingung Y = b j.

36 259 Im Beispiel: f X (Frau Habil. in Kunst) = f X (Frau Habil. in Naturw.) = Zu unterscheiden von bzw. f 13 = h 13 n = f Y (Habil. in Kunst Frau) = Die Verwechslung von gemeinsamer und bedingter Verteilung bzw. verschiedener bedingter Verteilungen ist eine häufige Fehlerquelle. Konvention: Bei Vermutung über Richtung des Zusammenhangs betrachtet man vorwiegend die bedingte Verteilung der abhängigen Variablen gegeben die festen Werte der unabhängigen Variable. In diese Richtung geht ja auch die Prognose! Man kennt den Wert der unabhängigen Variablen und will Aussagen über die abhängige machen.

37 Beispiel: Bedingte Verteilung der Fächergruppen gegeben das Geschlecht (f Y (b j a i ) für verschiedene i). 260

38 261 Sprachw. Rechtsw. Naturw. Kunst Medizin Kulturw. Wirts., Soz weiblich männlich Y : b j Sprachw. Rechtsw. Naturw. Kunst Medizin X : a i Kulturw. Wirts., Soz weiblich 1 männlich 2

39 262 f(rechtsw. weiblich) = f(kunst männlich) =

40 263 BedingteVerteilungdesGeschlechtsgegebendie Fachgruppe(f X (a i b j )fürverschiedene j). b j Sprachw. Rechtsw. Naturw. Kunst Medizin a i Kulturw. Wirts., Soz weiblich 1 männlich 2 f X (weiblich Rechtsw.) = f X (männlich Kunst) =

41 264 Nochmals zur Interpretation: 1. f X (weiblich Medizin) =. 2. f X (Medizin weiblich) =. 3. f 15 = f(medizin und weiblich) =. Es liegt jeweils eine andere Grundgesamtheit zu Grunde:

42 265 Bedingte Verteilungen werden automatisch durch relative Häufigkeiten ausgedrückt. Für die Berechnung gilt und analog f(a i b j ) = h ij h j = h ij n h j n f(b j a i ) = h ij h i = f ij f i. = f ij f j

43 266 Beispiel: Wahlabsicht und Bildung. CDU-CSU SPD FDP GRÜNE LINKE NPD ANDERE NICHTW. OHNE ABSCHLUSS VOLKS-,HAUPTSCHULE MITTLERE REIFE FACHHOCHSCHULREIFE HOCHSCHULREIFE ANDERER ABSCHLUSS NOCH SCHUELER

44 267 Bedingt auf Bildung: CDU-CSU SPD FDP DIE GRUENEN DIE LINKE NPD ANDERE NICHTW. OHNE ABSCHLUSS VOLKS-,HAUPTSCHULE MITTLERE REIFE FACHHOCHSCHULREIFE HOCHSCHULREIFE ANDERER ABSCHLUSS NOCH SCHUELER Gesamt

45 NOCH SCHUELER MITTLERE FACHHOCHSCHULREIFE HOCHSCHULREIFE ANDERER ABSCHLUSS VOLKS,HAUPTSCHULE OHNE ABSCHLUSS Schulabschluss 268 Sonntagsfrage CDU CSU SPD FDP DIE GRUENEN DIE LINKE NPD ANDERE PARTEI WUERDE NICHT WAEHLEN rel. Häufigkeit

46 269 Bedingt auf Wahlabsicht: CDU-CSU SPD FDP DIE GRUENEN DIE LINKE NPD ANDERE NICHTW. Gesamt OHNE ABSCHLUSS VOLKS-,HAUPTSCHULE MITTLERE REIFE FACHHOCHSCHULREIFE HOCHSCHULREIFE ANDERER ABSCHLUSS NOCH SCHUELER

47 WUERDE NICHT WAEHLEN NPD ANDERE PARTEI DIE GRUENEN DIE LINKE FDP SPD CDU CSU Sonntagsfrage 270 Schulabschluss OHNE ABSCHLUSS VOLKS,HAUPTSCHULE MITTLERE REIFE FACHHOCHSCHULREIFE HOCHSCHULREIFE ANDERER ABSCHLUSS NOCH SCHUELER rel. Häufigkeit

48 271 Einschub (A. Quatember: Unsinn in den Medien - Vom allzu sorglosen Umgang mit Daten) Man beachte: Es geht nun nicht darum, sich über Fehler anderer Leute lustig zu machen sondern darum, Sie dafür zu sensibilisieren, dass der Umgang gerade mit bedinten Häufigkeiten sehr viele Fehlerquellen mit sich bringt und große Schwierigkeiten macht. Rüstzeug, damit man selber solche Fehler nicht macht und Veröffentlichungen kritisch hinterfragen kann.

49 272

50 273 Bspl. A. Quatember (Institut für angewandte Statistik, Linz): Unsinn in in den Medien - Vom allzu sorglosen Umgang mit Daten (I): ( Man nehme kritisch Stellung zu dem folgenden Zeitungsausschnitt! Quelle: Kronen-Zeitung,

51 274 Bsp. A. Quatember: Unsinn in in den Medien - Vom allzu sorglosen Umgang mit Daten (II): ( Quelle: Der Standard,

52 (Empirische) Unabhängigkeit und χ (Empirische) Unabhängigkeit Durch den Vergleich der bedingten Häufigkeiten mit den Randhäufigkeiten kann man Zusammenhänge beurteilen Illustration an einem Beispiel: (Aggression und Fahrzeugklasse)

53 276 Empirische Unabhängigkeit: Die beiden Komponenten X und Y eines bivariaten Merkmals (X,Y) heißen voneinander (empirisch) unabhängig, falls für alle i = 1,...,k und j = 1,...,m f(b j a i ) = f j = f(b j ) (5.13) und gilt. Satz: f(a i b j ) = f i = f(a i ) (5.14) a) Es genügt, entweder (5.13) oder (5.14) zu überprüfen: Mit einer der beiden Beziehungen gilt auch die andere. b) X und Y sind genau dann empirisch unabhängig, wenn für alle i = 1,...k und alle j = 1,...m gilt: f ij = f i f j (5.15)

54 277 c) Gleichung (5.15) ist äquivalent zu h ij = h i h j n (5.16) Beweis:) DieletzteGleichungistauchäquivalentzu f ij f i = f j,alsozuf(b j a i ) = f j, was a beweist.

55 χ 2 -Abstand Zentrale Idee zur Assoziationsanalyse von Kontingenztafeln: Als Maß verwendet man den sog. χ 2 -Koeffizienten / χ 2 -Abstand. Mit definiert man h ij := h i h j n. χ 2 := = k i=1 m j=1 alle Zellen (h ij h ij ) 2 (5.17) h ij ( ) 2 beob. Häufigk. unter Unabh. zu erwartende Häufigk. unter Unabh. zu erwartende Häufigk.

56 279 Beispiel: Zusammenhang zwischen Geschlecht und Arbeitslosigkeit (fiktiv, nach Wagschal, 1999) Sei Y der Beschäftigungsstatus einer erwerbstätigen Person, X das Geschlecht mit Y = { 1 beschäftigt 2 arbeitslos und X = { 1 weiblich 2 männlich Gemeinsame Häufigkeitsverteilung: Y X

57 280 Zur Bestimmung des χ 2 -Koeffizienten: 1. Bestimme die Randverteilung. 2. Berechne die unter Unabhängigkeit zu erwartenden Häufigkeiten h ij. Man erhält: Die Formel 5.17 gilt für Kreuztabellen beliebiger Größe. Bei Vierfeldertafeln vereinfachen sich die Tabellen wesentlich da ja, mit der Angabe der Häufigkeit in einer Zelle bei gegebenen Randhäufigkeiten auch die Häufigkeiten in den anderen Zellen bestimmt sind.

58 281 Bemerkung: Bei Vierfeldertafeln (2 Zeilen, 2 Spalten) gibt es eine handliche Alternative zur Berechnung von χ 2 : χ 2 = n (h 11h 22 h 12 h 21 ) 2 h 1 h 2 h 1 h 2 (5.18) Veranschaulichung der Formel:

59 χ 2 -basierte Maßzahlen Bemerkungen zum χ 2 -Abstand: Unter empirischer Unabhängigkeit gilt definitionsgemäß χ 2 = 0. Je stärker χ 2 von 0 abweicht, umso stärker ist ceteris paribus, also unter gleichen sonstigen Größen, der Zusammenhang. Der χ 2 -Abstand wird die Grundlage bilden für den in Statistik 2 betrachteten χ 2 -Test. Als Masszahl ist χ 2 hingegen problematisch und nicht direkt interpretierbar, da sein Wert vom Stichprobenumfang n und von der Zeilen- und Spaltenzahl abhängt = geeignet normieren. Es gilt: χ 2 n (min{k,m} 1). Gleichheit gilt genau dann, wenn sich in jeder Spalte bzw. Zeile nur ein von Null verschiedener Eintrag befindet, also z.b. nur auf der Diagonalen von Null verschiedene Einträge aufsetzen. Dies entspräche dann einem perfektem Zusammenhang. Allerdings ist eine solche Extremsituation nicht bei allen Randverteilungen möglich.

60 283 χ 2 -basierte Zusammenhangsmaße a) Kontingenzkoeffizient nach Pearson: K := χ 2 n+χ2. (5.19) b) Korrigierter Kontingenzkoeffizient: K := K K max (5.20) mit K max := min{k,m} 1 min{k, m}

61 284 c) Kontingenzkoeffizient nach Cramér (Cramérs V): V = = χ 2 n (min{k,m} 1) χ 2 maximal möglicher Wert vonχ 2 (5.21) d) Bei der Vierfeldertafel (k = m = 2) gilt V = χ 2 n (min{k,m} 1) = χ 2 n Hierfür ist die Bezeichnung Phi-Koeffizient Φ üblich. Mit (5.18) ergibt sich also Φ = h 11 h 22 h 12 h 21. (5.22) h1 h 2 h 1 h 2

62 285 Lässt man die Betragsstriche weg, so erhält man den signierten Phi-Koeffizienten oder Punkt-Korrelationskoeffizienten Φ s = h 11h 22 h 12 h 21, h1 h 2 h 1 h 2 der häufig ebenfalls als Phi-Koeffizient bezeichnet wird. Φ S kann im Prinzip Werte zwischen -1 und 1 annehmen (ohne -1 und 1 immer erreichen zu können (s.u.), ). Vorteil gegenüber Φ: Zusätzlich ist die Richtung des Zusammenhangs erkennbar: Φ s > 0 und Φ s < 0

63 286 Bemerkungen K, K, V und Φ nehmen Werte zwischen 0 und 1 an, wohingegen χ 2 beliebig große positive Werte annehmen kann. Aufgrund ihrer Unabhängigkeit von n sind K, K, V und Φ prinzipiell zum Vergleich verschiedener Tabellen gleicher Größe geeignet; Φ natürlich nur bei Vierfeldertafeln, wegen ihrer Unabhängigkeit von k und m sind K und V auch zum Vergleich von Tabellen mit unterschiedlicher Zeilen und Spaltenzahl geeignet. Allerdings kann bei gegebener Randverteilung der Wert 1 nicht immer erreicht werden. Im Beispiel können bei insgesamt nur 30 Arbeitslosen nicht alle 80 Männer oder alle 65 Frauen arbeitslos sein. Es kann deshalb aussagekräftiger sein, noch zusätzlich auf die für die gegebene Randverteilung maximal mögliche Abhängigkeit zu normieren (s.u.).

64 287 Berechnung im Beispiel: Beschäftigungsstatus und Geschlecht. Zur Erinnerung: χ 2 = , m = k = 2, n = 150 K = besch. ja nein 1 2 Frauen Männer K max = K = V = Φ s =

65 288 Beispiel 2: Wahlabsicht und Bildungsabschluss (ALLBUS 2010: V327, V747). CDU CSU SPD FDP DIE GRUENEN DIE LINKE ANDERE NPD PARTEI WUERDE NICHT WAEHLEN OHNE ABSCHLUSS VOLKS,HAUPTSCHULE MITTLERE REIFE FACHHOCHSCHULREIFE HOCHSCHULREIFE ANDERER ABSCHLUSS NOCH SCHUELER Zusammenhangsmaße: χ 2 = ; K = 0.264; K = 0.284; V = 0.112

66 289 Beispiel 3: Aggression und Fahrzeugtyp. Fahrzeugtyp & Fahrverhalten aggro Aggressivität nicht aggro Fahrzeug Oberklasse Mittelklasse Kompakt Zusammenhangsmaße: χ 2 = 1.5; K = 0.333; K = 0.471; V = 0.354

67 290 Korrekturverfahren für Φ (Grundidee nach Wagschal (1999), hier in adaptierter Form: normiere auf den maximal möglichen Wert bei den gegebenen Randverteilungen) 1. Denke dir Randverteilungen als fest (gleiches Geschlechterverhältnis, feste Arbeitslosenquote) 2. Bilde die strukturtreue Extremtabelle mit Einträgen h ij, d.h. i. Berechne das Vorzeichen von Φ s : Ist h 11 h 22 h 12 h 21 > 0, so setze min(h 12,h 21 ) auf 0. Ist h 11 h 22 h 12 h 21 < 0, so setze min(h 11,h 22 ) auf 0. ii. Fülle die Tafel entsprechend der Randverteilung auf! 3. Berechne den zugehörigen Phi-Koeffizienten Φ extrem.

68 Berechne den korrigierten (signierten) Phi-Koeffizienten Φ korr := Φ Φ extrem bzw. Φ s,korr := Φ s Φ extrem.

69 292 Berechnung im Beispiel: Y X