2. Zusammenhangsmaße

Transkript

1 2. Zusammenhangsmaße Signifikante χ²-werte von Kreuztabellen weisen auf die Existenz von Zusammenhängen zwischen den zwei untersuchten Variablen X und Y hin. Für die Interpretation interessieren jedoch besonders die jeweilige Stärke und die Richtung eines Zusammenhangs. Hierfür wurden statistische Kennzahlen, sog. Kontigenz- bzw. Korrelationskoeffizienten entwickelt. Diese Koeffizienten weisen zudem meist einen standardisierten Wertebereich auf, der Wertbereich ist also unabhängig von der Tabellengröße und dem Stichprobenumfang. Die Verwendbarkeit bzw. Interpretierbarkeit dieser Koeffizienten ist abhängig vom Skalenniveau der Variablen X und Y, da die Koeffizienten unterschiedliche Informationen der Variablen ausschöpfen. Kennwerte für nominalskalierte Variablen basieren in erster Linie auf der χ²-statistik, bei ordinalen Daten können auch Differenzen zwischen Rangplätzen betrachtet bzw. Paarvergleiche durchgeführt werden. Bei intervallskalierten Daten stehen mit Mittelwert und Standardabweichung weitere statistische Kennwerte zur Verfügung. Werden zwei Variablen X,Y mit unterschiedlichen (gemischten) Skalenniveaus betrachtet, ergeben sich Sonderfälle der Koeffizienten. Ein weiterer Spezialfall sind dichotome Variablen (Variablen mit ausschließlich zwei Werten: 0 und 1). Ganz allgemein kann man statistische Zusammenhänge als Abweichungen betrachten, die einem gewissen Muster folgen. Dies könnte beispielsweise in einer Formulierung zusammengefasst werden wie: je höher der Wert für X, desto höher auch der Wert für Y. Ein eindeutiger Zusammenhang verbirgt sich hinter der Aussage Immer wenn X..., dann ist Y.... Derartige Aussagen sind in den Sozialwissenschaften jedoch nahezu nie zu treffen. In aller Regel liegen keine eindeutigen Zusammenhänge vor es sind nur Wahrscheinlichkeitsschätzungen möglich bzw. nötig. Unterschieden nach den Skalenniveaus spricht man bei dichotomen und nominalen Variablen von Kontingenz, bei ordinaler Skalierung von Rangkorrelationen und bei intervallskalierten Daten von Produkt-Moment-Korrelationen bzw. schlicht von Korrelationen.

2 2.1 Zusammenhang zweier dichotomer Variablen Bei zwei dichotomen Variablen (einer Vierfelder-Tafel) steht als Maß für den Zusammenhang der sog. Phikoeffizient zur Verfügung. Er berechnet sich nach folgender Formel: Φ ± 2 χ n Der numerische Wert von Φ kann theoretisch zwischen den Werten 1 und 1 liegen, wobei 0 keinen Zusammenhang (statistische Unabhängigkeit, kein Einfluss) bedeutet und 1 bzw. 1 einem vollständigen (negativen bzw. positiven) Zusammenhang entspricht (perfekte Determination). 2.2 Zusammenhang zwischen zwei nominalen Variablen Bei zwei nominalen Variablen wird ein standardisiertes χ²-maß verwendet, sogenannte Kontingenzkoeffizienten. Der gebräuchlichste Kontingenzkoeffizient ist Cramer s V: Cramer' sv 2 χ n( s 1) Hierbei gibt s die kleinere Anzahl der Kategorien, entweder die Anzahl der Spalten- oder der Zeilenkategorien an. Der numerische Wert von Cramer s V kann theoretisch zwischen den Werten 0 und 1 liegen, wobei 0 keinen Zusammenhang (statistische Unabhängigkeit, kein Einfluss) bedeutet und 1 einem vollständigen Zusammenhang entspricht (perfekte Determination). (Beispiel ALLBUS-Daten)

3 2.3 Zusammenhang zwischen zwei ordinalen Variablen Rangkorrelationen kann man entweder auf der Basis von Differenzen zwischen den Rängen bzw. Rangplätzen für die Werte der Variablen X und Y berechnen. Ein Beispiel wäre der Rangkorrelationskoeffizient R nach Spearman: Rangkorrelationskoeffizient R / Spearman-Rangkorrelation / r s / rho R n 6 n ( n i d 2 i 1) wobei d i ² Quadrat der Rangplatzdifferenzen Eine andere Möglichkeit besteht in Paarvergleichen (durchgeführt über alle Fälle), bei denen beobachtet wird, ob die jeweiligen Rangfolgen übereinstimmen (konkordant sind) oder nicht (diskordant sind). Ein Beispiel hierfür wäre die Rangkorrelation τ nach Kendall. Rangkorrelationskoeffizient nach Kendall (Kendalls τ) τ S n( n 1) 2 2S n( n 1) basiert auf Paarvergleichen wobei S Differenz der konkordanten und diskordanten Paarvergleiche Auch hier liegen die numerischen Werte der Koeffizienten theoretisch zwischen den Extremen -1 und 1, wobei 0 keinem Zusammenhang (statistische Unabhängigkeit, kein Einfluss) bedeutet und 1 bzw. 1 einem vollständigen (negativen bzw. positiven) Zusammenhang entspricht (perfekte Determination).

4 Prinzip der Paarvergleiche, Berechnung von Gamma (γ) Y X x--,y- x-,y0 x-, y++ + x+, y+ x < x und y < y0 konkordantes Paar (grau) x + > x und y+ < y++ diskordantes Paar (schwarz) γ N N c c N + N d d wobei N c die Anzahl der konkordanten und N d die der diskordanten Paare angibt. wenn N c > N d dann ist γ > 0 positiver Zusammenhang wenn N c < N d dann ist γ < 0 negativer Zusammenhang wenn N c N d dann ist γ 0 kein Zusammenhang

5 2.4 Zusammenhang zwischen zwei intervallskalierten Variablen Das Zusammenhangsmaß für zwei intervallskalierte Variablen errechnet sich, indem man für jeden Fall (jede Person) das Produkt berechnet aus der Differenz vom gemessenen Wert der Variable X und deren Mittelwert und der Differenz vom gemessenen Wert der anderen Variable Y und deren Mittelwert. Diese Produkte werden aufaddiert. Die Summe der Abweichungsprodukte wird auch als Kovarianz bezeichnet. Die Kovarianz wird anschließend in Bezug auf die Fallzahl und die Standardabweichung der Variablen X und Y relativiert: r ( xi x)( yi y) n s x s y Produkt-Moment-Korrelationen werden auch Pearson-Korrelationen genannt. Auch hier liegen die numerischen Werte der Koeffizienten theoretisch zwischen den Extremen 1 und 1, wobei 0 keinen Zusammenhang (statistische Unabhängigkeit, kein Einfluss) bedeutet und 1 bzw. 1 einem vollständigen (negativen bzw. positiven) Zusammenhang entspricht (perfekte Determination). (geometrische Veranschaulichung)

6 2.5 Zusammenhang zwischen gemischt skalierten Variablen Für manche denkbaren Kombinationsmöglichkeiten von Skalenniveaus wurden inzwischen (teilweise auch mehrere) Zusammenhangsmaße entwickelt. Nicht alle davon sind in den Sozialwissenschaften gebräuchlich und sind mit Hilfe von Standardprogrammen wie SPSS errechenbar. Für gemischt skalierte Variablen X,Y findet sich daher oft die Empfehlung, auf das nächstniedrigere Skalenniveau auszuweichen, das für beide Variablen akzeptiert werden kann. In der Regel werden Zusammenhänge bei der Annahme eines zu niedrigen Skalenniveaus eher unterschätzt. Dieses Verfahren wird auch als konservative Vorgehensweise bezeichnet, da eher in Kauf genommen wird, einen Zusammenhang nicht zu finden, als fälschlich unzutreffende Skalenannahmen zu treffen. In der folgenden Übersicht finden sich unterhalb der Diagonalen die Koeffizienten nach der konservativen Empfehlung, oberhalb die bereits entwickelten Maße. Skalenniveau dichotom nominal ordinal intervall dichotom Phi-Koeffizient Kontingenzkoeffi- Biserialer Punktbiseriale Korrel. zient, Cramer s V Rangkorrela- tetrachorischr o. bise- tionskoeffizient riale Korrelation nominal Kontingenzko- Kontingenzkoeffi- --- effizient, Cra- zient, Cramer s V Eta mer s V ordinal Kontingenzko- Kontingenzkoeffi- Spearman-Rang- --- effizient, Cra- zient, Cramer s V korrelation, Kendall s mer s V Tau, Gamma intervall Kontingenzko- Kontingenzkoeffi- Spearman-Rang- Pearson s r, Produkt- effizient, Cra- zient, Cramer s V korrelation, Kendall s Moment-Korrelation mer s V Tau, Gamma

7 Interpretationshilfe von Zusamenhangsmaßen Bestimmung des höchsten gemeinsamen Skalenniveaus beider Variablen... Skalenniveau Koeffizient standard. Wertebereich dichotom Phi -1 bis 1 nominal Cramer`s V 0 bis 1 ordinal z.b. Spearman Rangkorrelation / Kendalls tau -1 bis 1 intervall Korrelation nach Pearson -1 bis 1 Analysefragen: 1) Ist der Zusammenhang signifikant? 2) Welche Richtung hat der Zusammenhang (Vorzeichen)? 3) Wie groß ist der Zusammenhang? Hilfestellung zur Verbalisierung von Zusammenhangsgrößen: nach Bühl / Zöfel: Betrag des Koeffizienten Interpretation 0 keine Korrelation 0 < r < 0,2 sehr gering 0,2 < r < 0,5 gering 0,5 < r < 0,7 mittel 0,7 < r < 0,9 hoch 0,9 < r < 1 sehr hoch 1 perfekt nach Brosius: Betrag des Koeffizienten Interpretation 0 keine Korrelation 0 < r < 0,2 sehr schwach 0,2 < r < 0,4 schwach 0,4 < r < 0,6 mittel 0,6 < r < 0,8 stark 0,8 < r < 1 sehr stark 1 perfekt nach Kühnel / Krebs: Betrag des Koeffizienten Interpretation 0 keine Korrelation 0 < r < 0,05 unbedeutend 0,05 < r < 0,20 gering 0,20 < r < 0,50 mittel 0,50 < r < 0,70 hoch 0,70 < r < 1 sehr hoch 1 perfekt

8 Korrelationsanalyse Korrelationen sind nicht anderes als die bereits besprochenen bivariaten Zusammenhangsmaße. Berechnet man Korrelationen für mehr als zwei Variablen, erhält man eine sog. Korrelationsmatrix, z.b. V1 V2 V3 V4 V5 V6 _ V1 1.0 V V V V V In dieser Matrix sind alle bivariaten Kombinationen der untersuchten Variablen abzulesen. In der Diagonale findet sich jeweils die Korrelation einer Variable mit sich selbst sie ist gleich 1.0. Da Korrelationen keine Aussage über Ursache und Wirkung zulassen, sondern nur das gemeinsame Auftreten von Merkmalskombinationen, sind Korrelationsmatrizen immer symmetrisch. Der Zusammenhang zwischen V1 und V2 ist gleich dem von V2 mit V1. Deshalb werden in der Regel die Werte über der Diagonale nicht dargestellt. Für die Durchführung der Korrelationsanalyse sind folgende Schritte notwendig: 1) Auswahl der Variablen 2) Auswahl des angemessenen (gemeinsamen) Skalenniveaus 3) Entscheidung über die Behandlung fehlender Werte Behandlung fehlender Werte Aus verschiedenen Gründen können bei einzelnen Personen bei einzelnen Variablen keine gültigen Werte vorliegen. Diese fehlenden Werte werden auch missings genannt. Werden innerhalb einer Analyse mehrere Variablen verwendet, gibt es im wesentlichen zwei Varianten, wie mit diesem Problem umgegangen werden kann: Listenweiser Ausschluss Es werden nur Daten von Personen ausgewertet, die für alle Variablen gültige Werte haben. Personen, die auch nur bei einer Variable einen Missing-Wert haben, werden für alle Auswertungen ausgeschlossen. Bsp. Person A hat bei V1 und V2 gültige Werte, bei V3 missing Person A wird immer ausgeschlossen Paarweiser Ausschluß Es werden nur die Daten ausgeschlossen, die beim jeweiligen Analyseschritt (Variablenpaar) fehlende Werte aufweisen. Bsp. Person A hat bei V1 und V2 gültige Werte, bei V3 missing Person A wird bei der Analyse V1 mit V2 berücksichtigt, bei V1 mit V3 sowie V2 mit V3 ausgeschlossen.

9 Bei der Interpretation von Korrelationen können folgende Schritte hilfreich sein: 1) Welche Korrelationen sind signifikant? 2) Wie ist die Vorzeichenstruktur der Werte (positive bzw. negative Vorzeichen)? 3) Wie hoch sind die Korrelationen? Wenn in einer Matrix zwei Gruppen von Variablen (V1-V3 und V4-V6) untersucht werden, kann es sinnvoll sein, bestimmte Bereiche der Matrix besonders zu betrachten: 1) die Intrakorrelationen (Korrelationen der Variablen einer Gruppe) 2) die Interkorrelationen (Korrelationen von Variablen aus unterschiedlichen Gruppen)

10 Beispiel aus der Inhaltsanalyse der Bundestagshandbüchern absolute 1 WP 2 WP 3 WP 4 WP 5 WP 6 WP 7 WP 8 WP 9 WP Werte gesamt SPD CDU/CSU BÜNDNIS 90/GRÜNEN FDP fraktionslos gesamt erwartete 1 WP 2 WP 3 WP 4 WP 5 WP 6 WP 7 WP 8 WP 9 WP Werte gesamt SPD 75,0 54,7 46,4 34,8 18,2 5,0 7,0 6,6 1,2 249 CDU/CSU 74,4 54,2 46,0 34,5 18,1 4,9 7,0 6,6 1,2 247 BÜNDNIS 90/GRÜNEN 16,6 12,1 10,2 7,7 4,0 1,1 1,6 1,5 0,3 55 FDP 14,2 10,3 8,8 6,6 3,4 0,9 1,3 1,3 0,2 47 fraktionslos 0,9 0,7 0,6 0,4 0,2 0,1 0,1 0,1 0,0 3 gesamt CHI² 1 WP 2 WP 3 WP 4 WP 5 WP 6 WP 7 WP 8 WP 9 WP gesamt SPD 5,33 6,13 0,94 0,42 0,00 0,19 0,13 0,06 0,05 13,24 CDU/CSU 1,81 4,87 1,40 1,62 0,24 0,87 0,15 1,78 0,48 13,22 BÜNDNIS 90/GRÜNEN 2,50 0,36 2,20 5,82 0,97 1,10 1,56 1,46 0,27 16,24 FDP 0,24 0,17 0,87 1,79 0,09 0,00 0,08 1,25 0,23 4,73 fraktionslos 0,01 2,73 0,56 0,42 0,22 0,06 0,08 0,08 0,01 4,18 gesamt 51,61 CramersV 51,61 601(5 1) 51, , Es gibt Abweichungen zwischen den Fraktionen hinsichtlich der Zugehörigkeit zum Bundestag nach Wahlperioden. In der SPD-Fraktion sind überdurchschnittlich viele Mitglieder bereits in der 2. und 3. Legislaturperiode, während erstmalige MdB und Abgeordnete mit eine Parlamentsangehörigkeit von 4 Wahlperioden seltener vertreten sind. Bei der Unions-Fraktion ergibt sich bei der Zusammensetzung nach Zugehörigkeitsdauer für die ersten vier Wahlperioden das genau inverse Bild.