Bivariate Kreuztabellen

Ähnliche Dokumente
Bivariater Zusammenhang in der Mehrfeldertafel PEΣO

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

11. Zusammenhangsmaße für nominale Variablen

Kreuztabellenanalyse und Assoziationsmaße. Assoziationsmaße. Allgemeines Beispiel Graphiken Notation. Risiken. Drittvariablenkontrolle.

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Was sind Zusammenhangsmaße?

Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt.

Grundlagen der empirischen Sozialforschung

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Bivariate Verteilungen

Statistik I. Sommersemester 2009

Einführung in die sozialwissenschaftliche Statistik

Statistisches Testen

Bivariate Zusammenhänge

Zusammenhangsmaße II

Zusammenhangsmaße II

STATISTIK FÜR DIE SOZIALWISSENSCHAFTEN

Analyse von Kontingenztafeln

Assoziation & Korrelation

Statistik II im Wintersemester 2006/2007

Hypothesentests mit SPSS

Assoziation & Korrelation

Alternative Darstellung des 2-Stcihprobentests für Anteile

5.5 PRE-Maße (Fehlerreduktionsmaße) 6

Analyse bivariater Kontingenztafeln

5.5 PRE-Maße (Fehlerreduktionsmaße)

Zwei kategoriale Merkmale. Homogenität Unabhängigkeit

Assoziation & Korrelation

Hypothesentests. Hypothese Behauptung eines Sachverhalts, dessen Überprüfung noch aussteht.

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Klassifikation von Signifikanztests

Einführung in SPSS. Sitzung 4: Bivariate Zusammenhänge. Knut Wenzig. 27. Januar 2005

Wichtige statistische Koeffizienten und Formeln

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Vorlesung: Statistik II für Wirtschaftswissenschaft

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Institut für Soziologie Dipl. Soz. Maximilian Sonnauer. Methoden II. Zusammenhangsmaße für kategoriale und metrische Variablen

Kreuztabellenanalyse. bedingte Häufigkeiten

Analytische Statistik II

Tutorial:Unabhängigkeitstest

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

Statistische Methoden in den Umweltwissenschaften

Parametrische vs. Non-Parametrische Testverfahren

3 Grundlagen statistischer Tests (Kap. 8 IS)

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -

Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz

Zusammenhangsanalyse in Kontingenztabellen

Einführung in die Induktive Statistik: Testen von Hypothesen

Prüfung aus Statistik 2 für SoziologInnen

Der χ 2 -Test (Chiquadrat-Test)

Statistik II. IV. Hypothesentests. Martin Huber

Einführung in die Statistik

Test auf den Erwartungswert

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Chi-Quadrat Verfahren

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Statistik II. Weitere Statistische Tests. Statistik II

5.3 (Empirische) Unabhängigkeit und χ 2

Statistik II. IV. Hypothesentests. Martin Huber

3. ZWEI KATEGORIALE MERKMALE (bivariate kategoriale Daten)

Forschungsstatistik I

Lösungen zum Aufgabenblatt 2: Bivariate Kreuztabellen mit nominalem Messniveau

9 Prinzipien der statistischen Hypothesenprüfung

Mathematik für Biologen

Chi Quadrat-Unabhängigkeitstest

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Kapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit

2. Zusammenhangsmaße

6. Multivariate Verfahren Übersicht

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

Klassifikation von Signifikanztests

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Varianzvergleiche bei normalverteilten Zufallsvariablen

Willkommen zur Vorlesung Statistik (Master)

Vorlesung: Statistik II für Wirtschaftswissenschaft

Hypothesentests II. Statistik I. Sommersemester Klausur Wiederholung t-tests. Zusammenfassung. Statistik I Hypothesentests I (1/37)

Transkript:

Bivariate Kreuztabellen Kühnel, Krebs 2001 S. 307-342 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/33

Häufigkeit in Zelle y 1 x 1 Kreuztabellen Randverteilung x 1... x j... x J Σ y 1 n 11 n 1j n 1J n 1 y i... n ij... n i y I...... n IJ n I Σ n 1 n j n J n Randverteilung Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 2/33

Vierfeldertabelle Beide Variablen dichotom, d.h. es gibt nur die Ausprägungen x 1, x 2 und y 1, y 2 Nur vier innere Zellen Vereinfachung zur Bezeichnung der absoluten Häufigkeiten: a= n 11 n 1 = a+b n = a+b+c+d b= n 12 n 2 = c+d c= n 21 n 1 = a+c d= n 22 n 2 = b+d Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 3/33

Absolute Häufigkeiten in der Vierfeldertabelle Randverteilung x 1 x 2 Σ y 1 a b a+b y 2 c d c+d Σ a+c b+c a+b+c+d Randverteilung Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 4/33

Absolute Häufigkeiten Beispiel Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 5/33

Relative Häufigkeiten bezogen auf die Gesamtfallzahl Randverteilung x 1 x 2 Σ y 1 n 11 / n 12 / n n n 1 / n y 2 n 21 / n 22 / n n n 2 / n Σ n 1 / n 2 / n n Randverteilung 1.0 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 6/33

Relative Häufigkeiten bezogen auf die Gesamtfallzahl Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 7/33

Relative Häufigkeiten bezogen auf die Gesamtfallzahl Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 8/33

Spaltenbezogene relative Häufigkeiten bedingte Verteilung Randvereilung unbedingte Verteilung x 1 x 2 Σ y 1 n 11 / n 12 / n 1 n 2 n 1 / n y 2 n 21 / n 22 / n 1 n 2 n 2 / n Σ 1.0 1.0 1.0 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 9/33

Spaltenbezogene relative Häufigkeiten Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 10/33

Spaltenbezogene relative Häufigkeiten Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 11/33

Zeilenbezogene relative Häufigkeiten bedingte Verteilung x 1 x 2 Σ y 1 n 11 / n 12 / n 1 n 1 1.0 y 2 Σ n 21 / n 22 / n 2 n 2 n 1 / n 2 / n n 1.0 1.0 Randverteilung unbedingte Verteilung Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 12/33

Zeilenbezogene relative Häufigkeiten Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 13/33

Zeilenbezogene relative Häufigkeiten Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 14/33

Zusammenhang zwischen den beiden Variablen in der Kreuztabelle Kein Zusammenhang (Variablen sind unabhängig): Prozentwerte der bedingten Verteilung entsprechen Prozentwerte der Randverteilung Zusammenhang (Variablen sind nicht unabhängig): Prozentwerte der bedingten Verteilung sind ungleich den Prozentwerten der Randverteilung Symmetrischer Zusammenhang: es gibt keine erklärende und keine abhängige Variable Asymmetrischer Zusammenhang: es gibt eine erklärende und eine abhängige Variable Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 15/33

Prozentsatzdifferenzen Maß für die Stärke des asymmetrischen Zusammenhangs Berechnung in der Vierfeldertabelle: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 16/33

Spaltenbezogene relative Häufigkeiten erklärende Variable abhängige Variable d yx %=59.3% - 61.4%= - 2.1 Kein Zusammenhang zwischen Geschlecht und Einstellung zu Schwangerschaftsabbruch Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 17/33

Prozentsatzdifferenzen Vorzeichen spielt bei nominalskalierten Variablen keine Rolle d YX % = 0 bei identischen Spaltenprozentwerten :kein Zusammenhang d YX % = -100 bzw. d YX % = +100 bei perfektem Zusammenhang FAUSTREGELN d YX % > 25 PP starker Zusammenhang d YX % < 10 PP schwacher Zusammenhang d YX % < 5 PP nicht interpretierbar Vorsicht: Bei sehr schiefen Verteilungen können auch Prozentsatzdifferenzen kleiner fünf bedeutsam sein! Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 18/33

Prozentsatzdifferenzen Werden abhängige u. unabhängige Variable vertauscht: Prozentsatzdifferenz ändert isch. SPALTENPROZENT AWL: abhängige Variable EWL: erklärende Variable dxy%=19.8-7.1=12.7 Prozentpunkte (PP) Schwacher Zusammenhang zwischen Einschätzung AWL auf Grund von EWL Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 19/33

Prozentsatzdifferenzen Werden abhängige u. erklärende Variable getauscht: Prozentsatzdifferenz ändert sich. ZEILENPROZENT EWL: abhängige Variable AWL: erklärende Variable dxy%=72.8-45.1=27.7 Starker Zusammenhang zwischen Einschätzung EWL auf Grund von AWL Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 20/33

Unabhängigkeit zweier Variablen Statistische Unabhängigkeit liegt vor wenn, Prozentsatzdifferenz gleich 0 ist alternativ: X und Y (beide dichotom) in der Population sind unabhängig, wenn die relativen Häufigkeiten der bivariaten Verteilung gleich dem Produkt der relativen Häufigkeiten der univariaten Verteilung sind: bedingte Verteilung=unbedingte Verteilung Unabhängigkeit kann dann mittels Hypothesenprüfung nachgewiesen werden Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 21/33

Unabhängigkeit zweier Variablen Die bei statistischer Unabhängigkeit erwarteten absoluten Häufigkeiten e ij ergeben sich aus dem Produkt der relativen Häufigkeiten der entsprechenden Randverteilungen: Die erwarteten absoluten Häufigkeiten stellen somit Schätzungen von Durchschnittswerten dar Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 22/33

Unabhängigkeit zweier Variablen Erwartete Häufigkeiten bei Unabhängigkeit Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 23/33

Pearsons Chiquadrat Teststatistik zum Erfassen der Abweichung zwischen erwarteten und beobachteten Häufigkeiten Ermittlung: Quadrate der Differenzen zwischen erwarteten und beobachteten Häufigkeiten werden durch die jeweiligen ertwarteten Häufigkeiten dividiert und über alle vier Tabellenzellen aufsummiert: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 24/33

Pearsons Chiquadrat alternativ (in Vierfeldertabellen): 2 χ = 3489 ( 338*1660 126*1365) 464*3025*1703*1786 2 = 123.726 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 25/33

Pearsons Chiquadrat Hypothesentest bei Unabhängikeit ist die Teststatistik χ² asymptotisch chiquadratverteilt mit df=1 Freiheitsgrad H0: Zeilen- und Spaltenvariablen sind unabhängig H1: Zeilen- und Spaltenvariablen sind abhängig Nachweis mittels einseitigem Hypothesentest Nullhypothese wird abgelehnt, wenn χ² größer ist als das 1-α-Quantil der Chiquadratverteilung mit df Freiheitsgraden Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 26/33

Pearsons Chiquadrat Hypothesentest Beispiel: χ² -Tabelle Quantilwert des 95% Quantils einer χ²- Verteilung mit df=1 Freiheitsgrad ist 3.841 In einer χ² Verteilung haben 95% der Realisationen einen Wert kleiner gleich 3.841 Da die Teststatistik χ² =123.726 größer ist als der kritische Wert 3.84 kann Nullhypothese abgelehnt werden Es besteht ein Zusammenhang zwischen EWL und AWL Häufigkeiten müssen in allen Tabellenzellen mindestens 5 sein!! Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 27/33

Eigenschaften Pearsons Chiquadrat Maximal höchster Wert für Teststatistik χ² ist der Stichprobenumfang n. Da χ² mit der Fallzahl variiert ist es unbrauchbar für ein Zusammenhangsmaß Gibt an ob ein Zusammenhang besteht, aber nicht, wie stark der Zusammenhang ist!! Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 28/33

Symmetrische Zusammenhangsmaße symmetrischer Zusammenhang, wenn nicht zwischen erklärender und abhängiger Variable unterschieden wird Phi Φ Yules Q basieren beide auf χ² Teststatistik Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 29/33

Symmetrisches Zusammenhangsmaß Phi berücksichtigt die Fallzahlabhängigkeit von χ²: Φ = Φ 2 alternative Berechnung in der Vierfeldertabelle: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 23/33

Symmetrisches Zusammenhangsmaß Phi mißt den Zusammenhang zwischen zwei Variablen der Vierfeldertabelle kein Zusammenhang Φ = 0 perfekter Zusammenhang Φ = 1 oder Φ = -1 Ab Ordinalskalenniveau und bei entsprechender Anordnung der Variablen (höchste bzw geringste Werte in der ersten Zeile ) kann das Vorzeichen folgendermaßen interpretiert werden: - positives Vorzeichen: positive Beziehung, bei höherem Spaltenwert ist mit höherem Zeilenwert zu rechnen und umgekehrt - negatives Vorzeichen: negative Beziehung, bei höherem Spaltenwert ist mit geringerem Zeilenwert zu rechnen und umgekehrt Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 31/33

Beispiel AWL & EWL 2 χ = 3489 ( 338*1660 126*1365) 464*3025*1703*1786 2 = 123.726 H0: AWL & EWL unabhängig ->ablehnen Φ = 338*1660 126*1365 464*3025*1703*1786 = 0.188 Bessere Einschätzung der EWL führt zu besserer Einschätzung der AWL und umgekhrt Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 32/33

Yules Q "robustes" Zusammenhangsmaß, ist unempfindlich gegenüber Änderungen in den Randverteilungen der Kreuztabelle Berechnung: Q ist im allgemeinen größer als Φ, die Vorzeichen stimmt jedoch überein kein Zusammenhang Q = 0 perfekter Zusammenhang Q = 1 oder Q = -1 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 33/33

Unabhängigkeit in Mehrfeldertabellen bei Nominal skalierten Variablen Kühnel & Krebs 2001 S. 343-381 Symmetrischer Zusammenhang 1. Standardisierte Residuen 2. χ2 Test 3. Cramérs V Asymmetrischer Zusammenhang 1. PRE Maße 2. Relative Devianzreduktion 3. Likelihood Ratio Test Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/15

Symmetrischer Zusammenhang Unabhängigkeit in Mehrfeldertabellen Untersuchung mit Pearsons Chiquadrattest Unabhängigkeit liegt vor, wenn die gemeinsame Verteilung der relativen Häufigkeiten von X und Y in den Tabellenzellen mit dem Produkt der relativen Häufigkeiten der Randverteilungen von X und Y übereinstimmt entsprechendes Hypothesenpaar: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 2/15

Unabhängigkeit in Mehrfeldertabellen Ermittlung der erwarteten absoluten Häufigkeiten für alle inneren Zellen analog zur Vierfeldertabelle: ebenso die Berechnung der Teststatistik χ²: Damit ergibt sich für die Beispieltabelle: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 3/15

Unabhängigkeit in Mehrfeldertabellen Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 4/15

Standardisierte Residuen zur Beurteilung die Abweichung zwischen erwarteten und beobachteten Häufigkeiten Berechnung: Vorzeicheninterpretation: + beobachter Wert liegt über erwartetem - beobachter Wert liegt unter erwartetem standardisierte Residuen sind asymptotisch normalverteilt, Werte über +2 oder unter -2 weisen auf überzufällige Abweichungen hin (Irrtumswahrschienlichkeit α = 5 %) Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 5/15

χ² in Mehrfeldertabellen bei zutreffender Nullhypothese ist χ² asymptotisch chiquadratverteilt Berechnung der Freiheitsgrade: Im Beispiel: df = (5-1) (3-1) = 8 Ablesen des (1-α)-Quantils für df=8 χ² 8,0.95 =15,51 berechneter Wert im Beispiel χ²= 252,4 252,4 > 15,51 Nullhypothese ist abzulehnen Fazit: In der Population besteht wahrscheinlich ein Zusammenhang zwischen Konfession und Wahlabsicht Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 6/15

Cramérs V chiquadratbasiertes, symmetrisches Zusammenhangsmaß für nominalskalierte Variablen Verallgemeinerung von Φ² Berechnung: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 7/15

Cramérs V Vorzeichen kann ignoriert werden Werte von V oder χ² ändern sich bei Vertauschen von Zeilen oder Spalten nicht Für die Beispieltabelle Konfession/Wahlabsicht ergibt sich damit: χ² max = 2168 2 Interpretation: Wert für V zwischen 0,10 und 0,20 wird im Allgemeinen als gering bezeichnet Im Beispiel besteht ein mäßiger Zusammenhang zwischen Wahlabsicht und Konfession Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 8/15

Asymmetrischer Zusammenhang PRE-Maße PRE = proportional reduction errors proportionale Fehlerreduktion geben das Ausmaß der Verbesserung der Vorhersage von Y an, das bei Berücksichtigung von X erreicht werden kann berechnet wird der Anteil, um den sich der Fehler dabei verringert: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 9/15

Relative Devianzreduktion Unsicherheitskoeffizient, Likelihood-Ratio-Index, Coefficient of uncertainty Devianz: Streuungsmaß für nominalskalierte Variablen Maß für Vorhersagefehler Berechnung für Variable Y: Devianz ist Null bei perfekten Vorhersagen Berechnung für Variable X erfolgt über die Verteilung von X und Y: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 10/15

Relative Devianzreduktion Devianz läßt sich als Fehlermaß nutzen Konstruktion das PRE-Maßes P² YX gibt die relative Devianzreduktion von Y bei Kenntnis von X an: auch Likelihood-Ratio-Index oder Unsicherheitskoeffizient ist null bei Unabhängigkeit Interpretation: P² YX < 5% gilt als gering P² YX > 20% gilt als stark Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 11/15

Relative Devianzreduktion im Beispiel: Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 12/15

Relative Devianzreduktion Veringerung der Devianz der Wahlabsicht um 3,8% bei Kenntnis der Konfession geringer Zusammenhang beim Vertauschen der Variablen ergibt sich ein anderer Wert: P² YX = 0,05 P² YX ist ein asymmetrisches Zusammenhangsmaß für nominalskalierte Variablen Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 13/15

Likelihood-Ratio-Test L² alternative, aber äquivalente Testmethode zu Pearsons Chiquadrattest prüft, ob die relative Devianzreduktion signifikant von null verschieden ist: Hypothesentest H0: D Y =D YX (D Y -D YX =0) H1: D Y <>D YX (D Y -D YX <>0) Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 14/15

Likelihood-Ratio-Test L² für das Beispiel Wahlabsicht & konfessionelle Zugehörigkeit ergibt sich L² = 237,67 H0: D Y =D YX H1: D Y <>D YX Ablesen des 95% Quantils bei df=8 ergibt 15,51 (Chiquadratverteilung mit α = 5 %) 237,67 > 15,51, also ist die Nullhypothese abzulehnen Wahlabsicht hängt signifikant von der konfessionellen Zugehörigkeit ab Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 15/15