V a r i a b l e X x 1 x 2 x 3 x 4 Σ y y y Σ Variable Y. V a r i a b l e X

Ähnliche Dokumente
Bivariate Verteilungen

Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt.

Grundlagen der empirischen Sozialforschung

Kreuztabellenanalyse. bedingte Häufigkeiten

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

Einführung in die sozialwissenschaftliche Statistik

Bivariate Zusammenhänge

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:

Mathematische und statistische Methoden I

Bivariater Zusammenhang in der Mehrfeldertafel PEΣO

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Bivariate Kreuztabellen

Was sind Zusammenhangsmaße?

11. Zusammenhangsmaße für nominale Variablen

Statistisches Testen

Zusammenhangsanalyse in Kontingenztabellen

Hypothesentests mit SPSS

Übungsblatt 3: Bivariate Deskription I (Sitzung 4)

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

Skalenniveaus =,!=, >, <, +, -

Grundlagen der empirischen Sozialforschung

Wichtige statistische Koeffizienten und Formeln

Statistik I. Sommersemester 2009

Chi² Test und Kontingenzkoeffizient. - aber keine natürliche Reihenfolge

Statistik I. Sommersemester 2009

5.2.3 Grafische Darstellung der gemeinsamen Verteilung. Verschiedene Darstellungsarten, z.b. als 3D-Säulendiagramm der gemeinsamen Häufigkeiten

Alternative Darstellung des 2-Stcihprobentests für Anteile

5.3 (Empirische) Unabhängigkeit und χ 2

Assoziation & Korrelation

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

Assoziation & Korrelation

Bivariate Verteilungen [bivariate data]

Lösungen zum Aufgabenblatt 2: Bivariate Kreuztabellen mit nominalem Messniveau

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Kapitel 5 Wichtige Maßzahlen für den Zusammenhang zwischen Merkmalen

Kontingenzkoeffizient (nach Pearson)

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

2. Zusammenhangsmaße

Musterlösung zur Aufgabensammlung Statistik I Teil 3

Tutorial:Unabhängigkeitstest

Alternative Darstellung des 2-Stichprobentests für Anteile

5.3 (Empirische) Unabhängigkeit und χ 2

Kapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit

Statistische Methoden in den Umweltwissenschaften

Prüfung aus Statistik 1 für SoziologInnen- Gruppe A

Mathematik 2 für Naturwissenschaften

5.5 PRE-Maße (Fehlerreduktionsmaße) 6

Assoziation & Korrelation

Willkommen zur Vorlesung Statistik (Master)

Chi-Quadrat Verfahren

Statistik I für Betriebswirte Vorlesung 14

Zwei kategoriale Merkmale. Homogenität Unabhängigkeit

Grundidee. χ 2 Tests. Ausgangspunkt: Klasseneinteilung der Beobachtungen in k Klassen. Grundidee. Annahme: Einfache Zufallsstichprobe (X 1,..., X n ).

Alle weiteren Messoperationen schließen die Klassifikation als Minimaloperation ein.

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister

Klassifikation von Signifikanztests

Mathematik 2 für Naturwissenschaften

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

5.5 PRE-Maße (Fehlerreduktionsmaße)

Anwendung A_0801_Quantile_Minimum_Maximum

Grundlagen der empirischen Sozialforschung

Test auf den Erwartungswert

3 Häufigkeitsverteilungen

Sehr Einigermaßen Nicht Schüler Lehrer Eltern h 0.j n=500

Institut für Soziologie Werner Fröhlich. Methoden 2. Kontingenztabellen Chi-Quadrat-Unabhängigkeitstest

5. Spezielle stetige Verteilungen

Lösungen zur deskriptiven Statistik

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

W-Rechnung und Statistik für Ingenieure Übung 5

Der χ 2 -Test (Chiquadrat-Test)

3. ZWEI KATEGORIALE MERKMALE (bivariate kategoriale Daten)

Wahrscheinlichkeitsverteilungen

7. Grenzwertsätze. Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012

Chi Quadrat-Unabhängigkeitstest

Institut für Soziologie Dipl. Soz. Maximilian Sonnauer. Methoden II. Zusammenhangsmaße für kategoriale und metrische Variablen

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

3.1 Zusammenhang zwischen einem qualitativen und einem quantitativen Merkmal

Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient

Bivariate Statistik: Kreuztabelle

Analyse bivariater Kontingenztafeln

Institut für Soziologie Sabine Düval. Methoden 2. Kontingenztabellen Chi-Quadrat-Unabhängigkeitstest

6. Multivariate Verfahren Übersicht

3 Häufigkeitsverteilungen

Analytische Statistik II

5 Assoziationsmessung in Kontingenztafeln

5. Seminar Statistik

Wirtschaftsstatistik-Klausur am

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2008/2009. Aufgabe 1

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Einführung in SPSS. Sitzung 4: Bivariate Zusammenhänge. Knut Wenzig. 27. Januar 2005

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

5. Kolmogorov-Smirnov-Test und χ 2 -Anpassungstest

Konkretes Durchführen einer Inferenzstatistik

Tutorial: Vergleich von Anteilen

Klausur zur Vorlesung

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

Parametrische vs. Non-Parametrische Testverfahren

Transkript:

Ausgangsüberlegung: Verschiedene Kontingenztabellen bei gleicher Randverteilung und gleichem Stichprobenumfang n sind möglich. Beispiel: Variable Y V a r i a b l e X x 1 x x 3 x 4 Σ y 1 60 60 y 0 0 y 3 10 10 0 Σ 60 0 10 10 100 Variable Y V a r i a b l e X x 1 x x 3 x 4 Σ y 1 30 10 10 10 60 y 10 10 0 y 3 0 0 Σ 60 0 10 10 100

Offenkundig wird nun: Bei gleichen Randverteilungen ( Marginalhäufigkeiten) und verschiedenen beobachteten konditionalen Häufigkeiten für die einzelnen Merkmalsausprägungen wird ein jeweils anderer Zusammenhang zwischen den beiden Variablen X und Y sichtbar. Dieser Sachverhalt wird bei der Konstruktion des Chi-Quadrat Modells genutzt. Aber wie? Kurz noch zur Nomenklatur: ffrequency ; Subskript b beobachtet Subskript e erwartet also: f b beobachtete (empirisch erfasste) Häufigkeit in der Kontigenztabelle f e erwartete Häufigkeit in der Indifferenztabelle

Indem wir die vorgefundenen Häufigkeiten in der Kontingenztabelle (f b ) mit den Häufigkeiten aus der Indifferenztabelle (f e ) vergleichen. In der Indifferenztabelle finden sich die Häufigkeiten, die wir erwarten würden, wenn keine Beziehung(Indifferenz) zwischen den Variablen bestünde. Exkurs : Zum weiteren Verständnis ist hier die Nomenklatur für die bivariate Tabelle noch wichtig: Die bivariate Tabelle besteht ja aus einer bestimmten Anzahl von Zeilen, Spalten und Zellen. Zur Identifizierung der Häufigkeiten in den Zellen benutzen wir die Subskripte i und j, wobei das erste Subskript i die Zeile und das zweite Subskript j die Spalte bezeichnet, in der die Häufigkeit lokalisiert ist: f ij ist also die Häufigkeit in der Zelle der i-ten Zeile und der j-ten Spalte.

Allgemeine Struktur der bivariaten Tabelle: Variable Y V a r i a b l e X x 1 x x 3 n i. y 1 f 11 f 1 f 13 n 1. y f 1 f f 3 n. y 3 f 31 f 3 f 33 n 3. y 4 f 41 f 4 f 43 n 4. n.j n.1 n. n.3 n

Beispiel zur Bestimmung von Chi-Quadrat: 60 Beschäftigte eines Betriebes wurden nach ihrem Schulabschluss befragt und zudem danach, ob sie in ihrem bisherigen Erwerbsleben bereits einen oder gar mehrere Berufswechsel vorgenommen haben. Variable X: Schulabschluss Abitur x 1 ja x nein Variable Y: Berufswechsel vorgenommen y 1 ja y nein a) Kontingenztabelle (f b ) Abitur/ Berufswechsel ja nein Randhäufigkeiten n i. ja 9 17 6 nein 4 10 34 Randhäufig- 33 7 60 keiten: n.j

Die jeweilige Häufigkeit in der Zelle der Indifferenztabelle wird auf Basis der Randhäufigkeiten der Kontingenztabelle berechnet: n n i.. f e ij N j Oder verbal ausgedrückt Die erwartete Zellenhäufigkeit berechnet sich über die: Randhäufigkeit der Zeile Randhäufigkeit der Spalte N

1.Schritt zur Berechung von Chi-Quadrat: Die erwarteten Häufigkeiten (f e ) mit Hilfe der marginalen Häufigkeiten der Kontingenztabelle bestimmen, so ergibt sich als Indifferenztabelle (hier für unser Beispiel, s.o.) Indifferenztabelle (f e ) Abitur/ Berufswechsel ja nein ja 6 33 60 14,3 6 7 60 11,7 Randhäufigkeiten n i. 6,0 nein 34 33 18,7 60 34 7 34,0 15,3 60 Randhäufig- 33,0 7,0 60,0 keiten: n.j

Was wurde also bisher hier getan? Es wurde berechnet, wie sich die Untersuchungseinheiten (UE) auf die einzelnen Zellen verteilen würden, wenn zwischen den beiden Variablen X und Y kein Zusammenhang (Indifferenz) bestünde: In diesem Fall müssten die Häufigkeiten in den Zellen zur marginalen Verteilung der Y-Variable proportional sein, das meint:

Proportionen der Häufigkeiten in den Zellen in der Indifferenztabelle zu denen der Marginalverteilung der Y-Variable: Indifferenztabelle (f e ) Abitur/ Berufswechsel ja nein ja Randhäufigkeiten n i. 14,3 11,7 6,0 nein 18,7 15,3 34,0 Randhäufig- 33,0 7,0 60,0 keiten: n.j 14,3 11,7 6,0 0,76 0, 76 0, 76 18,7 15,3 34,0

.Schritt zur Berechung von Chi-Quadrat: Differenzen zwischen f b und f e bestimmen Arbeitstabelle zur Berechnung von Chi-quadrat Zeile i Spalte j f b f e (f b f e ) (f b f e ) (f b f e ) /f e 1 1 9 14,3-5,3 8,09 1,96 1 17 11,7 5,3 8,09,40 1 4 18,7 5,3 8,09 1,50 10 15,3-5,3 8,09 1,84 Σ 60.0 60,0 0,0 7,70 3.Schritt: Die Berechung von Chi-Quadrat geschieht mit Hilfe der Formel: χ ( f f ) b e Σ f e

χ χ Deskriptivstatistik Chi-Quadrat ist dann hier nach der obigen Formel zu berechnen mit den Werten: 8,09 14,3 1,96 + +,40 8,09 11,7 + + 1,50 8,09 18,7 + 1,84 Damit ist Chi-Quadrat hier mit dem Wert 7,70 bestimmt. + 8,09 15,3 7,70 Also noch einmal kurz zusammengefasst: Wenn die Konditionalverteilung der Kontingenztabelle gleich der Konditionalverteilung der Indifferenztabelle ist, dann besteht zwischen x und y kein Zusammenhang. Wenn aber die Konditionalverteilung der Kontingenztabelle ungleich der Konditionalverteilung der Indifferenztabelle ist, dann besteht zwischen x und y ein Zusammenhang.

Problem bei χ ist allerdings : Eine Verdoppelung der Zellenhäufigkeiten bei identischen Verteilungen (Proportionen) führt zu einer Verdoppelung des Chi-Quadrat-Wertes. Chi-Quadrat variiert also mit N. Beispiel: 9 17 6 18 34 5 4 10 34 33 7 60 48 0 68 66 54 10 χ 7,70 15, 40 Proportionen: Proportionen: 9 0,375 17 1, 4 10 7 6 0, 34 76 18 0, 48 375 34 1, 0 7 5 0, 68 76 χ

Deutlich wird also: Wenngleich χ das Ausmaß der Abweichung der Kontingenzvon der Indifferenztabelle aufzeigt, kann es - allein für sich genommen - kein sinnvoller Kennwert für die Assoziation zwischen X und Y sein. Das bedeutet dann: χ Alle auf basierenden Assoziationsmaße müssen die Anzahl der Fälle (N) berücksichtigen.

(φ Der Phi-Koeffizient ) ist solch ein Maß, dass die Anzahl der Fälle (N) berücksichtigt. Die Formel für diesen Koeffizienten lautet: χ φ N bzw. φ χ N Für unser obiges Beispiel mit den Werten 7,70 χ und N60 errechnet sich dann ein Phi von: φ 7,70 60 0,183 0,358 Charakteristika zu Phi: Phi ist symmetrisch, zudem - nimmt Phi die Werte zwischen 0 bis 1 an; - Phi ist gleich 0, wenn gilt: X Y; - Phi ist > 0 bis 1, wenn gilt: X Y; - Phi ist 1, wenn gilt: χ N Aber: Phi ist ein Spezialfall für x Tabellen, d.h.: φ > 1, wenn gilt: r> bzw. c> (rrow) (ccolumn)

Eine Verbesserung zu Phi stellt der Assoziationskoeffizient Cramer s V insofern dar, als Cramer s V auch sinnvoll für größere als x-tabellen berechenbar ist. Die Formel für diesen Koeffizienten lautet: V χ N min( r 1, c 1) Dabei steht r für die Anzahl der Zeilen(rows) und c für die Anzahl der Spalten(columns). min steht für Minimum und besagt, dass zunächst zu prüfen ist, ob die Anzahl der Zeilen(r) oder die Anzahl der Spalten(c) kleiner ist. Der jeweils kleinere Wert geht dann in die Berechnung des Koeffizienten ein.

Charakteristika zu Cramer s V: V ist symmetrisch, zudem - nimmt V die Werte zwischen 0 bis 1 an; - V ist gleich 0, wenn gilt: X Y - V ist > 0 bis 1, wenn gilt: X Y Conclusio: χ Von den -basierten Assoziationskoeffizienten ist Cramer s V die geeignete Verallgemeinerung von φ auf Tabellen, die größer als x-tabellen sind. Für unser obiges Beispiel mit χ 7, 70; N60 ; r und c ist dann Cramer s V: V 7,70 60 min( 1, 1) 7,70 60 1 7,70 60 V 0,183 0,358 (in diesem Fall ist also Cramer s V Phi, da eine x-tabelle vorliegt)

Der Kontingenzkoeffizient C Die Formel für diesen Koeffizienten lautet: C χ χ + N Vorteil: Der Kontingenzkoeffizient C ist der für beliebig große rxc-tabellen bereits 1904 von PEARSON konstruierte χ -basierte Assoziationskoeffizient. Aber: Sein Nachteil liegt darin, dass seine praktische Grenze unter 1 liegt, das bedeutet, C nähert sich dem Wert 1 (auch bei einer perfekten Assoziation) nur an und zwar mit Zunahme der Spalten- und Zeilenanzahl.

Für unser obiges Beispiel mit 7,70 χ und N60 ist dann C: C 7,70 7,70+ 60 7,70 67,70 0,1137 0,337 χ Generell ist bei allen -basierten Assoziationskoeffizienten zu beachten, dass ihre Werte nur schwer inhaltlich zu deuten sind: Die Werte vermitteln nur einen rein ziffernmäßigen Eindruck von der Stärke eines Zusammenhanges. Literaturhinweis: KROMREY, Helmut, a.a.o., 006(11.üb.Aufl.):490-493.