Analyse bivariater Kontingenztafeln

Ähnliche Dokumente

Kontingenzkoeffizient (nach Pearson)

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Willkommen zur Vorlesung Statistik

Professionelle Seminare im Bereich MS-Office

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Musterlösungen zur Linearen Algebra II Blatt 5

Tutorial: Homogenitätstest

Willkommen zur Vorlesung Statistik (Master)

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Bundesverband Flachglas Großhandel Isolierglasherstellung Veredlung e.v. U g -Werte-Tabellen nach DIN EN 673. Flachglasbranche.

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

IBIS Professional. z Dokumentation zur Dublettenprüfung

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Korrelation (II) Korrelation und Kausalität

Einfache statistische Auswertungen mit dem Programm SPSS

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

5 Zusammenhangsmaße, Korrelation und Regression

Varianzanalyse (ANOVA: analysis of variance)

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Zeichen bei Zahlen entschlüsseln

6.2 Perfekte Sicherheit

Excel Pivot-Tabellen 2010 effektiv

Zahlenmauern. Dr. Maria Koth. Ausgehend von dieser einfachen Bauvorschrift ergibt sich eine Vielzahl an möglichen Aufgabenstellungen.

1 Mathematische Grundlagen

How to do? Projekte - Zeiterfassung

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Wir machen neue Politik für Baden-Württemberg

Primzahlen und RSA-Verschlüsselung

Sollsaldo und Habensaldo

a n auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:

Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Repetitionsaufgaben Wurzelgleichungen

Fortgeschrittene Statistik Logistische Regression

2. Negative Dualzahlen darstellen

Erfahrungen mit Hartz IV- Empfängern

Lineare Gleichungssysteme

Rente = laufende Zahlungen, die in regelmäßigen Zeitabschnitten (periodisch) wiederkehren Rentenperiode = Zeitabstand zwischen zwei Rentenzahlungen

Erstellen von x-y-diagrammen in OpenOffice.calc

3. LINEARE GLEICHUNGSSYSTEME

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Was meinen die Leute eigentlich mit: Grexit?

Dossier: Rechnungen und Lieferscheine in Word

Wichtige Forderungen für ein Bundes-Teilhabe-Gesetz

Deutliche Mehrheit der Bevölkerung für aktive Sterbehilfe

Arbeitshilfen zur Auftragsdatenverarbeitung

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Assoziation & Korrelation

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

W-Rechnung und Statistik für Ingenieure Übung 11

Erweiterung der Aufgabe. Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen:

Falten regelmäßiger Vielecke

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Datenbanken Microsoft Access 2010

SUDOKU - Strategien zur Lösung

Übungskomplex Felder (1) Eindimensionale Felder Mehrdimensionale Felder

11. Das RSA Verfahren und andere Verfahren

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Theoretische Grundlagen der Informatik WS 09/10

Der monatliche Tarif für ein Handy wurde als lineare Funktion der Form f(x) = k x + d modelliert (siehe Grafik).

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

EINFACHES HAUSHALT- KASSABUCH

1 topologisches Sortieren

Die Parteien und ihre Anhänger

Leichte-Sprache-Bilder

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Was ist Sozial-Raum-Orientierung?

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Eigenwerte und Eigenvektoren von Matrizen

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Das Vermögen der privaten Haushalte in Nordrhein-Westfalen ein Überblick auf der Basis der Einkommens- und Verbrauchsstichprobe

(λ Ri I A+BR)v Ri = 0. Lässt sich umstellen zu

Wachstum 2. Michael Dröttboom 1 LernWerkstatt-Selm.de

Sowohl die Malstreifen als auch die Neperschen Streifen können auch in anderen Stellenwertsystemen verwendet werden.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

4 Vorlesung: Matrix und Determinante

Simplex-Umformung für Dummies

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Berechnung der Erhöhung der Durchschnittsprämien

Theoretische Grundlagen der Informatik

Access [basics] Gruppierungen in Abfragen. Beispieldatenbank. Abfragen gruppieren. Artikel pro Kategorie zählen

2 Darstellung von Zahlen und Zeichen

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

WÄRMEMESSUNG MIT DURCHFLUSSMENGENMESSER, TEMPERATURSENSOREN UND LOXONE

Aufgabe 1: Nehmen Sie Stellung zu den folgenden Behauptungen (richtig/falsch mit stichwortartiger Begründung).

Lineare Gleichungssysteme I (Matrixgleichungen)

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Die Optimalität von Randomisationstests

Transkript:

Analyse bivariater Kontingenztafeln Werden zwei kategoriale Merkmale mit nicht zu vielen möglichen Ausprägungen gemeinsam analysiert, so kommen zur Beschreibung der gemeinsamen Verteilung im allgemeinen Kontingenztafeln (Kreuztabellen) zum Einsatz. 1

Dargestellt werden die absoluten Häufigkeiten h ij für Ausprägungen der gemeinsamen Verteilung der beiden kategorialen Merkmale. Die möglichen Werte sind Kombinationen von Ausprägungen der beteiligten Merkmale. Ergänzt werden diese Tabellen durch die Randhäufigkeiten (Zeilen- und Spaltensummen), die die univariaten Verteilungen der beiden Merkmale beschreiben. 2

Für ein kategoriales Merkmal X (Zeilen) mit den Ausprägungen a 1,..., a k und Y (Spalten) mit den Ausprägungen b 1,..., b l hat die Tabelle die Gestalt: X Y b 1... b j... b l a 1 h 11... h 1j... h 1l h 1..... a i h i1... h ij... h il h i..... a k h k1... h kj... h kl h k h 1... h j... h l h 3

mit und l k h i = h ij, h j = j=1 i=1 h ij k l k l h = h i = h j = i=1 j=1 i=1 j=1 h ij 4

Zur grafischen Darstellung der Verteilung in den Zeilen oder Spalten also z.b. zur Darstellung der Abhängigkeit der Verteilung in den Zeilen von den Ausprägungen des Merkmals in den Spalten bieten sich gestapelte Balkendiagramme an. 5

Basistechnik bei der Analyse von Kontingenztafeln ist die χ 2 Statistik, die sowohl in der beschreibenden als auch in der schließenden Statistik verwendet wird. χ 2 beschreibt dabei im Sinne des χ 2 Anpassungstests den Abstand zwischen der beobachteten Kontingenztafel und der hypothetisch unterstellten Indifferenztabelle. 6

Die Indifferenztabelle wird dabei aus den beiden eindimensionalen Randverteilungen ermittelt, die den beobachteten univariaten Verteilungen der beiden untersuchten Merkmale X und Y entsprechen. In der Indifferenztabelle werden für jede Zelle die bei Unabhängigkeit der beiden Merkmale erwarteten Häufigkeiten h ij aus den vorliegenden Randhäufigkeiten ermittelt h ij = h i h j n = h i n h j n n 7

Damit sind die Zeilen und Spalten einer Indifferenztabelle proportional. Die Unabhängigkeit der Merkmale und die Homogenität (Gleichheit) der Verteilungen in den Zeilen oder in den Spalten sind damit äquivalent. χ 2 beschreibt also den Abstand der beobachteten Kreuztabelle zu der bei Unabhängigkeit der beiden Merkmale bzw. der bei Homogenität der Verteilungen in den Zeilen und Spalten zu erwartenden Tabelle. 8

Kenngrößen zur Beschreibung von Abhängigkeiten in Kontingenztafeln Für die Erfassung von Abhängigkeiten in Kontingenztafeln wurde eine Vielzahl von Kenngrößen entwickelt. Den Kenngrößen liegen z.t. unterschiedliche konzeptionelle Vorstellungen zu Grunde. Bei der Auswahl von geeigneten Kenngrößen spielen auch die Dimension der Tafel und das Skalenniveau der beteiligten Merkmale eine Rolle. Es existiert kein optimales Abhängigkeitsmaß für Kontingenztafeln. 9

Werden zwei dichotome Merkmale X und Y beobachtet, so wird ihre gemeinsame Verteilung durch eine 4 Felder Tafel beschrieben. Wir verwenden für derartige Tafeln die folgenden Bezeichnungen: X \ Y y 1 y 2 Gesamt x 1 a b a + b x 2 c d c + d Gesamt a + c b + d a + b + c + d 10

Bei asymmetrischen Fragestellungen, wenn also von einer Richtung der Abhängigkeit (z.b. Kausalität) ausgegangen werden kann, verwendet man häufig Tafeln mit Zeilen- oder Spaltenprozenten. Prozentuiert wird in Richtung auf die vermutete unabhängige Einflussgröße, um die (bedingten) Verteilungen der vermuteten abhängigen Größe für die verschiedenen Ausprägungen der Einflussgröße vergleichen zu können. Ungleichheit (Inhomogenität) dieser Verteilungen ist ein Indiz für vorhandene Abhängigkeiten, also für den Zusammenhang zwischen den beobachteten Merkmalen. Das einfachste Zusammenhangmaß in einer 4 Felder Tafel ist die zeilenoder spaltenbezogene Prozentsatzdifferenz. 11

Beispiel: ALLBUS 1996 Geschlechtszugehörigkeit (Spaltenvariable) und Einstellung zum Schwangerschaftsabbruch (Zeilenvariable) bei finanzieller Notlage. Absolute Häufigkeiten männlich weiblich Gesamt dafür a = 908 b = 962 a + b = 1870 dagegen c = 624 d = 606 c + d = 1230 Gesamt a + c = 1532 b + d = 1568 a + b + c + d = 3100 Die Einflussgröße ist das Geschlecht, daher verwenden wir Spaltenprozente. 12

Spaltenprozente männlich weiblich Gesamt dafür (a/(a + c)) 100% = 59.3% 61.4% 60.3% dagegen (c/(a + c)) 100% = 40.7% 38.6% 39.7% Gesamt ((a + c)/(a + c)) 100% = 100% 100% 100% Die Prozentsatzdifferenz bei Verwendung von Spaltenprozenten beträgt also a a + c 100% b b + d 100% = 59.3% 61.4% = 2.1% Die geschlechtsspezifischen Unterschiede bei der Einstellung zum Schwangerschaftsabbruch sind also nicht besonders stark ausgeprägt. 13

Als Maß für den Unterschied zwischen zwei Gruppen kann auch das Odds Ratio eingesetzt werden. Das Odds Ratio setzt die Odds zweier Gruppen zueinander ins Verhältnis. Im Beispiel sind die Odds (Chancen) unter den Frauen eine Befürworterin für den Schwangerschaftsabbruch zu finden b/d = 962/606 und unter Männern a/c = 908/624. Das Odds Ratio das Verhältnis der Odds von Frauen und Männern ist demnach b d : a c = bc ad = 962 624 908 606 = 1.091 Die Chancen, unter Frauen eine Befürworterin des Schwangerschaftsabbruches zu finden, sind also in Relation zu den Männern etwas größer. 14

Sowohl für asymmetrische als auch für symmetrische Zusammenhänge kann χ 2 zur Beschreibung verwendet werden. Für vorgegebene Randverteilungen a + b und c + d bzw. a + c und b + d hat die Indifferenztabelle die Gestalt X \ Y y 1 y 2 Gesamt x 1 x 2 (a+b)(a+c) (a+b+c+d) (c+d)(a+c) (a+b+c+d) (a+b)(b+d) (a+b+c+d) (c+d)(b+d) (a+b+c+d) a + b c + d Gesamt a + c b + d a + b + c + d Mit n = a + b + c + d lässt sich der Abstand χ 2 für eine 4 Felder Tafel in der folgenden Form darstellen: χ 2 = n (ad bc) 2 (a + b)(c + d)(a + c)(b + d) 15

Der maximal mögliche Wert von χ 2 für eine 4 Felder Tafel ist damit gleich n (Stichprobenumfang). Er wird erreicht, wenn in der Tabelle nur eine der Diagonalen besetzt ist, d.h. wenn entweder nur a und d oder nur c und b von Null verschieden sind (perfekter, eineindeutiger Zusammenhang). χ 2 selbst ist als Abhängigkeitsmaß ungeeignet, da es sich mit dem Stichprobenumfang verändert. Abhängigkeitsmaße für 4 Felder Tafeln, die auf χ 2 basieren, sind Φ 2 = χ2 n = (ad bc) 2 (a + b)(c + d)(a + c)(b + d) und Φ = ad bc (a + b)(c + d)(a + c)(b + d) 16

Φ 2 gibt mit Werten zwischen 0 und 1 die Stärke eines Zusammenhanges in einer 4 Felder Tafel an. Φ ist vorzeichenbehaftet. Das Vorzeichen ergibt sich dabei aus den Häufigkeiten auf den Diagonalen. Überwiegen die Häufigkeiten a und d, so ergibt sich ein positives Vorzeichen. Eine Deutung des Vorzeichens ist nur bei ordinalskalierten Merkmalen X und Y sinnvoll. Sind die Merkmale intervallskaliert, so stimmt Φ mit dem Korrelationskoeffizient nach Pearson überein. Im Beispiel ergeben sich χ 2 = 1.4048, Φ 2 = 0.00045319 und Φ = 0.02128. 17

Werden Merkmale X und Y beobachtet, die nicht nur jeweils zwei, sondern k bzw. l mögliche Ausprägungen besitzen, so ist die Kontingenztafel eine Mehrfeldertafel mit k Zeilen, l Spalten und k l Zellen. Bei asymmetrischen Fragestellungen werden wieder Zeilenoder Spaltenprozente zum Vergleich von Verteilungen eingesetzt. Prozentsatzdifferenzen dienen dazu, die Unterschiede zwischen Verteilungen für einzelne Kategorien der vermuteten abhängigen Größe zu beschreiben. Evtl. sind mehrere Prozentsatzdifferenzen zum Vergleich heranzuziehen. Analog kann man mehrere Odds Ratios einsetzen. 18

Beispiel: Wahlabsicht und Konfession (ALLBUS 1996) Als Einflussgröße wird die Konfessionzugehörigkeit vermutet. Prozentuiert wird also bezüglich der Kategorien dieses Merkmals. Deutliche Prozentsatzdifferenzen sind u.a. bei der CDU erkennbar. Die Odds (Chancen) unter KatholikInnen eine/n CDU WählerIn anzutreffen sind 327/349 = 0.937 und unter ProtestantInnen 306/554 = 0.552. Das Odds Ratio von KatholikInnen zu ProtestantInnen CDU zu wählen, beträgt demnach 327 349 : 306 327 554 = 554 349 306 = 1.696 Die Chancen aus den KatholikInnen, eine/n CDU WählerIn auszuwählen, sind also etwa 1.7 mal so groß wie eine derartige Auswahl unter ProtestantInnen. 19

katholisch evangelisch keine Σ CDU 327 306 141 774 48.4% 35.6% 22.3% 35.7% SPD 198 300 216 714 29.3% 34.9% 34.2% 32.9% F.D.P. 49 109 41 199 7.2% 12.7% 6.5% 9.2% B 90/Gr. 92 129 134 355 13.6% 15.0% 21.2% 16.4% PDS 10 16 100 126 1.5% 1.9% 15.8% 5.8% Σ 676 (100%) 860 (100%) 632 (100%) 2168 (100%) 20

Auch für Mehrfeldertafeln kann χ 2 zur Beschreibung sowohl von asymmetrischen als auch von symmetrischen Zusammenhängen eingesetzt werden. Der größte Wert, den χ 2 für eine Mehrfeldertafel annehmen kann, ergibt sich im Fall perfekter (funktioneller) Zusammenhänge. Im Fall einer Mehrfeldertafel mit k l Zellen ist der Maximalwert gleich n min (k 1, l 1) Im Beispiel ist der maximal mögliche Werte von χ 2 also 2168 min (5 1, 3 1) = 2168 2 21

Eine Verallgemeinerung von Φ auf beliebige Mehrfeldertafeln ist Cramérs V. Es ist definiert als χ V = 2 n min(k 1, l 1) V gibt mit Werten zwischen 0 und 1 die Stärke eines Zusammenhanges in einer Mehrfeldertafel an. V ist nicht vorzeichenbehaftet. 22

Als weiteres Zusammenhangsmaß in beliebigen Kontingenztafeln wird der Kontingenzkoeffizient χ C = 2 χ 2 + n verwendet (siehe Statistik I). 23

Eine andere Betrachtungsweise der Abhängigkeit kategorialer Merkmale ist die der prädikativen Assoziation. Ihr entsprechen als Maßzahlen die PRE Maße (Proportional Reduction in Error). Das Konzept besteht darin, dass untersucht wird, wie sich die Schätzung oder Vorhersage der abhängigen Variablen ändert, wenn als zusätzliche Information die bekannte Ausprägung der unabhängigen Variablen verwendet wird, gegenüber der Situation, dass diese Information nicht vorliegt. Die PRE Maße spiegeln also den Grad wider, in dem uns die Kenntnis der Ausprägungen einer Einflussgröße hilft, die andere (abhängige) Größe vorher zusagen. 24

Als Beispiel für ein PRE Maß betrachten wir λ (Lambda) nach Goodman und Kruskal. λ ist ein asymmetrisches Maß für Zusammenhänge in beliebigen Mehrfeldertafeln. Je nach dem welches Merkmal als abhängig angesehen wird, werden zwei verschiedene λ Werte berechnet. Aus den beiden Werten kann noch ein dritter, symmetrischer Wert berechnet werden. λ nimmt Werte zwischen 0 und 1 an und lässt sich im Sinne der Fehlerreduktion bei der Vorhersage des abhängigen Merkmals im Gegensatz zu χ 2 einfach interpretieren. 25

Allen PRE Maßen nicht nur λ liegt die gleiche Konzeption zu Grunde: Verglichen werden die Fehler bei der Vorhersage der abhängigen Größe ohne Kenntnis der Ausprägungen der unabhängigen Größe (Fehler(OK)) mit den Fehlern bei Kenntnis der Ausprägungen der abhängigen Größe (Fehler(MK)). Jedes PRE Maß hat die Gestalt PRE Maß = Fehler(OK) Fehler(MK) Fehler(OK) PRE Maße unterscheiden sich nur hinsichtlich der Regeln (Modelle), die für die Vorhersage verwendet werden und die zugehörige Fehlerdefinition. Die uns bereits bekannten Kenngrößen η 2 und r 2 sind spezielle PRE Maße. 26

Bei der Berechnung von λ wird für die Vorhersage stets die modale Kategorie der Verteilung verwendet. Ohne Kenntnis der Ausprägungen der Einflussgröße verwendet man die modale Kategorie der univariaten Verteilung der abhängigen Größe, d.h. die häufigste Kategorie der entsprechenden Randverteilung, zur Vorhersage. Mit Kenntnis der Ausprägung der Einflussgröße verwendet man die modale Kategorie der entsprechenden bedingten Verteilung, d.h. der Verteilung in der entsprechenden Spalte oder Zeile der Kontingenztafel. Sind die Modalwerte dieser Verteilungen alle gleich dem Modalwert der Randverteilung, so kommt es zu keiner Fehlerreduktion. 27

In unserem Beispiel würden wir ohne Kenntnis der Konfessionszugehörigkeit die Prognose CDU WählerIn verwenden. Ist bekannt, dass die Konfessionszugehörigkeit KatholikIn oder ProtestantIn ist, so verwenden wir wieder die Prognose CDU WählerIn, auch wenn sich die Anteile der CDU WählerInnen in beiden Gruppen stark unterscheiden. Nicht konfessionsgebundene WählerInnen entscheiden sich aber mehrheitlich für die SPD. Bei Kenntnis und Verwendung der Konfessionszugehörigkeit reduziert sich also der Fehlerprozentsatz bei der Vorhersage des Wahlverhaltens. 28

Neben λ werden auch andere PRE Maße für nominalskalierte Merkmale verwendet, die andere Regeln (Modelle) für die Vorhersage oder Fehlerdefinition verwenden. Ein Beispiel ist der Unsicherheitskoeffizient, der die Devianz als Maß für den Vorhersagefehler benutzt. 29