Bivariater Zusammenhang in der Mehrfeldertafel PEΣO

Ähnliche Dokumente
Bivariate Kreuztabellen

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

Was sind Zusammenhangsmaße?

Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt.

Tutorial:Unabhängigkeitstest

Bivariate Verteilungen

Chi Quadrat-Unabhängigkeitstest

Statistik I. Sommersemester 2009

Statistik I. Sommersemester 2009

Statistik I im Sommersemester 2007

Analyse von Kontingenztafeln

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:

Zusammenhangsmaße II

V a r i a b l e X x 1 x 2 x 3 x 4 Σ y y y Σ Variable Y. V a r i a b l e X

Zusammenhangsmaße II

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Grundlagen der empirischen Sozialforschung

Statistisches Testen

Wichtige statistische Koeffizienten und Formeln

Hypothesentests mit SPSS

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

5.5 PRE-Maße (Fehlerreduktionsmaße) 6

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2008, Statistik mit SPSS

Parametrische vs. Non-Parametrische Testverfahren

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Tutorial: χ 2 -Test auf vorgegebene Verteilung

Chi-Quadrat Verfahren

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Kapitel 9: Verfahren für Nominaldaten

Der χ2-test Der χ2-test

Der χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest)

Assoziation & Korrelation

11. Zusammenhangsmaße für nominale Variablen

Einführung in SPSS. Sitzung 4: Bivariate Zusammenhänge. Knut Wenzig. 27. Januar 2005

Statistische Methoden in den Umweltwissenschaften

Analytische Statistik II

5.5 PRE-Maße (Fehlerreduktionsmaße)

Institut für Soziologie Dipl. Soz. Maximilian Sonnauer. Methoden II. Zusammenhangsmaße für kategoriale und metrische Variablen

Forschungsstatistik I

Alternative Darstellung des 2-Stcihprobentests für Anteile

Tutorial: Anpassungstest

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

r=0.666 Number of people who drowned by falling into a pool correlates with Films Nicolas Cage appeared in 140 drownings 6 films 4 films 120 drownings

Der χ 2 -Test (Chiquadrat-Test)

STATISTIK FÜR DIE SOZIALWISSENSCHAFTEN

Assoziation & Korrelation

INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE. Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße

Statistik Einführung // Kategoriale Daten 10 p.2/26

Übungsblatt 10: Lineare Regression (Sitzung 11)

Einführung in die sozialwissenschaftliche Statistik

9.1 Einleitung. Statistik. Qualitative 2-Weg Daten. Bsp: UCB Admissions. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Häufigkeitsverteilungen

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister

Analyse bivariater Kontingenztafeln

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -

6. Multivariate Verfahren Übersicht

Parametrische und nichtparametrische Tests

Lösungen zum Aufgabenblatt 2: Bivariate Kreuztabellen mit nominalem Messniveau

Herzlich willkommen zur Vorlesung Statistik

"Korrelation" bei Nominaldaten: Kontingenz

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Tutorial: Vergleich von Anteilen

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03

Modul G.1 WS 07/08: Statistik

Vorlesung: Statistik II für Wirtschaftswissenschaft

Bivariate Zusammenhänge

Alternative Darstellung des 2-Stichprobentests für Anteile

Statistik II. Weitere Statistische Tests. Statistik II

Statistik II. IV. Hypothesentests. Martin Huber

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

Statistik K urs SS 2004

Alternative Darstellung des 2-Stichprobentests für Anteile

Analyse von Kontingenztafeln bei ordinalskalierten Merkmalen

= 0.445, also annähernd die Hälfte aller Männer zugelassen 557

Statistik I. 2. Klausur Wintersemester 2011/2012 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Regression und Korrelation

Institut für Soziologie Werner Fröhlich. Methoden 2. Kontingenztabellen Chi-Quadrat-Unabhängigkeitstest

Zusammenhangsanalyse in Kontingenztabellen

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2013

Kapitel 16 Kreuztabellen

Aufgaben zu Kapitel 9

5.2.3 Grafische Darstellung der gemeinsamen Verteilung. Verschiedene Darstellungsarten, z.b. als 3D-Säulendiagramm der gemeinsamen Häufigkeiten

Einführung in Web- und Data-Science

Statistik I. 2. Klausur Wintersemester 2011/2012 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Prof. Dr. Achim Bühl SPSS 16. Einführung in die moderne Datenanalyse. 11., überarbeitete und erweiterte Auflage

2. Zusammenhangsmaße

Mathematische und statistische Methoden II

Alternative Darstellung des 2-Stichprobentests für Anteile

Einführung in die Induktive Statistik: Testen von Hypothesen

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Transkript:

Bivariater Zusammenhang in der Mehrfeldertafel PEΣO 9. November 2001

Bivariate Häufigkeitsverteilungen in Mehrfeldertabellen In der Mehrfeldertabelle werden im Gegensatz zur Vierfeldertabelle keine dichotomen sondern mehrkategoriale Variablen betrachtet. Prozentsätze können auch in der Mehrfeldertabelle verglichen werden. Leider steht hier anschauliches Maß wie die Prozentsatzdifferenz bei Vierfeldertabellen nicht zur Verfügung. Dennoch kann man über Prozentsatzvergleiche gut einen Eindruck über die Bivariate Verteilung gewinnen. 1

Beispielverteilung 2

Prüfung der Unabhängigkeit in Mehrfeldertabellen Hypothesenpaar H 0 : π ij = π i π j für alle i,j H 1 : π ij π i π j für mindestens eine Kombination i,j Erwartete Häufigkeiten bei Unabhängigkeit e ij = n p i p j = n i n j n für alle i und j Berechnung der Teststatistik χ 2 χ 2 = I i=1 Ji=j (n ij e ij ) 2 e ij 3

Berechnung der Freiheitsgrade der Tabelle Die Anzahl der Freiheitsgrade einer Tabelle ergibt sich durch die Multiplikation der jeweils um 1 verringerten Zahl der Zeilen und Spaltenkategorien. DF = (N Zeilen 1) (N Spalten 1) Bestimmung der empirischen Signifikanzniveaus der Unabhängikkeitshypothese mit Hilfe der χ 2 -Tabelle

Beispiel χ 2 -Unabhängigkeitstest 4

Standardisierte Residuen Dienen zur Beurteilung der Abweichung zwischen beobachteten und erwarteten Zellenhäufigkeiten bei Unabhängigkeit. Ein negatives Vorzeichen deutet auf eine Unterbesetzung der Zelle in Bezug auf den Erwarteten Wert hin, ein positives auf eine Überbesetztung. Ist das Standardisierte Residuum betragsmäßig größer als 2, ist die Art der Abweichung auf 5 -Niveau signifikant. Formel: sr ij = (n ij e ij ) 2 e ij = n ij e ij eij 5

χ 2 -Goodness of Fit-Test Außer zur Prüfung der Hypothese der Unabhängigkeit einer Tabelle kann der Chi-Quadrat- Test immer dann Angewendet werden, wenn aufgrund theoretischer Überlegungen eine Erwartete Verteilung gefordert wird. Die Nullhypothese fordert dann, daß in der Population eine bestimmte Verteilung vorliegt. Im Allgemeinen Fall berechnet sich die Teststatistik χ 2 nach: χ 2 = K i=1 (n k e k ) 2 e k wobei k den Index zur Bezeichnung der Tabellenzellen und K die Anzahl der Tabellenzellen darstellt. Die Freiheitsgrade berechnen sich über: df = N Zellen N zuschaetzendep arameter 6

Zusammenhangsmaße in der Mehrfeldertabelle bei nominalskalierten Variablen Zusammenhangsmaße bei nominalskalierten Variablen basieren im allgemeinen auf der Prüfgröße χ 2, welche Aussagen über die Abweichung von den bei Unabhängigkeit erwarteten Verteilungen macht. Um aus χ 2 ein Maß abzuleiten, ist es notwendig, festzustellen, welchen Maximalwert dieses im Fall eines perfekten Zusammenhangs haben kann. Dies geschieht über folgende Formel: χ 2 max = n [ dem geringeren von I-1 oder J-1 ] 7

Cramers V Cramers V ist ein symmetrisches Zusammenhangsmaß, welches auf χ 2 und dessen jeweils möglichen Maximalwert basiert. Der Wertebereich von Cramers V liegt zwischen 0 und 1, wobei 0 für keinen und 1 für einen perfekten Zusammenhang steht. Es ist anzumerken, daß Cramers V kein erwartungstreues Maß ist. Signifikanztests sind also immer mit Vorsicht zu genießen. Cramers V berechnet sich über folgende Formel: V = χ 2 χ 2 max 8

Pearsons Kontingenzkoeffizient C Da der Maximalwert von C kleiner 1 ist, ist aus interpretierbarkeitsgründen Cramers V vorzuzíehen. Der Kontingenzkoeffizient C berechnet sich über folgende Formel: C = χ 2 χ 2 +n 9

Asymmetrische Zusammenhangsmaße in der Mehrfeldertabelle bei nominalskalierten Variablen: λ-koeffizient Ein prominentes asymmetrisches Maß ist der sogenannte Lambda-Koeffizient( λ ). Dieser Koeffizient kann Werte zwischen 0 und 1 annehmen, wobei 0 für keinen und 1 einen totalen Einfluß der abhängigen auf die unabhängige Variable bedeutet. λ basiert auf der sogenannten PRE-Logik, welche Grundlage der meistgenutzten Zusammenhangsmaße ist, und die im folgenden vorgestellt werden soll. 10

PRE-Ansatz PRE steht für propotional reduction of error (proportionale Fehlerreduktion). Bei dieser Vorgehensweise betrachtet man den Gewinn an Vorhersagekraft (Fehlerreduktion), wenn man eine (zusätzliche) Variable zur Erklärung einer abhängigen Variable nutzt. Dabei nimmt man an, daß diese zusätzliche Vorhersagekraft durch den Einfluß der zusätzlichen unabhängigen Variable bedingt ist. 11

Vorhersagefehler Ohne die Kenntnis einer zusätzlichen Variablen kann man einen Kennwert der Variable auswählen, deren Ausprägungen man prognostizieren möchte. Zum Beispiel ist dies im Falle von nominalskalierten Variablen der Modus. Der Vorhersagefehler E 0 des Modus einer Verteilung auf diese selbst errechnet sich folgendermaßen: E 0 = n n Modalkategorie Dies ist die Anzahl der Fälle, die nicht in der Modalkategorie liegen und damit der Vorhersagefehler des Modus auf seine eigene Verteilung. 12

Wird eine zusätzliche Variable in die Prognose mit einbezogen,betrachtet man die bedingten Verteilungen der abhängigen Variablen. Für jede Kategorie der unabhängigen ergibt sich nun eine Verteilung der abhängigen Variablen mit jeweils einem Modus. Werden diese Modi über die Kategorien der unabhängigen Variablen zusammenaddiert, erhält man die Zahl der Fälle der abhängigen Variablen, die mit Kenntnis der unabhängigen Variablen prognostizierbar sind. Der Vorhersagefehler mit Kenntnis einer zusätzlichen (Spalten) Variablen E 1 ergibt sich also durch: E 1 = n J j=1 n Modalzelle

proportionale Fehlerreduktion Ist der Fehler bekannt, der sich bei der Prognose einer Verteilung durch einen ihrer Kennwerte ergibt (Selbstprognosefehler), lässt sich ausrechnen, wie stark sich in Relation dazu der Fehler durch Einbeziehen einer zusätzlichen Variable vermindern lässt. Dies ist die sogenannte PRE- Logik. Die Fehlerreduktion wird hierbei als Einfluß der einen auf die andere Variable gedeutet und proportional zum Selbstprognosefehler interpretiert. P RE = E 0 E 1 E 0 = 1 E 1 E 0 wobei: P RE = proportionale Fehlereduktion E 0 = Selbstprognosefehler E 1 = Prognosefehler mit zusätzlicher Variable 13

λ-koeffizient Der λ-koeffizient λ yx errechnet sich also Analog zur PRE-Logik mit Modi als Prognosekennwerten: λ yx = 1 E 1 E = 1 E 1=n Jj=1 n Modalzelle 0 E 0 =n n Modalkategorie Zur Erinnerung: λ yx berschreibt den Einfluß einer unabhängigen nominalskalierten Variablen X auf eine abhängige nominalskaliere Variable Y. Ist λ yx = 0 existiert kein Einfluß, ist es gleich 1 wird Y vollständig durch X bestimmt. 14

Relative Devianzreduktion Das Prizip der proportionalen Fehlerreduktion kann auch mit anderen Maßen (Fehlerdefinitionen) angewendet werden. Eine Möglichkeit ist die Devianz, ein Streuungsmaß für nominalskalierte Variablen. Die Devianz D Y einer Zeilenvariablen Y berechnet sich wie folgt: D Y = 2 I i=1 n i ln( n i n ) Der Fehler bei Kenntnis beider Variablen errechnet sich über die Devianz der bivariaten Verteilung D Y X : D Y X = 2 J j=1 Ii=1 n ij ln( n ij n j ) 15

Aus diesen Definitionen und dem PRE-Prinzip ergibt sich die relative Devianzreduktion P 2 Y X, die auch als Likelihood-Ratio-Index oder Unsicherheitskoeffizient bekannt ist: P 2 Y X = 1 D Y X D Y = 1 D Y X= 2 Jj=1 Ii=1 n ij ln( n ij n j ) D Y = 2 I i=1 n i ln( n i n ) Dieses Maß hat ebenfalls einen Wertebereich von 0 bis 1, wobei 0 für keinen und 1 für einen perfekten Zusammenhang (Fehlerreduktion) steht.

Likelihood-Ratio-Test Die statistische Unabhängigkeit einer Tabelle kann alternativ zum χ 2 -Test auch mittels der relativen Devianzreduktion ermittelt werden. Ist diese signifikant von null verschieden, ist die Tabelle statistisch abhängig. Die Teststatistik L 2 ist? verteilt und nimmt für steigende Stichprobengröße asymptotisch den selben Wert wie χ 2 an. Sind χ 2 und L 2 in einer Stichprobe verschieden, bedeutet das, daß aufgrund zu geringer Stichprobengröße beide Maße mit vorsicht zu genießen sind. L 2 = D Y D Y X = 2 I i=1 Jj=1 n ij ln( n ij e ij ) 16