5.5 PRE-Maße (Fehlerreduktionsmaße) 6

Ähnliche Dokumente
Was sind Zusammenhangsmaße?

5.3 (Empirische) Unabhängigkeit und χ 2

Bivariate Kreuztabellen

Zusammenhangsanalyse in Kontingenztabellen

Bivariater Zusammenhang in der Mehrfeldertafel PEΣO

Zusammenhänge zwischen metrischen Merkmalen

Angewandte Statistik 3. Semester

Bivariate Zusammenhänge

Assoziation & Korrelation

Musterlösung zur Aufgabensammlung Statistik I Teil 3

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Assoziation & Korrelation

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06.

Statistik. Jan Müller

Skalenniveaus =,!=, >, <, +, -

Willkommen zur Vorlesung Statistik (Master)

Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt.

P (X = 2) = 1/36, P (X = 3) = 2/36,...

Kapitel 2. Häufigkeitsverteilungen

Analyse bivariater Kontingenztafeln

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

WISTA WIRTSCHAFTSSTATISTIK

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Inhaltsverzeichnis. II. Statistische Modelle und sozialwissenschaftliche Meßniveaus 16

Bivariate Analyseverfahren

Herzlich willkommen zur Vorlesung Statistik

Beeinflusst das Geschlecht das Erwerbseinkommen?

Kontingenzkoeffizient (nach Pearson)

Bivariate Verteilungen

Lage- und Streuungsparameter

Modul G.1 WS 07/08: Statistik

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2013

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Herzlich Willkommen zur Vorlesung Statistik

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Gemeinsame Wahrscheinlichkeitsverteilungen

Teil I: Deskriptive Statistik

Allgemeine diskrete Wahrscheinlichkeitsräume II. Beispiel II. Beispiel I. Definition 6.3 (Diskreter Wahrscheinlichkeitsraum)

Einführung in die Korrelationsrechnung

Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Willkommen zur Vorlesung Statistik

1. Grundlagen der Wahrscheinlichkeitsrechnung

Computergestützte Methoden. Master of Science Prof. Dr. G. H. Franke WS 07/08

Kapitel 1 Beschreibende Statistik

Statistik II: Grundlagen und Definitionen der Statistik

Bitte bearbeite zunächst alle Aufgaben bevor du einen Blick in die Lösungen wirfst.

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

P (A B) P (B) = P ({3}) P ({1, 3, 5}) = 1 3.

Wahrscheinlichkeits - rechnung und Statistik

Deskriptive Statistik

Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient

Willkommen zur Vorlesung Statistik

Teil: lineare Regression

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

I. Deskriptive Statistik 1

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

Statistische Grundlagen I

Kapitel 16 Kreuztabellen

Statistische Tests zu ausgewählten Problemen

Deskriptive Statistik

Test auf den Erwartungswert

Zufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen

Copula Funktionen. Eine Einführung. Nils Friewald

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

Aufbau des Experiments Reihung von Versuchsitems und Distraktoren

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Euklidische und unitäre Vektorräume

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität

Statistik für Psychologen und Sozialwissenschaftler

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Statistik, Geostatistik

Daten, Datentypen, Skalen

Zwei kategoriale Merkmale. Homogenität Unabhängigkeit

Eine zweidimensionale Stichprobe

Inhaltsverzeichnis. Teil I Einführung

3. Deskriptive Statistik

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik

Deskriptive Statistik Kapitel VII - Konzentration von Merkmalswerten

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

1 Vorbemerkungen 1. 2 Zufallsexperimente - grundlegende Begriffe und Eigenschaften 2. 3 Wahrscheinlichkeitsaxiome 4. 4 Laplace-Experimente 6

Zufallsvariablen [random variable]

Die Korrelation von Merkmalen

Wahrscheinlichkeitsrechnung und Statistik

1.TABELLENANALYSEN MIT DICHOTOMEN VARIABLEN...

Alle weiteren Messoperationen schließen die Klassifikation als Minimaloperation ein.

Unabhängigkeit KAPITEL 4

Ablaufschema beim Testen

Forschungsmethoden in der Sozialen Arbeit

Zufallsgröße. Würfelwurf mit fairem Würfel. Wahrscheinlichkeitsverteilung einer diskreten

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

STATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich)

Seminar zur Energiewirtschaft:

Korrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben:

3. Kombinatorik und Wahrscheinlichkeit

Heinz Holling & Günther Gediga. Statistik - Deskriptive Verfahren. Lösungen zu den Übungen

Einführung in die Induktive Statistik: Testen von Hypothesen

Transkript:

359 5.5 PRE-Maße (Fehlerreduktionsmaße) 6 5.5.1 Die grundlegende Konstruktion Völlig andere, sehr allgemeine Grundidee zur Beschreibung von Zusammenhängen. Grundlegendes Prinzip vieler statistischer Konzepte. Hängt mit Streuungszerlegung metrischer Daten zusammen. Anwendbar für Kreuztabellen beliebiger Größe. Unter anderen in den Sozialwissenschaften sehr gebräuchlich, da das Prinzip auf sehr viele unterschiedliche Situationen anwendbar ist. 6 Literatur speziell zu PRE-Maßen: Hans Benninghaus: Deskriptive Statistik Eine Einführung für Sozialwissenschaftler http://link.springer.com.emedien.ub.uni-muenchen.de/book/10.1007%2f978-3-531-90739-0

360 Hintergrund: Naiv ausgedrückt, versucht ein Modell ein empirisches Phänomen zu beschreiben. Ein Modell ist dann umso besser, je genauer es ein Phänomen reproduzieren/vorhersagen kann. Die Verbesserung der Modellanpassung der einen Variable durch Berücksichtigung einer (zusätzlichen) anderen Variablen dient dann als Maß des Zusammenhangs zwischen den beiden. Betrachte zwei Modelle (Modell 1 und Modell 2) zur Vorhersage des Wertes y i der abhängigen Variable Y einer beliebigen Beobachtung i, wobei Modell 2 die Informationen von Modell 1 und zusätzlich bestimmte Informationen, die aus X gewonnen werden benutzt. Dieses Prinzip wird bei der Analyse von Kreuztabellen wie folgt angewendet: Modell 1: verwendet (ausschließlich) die Randverteilung von Y : (h j ), j = 1,..., m. Modell 2: verwendet die gemeinsame Verteilung von (X, Y ) bzw. die bedingte Verteilung von Y gegeben X.

361 Definition: PRE = P roportional Reduction in E rror wobei P RE = E 1 E 2 E 1 = 1 E 2 E 1, E 1 : E 2 : Fehler der aus dem Modell 1 abgeleiteten Werte Fehler der aus dem Modell 2 abgeleiteten Werte Werden die Vorhersagen mehrerer Variablen betrachtet, so werden die Variablen im Superscript angezeigt: z.b. E Y 1.

362 Bem. 5.34. PRE ist auf [0; 1] normiert, da die Modelle so konstruiert sind, dass immer E 2 E 1 gilt. P RE = 1 gilt genau dann wenn E 2 = 0, d.h. bei vollständiger Vorhersage bzw. vollständigem Zusammenhang. P RE = 0 gilt genau dann wenn E 1 = E 2, d.h. die Vorhersage wird durch Kenntnis der unabhängigen Variablen in keinster Weise unterstützt, d.h. es besteht kein Zusammenhang.

363 Bsp. 5.35. Intuitives Beispiel:

364 Konstruktion von PRE-Maßen benötigt also: Geeignete Konstruktion eines Fehlermaßes Zwei geeignet verschachtelte, zu vergleichende Modelle

365 5.5.2 Guttmans Lambda Basiert auf dem Modus der Randverteilung bzw. der bedingten Verteilungen. Modell 1 (nur Y ): Modell 2 (mit X):

366 Fehler im Modell 1 also: Fehler im Modell 2, bedingte Modi :

367 PRE-Maß für abhängige Variable Y : λ Y = EY 1 E2 Y E1 Y ( k = i=1 = ( max(h ij ) j ) n max(h j ) j ) n max(h j ) j max(h j ) j ( n max j n (h j ) k i=1 max(h ij ) j )

368 Wenn unklar ist, welche Variable die abhängige und welche die unabhängige ist, dann bildet man eine symmetrische Version. Dazu betrachtet man zunächst analog die Prognose von X (ohne und mit Y ). Die entsprechende Formel ergibt sich durch Vertauschen der Rolle von X und Y als: λ X = EX 1 E X 2 E X 1 = m j=1 max i (h ij ) max(h i ) n max i (h i ) i, und die symmetrische Version erhält man durch poolen : λ = (EX 1 E X 2 ) + (E Y 1 E Y 2 ) E X 1 + EY 1 = k i=1 max(h ij ) + j m j=1 max i (h ij ) max(h j ) max(h i ) 2n max j (h j ) max i (h i ) j i.

369 Bsp. 5.36. Erwerbstätigkeit von Männern und Frauen beschäftigt ja nein 1 2 Frau 1 40 25 65 Mann 2 80 5 85 120 30 150

370 5.5.3 Goodmans und Kruskals Tau D.h. statt deterministischer Vorhersagen (immer Modus) probabilistische Vorhersagen (mit Wahrscheinlichkeiten). Modell 1: Vorhersage b j mit Wahrscheinlichkeit f j, j = 1,..., m. (z.b. bei einem Beschäftigtenanteil von 2/3 Personen nicht immer Beschäftigung, sondern im Durchschnitt je 3 Personen 2-mal Beschäftigung und 1 mal Arbeitslosigkeit. Prognose: Auswürfeln mit Wahrscheinlichkeitsverteilung f i, also hier z.b. bei einem Verhältnis (2/3, 1/3): wenn Würfel 1 bis 4 dann Prognose = Beschäftigung wenn Augenzahl 5 oder 6 dann Prognose = Arbeitslosigkeit ) Modell 2: Für jedes i Vorhersage b j mit Wahrscheinlichkeit f Y X (b j a i ) = h ij h i = f ij f i,

371 d.h. es werden die relativen Häufigkeiten in den aus X gebildeten Subgruppen eingesetzt. Man kann zeigen (Wahrscheinlichkeitsrechnung, nächstes Semester): erwarteter Wert von E 1 = 1 erwarteter Wert von E 2 = 1 m j=1 f 2 j m k j=1 i=1 f 2 ij f i

372 Damit ergibt sich: τ Y = m j=1 k i=1 1 f 2 ij f i m j=1 m j=1 f 2 j f 2 j Analog kann man wieder ein Modell für die umgekehrte Richtung (Prognose von X auf die Basis von Y ) aufstellen. Man erhält τ X = k i=1 m j=1 1 f 2 ij f j k i=1 k i=1 f 2 i f 2 i

373 und die symmetrische Form τ = m j=1 k i=1 f 2 ij f i + 2 k i=1 m j=1 f 2 ij f j m f j 2 m f j 2 j=1 k f 2 i k i=1 f 2 i j=1 i=1 Definition: Die entsprechenden Größen heißen Goodmans und Kruskals τ Y, τ X und τ. Bsp. 5.37. Erwerbstätigkeit von Männern und Frauen

374 beschäftigt ja nein 1 2 Frau 1 40 25 65 Mann 2 80 5 85 120 30 150 In relative Häufigkeiten umrechnen: X Y 1 2 1 4 15 2 8 15 4 5 1 6 1 30 13 30 17 30 1 5 1

375 τ Y = m j=1 k i=1 1 f 2 ij f i m j=1 m j=1 f 2 j f 2 j = = f 2 11 f 1 + f 2 21 f 2 + f 2 12 f 1 + f 2 22 f 2 (f 2 1 + f 2 2) 1 (f 2 1 + f 2 2) (4/15) 2 13/30 + (8/15)2 17/30 + (1/6)2 13/30 + (1/30)2 17/30 ( (4 ) 2 ( ) ) 2 1 1 + 5 5 ( (4 ) 2 + 5 ( ) ) 2 1 5 = 0.732 17 25 8 25 0.1625

376 5.6 Zusammenhangsanalyse bivariater ordinaler Merkmale Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y (mindestens) ordinales Meßniveau aufweisen. Die Ausprägungen von X und Y sind also (in einer inhaltlich sinnvoller Weise) geordnet. Beachte: Beide Merkmale müssen ordinal sein, bei einem ordinalen und einem nominalem Merkmal sind Methoden für nominale Merkmale zu verwenden. ( Das schwächste Glied in der Kette gibt den Ausschlag! ) Eine Reihe der Maßzahlen lassen sich zudem auch sinnvoll anwenden, wenn ein Merkmal binär ist, d. h. nur zwei verschiedene Ausprägungen besitzt.

377 5.6.1 Konkordante und diskordante Paare Bsp. 5.38. Daten des Schweizer Arbeitsmarktsurvey (aus Jann, 2002, S. 82) Merkmale: X: Bildung Y : Einkommen jeweils mit den Ausprägungen: 1 niedrig 2 mittel 3 hoch

378 Y X 1 2 3 1 262 125 8 395 2 496 837 149 1482 3 160 361 268 789 918 1323 425 2666

379 Ferner betrachte man die folgenden Beispiel-Einheiten (fiktiv): Person Ausprägung von X Ausprägung von Y Bildung Einkommen 1 3 (hoch) 3 (hoch) 2 1 (niedrig) 2 (mittel) 3 2 (mittel) 3 (hoch) 4 1 (niedrig) 1 (niedrig) 5 1 (niedrig) 2 (mittel) 6 3 (hoch) 1 (niedrig)

380 Da ordinalskalierte Merkmale betrachtet werden, spielt bei Fragen nach Zusammenhängen die Richtung eine Rolle. In Verallgemeinerung zu den Überlegungen bei den dichotomen Merkmalen spricht man von einem gleichsinnigen (gleichläufigen) Zusammenhang, wenn hohe Y -Werte zu großen X- Werten und kleine Y -Werte zu kleinen X-Werten gehören und von einem gegensinnigen (gegenläufigen) Zusammenhang, wenn hohe Y -Werte zu niedrigen X-Werten und umgekehrt gehören. Idee: Zur Messung des Zusammenhangs betrachtet man alle Paare von Einheiten und zählt, wie oft sich ein gleichsinniger und wie oft sich ein gegensinniger Zusammenhang zeigt. Der Zusammenhang ist umso stärker, je deutlicher eine der beiden Zusammenhangs- Tendenzen überwiegt.

381 Definition: Gegeben sei die Urliste eines bivariaten Merkmals (X, Y ), wobei X und Y jeweils ordinales Skalenniveau besitzen oder eine Variable binär ist. Ein Paar (i, j ), i j, von Einheiten mit den Ausprägungen (x i, y i ) und (x j, y j ) heißt a) konkordant (gleichläufig) (bezüglich X und Y ), falls entweder (x i > x j und y i > y j ) oder gilt. (x i < x j und y i < y j ) Bsp. 5.39.

382 b) diskordant (gegenläufig), falls entweder (x i > x j und y i < y j ) oder gilt. (x i < x j und y i > y j ) Bsp. 5.40.

383 c) ausschließlich in X gebunden, falls x i = x j und y i y j d) ausschließlich in Y gebunden, falls x i x j und y i = y j e) in X und Y gebunden, falls x i = x j und y i = y j

384 Ferner bezeichne C die Anzahl der konkordanten Paare, D die Anzahl der diskordanten Paare, T X die Anzahl der Paare mit Bindungen ausschließlich in X, T Y die Anzahl der Paare mit Bindungen ausschließlich in Y, T XY die Anzahl der Paare mit Bindungen in X und Y. (Die Bezeichnung T kommt von der englischen Berechnung für Bindungen Ties.) Vorsicht: In der Literatur wird manchmal T XY bei T X und T Y dazugezählt = scheinbar andere Formeln!

Zur Berechnung geht man die Kreuztabelle Zelle für Zelle durch und zählt jeweils die jetzt entsprechenden Paare ab. In jedem Paar von Einheiten mit den Ausprägungen (a i, b j ) lässt sich die Kreuztabelle zerlegen. Sei a 1 < a 2 <... a i <... a k und b 1 < b 2 <... b j <... b m, a i, b j fest, dann gilt: 385

Summiert man die Häufigkeiten jeweils auf, so hat man jedes Paar doppelt gezählt, so dass man durch 2 teilen muss. Es gibt intelligentere, aber dafür unübersichtlichere Arten zu zählen. (Wiederum Vorsicht: In der Literatur sind verschiedene Arten zu zählen gebräuchlich.) 386

387 Bsp. 5.41. Fahrzeugklasse und Aggression (fiktiv), wobei hier nein/ja sozusagen als ordinal aufgegefasst wird. Y X { 1, nein aggressives Fahrverhalten 2, ja 1, Kompaktklasse Fahrzeugklasse 2, Mittelklasse 3, Oberklasse

388 nein ja 1 2 Kompaktklasse 1 2 2 4 Mittelklasse 2 1 1 2 Oberklasse 3 1 5 6 4 8 12 Zelle (a i, b j ) h ij für C für D für T Y für T X T XY = h ij 1 (1,1) 2 0 2 1 (1,2) 2 0 2 1 (2,1) 1 5 2 3 1 0 (2,2) 1 2 1 1 0 (3,1) 1 0 3 3 5 0 (3,2) 5 0 1 4 Anmerkung zu T XY = h ij 1: Zu jeder der h ij Beobachtungen mit Ausprägung (a i, b j ) gibt es h ij 1 gleiche.

389 C = 1 (2 6 + 2 0 + 1 5 + 1 2 + 1 0 + 5 3) = 17 2 D = 1 2 T Y = 1 2 T X = 1 2 T XY = 1 2 (2 0 + 2 2 + 1 2 + 1 1 + 1 3 + 5 0) = 5 (2 2 + 2 6 + 1 3 + 1 7 + 1 3 + 5 3) = 22 (2 2 + 2 2 + 1 1 + 1 1 + 1 5 + 5 1) = 10 (2 1 + 2 1 + 1 0 + 1 0 + 1 0 + 5 4) = 12 Zur Kontrolle: Insgesamt muss es n(n 1) 2 verschiedene Paare geben.

390 5.6.2 Zusammenhangsmaße τ a, τ b und γ für ordinale Daten Zusammenhangsmaße für ordinale Daten betrachten nun die (geeignet normierte) Differenz von konkordanten und diskordanten Paaren; sie unterscheiden sich lediglich in der Behandlung von Bindungen und damit in der Normierung. Definition: Die Zusammenhangsmaße für ordinale Daten heißen Kendalls Tau a: τ a := C D n (n 1) 2 C D Kendalls Tau b: τ b := (C + D + TX ) (C + D + T Y ) Goodmans / Kruskals Gamma: γ := C D C + D

391 Bem. 5.42. Eigenschaften von τ a, τ b und γ Die Maßzahlen liegen jeweils zwischen 1 und 1. Der Zusammenhang ist umso stärker, je größer der Betrag ist. (0: kein Zusammenhang, -1,+1: maximaler Zusammenhang). Das Vorzeichen gibt Auskunft über die Richtung des Zusammenhangs: Allgemein gilt: τ a τ b γ. Liegen keine Bindungen vor, so sind alle Maßzahlen gleich. Bei Bindungen kann τ a die Extremwerte 1 und 1 nicht erreichen, selbiges gilt bei asymmetrischen Tabellen (k m) für τ b.

392 Die Maßzahlen basieren auf einem etwas unterschiedlichen Verständnis des Begriffs Zusammenhang. γ vernachlässigt im Nenner Bindungen völlig und ist daher ein Maß für die Stärke eines schwach monotonen Zusammenhangs, während τ a und τ b sich eher auf stark monotone Zusammenhänge beziehen. Wegen der Vernachlässigung von Bindungen reagiert γ sehr sensibel auf das Zusammenfassen von Kategorien. γ ist eine Verallgemeinerung von Yules Q. (vgl. Kapitel 5.4.3)

393 Bsp. 5.43. Fahrzeugklasse und Aggression Mit den Ergebnissen C = 17, D = 5, T Y = 22, T X = 10, n = 12 ergibt sich τ a = τ b = γ = Bsp. 5.44. Daten des Schweizer Arbeitsmarktsurvey τ b = 0.332, γ = 0.533 Ähnliche Interpretation: Einkommen steigt tendenziell mit der Bildung, Bildung wirkt sich jedenfalls im Durchschnitt nicht nachteilig aus.