6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale

Ähnliche Dokumente
5.4.2 Kovarianz und Korrelation

6Korrelationsanalyse:Zusammenhangsanalysestetiger Merkmale

Zusammenhänge zwischen metrischen Merkmalen

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Zusammenhänge zwischen metrischen Merkmalen

Eigene MC-Fragen (Teil II) "Kap. 9 Zusammenhangsmaße

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06.

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Skalenniveaus =,!=, >, <, +, -

Statistische Methoden in den Umweltwissenschaften

Eine zweidimensionale Stichprobe

Einführung in die Korrelationsrechnung

Bivariate Verteilungen [bivariate data]

Karl Entacher. FH-Salzburg

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Parametrische vs. Non-Parametrische Testverfahren

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Charakterisierung der Daten: Sind es genug? Sind alle notwendig? Was ist naturgegeben, was von Menschen beeinflusst (beeinflussbar)?

Modul G.1 WS 07/08: Statistik

Lösungen zur Klausur zur Statistik Übung am

2. Zusammenhangsmaße

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

1. Datei Informationen

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

1.5 Berechnung von Rangzahlen

Streuungsmaße von Stichproben

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität

Der Korrelationskoezient nach Pearson

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

3.1 Zusammenhang zwischen einem qualitativen und einem quantitativen Merkmal

Zusammenhangsmaße II

Beschreibende Statistik Zweidimensionale (bivariate) Daten

1.5 Erwartungswert und Varianz

Deskriptive Statistik

WISTA WIRTSCHAFTSSTATISTIK

Beeinflusst das Geschlecht das Erwerbseinkommen?

Musterlösung zur Aufgabensammlung Statistik I Teil 3

Forschungsstatistik I

5 Erwartungswerte, Varianzen und Kovarianzen

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Korrelation - Regression. Berghold, IMI

5 Beschreibung und Analyse empirischer Zusammenhänge

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Regression und Korrelation

5 Assoziationsmessung in Kontingenztafeln

Herzlich Willkommen zur Vorlesung Statistik

Univariates Datenmaterial

Assoziation & Korrelation

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Kontingenzkoeffizient (nach Pearson)

Vorläufige Musterlösungen (Stand: 21. März 2013) zur Klausur zu. Modul 2 im BSc-Studiengang Psychologie. apl. Prof. Dr. H.-J.

Kendall s Tau. Betrachte Paare von Beobachtungen (x i, y i ) und (x j, y j ) Ein Paar heißt:

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2013

Statistik. Jan Müller

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

3 Bivariate Deskription und Exploration von Daten

1.5 Erwartungswert und Varianz

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

2 Regressionsgerade und Korrelation

3 Lage- und Streuungsmaße

Die Korrelation von Merkmalen

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Teil I: Deskriptive Statistik

Datenanalyse mit Excel. Wintersemester 2013/14

Einführung in die Statistik für Politikwissenschaftler Wintersemester 2011/2012

5. Lektion: Einfache Signifikanztests

Kapitel 5 Wichtige Maßzahlen für den Zusammenhang zwischen Merkmalen

Leseprobe. Michael Sachs. Wahrscheinlichkeitsrechnung und Statistik. für Ingenieurstudenten an Fachhochschulen. ISBN (Buch):

Wichtige statistische Koeffizienten und Formeln

Kapitel 8. Parameter multivariater Verteilungen. 8.1 Erwartungswerte

Sind die nachfolgenden Aussagen richtig oder falsch? (0,5 Punkte pro korrekter Beantwortung)

Eigene MC-Fragen SPSS

Methodik für Linguisten

6. Multivariate Verfahren Übersicht

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

Lösungen zur deskriptiven Statistik

Mathematik für Naturwissenschaften, Teil 2

Einführung in die Statistik

Assoziation & Korrelation

Statistik Klausur Wintersemester 2012/2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Häufigkeiten. Verteilungen. Lageparameter Mittelwert. oder

Prüfung aus Statistik 1 für SoziologInnen- Gruppe A

Name Vorname Matrikelnummer Unterschrift

Wichtige Definitionen und Aussagen

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Kapitel 2. Häufigkeitsverteilungen

Grundlagen der empirischen Sozialforschung

Bivariate Regressionsanalyse

Assoziation & Korrelation

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einführung in die sozialwissenschaftliche Statistik

Transkript:

6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale

Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig und mindestens ordinalskaliert, typischerweise sogar intervallskaliert, sind. Am Rande wird auch der Fall gestreift, dass nur ein Merkmal quasi-stetig und das andere nominalskaliert ist. 6.1.1 Streudiagramm, Kovarianz- und Korrelationskoeffizienten Beispiele: Nettomiete Wohnfläche Autoritarismusscore vor/nach einer Informationsveranstaltung Monatseinkommen Alter in Jahren Wochenarbeitseinkommen Wochenarbeitsstunden Wochenarbeitsstunden Hausarbeit in Stunden pro Woche 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 264

Wochenarbeitsstunden (tatsächlich) Wochenarbeit (vertraglich) 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 265

6.1.2 Streudiagramme (Scatterplots) Sind die Merkmale stetig oder zumindestens quasi-stetig (sehr viele verschiedene Ausprägungen), werden Kontingenztabellen sehr unübersichtlich und praktisch aussagelos, da die einzelnen Häufigkeiten in den Zellen der Tabellen natürlicherweise durchwegs sehr klein sind. Alternative Darstellungsform: Scatterplot / Streudiagramm: Zeichne die Punkte (x i,y i ),,...,n,ineinx-y -Koordinatensystem. = Guter optischer Eindruck über das Vorliegen, die Richtung und gegebenenfalls die Art eines Zusammenhangs. = Ausreißer werden leicht erkannt. Quelle für Beispiele: Jann (2002), p. 85 ff. 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 266

6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 267

6.1.3 Kovarianz und Korrelation Wie misst man den Zusammenhang zwischen metrischen Merkmalen? Eine Idee ist, die sogenannte Kovarianz (s.u.) zu konstruieren besteht darin, nach Konkordanz/Diskordanz zum Schwerpunkt zu fragen und dabei auch die nun interpretierbaren Abstände zur Messung der individuellen Konkordanzstärke heranzuziehen. Negative Werte sprechen für Diskordanz. Betrachte den Mittelpunkt der Daten ( x, ȳ) und dazu konkordante/diskordante Paare. Eine Beobachtung i mit Ausprägung (x i,y i ) ist konkordant zu ( x, ȳ), spricht also für einen gleichgerichteten Zusammenhang, wenn (x i > x und y i > ȳ) oder (x i < x und y i < ȳ) 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 268

also zusammengefasst wenn (x i x) (y i ȳ) > 0. diskordant zu ( x, ȳ), sprichtalsofür einen gegengerichteten Zusammenhang, wenn Zusammenhang wenn x i < x und y i > ȳ oder also zusammengefasst wenn x i > x und y i < ȳ (x i x) (y i ȳ) < 0. 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 269

Wegen des metrischen Skalenniveaus sind auch die Abstände interpretierbar, das Produkt (x i x) (y i ȳ) gibt also sozusagen die Stärke der Konkordanz bzw. Diskordanz an. (x i x)(y i ȳ) ist positiv, wenn große (kleine) X-Werte mit großen (kleinen) Y -Werten einhergehen (gleichgerichteter Zusammenhang). (x i x)(y i ȳ) ist negativ, wenn große (kleine) X-Werte mit kleinen (großen) Y -Werten einhergehen (gegengerichteter Zusammenhang). = Definiere als Zusammenhangsmaß die durchschnittliche individuelle Konkordanzstärke. 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 270

Definition: Gegeben sei ein bivariates Merkmal (X, Y ) mit metrisch skalierten Variablen X und Y mit s 2 X > 0 und s2 Y > 0. Dannheißen Cov(X, Y ):= 1 n (empirische) Kovarianz von X und Y, n (x i x) (y i ȳ) ϱ(x, Y ):= n (x i x) (y i ȳ) n (x i x) 2 n (y i ȳ) 2 (empirischer) Korrelationskoeffizient nach Bravais und Pearson von X und Y,und Bestimmtheitsmaß von X und Y. R 2 XY := (ϱ(x, Y )) 2 (6.14) 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 271

Bemerkungen: Die Kovarianz Cov(X, Y ) ist nicht maßstabsunabhängig. Das Teilen durch die Standardabweichungen normiert die Kovarianz und macht sie maßstabsunabhängig. 1 n n (x i x) s 2 X (y i ȳ) s 2 Y = ϱ(x, Y ) Also ist - im Sinne obiger Interpretation - der Korrelationskoeffizient die durchschnittliche standardisierte Konkordanzstärke. 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 272

Die empirische Kovarianz ist eine Verallgemeinerung der empirischen Varianz. Die Kovarianz eines Merkmals mit sich selbst ist genau die empirische Varianz: Cov(X, X) = 1 n n (x i x)(x i x) n = 1 n (x i x) 2 = s 2 x Man sieht hier auch, dass die Größe der Kovarianz für sich genommen unanschaulich zu interpretieren ist. Für den Korrelationskoeffizienten hingegen gilt: und insbesondere ρ(x, X) =1. 1 ϱ(x, Y ) 1. Viele der (un)angenehmen Eigenschaften der Varianz (z.b. Ausreißerempfindlichkeit) gelten in analoger Weise. 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 273

Es gilt auch ein Verschiebungssatz: Cov(X, Y )= 1 n n x i y i xȳ und damit Zur Erinnerung: ϱ(x, Y )= n x i y i n x ȳ. n x 2 i n x2 n yi 2 n ȳ2 s X = 1 n n x 2 i x 2. 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 274

Beispiel: Zunächst inhaltsleere Zahlenbeispiele, zur Interpretation später. Gegeben seien die Datenpaare x i 37 30 20 28 35 y i 130 112 108 114 136 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 275

Es gilt: x =30und ȳ =120,sowie n x 2 i = 4678 n yi 2 = 726000 n x i y i = 18282 n = 5 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 276

Tabelle: x i y i x i y i x 2 i y 2 i 37 130 4810 1369 16900 30 112 3360 900 12544 20 108 2160 400 11664 28 114 3192 784 12996 35 136 4760 1225 18496 150 600 18282 4678 72600 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 277

Basierend auf diesen Hilfsgrößen berechnet sich die Korrelationskoeffizient gemäß Verschiebungssatz als ϱ(x, Y )= n x iy i n x ȳ n x2 i n x2 n y2 i n ȳ2 =0.863 Gegeben sei ein Merkmal X und das Merkmal Y =(X 20) 2 mit den Datenpaaren. x i 10 20 30 y i 100 0 100 x i y i 1000 0 3000 Es gilt: x =20und ȳ = 200 3 und damit 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 278

Cov(X, Y ) = 1 n xi y i xȳ = 1 200 (1000 + 0 + 3000) 20 3 3 = 4000 3 4000 3 =0 Für den Korrelationskoeffizienten ergibt sich damit ebenfalls ϱ(x, Y )=0! Bemerkungen: Es gilt ϱ =1genau dann wenn Y = ax + b mit a 0,d.h.X und Y stehen in einem perfekten linearen Zusammenhang. Ist ϱ =0(und äquivalent dazu Cov(X, Y )=0), so nennt man X und Y unkorreliert. Es besteht dann keinerlei linearer Zusammenhang. Die Betonung der Linearität des Zusammenhangs ist wesentlich. 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 279

Allgemein zeigt ϱ und R 2 die Stärke eines linearen Zusammenhangs an, also wie 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 280

gut sich die Datenpaare (x 1,y 1 ),...,(x n,y n ) durch eine Gerade beschreiben lassen. Insgesamt kann der Wert des Korrelationskoeffizienten folgendermaßen interpretiert werden: ϱ XY 0: kein(linearer)zusammenhang. ϱ XY > 0: positivekorrelation,gleichgerichteter(linearer)zusammenhang. ϱ XY < 0: negativekorrelation,gegengerichteter(linearer)zusammenhang. ϱ XY 0.5: schwachekorrelation. 0.5 < ϱ XY 0.8: mittlerekorrelation. ϱ XY > 0.8: starkekorrelation. R 2 ist ein PRE-Maß, das misst, welchen Anteil der gesamten Variation sich durch einen linearen Zusammenhang beschreiben lässt. (Näheres dazu im Abschnitt über die Regression.) 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 281

Die Zusammenhangsmaße sind invariant gegenüber Vertauschen von Y und X; sie messen also insbesondere keine gerichteten Zusammenhänge: ϱ(x, Y )=ϱ(y,x) R XY = R YX. Im Gegensatz zur Kovarianz sind ϱ(x, Y ) und RXY 2 invariant gegenüber streng monoton steigenden linearen Transformationen. Genauer gilt mit X := a X + b und Ỹ := c Y + d ϱ( X,Ỹ )=ϱ(x, Y ) falls a c>0 und ϱ( X,Ỹ )= ϱ(x, Y ) falls a c<0. DieKorrelationistalsoinderTatmaßstabsunabhängig. 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 282

Beispiel: Mietspiegel (SPSS-Ausdruck) Zur Interpretation der einzelnen Zellen: In der ersten Zeile stehen jeweils die Korrelationskoeffizienten, N ist der Stichprobenumfang, bei uns mit n bezeichnet wird. Die zweite Zeile Signifikanz wird erst in Statistik II verständlich. Grob gesprochen gibt sie für zufällige Stichproben eine Wahrscheinlichkeit an, dass die Aussage, es bestehe in der Grundgesamtheit ein Zusammenhang zwischen den einzelnen Variablen, falsch ist. Je kleiner diese Wahrscheinlichkeit ist, desto sicherer ist man sich, dass der errechnete Korrelationskoeffizient nicht nur zufällig von 0 abweicht. 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 283

Beispiele aus Jann (2002) S.87ff Arbeitsstunden und Erwerbseinkommen: 0.495 moderater positiver Zusammenhang. Arbeitsstunden und Haushalt: -0.434 moderater negativer Zusammenhang. Vertragliche und geleistete Wochenarbeitsstunden: 0.868 hoch positiv korreliert (Punkte liegen sehr nahe an bester Gerade ). 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 284

6.1.4 Weitere Korrelationskoeffizienten Anwendung des Korrelationskoeffizienten nach Bravais-Pearson auf dichotome nominale Merkmale Liegen dichotome nominale Merkmale, d.h. Merkmale mit nur zwei ungeordneten Ausprägungen vor (z.b. ja/nein), und kodiert man die Ausprägung mit 0 und 1, so kann man die Formel des Korrelationskoeffizienten nach Bravais-Pearson sinnvoll anwenden. Man erhält den sogenannten Punkt-Korrelationskoeffizienten, deridentischzuφ aus ( Kapitel 5.3) ist. Im Fall einer dichotomen und einer metrischen Variablen ergibt sich bei Anwendung des Korrelationskoeffizienten nach Bravais-Pearson die sogenannte Punkt-biseriale Korrelation. (vgl.etwajann(2002,s.90f)oderwagschal(1999,kap10.8).) 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 285

Rangkorrelationskoeffizient nach Spearman Wir betrachten ein bivariates Merkmal (X, Y ), wobeix und Y nur ordinalskaliert sind, aber viele unterschiedlichen Ausprägungen besitzen. Der Korrelationskoeffizient von Bravais-Pearson darf nicht verwendet werden, da hier die Abstände nicht interpretierbar sind. ( x, ȳ) wären willkürliche Zahlen, ebenso (x i x), (y i ȳ). Liegen keine Bindungen vor, dann rechnet man statt mit (x i,y i ),...,n (rg(x i ), rg(y i )) i =1,...,n.Dabeiist mit rg(x i )=j : x i = x (j), d.h. der Rang rg(x i ) ist die Nummer, die x i in der geordneten Urliste x (1) x (2)... x (n) einnimmt (analog für rg(y i )). Beispiel: 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 286

x i 1 7 2 5.3 16 rg(x i ) Liegen sogenannte Bindungen vor, d.h. haben mehrere Einheiten dieselbe Ausprägung der Variablen X oder der Variablen Y,sonimmtmandenDurchschnittswertderin Frage kommenden Ränge (Achtung: etwas anderer Begriff der Bindung als in Kapitel 5.6.2). Beispiel: x i 1 7 7 3 10 Wende nun den Korrelationskoeffizienten nach Bravais-Pearson auf die Rangdaten an. Nach Umformung ergibt sich folgende Formel: 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 287

Definition: ϱ S,XY := n ( ) 2 n +1 rg(x i ) rg(y i ) n 2 n ( ) 2 n +1 n ( n +1 (rg(x i )) 2 n (rg(y i )) 2 2 n 2 ) 2 heißt (empirischer) Rangkorrelationskoeffizient nach Spearman. Bemerkungen: Liegen keine Bindungen vor, so gilt ϱ S,XY =1 n 6 d 2 i n(n 2 1). wobei d i := rg(x i ) rg(y i ). 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 288

Wichtig für Interpretation: Da ϱ S,XY sich aus der Anwendung von ϱ XY auf Rangdaten ergibt, behalten die entsprechenden Bemerkungen zum Bravais-Pearson-Korrelationskoeffizienten auf die Ränge bezogen ihre Gültigkeit. Insbesondere gilt 1 ϱ S,XY 1, undϱ S,XY ist analog zu interpretieren. Im Gegensatz zum Korrelationskoeffizienten von Bravais-Pearson misst der Rangkorrelationskoeffizient nicht nur lineare, sondern allgemeiner monotonezusammenhänge. Die Anwendung der Rangtransformation bewirkt in gewisser Weise eine Linearisierung monotoner Zusammenhänge. Die Bildung von Rängen ist unempfindlich gegenüber Ausreißern, so dass auch der Rangkorrelationskoeffizient ausreißerresistent ist. 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 289

Beispiel: (fiktiv, Zahlen aus Jann, 2002/2005) Zwei Gutachter sollen das autoritäre Verhalten von 5 Gruppenmitgliedern vergleichen, indem sie Scores auf einer Skala zwischen 0 und 100 vergeben. (Dies ist ein typischer Fall einer Ordinalskala; die Abstände sind nicht direkt interpretierbar, sondern nur die Reihenfolge!) Man berechne den Rangkorrelationskoeffizienten nach Spearman für die Merkmale X und Y mit X Einstufung durch Gutachter 1 Y Einstufung durch Gutachter 2 Person i 1 2 3 4 5 X: Gutachter1 10 15 20 20 30 Y :Gutachter2 20 10 30 40 60 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 290

Bemerkung: Analog zur punkt-biserialen Korrelation gibt es auch eine biseriale Rangkorrelation zur Beschreibung des Zusammenhangs zwischen einer dichotomen nominalen und einer quasi-stetigen ordinalen Variable (vgl. Wagschal, 1999, Kap 10.7). 6Korrelationsanalyse:ZusammengangsanalysestetigerMerkmale 291