WISTA WIRTSCHAFTSSTATISTIK

Ähnliche Dokumente
WISTA WIRTSCHAFTSSTATISTIK

WISTA WIRTSCHAFTSSTATISTIK

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

WISTA WIRTSCHAFTSSTATISTIK

Lösungen zur deskriptiven Statistik

Statistische Methoden in den Umweltwissenschaften

Lösungen zur Klausur zur Statistik Übung am

Grundlagen der Statistik

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

Skalenniveaus =,!=, >, <, +, -

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

TEIL 12: BIVARIATE ANALYSE FÜR METRISCH SKALIERTE VARIABLEN

Eine zweidimensionale Stichprobe

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Zusammenhänge zwischen metrischen Merkmalen

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale

Eigene MC-Fragen (Teil II) "Kap. 9 Zusammenhangsmaße

Brückenkurs Statistik für Wirtschaftswissenschaften

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

TEIL 12: BIVARIATE ANALYSE FÜR METRISCH SKALIERTE VARIABLEN

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Statistik I für Betriebswirte Vorlesung 10

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

W-Rechnung und Statistik für Ingenieure Übung 5

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Sommersemester Marktforschung

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Leseprobe. Michael Sachs. Wahrscheinlichkeitsrechnung und Statistik. für Ingenieurstudenten an Fachhochschulen. ISBN (Buch):

Grundlagen der Statistik I

Statistik II: Signifikanztests /2

5.5 PRE-Maße (Fehlerreduktionsmaße) 6

Karl Entacher. FH-Salzburg

Deskriptive Statistik Erläuterungen

Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt.

5 Assoziationsmessung in Kontingenztafeln

Musterlösung zur Aufgabensammlung Statistik I Teil 3

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Parametrische vs. Non-Parametrische Testverfahren

Vl Zweidimensionale Verteilungen Zusammenhangsmaße 3.1. Zwei dimensionale Häufigkeitstabellen. Absolute Häufigkeitstabelle

Grundlagen der Statistik

6 Korrelationsanalyse: Zusammenhangsanalyse stetiger. Merkmale

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06.

Statistik. Ronald Balestra CH St. Peter

Wahrscheinlichkeitsrechnung und Statistik

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Statistik für Naturwissenschaftler

Deskriptive Beschreibung linearer Zusammenhänge

Der Korrelationskoezient nach Pearson

Beschreibende Statistik Zweidimensionale (bivariate) Daten

Kapitel 5 Wichtige Maßzahlen für den Zusammenhang zwischen Merkmalen

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Zusammenhänge zwischen metrischen Merkmalen

3. Lektion: Deskriptive Statistik

Mathematik 2 für Naturwissenschaften

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale

Angewandte Statistik 3. Semester

Einführung in die Statistik

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Statistik eindimensionaler Größen

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Übungsblatt 4. Berechnen Sie für die statistischen Reihen die Varianzen, Kovarianzen und Korrelationskoeffizienten

Teil / Ein paar statistische Grundlagen 25. Kapitel 1 Was Statistik ist und Warum sie benötigt Wird 2 7

Die folgende Tabelle 1 wurde im Rahmen einer Umfrage unter den Studenten eines Statistikseminars erstellt.

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Modul 11: Zur gemeinsamen Analyse mehrerer Merkmale. Prof. Dr. W. Laufner Beschreibende Statistik

Lösungsvorschläge zur Klausur Beschreibende Statistik und Wirtschaftsstatistik (Sommersemester 2013)

ELEMENTARE EINFÜHRUNG IN DIE MATHEMATISCHE STATISTIK

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Serie 1 Serie 2 Serie 3 Serie 4 Serie 5 Serie 6. Statistik-Tutorium. Lösungsskizzen Übung SS2005. Thilo Klein. Grundstudium Sommersemester 2008

Beschreibende Statistik

Statistik K urs SS 2004

Aufgabe 1. Studiensemester Anzahl Studierende 1. Semester Semester Semester Semester Semester 5 6.

Günther Bourier. Beschreibende Statistik. Praxisorientierte Einführung - Mit. Aufgaben und Lösungen. 12., überarbeitete und aktualisierte Auflage

Die Beziehung zwischen ordinal skalierten Variablen

Deskriptive Statistik

5 Beschreibung und Analyse empirischer Zusammenhänge

Statistik Klausur Wintersemester 2013/2014 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Einführung in die Statistik

Tabellarische und graphie Darstellung von univariaten Daten

Deskriptive Statistik

Weitere Lagemaße: Quantile/Perzentile I

Deskriptive Statistik Auswertung durch Informationsreduktion

Transkript:

WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 04.06.2013 Zweidimensionale Datensätze 1. Kontingenztabelle und Streudiagramm 2. Korrelationsanalyse: Korrelationskoeffizienten von Fechner, Bravais-Pearson und Spearman 3. Regressionsanalyse: lineare Regression, Methode der kleinsten Quadrate Literatur: Degen, Horst / Lorscheid, Peter: Statistik-Lehrbuch, 2. Aufl., München-Wien 2002, S. 62 86. Mosler, Karl und Schmid, Friedrich: Beschreibende Statistik und Wirtschaftsstatistik, 4. Aufl., Berlin-Heidelberg-New York 2009, S. 153 201. von der Lippe, Peter: Deskriptive Statistik, Stuttgart 1993, Online-Ausgabe, S. 192 257, S. 259 301. Wewel, Max C.: Statistik im Bachelor-Studium der BWL und VWL, 2. erw. Aufl., München 2011, S. 77 123. Übungsaufgaben: WS 07/08 A3; WS 08/09 A1; SS 09 A4; WS 09/10 A3; SS 10 A2; SS 11 A1+ A3.

Zweidimensionale Datensätze Einführung Mehrdimensionale Datensätze: Bei n Merkmalsträgern und m nicht häufbaren Merkmalen liegt für jeden Merkmalsträger ein m Tupel an Beobachtungswerten vor. Die Urliste besteht mithin aus n solcher m Tupel und somit aus n m Einzeldaten. Beispiel Absolventenumfrage 2002: n = 39 Personen haben jeweils m = 22 Fragen beantwortet. Also liegen 39 22 = 858 Einzeldaten vor. Hier: Beschränkung auf m = 2 Merkmale Zweidimensionaler Datensatz: n Merkmalsträger 2 Merkmale X und Y Für jeden Merkmalsträger i liegt ein Wertepaar x i, y i vor. x i = Beobachtungswert für Merkmal X beim Merkmalsträger i. y i = Beobachtungswert für Merkmal Y beim Merkmalsträger i. Die Urliste besteht dann aus n Wertepaaren x 1, y 1, x 2, y 2,, x n, y n Darstellungsmöglichkeiten der Urliste: Kontingenztabelle Streudiagramm 2

Zweidimensionale Datensätze Kontingenztabelle Kontingenztabelle Die Kontingenztabelle ist eine zweidimensionale Häufigkeitstabelle, in der für jede mögliche Kombination von Ausprägungen der beiden Merkmale die absolute (oder relative) Häufigkeit notiert wird. Bei k möglichen Ausprägungen des Merkmals X und l möglichen Ausprägungen des Merkmals Y entsteht so eine k l-matrix mit k l absoluten Häufigkeiten der möglichen Wertepaare. Notation: Merkmal X hat k mögliche Ausprägungen a 1,, a k Merkmal Y hat l mögliche Ausprägungen b 1,, b l h ij = absolute Häufigkeit, mit der die Ausprägung a i, b j als Wertepaar in der Urliste auftritt. Randhäufigkeit Merkmal X: h i = Randhäufigkeit Merkmal Y: h j = l j=1 Zahl der Merkmalsträger: n = k i=1 h ij mit i = 1,, k h ij mit j = 1,, l k l i=1 j=1 h ij 3

Merkmal X Zweidimensionale Datensätze Kontingenztabelle Dann entsteht folgende Kontingenztabelle: Merkmal Y b 1 b 2 b j b l j a 1 h 11 h 12 h 1j h 1l h 1 a 2 h 21 h 22 h 2j h 2l h 2 a i h i1 h i2 h ij h il h i a k h k1 h k2 h kj h kl h k i h 1 h 2 h j h l n 4

Merkmal X Zweidimensionale Datensätze Kontingenztabelle Kontingenztabelle mit relativen Häufigkeiten f ij = h ij n: Merkmal Y b 1 b 2 b j b l j a 1 f 11 f 12 f 1j f 1l f 1 a 2 f 21 f 22 f 2j f 2l f 2 a i f i1 f i2 f ij f il f i a k f k1 f k2 f kj f kl f k i f 1 f 2 f j f l 1 5

Stellung im Beruf Zweidimensionale Datensätze Kontingenztabelle Zahlenbeispiel Erwerbstätige in NRW 2005 nach Wirtschaftsbereichen und Stellung im Beruf Angaben in 1 000 Personen Wirtschaftsbereich Land- und Forstwirtschaft, Fischerei Produzierendes Gewerbe Handel, Gastgewerbe und Verkehr sonstige Dienstleistungen S Selbständige 1) 55 170 229 403 857 Merkmale: Beamte / / 37 449 486 Angestellte 2) 23 969 998 2 124 4 114 Arbeiter 2) 42 1 134 504 498 2 178 S 120 2 273 1 768 3 474 7 635 1) Einschließlich mithelfende Familienangehörige, 2) Einschließlich Auszubildende, / = Keine Angabe, da Zahlenwert nicht sicher genug X = Stellung im Beruf Y = Wirtschaftsbereich Quelle: Landesamt für Statistik NRW, Internetseite Merkmalsausprägungen X: a 1 = Selbständige a 2 = Beamte a 3 = Angestellte a 4 = Arbeiter und Arbeiterinnen Merkmalsausprägungen Y: b 1 = Land- und Forstwirtschaft, Fischerei b 2 = Produzierendes Gewerbe b 3 = Handel, Gastgewerbe und Verkehr b 4 = sonstige Dienstleistungen 6

Stellung im Beruf Zweidimensionale Datensätze Kontingenztabelle Zahlenbeispiel Erwerbstätige in NRW 2005 nach Wirtschaftsbereichen und Stellung im Beruf Angaben in Prozent Wirtschaftsbereich Land- und Forstwirtschaft, Fischerei Produzierendes Gewerbe Handel, Gastgewerbe und Verkehr sonstige Dienstleistungen S Selbständige 1) 0,72 2,23 3,00 5,28 11,22 Merkmale: Beamte / / 0,48 5,88 6,37 Angestellte 2) 0,30 12,69 13,07 27,82 53,88 Arbeiter 2) 0,55 14,85 6,60 6,52 28,53 S 1,57 29,77 23,16 45,50 100,00 1) Einschließlich mithelfende Familienangehörige, 2) Einschließlich Auszubildende, / = Keine Angabe, da Zahlenwert nicht sicher genug X = Stellung im Beruf Y = Wirtschaftsbereich Quelle: Landesamt für Statistik NRW, Internetseite Merkmalsausprägungen X: a 1 = Selbständige a 2 = Beamte a 3 = Angestellte a 4 = Arbeiter und Arbeiterinnen Merkmalsausprägungen Y: b 1 = Land- und Forstwirtschaft, Fischerei b 2 = Produzierendes Gewerbe b 3 = Handel, Gastgewerbe und Verkehr b 4 = sonstige Dienstleistungen 7

Zweidimensionale Datensätze Kontingenztabelle Bedingte relative Häufigkeit Kontingenztabellen sind zur Darstellung zweidimensionaler Datensätze gut geeignet, wenn die Anzahl k der Merkmalsausprägungen von X klein ist, die Anzahl l der Merkmalsausprägungen von Y klein ist und viele der n Wertepaare x i, y i identisch sind. Diese Voraussetzungen sind in der Regel bei nominal skalierten Merkmalen erfüllt. Bedingte relative Häufigkeit f a i b j = h ij h j i = 1,, k f b j a i = h ij h i j = 1,, l Relative Häufigkeit, mit der die Ausprägung a i des Merkmals X bei denjenigen Merkmalsträgern auftritt, die bezüglich des zweiten Merkmals Y die Ausprägung b j besitzen. Relative Häufigkeit, mit der die Ausprägung b j des Merkmals Y bei denjenigen Merkmalsträgern auftritt, die bezüglich des ersten Merkmals X die Ausprägung a i besitzen. An den bedingten Häufigkeiten kann man erkennen, ob die beiden betrachteten Merkmale voneinander unabhängig sind oder nicht. 8

Stellung im Beruf Zweidimensionale Datensätze Kontingenztabelle Bedingte relative Häufigkeit Deskriptive Unabhängigkeit liegt vor, wenn die bedingten relativen Häufigkeiten mit den zugehörigen relativen Randhäufigkeiten übereinstimmen, also wenn gilt: f a i b j = h i n, i = 1,, k und f b j a i = h j n, j = 1,, l Berechnung der bedingten relativen Häufigkeiten für das Zahlenbeispiel mit dem Wirtschaftsbereich, also dem Merkmal Y als Bedingung: f a i b j = h ij h j Wirtschaftsbereiche Land- und Forstwirtschaft, Fischerei Produzierendes Gewerbe Handel, Gastgewerbe und Verkehr sonstige Dienstleistungen S Selbständige 1) 55 120 170 2273 229 1768 403 3474 857 7635 Beamte 0 120 0 2273 37 1768 449 3474 486 7635 Angestellte 2) 23 120 969 2273 998 1768 2124 3474 4114 7635 Arbeiter 2) 42 120 1134 2273 504 1768 498 3474 2178 7635 S 120 120 2273 2273 1768 1768 3474 3474 7635 7635 9

Stellung im Beruf Zweidimensionale Datensätze Kontingenztabelle Bedingte relative Häufigkeit Land- und Forstwirtschaft, Fischerei Wirtschaftsbereiche Produzierendes Gewerbe Handel, Gastgewerbe und Verkehr sonstige Dienstleistungen Relative Randhäufigkeit Selbständige 1) 0,46 0,07 0,13 0,12 0,11 Beamte 0,00 0,00 0,02 0,13 0,06 Angestellte 2) 0,19 0,43 0,56 0,61 0,54 Arbeiter 2) 0,35 0,50 0,29 0,14 0,29 S 1 1 1 1 1 Ergebnis: Die Stellung im Beruf (Merkmal X) ist nicht unabhängig vom Wirtschaftsbereich (Merkmal Y) 10

Stellung im Beruf Zweidimensionale Datensätze Kontingenztabelle Bedingte relative Häufigkeit Berechnung der bedingten relativen Häufigkeiten für das Zahlenbeispiel mit der Stellung im Beruf, also dem Merkmal X als Bedingung: f b j a i = h ij h i Wirtschaftsbereiche Land- und Forstwirtschaft, Fischerei Produzierendes Gewerbe Handel, Gastgewerbe und Verkehr sonstige Dienstleistungen S Selbständige 1) 55 857 170 857 229 857 403 857 857 857 Beamte 0 486 0 486 37 486 449 486 486 486 Angestellte 2) 23 4114 969 4114 998 4114 2124 4114 4114 4114 Arbeiter 2) 42 2178 1134 2178 504 2178 498 2178 2178 2178 S 120 7635 2273 7635 1768 7635 3474 7635 7635 7635 11

Stellung im Beruf Zweidimensionale Datensätze Kontingenztabelle Bedingte relative Häufigkeit Wirtschaftsbereiche Land- und Forstwirtschaft, Fischerei Produzierendes Gewerbe Handel, Gastgewerbe und Verkehr sonstige Dienstleistungen S Selbständige 1) 0,06 0,20 0,27 0,47 1 Beamte 0,00 0,00 0,08 0,92 1 Angestellte 2) 0,01 0,24 0,24 0,52 1 Arbeiter 2) 0,02 0,52 0,23 0,23 1 Relative Randhäufigkeit 0,02 0,30 0,23 0,46 1 Ergebnis: In welchem Wirtschaftsbereich (Merkmal Y) jemand arbeitet, ist nicht unabhängig von seiner Stellung im Beruf (Merkmal X). Beispielaufgabe 12

Stellung im Beruf Zweidimensionale Datensätze Kontingenztabelle Prüfung auf deskriptive Unabhängigkeit Erwerbstätige in NRW 2005 nach Wirtschaftsbereichen und Stellung im Beruf Angaben in Prozent Wirtschaftsbereich Land- und Forstwirtschaft, Fischerei Produzierendes Gewerbe Handel, Gastgewerbe und Verkehr sonstige Dienstleistungen S Selbständige 1) 0,72 2,23 3,00 5,28 11,22 Beamte / / 0,48 5,88 6,37 Angestellte 2) 0,30 12,69 13,07 27,82 53,88 Arbeiter 2) 0,55 14,85 6,60 6,52 28,53 S 1,57 29,77 23,16 45,50 100,00 Prüfung auf deskriptive Unabhängigkeit: Man kann zeigen, dass zwei Merkmale voneinander deskriptiv unabhängig sind, wenn sich die relativen Häufigkeiten in der Kontingenztabelle als Produkt aus den relativen Randhäufigkeiten ergeben: Beispiel: f ij = f i f j deskriptive Unabhängigkeit 0,5388 0,2977 = 0,1604 0,1269 Die Stellung im Beruf ist also nicht unabhängig vom Wirtschaftsbereich. 13

Zweidimensionale Datensätze Streudiagramm Streudiagramm In einem Streudiagramm werden die Wertepaare x i, y i Koordinatensystem dargestellt. als Punkte in einem x-y- Voraussetzung: Beide Merkmale sind kardinalskaliert. Streudiagramme sind zur Darstellung zweidimensionaler Häufigkeitsverteilungen besonders gut geeignet, wenn die n Wertepaare (fast) alle voneinander verschieden sind, wenn die Anzahl n der Wertepaare sehr groß ist, um sich einen ersten Eindruck über den (möglichen) Zusammenhang zwischen den Merkmalen zu verschaffen. 14

Lebensalter beim Examen (y) Zweidimensionale Datensätze Streudiagramm Zahlenbeispiel Zahlenbeispiel Absolventenumfrage, Merkmale: Fachsemester (X) und Lebensalter (Y) ID-Nr. i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 Fachsemeste r x i 11 11 13 9 9 13 13 9 12 12 10 12 11 13 11 11 16 18 9 8 10 13 11 16 10 11 9 17 9 10 13 7 14 11 9 29 16 14 11 Lebensalter y i 27 29 28 25 23 29 26 24 26 25 26 26 26 28 29 25 30 32 25 27 27 26 27 30 31 26 25 28 26 28 28 26 31 29 25 34 30 30 26 36 Streudiagramm 34 32 30 28 26 24 22 20 6 8 10 12 14 16 18 20 22 24 26 28 30 Zahl der Fachsemester beim Examen (x) 15

Zweidimensionale Datensätze Korrelation allgemeine Aussagen Korrelationsanalyse Untersucht werden Stärke und Richtung des Zusammenhangs zweier mindestens ordinal skalierter Merkmale X und Y. 1) Zu diesem Zweck werden Korrelationskoeffizienten r berechnet: Für ordinal skalierte Merkmale der Rangkorrelationskoeffizient von Spearman. Für metrische Merkmale der Korrelationskoeffizient von Fechner und der von Bravais- Pearson. Die Korrelationskoeffizienten sind so konstruiert, dass sie nur Werte im Bereich r 1; +1 annehmen können. Dabei wird die Richtung des Zusammenhangs durch das Vorzeichen und die Stärke des Zusammenhangs durch den Absolutbetrag angezeigt. 1 ) Zusammenhangmaße für nominal skalierte Merkmale können nur die Stärke, nicht die Richtung messen und werden in dieser Veranstaltung nicht behandelt. 16

Zweidimensionale Datensätze Korrelation allgemeine Aussagen Richtung des Zusammenhangs: r > 0 positive Korrelation : x und y überwiegend gleichläufig. Zu kleinen x-werten gehören meist auch kleine y-werte, zu großen x-werten große y-werte. Je größer x umso größer tendenziell auch y. r < 0 negative Korrelation : x und y überwiegend gegenläufig. Zu kleinen x-werten gehören meist große y-werte, zu großen x-werten kleine y- Werte. Je größer x umso kleiner tendenziell y. Stärke des Zusammenhangs (Faustregel): 0, 8 < r 1 0, 5 < r 0, 8 0, 3 < r 0, 5 0 < r 0, 3 0, 3 r < 0 0, 5 r < 0, 3 0, 8 r < 0, 5 1 r < 0, 8 starke positive Korrelation mittlere positive Korrelation schwache positive Korrelation fehlende positive Korrelation fehlende negative Korrelation schwache negative Korrelation mittlere negative Korrelation starke negative Korrelation 17

Zweidimensionale Datensätze Korrelation allgemeine Aussagen Man beachte: Problem der Kausalität: Die Korrelationsanalyse lässt keinen Rückschluss auf eine kausale Beziehung zwischen den Merkmalen zu. Am Korrelationskoeffizienten kann man nicht erkennen, ob X die Ursache für Y oder Y die Ursache für X ist. Problem der Scheinkorrelation: X und Y korrelieren nur deshalb miteinander, weil sie gemeinsam von einer dritten Variablen Z abhängig sind. Beispiele: Geburtenzahl Urbanisierungsgrad Anzahl Störche, Schuhgröße Geschlecht Bruttoeinkommen Problem der Nonsens-Korrelation: Der Korrelationskoeffizient signalisiert einen Zusammenhang, für den es keine inhaltliche Erklärung gibt. Problem der Zufallskorrelation: Die Grundgesamtheit bzw. Stichprobe ist zu klein, um eine sinnvolle Korrelationsanalyse durchführen zu können. 18

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Fechner Korrelationskoeffizient von Fechner Gegeben: n Wertepaare x i, y i, i = 1,, n als Beobachtungswerte. Dann ist der Korrelationskoeffizient von Fechner definiert als: r F = Ü N Ü + N wobei und Ü = Anzahl der in den Vorzeichen übereinstimmenden Paare x i x, y i y N = Anzahl der in den Vorzeichen nicht übereinstimmenden Paare x i x, y i y Fälle, in denen eine der Differenzen den Wert Null besitzt, werden als Übereinstimmung gezählt. Der Korrelationskoeffizient von Fechner setzt für beide Merkmale metrisches Skalenniveau voraus. Es gehen nur die Vorzeichen der Abweichungen und nicht die Abweichungen selbst in die Berechnung ein. 19

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Fechner Zahlenbeispiel: Daten von 10 deutschen Kreditinstituten i = 1,, 10 x i = Anzahl Beschäftigte des Kreditinstituts i in 1 000, y i = Bilanzsumme des Kreditinstituts i in Mio Euro i x i y i x i x y i y Ü N 1 93,2 823 2 46,2 482 3 50,7 396 4 11,1 390 5 34,9 369 6 7,8 278 7 1,9 195 8 15,0 193 9 2,2 145 10 4,2 114 S 267,2 3 385 r F = Ü N Ü + N 20

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Fechner Zahlenbeispiel: Daten von 10 deutschen Kreditinstituten i = 1,, 10 x i = Anzahl Beschäftigte des Kreditinstituts i in 1 000, y i = Bilanzsumme des Kreditinstituts i in Mio Euro i x i y i x i x y i y Ü N 1 93,2 823 66,48 484,5 1 0 2 46,2 482 19,48 143,5 1 0 3 50,7 396 23,98 57,5 1 0 4 11,1 390-15,62 51,5 0 1 5 34,9 369 8,18 30,5 1 0 6 7,8 278-18,92-60,5 1 0 7 1,9 195-24,82-143,5 1 0 8 15,0 193-11,72-145,5 1 0 9 2,2 145-24,52-193,5 1 0 10 4,2 114-22,52-224,5 1 0 S 267,2 3 385 9 1 AM 26,72 338,5 r F = Ü N Ü + N = 9 1 9 + 1 = 8 10 = 0,8 21

Bilanzsumme in Mio Euro Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Fechner Zugehöriges Streudiagramm: 1.000 900 800 x x = 26,72 y = 338,5 700 600 r F = Ü N Ü + N = 9 1 9 + 1 = 8 10 = 0,8 500 400 y 300 y 200 100 0 0 10 20 30 40 50 60 70 80 90 100 x Beschäftigte in 1 000 22

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson Korrelationskoeffizient von Bravais-Pearson Gegeben: n Wertepaare x i, y i, i = 1,, n als Beobachtungswerte Dann ist der Korrelationskoeffizient von Bravais-Person definiert als: 1 n x i x y i y n x i x y i y r = n i=1 r = i=1 2 1 n x i x 2 1 n y i y 2 2 n x i x 2 n y i y 2 n i=1 n i=1 i=1 i=1 Definiert man den Ausdruck s xy = 1 n n i=1 x i x y i y als empirische Kovarianz und berücksichtigt ferner die Formeln für die Varianz (mittlere quadratische Abweichung) für X bzw. Y, nämlich s 2 x = 1 n n i=1 x i x 2 und s 2 y = 1 n n i=1 y i y 2, so gilt für r : r = s xy s x 2 s y 2 = s xy s x s y mit s x = s x 2 und s y = s y 2 als jeweilige Standardabweichung. Somit ist r nur definiert, wenn s x 0 und s y 0. 23

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson Eigenschaften des Korrelationskoeffizienten von Bravais-Pearson Beide Merkmale müssen metrisches Skalenniveau haben. Zerlegungsformeln: s xy = 1 n i=1 n x i y i x y n s x 2 = 1 n i=1 x i 2 x 2 n s y 2 = 1 n i=1 y i 2 y 2 Weitere Formel für den Korrelationskoeffizienten von Bravais-Pearson: r = n n i=1 n n i=1 x i y i n i=1 x i n i=1 x 2 i n 2 i=1 x i n n i=1 y 2 i n 2 i=1 y i y i Empirische Kovarianz linearer Transformationen: x i = a + b x i, y i = c + d y i s x y = b d s xy Korrelation linearer Transformationen: r x, y = r x, y falls b d > 0 r x, y falls b d < 0 r = 1 erhält man, wenn alle Wertepaare einer Geradengleichung y i = a + b x i mit positiver Steigung (b > 0) genügen. r = 1 erhält man, wenn alle Wertepaare einer Geradengleichung y i = a + b x i mit negativer Steigung (b < 0) genügen. 24

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson Positive Korrelation: AM x AM x AM y AM y AM y AM y AM x AM x r = 1 r = 0,78 25

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson Negative Korrelation: AM x AM x AM y AM y AM y AM y AM x AM x r = 1 r = 0,67 26

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson Keine Korrelation: AM x AM x AM y AM y AM y AM y AM x AM x r = 0 r = 0,07 27

y Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson Zahlenbeispiel: i x i y i x i x y i y x i x y i y x i x 2 y i y 2 1 0 1-4 -4 16 16 16 2 2 4-2 -1 2 4 1 3 4 3 0-2 0 0 4 4 6 8 2 3 6 4 9 5 8 9 4 4 16 16 16 20 25 40 40 46 AM 4 5 8 8 9,2 10 AM x 9 r = n i=1 n i=1 x i x y i y x i x 2 n i=1 y i y = 40 2 40 46 0,9325 8 7 6 oder: 5 AM y AM y r = s xy s x 2 s y 2 = 8 8 9,2 0,9325 4 3 2 1 Beispielaufgabe 0 AM x 0 2 4 6 8 10 x 28

Zweidimensionale Datensätze Korrelationskoeffizient von Spearman Korrelationskoeffizient von Spearman (Rangkorrelationskoeffizient) Gegeben sind n Wertepaar (x i, y i ), i = 1, n, als Beobachtungswerte Voraussetzung: Die Merkmale X und Y sind mindestens ordinal skaliert. Hauptanwendungsgebiet sind daher ordinal skalierte Merkmale. 1 Vorgehensweise: Man ordnet jedem x i -Wert bzw. y i -Wert eine Rangnummer R(x i ) bzw. R(y i ) zu, welche seinen Platz in der geordneten Urliste x (1) x 2 x (n) bzw. y (1) y 2 y (n) widerspiegelt. Im ersten Schritt erhält man dadurch die natürlichen Zahlen 1 bis n als vorläufige Rangnummern für jedes Merkmal. Gibt es nur voneinander verschiedene Beobachtungswerte, ist man fertig. Sind die Ausprägungen jeweils nicht alle voneinander verschieden (sog. Bindungen ), werden in einem zweiten Schritt den jeweils gleichen Werten das arithmetische Mittel der auf sie entfallenden vorläufigen Rangnummern als endgültige Rangnummern zugeordnet. Schließlich wird aus den n resultierenden Rangnummern R x i, R(y i ) nach dem Verfahren von Bravais-Pearson der Korrelationskoeffizient berechnet. 2 Formel: Für den Spearmanschen Korrelationskoeffizienten kann folgende Formel verwendet werden: 3 r Sp = 1 6 n 2 d i i=1 n n 2 1, mit d i = R x i R y i Extremwerte: r Sp = 1, wenn die Rangordnung der Merkmalsträger bei beiden Merkmalen dieselbe ist. r Sp = 1, wenn die Reihenfolge der Merkmalsträger beim zweiten Merkmal genau umgekehrt ist. 4 1 Man kann den Spearmanschen Korrelationskoeffizienten zwar auch für metrische Merkmale berechnen, würde dabei aber vorhandene Informationen etwa über Differenzen zwischen den Beobachtungswerten ignorieren. 2 Mit den Rangnummern wird gerechnet wie mit einem metrischen Merkmal, was eigentlich gleiche Abstände zwischen den Rängen voraussetzt. 3 Die Formel ist nur exakt, wenn keine Bindungen vorkommen. 4 Im ersten Fall ist R x i = R(y i ), im zweiten R x i = n + 1 R(y i ) für alle i = 1,, n 29

Zweidimensionale Datensätze Korrelationskoeffizient von Spearman Zahlenbeispiel: Zeugnisnoten von sieben Schülern in den Fächern Mathematik und Englisch Schüler Nr. 1 2 3 4 5 6 7 Mathematiknote ausreichend mangelhaft gut sehr gut befriedigend mangelhaft gut Englischnote gut ausreichend mangelhaft befriedigend gut sehr gut befriedigend Schüler Mathenote Englischnote vorläufiger Rang endgültiger Rang i x i y i R (x i ) R (y i ) R(x i ) R(y i ) d i d i 2 1 4 2 5 3 5 2,5 2,5 6,25 2 5 4 6 6 6,5 6 0,5 0,25 3 2 5 2 7 2,5 7-4,5 20,25 4 1 3 1 4 1 4,5-3,5 12,25 5 3 2 4 2 4 2,5 1,5 2,25 6 5 1 7 1 6,5 1 5,5 30,25 7 2 3 3 5 2,5 4,5-2 4 Summe 75,5 n 2 di i=1 r Sp = 1 6 n n 2 1 = 1 6 75,5 7 49 1 = 1 453 336 = 117 336 0,3482 schwache negative Korrelation Beispielaufgabe 30