WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 04.06.2013 Zweidimensionale Datensätze 1. Kontingenztabelle und Streudiagramm 2. Korrelationsanalyse: Korrelationskoeffizienten von Fechner, Bravais-Pearson und Spearman 3. Regressionsanalyse: lineare Regression, Methode der kleinsten Quadrate Literatur: Degen, Horst / Lorscheid, Peter: Statistik-Lehrbuch, 2. Aufl., München-Wien 2002, S. 62 86. Mosler, Karl und Schmid, Friedrich: Beschreibende Statistik und Wirtschaftsstatistik, 4. Aufl., Berlin-Heidelberg-New York 2009, S. 153 201. von der Lippe, Peter: Deskriptive Statistik, Stuttgart 1993, Online-Ausgabe, S. 192 257, S. 259 301. Wewel, Max C.: Statistik im Bachelor-Studium der BWL und VWL, 2. erw. Aufl., München 2011, S. 77 123. Übungsaufgaben: WS 07/08 A3; WS 08/09 A1; SS 09 A4; WS 09/10 A3; SS 10 A2; SS 11 A1+ A3.
Zweidimensionale Datensätze Einführung Mehrdimensionale Datensätze: Bei n Merkmalsträgern und m nicht häufbaren Merkmalen liegt für jeden Merkmalsträger ein m Tupel an Beobachtungswerten vor. Die Urliste besteht mithin aus n solcher m Tupel und somit aus n m Einzeldaten. Beispiel Absolventenumfrage 2002: n = 39 Personen haben jeweils m = 22 Fragen beantwortet. Also liegen 39 22 = 858 Einzeldaten vor. Hier: Beschränkung auf m = 2 Merkmale Zweidimensionaler Datensatz: n Merkmalsträger 2 Merkmale X und Y Für jeden Merkmalsträger i liegt ein Wertepaar x i, y i vor. x i = Beobachtungswert für Merkmal X beim Merkmalsträger i. y i = Beobachtungswert für Merkmal Y beim Merkmalsträger i. Die Urliste besteht dann aus n Wertepaaren x 1, y 1, x 2, y 2,, x n, y n Darstellungsmöglichkeiten der Urliste: Kontingenztabelle Streudiagramm 2
Zweidimensionale Datensätze Kontingenztabelle Kontingenztabelle Die Kontingenztabelle ist eine zweidimensionale Häufigkeitstabelle, in der für jede mögliche Kombination von Ausprägungen der beiden Merkmale die absolute (oder relative) Häufigkeit notiert wird. Bei k möglichen Ausprägungen des Merkmals X und l möglichen Ausprägungen des Merkmals Y entsteht so eine k l-matrix mit k l absoluten Häufigkeiten der möglichen Wertepaare. Notation: Merkmal X hat k mögliche Ausprägungen a 1,, a k Merkmal Y hat l mögliche Ausprägungen b 1,, b l h ij = absolute Häufigkeit, mit der die Ausprägung a i, b j als Wertepaar in der Urliste auftritt. Randhäufigkeit Merkmal X: h i = Randhäufigkeit Merkmal Y: h j = l j=1 Zahl der Merkmalsträger: n = k i=1 h ij mit i = 1,, k h ij mit j = 1,, l k l i=1 j=1 h ij 3
Merkmal X Zweidimensionale Datensätze Kontingenztabelle Dann entsteht folgende Kontingenztabelle: Merkmal Y b 1 b 2 b j b l j a 1 h 11 h 12 h 1j h 1l h 1 a 2 h 21 h 22 h 2j h 2l h 2 a i h i1 h i2 h ij h il h i a k h k1 h k2 h kj h kl h k i h 1 h 2 h j h l n 4
Merkmal X Zweidimensionale Datensätze Kontingenztabelle Kontingenztabelle mit relativen Häufigkeiten f ij = h ij n: Merkmal Y b 1 b 2 b j b l j a 1 f 11 f 12 f 1j f 1l f 1 a 2 f 21 f 22 f 2j f 2l f 2 a i f i1 f i2 f ij f il f i a k f k1 f k2 f kj f kl f k i f 1 f 2 f j f l 1 5
Stellung im Beruf Zweidimensionale Datensätze Kontingenztabelle Zahlenbeispiel Erwerbstätige in NRW 2005 nach Wirtschaftsbereichen und Stellung im Beruf Angaben in 1 000 Personen Wirtschaftsbereich Land- und Forstwirtschaft, Fischerei Produzierendes Gewerbe Handel, Gastgewerbe und Verkehr sonstige Dienstleistungen S Selbständige 1) 55 170 229 403 857 Merkmale: Beamte / / 37 449 486 Angestellte 2) 23 969 998 2 124 4 114 Arbeiter 2) 42 1 134 504 498 2 178 S 120 2 273 1 768 3 474 7 635 1) Einschließlich mithelfende Familienangehörige, 2) Einschließlich Auszubildende, / = Keine Angabe, da Zahlenwert nicht sicher genug X = Stellung im Beruf Y = Wirtschaftsbereich Quelle: Landesamt für Statistik NRW, Internetseite Merkmalsausprägungen X: a 1 = Selbständige a 2 = Beamte a 3 = Angestellte a 4 = Arbeiter und Arbeiterinnen Merkmalsausprägungen Y: b 1 = Land- und Forstwirtschaft, Fischerei b 2 = Produzierendes Gewerbe b 3 = Handel, Gastgewerbe und Verkehr b 4 = sonstige Dienstleistungen 6
Stellung im Beruf Zweidimensionale Datensätze Kontingenztabelle Zahlenbeispiel Erwerbstätige in NRW 2005 nach Wirtschaftsbereichen und Stellung im Beruf Angaben in Prozent Wirtschaftsbereich Land- und Forstwirtschaft, Fischerei Produzierendes Gewerbe Handel, Gastgewerbe und Verkehr sonstige Dienstleistungen S Selbständige 1) 0,72 2,23 3,00 5,28 11,22 Merkmale: Beamte / / 0,48 5,88 6,37 Angestellte 2) 0,30 12,69 13,07 27,82 53,88 Arbeiter 2) 0,55 14,85 6,60 6,52 28,53 S 1,57 29,77 23,16 45,50 100,00 1) Einschließlich mithelfende Familienangehörige, 2) Einschließlich Auszubildende, / = Keine Angabe, da Zahlenwert nicht sicher genug X = Stellung im Beruf Y = Wirtschaftsbereich Quelle: Landesamt für Statistik NRW, Internetseite Merkmalsausprägungen X: a 1 = Selbständige a 2 = Beamte a 3 = Angestellte a 4 = Arbeiter und Arbeiterinnen Merkmalsausprägungen Y: b 1 = Land- und Forstwirtschaft, Fischerei b 2 = Produzierendes Gewerbe b 3 = Handel, Gastgewerbe und Verkehr b 4 = sonstige Dienstleistungen 7
Zweidimensionale Datensätze Kontingenztabelle Bedingte relative Häufigkeit Kontingenztabellen sind zur Darstellung zweidimensionaler Datensätze gut geeignet, wenn die Anzahl k der Merkmalsausprägungen von X klein ist, die Anzahl l der Merkmalsausprägungen von Y klein ist und viele der n Wertepaare x i, y i identisch sind. Diese Voraussetzungen sind in der Regel bei nominal skalierten Merkmalen erfüllt. Bedingte relative Häufigkeit f a i b j = h ij h j i = 1,, k f b j a i = h ij h i j = 1,, l Relative Häufigkeit, mit der die Ausprägung a i des Merkmals X bei denjenigen Merkmalsträgern auftritt, die bezüglich des zweiten Merkmals Y die Ausprägung b j besitzen. Relative Häufigkeit, mit der die Ausprägung b j des Merkmals Y bei denjenigen Merkmalsträgern auftritt, die bezüglich des ersten Merkmals X die Ausprägung a i besitzen. An den bedingten Häufigkeiten kann man erkennen, ob die beiden betrachteten Merkmale voneinander unabhängig sind oder nicht. 8
Stellung im Beruf Zweidimensionale Datensätze Kontingenztabelle Bedingte relative Häufigkeit Deskriptive Unabhängigkeit liegt vor, wenn die bedingten relativen Häufigkeiten mit den zugehörigen relativen Randhäufigkeiten übereinstimmen, also wenn gilt: f a i b j = h i n, i = 1,, k und f b j a i = h j n, j = 1,, l Berechnung der bedingten relativen Häufigkeiten für das Zahlenbeispiel mit dem Wirtschaftsbereich, also dem Merkmal Y als Bedingung: f a i b j = h ij h j Wirtschaftsbereiche Land- und Forstwirtschaft, Fischerei Produzierendes Gewerbe Handel, Gastgewerbe und Verkehr sonstige Dienstleistungen S Selbständige 1) 55 120 170 2273 229 1768 403 3474 857 7635 Beamte 0 120 0 2273 37 1768 449 3474 486 7635 Angestellte 2) 23 120 969 2273 998 1768 2124 3474 4114 7635 Arbeiter 2) 42 120 1134 2273 504 1768 498 3474 2178 7635 S 120 120 2273 2273 1768 1768 3474 3474 7635 7635 9
Stellung im Beruf Zweidimensionale Datensätze Kontingenztabelle Bedingte relative Häufigkeit Land- und Forstwirtschaft, Fischerei Wirtschaftsbereiche Produzierendes Gewerbe Handel, Gastgewerbe und Verkehr sonstige Dienstleistungen Relative Randhäufigkeit Selbständige 1) 0,46 0,07 0,13 0,12 0,11 Beamte 0,00 0,00 0,02 0,13 0,06 Angestellte 2) 0,19 0,43 0,56 0,61 0,54 Arbeiter 2) 0,35 0,50 0,29 0,14 0,29 S 1 1 1 1 1 Ergebnis: Die Stellung im Beruf (Merkmal X) ist nicht unabhängig vom Wirtschaftsbereich (Merkmal Y) 10
Stellung im Beruf Zweidimensionale Datensätze Kontingenztabelle Bedingte relative Häufigkeit Berechnung der bedingten relativen Häufigkeiten für das Zahlenbeispiel mit der Stellung im Beruf, also dem Merkmal X als Bedingung: f b j a i = h ij h i Wirtschaftsbereiche Land- und Forstwirtschaft, Fischerei Produzierendes Gewerbe Handel, Gastgewerbe und Verkehr sonstige Dienstleistungen S Selbständige 1) 55 857 170 857 229 857 403 857 857 857 Beamte 0 486 0 486 37 486 449 486 486 486 Angestellte 2) 23 4114 969 4114 998 4114 2124 4114 4114 4114 Arbeiter 2) 42 2178 1134 2178 504 2178 498 2178 2178 2178 S 120 7635 2273 7635 1768 7635 3474 7635 7635 7635 11
Stellung im Beruf Zweidimensionale Datensätze Kontingenztabelle Bedingte relative Häufigkeit Wirtschaftsbereiche Land- und Forstwirtschaft, Fischerei Produzierendes Gewerbe Handel, Gastgewerbe und Verkehr sonstige Dienstleistungen S Selbständige 1) 0,06 0,20 0,27 0,47 1 Beamte 0,00 0,00 0,08 0,92 1 Angestellte 2) 0,01 0,24 0,24 0,52 1 Arbeiter 2) 0,02 0,52 0,23 0,23 1 Relative Randhäufigkeit 0,02 0,30 0,23 0,46 1 Ergebnis: In welchem Wirtschaftsbereich (Merkmal Y) jemand arbeitet, ist nicht unabhängig von seiner Stellung im Beruf (Merkmal X). Beispielaufgabe 12
Stellung im Beruf Zweidimensionale Datensätze Kontingenztabelle Prüfung auf deskriptive Unabhängigkeit Erwerbstätige in NRW 2005 nach Wirtschaftsbereichen und Stellung im Beruf Angaben in Prozent Wirtschaftsbereich Land- und Forstwirtschaft, Fischerei Produzierendes Gewerbe Handel, Gastgewerbe und Verkehr sonstige Dienstleistungen S Selbständige 1) 0,72 2,23 3,00 5,28 11,22 Beamte / / 0,48 5,88 6,37 Angestellte 2) 0,30 12,69 13,07 27,82 53,88 Arbeiter 2) 0,55 14,85 6,60 6,52 28,53 S 1,57 29,77 23,16 45,50 100,00 Prüfung auf deskriptive Unabhängigkeit: Man kann zeigen, dass zwei Merkmale voneinander deskriptiv unabhängig sind, wenn sich die relativen Häufigkeiten in der Kontingenztabelle als Produkt aus den relativen Randhäufigkeiten ergeben: Beispiel: f ij = f i f j deskriptive Unabhängigkeit 0,5388 0,2977 = 0,1604 0,1269 Die Stellung im Beruf ist also nicht unabhängig vom Wirtschaftsbereich. 13
Zweidimensionale Datensätze Streudiagramm Streudiagramm In einem Streudiagramm werden die Wertepaare x i, y i Koordinatensystem dargestellt. als Punkte in einem x-y- Voraussetzung: Beide Merkmale sind kardinalskaliert. Streudiagramme sind zur Darstellung zweidimensionaler Häufigkeitsverteilungen besonders gut geeignet, wenn die n Wertepaare (fast) alle voneinander verschieden sind, wenn die Anzahl n der Wertepaare sehr groß ist, um sich einen ersten Eindruck über den (möglichen) Zusammenhang zwischen den Merkmalen zu verschaffen. 14
Lebensalter beim Examen (y) Zweidimensionale Datensätze Streudiagramm Zahlenbeispiel Zahlenbeispiel Absolventenumfrage, Merkmale: Fachsemester (X) und Lebensalter (Y) ID-Nr. i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 Fachsemeste r x i 11 11 13 9 9 13 13 9 12 12 10 12 11 13 11 11 16 18 9 8 10 13 11 16 10 11 9 17 9 10 13 7 14 11 9 29 16 14 11 Lebensalter y i 27 29 28 25 23 29 26 24 26 25 26 26 26 28 29 25 30 32 25 27 27 26 27 30 31 26 25 28 26 28 28 26 31 29 25 34 30 30 26 36 Streudiagramm 34 32 30 28 26 24 22 20 6 8 10 12 14 16 18 20 22 24 26 28 30 Zahl der Fachsemester beim Examen (x) 15
Zweidimensionale Datensätze Korrelation allgemeine Aussagen Korrelationsanalyse Untersucht werden Stärke und Richtung des Zusammenhangs zweier mindestens ordinal skalierter Merkmale X und Y. 1) Zu diesem Zweck werden Korrelationskoeffizienten r berechnet: Für ordinal skalierte Merkmale der Rangkorrelationskoeffizient von Spearman. Für metrische Merkmale der Korrelationskoeffizient von Fechner und der von Bravais- Pearson. Die Korrelationskoeffizienten sind so konstruiert, dass sie nur Werte im Bereich r 1; +1 annehmen können. Dabei wird die Richtung des Zusammenhangs durch das Vorzeichen und die Stärke des Zusammenhangs durch den Absolutbetrag angezeigt. 1 ) Zusammenhangmaße für nominal skalierte Merkmale können nur die Stärke, nicht die Richtung messen und werden in dieser Veranstaltung nicht behandelt. 16
Zweidimensionale Datensätze Korrelation allgemeine Aussagen Richtung des Zusammenhangs: r > 0 positive Korrelation : x und y überwiegend gleichläufig. Zu kleinen x-werten gehören meist auch kleine y-werte, zu großen x-werten große y-werte. Je größer x umso größer tendenziell auch y. r < 0 negative Korrelation : x und y überwiegend gegenläufig. Zu kleinen x-werten gehören meist große y-werte, zu großen x-werten kleine y- Werte. Je größer x umso kleiner tendenziell y. Stärke des Zusammenhangs (Faustregel): 0, 8 < r 1 0, 5 < r 0, 8 0, 3 < r 0, 5 0 < r 0, 3 0, 3 r < 0 0, 5 r < 0, 3 0, 8 r < 0, 5 1 r < 0, 8 starke positive Korrelation mittlere positive Korrelation schwache positive Korrelation fehlende positive Korrelation fehlende negative Korrelation schwache negative Korrelation mittlere negative Korrelation starke negative Korrelation 17
Zweidimensionale Datensätze Korrelation allgemeine Aussagen Man beachte: Problem der Kausalität: Die Korrelationsanalyse lässt keinen Rückschluss auf eine kausale Beziehung zwischen den Merkmalen zu. Am Korrelationskoeffizienten kann man nicht erkennen, ob X die Ursache für Y oder Y die Ursache für X ist. Problem der Scheinkorrelation: X und Y korrelieren nur deshalb miteinander, weil sie gemeinsam von einer dritten Variablen Z abhängig sind. Beispiele: Geburtenzahl Urbanisierungsgrad Anzahl Störche, Schuhgröße Geschlecht Bruttoeinkommen Problem der Nonsens-Korrelation: Der Korrelationskoeffizient signalisiert einen Zusammenhang, für den es keine inhaltliche Erklärung gibt. Problem der Zufallskorrelation: Die Grundgesamtheit bzw. Stichprobe ist zu klein, um eine sinnvolle Korrelationsanalyse durchführen zu können. 18
Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Fechner Korrelationskoeffizient von Fechner Gegeben: n Wertepaare x i, y i, i = 1,, n als Beobachtungswerte. Dann ist der Korrelationskoeffizient von Fechner definiert als: r F = Ü N Ü + N wobei und Ü = Anzahl der in den Vorzeichen übereinstimmenden Paare x i x, y i y N = Anzahl der in den Vorzeichen nicht übereinstimmenden Paare x i x, y i y Fälle, in denen eine der Differenzen den Wert Null besitzt, werden als Übereinstimmung gezählt. Der Korrelationskoeffizient von Fechner setzt für beide Merkmale metrisches Skalenniveau voraus. Es gehen nur die Vorzeichen der Abweichungen und nicht die Abweichungen selbst in die Berechnung ein. 19
Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Fechner Zahlenbeispiel: Daten von 10 deutschen Kreditinstituten i = 1,, 10 x i = Anzahl Beschäftigte des Kreditinstituts i in 1 000, y i = Bilanzsumme des Kreditinstituts i in Mio Euro i x i y i x i x y i y Ü N 1 93,2 823 2 46,2 482 3 50,7 396 4 11,1 390 5 34,9 369 6 7,8 278 7 1,9 195 8 15,0 193 9 2,2 145 10 4,2 114 S 267,2 3 385 r F = Ü N Ü + N 20
Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Fechner Zahlenbeispiel: Daten von 10 deutschen Kreditinstituten i = 1,, 10 x i = Anzahl Beschäftigte des Kreditinstituts i in 1 000, y i = Bilanzsumme des Kreditinstituts i in Mio Euro i x i y i x i x y i y Ü N 1 93,2 823 66,48 484,5 1 0 2 46,2 482 19,48 143,5 1 0 3 50,7 396 23,98 57,5 1 0 4 11,1 390-15,62 51,5 0 1 5 34,9 369 8,18 30,5 1 0 6 7,8 278-18,92-60,5 1 0 7 1,9 195-24,82-143,5 1 0 8 15,0 193-11,72-145,5 1 0 9 2,2 145-24,52-193,5 1 0 10 4,2 114-22,52-224,5 1 0 S 267,2 3 385 9 1 AM 26,72 338,5 r F = Ü N Ü + N = 9 1 9 + 1 = 8 10 = 0,8 21
Bilanzsumme in Mio Euro Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Fechner Zugehöriges Streudiagramm: 1.000 900 800 x x = 26,72 y = 338,5 700 600 r F = Ü N Ü + N = 9 1 9 + 1 = 8 10 = 0,8 500 400 y 300 y 200 100 0 0 10 20 30 40 50 60 70 80 90 100 x Beschäftigte in 1 000 22
Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson Korrelationskoeffizient von Bravais-Pearson Gegeben: n Wertepaare x i, y i, i = 1,, n als Beobachtungswerte Dann ist der Korrelationskoeffizient von Bravais-Person definiert als: 1 n x i x y i y n x i x y i y r = n i=1 r = i=1 2 1 n x i x 2 1 n y i y 2 2 n x i x 2 n y i y 2 n i=1 n i=1 i=1 i=1 Definiert man den Ausdruck s xy = 1 n n i=1 x i x y i y als empirische Kovarianz und berücksichtigt ferner die Formeln für die Varianz (mittlere quadratische Abweichung) für X bzw. Y, nämlich s 2 x = 1 n n i=1 x i x 2 und s 2 y = 1 n n i=1 y i y 2, so gilt für r : r = s xy s x 2 s y 2 = s xy s x s y mit s x = s x 2 und s y = s y 2 als jeweilige Standardabweichung. Somit ist r nur definiert, wenn s x 0 und s y 0. 23
Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson Eigenschaften des Korrelationskoeffizienten von Bravais-Pearson Beide Merkmale müssen metrisches Skalenniveau haben. Zerlegungsformeln: s xy = 1 n i=1 n x i y i x y n s x 2 = 1 n i=1 x i 2 x 2 n s y 2 = 1 n i=1 y i 2 y 2 Weitere Formel für den Korrelationskoeffizienten von Bravais-Pearson: r = n n i=1 n n i=1 x i y i n i=1 x i n i=1 x 2 i n 2 i=1 x i n n i=1 y 2 i n 2 i=1 y i y i Empirische Kovarianz linearer Transformationen: x i = a + b x i, y i = c + d y i s x y = b d s xy Korrelation linearer Transformationen: r x, y = r x, y falls b d > 0 r x, y falls b d < 0 r = 1 erhält man, wenn alle Wertepaare einer Geradengleichung y i = a + b x i mit positiver Steigung (b > 0) genügen. r = 1 erhält man, wenn alle Wertepaare einer Geradengleichung y i = a + b x i mit negativer Steigung (b < 0) genügen. 24
Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson Positive Korrelation: AM x AM x AM y AM y AM y AM y AM x AM x r = 1 r = 0,78 25
Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson Negative Korrelation: AM x AM x AM y AM y AM y AM y AM x AM x r = 1 r = 0,67 26
Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson Keine Korrelation: AM x AM x AM y AM y AM y AM y AM x AM x r = 0 r = 0,07 27
y Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson Zahlenbeispiel: i x i y i x i x y i y x i x y i y x i x 2 y i y 2 1 0 1-4 -4 16 16 16 2 2 4-2 -1 2 4 1 3 4 3 0-2 0 0 4 4 6 8 2 3 6 4 9 5 8 9 4 4 16 16 16 20 25 40 40 46 AM 4 5 8 8 9,2 10 AM x 9 r = n i=1 n i=1 x i x y i y x i x 2 n i=1 y i y = 40 2 40 46 0,9325 8 7 6 oder: 5 AM y AM y r = s xy s x 2 s y 2 = 8 8 9,2 0,9325 4 3 2 1 Beispielaufgabe 0 AM x 0 2 4 6 8 10 x 28
Zweidimensionale Datensätze Korrelationskoeffizient von Spearman Korrelationskoeffizient von Spearman (Rangkorrelationskoeffizient) Gegeben sind n Wertepaar (x i, y i ), i = 1, n, als Beobachtungswerte Voraussetzung: Die Merkmale X und Y sind mindestens ordinal skaliert. Hauptanwendungsgebiet sind daher ordinal skalierte Merkmale. 1 Vorgehensweise: Man ordnet jedem x i -Wert bzw. y i -Wert eine Rangnummer R(x i ) bzw. R(y i ) zu, welche seinen Platz in der geordneten Urliste x (1) x 2 x (n) bzw. y (1) y 2 y (n) widerspiegelt. Im ersten Schritt erhält man dadurch die natürlichen Zahlen 1 bis n als vorläufige Rangnummern für jedes Merkmal. Gibt es nur voneinander verschiedene Beobachtungswerte, ist man fertig. Sind die Ausprägungen jeweils nicht alle voneinander verschieden (sog. Bindungen ), werden in einem zweiten Schritt den jeweils gleichen Werten das arithmetische Mittel der auf sie entfallenden vorläufigen Rangnummern als endgültige Rangnummern zugeordnet. Schließlich wird aus den n resultierenden Rangnummern R x i, R(y i ) nach dem Verfahren von Bravais-Pearson der Korrelationskoeffizient berechnet. 2 Formel: Für den Spearmanschen Korrelationskoeffizienten kann folgende Formel verwendet werden: 3 r Sp = 1 6 n 2 d i i=1 n n 2 1, mit d i = R x i R y i Extremwerte: r Sp = 1, wenn die Rangordnung der Merkmalsträger bei beiden Merkmalen dieselbe ist. r Sp = 1, wenn die Reihenfolge der Merkmalsträger beim zweiten Merkmal genau umgekehrt ist. 4 1 Man kann den Spearmanschen Korrelationskoeffizienten zwar auch für metrische Merkmale berechnen, würde dabei aber vorhandene Informationen etwa über Differenzen zwischen den Beobachtungswerten ignorieren. 2 Mit den Rangnummern wird gerechnet wie mit einem metrischen Merkmal, was eigentlich gleiche Abstände zwischen den Rängen voraussetzt. 3 Die Formel ist nur exakt, wenn keine Bindungen vorkommen. 4 Im ersten Fall ist R x i = R(y i ), im zweiten R x i = n + 1 R(y i ) für alle i = 1,, n 29
Zweidimensionale Datensätze Korrelationskoeffizient von Spearman Zahlenbeispiel: Zeugnisnoten von sieben Schülern in den Fächern Mathematik und Englisch Schüler Nr. 1 2 3 4 5 6 7 Mathematiknote ausreichend mangelhaft gut sehr gut befriedigend mangelhaft gut Englischnote gut ausreichend mangelhaft befriedigend gut sehr gut befriedigend Schüler Mathenote Englischnote vorläufiger Rang endgültiger Rang i x i y i R (x i ) R (y i ) R(x i ) R(y i ) d i d i 2 1 4 2 5 3 5 2,5 2,5 6,25 2 5 4 6 6 6,5 6 0,5 0,25 3 2 5 2 7 2,5 7-4,5 20,25 4 1 3 1 4 1 4,5-3,5 12,25 5 3 2 4 2 4 2,5 1,5 2,25 6 5 1 7 1 6,5 1 5,5 30,25 7 2 3 3 5 2,5 4,5-2 4 Summe 75,5 n 2 di i=1 r Sp = 1 6 n n 2 1 = 1 6 75,5 7 49 1 = 1 453 336 = 117 336 0,3482 schwache negative Korrelation Beispielaufgabe 30