Kapitel 3: Lagemaße Ziel Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt Dr. Matthias Arnold 52
Definition 3.1 Seien x 1,...,x n Ausprägungen eines kardinal skalierten Merkmals X, dann heißt n arithmetisches Mittel von X. x = 1 n i=1 x i Beispiel 3.1 (Ventillebensdauern, vgl. Kapitel 2) x = 1 n n x i = 1 (110+520+...+580) = 313,17 30 i=1 Dr. Matthias Arnold 53
Beispiel 3.1 (Fortsetzung) Vorgehen, wenn Daten lediglich in klassierter Form vorliegen? Betrachte etwa Klassierung wie in Beispiel 2.5 Klasse (von... bis unter... Stunden) h(a j ) Klassenmittel Klassenmitte 0-100 2/30 50 50 100-200 5/30 136 150 200-300 6/30 253,33 250 300-400 8/30 345 350 400-500 6/30 449,17 450 500-600 3/30 546,67 550 Dr. Matthias Arnold 54
Definition 3.2 Gegeben sei ein kardinal skaliertes Merkmal X mit Ausprägungen x 1,...,x n und zugehörigen Gewichten g 1,...,g n, für die g i 0 für alle i = 1,...,n und n g i = 1 i=1 gelte. Dann heißt x g = n g i x i = g 1 x 1 +...+g n x n i=1 gewichtetes arithmetisches Mittel von X. Dr. Matthias Arnold 55
Beispiel 3.2 (Ventillebensdauern, Klassierung wie in Beispiel 3.1) Verwende relative Häufigkeiten h(a i ) als Gewichte g i a) Annahme: Klassenmittel bekannt x g = 2 30 50+ 5 30 136+...+ 3 546,67 = 313,17 = x 30 klar, da x g = 2 30 [1 2 (30+70)]+ 5 30 [1 5 (110+...+170)]+... + 3 30 [1 3 (530+540+580)] = 1 30 (30+70+...+580) = x Dr. Matthias Arnold 56
Beispiel 3.2 (Fortsetzung) b) Annahme: Klassenmittel unbekannt x g = 2 30 50+ 5 30 150+...+ 3 550 = 316,67 30 bei unbekanntem Klassenmittel stimmen x und x g in der Regel nicht überein Dr. Matthias Arnold 57
Beispiel 3.3 a) Betrachte für die letzten 15 Jahre die Platzierungen des BVB in der Bundesliga-Abschlusstabelle: 5, 6, 13, 9, 7, 7, 6, 3, 1, 3, 11, 4, 10, 3, 1 Durchschnittlicher Tabellenplatz (gemäß des arithmetischen Mittels): x = 5,9 3??? Derartige Angabe nicht sinnvoll interpretierbar, da Tabellenplätze normalerweise ganzzahlig Tabellenplätze außerdem ordinal skaliert die möglichen Platzierungen (1-18) sind nicht naturgegeben, könnten daher (unter Beibehaltung der Reihenfolge) auch willkürlich in andere Zahlen transformiert werden (z.b. 1; 2,5; 3; 5; 7,7;... ; 99); x und x g gegenüber derlei Umskalierungen nicht robust Dr. Matthias Arnold 58
Beispiel 3.3 (Fortsetzung) b) Betrachte 10 Personen, 9 davon haben ein Jahreseinkommen von 40.000 Euro; Person 10: Jahreseinkommen von 500.000 Euro (fiktive Zahlen) x = 86.000 Euro x (und auch x g ) sehr anfällig gegenüber Ausreissern Definition 3.3 Sei X ein mindestens ordinal skaliertes Merkmal mit beobachteten Ausprägungen x 1,x 2,...,x n. Mit x (i) ist der i-te Wert der aufsteigend geordneten Daten bezeichnet. Dann heißt x ( n+1 2 ), n ungerade x = ( ) 1 2 x ( n 2) +x ( n +1), n gerade 2 Median von X. Dr. Matthias Arnold 59
Beispiel 3.4 (vgl. Beispiel 3.3) a) Im Durchschnitt hat der BVB in der Bundesliga-Abschlusstabelle auf Basis der letzten 15 Jahre den 6. Platz belegt, denn n = 15 = ungerade x = x (8) und x (1) = x (2) = 1, x (3) =... = x (5) = 3, x (6) = 4, x (7) = 5, x (8) = x (9) = 6, x (10) = x (11) = 7, x (12) = 9, x (13) = 10, x (14) = 11, x (15) = 13 Dr. Matthias Arnold 60
Beispiel 3.4 (Fortsetzung) b) Das Durchschnittseinkommen der 10 Personen im fiktiven Beispiel aus Beispiel 3.3 b) beträgt (gemäß des Medians) 40.000 Euro, denn und n = 10 = gerade x = 1 2 (x (5) +x (6) ) x (1) =... = x (9) = 40.000, x (10) = 500.000 x = 80.000 = 40.000 2 Dr. Matthias Arnold 61
Bemerkung Der Median stimmt oft mit einer beobachteten Ausprägung überein Der Median ist robuster gegenüber Ausreissern als x und x g Nachteil des Medians: Häufig großer Informationsverlust, da nur die mittleren Beobachtungen relevant sind Dr. Matthias Arnold 62
Bemerkung (Eigenschaften von arithm. Mittel und Median) Bei linearen Datentransformationen der Form y i = a x i +b mit a 0 (i = 1,...,n) gilt: ȳ = a x+b und ỹ = a x+b. Beide Lagemaße minimieren jeweils eine Zielfunktion: ( n ) ( n ) x = argmin (x i z) 2 und x = argmin x i z z R z R i=1 i=1 Dr. Matthias Arnold 63
Beispiel 3.5 Kardinal skaliertes Merkmal: Arithmetisches Mittel; Ordinal skaliertes Merkmal: Median; Nominale Skalierung:??? Notiere etwa Farbe der Fahrzeuge auf dem Uniparkplatz: rot, grün, grün, blau, blau, rot, schwarz, weiss, rot, schwarz (vergleiche Beispiel 1.1) sinnvolles Lagemaß? Definition 3.4 Als Modalwert bzw. Modus wird die Ausprägung eines beliebig skalierten Merkmals X bezeichnet, die am häufigsten auftritt; Bezeichnung: x mod Dr. Matthias Arnold 64
Beispiel 3.6 (vgl. Beispiel 3.5, Fahrzeugfarben) Häufigkeiten der beobachteten Farben: 3 rot, 2 blau, 2 grün, 2 schwarz, 1 weiss x mod =rot Bemerkung (Nachteile des Modus) Modalwert muss nicht eindeutig sein Bei quantitativ stetigen Daten sind oft sämtliche Beobachtungen unterschiedlich voneinander; hier liefert der Modus keine Informationen Klassierung der Daten; als Modus kann die Mitte der Klasse mit der größten Klassenhäufigkeit aufgefasst werden (im Rahmen der Klassierung von Beispiel 3.1 gilt also x mod = 350) Dr. Matthias Arnold 65
Beispiel 3.7 Aktienkurse zu drei Zeitpunkten (fiktiv) Zeitpunkt i 0 1 2 Aktienkurs x i 100 160 100 Wachstumsrate r i 0,6-0,375 Wachstumsfaktor (1+r i ) 1,6 0,625 wobei r i = x i x i 1 x i 1 Durchschnittliche Wachstumsrate? r = 1 (0,6+( 0,375)) = 0,1125 2 Unsinn, da (wegen x 0 = x 2 ) r = 0 gelten muss Dr. Matthias Arnold 66
Definition 3.5 Sei X ein kardinal skaliertes Merkmal mit Ausprägungen x 1,...,x n 0. Dann heißt x geo = n x 1 x 2 x n das geometrische Mittel von x 1,...,x n. Beispiel 3.8 (vgl. Beispiel 3.7) Auch negative Wachstumsraten möglich (hier etwa r 2 = 0,375) berechne geometrisches Mittel (1+r) geo aus den Wachstumsfaktoren r = (1+r) geo 1 (1+r) geo = 1,6 0,625 = 1 r = 1 1 = 0 Dr. Matthias Arnold 67
Bemerkung a) Herleitung des geometrischen Mittels (exemplarisch anhand Situation aus Beispiel 3.7 bzw. 3.8) Kurs z. Zeitpkt. 0 : x0 Kurs z. Zeitpkt. 1 : x 0 +r 1 x 0 = x 0 (1+r 1 ) = x 1 Kurs z. Zeitpkt. 2 : x 2 = x 1 (1+r 2 ) = x 0 (1+r 1 ) (1+r 2 ) Gesucht: Geeigneter Durchschnitt von r1,r 2 (= r) Anforderungen an r : x 0 (1+ r) (1+ r) = x 0 (1+ r) 2 = x 0 (1+r 1 ) (1+r 2 ) Division durch x 0 und Auflösung nach r : (1+ r) = 2 (1+r 1 ) (1+r 2 ) r = 2 (1+r 1 ) (1+r 2 ) 1 Dr. Matthias Arnold 68
Bemerkung (Fortsetzung) b) Allgemein gilt x geo x ( x geo = x genau dann, wenn x 1 =... = x n ) c) Verwende x geo, falls Merkmalsausprägungen relativen Änderungen entsprechen Dr. Matthias Arnold 69
Bemerkung Andere Lagemaße, die nicht unbedingt dem Durchschnitt der Merkmalsausprägungen entsprechen: Quantile Sei 0 < p < 1; Jeder Wert x p, für den mindestens ein Anteil p 100 Prozent der Daten kleiner/gleich x p, und mindestens ein Anteil (1 p) 100 Prozent größer/gleich x p ist, heißt p Quantil, d.h. F n (x p ) p und Anzahl(x Werte x p ) n 1 p Dr. Matthias Arnold 70
Bemerkung (Fortsetzung) Problem: x p muss nicht eindeutig sein - betrachte etwa ein beliebiges Merkmal mit Ausprägungen 1 bis 10; gesucht: 0, 2 Quantil F n (x) = 0,2 für 2 x < 3, F n (3) = 0,3 und { Anzahl(Beobachtungen x) 0,9 x = 2 10 = 0,8 2 < x 3 sämtliche x [2,3] erfüllen die Bedingungen des 0,2-Quantils Dr. Matthias Arnold 71
Definition 3.6 (eindeutige Definition des p Quantils) Für 0 < p < 1 und ein mindestens ordinal skaliertes Merkmal X mit den beobachteten Ausprägungen x 1,x 2,...,x n heißt { x x p = ( np +1), np nicht ganzzahlig 1 (x ) 2 (np) +x (np+1), np ganzzahlig p Quantil von X. Dr. Matthias Arnold 72
Bemerkung a) Fiktives Zahlenbeispiel aus Bemerkung 2 vor Definition 3.6 (Merkmal X mit Ausprägungen 1-10): n = 10, p = 0.2 n p = 2 ganzzahlig nach Definition 3.6 ist x 0,2 = 1/2 (x (2) +x (3) ) = 2,5 b) Besonders gebräuchliche Quantile 0,25-Quantil x 0,25 (unteres Quartil) 0,75-Quantil x 0,75 (oberes Quartil) Median x = x 0,5 x (1),x 0,25, x,x 0,75,x (n) = 5-Punkte-Zusammenfassung Dr. Matthias Arnold 73
Bemerkung (Fortsetzung) c) Grafische Darstellung der 5-Punkte-Zusammenfassung durch Box-Plot Schachtel (Box): beinhaltet 50 Prozent der mittleren Daten; Anfang der Box: x 0,25 ; Ende der Box: x 0,75 Strich in der Box: markiert den Median Whiskers (Barthaare): Linien, welche Anfang bzw. Ende der Box mit x (1) bzw. x (n) verbinden Dr. Matthias Arnold 74
Beispiel 3.9 (BVB-Abschlussplatzierungen,vgl. Beispiel 3.3) x (1),...,x (15) = 1,1,3,3,3,4,5,6,6,7,7,9,10,11,13 p = 0,25 n p = 15 0,25 = 3,75 nicht ganzzahlig x 0,25 = x (4) = 3 p = 0,5 x = x (8) = 6, vgl. Beispiel 3.4 p = 0,75 n p = 15 0,75 = 11,25 nicht ganzzahlig x 0,75 = x (12) = 9 Dr. Matthias Arnold 75
Beispiel 3.9 (Fortsetzung) Boxplot der BVB Platzierungen 2 4 6 8 10 12 Platzierung Dr. Matthias Arnold 76
Beispiel 3.9 (Fortsetzung) 2 4 6 8 10 12 Platzierung BVB 2 4 6 8 10 12 Platzierung Schalke 04 Dr. Matthias Arnold 77
Bemerkung (Fazit zu Lagemaßen) (Gewichtetes) arithmetisches Mittel nur für kardinal skalierte Merkmale geeignet Geometrisches Mittel ebenfalls nur bei kardinalem Messniveau; bei relativen Änderungen (z.b. durchschnittlichen Wachstumsraten) zu verwenden Median/Quantile für ordinal und kardinal skalierte Merkmale geeignet Modus für alle Skalenniveaus verwendbar (bei stetigen, unklassierten Daten allerdings oft ohne Aussagekraft) Dr. Matthias Arnold 78
Kapitel 4: Streuungsmaße Motivation Lagemaß fasst Zentrum/Schwerpunkt der Daten in einer Kenngröße zusammen; wie weit sich die Daten um dieses Zentrum herum bewegen wird durch Lagemaß jedoch nicht deutlich Dr. Matthias Arnold 79
Beispiel 4.1 Jahresgewinn von zwei Unternehmen X und Y in TEUR, in fünf aufeinanderfolgenden Jahren beobachtet Zeitpunkt 1 2 3 4 5 Gewinn X 90 105 102,5 95 107,5 Gewinn Y 80 130 90 85 115 x = 100 und ȳ = 100 Lagemaß allein zur Beschreibung eines Datensatzes oft nicht ausreichend Dr. Matthias Arnold 80
Beispiel 4.1 (Fortsetzung) Gewinn 80 90 100 110 120 130 Unternehmen Y Unternehmen X 1 2 3 4 5 6 Jahr Dr. Matthias Arnold 81
Definition 4.1 Betrachte ein Merkmal X mit mindestens ordinalem Skalenniveau und Ausprägungen x 1,...,x n. Dann heißt Spannweite von X und Quartilsabstand von X. R x = max{x i } min{x i } i i = x (n) x (1) Q x = x 0,75 x 0,25 Dr. Matthias Arnold 82
Beispiel 4.2 (vgl. Beispiel 4.1, Unternehmensgewinne) Geordnete Reihe x (1),...,x (n) von Kurs X : 90 ; 95 ; 102,5 ; 105 ;107,5 ; Kurs Y : 80 ; 85 ; 90 ; 115 ; 130 R x = 107,5 90 = 17,5 und R y = 130 80 = 50 0,25 5 = 1,25 x 0,25 = x (2) = 95, y 0,25 = y (2) = 85; 0,75 5 = 3,75 x 0,75 = x (4) = 105, y 0,75 = y (4) = 115, also ist Q x = 105 95 = 10 und Q y = 115 85 = 20 Dr. Matthias Arnold 83
Bemerkung Spannweite einfachstes Streuungsmaß, leicht zu berechnen; findet Anwendung in Bereichen, wo Extremwerte interessant sind (Börsenkurse, Warenpreise,...) Nachteil Spannweite: Sehr empfindlich gegenüber Ausreissern, da nur größte und kleinste Beobachtung berücksichtigt werden Quartilsabstand gegenüber Ausreissern robuster, beschreibt zentralen Bereich der Daten Weder Spannweite noch Quartilsabstand beziehen sich auf ein Lagemaß Dr. Matthias Arnold 84
Definition 4.2 Betrachte ein Merkmal X mit mindestens ordinalem Skalenniveau und Ausprägungen x 1,...,x n. Dann heißt d x = 1 n n x i x i=1 mittlere absolute Abweichung (vom Median) von X und x = 1 n n n 2 x i x j i=1 j=1 mittlere absolute Differenz von X. Dr. Matthias Arnold 85
Beispiel 4.3 (vgl. Beispiele 4.1 & 4.2, Unternehmensgewinne) x = 102,5 und ỹ = 90 d x d y = 1 5 ( 90 102,5 + 105 102,5 + 102,5 102,5 + 95 102,5 + 107,5 102,5 ) = 5,5 und = 1 5 ( 80 90 + 85 90 + 90 90 + 115 90 + 130 90 ) = 16 > d x Dr. Matthias Arnold 86
Beispiel 4.3 (Fortsetzung) x = = 7,2 und y = 1 25 ( 90 90 + 90 105 + 90 102,5 + + 107,5 95 + 107,5 107,5 ) 1 25 ( 80 80 + 80 130 + 80 90 + + 115 85 + 115 15 ) = 20,8 > x Es gilt d x < d y und x < y, Beide Streuungsmaße entsprechen der Grafik in Beispiel 4.1 (größere Streuung von Gewinn Y im Vergleich zu X) Dr. Matthias Arnold 87
Bemerkung Mittlere absolute Abweichung und mittlere absolute Differenz sind feinere Streuungsmaße als Spannweite und der Quartilsabstand, da alle Beobachtungen berücksichtigt werden Im Gegensatz zu Spannweite, Quartilsabstand und mittlerer absolute Differenz bezieht sich d x auf ein Lagemaß, nämlich den Median Ebenfalls berechenbar: Mittlere absolute Abweichung von einem anderen Lagemaß (z.b. arithmetischem Mittel) Nachteil von d x und x im Vergleich zu Spannweite und Quartilsabstand: Erheblich höherer Rechenaufwand (die Doppelsumme in Beispiel 4.3 etwa resultiert in 25 Summanden) Dr. Matthias Arnold 88
Definition 4.3 Betrachte ein Merkmal X mit kardinalem Skalenniveau und Ausprägungen x 1,...,x n. Dann heißt s 2 x = 1 n n (x i x) 2 i=1 Varianz oder mittlere quadratische Abweichung von X und Standardabweichung von X. s x = s 2 x Dr. Matthias Arnold 89
Beispiel 4.4 (vgl. Beispiele 4.1, 4.2 & 4.3, Unternehmensgewinne) x = ȳ = 100 (vgl. Beispiel 4.1) s 2 x = 1 [ (90 100) 2 +(105 100) 2 +(102,5 100) 2 5 +(95 100) 2 +(107,5 100) 2] = 42,5 und s x = s 2 x = 6,519 und s 2 y = 1 [ (80 100) 2 +(130 100) 2 +(90 100) 2 5 +(85 100) 2 +(115 100) 2] = 370 > s 2 x und s y = s 2 y = 19,235 > s x Größere Streuung der Gewinne von Unternehmen Y im Vergleich zu Unternehmen X wird durch beide Maße ebenfalls wiedergegeben Dr. Matthias Arnold 90
Bemerkung a) Varianz bzw. Standardabweichung populärste Streuungsmaße b) Standardabweichung hat gleiche Dimension/Maßeinheit wie die Ausprägungen wird manchmal gegenüber der Varianz bevorzugt; betrachte etwa Unternehmen X aus Beispiel 4.4: s x = 6,519 Euro, s 2 x = 42,5 Euro 2 c) s 2 x = 0 x i = x für alle i = 1,...,n d) Definition 4.3: Dividiere die summierten und quadrierten Differenzen durch n häufig auch Division durch n 1; Grund: später Dr. Matthias Arnold 91
Bemerkung (Fortsetzung) e) Alternative Berechnung von s 2 x (immer mit Formel aus Definition 4.3 übereinstimmend): s 2 x = 1 n n x 2 i ( x) 2 i=1 Überprüfe e) anhand Unternehmen X (vgl. die Beispiele 4.1 bis 4.4) s 2 x = 1 ( 90 2 +105 2 +102,5 2 +95 2 +107,5 2) 100 2 5 = 10042,5 10000 = 42,5 gleiches Ergebnis wie in Beispiel 4.4 (dort Verwendung der Formel aus Definition 4.3) Dr. Matthias Arnold 92
Bemerkung (Fortsetzung) f) Seien y i transformierte Werte von x i mit y i = a x i +b (a,b R, i = 1,...,n). Dann gilt Ry = a R x Qy = a Q x d y = a d x y = a x s 2 y = a 2 s 2 x bzw. s y = a s x, außerdem sind alle Streuungsmaße immer nicht negativ! Dr. Matthias Arnold 93
Bemerkung (Fortsetzung) g) Fazit zu Streuungsmaßen Varianz und Standardabweichung nur für kardinal skalierte Merkmale geeignet Spannweite, Quartilsabstand, mittlere absolute Abweichung und mittlere absolute Differenz für ordinal und kardinal skalierte Merkmale geeignet Neben Lagemaß liefert Streuungsmaß weitere Infos über die Datenbeschaffenheit Streuungsmaß kann als Ergänzung zu Lagemaß angesehen werden (Varianz kennzeichnet etwa Repräsentativität des Mittelwertes) Beispiel 4.1, Unternehmensgewinne: Betrachte Lagemaß (Mittelwert) alleine Beide Datensätze erscheinen ähnlich/gleich (Trugschluß, vergleiche Grafik in Beispiel 4.1) zusätzliche Angabe eines Streuungsmaßes klärt den Sachverhalt auf Dr. Matthias Arnold 94