Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt

Ähnliche Dokumente
Kapitel 1 Beschreibende Statistik

Kapitel 1 Beschreibende Statistik

Statistik I für Betriebswirte Vorlesung 9

Empirische Verteilungsfunktion

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

3. Deskriptive Statistik

Statistik für Ökonomen Wintersemester 2010/2011. Dr. Hendrik Hansen

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

4 Statistische Maßzahlen

4 Statistische Maßzahlen

Thema: Mittelwert einer Häufigkeitsverteilung. Welche Informationen kann der Mittelwert geben?

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Diese Lücken sollten nicht auch bei Ihnen vorhanden sein: Aufgrund einer statistischen Untersuchung entsteht eine geordnete bzw. ungeordnete, die durc

Statistische Kennzahlen für die Lage

Kapitel 2. Mittelwerte

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Deskriptive Statistik Auswertung durch Informationsreduktion

Einführung in Quantitative Methoden

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

a) x = 1150 ; x = 950 ; x = 800 b) Die Lagemaße unterscheiden sich voneinander. c) Der Median charakterisiert die Stichprobe am besten.

STATISTIK I Übung 04 Spannweite und IQR. 1 Kurze Wiederholung. Was sind Dispersionsparameter?

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Kreisdiagramm, Tortendiagramm

Grundlagen der empirischen Sozialforschung

3 Lage- und Streuungsmaße

Statistik I für Betriebswirte Vorlesung 2

Fachrechnen für Tierpfleger

benötigen. Die Zeit wird dabei in Minuten angegeben und in einem Boxplot-Diagramm veranschaulicht.

Deskriptive Statistik Erläuterungen

Bitte am PC mit Windows anmelden!

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale

Deskriptive Statistik

Statistik und Wahrscheinlichkeitsrechnung

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober

Lösung Aufgabe 19. ( ) = [Mio Euro]. Empirische Varianz s 2 = 1 n

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Deskriptive Statistik Kapitel VI - Lage- und Streuungsparameter

3 Lage- und Streuungsmaße

Lage- und Streuungsparameter

5 Exkurs: Deskriptive Statistik

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:

Streuungsmaße von Stichproben

Mathematik für Biologen

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Mathematische Statistik. Zur Notation

2. Deskriptive Statistik

I.V. Methoden 2: Deskriptive Statistik WiSe 02/03

Übungsblatt 3 zur Vorlesung Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker

4 Spezifizierende Beschreibung empirischer Verteilungen

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

1 Beschreibende Statistik

Der Mittelwert (arithmetisches Mittel)

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

Statistik und Wahrscheinlichkeitsrechnung

Streuungsmaße Worum geht es in diesem Modul? Allgemeines zu Streuungsmaßzahlen Spannweite und Interquartilsabstand

3. Lektion: Deskriptive Statistik

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten

Deskriptive Statistik Aufgaben und Lösungen

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

1 Beschreibende Statistik

Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist.

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Verteilungsfunktion und Quantile

Lagemaße Worum geht es in diesem Modul? Allgemeines zu Lagemaßzahlen Arithmetisches Mittel aus einer Urliste

Harry Potter und die Kammer des Schreckens : m, s, g, a, a, a, sg, g, a, g, m, m, g, g, sg, s, a, a, a, g, a, a, g, g, a

Grundlagen der Statistik I

Statistik und Wahrscheinlichkeitsrechnung

WISTA WIRTSCHAFTSSTATISTIK

Graphische Darstellung einer univariaten Verteilung:

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

Verteilungsfunktion und Quantile

Grundlagen der empirischen Sozialforschung

Deskriptive Statistik II. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Das harmonische Mittel

4. Kumulierte Häufigkeiten und Quantile

W-Rechnung und Statistik für Ingenieure Übung 4

Statistik eindimensionaler Größen

Verteilungsfunktion und dquantile

Vorlesungsskript. Deskriptive Statistik. Prof. Dr. Günter Hellmig

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Korrelation, Regression und Signifikanz

Median 2. Modus < Median < Mittelwert. Mittelwert < Median < Modus. 2 Modalwerte oder Modus viel größer bzw. viel kleiner als Mittelwert

Kapitel VII - Konzentration von Merkmalswerten

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Statistik für Technische Assistenten in der Medizin

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Lösungsvorschläge zur Klausur Beschreibende Statistik und Wirtschaftsstatistik (Sommersemester 2013)

Merkmalstypen Univ.-Prof. Dr. rer. nat. et med. habil. Andreas Faldum

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Arbeitsbuch zur deskriptiven und induktiven Statistik

Transkript:

Kapitel 3: Lagemaße Ziel Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt Dr. Matthias Arnold 52

Definition 3.1 Seien x 1,...,x n Ausprägungen eines kardinal skalierten Merkmals X, dann heißt n arithmetisches Mittel von X. x = 1 n i=1 x i Beispiel 3.1 (Ventillebensdauern, vgl. Kapitel 2) x = 1 n n x i = 1 (110+520+...+580) = 313,17 30 i=1 Dr. Matthias Arnold 53

Beispiel 3.1 (Fortsetzung) Vorgehen, wenn Daten lediglich in klassierter Form vorliegen? Betrachte etwa Klassierung wie in Beispiel 2.5 Klasse (von... bis unter... Stunden) h(a j ) Klassenmittel Klassenmitte 0-100 2/30 50 50 100-200 5/30 136 150 200-300 6/30 253,33 250 300-400 8/30 345 350 400-500 6/30 449,17 450 500-600 3/30 546,67 550 Dr. Matthias Arnold 54

Definition 3.2 Gegeben sei ein kardinal skaliertes Merkmal X mit Ausprägungen x 1,...,x n und zugehörigen Gewichten g 1,...,g n, für die g i 0 für alle i = 1,...,n und n g i = 1 i=1 gelte. Dann heißt x g = n g i x i = g 1 x 1 +...+g n x n i=1 gewichtetes arithmetisches Mittel von X. Dr. Matthias Arnold 55

Beispiel 3.2 (Ventillebensdauern, Klassierung wie in Beispiel 3.1) Verwende relative Häufigkeiten h(a i ) als Gewichte g i a) Annahme: Klassenmittel bekannt x g = 2 30 50+ 5 30 136+...+ 3 546,67 = 313,17 = x 30 klar, da x g = 2 30 [1 2 (30+70)]+ 5 30 [1 5 (110+...+170)]+... + 3 30 [1 3 (530+540+580)] = 1 30 (30+70+...+580) = x Dr. Matthias Arnold 56

Beispiel 3.2 (Fortsetzung) b) Annahme: Klassenmittel unbekannt x g = 2 30 50+ 5 30 150+...+ 3 550 = 316,67 30 bei unbekanntem Klassenmittel stimmen x und x g in der Regel nicht überein Dr. Matthias Arnold 57

Beispiel 3.3 a) Betrachte für die letzten 15 Jahre die Platzierungen des BVB in der Bundesliga-Abschlusstabelle: 5, 6, 13, 9, 7, 7, 6, 3, 1, 3, 11, 4, 10, 3, 1 Durchschnittlicher Tabellenplatz (gemäß des arithmetischen Mittels): x = 5,9 3??? Derartige Angabe nicht sinnvoll interpretierbar, da Tabellenplätze normalerweise ganzzahlig Tabellenplätze außerdem ordinal skaliert die möglichen Platzierungen (1-18) sind nicht naturgegeben, könnten daher (unter Beibehaltung der Reihenfolge) auch willkürlich in andere Zahlen transformiert werden (z.b. 1; 2,5; 3; 5; 7,7;... ; 99); x und x g gegenüber derlei Umskalierungen nicht robust Dr. Matthias Arnold 58

Beispiel 3.3 (Fortsetzung) b) Betrachte 10 Personen, 9 davon haben ein Jahreseinkommen von 40.000 Euro; Person 10: Jahreseinkommen von 500.000 Euro (fiktive Zahlen) x = 86.000 Euro x (und auch x g ) sehr anfällig gegenüber Ausreissern Definition 3.3 Sei X ein mindestens ordinal skaliertes Merkmal mit beobachteten Ausprägungen x 1,x 2,...,x n. Mit x (i) ist der i-te Wert der aufsteigend geordneten Daten bezeichnet. Dann heißt x ( n+1 2 ), n ungerade x = ( ) 1 2 x ( n 2) +x ( n +1), n gerade 2 Median von X. Dr. Matthias Arnold 59

Beispiel 3.4 (vgl. Beispiel 3.3) a) Im Durchschnitt hat der BVB in der Bundesliga-Abschlusstabelle auf Basis der letzten 15 Jahre den 6. Platz belegt, denn n = 15 = ungerade x = x (8) und x (1) = x (2) = 1, x (3) =... = x (5) = 3, x (6) = 4, x (7) = 5, x (8) = x (9) = 6, x (10) = x (11) = 7, x (12) = 9, x (13) = 10, x (14) = 11, x (15) = 13 Dr. Matthias Arnold 60

Beispiel 3.4 (Fortsetzung) b) Das Durchschnittseinkommen der 10 Personen im fiktiven Beispiel aus Beispiel 3.3 b) beträgt (gemäß des Medians) 40.000 Euro, denn und n = 10 = gerade x = 1 2 (x (5) +x (6) ) x (1) =... = x (9) = 40.000, x (10) = 500.000 x = 80.000 = 40.000 2 Dr. Matthias Arnold 61

Bemerkung Der Median stimmt oft mit einer beobachteten Ausprägung überein Der Median ist robuster gegenüber Ausreissern als x und x g Nachteil des Medians: Häufig großer Informationsverlust, da nur die mittleren Beobachtungen relevant sind Dr. Matthias Arnold 62

Bemerkung (Eigenschaften von arithm. Mittel und Median) Bei linearen Datentransformationen der Form y i = a x i +b mit a 0 (i = 1,...,n) gilt: ȳ = a x+b und ỹ = a x+b. Beide Lagemaße minimieren jeweils eine Zielfunktion: ( n ) ( n ) x = argmin (x i z) 2 und x = argmin x i z z R z R i=1 i=1 Dr. Matthias Arnold 63

Beispiel 3.5 Kardinal skaliertes Merkmal: Arithmetisches Mittel; Ordinal skaliertes Merkmal: Median; Nominale Skalierung:??? Notiere etwa Farbe der Fahrzeuge auf dem Uniparkplatz: rot, grün, grün, blau, blau, rot, schwarz, weiss, rot, schwarz (vergleiche Beispiel 1.1) sinnvolles Lagemaß? Definition 3.4 Als Modalwert bzw. Modus wird die Ausprägung eines beliebig skalierten Merkmals X bezeichnet, die am häufigsten auftritt; Bezeichnung: x mod Dr. Matthias Arnold 64

Beispiel 3.6 (vgl. Beispiel 3.5, Fahrzeugfarben) Häufigkeiten der beobachteten Farben: 3 rot, 2 blau, 2 grün, 2 schwarz, 1 weiss x mod =rot Bemerkung (Nachteile des Modus) Modalwert muss nicht eindeutig sein Bei quantitativ stetigen Daten sind oft sämtliche Beobachtungen unterschiedlich voneinander; hier liefert der Modus keine Informationen Klassierung der Daten; als Modus kann die Mitte der Klasse mit der größten Klassenhäufigkeit aufgefasst werden (im Rahmen der Klassierung von Beispiel 3.1 gilt also x mod = 350) Dr. Matthias Arnold 65

Beispiel 3.7 Aktienkurse zu drei Zeitpunkten (fiktiv) Zeitpunkt i 0 1 2 Aktienkurs x i 100 160 100 Wachstumsrate r i 0,6-0,375 Wachstumsfaktor (1+r i ) 1,6 0,625 wobei r i = x i x i 1 x i 1 Durchschnittliche Wachstumsrate? r = 1 (0,6+( 0,375)) = 0,1125 2 Unsinn, da (wegen x 0 = x 2 ) r = 0 gelten muss Dr. Matthias Arnold 66

Definition 3.5 Sei X ein kardinal skaliertes Merkmal mit Ausprägungen x 1,...,x n 0. Dann heißt x geo = n x 1 x 2 x n das geometrische Mittel von x 1,...,x n. Beispiel 3.8 (vgl. Beispiel 3.7) Auch negative Wachstumsraten möglich (hier etwa r 2 = 0,375) berechne geometrisches Mittel (1+r) geo aus den Wachstumsfaktoren r = (1+r) geo 1 (1+r) geo = 1,6 0,625 = 1 r = 1 1 = 0 Dr. Matthias Arnold 67

Bemerkung a) Herleitung des geometrischen Mittels (exemplarisch anhand Situation aus Beispiel 3.7 bzw. 3.8) Kurs z. Zeitpkt. 0 : x0 Kurs z. Zeitpkt. 1 : x 0 +r 1 x 0 = x 0 (1+r 1 ) = x 1 Kurs z. Zeitpkt. 2 : x 2 = x 1 (1+r 2 ) = x 0 (1+r 1 ) (1+r 2 ) Gesucht: Geeigneter Durchschnitt von r1,r 2 (= r) Anforderungen an r : x 0 (1+ r) (1+ r) = x 0 (1+ r) 2 = x 0 (1+r 1 ) (1+r 2 ) Division durch x 0 und Auflösung nach r : (1+ r) = 2 (1+r 1 ) (1+r 2 ) r = 2 (1+r 1 ) (1+r 2 ) 1 Dr. Matthias Arnold 68

Bemerkung (Fortsetzung) b) Allgemein gilt x geo x ( x geo = x genau dann, wenn x 1 =... = x n ) c) Verwende x geo, falls Merkmalsausprägungen relativen Änderungen entsprechen Dr. Matthias Arnold 69

Bemerkung Andere Lagemaße, die nicht unbedingt dem Durchschnitt der Merkmalsausprägungen entsprechen: Quantile Sei 0 < p < 1; Jeder Wert x p, für den mindestens ein Anteil p 100 Prozent der Daten kleiner/gleich x p, und mindestens ein Anteil (1 p) 100 Prozent größer/gleich x p ist, heißt p Quantil, d.h. F n (x p ) p und Anzahl(x Werte x p ) n 1 p Dr. Matthias Arnold 70

Bemerkung (Fortsetzung) Problem: x p muss nicht eindeutig sein - betrachte etwa ein beliebiges Merkmal mit Ausprägungen 1 bis 10; gesucht: 0, 2 Quantil F n (x) = 0,2 für 2 x < 3, F n (3) = 0,3 und { Anzahl(Beobachtungen x) 0,9 x = 2 10 = 0,8 2 < x 3 sämtliche x [2,3] erfüllen die Bedingungen des 0,2-Quantils Dr. Matthias Arnold 71

Definition 3.6 (eindeutige Definition des p Quantils) Für 0 < p < 1 und ein mindestens ordinal skaliertes Merkmal X mit den beobachteten Ausprägungen x 1,x 2,...,x n heißt { x x p = ( np +1), np nicht ganzzahlig 1 (x ) 2 (np) +x (np+1), np ganzzahlig p Quantil von X. Dr. Matthias Arnold 72

Bemerkung a) Fiktives Zahlenbeispiel aus Bemerkung 2 vor Definition 3.6 (Merkmal X mit Ausprägungen 1-10): n = 10, p = 0.2 n p = 2 ganzzahlig nach Definition 3.6 ist x 0,2 = 1/2 (x (2) +x (3) ) = 2,5 b) Besonders gebräuchliche Quantile 0,25-Quantil x 0,25 (unteres Quartil) 0,75-Quantil x 0,75 (oberes Quartil) Median x = x 0,5 x (1),x 0,25, x,x 0,75,x (n) = 5-Punkte-Zusammenfassung Dr. Matthias Arnold 73

Bemerkung (Fortsetzung) c) Grafische Darstellung der 5-Punkte-Zusammenfassung durch Box-Plot Schachtel (Box): beinhaltet 50 Prozent der mittleren Daten; Anfang der Box: x 0,25 ; Ende der Box: x 0,75 Strich in der Box: markiert den Median Whiskers (Barthaare): Linien, welche Anfang bzw. Ende der Box mit x (1) bzw. x (n) verbinden Dr. Matthias Arnold 74

Beispiel 3.9 (BVB-Abschlussplatzierungen,vgl. Beispiel 3.3) x (1),...,x (15) = 1,1,3,3,3,4,5,6,6,7,7,9,10,11,13 p = 0,25 n p = 15 0,25 = 3,75 nicht ganzzahlig x 0,25 = x (4) = 3 p = 0,5 x = x (8) = 6, vgl. Beispiel 3.4 p = 0,75 n p = 15 0,75 = 11,25 nicht ganzzahlig x 0,75 = x (12) = 9 Dr. Matthias Arnold 75

Beispiel 3.9 (Fortsetzung) Boxplot der BVB Platzierungen 2 4 6 8 10 12 Platzierung Dr. Matthias Arnold 76

Beispiel 3.9 (Fortsetzung) 2 4 6 8 10 12 Platzierung BVB 2 4 6 8 10 12 Platzierung Schalke 04 Dr. Matthias Arnold 77

Bemerkung (Fazit zu Lagemaßen) (Gewichtetes) arithmetisches Mittel nur für kardinal skalierte Merkmale geeignet Geometrisches Mittel ebenfalls nur bei kardinalem Messniveau; bei relativen Änderungen (z.b. durchschnittlichen Wachstumsraten) zu verwenden Median/Quantile für ordinal und kardinal skalierte Merkmale geeignet Modus für alle Skalenniveaus verwendbar (bei stetigen, unklassierten Daten allerdings oft ohne Aussagekraft) Dr. Matthias Arnold 78

Kapitel 4: Streuungsmaße Motivation Lagemaß fasst Zentrum/Schwerpunkt der Daten in einer Kenngröße zusammen; wie weit sich die Daten um dieses Zentrum herum bewegen wird durch Lagemaß jedoch nicht deutlich Dr. Matthias Arnold 79

Beispiel 4.1 Jahresgewinn von zwei Unternehmen X und Y in TEUR, in fünf aufeinanderfolgenden Jahren beobachtet Zeitpunkt 1 2 3 4 5 Gewinn X 90 105 102,5 95 107,5 Gewinn Y 80 130 90 85 115 x = 100 und ȳ = 100 Lagemaß allein zur Beschreibung eines Datensatzes oft nicht ausreichend Dr. Matthias Arnold 80

Beispiel 4.1 (Fortsetzung) Gewinn 80 90 100 110 120 130 Unternehmen Y Unternehmen X 1 2 3 4 5 6 Jahr Dr. Matthias Arnold 81

Definition 4.1 Betrachte ein Merkmal X mit mindestens ordinalem Skalenniveau und Ausprägungen x 1,...,x n. Dann heißt Spannweite von X und Quartilsabstand von X. R x = max{x i } min{x i } i i = x (n) x (1) Q x = x 0,75 x 0,25 Dr. Matthias Arnold 82

Beispiel 4.2 (vgl. Beispiel 4.1, Unternehmensgewinne) Geordnete Reihe x (1),...,x (n) von Kurs X : 90 ; 95 ; 102,5 ; 105 ;107,5 ; Kurs Y : 80 ; 85 ; 90 ; 115 ; 130 R x = 107,5 90 = 17,5 und R y = 130 80 = 50 0,25 5 = 1,25 x 0,25 = x (2) = 95, y 0,25 = y (2) = 85; 0,75 5 = 3,75 x 0,75 = x (4) = 105, y 0,75 = y (4) = 115, also ist Q x = 105 95 = 10 und Q y = 115 85 = 20 Dr. Matthias Arnold 83

Bemerkung Spannweite einfachstes Streuungsmaß, leicht zu berechnen; findet Anwendung in Bereichen, wo Extremwerte interessant sind (Börsenkurse, Warenpreise,...) Nachteil Spannweite: Sehr empfindlich gegenüber Ausreissern, da nur größte und kleinste Beobachtung berücksichtigt werden Quartilsabstand gegenüber Ausreissern robuster, beschreibt zentralen Bereich der Daten Weder Spannweite noch Quartilsabstand beziehen sich auf ein Lagemaß Dr. Matthias Arnold 84

Definition 4.2 Betrachte ein Merkmal X mit mindestens ordinalem Skalenniveau und Ausprägungen x 1,...,x n. Dann heißt d x = 1 n n x i x i=1 mittlere absolute Abweichung (vom Median) von X und x = 1 n n n 2 x i x j i=1 j=1 mittlere absolute Differenz von X. Dr. Matthias Arnold 85

Beispiel 4.3 (vgl. Beispiele 4.1 & 4.2, Unternehmensgewinne) x = 102,5 und ỹ = 90 d x d y = 1 5 ( 90 102,5 + 105 102,5 + 102,5 102,5 + 95 102,5 + 107,5 102,5 ) = 5,5 und = 1 5 ( 80 90 + 85 90 + 90 90 + 115 90 + 130 90 ) = 16 > d x Dr. Matthias Arnold 86

Beispiel 4.3 (Fortsetzung) x = = 7,2 und y = 1 25 ( 90 90 + 90 105 + 90 102,5 + + 107,5 95 + 107,5 107,5 ) 1 25 ( 80 80 + 80 130 + 80 90 + + 115 85 + 115 15 ) = 20,8 > x Es gilt d x < d y und x < y, Beide Streuungsmaße entsprechen der Grafik in Beispiel 4.1 (größere Streuung von Gewinn Y im Vergleich zu X) Dr. Matthias Arnold 87

Bemerkung Mittlere absolute Abweichung und mittlere absolute Differenz sind feinere Streuungsmaße als Spannweite und der Quartilsabstand, da alle Beobachtungen berücksichtigt werden Im Gegensatz zu Spannweite, Quartilsabstand und mittlerer absolute Differenz bezieht sich d x auf ein Lagemaß, nämlich den Median Ebenfalls berechenbar: Mittlere absolute Abweichung von einem anderen Lagemaß (z.b. arithmetischem Mittel) Nachteil von d x und x im Vergleich zu Spannweite und Quartilsabstand: Erheblich höherer Rechenaufwand (die Doppelsumme in Beispiel 4.3 etwa resultiert in 25 Summanden) Dr. Matthias Arnold 88

Definition 4.3 Betrachte ein Merkmal X mit kardinalem Skalenniveau und Ausprägungen x 1,...,x n. Dann heißt s 2 x = 1 n n (x i x) 2 i=1 Varianz oder mittlere quadratische Abweichung von X und Standardabweichung von X. s x = s 2 x Dr. Matthias Arnold 89

Beispiel 4.4 (vgl. Beispiele 4.1, 4.2 & 4.3, Unternehmensgewinne) x = ȳ = 100 (vgl. Beispiel 4.1) s 2 x = 1 [ (90 100) 2 +(105 100) 2 +(102,5 100) 2 5 +(95 100) 2 +(107,5 100) 2] = 42,5 und s x = s 2 x = 6,519 und s 2 y = 1 [ (80 100) 2 +(130 100) 2 +(90 100) 2 5 +(85 100) 2 +(115 100) 2] = 370 > s 2 x und s y = s 2 y = 19,235 > s x Größere Streuung der Gewinne von Unternehmen Y im Vergleich zu Unternehmen X wird durch beide Maße ebenfalls wiedergegeben Dr. Matthias Arnold 90

Bemerkung a) Varianz bzw. Standardabweichung populärste Streuungsmaße b) Standardabweichung hat gleiche Dimension/Maßeinheit wie die Ausprägungen wird manchmal gegenüber der Varianz bevorzugt; betrachte etwa Unternehmen X aus Beispiel 4.4: s x = 6,519 Euro, s 2 x = 42,5 Euro 2 c) s 2 x = 0 x i = x für alle i = 1,...,n d) Definition 4.3: Dividiere die summierten und quadrierten Differenzen durch n häufig auch Division durch n 1; Grund: später Dr. Matthias Arnold 91

Bemerkung (Fortsetzung) e) Alternative Berechnung von s 2 x (immer mit Formel aus Definition 4.3 übereinstimmend): s 2 x = 1 n n x 2 i ( x) 2 i=1 Überprüfe e) anhand Unternehmen X (vgl. die Beispiele 4.1 bis 4.4) s 2 x = 1 ( 90 2 +105 2 +102,5 2 +95 2 +107,5 2) 100 2 5 = 10042,5 10000 = 42,5 gleiches Ergebnis wie in Beispiel 4.4 (dort Verwendung der Formel aus Definition 4.3) Dr. Matthias Arnold 92

Bemerkung (Fortsetzung) f) Seien y i transformierte Werte von x i mit y i = a x i +b (a,b R, i = 1,...,n). Dann gilt Ry = a R x Qy = a Q x d y = a d x y = a x s 2 y = a 2 s 2 x bzw. s y = a s x, außerdem sind alle Streuungsmaße immer nicht negativ! Dr. Matthias Arnold 93

Bemerkung (Fortsetzung) g) Fazit zu Streuungsmaßen Varianz und Standardabweichung nur für kardinal skalierte Merkmale geeignet Spannweite, Quartilsabstand, mittlere absolute Abweichung und mittlere absolute Differenz für ordinal und kardinal skalierte Merkmale geeignet Neben Lagemaß liefert Streuungsmaß weitere Infos über die Datenbeschaffenheit Streuungsmaß kann als Ergänzung zu Lagemaß angesehen werden (Varianz kennzeichnet etwa Repräsentativität des Mittelwertes) Beispiel 4.1, Unternehmensgewinne: Betrachte Lagemaß (Mittelwert) alleine Beide Datensätze erscheinen ähnlich/gleich (Trugschluß, vergleiche Grafik in Beispiel 4.1) zusätzliche Angabe eines Streuungsmaßes klärt den Sachverhalt auf Dr. Matthias Arnold 94