4. Auswertung eindimensionaler Daten

Ähnliche Dokumente

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Statistik I für Betriebswirte Vorlesung 2

Primzahlen und RSA-Verschlüsselung

Felix Klug SS Tutorium Deskriptive Statistik

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

Korrelation (II) Korrelation und Kausalität

Analyse klassierter Daten: Vor der Analyse fasst man jeweils mehrere Merkmalsausprägungen in (Merkmalswerte-)Klassen zusammen.

4. Erstellen von Klassen

1 Darstellen von Daten

1 Mathematische Grundlagen

Zusammenhänge zwischen metrischen Merkmalen

9. Schätzen und Testen bei unbekannter Varianz

11.3 Komplexe Potenzreihen und weitere komplexe Funktionen

Einfache statistische Auswertungen mit dem TI-Nspire

Willkommen zur Vorlesung Statistik

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Statistik und Wahrscheinlichkeitsrechnung

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Expertenrunde Gruppe 1: Wiederholungsgruppe EXCEL (Datenerfassung, Darstellungsformen, Verwertung)

2. Eindimensionale (univariate) Datenanalyse

Statistik I für Betriebswirte Vorlesung 11

Kontingenzkoeffizient (nach Pearson)

1 Verteilungen und ihre Darstellung

Statistik I für Betriebswirte Vorlesung 5

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Zeichen bei Zahlen entschlüsseln

Der Zwei-Quadrate-Satz von Fermat

Plotten von Linien ( nach Jack Bresenham, 1962 )

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Teil I: Deskriptive Statistik

Rente = laufende Zahlungen, die in regelmäßigen Zeitabschnitten (periodisch) wiederkehren Rentenperiode = Zeitabstand zwischen zwei Rentenzahlungen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Rente = laufende Zahlungen, die in regelmäßigen Zeitabschnitten (periodisch) wiederkehren Rentenperiode = Zeitabstand zwischen zwei Rentenzahlungen

Data Mining: Einige Grundlagen aus der Stochastik

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

QM: Prüfen -1- KN

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN

3. LINEARE GLEICHUNGSSYSTEME

W-Rechnung und Statistik für Ingenieure Übung 11

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Fachhochschule Düsseldorf Wintersemester 2008/09

Lineare Gleichungssysteme

STATISTIK. Erinnere dich

1. Mathematik-Schularbeit 6. Klasse AHS

7 Rechnen mit Polynomen

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Dokumentation. estat Version 2.0

Auswertung und Darstellung wissenschaftlicher Daten (1)

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Statistische Thermodynamik I Lösungen zur Serie 1

WS 2008/09. Diskrete Strukturen

Stichprobenauslegung. für stetige und binäre Datentypen

Mathematischer Vorbereitungskurs für Ökonomen

Musterlösungen zur Linearen Algebra II Blatt 5

Absolute Stetigkeit von Maßen

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

a n auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Aufgabe 1: Nehmen Sie Stellung zu den folgenden Behauptungen (richtig/falsch mit stichwortartiger Begründung).

Lineare Gleichungssysteme

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Anmerkungen zur Übergangsprüfung

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Quadratische Gleichungen

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Repetitionsaufgaben Wurzelgleichungen

1.3 Die Beurteilung von Testleistungen

h i Deskriptive Statistik 1-dimensionale Daten Daten und Häufigkeiten Seite 1 Nominal Ordinal Metrisch (Kardinal) Metrisch - klassiert

Deskriptive Statistik

5. Schließende Statistik Einführung

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Kleine Einführung in die lineare Regression mit Excel

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Beispiel Zusammengesetzte Zufallsvariablen

Nichtlineare Optimierung ohne Nebenbedingungen

Codierungstheorie Rudolf Scharlau, SoSe

Aber zuerst: Was versteht man unter Stromverbrauch im Standby-Modus (Leerlaufverlust)?

Zufallsgrößen. Vorlesung Statistik für KW Helmut Küchenhoff

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.

Übungsklausur. Bitte wählen Sie fünf Aufgaben aus! Aufgabe 1. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr.

Aufgaben zur Flächenberechnung mit der Integralrechung

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

Statistische Auswertung:

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Transkript:

4. Auswertung eindimensionaler Daten Ziel dieses Kapitels: Präsentation von Methoden zur statistischen Auswertung eines einzelnen Merkmals 64

Bezeichnungen (Wiederholung): Merkmalsträger: e 1,..., e n Grundgesamtheit: G = {e 1,..., e n } Zu untersuchendes Merkmal: X Mögliche Merkmalswerte: ξ 1,..., ξ J Daten in Urliste: x 1,..., x n 65

Fragestellungen: Formale und grafische Darstellung der Daten Berechnung aussagekräftiger Kenngrößen der Daten Vorgehensweise: Vorstellung der statistischen Methoden anhand des Skalenniveaus des Merkmals X 66

4.1 Beliebig skalierte Daten Skalenniveau des zu untersuchenden Merkmals X: Nominalskala (oder höher) Häufigkeiten des Merkmals X mit Ausprägungen ξ 1,..., ξ J : Absolute Häufigkeit der Ausprägung ξ j (j = 1,... J): n j = Anzahl von Daten mit Merkmalswert ξ j Relative Häufigkeit der Ausprägung ξ j (j = 1,... J): f j = n j n = Anteil von Daten mit Merkmalswert ξ j 67

Offensichtlich gilt: 0 n j n sowie J j=1 n j = n (warum?) 0 f j 1 sowie J j=1 f j = 1 (warum?) Jetzt: Mit den Begriffen der absoluten und relativen Häufigkeiten gelangt man zur 1. Darstellungsform des Merkmals X, nämlich zur Häufigkeitstabelle 68

Definition 4.1: (Häufigkeitstabelle) Unter der Häufigkeitstabelle des Merkmals X versteht man die folgende tabellarische Darstellung: j ξ j n j f j = n j /n 1 ξ 1 n 1 f 1 2. ξ 2. n 2. f 2. J ξ J n J f J Summe: n 1 69

Beispiel (Verkehrsmittelbenutzung): Grundgesamtheit bestehe aus 20 Beschäftigten eines Betriebes, d.h. G = {e 1,..., e 20 } Zu untersuchendes Merkmal X: Benutztes Verkehrsmittel zum Arbeitsplatz Merkmalsausprägungen: ξ 1 = Bus ξ 2 = PKW ξ 3 = Motorrad ξ 4 = Fahrrad ξ 5 = zu Fuß 70

Erhobene Urliste: 1, 1, 2, 2, 2, 4, 3, 5, 2, 2, 5, 2, 4, 1, 1, 2, 2, 1, 2, 1 Häufigkeitstabelle: j ξ j n j f j = n j /n 1 Bus 6 6/20 = 0.30 2 PKW 9 9/20 = 0.45 3 Motorrad 1 1/20 = 0.05 4 Fahrrad 2 2/20 = 0.10 5 zu Fuß 2 2/20 = 0.10 Summe: 20 1.00 71

Man beachte den folgenden Trade-Off : Übergang von Urliste zur Häufigkeitstabelle erhöht die Übersichtlichkeit führt zu einem Informationsverlust Grafische Darstellungen von Häufigkeitstabellen durch Säulendiagramme Balkendiagramme 72

Balken- oder Stabdiagramm (absolute Häufigkeiten) 10 8 6 4 2 0 Bus PKW Motorrad Fahrrad zu Fuß Kuchen- oder Kreisdiagramm (relative Häufigkeiten) Motorrad 5% Fahrrad 10% zu Fuß 10% PKW 45% Bus 30%

Vorsicht bei der Interpretation von Grafiken: Grafiken können auf viele Weisen manipuliert werden Manipulation muss nicht immer schlecht sein Verzerren der Achsen Bestimmte Bereiche werden hervorgehoben Bestimmte Bereiche werden unterdrückt Skalierungen der Y -Achsen Bestimmte Entwicklungen werden dramatisiert Bestimmte Entwicklungen werden verschwiegen 74

Wichtige Kennzahl einer Datenreihe ist der Modus: Definition 4.2: (Modus) Ein Merkmalswert ξ j heißt Modus, wenn seine (absolute oder relative) Häufigkeit mindestens so groß ist wie die aller anderen Merkmalswerte, d.h. wenn n j n k für alle k {1,..., J} gilt. Offensichtlich: Eine Datenreihe kann mehrere Modi aufweisen 75

4.2 Mindestens ordinal skalierte Daten Jetzt: Daten seien mindestens ordinal skaliert, d.h. erhobene Daten können sinnvoll geordnet werden Wichtige Darstellungsform der Daten: Empirische Verteilungsfunktion 76

Definition 4.3: (Empirische Verteilungsfunktion) Gegeben seien die Daten x 1,..., x n einer Urliste. Für jede reelle Zahl x R definiert man die empirische Verteilungsfunktion an der Stelle x (in Zeichen: F (x)) als den Anteil der Daten x 1,..., x n, die kleiner oder gleich x sind: Bemerkung: F (x) = Anzahl aller x i x. n Es gibt alternative Möglichkeiten, die empirische Verteilungsfunktion auszudrücken. Z.B. kann man alle Merkmalsausprägungen ξ j (j = 1,..., J) betrachten, die kleiner oder gleich x sind und deren relative Häufigkeiten f j = n j /n aufsummieren: F (x) = f j ξ j x 77

Beispiel (Klausurnoten): [I] 16 Studierende erzielten in einer Klausur die folgenden ganzzahligen Noten: 3, 4, 2, 1, 2, 4, 5, 5, 2, 1, 4, 5, 3, 3, 2, 4 Zur Berechnung der emp. VF sortieren wir die Urliste von der kleinsten zur größten Beobachtung 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5 78

Beispiel (Klausurnoten): [II] Die emp. VF ergibt sich wie folgt: F (x) = 0 16 2 16 6 16 9 16 = 0.0000 für x < 1 = 0.1250 für 1 x < 2 = 0.3750 für 2 x < 3 = 0.5625 für 3 x < 4 13 16 = 0.8125 für 4 x < 5 16 16 = 1.0000 für x 5 79

1 0,8 0,6 0,4 0,2 0 0 1 2 3 4 5 6 Bemerkung: Wir notieren die vom kleinsten Datenwert (Minimum) zum größten Datenwert (Maximum) geordnete Urliste als x (1) x (2)... x (n). (x (1) = Minimum der Urliste, x (n) = Maximum) 80

Eigenschaften der empirischen Verteilungsfunktion: [I] F (x) = 0 für alle x < x (1) F (x) = 1 für alle x x (n) F (x) ist eine Treppenfunktion. Sprünge erfolgen an den Stellen, die als Daten in der Urliste vorkommen. Die Sprunghöhe an der Stelle x = ξ j beträgt f j = n j /n. F (x) ist rechtsseitig stetig Ist die Urliste sehr lang (d.h. n sehr groß), so wird F (x) immer glatter 81

Eigenschaften der empirischen Verteilungsfunktion: [II] Aus F (x) lassen sich die beobachteten Merkmalswerte und deren relativen Häufigkeiten rekonstruieren. Kennt man zusätzlich noch n, so folgen aus F (x) auch die absoluten Häufigkeiten Wichtige Kennzahlen einer Datenreihe: Quantile Definition der Quantile über emp. Verteilungsfkt. F (x) 82

Definition 4.4: (p-quantil) Gegeben seien die Daten x 1,..., x n einer Urliste. Man betrachte eine beliebige reelle Zahl p mit 0 < p < 1. Das p-quantil (oder der p 100%-Punkt) der Daten (in Zeichen: x p ) ist definiert als x p = min {x R F (x) p} = kleinstes x R für das gilt F (x) p. Bemerkung: Das p-quantil x p ist also der kleinste Wert x R mit der Eigenschaft, dass mindestens p 100% der Daten kleiner oder gleich x p sind 83

Bisher: Bestimmung von Quantilen über emp. Verteilungsfunktion F (x) Jetzt: Technische Vorschrift (Algorithmus) zur Bestimmung von Quantilen aus der Urliste x 1,... x n (ohne Berechnung der emp. VF F (x)) Betrachte dazu: Geordnete Urliste der Daten x (1) x (2)... x (n) 84

Das p-quantil ist dann gegeben durch: x p = { x(n p), falls n p ganzzahlig ist x ( n p +1) sonst ( n p bezeichnet den ganzzahligen Anteil von n p) Definition 4.5: (Spezielle Quantile) Einige p-quantile haben besondere Namen: Median (p = 0.5): x 0.5 Quartile (p = 0.25, 0.5, 0.75): x 0.25, x 0.5, x 0.75 Quintile (p = 0.2, 0.4, 0.6, 0.8): x 0.2, x 0.4, x 0.6, x 0.8 85

Beispiel (Klausurnoten): [I] Urliste (ungeordnet) x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 3 4 2 1 2 4 5 5 x 9 x 10 x 11 x 12 x 13 x 14 x 15 x 16 2 1 4 5 3 3 2 4 Geordnete Urliste x (1) x (2) x (3) x (4) x (5) x (6) x (7) x (8) 1 1 2 2 2 2 3 3 x (9) x (10) x (11) x (12) x (13) x (14) x (15) x (16) 3 4 4 4 4 5 5 5 86

Beispiel (Klausurnoten): [II] Berechnung des 0.25-Quantils: n = 16, p = 0.25 n p = 16 0.25 = 4 (ganzzahlig) x 0.25 = x (n p) = x (4) = 2 Berechnung des Medians: n = 16, p = 0.5 n p = 16 0.5 = 8 (ganzzahlig) x 0.5 = x (n p) = x (8) = 3 Berechnung des 0.8-Quantils: n = 16, p = 0.8 n p = 16 0.8 = 12.8 (nicht ganzzahlig) x 0.8 = x ( n p +1) = x ( 12.8 +1) = x (12+1) = x (13) = 4 87

4.3 Metrisch skalierte Daten Jetzt: Metrisch skaliertes Merkmal X (vgl. Folie 29) Rechenoperationen mit Daten x 1,..., x n sinnvoll Unter dieser Voraussetzung: Einführung von Kennzahlen zur Beschreibung der Lage (Abschnitte 4.3.1, 4.3.2) der Streuung (Abschnitt 4.3.3) der Symmetrie (Abschnitt 4.3.6) der metrisch skalierten Daten x 1,..., x n 88

4.3.1 Lagemessung Wichtige Frage der deskriptiven Statistik: Beschreibung des Lagezentrums der erhobenen Daten x 1,..., x n durch geeignete Kennzahlen (Lagekennziffern, Lagemaße) Man beachte: Je nach Skalenniveau der Daten kommen unterschiedliche Lagemaße in Betracht 89

Beispiele: Für ordinal skalierte Daten kennen wir bereits den Modus (häufigster Wert einer Datenreihe) den Median (0.5-Quantil, 50%-Wert) Wichtigstes Lagemaß für metrisch skalierte Daten: Definition 4.6: (Arithmetisches Mittel) Für die metrisch skalierten Daten x 1,..., x n ist das arithmetische Mittel (auch: Mittelwert oder Durchschnitt) definiert durch x = 1 n (x 1 + x 2 +... + x n ) = 1 n n i=1 x i. 90

Eigenschaften des arithmetischen Mittels: [I] Arithm. Mittel und Merkmalssumme n i=1 x i = n x = x + x +... + x } {{ } n mal x liegt zwischen Minimum und Maximum: x (1) = min{x 1,..., x n } x max{x 1,..., x n } = x (n) Schwerpunkteigenschaft: n i=1 (x i x) = n i=1 x i n x = n x n x = 0 91

Eigenschaften des arithmetischen Mittels: [II] Minimumeigenschaft: Für x gilt: n i=1 (x i x) 2 = min c R n i=1 (x i c) 2 Weitere Berechnungsmöglichkeiten für x: Anhand von relativen bzw. absoluten Häufigkeiten (vgl. Folie 67) x = 1 n n i=1 x i = 1 n J j=1 ξ j n j = J j=1 ξ j f j 92

Beispiel: Grundgesamtheit: n = 520 Haushalte eines Vorortes Merkmal: Anzahl der Haushaltsmitglieder ξ j n j 1 188 2 173 3 79 4 56 5 20 6 4 Summe: 520 Durchschnittliche Haushaltsgröße: x = 1 520 (1 188 + 2 173 +... + 6 4) = 2.1519 93

Verallgemeinerung des arithmetischen Mittels: Das gewogene arithmetische Mittel: x w = n i=1 w i x i mit den Gewichten w 1,..., w n, wobei 0 w i 1 n i=1 w i = 1 94

Bemerkungen: Mit w 1 = w 2 =... = w n = 1/n ergibt sich das arithmetische Mittel als Spezialfall Das gewogene Mittel ist zu verwenden, falls das relative Gewicht einzelner Untersuchungseinheiten an der Grundgesamtheit von Bedeutung ist. Soll z.b. der durchschnittliche Strukturwandel in der BRD statistisch erfasst werden, so sind bei der Durchschnittsbildung über die einzelnen Bundesländer deren wirtschaftliche Kapazitäten zu berücksichtigen. Z.B. erhält in der Strukturberichterstattung der gemessene Strukturwandel in NRW ein höheres Gewicht als der des Saarlandes. 95

Arithmetisches Mittel vs. Median Wiederholung (vgl. Folie 85): Median ist 0.5-Quantil x 0.5 = { x (n/2), x ( n/2 +1), falls n gerade falls n ungerade Man beachte: Sowohl das arithmetische Mittel x als auch der Median x 0.5 sind populäre Lagemaße 96

Vergleich Mittelwert / Median: In die Berechnung von x fließen alle Beobacht. ein Vorteil: Es wird keinerlei Information verschenkt Nachteil: x reagiert empfindlich auf extreme Ausreißer in den Daten x 0.5 wird durch Ermittlung der mittleren Position der geordneten Urliste bestimmt ist robust gegenüber extremen Datenaus- Vorteil: x 0.5 reißern Nachteil: Es wird Information verschenkt, da nur die Position der Beobachtungen eine Rolle spielt 97

4.3.2 Weitere Mittelwerte Neben dem (gewogenen) arithmetischen Mittel gibt es eine Reihe weiterer Mittelwerte: Definition 4.7: (Harmonisches, geometrisches Mittel) Es seien x 1,..., x n metrisch skalierte Daten mit x i > 0 für i = 1,..., n. Das harmonische Mittel x H sowie das geometrische Mittel x G sind definiert als x H = 1 1 n n i=1 1 x i = 1 n n i=1 x 1 i 1 98

bzw. x G = n x 1 x 2... x n = n x i i=1 1 n. Spezielle Anwendungsgebiete: Harmonisches Mittel: Indizes vom Typ Paasche (Kapitel 5) Geometrisches Mittel: Wachstumsfaktoren und Wachstumsraten (Kapitel 5) 99

4.3.3 Streuungsmaße Weitere Frage der dekriptiven Statistik: Wie stark streuen die Daten x 1,..., x n um ein geeignet definiertes Zentrum? (Kennzahlen: Streuungs- oder Dispersionsmaße) Man beachte: Mit alternativen Lagemaßen für das Zentrum ergeben sich unterschiedliche Streuungsmaße Wichtigste Streuungsmaße für metrische Daten: Varianz und Standardabweichung 100

Definition 4.8: (Varianz, Standardabweichung) Für die metrisch skalierten Daten x 1,..., x n ist die Varianz (in Zeichen: s 2 ) definiert durch s 2 = 1 n n i=1 (x i x) 2. Die Standardabweichung (in Zeichen: s) ist definiert als die Wurzel aus der Varianz, d.h. s = s 2 = 1 n n (x i x) 2. Bemerkung: i=1 Meist wird bei der Berechnung von s 2 bzw. s nicht durch n, sondern durch n 1 dividiert (Begründung: in Statistik II) 101

Eigenschaften von s 2 und s: [I] s 2 hat quadratische Dimension, s hat gleiche Dimension wie die Daten x 1,..., x n Es gilt stets: s 2 0 und s 0 Ferner: s = 0 s 2 = 0 x 1 = x 2 =... = x n, d.h. Varianz und Std.Abwch. sind genau dann gleich 0, wenn alle Daten gleich sind (keine Streuung) 102

Eigenschaften von s 2 und s: [II] Alternative Darstellungen: s 2 = 1 n n i=1 x 2 i x2 (Proseminar) s 2 = 1 2n 2 n n i=1 j=1 ( xi x j ) 2 103

Zwei weitere zentrale Eigenschaften: [I] Es seien a, b R und x 1,..., x n erhobene Daten eines Merkmals X. Das Merkmal Y sei eine lineare Transformation von X, d.h. Y = a X + b, so dass für die Daten des Merkmals Y gilt y i = a x i + b für alle i = 1,..., n. Dann folgt für die Varianz s 2 Y s Y des Merkmals Y : bzw. die Standardabweichung s 2 Y = a2 s 2 X bzw. s Y = a s X 104

Zwei weitere zentrale Eigenschaften: [II] Für jede reelle Zahl c R gilt der Verschiebungssatz: 1 n n i=1 (x i c) 2 = s 2 + (x c) 2 Hieraus folgt die Minimumeigenschaft des arithmetischen Mittels (vgl. Folie 92): Die durchschnittliche quadratische Abweichung der Daten von einem Bezugspunkt c wird minimal, wenn man c = x wählt 105

Alternative Streuungsmaße: [I] Mittlere absolute Abweichung vom Median: d = 1 n n i=1 x i x 0.5 Es gilt die Minimierungseigenschaft: d = min c R 1 n n i=1 x i c Quartilsabstand Q Q = x 0.75 x 0.25 (Länge des Bereichs mit mittleren 50% der Daten) 106

Alternative Streuungsmaße: [II] Spannweite R R = max {x i} i=1,...,n (Länge des gesamten Datenbereichs) min i=1,...,n {x i} = x (n) x (1) Jetzt: Berechnung von Streuungsmaßen anhand von Häufigkeiten Zur Erinnerung (vgl. Folie 67): Merkmal X hat die J Ausprägungen ξ 1,..., ξ J mit den jeweiligen absoluten Häufigkeiten n 1,..., n J 107

Damit folgende Formeln für die Streuungsmaße: s 2 = 1 n s = J j=1 1 J n j=1 ( ξj x ) 2 nj ( ξj x ) 2 nj d = 1 n J j=1 ξ j x 0.5 nj R = max j=1,...,j {ξ j n j > 0} min {ξ j n j > 0} j=1,...,j 108

4.3.4 Additionssätze für arithmetische Mittel und Varianzen Ausgangssituation: Grundgesamtheit G gliedert sich in K Teilgesamtheiten G 1,..., G K Mittelwerte bzw. Varianzen in den K Teilgesamtheiten sind x 1,..., x K bzw. s 2 1,..., s2 K Umfänge der Teilgesamtheiten seien n 1,..., n K Damit ist der Umfang der Grundgesamtheit n = K n k k=1 109

Frage: Zusammenhänge zwischen dem Mittelwert x bzw. der Varianz s 2 der Grundgesamtheit und den Mittelwerten bzw. Varianzen der Teilgesamtheiten? Additionssatz für Mittelwerte: x = K k=1 x k nk n (Mittelwert der Grundgesamtheit ist gewichtetes Mittel der Mittelwerte der Teilgesamtheiten) 110

Additionssatz für Varianzen: s 2 = K s 2 k nk n k=1 } {{ } =s 2 int + K (x k x) 2 nk n k=1 } {{ } =sext 2 Bedeutung der internen bzw. externen Varianzen s 2 int, s2 ext : Interne Varianz ist gewichtetes Mittel aus den Varianzen der Teilgesamtheiten Externe Varianz ist gewichtete quadratische Abweichung der Mittelwerte x k der K Teilgesamtheiten vom Mittelwert x der Grundgesamtheit 111

Offensichtlich: Gesamtvarianz lässt sich exakt in Summe aus interner und externer Varianz zerlegen: s 2 = s 2 int + s2 ext Beispiel: 100 (Wieder-)Erwerbstätige wurden nach der Dauer X der früheren Arbeitslosigkeit befragt (in Monaten) Frauen Männer Anzahl 60 40 Mittlere Arbeitslosigkeitsdauer 9.2 7.4 Std.-Abwchg. der Arbeitslosigkeitsdauer 4.1 3.2 112

Berechnungen: x = 9.2 s 2 int = 4.1 2 60 100 + 7.4 40 100 = 8.48 60 100 + 3.22 s 2 ext = (9.2 8.48) 2 40 100 = 14.182 60 100 + (7.4 8.48)2 40 100 = 0.7776 s 2 = s 2 int + s2 ext = 14.182 + 0.7776 = 14.9596 s = 14.9596 3.9 113

4.3.5 Stetig klassierte Daten Häufiges praktisches Problem: Daten liegen nicht als Urliste x 1,..., x n vor (Einzeldaten), sondern zusammengefasst nach Klassen (stetig klassierte oder Gruppendaten) Beispiel: Verfügbares Monatseinkommen (in Euro) von 5000 Studierenden 114

f j EK-Klasse K j Studierende n j f j j x o j xu j 1 0 bis 250 300 0.06 0.00024 2 mehr als 250 bis 500 1000 0.20 0.00080 3 mehr als 500 bis 750 2000 0.40 0.00160 4 mehr als 750 bis 1000 1000 0.20 0.00080 5 mehr als 1000 700 0.14 Summe: 5000 1.00 Grund für stetige Klassierung: Bei sehr langen Datenreihen ist die Angabe von Häufigkeiten jedes einzelnen Datenpunktes oft sinnlos 115

Notationen zur Auswertung stetig klassierter Daten: Betrachte die J Klassen (Intervalle) K 1 = [x u 1, xo 1 ], K j = (x u j, xo j ], j = 2,..., J, wobei für die Intervallgrenzen gelten soll x u 1 < xo 1 = xu 2 < xo 2 = xu 3 < xo 3 <... < xo J 1 = xu J < xo J Bemerkungen: Die untere Grenze x1 u der 1. Klasse kann sein Die obere Grenze x o J der J. Klasse kann sein n j ist die Anzahl der Daten in Klasse K j f j = n j n ist der Anteil der Daten in Klasse K j 116

Damit: Die Häufigkeitsverteilung der stetig klassierten Daten ist gegeben durch bzw. durch (K 1, n 1 ), (K 2, n 2 ),..., (K J, n J ) (K 1, f 1 ), (K 2, f 2 ),..., (K J, f J ) Bemerkung: Es wird nichts über die Datenverteilung innerhalb der Klassen ausgesagt Informationsverlust 117

Probleme bei der stetigen Klassierung: Wieviele Klassen J soll man wählen? Faustregel: Wähle bei n Daten J 10 log 10 n Soll man die J Klassen alle gleich breit wählen? Ist es möglich, die oberste Klasse durch eine endliche Obergrenze sinnvoll abzuschließen? 118

Definition 4.9: (Empirische Dichte, Histogramm) Den Quotienten n j n (x o j xu j ) = f j x o j xu j bezeichnet man als empirische Dichte der Daten in der Klasse K j, j = 1, 2,..., J. Trägt man die empirischen Dichten als waagerechte Linien über den Klassen ab und zeichnet an den Klassengrenzen senkrechte Linien in Höhe der jeweiligen emprischen Dichten ein, so entsteht ein Histogramm der Daten. 119

Empirische Dichten und Histogramm zum Beispiel Studierende 0,002 0,0016 0,0012 0,0008 0,0004 0 0 250 500 750 1000 1250 1500 120

Bemerkungen zum Histogramm: Das Rechteck über der Klasse j hat die Fläche (x o j xu j ) f j x o j xu j = f j Die Gesamtfläche unter dem Histogramm beträgt 1, denn Gesamtfläche = Summe der Rechteckflächen = J j=1 (xj o xu j ) f j x o j xu j = J j=1 f j = 1 121

Jetzt: Berechnung statistischer Kenngrößen bei stetig klassierten Daten Zunächst: Empirische Verteilungsfunktion und Quantile Erinnerung: (vgl. Folie 77, Definition 4.3) Der Wert der emp. Verteilungsfunktion F (x) ist definiert als Anteil der Daten, die kleiner oder gleich x sind 122

Problem bei stetiger Klassierung: Verteilung der Daten in Klasse K j ist unbekannt Für ein x K j (x nicht auf der Ober- oder Untergrenze) ist der Anteil nicht bestimmbar Vorgehensweise: Betrachte zunächst die x R, für die die emp. Verteilungsfunktion F (x) exakt berechenbar ist 123

Zunächst gilt: F (x) = 0 für x < x u 1 1 für x x o J Weiterhin gilt an den Obergrenzen aller Klassen: F (x o j ) = j f r r=1 für alle j = 1, 2,..., J Übrig bleibt: Berechnung von F (x) für x (x u j, xo j ] 124

Vorgehensweise: Lineare Interpolation von F (x) für x (x u j, xo j ]: F (x) F (x u j ) + f j x o j xu j = F (x o j 1 ) + f j x o j xu j (x x u j ) (x x u j ) = j 1 r=1 f r + f j x o j xu j (x x u j ) 125

Beispiel: (vgl. Folien 114, 115) [I] Monatseinkommen von 5000 Studierenden Obergrenze der letzten Klasse wurde willkürlich auf 1500 Euro gesetzt j EK-Klasse K j f j F (x o j ) 1 0 bis 250 0.06 0.06 2 mehr als 250 bis 500 0.20 0.26 3 mehr als 500 bis 750 0.40 0.66 4 mehr als 750 bis 1000 0.20 0.86 5 mehr als 1000 bis 1500 0.14 1.00 126

Beispiel: [I] Zwischen Klassengrenzen wird linear interpoliert, z.b. F (650) f 1 + f 2 + f 3 x o 3 (x x u xu 3 ) 3 = 0.26 + Empirische Verteilungsfunktion zum Beispiel Studierende 0.4 (650 500) = 0.5 750 500 1 1 0,8 0,86 F(x) 0,6 0,4 0,66 0,2 0 0,26 0,06 0 500 1000 1500 x 127

Jetzt: Berechnung von Quantilen bei stetiger Klassierung über empirische Verteilungsfunktion F (x) (vgl. Folie 83, Definition 4.4) Zusatzannahme: Keine der Klassen K j besitzt die Häufigkeit 0 = Emp. VF F (x) ist streng monoton wachsend = Für jedes p (0, 1) hat die Gleichung F (x) = p eine eindeutige Lösung, nämlich das p-quantil x p 128

Explizite Berechnung von x p : [I] 1. Bestimme die Klasse K j in der x p liegt, d.h. bestimme das j für das gilt F (x u j ) < p F (xo j ) 2. Löse die Gleichung p = F (x u j ) + f j x o j (x x xu j u ) j nach x auf. Die Lösung approximiert das Quantil x p. 129

Explizite Berechnung von x p : [II] p = F (x u j ) + f j x o j xu j (x x u j ) x x u j = p F (xu j ) f j (x o j xu j ) x = x u j + p F (xu j ) f j (x o j xu j ) x = x u j + p F (xu j ) F (x o j ) F (xu j )(xo j xu j ) } {{ } x p 130

Beispiel: (vgl. Folie 126, Einkommen Studierende ) Gesucht: unteres Quartil x 0.25 Berechnung von x 0.25 : 1. 0.06 = F (x u 2 ) < 0.25 0.26 = F (xo 2 ), d.h. x 0.25 K 2 = (250, 500] 2. Damit folgt: x 0.25 250 + 0.25 0.06 (500 250) = 487.5 0.26 0.06 131

Es verbleibt: Berechnung weiterer statistischer Kennzahlen, z.b. Arithmetisches Mittel Varianz bzw. Standardabweichung (Nicht in der VL) 132

4.3.6 Schiefemessung Situation: Betrachte Urliste x 1,..., x n (keine stetige Klassierung) Wichtige praktische Feststellung: In der empirischen Wirtschaftsforschung werden Kennzahlen wie arithmetisches Mittel, Varianz, Standardabweichung etc. in der Praxis nicht per Hand ausgerechnet, sondern mit spezieller Auswertungssoftware (z.b. EViews) 133

Beispiel: (vgl. Folie 12) Tägliche Wechselkursveränderungsraten der griechischen Drachme zum Euro Stabdiagramm und statistische Kennzahlen für GRD-Veränderungsraten 500 400 300 200 100 0-1.0-0.5 0.0 0.5 Series: GRD_RET Sample 16/12/1998 1/01/2001 Observations 748 Mean 0.005082 Median 0.000000 Maximum 0.817738 Minimum -1.295992 Std. Dev. 0.114130 Skewness -1.693633 Kurtosis 38.21140 Jarque-Bera 38999.36 Probability 0.000000 134

600 500 Sy mmetris c he Verteilung Series: SYMMETRIE Sample 1 5000 Observations 5000 400 300 200 100 0-4 -3-2 -1 0 1 2 3 Mean -0.007964 Median 0.004551 Maximum 3.433310 Minimum -3.982642 Std. Dev. 0.994190 Skewness -0.019422 Kurtosis 2.939408 Jarque-Bera 1.079224 Probability 0.582974 600 500 Rechtsschiefe Verteilung Series: RECHTS Sample 1 5000 Observations 5000 400 300 200 100 0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Mean 0.168041 Median 0.150735 Max imum 0.661654 Minimum 0.002084 Std. Dev. 0.102757 Skewness 0.865684 Kurtosis 3.650617 Jarque-Bera 712.6960 Probability 0.000000 600 500 400 300 200 100 0 Linksschiefe Verteilung 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Series: LINKS Sample 1 5000 Observations 5000 Mean 0.830835 Median 0.851905 Maximum 0.996949 Minimum 0.280793 Std. Dev. 0.104683 Skewness -0.896282 Kurtosis 3.619218 Jarque-Bera 749.3160 Probability 0.000000

Fazit: Datenreihen zeigen unterschiedliches Symmetrieverhalten Jetzt: Kennzahl für Symmetrieverhalten 136

Definition 4.10: (Schiefe) Die Schiefe einer Urliste x 1,..., x n ist definiert durch n ( xi x ) 3, wobei wie üblich und g = 1 n s = i=1 x = 1 n 1 n n i=1 s n x i i=1 (x i x) 2 das arithmetische Mittel sowie die Standardabweichung der Daten bezeichnen. 137

Bemerkungen: Der zentrale Term in Definition 4.10 ist n i=1 (x i x) 3 Liegen viele Daten x i rechts von x, so ist g tendenziell positiv Liegen viele Daten x i links von x, so ist g tendenziell negativ Insgesamt gelten die folgenden Relationen: g < 0 g 0 g > 0 = Verteilung ist linksschief = Verteilung ist symmetrisch = Verteilung ist rechtsschief 138