Vorlesung: Statistik I für Wirtschaftswissenschaft

Transkript

1 Vorlesung: Statistik I für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenho Institut für Statistik, LMU München WiSe 2016/2017

2 Termine und Informationen Homepage: Vorlesung: Prof. Helmut Küchenho Di 16:00-18:00 Übung (wöchentlich): Audi max Ansprechperson: Veronika De ner Übung 1: Mi Uhr Schellingstr. 3, S 003 Übung 2: Mi Uhr Schellingstr. 3, S 001 Übung 3: Do Uhr Schellingstr. 3, S 001 Übung 4: Do Uhr Schellingstr. 3, S 002 Übung 5: Do Uhr Schellingstr. 3, S 001 Übung 6: Do Uhr Schellingstr. 3, S 002 Übung 7: Do Uhr Schellingstr. 3, S 001 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 2 / 391

3 Literatur L.Fahrmeir, Ch. Heumann, R.Künstler, I.Pigeot, G.Tutz: Statistik - Der Weg zur Datenanalyse Springer-Verlag, 8. Auflage, 2016 H.Toutenburg, C.Heumann: Deskriptive Statistik - Eine Einführung in Methoden und Anwendungen mit R und SPSS Springer-Verlag, 2009 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 3 / 391

4 Dank an Christian Heumann für Materialien und Folien Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 4 / 391

5 Einführung: Was ist Statistik? 1 Datenerhebung und Messung 2 Datenorganisation und Häufigkeitsverteilungen 3 Lagemaße 4 Streumaße 5 Analyse von Zusammenhängen 6 Zusammenhänge von metrischen Variablen 7 Regression

6 8 Komplexe Zusammenhänge 9 Regression und Mittelwertsvergleiche 10 Verhältniszahlen und Indizes 11 Zeitreihen 12 Wahrscheinlichkeit

7 Einführung: Was ist Statistik?

8 Statistik Businesses are collecting more data than they know what to do with. To turn all this information into competitive gold, they ll need new skills and a new management style. Data-driven decisions are better decisions it s as simple as that. Using big data enables managers to decide on the basis of evidence rather than intuition. Aus: Andrew McAfee and Erik Brynjolfsson: Big Data: The Management revolution. Harvard Business Review October 2012, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 7 / 391

9 Statistik für BWL und VWL? Datenanalyse ermöglicht es Unternehmen, die Wertschöpfungskette an allen Stellen zu optimieren, Im Einkauf, im Marketing, in Verkauf, Preisgestaltung und Management. Viele moderne Unternehmen haben als wichtigsten Wert Daten und Informationen (Google, Facebook) Statistische Methoden sind ein zentrales Hilfsmittel zur Analyse und Prognose von volkswirtschaftlichen Daten Auswertung von Maßnahmen von Regierungen und Institutionen werden mit statistischen Methoden bewertet Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 8 / 391

10 HR Analystics Nutzung von Befragungsdaten von MitarbeiterInnen zur Reduktion von Kündigungen Einstellungsstrategien aus Performance-Daten (talent analytics and big data) zur E zienzsteigerung Xerox used big data to reduce the attrition rate in its call centers by 20%. To do that, it had to understand what was causing the turnover, and determine ways to improve employee engagement. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 9 / 391

11 Marketing Flexible Preisgestaltung über Internet- Verkauf ermöglicht viele Strategien Projekt mit Fluglinie zur Daten- gesteuerten Preisgestaltung Experimente mit verschieden gestalteten Internetseiten Erfolge von Mailing-Aktionen abhängig von guter Datenanalyse Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 10 / 391

12 Beispiel 1: Bundestagswahl 2013 Prognose 18:00 Infratest Dimap (ARD) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 11 / 391

13 Beispiel 1: Bundestagswahl 2013 Prognose 18:00 Infratest Dimap (ARD) CDU/CSU SPD FDP Linke Grüne AFD 42,0 26,0 4,7 8,5 8,0 4,9 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 11 / 391

14 Beispiel 1: Bundestagswahl 2013 Prognose 18:00 Infratest Dimap (ARD) CDU/CSU SPD FDP Linke Grüne AFD 42,0 26,0 4,7 8,5 8,0 4,9 Ergebnis: Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 11 / 391

15 Beispiel 1: Bundestagswahl 2013 Prognose 18:00 Infratest Dimap (ARD) CDU/CSU SPD FDP Linke Grüne AFD 42,0 26,0 4,7 8,5 8,0 4,9 Ergebnis: Basis: Nachwahlbefragung Wahlberechtigte Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 11 / 391

16 Beispiel 2: Wahlfälschung Arbeit von Klimek et al. Einfache Idee: Untersuche Zusammmenhang zwischen Wahlergebnis (Stimmenanteil des Siegers) gegen die Wahlbeteiligung. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 12 / 391

17 Beispiel 3: Lebenszufriedenheit und Alter Gibt es eine Midlife Crisis? Analysen von Panel-Daten zur subjektiven Lebenszufriedenheit mit semiparametrischen Regressionsmodellen In Zusammenarbeit mit Sonja Greven, Andrea Wiencierz, Christoph Wunder C. Wunder, A. Wiencierz, J. Schwarze, and H. Küchenho. Well-being over the Life Span: Semiparametric evidence from British and German Longitudinal Data. Review of Economics and Statistics 95(1): , A. Wiencierz, S. Greven, and H. Küchenho. Restricted likelihood ratio testing in linear mixed models with general error covariance structure. Electronic Journal of Statistics 5: , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 13 / 391

18 Datengrundlage Daten stammen aus den Haushaltsstichproben A (Westdeutsche) und C (Ostdeutsche) des Sozio-Ökonomischen Panels (SOEP) für die ausgewählten Modellvariablen liegen Beobachtungen aus den Jahren 1992, 1994 bis 2006 vor durchschnittliche Anzahl von Beobachtungen pro Person: 7.77 in die Modellberechnungen gingen vollständige Beobachtungen von Individuen ein Anzahl Beobachtungen pro Jahr: Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 14 / 391

19 Ergebnis für Alterse ekt Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 15 / 391

20 Ergebnis für Alterse ekt Midlife-Crisis nur bei glatter Funktion erkennbar. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 15 / 391

21 Beispiel 5: Mineralwasserstudie Studie in Zusammenarbeit mit Prof. Adam (LMU) Fragestellung: Schmeckt mit Sauersto angereichertes Mineralwasser besser als gewöhnliches Mineralwasser? Doppel Blindstudie Kontroll Gruppe: zweimal das gleiche Wasser ohne O 2 Verum Gruppe: Beim zweiten Mal mit O 2 angereichertes Mineralwasser Ergebnis (Clausnitzer et al., 2004) : Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 16 / 391

22 Beispiel 5: Mineralwasserstudie Studie in Zusammenarbeit mit Prof. Adam (LMU) Fragestellung: Schmeckt mit Sauersto angereichertes Mineralwasser besser als gewöhnliches Mineralwasser? Doppel Blindstudie Kontroll Gruppe: zweimal das gleiche Wasser ohne O 2 Verum Gruppe: Beim zweiten Mal mit O 2 angereichertes Mineralwasser Ergebnis (Clausnitzer et al., 2004) : Placebo: 76% gaben an, dass das zweite Wasser anders schmeckt Verum : 89 % gaben an, dass das zweite Wasser anders schmeckt Signifikanter E ekt! Zulassung Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 16 / 391

23 Beispiel 5: Mineralwasserstudie Studie in Zusammenarbeit mit Prof. Adam (LMU) Fragestellung: Schmeckt mit Sauersto angereichertes Mineralwasser besser als gewöhnliches Mineralwasser? Doppel Blindstudie Kontroll Gruppe: zweimal das gleiche Wasser ohne O 2 Verum Gruppe: Beim zweiten Mal mit O 2 angereichertes Mineralwasser Ergebnis (Clausnitzer et al., 2004) : Placebo: 76% gaben an, dass das zweite Wasser anders schmeckt Verum : 89 % gaben an, dass das zweite Wasser anders schmeckt Signifikanter E ekt! Zulassung Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 16 / 391

24 Ziele und Methoden Randomisierte Studie (Doppelblind) Entscheidungsfindung durch statistischen Test Quantifizierung des E ekts Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 17 / 391

25 Was ist Statistik? Definition Statistik Statistik als Wissenschaft bezeichnet eine Methodenlehre, die sich mit der Erhebung, der Darstellung, der Analyse und der Bewertung von Daten auseinander setzt. Ein zentraler Aspekt ist dabei die Modellbildung mit zufälligen Komponenten. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 18 / 391

26 Was ist Statistik? Definition Statistik Statistik als Wissenschaft bezeichnet eine Methodenlehre, die sich mit der Erhebung, der Darstellung, der Analyse und der Bewertung von Daten auseinander setzt. Ein zentraler Aspekt ist dabei die Modellbildung mit zufälligen Komponenten. Teilgebiete: Deskriptive Statistik: beschreibend Explorative Datenanalyse: Suche nach Strukturen Induktive Statistik: Schlüsse von Daten auf Grundgesamtheit oder allgemeine Phänomene Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 18 / 391

27 Zitate Traue keiner Statistik, die Du nicht selbst gefälscht hast (nicht von Churchill) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 19 / 391

28 Zitate Traue keiner Statistik, die Du nicht selbst gefälscht hast (nicht von Churchill) Statistics is a body of methods for making wise decisions in the face of uncertainty (W.A. Wallis, A.V. Roberts) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 19 / 391

29 Zitate Traue keiner Statistik, die Du nicht selbst gefälscht hast (nicht von Churchill) Statistics is a body of methods for making wise decisions in the face of uncertainty (W.A. Wallis, A.V. Roberts) Statistisches Denken wird eines Tages für mündige Staatsbürger ebenso wichtig sein, wie die Fähigkeit zu lesen und zu schreiben (H.G. Wells) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 19 / 391

30 Zitate Traue keiner Statistik, die Du nicht selbst gefälscht hast (nicht von Churchill) Statistics is a body of methods for making wise decisions in the face of uncertainty (W.A. Wallis, A.V. Roberts) Statistisches Denken wird eines Tages für mündige Staatsbürger ebenso wichtig sein, wie die Fähigkeit zu lesen und zu schreiben (H.G. Wells) You can t manage what you don t measure (W.E. Deming) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 19 / 391

31 Zitate Traue keiner Statistik, die Du nicht selbst gefälscht hast (nicht von Churchill) Statistics is a body of methods for making wise decisions in the face of uncertainty (W.A. Wallis, A.V. Roberts) Statistisches Denken wird eines Tages für mündige Staatsbürger ebenso wichtig sein, wie die Fähigkeit zu lesen und zu schreiben (H.G. Wells) You can t manage what you don t measure (W.E. Deming) Seit der Finanzkrise gibt es in der Ökonomie einen starken Trend zur empirischen Forschung, die enorm aufgewertet wurde. Kein Wissenschaftler bekommt heute ein makroökonomisches Paper in einem guten Journal verö entlicht, in dem er nicht saubere... empirische Forschung präsentiert (SZ ). Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 19 / 391

32 BIG DATA Analyse und Verarbeitung großer Datenmengen Drei Vs Volume Velocity Variety Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 20 / 391

33 1 Datenerhebung und Messung Die Messung Skalenniveaus

34 Vorlesungseinheiten (vorläufig) 1 Datenerhebung und Messung 2 Häufigkeitsverteilungen 3 Lagemaße 4 Streuungsmaße 5 Konzentrationsmaße 6 Zusammenhangmaße 7 lineare Regression 8 Indizes

35 Grundbegri e Statistische Einheit, Untersuchungseinheit Grundgesamtheit/ Population Teilgesamtheit/ Stichprobe Merkmal Merkmalsausprägung Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 23 / 391

36 Untersuchungseinheit und Grundgesamtheit Definition Untersuchungseinheit Die Objekte, auf die sich eine statistische Analyse bezieht, heißen Untersuchungseinheiten. Diese werden im folgenden durch das Symbol! dargestellt. Definition Grundgesamtheit Die Zusammenfassung aller Untersuchungseinheiten bildet die Grundgesamtheit. Sie wird durch das Symbol dargestellt. Die Beziehung zwischen Untersuchungseinheiten und zugehöriger Grundgesamtheit lässt sich kurz wie folgt umschreiben:! i 2. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 24 / 391

37 Untersuchungseinheit und Grundgesamtheit 1. Beispiel: Personalstruktur einer Firma Wenn wir uns für die Personalstruktur einer Firma interessieren, so besteht die Grundgesamtheit aus der gesamten Belegschaft; jeder einzelne Mitarbeiter stellt eine Untersuchungseinheit dar. 2. Beispiel: Wirtschaftskraft der chemischen Industrie in Europa Hier sind die europäischen Chemiefirmen die Untersuchungseinheiten. Zusammengefasst ergibt sich aus ihnen die Grundgesamtheit der europäischen Chemieindustrie. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 25 / 391

38 Merkmal, Merkmalsausprägung und Merkmalsraum Definition Merkmal bzw. statistische Variable Bestimmte Aspekte oder Eigenschaften einer Untersuchungseinheit bezeichnet man als Merkmal oder statistische Variable. Definition Merkmalsausprägung Eine Merkmalsausprägung ist der konkrete Wert eines Merkmals, die eine bestimmte Untersuchungseinheit aufweist. Es gibt zwei Typen von Ausprägungen: Qualitativ Sie lassen sich durch die verschiedenartigen Ausprägungen charakterisieren. Quantitativ Diese sind messbar und werden durch Zahlen erfasst. Bei diesen gibt es eine weitere Unterscheidung: diskret Der zugehörige Zustandsraum ist abzählbar groß. stetig Es sind überabzählbar viele Elemente im Zustandsraum. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 26 / 391

39 Merkmal, Merkmalsausprägung und Merkmalsraum Definition Merkmalsraum oder Zustandsraum Die Menge aller möglichen Merkmalsausprägungen bildet den Merkmalsraum oder Zustandsraum. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 27 / 391

40 Merkmal, Merkmalsausprägung und Merkmalsraum Beispiele Merkmal bzw. statistische Variable 1 Farbe eines Produkts 2 bestellte Produkte pro Auftrag 3 Gewinn/Verlust pro Monat Beispiele Merkmalsausprägung 1 6. Gut = blau Kunde = 17 Stück 3 März 2010 = e Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 28 / 391

41 Weitere Klassen Quasi-stetiges Merkmal diskret, sehr kleine Einheiten, praktisch stetig. Beispiel: Monetäre Größen in Cent, usw. Gruppierte Daten, Häufigkeitsdaten: stetiges oder quasi-stetiges Merkmal X Wertebereich wird in Gruppen (Klassen, Kategorien) eingeteilt. Beispiele: Gehalt in Gehaltsklassen, Alter in Altersklassen Bemerkung: Gruppierung dient auch dem Datenschutz! Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 29 / 391

42 Datengewinnung und Erhebungsarten Vollerhebung: Alle statistischen Einheiten der Grundgesamtheit werden untersucht ( erhoben ). Stichprobe = Teilerhebung Zufallsstichprobe: statistische Einheiten der Stichprobe werden zufällig nach einem bestimmten Mechanismus gezogen Mehr dazu in Statistik II (induktive Statistik) und in der Vorlesung Stichprobenverfahren Bewusste Auswahlverfahren Expertenauswahl Quotenauswahl Induktive Statistik in der Regel nur mit zufälliger Stichprobe möglich! Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 30 / 391

43 Erhebungsarten Querschnittsdaten: Ein oder mehrere verschiedene Merkmale werden an einer Reihe von Objekten einmal erhoben (zu einem bestimmten Zeitpunkt oder in einem bestimmten Zeitraum) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 31 / 391

44 Erhebungsarten Querschnittsdaten: Ein oder mehrere verschiedene Merkmale werden an einer Reihe von Objekten einmal erhoben (zu einem bestimmten Zeitpunkt oder in einem bestimmten Zeitraum) Zeitreihe Beispiele: Aktienkurse, Wirtschaftsentwicklung Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 31 / 391

45 Erhebungsarten Querschnittsdaten: Ein oder mehrere verschiedene Merkmale werden an einer Reihe von Objekten einmal erhoben (zu einem bestimmten Zeitpunkt oder in einem bestimmten Zeitraum) Zeitreihe Beispiele: Aktienkurse, Wirtschaftsentwicklung Longitudinal-, Längsschnitt- oder Paneldaten: Ein oder mehrere Merkmale werden mehrmals zu verschiedenen Zeitpunkten an einer Reihe von Objekten erhoben. Beispiel: Sozioökonomisches Panel Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 31 / 391

46 Experimente Es werden in der Regel verschiedene Behandlungen verglichen Experimentator greift ein Randomisierte Studie: Zuordnung von Einheiten zu Behandlungen erfolgt durch Losverfahren (Randomisierung) Randomisierte Experimente in der BWL (Spiele, WWW) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 32 / 391

47 Messen Measurement is the contact of reason with nature Henry Margenau (1959) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 33 / 391

48 Messen Measurement is the contact of reason with nature Henry Margenau (1959) In its broadest sense, measurement is the assignment of numerals to objects or events according the rules Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 33 / 391

49 Messen Measurement is the contact of reason with nature Henry Margenau (1959) In its broadest sense, measurement is the assignment of numerals to objects or events according the rules Messen bedeutet die Zuordnung von Zahlen zu Ausprägungen von Merkmalen an Objekten. Physikalische Messung Beispiele: Gewicht, Blutdruck, Fettaufnahme Psychologie Beispiele: Intelligenz, Gewaltbereitschaft, Performance Wirtschaftswissenschaften Beispiele: Inflation, Bruttosozialprodukt, Umsatz, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 33 / 391

50 Definition Peter! 1.84 Stefan! 1.91 Laura! 1.72 Merkmal definiert Relation (Struktur) zwischen den Objekten. Messung: strukturerhaltende Abbildung (Homomorphismus) Peter ist kleiner als Stefan, 1.84 < 1.91 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 34 / 391

51 Nominalskala Beispiele: Diagnosen, Geschlecht Struktur: keine Mögliche Aussagen: gleich, ungleich Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 35 / 391

52 Ordinal- oder Rangskala Beispiele: Schulbildung, soziale Schicht, Schulnoten Struktur: lineare Ordnung Mögliche Aussagen: gleich, ungleich, größer, kleiner Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 36 / 391

53 Intervallskala Beispiele: Umsatz, Preisindex, Schulnoten (??) Struktur: Abstände sinnvoll definiert Mögliche Aussagen: gleich, ungleich, größer, kleiner, Di erenzen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 37 / 391

54 Verhältnisskala Intervallskala mit Nullpunkt Beispiele: Gewinn, Preis, Beschäftigungsdauer, Alter Struktur: Abstände definiert, Nullpunkt Mögliche Aussagen: gleich, ungleich, größer, kleiner, Di erenzen, Verhältnis Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 38 / 391

55 Absolutskala Beispiel: Häufigkeit Struktur: Einheit liegt auf natürliche Weise fest Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 39 / 391

56 Skalenniveau Beachte: Je höher das Skalenniveau, desto mehr Interpretationen und Rechnungen sind möglich Je höher das Skalenniveau, desto mehr (implizite) Annahmen werden gemacht sinnvoll interpretierbare Berechnungen Skalenart auszählen ordnen Di erenzen bilden Quotienten bilden nominal ja nein nein nein ordinal ja ja nein nein intervall ja ja ja nein verhältnis ja ja ja ja Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 40 / 391

57 Indexbildung Bildung von Einzelindikatoren zu einer neuen Variablen Häufig: Bildung von (gewichteten) Summen von einzelnen Variablen Beispiel: Pflege Qualität = a 1 Q(Essen) + a 2 Q(Medizinische Versorgung) +... Indexbildung folgt nur theoretischen Vorgaben und fachspezifischen Überlegungen Fragen der Statistik: Gleichheit sinnvoll? (Dimensionsreduktion zulässig) Ordnung bzw. Abstände sinnvoll? Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 41 / 391

58 2 Datenorganisation und Häufigkeitsverteilungen Datenorganisation Statistik-Software Häufigkeiten

59 Deskriptive Statistik Data is merely the raw material of knowledge. Ziel: Beschreibung von Daten mit möglichst geringem Informationsverlust Eigenschaften und Strukturen sichtbar machen Graphisch und durch Kennwerte Eindimensional und mehrdimensional Zunächst keine Schlüsse auf die Grundgesamtheit oder allgemeine Phänomene Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 43 / 391

60 Rohdaten und Datenmatrix Die Daten liegen in der Regel als Datenmatrix vor: Zeilen entsprechen Untersuchungseinheiten Spalten entsprechen Merkmalen Elemente der Matrix sind die Merkmalsausprägungen Fragen mit Mehrfachnennungen als einzelne binäre Merkmale definieren Hinweise zur Eingabe unter http: // Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 44 / 391

61 Beispiel: Mietspiegel Nr nm nmqm wfl rooms bj bez kueche Untergiesing Bogenhausen Obergiesing Schwanthh Aubing Schwanthh 0 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 45 / 391

62 Kodierung Motivation Da es nicht möglich ist, mit Zeichenketten zu rechnen, müssen qualitative Merkmale für die statistische Analyse mit einer Statistik-Software geeignet aufbereitet werden. Definition Kodierung Der Vorgang, bei dem man Merkmalsausprägungen oder fehlenden Werten Zahlen zuordnet, die die entsprechende Ausprägung repräsentieren, bezeichnet man als Kodierung. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 46 / 391

63 Dateneingabe Nützliche Werkzeuge Um die erhobenen Daten von Beobachtungen, Umfragen oder Experimenten auszuwerten, diese gebündelt in einer Datei abzuspeichern. Dafür eignen sich Tabellenkalkulationsprogramme Excel, Lotus Datenbaksysteme dbase, Paradox, Access, MySQL Statistikpakete R, SAS,SPSS,STATA Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 47 / 391

64 SPSS Vorteile Nachteile umfassendes Paket an statistischen Methoden vorhanden erarbeitete Skripte können auf neue Daten leicht angepasst werden schnelle Einarbeitung in die Benutzeroberfläche Konsistenzüberprüfung der Daten vorhanden Skripterstellung bedarf Einarbeitung Formatierung von Diagrammen in der Benutzeroberfläche zum Teil umständlich teure Lizenz Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 48 / 391

65 Programmiersprache R Vorteile umfassendes Paket an statistischen Methoden vorhanden erarbeitete Skripte können auf neue Daten leicht angepasst werden bequeme Schnittstellen zu Dateien/Datenbanken vorhanden kostenlos beziehbar unter Editor R-Studio unter Kurse für Studierende der LMU Nachteile bedarf Einarbeitung keine eigene Datenverwaltung vorhanden Updates nicht notwendiger Weise kompatibel zu älteren Versionen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 49 / 391

66 Eindimensionale Häufigkeitsverteilung Ordnen der Daten nach einem Merkmal Auszählen der Häufigkeiten der einzelnen Merkmalsausprägungen Relative Häufigkeiten = Häufigkeit/Anzahl der Untersuchungseinheiten Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 50 / 391

67 Häufigkeitsverteilung Im Weiteren: X, Y,... Bezeichnung für Merkmal nuntersuchungseinheiten x 1,...,x i,...,x n, i =1,...,n beobachtete Werte bzw. Merkmalsausprägungen von X { x 1,...,x i,...,x n ; i =1,...,n} Rohdaten Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 51 / 391

68 Häufigkeiten I a 1 < a 2 <...<a k, k apple n der Größe nach geordnete, verschiedene Werte x 1,...,x n Beispiel: Absolventenstudie Für die Variable D Ausrichtung der Diplomarbeit sind die Daten durch die folgende Tabelle gegeben. Person i Variable D Person i Variable D Person i Variable D Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 52 / 391

69 Häufigkeiten II Ausprägung absolute Häufigkeit h relative Häufigkeit f 1 2 2/36 = /36 = /36 = /36 = Häufigkeitstabelle für die Variable D Ausrichtung der Diplomarbeit Bemerkungen: Für Nominalskalen hat die Anordnung < keine inhaltliche Bedeutung. Bei kategorialen Merkmalen ) k = Anzahl der Kategorien Bei stetigen Merkmalen ) k oft nicht oder kaum kleiner als n. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 53 / 391

70 Absolute und relative Häufigkeiten h(a j )=h j absolute Häufigkeit der Ausprägung a j, d.h. Anzahl der x i aus x 1,...x n mit x i = a j f (a j )=f j = h j /n relative Häufigkeit von a j h 1,...,h k absolute Häufigkeitsverteilung f 1,...,f k relative Häufigkeitsverteilung Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 54 / 391

71 Klassenbildung Vorgehensweise bei vielen Ausprägungen Bei stetigen Merkmalen und diskreten Merkmalen mit vielen Ausprägungen (= quasistetig) bedarf es des Zwischenschritts der Klassenbildung, umeineüberschaubare Verteilung zu erhalten. Klassenbildung Als Anhaltspunkt für eine brauchbare Verteilung sollten p n Klassen gebildet werden. Bei der Wahl der Klassen gibt es zwei Möglichkeiten: 1 nach sachlogischen Gegebenheiten 2 nach willkürlichen Kriterien, wobei die zweite Gestaltungsart Raum zur Manipulation der Häufigkeitsstruktur scha t und deshalb vermieden werden sollte. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 55 / 391

72 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio [900; 1500[ 9,3688 Mio [1500; 2600[ 12,2696 Mio [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391

73 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio [900; 1500[ 9,3688 Mio [1500; 2600[ 12,2696 Mio [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 5, ,2 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391

74 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio [1500; 2600[ 12,2696 Mio [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391

75 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio [1500; 2600[ 12,2696 Mio [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 9, ,2 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391

76 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391

77 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 12, ,2 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391

78 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio 0,313 [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391

79 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio 0,313 [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 7, ,2 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391

80 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio 0,313 [2600; 4500[ 7,4088 Mio 0,189 [4500; 1[ 4,4296 Mio 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391

81 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio 0,313 [2600; 4500[ 7,4088 Mio 0,189 [4500; 1[ 4,4296 Mio 39,2 Mio 4, ,2 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391

82 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio 0,313 [2600; 4500[ 7,4088 Mio 0,189 [4500; 1[ 4,4296 Mio 0,113 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391

83 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio 0,313 [2600; 4500[ 7,4088 Mio 0,189 [4500; 1[ 4,4296 Mio 0,113 39,2 Mio 1 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391

84 Häfigkeitstabelle Definition Häufigkeitstabelle Die tabellarische Zusammenfassung der Merkmalsausprägungen a j bei qualitativen und diskreten Merkmalen Klassengrenzen nur bei (quasi-)stetigen Merkmalen Klassenbreiten nur bei stetigen Merkmalen absoluten Häufigkeiten h j relativen Häufigkeiten f j für alle Merkmalsausprägungen j = 1,...,k wird als Häufigkeitstabelle bezeichnet. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 57 / 391

85 Häfigkeitstabelle allgemeine Form bei qualitativen und diskreten Merkmalen j a j h j f j 1 a 1 h 1 f k a k h k f k n 1 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 58 / 391

86 Beispiel Weltbevölkerung nach Kontinenten im Jahr 2002 lfd Nr. (j) Kontinent (a j ) abs. H keit (h j ) rel. H keit (f j ) 1 Asien Mio 0,607 2 Afrika 832 Mio 0,134 3 Europa 725 Mio 0,116 4 Lateinamerika 534 Mio 0,086 5 Nordamerika 320 Mio 0,052 6 Ozeanien 31 Mio 0, Mio 1,000 Quelle: UNFPA Weltbevölkerungsbericht 2002 New York / Stuttgart Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 59 / 391

87 Grafische Darstellungen Ein Bild sagt mehr als tausend Worte Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 60 / 391

88 Statistische Grafik Lit.: Tufte, E. (2001): The visual Display of Information. Graphic Press 2nd ed. Allgemeine Kriterien Wahl der Skala inkl. Bereich Wahl des Prinzips (Längentreue, Flächentreue) Einbringen von anderen Visualisierungen (Piktogramme etc.) Angemessene Wahl der Variablen Angemessene Wahl der Farben Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 61 / 391

89 Wahrnehmung von Grafiken Experimente von Psychologen zeigen Hierarchie der korrekten Interpretation (Cleveland/McGill) 1 Abstände 2 Winkel 3 Flächen 4 Volumen 5 Farbton-Sattheit-Schwärzegrad Da Abstände am besten wahrgenommen werden, sollten diese bevorzugt verwendet werden. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 62 / 391

90 Grafische Darstellungen SZ Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 63 / 391

91 Entwicklung der weltweiten Kunststo produktion JOHANNES KEPLER UNIVERSITÄT LINZ IFAS - INSTITUT FÜR ANGEWANDTE STATISTIK Unsinn in den Medien Vom allzu sorglosen Umgang mit Daten: Grafische Darstellungen (gefunden am 6. September 2014 auf Seite 7 im Magazin der Oberösterreichischen Nachrichten) Mio. t (Für den Kommentar verantwortlich: Andreas Quatember, IFAS) Grafik von Andreas Quatember (Universität Linz) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 64 / 391

92 Kommentar: Eine waschechte Zeitungsente! Die mengenmäßige Entwicklung der weltweiten Kunststo produktion über drei Zeitpunkte (1976, 2002, 2012) wird hier durch immer größer werdenden Quietschentchen dargestellt. Unterschiedlichen Zeiträume zwischen den Jahreszahlen mal hin. Eindruck einer Versechsfachung (288 : 47 = 6,1) falsch! Volumina werden miteinander verglichen 3 D -Darstellungen sind zu vermeiden Räumliche Darstellungen von eindimensionalen Häufigkeiten führen meist zu verzerrter Wahrnehmung. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 65 / 391

93 Beispiel: Liniendiagramm (??) Umsatzerlös Jahr Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 66 / 391

94 Beispiel: Liniendiagramm (!!) Umsatzerlös Jahr Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 67 / 391

95 Typen von eindimensionalen Darstellungen Stab-, Balken- und Säulendiagramm Kreis (Torten)-Diagramm Histogramm Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 68 / 391

96 Stabdiagramm, Säulen- und Balkendiagramm Stabdiagramm: Trage über a 1,...,a k jeweils einen zur x-achse senkrechten Strich (Stab) mit Höhe h 1,...,h k (oder f 1,...,f k )ab. Säulendiagramm: wie Stabdiagramm, aber mit Rechtecken statt Strichen. Balkendiagramm: wie Säulendiagramm, aber mit vertikal statt horizontal gelegter x-achse. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 69 / 391

97 Säulendiagramm Darstellung der absoluten oder relativen Häufigkeiten als Höhen (Längen) x-achse: Ausprägungen des Merkmals y-achse: absolute/ relative Häufigkeiten Anwendungen: Ordinale Merkmale Metrische Merkmale mit wenigen Ausprägungen Nominale Merkmale (Problem: Ordnung nicht vorhanden) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 70 / 391

98 Beispiel : Zahl der Zimmer im Mietspiegel Anzahl der Zimmer Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 71 / 391

99 Kreisdiagramm, Tortendiagramm Darstellung der relativen (absoluten) Häufigkeiten als Fläche eines Kreises Anwendung: Nominale Merkmale Ordinale Merkmale (Problem: Ordnung nicht korrekt wiedergegeben) Gruppierte Daten Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 72 / 391

100 Mietspiegel: Zahl der Zimmer Anzahl der Zimmer Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 73 / 391

101 Stapeldiagramm Darstellen der absoluten oder relativen Häufigkeiten als Länge. Die Abschnitte werden übereinander in verschiedenen Farben gestapelt. Anwendungen: Ordinale Daten Gruppierte Daten Metrische Daten mit wenigen Ausprägungen Besonders geeignet für den Vergleich verschiedener Gruppen durch nebeneinander liegende Stapel. Zu beachten ist dann die Unterscheidung: relative Häufigkeit $ absolute Häufigkeit Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 74 / 391

102 Beispiel: Zahl der Zimmer/Küchenausstattung Gruppen: 1 = gehobene Ausstattung der Küchen, 0 keine gehobene Ausstattung der Küche Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 75 / 391

103 Beispiel: Zahl der Zimmer/Küchenausstattung Gruppen: 1 = gehobene Ausstattung der Küchen, 0 keine gehobene Ausstattung der Küche Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 76 / 391

104 Beispiel: Intoleranz in Bayern SZ Studie aus der LMU Soziologie Christian Ganser SZ vom SZ Grafik; Quelle LMU München Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 77 / 391

105 Beispiel: Intoleranz in Bayern SZ SZ vom Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 78 / 391

106 Das Histogramm Darstellung der relativen Häufigkeiten durch Flächen (Prinzip der Flächentreue) Vorgehen: 1 Aufteilung in Klassen (falls die Daten noch nicht gruppiert sind) 2 Bestimmung der relativen Häufigkeiten f j = h j n 3 Bestimmung der Höhen l j, so dass gilt b j l j = f j wobei b j :BreitederKlassej. 4 Bei gleichen Klassenbreiten b j = b gilt l j = f j b = h j b n.daherwirdbei solchen Histogrammen als Höhe auch h j gewählt 5 Klassierung sollte möglichst mit gleichen Klassenbreiten erfolgen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 79 / 391

107 Mietspiegel Mieten in München Anzahl Nettoquadratmetermiete Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 80 / 391

108 Histogramm Anwendung bei metrischen Daten Beachte: Abhängigkeit von der Breite Klasse inhaltlich vorgeben, verschiedene Varianten ansehen. Vorsicht bei Rändern Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 81 / 391

109 Empirische Verteilungsfunktion H(x) := Anzahl der Werte <= x bzw. F (x) =H(x)/n =AnteilderWerte x i mit x i apple x F (x) =f (a 1 )+...+ f (a j )= X f i, i:a i applex wobei a j apple x und a j+1 > x ist. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 82 / 391

110 empirische Verteilungsfunktion ordinaler und diskreter Merkmale Beispiel Zugrunde liegende Daten entstammen dem Münchner Mietspiegel von Anz. abs. rel. F (x) Räume H keit H keit ,092 0, ,342 0, ,384 0, ,144 0, ,033 0, , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 83 / 391

111 Beispiel für eine Empirische Verteilungsfunktion Zahl der Zimmer (Verteilungsfunktion) Fn(x) Anzahl Zimmer Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 84 / 391

112 Eigenschaften von F (x) monoton wachsende Treppenfunktionen mit Sprüngen an den Ausprägungen a 1,...,a k Sprunghöhen: f 1,...,f k rechtsseitig stetig F (x) =0für x < a 1, F (x) =1für x a k Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 85 / 391

113 Beispiel für eine Empirische Verteilungsfunktion Mieten in München (Verteilungsfunktion) Fn(x) Nettoquadratmetermiete Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 86 / 391

114 3 Lagemaße Modus Median Quantile Darstellung: Boxplot Mittelwert

115 Fragen Wo liegt die Masse der Daten? Wo liegt die Mehrzahl der Daten? Wo liegt die Mitte der Daten? Welche Merkmalsausprägung ist typisch für die Häufigkeitsverteilung? Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 88 / 391

116 Modus verwendbar bei Merkmalen mit Nominalskala Ordinalskala metrische Skala x x x Definition Modus Als Modus oder Modalwert x M bezeichnet man den häufigsten Wert einer Verteilung. Bei diskreten Daten ist der Modus die Merkmalsausprägung a j,die am häufigsten auftritt. Bei mehreren Maxima ist der Modus nicht eindeutig definiert. Für gruppierte Daten ist der Modus definiert als die Klassenmitte der am dichtesten besetzten Gruppe. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 89 / 391

117 Der Modus: Eigenschaften Eigenschaften: oft nicht eindeutig nur bei gruppierten Daten oder bei Merkmalen mit wenigen Ausprägungen sinnvoll stabil bei allen eindeutigen Transformationen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 90 / 391

118 Beispiel Gegeben sei folgende Werteliste: 4, 5, 5, 6, 6, 6, 7, 7, 9. Die zugehörige Häufigkeitstabelle ergibt und somit x M = 6. Ausprägung H keit Bei einer Datentransformation, hier z.b. Y = X 2, ergibt sich: ȳ M = 36 = ( x M ) 2 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 91 / 391

119 Median verwendbar bei Merkmalen mit Nominalskala Ordinalskala metrische Skala x x Definition Median oder Zentralwert Der Median oder Zentralwert wird aus den geordneten Daten gewonnen. Er wird durch die Forderung bestimmt, dass 50% der beobachteten Werte kleiner oder gleich und 50% der beobachteten Werte größer oder gleich dem Median sein sollen. Er wird mit x 0,5 bezeichnet. Eine alternative Formulierung für die Bestimmung des Medians ist über die empirische Verteilungsfunktion durch die Forderung F ( x 0,5 )=0, 5 gegeben. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 92 / 391

120 Median Berechnung des Medians ( x 0,5 = x (n+1)/2 falls n ungerade 1 2 (x (n/2) + x (n/2+1) ) falls n gerade Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 93 / 391

121 Eigenschaften des Medians anschaulich geeignet für ordinale Daten stabil gegenüber Ausreißern Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 94 / 391

122 Median Beispiel Gegeben sei zunächst die Werteliste ohne größeren Ausreißer: Da n = 9 ungerade ist, gilt: 4, 5, 5, 6, 6, 6, 7, 7, 9. x 0,5 = x (n+1)/2 = x (9+1)/2 = x 5 =6 Wird nun die Werteliste mit einem deutlichen Ausreißer versehen, also 4, 5, 5, 6, 6, 6, 7, 7, 28, so verbleibt der Median bei 6, denn der neue Extremwert übt keinen Einfluß aus, wie die obige Berechnung aufzeigt. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 95 / 391

123 Das Quantil Definition: Wert für den gilt: Mindestens Anteil p der Daten sind kleiner oder gleich x p Mindestens Anteil 1 p der Daten sind größer oder gleich x p x(k) 2 x (k) ; x (k+1) falls np keine ganze Zahl und k kleinste Zahl > np falls k = np ganze Zahl Es gibt weitere Definitionen von Quantilen (in R 9 Typen), die sich aber in der Praxis kaum unterschieden. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 96 / 391

124 Quantile: Berechnung Berechnung von Quantilen x = 8 >< x (k) falls n keine ganze Zahl ist, k ist dann die kleinste ganze Zahl > n, >: 1 2 (x (n ) + x (n +1) ) falls n ganzzahlig ist. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 97 / 391

125 Quantile Besondere Quantile Bei der Charakterisierung von Verteilungen haben folgende Quantile eine besondere Bedeutung: Median entspricht dem 50%-Quantil (siehe oben) unteres Quartil entspricht dem 25%-Quantil oberes Quartil entspricht dem 75%-Quantil Fünf-Punkte Zusammenfassung Minimum, 25%-Quantil, Median, 75%-Quantil, Maximum Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 98 / 391

126 Beispiel Gegeben sei die (altbekannte) Werteliste: 4, 5, 5, 6, 6, 6, 7, 7, 9. Für das untere Quartil x 0,25 ergibt sich der Wert 5, denn n =9 0, 25 = 2, 25 nicht ganzzahlig ) x 0,25 = x (3) =5 Fünf-Punkte Zusammenfassung: 4,5,6,7,9 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 99 / 391

127 Boxplot Einfacher Boxplot x 0.25 = Anfang der Schachtel (Box) x 0.75 = Ende der Schachtel d Q =Länge der Schachtel Der Median wird durch den Strich in der Box markiert Zwei Linien ( whiskers ) außerhalb der Box gehen bis zu x min und x max. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 100 / 391

128 Einfacher Boxplot Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 101 / 391

129 Einfacher Boxplot Median: x (5) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 101 / 391

130 Einfacher Boxplot Median: x (5) unteres Quartil: x (3) oberes Quartil: x (7) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 101 / 391

131 Einfacher Boxplot Median: x (5) unteres Quartil: x (3) oberes Quartil: x (7) Minimum: x (1) Maximum: x (9) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 101 / 391

132 Einfacher Boxplot Median: x (5) unteres Quartil: x (3) oberes Quartil: x (7) Minimum: x (1) Maximum: x (9) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 101 / 391

133 Boxplot Modifizierter Boxplot Die Linien außerhalb der Schachtel werden nur bis zu x min bzw. x max gezogen, falls x min und x max innerhalb des Bereichs [z u, z o ]derzäune liegen. z u = x , 5d Q, z o = x , 5d Q Ansonsten gehen die Linien nur bis zum kleinsten bzw. größten Wert innerhalb der Zäune, die außerhalb liegenden Werte werden individuell eingezeichnet. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 102 / 391

134 Modifizierter Boxplot Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 103 / 391

135 Modifizierter Boxplot Median: x (9), Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 103 / 391

136 Modifizierter Boxplot Median: x (9),unteresQuartil:x (5), oberes Quartil: x (13) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 103 / 391

137 Modifizierter Boxplot Median: x (9),unteresQuartil:x (5), oberes Quartil: x (13) Maximale Whiskerlänge unten: x (5) 1.5d =3 Maximale Whiskerlänge oben: x (13) +1.5d = 35 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 103 / 391

138 Modifizierter Boxplot Median: x (9),unteresQuartil:x (5), oberes Quartil: x (13) Maximale Whiskerlänge unten: x (5) 1.5d =3 Maximale Whiskerlänge oben: x (13) +1.5d = 35 x min ohne Ausreißer: x (3) = 12 x max ohne Ausreißer: x (16) = 29 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 103 / 391

139 Modifizierter Boxplot Median: x (9),unteresQuartil:x (5), oberes Quartil: x (13) Maximale Whiskerlänge unten: x (5) 1.5d =3 Maximale Whiskerlänge oben: x (13) +1.5d = 35 x min ohne Ausreißer: x (3) = 12 x max ohne Ausreißer: x (16) = 29 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 103 / 391

140 Beispiel: Münchner Mietspiegel Nettoquadratmetermiete Nettoquadratmetermiete Euro Euro Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 104 / 391

141 Beispiel: Münchner Mietspiegel Nettoquadratmetermiete Nettoquadratmetermiete Euro Euro Zahl der Zimmer Zahl der Zimmer Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 105 / 391

142 Beispiel: Münchener Staubdaten Staubkonzentration am Arbeitsplatz Staubkonzentration am Arbeitsplatz Frequency Exposition Exposition Beachte: Bimodale Verteilung im Boxplot nicht erkennbar. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 106 / 391

143 Boxplot: Vor- und Nachteile pro: kompakt geeignet für Vergleiche Ausreißer sichtbar Schiefe sichtbar contra gegen Intuition (Viel Farbe wenig Daten) Bimodale Verteilungen nicht sichtbar Ausreißer sichtbar Breite redundant Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 107 / 391

144 Der Mittelwert (arithmetisches Mittel) nx x = 1 n i=1 x i bekanntestes Lagemaß instabil gegen extreme Werte geeignet für intervallskalierte Daten Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 108 / 391

145 Mittelwert bei gruppierten Daten nx x = 1 n i=1 x i = 1 n (x 1 + x x n ) = 1 n kx h j a j j=1 h j :Häufigkeit von a j Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 109 / 391

146 Getrimmtes Mittel Um die Ausreißerempfindlichkeit von x abzuschwächen definiert man x = 1 n 2r x (i) : geordnete x-werte r ist die größte ganze Zahl mit r apple n Xn r i=r+1 x (i) Es wird also der Anteil der extremsten Werte abgeschnitten. -getrimmtes Mittel Winsorisiertes Mittel (gestutztes Mittel) Der Anteil der extremsten Werte wird durch das entsprechende Quantil ersetzt. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 110 / 391

147 Das geometrische Mittel v uy x G = nt n i=1 x i arithmetisches Mittel auf der log-skala x g = exp nur geeignet für positive Werte 1 n! nx log(x i ) i=1 geeignet für intervallskalierte Daten Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 111 / 391

148 Das harmonische Mittel x H := 1 1 n P n i=1 1 x i Das harmonische Mittel entspricht dem Mittel durch Transformation t! 1 t x H = 1 n nx i=1 1 x i! 1 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 112 / 391

149 Das harmonische Mittel x H := 1 1 n P n i=1 1 x i Das harmonische Mittel entspricht dem Mittel durch Transformation t! 1 t x H = 1 n nx i=1 1 x i! 1 Beispiel: x 1,...,x n Geschwindigkeiten, mit denen konstante Wegstrecken L zurückgelegt werden Gesamt-Geschwindigkeit: L n L x L = x H x n Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 112 / 391

150 Vorlesung Ergänzungen zu Mittelwert und Median Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 113 / 391

151 Transformationen Linearität des arithmetischen Mittels Gegeben sind Daten x 1,...x n und eine lineare Transformation y i = a + b x i Dann gilt ȳ = a + b x Beispiel: x i Gewinn in e; y i Gewinn in SFR Invarianz des Medians bei monotonen Transformationen Gegeben sind Daten x 1,...x n und eine streng monoton steigende Transformation y i = f (x i ), d.h. x i < x j ) f (x i ) < f (y i ) Dann gilt ỹ 0,5 = f ( x 0,5 ) Beispiel: Logarithmierung, Umrechnung von Punkten in Noten. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 114 / 391

152 4 Streumaße Spannweite Interquartilsabstand Standardabweichung und Varianz Variationskoe zient MAD

153 Streumaße Motivation Lagemaße allein charakterisieren die Verteilung nur unzureichend! Wenn man den Kopf in der Sauna hat und die Füße im Kühlschrank, sprechen Statistiker von einer angenehmen mittleren Temperatur. Zwei Männer sitzen im Wirtshaus. Der eine verdrückt eine ganze Kalbshaxe, der andere trinkt zwei Maß Bier. Statistisch gesehen ist das für jeden ein Maß Bier und eine halbe Haxe - aber der eine hat sich überfressen, der andere ist beso en. Die statistische Sicht soll sich also nicht auf den Mittelwert beschränken!! Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 116 / 391

154 Maße für die Streuung Spannweite Interquartilsabstand Standardabweichung und Varianz Variationskoe zient Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 117 / 391

155 Die Spannweite (Range) Definition: q = x max x min Bereich in dem die Daten liegen Wichtig für Datenkontrolle Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 118 / 391

156 Der Quartilsabstand Definition: d Q = x 0.75 x 0.25 Größe des Bereichs in dem die mittlere Hälfte der Daten liegt Bei ordinal skalierten Daten Angabe von x 0.75 und x 0.25 Zentraler 50%-Bereich Robust gegen Ausreißer Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 119 / 391

157 Standardabweichung und Varianz Definition s 2 := 1 n nx (x i x) 2 Varianz i=1 s = p s 2 Standardabweichung Mittlere Abweichung vom Mittelwert Intervallskala Voraussetzung Empfindlich gegen Ausreißer Verwende S 2 := 1 n 1 P n i=1 (x i x) 2 für Stichproben Eigenschaften der Standardabweichung Die Standardabweichung hat gegenüber der Varianz den Vorteil, dass sie in der gleichen Einheit wie die Beobachtungswerte gemessen wird. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 120 / 391

158 Transformationsregel y i = a + bx i ) sy 2 = b 2 sx 2 s y = b s x (Analog für S x, S y ) Varianz und Standardabweichung sind mit linearen Transformationen verträglich. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 121 / 391

159 Verschiebungssatz Für jedes c 2 R gilt: nx (x i c) 2 = i=1 nx (x i x) 2 + n( x c) 2 i=1 c =0) s 2 = 1 n nx i=1 s 2 = x 2 x 2 x 2 i x 2 Beachte: Mittelwert minimiert P n i=1 (x i c) 2 Verschiebungssatz für numerische Berechnung mit Computer nicht geeignet. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 122 / 391

160 Streuungszerlegung I Seien die Daten in r Gruppen (Schichten) aufgeteilt: Gruppenmittelwerte: x 1,...,x n1, x n1 +1,...,x n1 +n 2,...,x nr x 1 = 1 Xn 1 n 1 i=1 x i, x 2 = 1 nx 1 +n 2 n 2 i=n 1 +1 x i, usw. Gruppenvarianzen: s1 2 = 1 Xn 1 (x i x 1 ) 2, s2 2 = 1 nx 1 +n 2 (x i n 1 n 2 x 2 ) 2, usw. i=1 i=n 1 +1 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 123 / 391

161 Streuungszerlegung II Dann gilt: x = 1 n s 2 = 1 n rx n j x j j=1 rx n j sj n j=1 rx n j ( x j x) 2 j=1 Streuung Streuung Gesamtstreuung = innerhalb + zwischen der Gruppen den Gruppen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 124 / 391

162 Variationskoe zient Definition Das Verhältnis von Standardabweichung und Mittelwert ist gegeben durch v = s x mit x > 0 Eigenschaften des Variationskoe zienten misst die relative Schwankung um den Mittelwert ist nur bei positiven Werten bei Verhältnisskala sinnvoll ermöglicht den Vergleich von Streuungen zweier Datensätze mit unterschiedlichen Maßeinheiten Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 125 / 391

163 Mittlere absolute Abweichung (MAD) Definition Die mittlere absolute Abweichung ist definiert als x MAD = 1 n nx x i x i=1 Eigenschaften des MAD misst direkt die durchschnittliche absolute Abweichung um den Mittelwert ist nicht ausreisserempfindlich hat nicht so schöne Eigenschaften wie die Standardabweichung Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 126 / 391

164 Konzentrationsmaße Motivation Existiert eine Menge, die auf viele Individuen verteilt ist, kann es hilfreich sein zu wissen, wie diese Menge verteilt ist; ob etwa eher eine Gleichverteilung oder eher ein Monopol vorliegt. Beispiele Vermögensverteilung in einem Staat Marktanteile von Firmen in einem Segment Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 127 / 391

165 Lorenzkurve verwendbar bei Merkmalen mit Nominalskala Ordinalskala metrische Skala Definition Lorenzkurve Das Merkmal darf nur positive Ausprägungen annehmen Die Gesamtsumme aller Merkmalswerte ist P n j=1 x j = P n j=1 x (j) Die Lorenzkurve verbindet Punktepaare bestehend aus den kumulierten Summen der nach Größe geordneten Beobachtungswerte 0 apple x (1) apple...apple x (n) und dem relativen Anteil der Individuen, die diese kumulierte Summe besitzen. x Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 128 / 391

166 Lorenzkurve Gestaltung Es wird festgelegt: u (0) =0undv (0) =0 Die Abszisse wird in gleiche Längen aufgeteilt, deren Anzahl der der Individuen (Merkmalsausprägungen) entspricht: u i = i n, i =1,...,n Die Unterteilung der Ordinate berechnet sich wie folgt: v i = P i j=1 x (j) P n j=1 x, i =1,...,n, (j) also dem Quotienten aus der kumulierten Summe und der Gesamtsumme. Die so errechneten Koordinatenpunkte werden in den Graphen eingetragen und mit Geraden verbunden. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 129 / 391

167 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391

168 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391

169 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391

170 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391

171 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, ,4 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391

172 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, ,4 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391

173 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, ,4 0, ,6 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391

174 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, ,4 0, ,6 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391

175 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, ,4 0, ,6 0, ,8 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391

178 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. 1.0 i x (i) u i v i ,2 0, ,4 0, ,6 0, ,8 0,8 v i u i Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391

179 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391

180 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391

181 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391

182 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391

183 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391

184 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391

185 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , , , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391

186 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , , , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391

187 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , , , , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391

190 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. 1.0 i x (i) u i v i , , , ,8 0 v i u i Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391

191 Lorenzkurve Erscheinungsbild von Lorenzkurven Die Kurve bildet auf einen quadratischen Graphen mit Kantenlänge 1 ab. Die Koordinate (u 0 ; v 0 )istimmer (0; 0). Die Koordinate (u n ; v n )istimmer (1; 1). Der konstruierte Polygonzug verläuft immer unterhalb (im Grenzfall auf) der Winkelhalbierenden. Der konstruierte Polygonzug ist (streng) monoton steigend. Die Steigung des nächsten Polygonsegments ist entweder gleich groß oder größer als die Steigung des letzten Polygonsegments. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 132 / 391

192 Lorenzkurve Aussagemöglichkeiten von Lorenzkurven Aufgrund ihrer Struktur kann man anhand einer Lorenzkurve folgende Aussagen verfassen: Die ärmsten x% besitzten einen Anteil von y%. Die reichsten x% besitzen einen Anteil von y%. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 133 / 391

193 Lorenzkurve Beispiel Bruttohaushaltseinkommen 2003 in der Schweiz Es zeigt sich, dass das ärmste Viertel der Schweizer Bevölkerung nur 10%, das reichste Viertel jedoch über 40% des gesamten Bruttoeinkommens verdient. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 134 / 391

194 Gini-Koe zient Definition Gini-Koe zient Der Gini-Koe zient bzw. das Lorenzsche Konzentrationsmaß ist eine Maßzahl, die das Ausmaß der Konzentration beschreibt. Er ist definiert als G =2 F, F wobei F die Fläche zwischen der Diagonalen und der Lorenzkurve ist. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 135 / 391

195 Gini-Koe zient Berechnung des Gini-Koe zienten Für die praktische Berechnung von G aus den Wertepaaren (u i ; v i ) stehen folgende alternative Formeln zur Verfügung: G = 2 P n i=1 i x (i) (n + 1) P n i=1 x (i) n P n i=i x (i) oder alternativ G =1 1 n nx (v i 1 + v i ) i=1 Wertebereich des Gini-Koe zienten 0 apple G apple n 1 n Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 136 / 391

196 Gini-Koe zient der normierte Gini-Koe zient G + Der Gini-Koe zient wird auf folgende Weise normiert: G + = Er hat somit den Wertebereich n n 1 G 0 apple G + apple 1, wobei 0 für keine Konzentration (Gleichverteilung) und 1 für vollständige Konzentration (Monopol) steht. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 137 / 391

197 GINI Einkommen nach CIA report 2009 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 138 / 391

198 Bericht der Bundesregierung - X - Einkommensverteilung (Gini-Koeffizient) 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0, Quelle: Berechnungen des DIW Berlin auf Basis SOEP Ein weiteres Verteilungsmaß ist der Gini-Koeffizient. Er beschreibt auf einer Skala von null bis eins die Ungleichheit der Verteilung. Je höher der Wert, umso ungleicher ist die Verteilung. Dieses Maß zeigt eine nach 2007 rückläufige Ungleichheit der Nettoäquivalenzeinkommen auf Haushaltsebene an. Dies umfasst alle Einkommensarten (insbesondere Einkommen aus Erwerb, Renten und Pensionen, aus Vermögen und Sozialtransfers). Der Trend einer Zunahme zwischen 2000 und 2005 hat sich also in der Zeit danach umgekehrt. Die Ungleichheit der Einkommen nimmt derzeit ab. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 139 / 391

199 Bericht der Bundesregierung personenhaushalt berücksichtigt. Die Verteilung der so ermittelten Nettoäquivalenzeinkommen hat sich, gemessen am Gini-Koeffizienten und den Anteilen der Dezile, nach den Daten der EVS zwischen 2003 und 2008 leicht weiter gespreizt. Tabelle C I.1.2: Verteilung der Nettoäquivalenzeinkommen 2003 und 2008 Jahr Quelle: EVS; Statistisches Bundesamt. Dezil Anteile (%) am Volumen des Nettoäquivalenzeinkommens Gini- Koeffizient ,9 5,5 6,5 7,5 8,4 9,4 10,5 12,0 14,3 22,0 0, ,6 5,1 6,3 7,3 8,3 9,3 10,5 12,2 14,7 22,7 0,284 Während die unteren sechs Dezile gegenüber 2003 einen geringeren Anteil aufweisen, haben die obersten drei Dezile Zuwächse erfahren. Der Gini-Koeffizient stieg von 0,267 auf 0,284 und damit um rund sechs Prozent (Tabelle C I.1.2). Nach den Daten des SOEP zeigt dieses Maß eine nach 2007 rückläufige Ungleichheit der Nettoäquivalenzeinkommen auf Haushaltsebene an. Der Trend einer Zunahme zwischen 2000 und 2005 hat sich also in der Zeit danach umgekehrt. Die Ungleichheit der Einkommen nimmt derzeit ab (Schaubild C I.1.1). 338 Schaubild C I.1.1: Ungleichheit der Einkommensverteilung in Deutschland, (Gini-Koeffizient) 0,35 0,30 0,27 0,29 0,28 0,25 0,20 0,26 0,28 0,28 0,15 0,10 0,05 0, Quelle: Berechnungen im DIW auf Basis SOEP Werte auf zwei Nachkommastellen gerundet. 338 Vgl. Grabka, M. M. u. a. (2012): Höhepunkt der Einkommensungleichheit in Deutschland überschritten? In: DIW Wochenbericht 43/2012. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 140 / 391

200 5 Analyse von Zusammenhängen

201 Multivariate beschreibende Statistik Motivation Bei Datenanalysen werden meist mehrere Merkmale X Y Z betrachtet. Fragestellungen Gibt es einen Zusammenhang zwischen X und Y? Wie stark ist der Zusammenhang? Wird Y von X beeinflusst? Kann Y mit Hilfe von X und Z prognostiziert werden? Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 142 / 391

202 Beispiel: US Wahl Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 143 / 391

203 Beispiel: Studienanbschluss und Einstiegsgehalt Bruttojahreseinkommen Anglistik Germanistik Psychologie Kulturwirtschaft Pädagogik (Uni) Geschichte Quelle: Bayerisches Absolventenpanel, Befragung Abschlussjahrgang Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 144 / 391

204 Beispiel: Studienanbschluss und Einstiegsgehalt (2) 4. Wirtschaftswissenschaften Bruttojahreseinkommen VWL BWL (Uni) BWL (FH) Spezielle BWL (FH) Spezielle BWL (Uni) Touristik Wirtschaftsing. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 145 / 391

205 Mögliche Strukturen X (Studienfach)! Y (Gehalt) oder Y (Gehalt)! X (Studienfach) oder Z(IQ)! X (Studienfach) Z(IQ)! Y (Gehalt) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 146 / 391

206 Interpretation von beobachteten Zusammenhängen Beachte: Zusammenhänge können verschiedene Ursachen haben Kausalität (X hat E ekt auf Y) Kausalität in der anderen Richtung (Y hat E ekt auf X ) Drittvariablen (Confounder), simultane Wirkung von Z auf X und Y Zufall und Selektion von Variablen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 147 / 391

207 Notation Es werden an jeder Einheit gleichzeitig mehrere Merkmale X, Y, Z,... erhoben: ) mehrdimensionale oder multivariate Daten Werte (x i, y i, z i )der Merkmale (X, Y, Z) Einheit i Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 148 / 391

208 Diskrete und gruppierte Merkmale Darstellung, Präsentation von (zwei) diskreten Merkmalen X und Y mit den Ausprägungen a 1,...,a k b 1,...,b m für X für Y Skalenniveau von X, Y beliebig; X, Y können auch gruppierte metrische Merkmale sein. Benutzt wird nur das Nominalskalenniveau der Merkmale. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 149 / 391

209 Beispiel: Arbeitslosigkeit Zwei Merkmale: X Ausbildungsniveau mit den Kategorien keine Ausbildung, Lehre, fachspezifische Ausbildung Hochschulabschluß Y Dauer der Arbeitslosigkeit mit den Kategorien Kurzzeitarbeitslosigkeit (apple 6 Monate), mittelfristige Arbeitslosigkeit (7 12 Monate), Langzeitarbeitslosigkeit ( 12 Monate) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 150 / 391

210 Arbeitslosigkeit Kurzzeit- mittelfristige Langzeitarbeitslosigkeit Arbeitslosigkeit arbeitslosigkeit KA Lehre Fachspez Hoch Ausbildungsspezifische Dauer der Arbeitslosigkeit für männliche Deutsche Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 151 / 391

211 Allgemeine Darstellung Kontingenztafel der absoluten Häufigkeiten: Eine (k m)-kontingenztafel der absoluten Häufigkeiten besitzt die Form b 1... b m a 1 h h 1m h 1 a 2 h h 2m h a k h k1... h km h k h 1... h m n Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 152 / 391

212 Notation h ij = h(a i, b j ) die absolute Häufigkeit der Kombination (a i, b j ), h 1,...,h k die Randhäufigkeiten von X, h 1,...,h m die Randhäufigkeiten von Y. Die Kontingenztabelle gibt die gemeinsame Verteilung der Merkmale X und Y in absoluten Häufigkeiten wieder. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 153 / 391

213 Kontingenztafel der relativen Häufigkeiten Die (k m)-kontingenztafel der relativen Häufigkeiten hat die Form b 1... b m a 1 f f 1m f a k f k1... f km f k f 1... f m 1 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 154 / 391

214 Notation f ij = h ij /n die relative Häufigkeit der Kombination (a i, b j ), P f i = m f ij = h i /n, i =1,...,k, die relativen Randhäufigkeiten zu X, j=1 P f j = k f ij = h j /n, j =1,...,m, dierelativenrandhäufigkeiten zu Y. i=1 Die Kontingenztabelle gibt die gemeinsame Verteilung von X und Y wieder. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 155 / 391

215 Bedingte Häufigkeiten Zusammenhang zwischen X und Y aus gemeinsamen Häufigkeiten h ij bzw. f ij schwer ersichtlich. Deshalb: Blick auf bedingte Häufigkeiten ) Verteilung des einen Merkmals für einen festgehaltenen Wert des zweiten Merkmals Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 156 / 391

216 Bedingte relative Häufigkeitsverteilung Die bedingte Häufigkeitsverteilung von Y unter der Bedingung X = a i,kurzy X = a i,istbestimmtdurch f Y (b 1 a i )= h i1 h i,...,f Y (b m a i )= h im h i. Die bedingte Häufigkeitsverteilung von X unter der Bedingung Y = b j,kurzx Y = b j,istbestimmtdurch f X (a 1 b j )= h 1j h j,...,f X (a k b j )= h kj h j. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 157 / 391

217 Bemerkung Wegen gilt auch h i1 = h i1/n h i h = f i1 i /n f i f Y (b 1 a i )= f i1 f i,...,f Y (b m a i )= f im fi f X (a 1 b j )= f 1j f j,...,f X (a k b j )= f kj f j. Merksatz: Bedingte Häufigkeitsverteilungen werden durch Division der h ij bzw. f ij durch die entsprechende Zeilen- bzw. Spaltensumme gebildet. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 158 / 391

218 Beispiel: Arbeitslosigkeit f ( a i ), X = a i, i =1,...,4 Ausbildungsniveau z.b =0.699, =0.154, =0.730,... usw. Für festgehaltenes Ausbildungsniveau (X = a i )erhält man die relative Verteilung über die Dauer der Arbeitslosigkeit durch die folgende Tabelle. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 159 / 391

219 Bedingte Verteilung Kurzzeit- mittelfristige Langzeitarbeitslosigkeit Arbeitslosigkeit arbeitslosigkeit Keine Ausb Lehre Fachspez. Aus Hochschula Bedingen auf das Ausbildungsniveau: ) Verteilung der Dauer der Arbeitslosigkeit für die Subpopulationen Keine Ausbildung, Lehre, usw. Verteilungen lassen sich nun miteinander vergleichen )Nun ersichtlich: Relative Häufigkeit für Kurzzeitarbeitslosigkeit ist in der Subpopulation Hochschulabschluß mit 0.8 am größten. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 160 / 391

220 Bedingte Verteilungen Bei zwei Merkmalen X und Y kann man die bedingte Verteilung von X Y und auch von Y X berechnen. Die Wahl hängt von der inhaltlichen Fragestellung ab. Typischerweise betrachtet man die bedingte Verteilung Y X, wenn Y eine Zielgröße und X eine Einflussgröße ist. Die Struktur des Zusammenhangs ist dann X! Y. Y X hilft die Wirkung von X auf Y zu verstehen oder auch Y mit Hilfe von X zu prognostizieren Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 161 / 391

221 Beispiel: US Wahl Y:Wahlentscheidung X1 : Geschlecht, X2 : Hautfarbe Y wird durch X1 und X2 beeinflusst (prognostiziert). Betrachte daher Y X 1undY X 2 X 2 Y beantwortet z.b. die Frage: Wie hoch ist der Anteil der Schwarzen bei den Wählern von Trump?. Das ist häufig nicht sinnvoll und manchmal auch irreführend. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 162 / 391

222 Darstellung der bedingten Verteilung Balkendiagramme für binäre Zielgrößen und für nicht geordnete Zielgrößen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 163 / 391

223 Darstellung der bedingten Verteilung Gestapelte Balkendiagramme für binäre ordinale Zielgrößen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 164 / 391

224 Zusammenhangsanalyse in Kontingenztabellen Bisher: Tabellarische / grafische Präsentation Jetzt: Maßzahlen für Stärke des Zusammenhangs zwischen X und Y. Chancen und relative Chancen Zunächst Kontingenztafel Y h 11 h 12 h 1 X 2 h21 h 22 h 2 h 1 h 2 n Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 165 / 391

225 Chancen ( Odds ) Wir betrachten die Merkmale X und Y zunächst asymmetrisch: Die Ausprägungen von X definieren (hier 2) Subpopulationen, Y ist das interessierende binäre Merkmal in diesen Subpopulationen Unter einer Chance ( odds ) versteht man nun das Verhältnis zwischen dem Auftreten von Y =1undY =2ineiner Subpopulation X = a i. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 166 / 391

226 Odds Ratio Die (empirische) bedingte Chance für festes X = a i ist bestimmt durch (1, 2 X = a i )= h i1 h i2. Ein sehr einfaches Zusammenhangsmaß stellen die empirischen relativen Chancen (Odds Ratio) dar, die gegeben sind durch (1, 2 X =1, X = 2) = (1, 2 X = 1) (1, 2 X = 2) = h 11/h 12 h 21 /h 22 = h 11h 22 h 21 h 12, d.h. (1, 2 X =1, X = 2) ist das Verhältnis zwischen den Chancen der 1. Population (X = 1, 1. Zeile) zu den Chancen der 2. Population (X = 2, 2. Zeile). Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 167 / 391

227 Beispiel: Dauer der Arbeitslosigkeit Beschränkt man sich jeweils nur auf zwei Kategorien der Merkmale Ausbildungsniveau und Dauer der Arbeitslosigkeit, erhält man beispielsweise die Tabelle Kurzzeit- Mittel- und langfristige arbeitslosigkeit Arbeitslosigkeit Fachspezifische Ausbildung Hochschulabschluß 28 7 Daraus ergibt sich für Personen mit fachspezifischer Ausbildung die Chance, kurzzeitig arbeitslos zu sein, im Verhältnis dazu, mittel oder längerfristig arbeitslos zu sein, durch (1, 2 fachspezifisch) = =2.5. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 168 / 391

228 Für Arbeitslose mit Hochschulabschluß erhält man (1, 2 Hochschulabschluß) = 28 7 =4. Für fachspezifische Ausbildung stehen die Chancen somit 5 : 2, für Arbeitslose mit Hochschulabschluß 4 : 1. Man erhält für fachspezifische Ausbildung und Hochschulabschluß die relativen Chancen (Odds Ratio) (1, 2 fachsp. Ausbildung, Hochschule) = =0.625 = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 169 / 391

229 Interpretation Odds Ratio Wegen der spezifischen Form (1, 2 X =1, X = 2) = (h 11 h 22 )/(h 21 h 12 )werdendierelativen Chancen auch als Kreuzproduktverhältnis bezeichnet. Es gilt = 1 Chancen in beiden Populationen gleich >1 Chancen in Population X = 1 besser als in Population X =2 <1 Chancen in Population X = 1 schlechter als in Population X = 2. Die relativen Chancen geben somit an, welche der Populationen die besseren Chancen besitzen und um wieviel besser diese Chancen sind. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 170 / 391

230 Symmetrie Für die Kontingenztafel h 11 h 12 h 21 h 22 ist das Kreuzproduktverhältnis (relative Chance oder Odds Ratio) bestimmtdurch = h 11/h 12 h 21 /h 22 = h 11h 22 h 21 h 12. Die asymmetrische Betrachtung der Merkmale X und Y wird aufgehoben Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 171 / 391

231 Fall - Kontroll - Studien Beispiel: Morbus Alzheimer und Genetik Genetik ApoE3 ApoE4 Summe Fall Kontrolle OR = 593/ /803 =0.34 ) Chance für ApoE3 bei Fällen um den Faktor 3 niedriger als bei Kontrollen? ) ApoE4 Risiko-Faktor für Morbus Alzheimer Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 172 / 391

232 Fall - Kontroll - Studien Zentrale Argumentation: Odds Ratio ist symmetrisches Maß d.h. Chancenverhältnis für Auftreten von ApoE4 bei Kontrolle zu Auftreten von ApoE4 bei Fällen Person ist krank bei ApoE3 zu Person ist krank bei ApoE4 ) Interpretation als Risikofaktor zulässig Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 173 / 391

233 Kontingenz- und 2 -Koe zient Ausgangspunkt: Wie sollten gemeinsame Häufigkeiten h ij bzw. f ij verteilt sein, damit - bei vorgegebenen Randverteilungen - die Merkmale X und Y als empirisch unabhängig angesehen werden können? b 1... b m a 1 h 1.?. a k h k h 1... h m n Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 174 / 391

234 Empirische Unabhängigkeit Idee: X und Y empirisch unabhängig, Bedingte relative Häufigkeiten f Y (b 1 a i ),...,f Y (b m a i ), i =1,...,k sind in jeder Schicht X = a i identisch, d.h. unabhängig von a i. Formal: f Y (b 1 a 1 ) = f (b 1 ),...,f Y (b m a 1 )=f Y (b m ) f Y (b 1 a 2 ) = f (b 1 ),...,f Y (b m a 2 )=f Y (b m ). =. f Y (b 1 a k ) = f (b 1 ),...,f Y (b m a k )=f Y (b m ) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 175 / 391

235 Kunstbeispiel: b 1 b 2 b 3 a a f Y (b 1 a 1 ) = f Y (b 1 a 2 )=f Y (b 1 )= 1 6 f Y (b 2 a 1 ) = f Y (b 2 a 2 )=f Y (b 2 )= 1 3 f Y (b 3 a 1 ) = f Y (b 3 a 2 )=f Y (b 3 )= 1 2 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 176 / 391

236 Wie sehen die erwarteten (absoluten und relativen) Häufigkeiten h ij und f ij also aus? f Y (b 1 a i )=f (b 1 ),...,f Y (b m a i )=f Y (b m ), i =1,...,k, h ij h i = h j n, h ij = h i h j n, f ij = f i f j Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 177 / 391

237 Unabhängigkeitstabelle Idee: Vergleiche für jede Zelle (i, j) h ij mit tatsächlich beobachteten h ij ) 2 -Koe zient Der 2 -Koe zient ist bestimmt durch 2 = kx i=1 mx j=1 h ij hij 2 h ij = kx i=1 mx j=1 h ij h i h j n h i h j n 2 = n X i X j (f ij f i f j ) 2 f i f j Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 178 / 391

238 Eigenschaften des 2 -Koe zienten: 2 2 [0, 1) 2 =0, X und Y empirisch unabhängig 2 groß, starker Zusammenhang 2 klein, schwacher Zusammenhang Nachteil: 2 hängt vom Stichprobenumfang n und von der Dimension der Tafel ab. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 179 / 391

239 Kontingenzkoe zient und korrigierter Kontingenzkoe zient Weitere Normierung ) Kontingenzkoe zient Der Kontingenzkoe zient ist bestimmt durch s K = und besitzt den Wertebereich K 2 M =min{k, m}. Der korrigierte Kontingenzkoe K = K/ mit dem Wertebereich K 2 [0, 1]. 2 n + 2 apple q M 1 0, M, wobei zient ergibt sich durch r M 1 M Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 180 / 391

240 Eigenschaften des Kontingenzkoe zienten Es wird nur die Stärke des Zusammenhangs gemessen, nicht die Richtung wie beim Odds Ratio. Vorsicht ist geboten bei einem Vergleich von Kontingenztafeln mit stark unterschiedlichen Stichprobenumfängen, da 2 mit wachsendem Stichprobenumfang wächst, beispielsweise führte eine Verzehnfachung von h ij und h ij zu zehnfachem 2. Sämtliche Maße benutzen nur das Nominalskalenniveau von X und Y. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 181 / 391

241 Beispiel: Sonntagsfrage Für die Kontingenztafel aus Geschlecht und Parteipräferenz für das Beispiel der Sonntagsfrage erhält man die in der folgenden Tabelle wiedergegebenen zu erwartenden Häufigkeiten h ij. CDU/CSU SPD FDP Grüne Rest Männer (144) (153) (17) (26) (95) 435 Frauen (200) (145) (30) (50) (71) Zu erwartende Häufigkeiten h ij und tatsächliche Häufigkeiten h ij (in Klammern) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 182 / 391

242 Interpretation: Wenn Geschlecht und Parteipräferenz keinen Zusammenhang aufweisen, wären die CDU/CSU präferierende Männer zu erwarten. Tatsächlich wurden aber nur 144 beobachtet. ) 2 -Wert von , K =0.145, K =0.205 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 183 / 391

243 Spezialfall: (2 2)-Tafel Für den Spezialfall einer (2 2)-Tafel a b a + b c d c + d a + c b + d erhält man 2 aus 2 = n(ad bc) 2 (a + b)(a + c)(b + d)(c + d). Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 184 / 391

244 Beispiel: Arbeitslosigkeit Aus der Kontingenztafel Mittelfristige Langfristige Arbeitslosigkeit Arbeitslosigkeit Keine Ausbildung Lehre erhält man also unmittelbar 2 = und K =0.165, K = ( ) =2.826 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 185 / 391

245 Mehrdimensionale Kontingenztabellen Beispiel: Fluglinien und Verspätung Mehrere diskrete Merkmale: Fluglinie, Ort, Verpätung (Ja/Nein) Darstellung durch geeignete bedingte und marginale Verteilungen Berechnung von Odds-Ratio zweier Merkmale bedingt auf ein drittes Merkmal Graphische Darstellung durch Mosaik-Plot Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 186 / 391

246 Verspätung von Flügen Flüge mit (sp) und ohne Verspätung (ok) Fluglinie AW AA Summe ok Verspätung Summe Welche Fluglinie nehmen Sie? Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 187 / 391

247 Verspätung von Flügen Flüge mit (sp) und ohne Verspätung (ok) Fluglinie AW AA Summe ok Verspätung Summe Wie entscheiden Sie? Fluglinie AW AA ok sp Summe 1 1 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 188 / 391

248 Verspätung von Flügen Sie starten in LA : Fluglinie AW AA ok sp Wie entscheiden Sie jetzt? AW AA ok sp Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 189 / 391

249 Verspätung von Flügen Sie starten in San Francisco : AW AA ok sp Wie entscheiden Sie jetzt? AW AA ok sp Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 190 / 391

250 Verspätung von Flügen Sie starten in Seattle AW AA ok sp Wie entscheiden Sie jetzt? AW AA ok sp Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 191 / 391

251 Verspätung von Flügen Sie starten in Phoenix AW AA ok sp Wie entscheiden Sie jetzt? AW AA ok sp Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 192 / 391

252 Verspätung von Flügen Sie starten San Diego AW AA ok sp Wie entscheiden Sie jetzt? AW AA ok sp Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 193 / 391

253 Das Simpsonsche Paradoxon Betrachte beide Fluglinien SanF Seattle LA San Diego Phoenix ok sp SanF Seattle LA San Diego Phoenix ok sp AW startet häufiger von Phoenix!!! Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 194 / 391

254 Mosaik-Plot Flächentreue Darstellung von Häufigkeiten Aufteilung schrittweise Zuerst Einflussgröße, zum Schluss nach Zielgröße aufteilen Gut geeignet für mehrkategoriale ordinale Daten Auch für höhere Dimensionen geeignet Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 195 / 391

255 Beispiel: Fluglinien FD AW AA sp Status ok Fluglinie Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 196 / 391

256 Beispiel: Fluglinien nach Ort Verpätungen und Fluglinien SanF Seattle LA San Diego Phoenix ok sp ok sp ok sp ok sp ok sp AA Fluglinie AW Ort Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 197 / 391

257 Ergänzung: Relatives Risiko Gegeben sei eine Kontingenztafel Y h 11 h 12 h 1 X 2 h21 h 22 h 2 h 1 h 2 n X: Gruppe Y: Zielgröße, z.b. Krankheit, Insolvenz Odds Ratio (Chancenverhältnis) h 11 /h 12 h 21 /h 22 Relatives Risiko h 11 /h 1 h 21 /h 2 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 198 / 391

258 6 Zusammenhänge von metrischen Variablen

259 Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i =1,...,n Beispiel: x: Wohnfläche y: Quadratmeterpreis Frage: Gibt es einen Zusammenhang zwischen diesen Merkmalen? Wie lässt sich dieser Zusammenhang beschreiben? Einfachste graphische Darstellung: Streudiagramm. Die Datenpaare entsprechen Punkten in der Ebene (Punktwolke) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 200 / 391

260 Beispiel: Streudiagramm (Mietspiegel 2015) Wohnfläche Mietpreis Wohnfläche Quadratmeterpreis Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 201 / 391

261 Beispiel: Streudiagramm (Mietspiegel 2015) Wohnfläche Mietpreis Zusammenhang erkennbar Wohnfläche Quadratmeterpreis Kaum ein Zusammenhang zu sehen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 201 / 391

262 Beispiel: Streudiagramm (Mietspiegel 2015) Mietpreis Quadratmeterpreis Wohnfläche Wohnfläche Zusammenhang erkennbar Kaum ein Zusammenhang zu sehen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 201 / 391

263 Kovarianz Maß für den Zusammenhang der beiden Merkmale: Daten: (x i, y i ), i =1,...,n Beachte: S XY = 1 n nx (x i x)(y i ȳ) i=1 Summand i positiv, falls x i und y i relativ zum Mittelwert das gleiche Vorzeichen haben. Für s xx ergibt sich die Varianz von X. Die Kovarianz hängt sowohl von der Streuung als auch von dem Zusammenhang der beiden Merkmale ab. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 202 / 391

264 Beispiel: Kovarianz Punkte in Englisch und Mathematik Gruppe 1 Gruppe 2 Schüler Englisch Mathe Englisch Mathe Mittelwert Standardabweichung Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 203 / 391

265 Beispiel: Kovarianz 15 Gruppe 1 15 Gruppe Mathe Mathe Englisch Englisch Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 204 / 391

266 Beispiel: Kovarianz 15 Gruppe 1 15 Gruppe Mathe 5 + Mathe Englisch Kovarianz: Englisch Kovarianz: Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 204 / 391

267 Bravais-Pearson-Korrelationskoe zient Der Bravais-Pearson-Korrelationskoe (x i, y i ), i =1,...,n durch zient ergibt sich aus den Daten r = P n i=1 (x i x)(y i ȳ) q Pn i=1 (x i x) P 2 n i=1 (y i ȳ) 2 ) = S xy S x S y Wertebereich: 1 apple r apple 1 r > 0 r < 0 r = 0 positive Korrelation Tendenz: Werte (x i, y i ) um eine Gerade positiver Steigung liegend negative Korrelation Tendenz: Werte (x i, y i ) um eine Gerade negativer Steigung liegend keine Korrelation, kein linearer Zusammenhang Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 205 / 391

268 Punkte in Englisch und Mathematik Gruppe 1: Gruppe 2: r xy = S xy S x S y = =0.65 r xy = S xy S x S y = = 0.56 Gruppe 1: positiver linearer Zusammenhang Gruppe 2: negativer linearer Zusammenhang Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 206 / 391

269 Eigenschaften des Korrelationskoe zienten Maß für den linearen Zusammenhang Ändert sich nicht bei linearen Transformationen Symmetrisch (Korrelation zwischen x und y = Korrelation zwischen y und x) Positive Korrelation bedeutet: Je größer x, desto größer im Durchschnitt y Korrelation = +1 oder -1, falls die Punkte genau auf einer Geraden liegen Korrelation = 0 bedeutet keinen linearen Zusammenhang, aber nicht Unabhängigkeit Korrelation empfindlich gegenüber Ausreißern Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 207 / 391

270 Eigenschaften von r r misst Stärke des linearen Zusammenhangs. Punktkonfigurationen und Korrelationskoe (qualitativ) zienten Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 208 / 391

271 Einige Beispiele von Zusammenhängen Beispiel 1: Lineare (unverrauschte) Funktion, y = 0.8x + 2.0, 101 equidistante Stützstellen im Intervall [-1,1], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 209 / 391

272 Einige Beispiele von exakten und verrauschten Zusammenhängen Beispiel 2: Lineare (unverrauschte) Funktion, y = 0.8x + 2.0, 101 equidistante Stützstellen im Intervall [-1,1], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 210 / 391

273 Einige Beispiele von exakten und verrauschten Zusammenhängen Beispiel 3: Lineare (unverrauschte) Funktion, y = 0.001x + 2.0, 101 equidistante Stützstellen im Intervall [-1,1], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 211 / 391

274 Einige Beispiele von exakten und verrauschten Zusammenhängen Beispiel 4: Periodische (unverrauschte) Funktion, y = sin(x), 101 equidistante Stützstellen im Intervall [, ], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 212 / 391

275 Einige Beispiele von exakten und verrauschten Zusammenhängen Beispiel 5: Quadratische (unverrauschte) Funktion, y = x , 101 equidistante Stützstellen im Intervall [ 1, 1], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 213 / 391

276 Einige Beispiele von exakten und verrauschten Zusammenhängen Beispiel 6: Abschnittweise definierte (unverrauschte) Funktion y =sin(x), 50 und 51 equidistante Stützstellen in den Intervallen [, 2 ]und[ 2, ], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 214 / 391

277 Einige Beispiele von exakten und verrauschten Zusammenhängen Beispiel 7: Lineare, schwach verrauschte Funktion, y =0.8x +2.0+N(0, 0.1), 101 equidistante Stützstellen im Intervall [-1,1], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 215 / 391

278 Einige Beispiele von exakten und verrauschten Zusammenhängen Beispiel 8: Lineare, stärker verrauschte Funktion, y =0.8x +2.0+N(0, 0.5), 101 equidistante Stützstellen im Intervall [-1,1], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 216 / 391

279 Lineare Transformationen Bei exakten lineare Zusammenhängen gilt: r =+1bzw. 1, Y = ax + b mit a > 0bzw.a < 0 Lineare Transformationen X = a X X + b X, Ỹ = a Y Y + b Y, a X, a Y 6=0 r Korrelationskoe zient zwischen X und Y r Korrelationskoe zient zwischen X und Ỹ ) r = r, a X, a Y > 0odera X, a Y < 0 r = r, a X > 0, a Y < 0odera X < 0, a Y > 0. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 217 / 391

280 Korrelationsmatrix Bei mehr als zwei Merkmalen werden die Korrelationen häufig in Form einer Matrix dargestellt. Auf der Hauptdiagonalen stehen 1er. Die Matrix ist symmetrisch. 1 r xy r xz r xy 1 r yz r xz r yz 1 1 A Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 218 / 391

281 Beisipiel: Korrelationen am Finanzmarkt Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 219 / 391

282 Spearmans Korrelationskoe zient = Rang-Korrelationskoe zient X, Y (mindestens) ordinal Idee: Gehe von Werten x i, i =1,...,n und y i, i =1,...,n über zu ihren Rängen. analog für y (1),...,y (n). x (1) apple...x (i)...apple x (n) rg(x (i) )=i, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 220 / 391

283 Beispiel bei Bindungen (ties): x i rg(x i ) x i ) Durchschnittsrang = 3.5 vergeben. Also: Daten der Größe nach durchsortieren ) Ranglisten rg(x i ), rg(y i ), i =1,...,n vergeben (bei ties: Durchschnittsränge) Idee: Berechne den Korrelationskoe zienten nach Bravais-Pearson für die Ränge statt für die Ursprungsdaten. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 221 / 391

284 Definition: Spearmans Korrelationskoe zient Der Korrelationskoe zient nach Spearman ist definiert durch r SP = P (rg(xi ) pp (rg(xi ) rg X )(rg(y i ) rg X ) 2 P (rg(y i ) rg Y ) rg Y ). 2 Wertebereich: 1 apple r SP apple 1 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 222 / 391

285 Interpretation r SP > 0 gleichsinniger monotoner Zusammenhang, Tendenz: x groß, y groß, x klein, y klein r SP < 0 gegensinniger monotoner Zusammenhang, Tendenz: x groß, y klein, x klein, y groß r SP 0 kein monotoner Zusammenhang Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 223 / 391

286 Beispiele Extremfälle für Spearmans Korrelationskoe zienten, r SP =1(oben)und r SP = 1(unten) Spearmans Korrelationskoe zient misst monotone (auch nichtlineare) Zusammenhänge! Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 224 / 391

287 Bemerkungen: Rechentechnische Vereinfachungen: rg X = 1 P n n i=1 rg(x i)= 1 P n n i=1 i =(n + 1)/2, rg Y = 1 P n n i=1 rg(y i)= 1 P n n i=1 i =(n + 1)/2. Rechentechnisch günstige Version von r SP : Daten: (x i, y i ), i =1,...,n, x i 6= x j, y i 6= y j für alle i, j Rangdi erenzen: d i = rg(x i ) rg(y i ) r SP =1 6 P d 2 i (n 2 1)n Voraussetzung: keine Bindungen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 225 / 391

288 Monotone Transformationen X = g(x ) Ỹ = h(y ) g streng monoton, h streng monoton ) r SP ( X, Ỹ )=r SP (X, Y ), wenn g und h monoton wachsend bzw. g und h monoton fallend sind, r SP ( X, Ỹ )= r SP (X, Y ), wenn g monoton wachsend und h monoton fallend bzw. g monoton fallend und h monoton wachsend sind. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 226 / 391

289 Kendalls Tau Betrachte Paare von Beobachtungen (x i, y i )und(x j, y j ) Ein Paar heißt: konkordant, diskordant, falls x i < x j und y i < y j oder x i > x j und y i > y j falls x i < x j und y i > y j oder x i > x j und y i < y j N C : Anzahl der konkordanten Paare N D :AnzahlderdiskordantenPaare N D a = N C n(n 1)/2 Kendalls Tau Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 227 / 391

290 7 Regression

291 Einleitung Motivation In vielen Anwendungen ist es bedeutsam zu wissen, welchen Einfluss ein quantitatives Merkmal X auf ein weiteres Merkmal Y hat, z.b. Einkommen (X )undkreditwunsch(y )einesbankkunden Einsatz von Werbung in e (X )undumsatzine (Y )einer Handelskette Geschwindigkeit (X )und Bremsweg(Y )eines Pkw In diesem Abschnitt werden Methoden zur Analyse dieses Einflusses behandelt und wie dies in einem Modell formuliert werden kann. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 229 / 391

292 Einfache lineare Regression Linearer Zusammenhang zwischen zwei metrischen Größen wird als Gerade visualisiert Finde Gerade Y = + X Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 230 / 391

293 Einfache lineare Regression Linearer Zusammenhang zwischen zwei metrischen Größen wird als Gerade visualisiert Finde Gerade Y = + X : Steigung der Geraden, d.h. erhöht sich X um eine Einheit, so erhöht sich Y um Einheiten. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 230 / 391

294 Einfache lineare Regression Linearer Zusammenhang zwischen zwei metrischen Größen wird als Gerade visualisiert Finde Gerade Y = + X : Steigung der Geraden, d.h. erhöht sich X um eine Einheit, so erhöht sich Y um Einheiten. : Achsenabschnitt, d.h. Wert von Y für X =0 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 230 / 391

295 Welche Gerade? Welche Gerade? Mietpreis Quadratmeter Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 231 / 391

296 Bestimmung der Regressionsgerade Welche Gerade ist die Beste? Sie sollte etwa in der Mitte der Punktwolke liegen Abweichungen der Wertepaare (x i, y i ) (Punkte) von der Geraden sollten möglichst klein (minimal) sein Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 232 / 391

297 Bestimmung der Regressionsgerade Welche Gerade ist die Beste? Sie sollte etwa in der Mitte der Punktwolke liegen Abweichungen der Wertepaare (x i, y i ) (Punkte) von der Geraden sollten möglichst klein (minimal) sein Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 232 / 391

298 Methode der kleinsten Quadrate Y ist Zielgröße und X Einflussgröße Y soll mit Hilfe von X erklärt oder prognostiziert werden Lineares Modell Y = + X + " Minimierung der Abstände in Y -Richtung Wähle ˆ und ˆ so, dass P n i=1 y i (ˆ + ˆx i ) 2 minimal wird Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 233 / 391

299 Geschichte Idee der KQ-Schätzung von Gauss (1795) im Alter von 18 Jahren Verö entlichung von Legendre Idee der Regression von Galton (1886) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 234 / 391