Vorlesung: Statistik I für Wirtschaftswissenschaft
|
|
- Guido Schmidt
- vor 6 Jahren
- Abrufe
Transkript
1 Vorlesung: Statistik I für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenho Institut für Statistik, LMU München WiSe 2016/2017
2 Termine und Informationen Homepage: Vorlesung: Prof. Helmut Küchenho Di 16:00-18:00 Übung (wöchentlich): Audi max Ansprechperson: Veronika De ner Übung 1: Mi Uhr Schellingstr. 3, S 003 Übung 2: Mi Uhr Schellingstr. 3, S 001 Übung 3: Do Uhr Schellingstr. 3, S 001 Übung 4: Do Uhr Schellingstr. 3, S 002 Übung 5: Do Uhr Schellingstr. 3, S 001 Übung 6: Do Uhr Schellingstr. 3, S 002 Übung 7: Do Uhr Schellingstr. 3, S 001 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 2 / 391
3 Literatur L.Fahrmeir, Ch. Heumann, R.Künstler, I.Pigeot, G.Tutz: Statistik - Der Weg zur Datenanalyse Springer-Verlag, 8. Auflage, 2016 H.Toutenburg, C.Heumann: Deskriptive Statistik - Eine Einführung in Methoden und Anwendungen mit R und SPSS Springer-Verlag, 2009 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 3 / 391
4 Dank an Christian Heumann für Materialien und Folien Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 4 / 391
5 Einführung: Was ist Statistik? 1 Datenerhebung und Messung 2 Datenorganisation und Häufigkeitsverteilungen 3 Lagemaße 4 Streumaße 5 Analyse von Zusammenhängen 6 Zusammenhänge von metrischen Variablen 7 Regression
6 8 Komplexe Zusammenhänge 9 Regression und Mittelwertsvergleiche 10 Verhältniszahlen und Indizes 11 Zeitreihen 12 Wahrscheinlichkeit
7 Einführung: Was ist Statistik?
8 Statistik Businesses are collecting more data than they know what to do with. To turn all this information into competitive gold, they ll need new skills and a new management style. Data-driven decisions are better decisions it s as simple as that. Using big data enables managers to decide on the basis of evidence rather than intuition. Aus: Andrew McAfee and Erik Brynjolfsson: Big Data: The Management revolution. Harvard Business Review October 2012, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 7 / 391
9 Statistik für BWL und VWL? Datenanalyse ermöglicht es Unternehmen, die Wertschöpfungskette an allen Stellen zu optimieren, Im Einkauf, im Marketing, in Verkauf, Preisgestaltung und Management. Viele moderne Unternehmen haben als wichtigsten Wert Daten und Informationen (Google, Facebook) Statistische Methoden sind ein zentrales Hilfsmittel zur Analyse und Prognose von volkswirtschaftlichen Daten Auswertung von Maßnahmen von Regierungen und Institutionen werden mit statistischen Methoden bewertet Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 8 / 391
10 HR Analystics Nutzung von Befragungsdaten von MitarbeiterInnen zur Reduktion von Kündigungen Einstellungsstrategien aus Performance-Daten (talent analytics and big data) zur E zienzsteigerung Xerox used big data to reduce the attrition rate in its call centers by 20%. To do that, it had to understand what was causing the turnover, and determine ways to improve employee engagement. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 9 / 391
11 Marketing Flexible Preisgestaltung über Internet- Verkauf ermöglicht viele Strategien Projekt mit Fluglinie zur Daten- gesteuerten Preisgestaltung Experimente mit verschieden gestalteten Internetseiten Erfolge von Mailing-Aktionen abhängig von guter Datenanalyse Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 10 / 391
12 Beispiel 1: Bundestagswahl 2013 Prognose 18:00 Infratest Dimap (ARD) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 11 / 391
13 Beispiel 1: Bundestagswahl 2013 Prognose 18:00 Infratest Dimap (ARD) CDU/CSU SPD FDP Linke Grüne AFD 42,0 26,0 4,7 8,5 8,0 4,9 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 11 / 391
14 Beispiel 1: Bundestagswahl 2013 Prognose 18:00 Infratest Dimap (ARD) CDU/CSU SPD FDP Linke Grüne AFD 42,0 26,0 4,7 8,5 8,0 4,9 Ergebnis: Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 11 / 391
15 Beispiel 1: Bundestagswahl 2013 Prognose 18:00 Infratest Dimap (ARD) CDU/CSU SPD FDP Linke Grüne AFD 42,0 26,0 4,7 8,5 8,0 4,9 Ergebnis: Basis: Nachwahlbefragung Wahlberechtigte Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 11 / 391
16 Beispiel 2: Wahlfälschung Arbeit von Klimek et al. Einfache Idee: Untersuche Zusammmenhang zwischen Wahlergebnis (Stimmenanteil des Siegers) gegen die Wahlbeteiligung. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 12 / 391
17 Beispiel 3: Lebenszufriedenheit und Alter Gibt es eine Midlife Crisis? Analysen von Panel-Daten zur subjektiven Lebenszufriedenheit mit semiparametrischen Regressionsmodellen In Zusammenarbeit mit Sonja Greven, Andrea Wiencierz, Christoph Wunder C. Wunder, A. Wiencierz, J. Schwarze, and H. Küchenho. Well-being over the Life Span: Semiparametric evidence from British and German Longitudinal Data. Review of Economics and Statistics 95(1): , A. Wiencierz, S. Greven, and H. Küchenho. Restricted likelihood ratio testing in linear mixed models with general error covariance structure. Electronic Journal of Statistics 5: , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 13 / 391
18 Datengrundlage Daten stammen aus den Haushaltsstichproben A (Westdeutsche) und C (Ostdeutsche) des Sozio-Ökonomischen Panels (SOEP) für die ausgewählten Modellvariablen liegen Beobachtungen aus den Jahren 1992, 1994 bis 2006 vor durchschnittliche Anzahl von Beobachtungen pro Person: 7.77 in die Modellberechnungen gingen vollständige Beobachtungen von Individuen ein Anzahl Beobachtungen pro Jahr: Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 14 / 391
19 Ergebnis für Alterse ekt Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 15 / 391
20 Ergebnis für Alterse ekt Midlife-Crisis nur bei glatter Funktion erkennbar. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 15 / 391
21 Beispiel 5: Mineralwasserstudie Studie in Zusammenarbeit mit Prof. Adam (LMU) Fragestellung: Schmeckt mit Sauersto angereichertes Mineralwasser besser als gewöhnliches Mineralwasser? Doppel Blindstudie Kontroll Gruppe: zweimal das gleiche Wasser ohne O 2 Verum Gruppe: Beim zweiten Mal mit O 2 angereichertes Mineralwasser Ergebnis (Clausnitzer et al., 2004) : Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 16 / 391
22 Beispiel 5: Mineralwasserstudie Studie in Zusammenarbeit mit Prof. Adam (LMU) Fragestellung: Schmeckt mit Sauersto angereichertes Mineralwasser besser als gewöhnliches Mineralwasser? Doppel Blindstudie Kontroll Gruppe: zweimal das gleiche Wasser ohne O 2 Verum Gruppe: Beim zweiten Mal mit O 2 angereichertes Mineralwasser Ergebnis (Clausnitzer et al., 2004) : Placebo: 76% gaben an, dass das zweite Wasser anders schmeckt Verum : 89 % gaben an, dass das zweite Wasser anders schmeckt Signifikanter E ekt! Zulassung Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 16 / 391
23 Beispiel 5: Mineralwasserstudie Studie in Zusammenarbeit mit Prof. Adam (LMU) Fragestellung: Schmeckt mit Sauersto angereichertes Mineralwasser besser als gewöhnliches Mineralwasser? Doppel Blindstudie Kontroll Gruppe: zweimal das gleiche Wasser ohne O 2 Verum Gruppe: Beim zweiten Mal mit O 2 angereichertes Mineralwasser Ergebnis (Clausnitzer et al., 2004) : Placebo: 76% gaben an, dass das zweite Wasser anders schmeckt Verum : 89 % gaben an, dass das zweite Wasser anders schmeckt Signifikanter E ekt! Zulassung Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 16 / 391
24 Ziele und Methoden Randomisierte Studie (Doppelblind) Entscheidungsfindung durch statistischen Test Quantifizierung des E ekts Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 17 / 391
25 Was ist Statistik? Definition Statistik Statistik als Wissenschaft bezeichnet eine Methodenlehre, die sich mit der Erhebung, der Darstellung, der Analyse und der Bewertung von Daten auseinander setzt. Ein zentraler Aspekt ist dabei die Modellbildung mit zufälligen Komponenten. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 18 / 391
26 Was ist Statistik? Definition Statistik Statistik als Wissenschaft bezeichnet eine Methodenlehre, die sich mit der Erhebung, der Darstellung, der Analyse und der Bewertung von Daten auseinander setzt. Ein zentraler Aspekt ist dabei die Modellbildung mit zufälligen Komponenten. Teilgebiete: Deskriptive Statistik: beschreibend Explorative Datenanalyse: Suche nach Strukturen Induktive Statistik: Schlüsse von Daten auf Grundgesamtheit oder allgemeine Phänomene Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 18 / 391
27 Zitate Traue keiner Statistik, die Du nicht selbst gefälscht hast (nicht von Churchill) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 19 / 391
28 Zitate Traue keiner Statistik, die Du nicht selbst gefälscht hast (nicht von Churchill) Statistics is a body of methods for making wise decisions in the face of uncertainty (W.A. Wallis, A.V. Roberts) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 19 / 391
29 Zitate Traue keiner Statistik, die Du nicht selbst gefälscht hast (nicht von Churchill) Statistics is a body of methods for making wise decisions in the face of uncertainty (W.A. Wallis, A.V. Roberts) Statistisches Denken wird eines Tages für mündige Staatsbürger ebenso wichtig sein, wie die Fähigkeit zu lesen und zu schreiben (H.G. Wells) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 19 / 391
30 Zitate Traue keiner Statistik, die Du nicht selbst gefälscht hast (nicht von Churchill) Statistics is a body of methods for making wise decisions in the face of uncertainty (W.A. Wallis, A.V. Roberts) Statistisches Denken wird eines Tages für mündige Staatsbürger ebenso wichtig sein, wie die Fähigkeit zu lesen und zu schreiben (H.G. Wells) You can t manage what you don t measure (W.E. Deming) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 19 / 391
31 Zitate Traue keiner Statistik, die Du nicht selbst gefälscht hast (nicht von Churchill) Statistics is a body of methods for making wise decisions in the face of uncertainty (W.A. Wallis, A.V. Roberts) Statistisches Denken wird eines Tages für mündige Staatsbürger ebenso wichtig sein, wie die Fähigkeit zu lesen und zu schreiben (H.G. Wells) You can t manage what you don t measure (W.E. Deming) Seit der Finanzkrise gibt es in der Ökonomie einen starken Trend zur empirischen Forschung, die enorm aufgewertet wurde. Kein Wissenschaftler bekommt heute ein makroökonomisches Paper in einem guten Journal verö entlicht, in dem er nicht saubere... empirische Forschung präsentiert (SZ ). Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 19 / 391
32 BIG DATA Analyse und Verarbeitung großer Datenmengen Drei Vs Volume Velocity Variety Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 20 / 391
33 1 Datenerhebung und Messung Die Messung Skalenniveaus
34 Vorlesungseinheiten (vorläufig) 1 Datenerhebung und Messung 2 Häufigkeitsverteilungen 3 Lagemaße 4 Streuungsmaße 5 Konzentrationsmaße 6 Zusammenhangmaße 7 lineare Regression 8 Indizes
35 Grundbegri e Statistische Einheit, Untersuchungseinheit Grundgesamtheit/ Population Teilgesamtheit/ Stichprobe Merkmal Merkmalsausprägung Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 23 / 391
36 Untersuchungseinheit und Grundgesamtheit Definition Untersuchungseinheit Die Objekte, auf die sich eine statistische Analyse bezieht, heißen Untersuchungseinheiten. Diese werden im folgenden durch das Symbol! dargestellt. Definition Grundgesamtheit Die Zusammenfassung aller Untersuchungseinheiten bildet die Grundgesamtheit. Sie wird durch das Symbol dargestellt. Die Beziehung zwischen Untersuchungseinheiten und zugehöriger Grundgesamtheit lässt sich kurz wie folgt umschreiben:! i 2. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 24 / 391
37 Untersuchungseinheit und Grundgesamtheit 1. Beispiel: Personalstruktur einer Firma Wenn wir uns für die Personalstruktur einer Firma interessieren, so besteht die Grundgesamtheit aus der gesamten Belegschaft; jeder einzelne Mitarbeiter stellt eine Untersuchungseinheit dar. 2. Beispiel: Wirtschaftskraft der chemischen Industrie in Europa Hier sind die europäischen Chemiefirmen die Untersuchungseinheiten. Zusammengefasst ergibt sich aus ihnen die Grundgesamtheit der europäischen Chemieindustrie. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 25 / 391
38 Merkmal, Merkmalsausprägung und Merkmalsraum Definition Merkmal bzw. statistische Variable Bestimmte Aspekte oder Eigenschaften einer Untersuchungseinheit bezeichnet man als Merkmal oder statistische Variable. Definition Merkmalsausprägung Eine Merkmalsausprägung ist der konkrete Wert eines Merkmals, die eine bestimmte Untersuchungseinheit aufweist. Es gibt zwei Typen von Ausprägungen: Qualitativ Sie lassen sich durch die verschiedenartigen Ausprägungen charakterisieren. Quantitativ Diese sind messbar und werden durch Zahlen erfasst. Bei diesen gibt es eine weitere Unterscheidung: diskret Der zugehörige Zustandsraum ist abzählbar groß. stetig Es sind überabzählbar viele Elemente im Zustandsraum. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 26 / 391
39 Merkmal, Merkmalsausprägung und Merkmalsraum Definition Merkmalsraum oder Zustandsraum Die Menge aller möglichen Merkmalsausprägungen bildet den Merkmalsraum oder Zustandsraum. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 27 / 391
40 Merkmal, Merkmalsausprägung und Merkmalsraum Beispiele Merkmal bzw. statistische Variable 1 Farbe eines Produkts 2 bestellte Produkte pro Auftrag 3 Gewinn/Verlust pro Monat Beispiele Merkmalsausprägung 1 6. Gut = blau Kunde = 17 Stück 3 März 2010 = e Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 28 / 391
41 Weitere Klassen Quasi-stetiges Merkmal diskret, sehr kleine Einheiten, praktisch stetig. Beispiel: Monetäre Größen in Cent, usw. Gruppierte Daten, Häufigkeitsdaten: stetiges oder quasi-stetiges Merkmal X Wertebereich wird in Gruppen (Klassen, Kategorien) eingeteilt. Beispiele: Gehalt in Gehaltsklassen, Alter in Altersklassen Bemerkung: Gruppierung dient auch dem Datenschutz! Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 29 / 391
42 Datengewinnung und Erhebungsarten Vollerhebung: Alle statistischen Einheiten der Grundgesamtheit werden untersucht ( erhoben ). Stichprobe = Teilerhebung Zufallsstichprobe: statistische Einheiten der Stichprobe werden zufällig nach einem bestimmten Mechanismus gezogen Mehr dazu in Statistik II (induktive Statistik) und in der Vorlesung Stichprobenverfahren Bewusste Auswahlverfahren Expertenauswahl Quotenauswahl Induktive Statistik in der Regel nur mit zufälliger Stichprobe möglich! Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 30 / 391
43 Erhebungsarten Querschnittsdaten: Ein oder mehrere verschiedene Merkmale werden an einer Reihe von Objekten einmal erhoben (zu einem bestimmten Zeitpunkt oder in einem bestimmten Zeitraum) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 31 / 391
44 Erhebungsarten Querschnittsdaten: Ein oder mehrere verschiedene Merkmale werden an einer Reihe von Objekten einmal erhoben (zu einem bestimmten Zeitpunkt oder in einem bestimmten Zeitraum) Zeitreihe Beispiele: Aktienkurse, Wirtschaftsentwicklung Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 31 / 391
45 Erhebungsarten Querschnittsdaten: Ein oder mehrere verschiedene Merkmale werden an einer Reihe von Objekten einmal erhoben (zu einem bestimmten Zeitpunkt oder in einem bestimmten Zeitraum) Zeitreihe Beispiele: Aktienkurse, Wirtschaftsentwicklung Longitudinal-, Längsschnitt- oder Paneldaten: Ein oder mehrere Merkmale werden mehrmals zu verschiedenen Zeitpunkten an einer Reihe von Objekten erhoben. Beispiel: Sozioökonomisches Panel Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 31 / 391
46 Experimente Es werden in der Regel verschiedene Behandlungen verglichen Experimentator greift ein Randomisierte Studie: Zuordnung von Einheiten zu Behandlungen erfolgt durch Losverfahren (Randomisierung) Randomisierte Experimente in der BWL (Spiele, WWW) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 32 / 391
47 Messen Measurement is the contact of reason with nature Henry Margenau (1959) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 33 / 391
48 Messen Measurement is the contact of reason with nature Henry Margenau (1959) In its broadest sense, measurement is the assignment of numerals to objects or events according the rules Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 33 / 391
49 Messen Measurement is the contact of reason with nature Henry Margenau (1959) In its broadest sense, measurement is the assignment of numerals to objects or events according the rules Messen bedeutet die Zuordnung von Zahlen zu Ausprägungen von Merkmalen an Objekten. Physikalische Messung Beispiele: Gewicht, Blutdruck, Fettaufnahme Psychologie Beispiele: Intelligenz, Gewaltbereitschaft, Performance Wirtschaftswissenschaften Beispiele: Inflation, Bruttosozialprodukt, Umsatz, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 33 / 391
50 Definition Peter! 1.84 Stefan! 1.91 Laura! 1.72 Merkmal definiert Relation (Struktur) zwischen den Objekten. Messung: strukturerhaltende Abbildung (Homomorphismus) Peter ist kleiner als Stefan, 1.84 < 1.91 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 34 / 391
51 Nominalskala Beispiele: Diagnosen, Geschlecht Struktur: keine Mögliche Aussagen: gleich, ungleich Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 35 / 391
52 Ordinal- oder Rangskala Beispiele: Schulbildung, soziale Schicht, Schulnoten Struktur: lineare Ordnung Mögliche Aussagen: gleich, ungleich, größer, kleiner Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 36 / 391
53 Intervallskala Beispiele: Umsatz, Preisindex, Schulnoten (??) Struktur: Abstände sinnvoll definiert Mögliche Aussagen: gleich, ungleich, größer, kleiner, Di erenzen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 37 / 391
54 Verhältnisskala Intervallskala mit Nullpunkt Beispiele: Gewinn, Preis, Beschäftigungsdauer, Alter Struktur: Abstände definiert, Nullpunkt Mögliche Aussagen: gleich, ungleich, größer, kleiner, Di erenzen, Verhältnis Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 38 / 391
55 Absolutskala Beispiel: Häufigkeit Struktur: Einheit liegt auf natürliche Weise fest Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 39 / 391
56 Skalenniveau Beachte: Je höher das Skalenniveau, desto mehr Interpretationen und Rechnungen sind möglich Je höher das Skalenniveau, desto mehr (implizite) Annahmen werden gemacht sinnvoll interpretierbare Berechnungen Skalenart auszählen ordnen Di erenzen bilden Quotienten bilden nominal ja nein nein nein ordinal ja ja nein nein intervall ja ja ja nein verhältnis ja ja ja ja Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 40 / 391
57 Indexbildung Bildung von Einzelindikatoren zu einer neuen Variablen Häufig: Bildung von (gewichteten) Summen von einzelnen Variablen Beispiel: Pflege Qualität = a 1 Q(Essen) + a 2 Q(Medizinische Versorgung) +... Indexbildung folgt nur theoretischen Vorgaben und fachspezifischen Überlegungen Fragen der Statistik: Gleichheit sinnvoll? (Dimensionsreduktion zulässig) Ordnung bzw. Abstände sinnvoll? Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 41 / 391
58 2 Datenorganisation und Häufigkeitsverteilungen Datenorganisation Statistik-Software Häufigkeiten
59 Deskriptive Statistik Data is merely the raw material of knowledge. Ziel: Beschreibung von Daten mit möglichst geringem Informationsverlust Eigenschaften und Strukturen sichtbar machen Graphisch und durch Kennwerte Eindimensional und mehrdimensional Zunächst keine Schlüsse auf die Grundgesamtheit oder allgemeine Phänomene Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 43 / 391
60 Rohdaten und Datenmatrix Die Daten liegen in der Regel als Datenmatrix vor: Zeilen entsprechen Untersuchungseinheiten Spalten entsprechen Merkmalen Elemente der Matrix sind die Merkmalsausprägungen Fragen mit Mehrfachnennungen als einzelne binäre Merkmale definieren Hinweise zur Eingabe unter http: // Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 44 / 391
61 Beispiel: Mietspiegel Nr nm nmqm wfl rooms bj bez kueche Untergiesing Bogenhausen Obergiesing Schwanthh Aubing Schwanthh 0 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 45 / 391
62 Kodierung Motivation Da es nicht möglich ist, mit Zeichenketten zu rechnen, müssen qualitative Merkmale für die statistische Analyse mit einer Statistik-Software geeignet aufbereitet werden. Definition Kodierung Der Vorgang, bei dem man Merkmalsausprägungen oder fehlenden Werten Zahlen zuordnet, die die entsprechende Ausprägung repräsentieren, bezeichnet man als Kodierung. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 46 / 391
63 Dateneingabe Nützliche Werkzeuge Um die erhobenen Daten von Beobachtungen, Umfragen oder Experimenten auszuwerten, diese gebündelt in einer Datei abzuspeichern. Dafür eignen sich Tabellenkalkulationsprogramme Excel, Lotus Datenbaksysteme dbase, Paradox, Access, MySQL Statistikpakete R, SAS,SPSS,STATA Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 47 / 391
64 SPSS Vorteile Nachteile umfassendes Paket an statistischen Methoden vorhanden erarbeitete Skripte können auf neue Daten leicht angepasst werden schnelle Einarbeitung in die Benutzeroberfläche Konsistenzüberprüfung der Daten vorhanden Skripterstellung bedarf Einarbeitung Formatierung von Diagrammen in der Benutzeroberfläche zum Teil umständlich teure Lizenz Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 48 / 391
65 Programmiersprache R Vorteile umfassendes Paket an statistischen Methoden vorhanden erarbeitete Skripte können auf neue Daten leicht angepasst werden bequeme Schnittstellen zu Dateien/Datenbanken vorhanden kostenlos beziehbar unter Editor R-Studio unter Kurse für Studierende der LMU Nachteile bedarf Einarbeitung keine eigene Datenverwaltung vorhanden Updates nicht notwendiger Weise kompatibel zu älteren Versionen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 49 / 391
66 Eindimensionale Häufigkeitsverteilung Ordnen der Daten nach einem Merkmal Auszählen der Häufigkeiten der einzelnen Merkmalsausprägungen Relative Häufigkeiten = Häufigkeit/Anzahl der Untersuchungseinheiten Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 50 / 391
67 Häufigkeitsverteilung Im Weiteren: X, Y,... Bezeichnung für Merkmal nuntersuchungseinheiten x 1,...,x i,...,x n, i =1,...,n beobachtete Werte bzw. Merkmalsausprägungen von X { x 1,...,x i,...,x n ; i =1,...,n} Rohdaten Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 51 / 391
68 Häufigkeiten I a 1 < a 2 <...<a k, k apple n der Größe nach geordnete, verschiedene Werte x 1,...,x n Beispiel: Absolventenstudie Für die Variable D Ausrichtung der Diplomarbeit sind die Daten durch die folgende Tabelle gegeben. Person i Variable D Person i Variable D Person i Variable D Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 52 / 391
69 Häufigkeiten II Ausprägung absolute Häufigkeit h relative Häufigkeit f 1 2 2/36 = /36 = /36 = /36 = Häufigkeitstabelle für die Variable D Ausrichtung der Diplomarbeit Bemerkungen: Für Nominalskalen hat die Anordnung < keine inhaltliche Bedeutung. Bei kategorialen Merkmalen ) k = Anzahl der Kategorien Bei stetigen Merkmalen ) k oft nicht oder kaum kleiner als n. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 53 / 391
70 Absolute und relative Häufigkeiten h(a j )=h j absolute Häufigkeit der Ausprägung a j, d.h. Anzahl der x i aus x 1,...x n mit x i = a j f (a j )=f j = h j /n relative Häufigkeit von a j h 1,...,h k absolute Häufigkeitsverteilung f 1,...,f k relative Häufigkeitsverteilung Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 54 / 391
71 Klassenbildung Vorgehensweise bei vielen Ausprägungen Bei stetigen Merkmalen und diskreten Merkmalen mit vielen Ausprägungen (= quasistetig) bedarf es des Zwischenschritts der Klassenbildung, umeineüberschaubare Verteilung zu erhalten. Klassenbildung Als Anhaltspunkt für eine brauchbare Verteilung sollten p n Klassen gebildet werden. Bei der Wahl der Klassen gibt es zwei Möglichkeiten: 1 nach sachlogischen Gegebenheiten 2 nach willkürlichen Kriterien, wobei die zweite Gestaltungsart Raum zur Manipulation der Häufigkeitsstruktur scha t und deshalb vermieden werden sollte. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 55 / 391
72 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio [900; 1500[ 9,3688 Mio [1500; 2600[ 12,2696 Mio [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391
73 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio [900; 1500[ 9,3688 Mio [1500; 2600[ 12,2696 Mio [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 5, ,2 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391
74 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio [1500; 2600[ 12,2696 Mio [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391
75 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio [1500; 2600[ 12,2696 Mio [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 9, ,2 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391
76 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391
77 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 12, ,2 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391
78 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio 0,313 [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391
79 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio 0,313 [2600; 4500[ 7,4088 Mio [4500; 1[ 4,4296 Mio 7, ,2 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391
80 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio 0,313 [2600; 4500[ 7,4088 Mio 0,189 [4500; 1[ 4,4296 Mio 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391
81 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio 0,313 [2600; 4500[ 7,4088 Mio 0,189 [4500; 1[ 4,4296 Mio 39,2 Mio 4, ,2 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391
82 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio 0,313 [2600; 4500[ 7,4088 Mio 0,189 [4500; 1[ 4,4296 Mio 0,113 39,2 Mio Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391
83 Beispiel Verteilung der monatlichen Haushaltsnettoeinkommen in Deutschland 2005 mon. Einkommen absolute relative in e Häufigkeit Häufigkeit [0; 900[ 5,7232 Mio 0,146 [900; 1500[ 9,3688 Mio 0,239 [1500; 2600[ 12,2696 Mio 0,313 [2600; 4500[ 7,4088 Mio 0,189 [4500; 1[ 4,4296 Mio 0,113 39,2 Mio 1 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 56 / 391
84 Häfigkeitstabelle Definition Häufigkeitstabelle Die tabellarische Zusammenfassung der Merkmalsausprägungen a j bei qualitativen und diskreten Merkmalen Klassengrenzen nur bei (quasi-)stetigen Merkmalen Klassenbreiten nur bei stetigen Merkmalen absoluten Häufigkeiten h j relativen Häufigkeiten f j für alle Merkmalsausprägungen j = 1,...,k wird als Häufigkeitstabelle bezeichnet. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 57 / 391
85 Häfigkeitstabelle allgemeine Form bei qualitativen und diskreten Merkmalen j a j h j f j 1 a 1 h 1 f k a k h k f k n 1 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 58 / 391
86 Beispiel Weltbevölkerung nach Kontinenten im Jahr 2002 lfd Nr. (j) Kontinent (a j ) abs. H keit (h j ) rel. H keit (f j ) 1 Asien Mio 0,607 2 Afrika 832 Mio 0,134 3 Europa 725 Mio 0,116 4 Lateinamerika 534 Mio 0,086 5 Nordamerika 320 Mio 0,052 6 Ozeanien 31 Mio 0, Mio 1,000 Quelle: UNFPA Weltbevölkerungsbericht 2002 New York / Stuttgart Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 59 / 391
87 Grafische Darstellungen Ein Bild sagt mehr als tausend Worte Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 60 / 391
88 Statistische Grafik Lit.: Tufte, E. (2001): The visual Display of Information. Graphic Press 2nd ed. Allgemeine Kriterien Wahl der Skala inkl. Bereich Wahl des Prinzips (Längentreue, Flächentreue) Einbringen von anderen Visualisierungen (Piktogramme etc.) Angemessene Wahl der Variablen Angemessene Wahl der Farben Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 61 / 391
89 Wahrnehmung von Grafiken Experimente von Psychologen zeigen Hierarchie der korrekten Interpretation (Cleveland/McGill) 1 Abstände 2 Winkel 3 Flächen 4 Volumen 5 Farbton-Sattheit-Schwärzegrad Da Abstände am besten wahrgenommen werden, sollten diese bevorzugt verwendet werden. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 62 / 391
90 Grafische Darstellungen SZ Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 63 / 391
91 Entwicklung der weltweiten Kunststo produktion JOHANNES KEPLER UNIVERSITÄT LINZ IFAS - INSTITUT FÜR ANGEWANDTE STATISTIK Unsinn in den Medien Vom allzu sorglosen Umgang mit Daten: Grafische Darstellungen (gefunden am 6. September 2014 auf Seite 7 im Magazin der Oberösterreichischen Nachrichten) Mio. t (Für den Kommentar verantwortlich: Andreas Quatember, IFAS) Grafik von Andreas Quatember (Universität Linz) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 64 / 391
92 Kommentar: Eine waschechte Zeitungsente! Die mengenmäßige Entwicklung der weltweiten Kunststo produktion über drei Zeitpunkte (1976, 2002, 2012) wird hier durch immer größer werdenden Quietschentchen dargestellt. Unterschiedlichen Zeiträume zwischen den Jahreszahlen mal hin. Eindruck einer Versechsfachung (288 : 47 = 6,1) falsch! Volumina werden miteinander verglichen 3 D -Darstellungen sind zu vermeiden Räumliche Darstellungen von eindimensionalen Häufigkeiten führen meist zu verzerrter Wahrnehmung. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 65 / 391
93 Beispiel: Liniendiagramm (??) Umsatzerlös Jahr Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 66 / 391
94 Beispiel: Liniendiagramm (!!) Umsatzerlös Jahr Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 67 / 391
95 Typen von eindimensionalen Darstellungen Stab-, Balken- und Säulendiagramm Kreis (Torten)-Diagramm Histogramm Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 68 / 391
96 Stabdiagramm, Säulen- und Balkendiagramm Stabdiagramm: Trage über a 1,...,a k jeweils einen zur x-achse senkrechten Strich (Stab) mit Höhe h 1,...,h k (oder f 1,...,f k )ab. Säulendiagramm: wie Stabdiagramm, aber mit Rechtecken statt Strichen. Balkendiagramm: wie Säulendiagramm, aber mit vertikal statt horizontal gelegter x-achse. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 69 / 391
97 Säulendiagramm Darstellung der absoluten oder relativen Häufigkeiten als Höhen (Längen) x-achse: Ausprägungen des Merkmals y-achse: absolute/ relative Häufigkeiten Anwendungen: Ordinale Merkmale Metrische Merkmale mit wenigen Ausprägungen Nominale Merkmale (Problem: Ordnung nicht vorhanden) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 70 / 391
98 Beispiel : Zahl der Zimmer im Mietspiegel Anzahl der Zimmer Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 71 / 391
99 Kreisdiagramm, Tortendiagramm Darstellung der relativen (absoluten) Häufigkeiten als Fläche eines Kreises Anwendung: Nominale Merkmale Ordinale Merkmale (Problem: Ordnung nicht korrekt wiedergegeben) Gruppierte Daten Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 72 / 391
100 Mietspiegel: Zahl der Zimmer Anzahl der Zimmer Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 73 / 391
101 Stapeldiagramm Darstellen der absoluten oder relativen Häufigkeiten als Länge. Die Abschnitte werden übereinander in verschiedenen Farben gestapelt. Anwendungen: Ordinale Daten Gruppierte Daten Metrische Daten mit wenigen Ausprägungen Besonders geeignet für den Vergleich verschiedener Gruppen durch nebeneinander liegende Stapel. Zu beachten ist dann die Unterscheidung: relative Häufigkeit $ absolute Häufigkeit Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 74 / 391
102 Beispiel: Zahl der Zimmer/Küchenausstattung Gruppen: 1 = gehobene Ausstattung der Küchen, 0 keine gehobene Ausstattung der Küche Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 75 / 391
103 Beispiel: Zahl der Zimmer/Küchenausstattung Gruppen: 1 = gehobene Ausstattung der Küchen, 0 keine gehobene Ausstattung der Küche Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 76 / 391
104 Beispiel: Intoleranz in Bayern SZ Studie aus der LMU Soziologie Christian Ganser SZ vom SZ Grafik; Quelle LMU München Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 77 / 391
105 Beispiel: Intoleranz in Bayern SZ SZ vom Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 78 / 391
106 Das Histogramm Darstellung der relativen Häufigkeiten durch Flächen (Prinzip der Flächentreue) Vorgehen: 1 Aufteilung in Klassen (falls die Daten noch nicht gruppiert sind) 2 Bestimmung der relativen Häufigkeiten f j = h j n 3 Bestimmung der Höhen l j, so dass gilt b j l j = f j wobei b j :BreitederKlassej. 4 Bei gleichen Klassenbreiten b j = b gilt l j = f j b = h j b n.daherwirdbei solchen Histogrammen als Höhe auch h j gewählt 5 Klassierung sollte möglichst mit gleichen Klassenbreiten erfolgen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 79 / 391
107 Mietspiegel Mieten in München Anzahl Nettoquadratmetermiete Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 80 / 391
108 Histogramm Anwendung bei metrischen Daten Beachte: Abhängigkeit von der Breite Klasse inhaltlich vorgeben, verschiedene Varianten ansehen. Vorsicht bei Rändern Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 81 / 391
109 Empirische Verteilungsfunktion H(x) := Anzahl der Werte <= x bzw. F (x) =H(x)/n =AnteilderWerte x i mit x i apple x F (x) =f (a 1 )+...+ f (a j )= X f i, i:a i applex wobei a j apple x und a j+1 > x ist. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 82 / 391
110 empirische Verteilungsfunktion ordinaler und diskreter Merkmale Beispiel Zugrunde liegende Daten entstammen dem Münchner Mietspiegel von Anz. abs. rel. F (x) Räume H keit H keit ,092 0, ,342 0, ,384 0, ,144 0, ,033 0, , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 83 / 391
111 Beispiel für eine Empirische Verteilungsfunktion Zahl der Zimmer (Verteilungsfunktion) Fn(x) Anzahl Zimmer Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 84 / 391
112 Eigenschaften von F (x) monoton wachsende Treppenfunktionen mit Sprüngen an den Ausprägungen a 1,...,a k Sprunghöhen: f 1,...,f k rechtsseitig stetig F (x) =0für x < a 1, F (x) =1für x a k Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 85 / 391
113 Beispiel für eine Empirische Verteilungsfunktion Mieten in München (Verteilungsfunktion) Fn(x) Nettoquadratmetermiete Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 86 / 391
114 3 Lagemaße Modus Median Quantile Darstellung: Boxplot Mittelwert
115 Fragen Wo liegt die Masse der Daten? Wo liegt die Mehrzahl der Daten? Wo liegt die Mitte der Daten? Welche Merkmalsausprägung ist typisch für die Häufigkeitsverteilung? Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 88 / 391
116 Modus verwendbar bei Merkmalen mit Nominalskala Ordinalskala metrische Skala x x x Definition Modus Als Modus oder Modalwert x M bezeichnet man den häufigsten Wert einer Verteilung. Bei diskreten Daten ist der Modus die Merkmalsausprägung a j,die am häufigsten auftritt. Bei mehreren Maxima ist der Modus nicht eindeutig definiert. Für gruppierte Daten ist der Modus definiert als die Klassenmitte der am dichtesten besetzten Gruppe. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 89 / 391
117 Der Modus: Eigenschaften Eigenschaften: oft nicht eindeutig nur bei gruppierten Daten oder bei Merkmalen mit wenigen Ausprägungen sinnvoll stabil bei allen eindeutigen Transformationen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 90 / 391
118 Beispiel Gegeben sei folgende Werteliste: 4, 5, 5, 6, 6, 6, 7, 7, 9. Die zugehörige Häufigkeitstabelle ergibt und somit x M = 6. Ausprägung H keit Bei einer Datentransformation, hier z.b. Y = X 2, ergibt sich: ȳ M = 36 = ( x M ) 2 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 91 / 391
119 Median verwendbar bei Merkmalen mit Nominalskala Ordinalskala metrische Skala x x Definition Median oder Zentralwert Der Median oder Zentralwert wird aus den geordneten Daten gewonnen. Er wird durch die Forderung bestimmt, dass 50% der beobachteten Werte kleiner oder gleich und 50% der beobachteten Werte größer oder gleich dem Median sein sollen. Er wird mit x 0,5 bezeichnet. Eine alternative Formulierung für die Bestimmung des Medians ist über die empirische Verteilungsfunktion durch die Forderung F ( x 0,5 )=0, 5 gegeben. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 92 / 391
120 Median Berechnung des Medians ( x 0,5 = x (n+1)/2 falls n ungerade 1 2 (x (n/2) + x (n/2+1) ) falls n gerade Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 93 / 391
121 Eigenschaften des Medians anschaulich geeignet für ordinale Daten stabil gegenüber Ausreißern Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 94 / 391
122 Median Beispiel Gegeben sei zunächst die Werteliste ohne größeren Ausreißer: Da n = 9 ungerade ist, gilt: 4, 5, 5, 6, 6, 6, 7, 7, 9. x 0,5 = x (n+1)/2 = x (9+1)/2 = x 5 =6 Wird nun die Werteliste mit einem deutlichen Ausreißer versehen, also 4, 5, 5, 6, 6, 6, 7, 7, 28, so verbleibt der Median bei 6, denn der neue Extremwert übt keinen Einfluß aus, wie die obige Berechnung aufzeigt. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 95 / 391
123 Das Quantil Definition: Wert für den gilt: Mindestens Anteil p der Daten sind kleiner oder gleich x p Mindestens Anteil 1 p der Daten sind größer oder gleich x p x(k) 2 x (k) ; x (k+1) falls np keine ganze Zahl und k kleinste Zahl > np falls k = np ganze Zahl Es gibt weitere Definitionen von Quantilen (in R 9 Typen), die sich aber in der Praxis kaum unterschieden. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 96 / 391
124 Quantile: Berechnung Berechnung von Quantilen x = 8 >< x (k) falls n keine ganze Zahl ist, k ist dann die kleinste ganze Zahl > n, >: 1 2 (x (n ) + x (n +1) ) falls n ganzzahlig ist. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 97 / 391
125 Quantile Besondere Quantile Bei der Charakterisierung von Verteilungen haben folgende Quantile eine besondere Bedeutung: Median entspricht dem 50%-Quantil (siehe oben) unteres Quartil entspricht dem 25%-Quantil oberes Quartil entspricht dem 75%-Quantil Fünf-Punkte Zusammenfassung Minimum, 25%-Quantil, Median, 75%-Quantil, Maximum Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 98 / 391
126 Beispiel Gegeben sei die (altbekannte) Werteliste: 4, 5, 5, 6, 6, 6, 7, 7, 9. Für das untere Quartil x 0,25 ergibt sich der Wert 5, denn n =9 0, 25 = 2, 25 nicht ganzzahlig ) x 0,25 = x (3) =5 Fünf-Punkte Zusammenfassung: 4,5,6,7,9 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 99 / 391
127 Boxplot Einfacher Boxplot x 0.25 = Anfang der Schachtel (Box) x 0.75 = Ende der Schachtel d Q =Länge der Schachtel Der Median wird durch den Strich in der Box markiert Zwei Linien ( whiskers ) außerhalb der Box gehen bis zu x min und x max. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 100 / 391
128 Einfacher Boxplot Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 101 / 391
129 Einfacher Boxplot Median: x (5) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 101 / 391
130 Einfacher Boxplot Median: x (5) unteres Quartil: x (3) oberes Quartil: x (7) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 101 / 391
131 Einfacher Boxplot Median: x (5) unteres Quartil: x (3) oberes Quartil: x (7) Minimum: x (1) Maximum: x (9) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 101 / 391
132 Einfacher Boxplot Median: x (5) unteres Quartil: x (3) oberes Quartil: x (7) Minimum: x (1) Maximum: x (9) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 101 / 391
133 Boxplot Modifizierter Boxplot Die Linien außerhalb der Schachtel werden nur bis zu x min bzw. x max gezogen, falls x min und x max innerhalb des Bereichs [z u, z o ]derzäune liegen. z u = x , 5d Q, z o = x , 5d Q Ansonsten gehen die Linien nur bis zum kleinsten bzw. größten Wert innerhalb der Zäune, die außerhalb liegenden Werte werden individuell eingezeichnet. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 102 / 391
134 Modifizierter Boxplot Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 103 / 391
135 Modifizierter Boxplot Median: x (9), Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 103 / 391
136 Modifizierter Boxplot Median: x (9),unteresQuartil:x (5), oberes Quartil: x (13) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 103 / 391
137 Modifizierter Boxplot Median: x (9),unteresQuartil:x (5), oberes Quartil: x (13) Maximale Whiskerlänge unten: x (5) 1.5d =3 Maximale Whiskerlänge oben: x (13) +1.5d = 35 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 103 / 391
138 Modifizierter Boxplot Median: x (9),unteresQuartil:x (5), oberes Quartil: x (13) Maximale Whiskerlänge unten: x (5) 1.5d =3 Maximale Whiskerlänge oben: x (13) +1.5d = 35 x min ohne Ausreißer: x (3) = 12 x max ohne Ausreißer: x (16) = 29 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 103 / 391
139 Modifizierter Boxplot Median: x (9),unteresQuartil:x (5), oberes Quartil: x (13) Maximale Whiskerlänge unten: x (5) 1.5d =3 Maximale Whiskerlänge oben: x (13) +1.5d = 35 x min ohne Ausreißer: x (3) = 12 x max ohne Ausreißer: x (16) = 29 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 103 / 391
140 Beispiel: Münchner Mietspiegel Nettoquadratmetermiete Nettoquadratmetermiete Euro Euro Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 104 / 391
141 Beispiel: Münchner Mietspiegel Nettoquadratmetermiete Nettoquadratmetermiete Euro Euro Zahl der Zimmer Zahl der Zimmer Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 105 / 391
142 Beispiel: Münchener Staubdaten Staubkonzentration am Arbeitsplatz Staubkonzentration am Arbeitsplatz Frequency Exposition Exposition Beachte: Bimodale Verteilung im Boxplot nicht erkennbar. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 106 / 391
143 Boxplot: Vor- und Nachteile pro: kompakt geeignet für Vergleiche Ausreißer sichtbar Schiefe sichtbar contra gegen Intuition (Viel Farbe wenig Daten) Bimodale Verteilungen nicht sichtbar Ausreißer sichtbar Breite redundant Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 107 / 391
144 Der Mittelwert (arithmetisches Mittel) nx x = 1 n i=1 x i bekanntestes Lagemaß instabil gegen extreme Werte geeignet für intervallskalierte Daten Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 108 / 391
145 Mittelwert bei gruppierten Daten nx x = 1 n i=1 x i = 1 n (x 1 + x x n ) = 1 n kx h j a j j=1 h j :Häufigkeit von a j Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 109 / 391
146 Getrimmtes Mittel Um die Ausreißerempfindlichkeit von x abzuschwächen definiert man x = 1 n 2r x (i) : geordnete x-werte r ist die größte ganze Zahl mit r apple n Xn r i=r+1 x (i) Es wird also der Anteil der extremsten Werte abgeschnitten. -getrimmtes Mittel Winsorisiertes Mittel (gestutztes Mittel) Der Anteil der extremsten Werte wird durch das entsprechende Quantil ersetzt. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 110 / 391
147 Das geometrische Mittel v uy x G = nt n i=1 x i arithmetisches Mittel auf der log-skala x g = exp nur geeignet für positive Werte 1 n! nx log(x i ) i=1 geeignet für intervallskalierte Daten Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 111 / 391
148 Das harmonische Mittel x H := 1 1 n P n i=1 1 x i Das harmonische Mittel entspricht dem Mittel durch Transformation t! 1 t x H = 1 n nx i=1 1 x i! 1 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 112 / 391
149 Das harmonische Mittel x H := 1 1 n P n i=1 1 x i Das harmonische Mittel entspricht dem Mittel durch Transformation t! 1 t x H = 1 n nx i=1 1 x i! 1 Beispiel: x 1,...,x n Geschwindigkeiten, mit denen konstante Wegstrecken L zurückgelegt werden Gesamt-Geschwindigkeit: L n L x L = x H x n Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 112 / 391
150 Vorlesung Ergänzungen zu Mittelwert und Median Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 113 / 391
151 Transformationen Linearität des arithmetischen Mittels Gegeben sind Daten x 1,...x n und eine lineare Transformation y i = a + b x i Dann gilt ȳ = a + b x Beispiel: x i Gewinn in e; y i Gewinn in SFR Invarianz des Medians bei monotonen Transformationen Gegeben sind Daten x 1,...x n und eine streng monoton steigende Transformation y i = f (x i ), d.h. x i < x j ) f (x i ) < f (y i ) Dann gilt ỹ 0,5 = f ( x 0,5 ) Beispiel: Logarithmierung, Umrechnung von Punkten in Noten. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 114 / 391
152 4 Streumaße Spannweite Interquartilsabstand Standardabweichung und Varianz Variationskoe zient MAD
153 Streumaße Motivation Lagemaße allein charakterisieren die Verteilung nur unzureichend! Wenn man den Kopf in der Sauna hat und die Füße im Kühlschrank, sprechen Statistiker von einer angenehmen mittleren Temperatur. Zwei Männer sitzen im Wirtshaus. Der eine verdrückt eine ganze Kalbshaxe, der andere trinkt zwei Maß Bier. Statistisch gesehen ist das für jeden ein Maß Bier und eine halbe Haxe - aber der eine hat sich überfressen, der andere ist beso en. Die statistische Sicht soll sich also nicht auf den Mittelwert beschränken!! Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 116 / 391
154 Maße für die Streuung Spannweite Interquartilsabstand Standardabweichung und Varianz Variationskoe zient Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 117 / 391
155 Die Spannweite (Range) Definition: q = x max x min Bereich in dem die Daten liegen Wichtig für Datenkontrolle Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 118 / 391
156 Der Quartilsabstand Definition: d Q = x 0.75 x 0.25 Größe des Bereichs in dem die mittlere Hälfte der Daten liegt Bei ordinal skalierten Daten Angabe von x 0.75 und x 0.25 Zentraler 50%-Bereich Robust gegen Ausreißer Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 119 / 391
157 Standardabweichung und Varianz Definition s 2 := 1 n nx (x i x) 2 Varianz i=1 s = p s 2 Standardabweichung Mittlere Abweichung vom Mittelwert Intervallskala Voraussetzung Empfindlich gegen Ausreißer Verwende S 2 := 1 n 1 P n i=1 (x i x) 2 für Stichproben Eigenschaften der Standardabweichung Die Standardabweichung hat gegenüber der Varianz den Vorteil, dass sie in der gleichen Einheit wie die Beobachtungswerte gemessen wird. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 120 / 391
158 Transformationsregel y i = a + bx i ) sy 2 = b 2 sx 2 s y = b s x (Analog für S x, S y ) Varianz und Standardabweichung sind mit linearen Transformationen verträglich. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 121 / 391
159 Verschiebungssatz Für jedes c 2 R gilt: nx (x i c) 2 = i=1 nx (x i x) 2 + n( x c) 2 i=1 c =0) s 2 = 1 n nx i=1 s 2 = x 2 x 2 x 2 i x 2 Beachte: Mittelwert minimiert P n i=1 (x i c) 2 Verschiebungssatz für numerische Berechnung mit Computer nicht geeignet. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 122 / 391
160 Streuungszerlegung I Seien die Daten in r Gruppen (Schichten) aufgeteilt: Gruppenmittelwerte: x 1,...,x n1, x n1 +1,...,x n1 +n 2,...,x nr x 1 = 1 Xn 1 n 1 i=1 x i, x 2 = 1 nx 1 +n 2 n 2 i=n 1 +1 x i, usw. Gruppenvarianzen: s1 2 = 1 Xn 1 (x i x 1 ) 2, s2 2 = 1 nx 1 +n 2 (x i n 1 n 2 x 2 ) 2, usw. i=1 i=n 1 +1 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 123 / 391
161 Streuungszerlegung II Dann gilt: x = 1 n s 2 = 1 n rx n j x j j=1 rx n j sj n j=1 rx n j ( x j x) 2 j=1 Streuung Streuung Gesamtstreuung = innerhalb + zwischen der Gruppen den Gruppen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 124 / 391
162 Variationskoe zient Definition Das Verhältnis von Standardabweichung und Mittelwert ist gegeben durch v = s x mit x > 0 Eigenschaften des Variationskoe zienten misst die relative Schwankung um den Mittelwert ist nur bei positiven Werten bei Verhältnisskala sinnvoll ermöglicht den Vergleich von Streuungen zweier Datensätze mit unterschiedlichen Maßeinheiten Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 125 / 391
163 Mittlere absolute Abweichung (MAD) Definition Die mittlere absolute Abweichung ist definiert als x MAD = 1 n nx x i x i=1 Eigenschaften des MAD misst direkt die durchschnittliche absolute Abweichung um den Mittelwert ist nicht ausreisserempfindlich hat nicht so schöne Eigenschaften wie die Standardabweichung Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 126 / 391
164 Konzentrationsmaße Motivation Existiert eine Menge, die auf viele Individuen verteilt ist, kann es hilfreich sein zu wissen, wie diese Menge verteilt ist; ob etwa eher eine Gleichverteilung oder eher ein Monopol vorliegt. Beispiele Vermögensverteilung in einem Staat Marktanteile von Firmen in einem Segment Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 127 / 391
165 Lorenzkurve verwendbar bei Merkmalen mit Nominalskala Ordinalskala metrische Skala Definition Lorenzkurve Das Merkmal darf nur positive Ausprägungen annehmen Die Gesamtsumme aller Merkmalswerte ist P n j=1 x j = P n j=1 x (j) Die Lorenzkurve verbindet Punktepaare bestehend aus den kumulierten Summen der nach Größe geordneten Beobachtungswerte 0 apple x (1) apple...apple x (n) und dem relativen Anteil der Individuen, die diese kumulierte Summe besitzen. x Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 128 / 391
166 Lorenzkurve Gestaltung Es wird festgelegt: u (0) =0undv (0) =0 Die Abszisse wird in gleiche Längen aufgeteilt, deren Anzahl der der Individuen (Merkmalsausprägungen) entspricht: u i = i n, i =1,...,n Die Unterteilung der Ordinate berechnet sich wie folgt: v i = P i j=1 x (j) P n j=1 x, i =1,...,n, (j) also dem Quotienten aus der kumulierten Summe und der Gesamtsumme. Die so errechneten Koordinatenpunkte werden in den Graphen eingetragen und mit Geraden verbunden. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 129 / 391
167 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391
168 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391
169 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391
170 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391
171 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, ,4 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391
172 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, ,4 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391
173 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, ,4 0, ,6 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391
174 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, ,4 0, ,6 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391
175 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, ,4 0, ,6 0, ,8 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391
176 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, ,4 0, ,6 0, ,8 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391
177 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. i x (i) u i v i ,2 0, ,4 0, ,6 0, ,8 0, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391
178 Lorenzkurve Beispiel einer Gleichverteilung 5BauernteilensicheineAckerfläche von 100 ha zu je 20 ha. 1.0 i x (i) u i v i ,2 0, ,4 0, ,6 0, ,8 0,8 v i u i Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 130 / 391
179 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391
180 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391
181 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391
182 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391
183 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391
184 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391
185 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , , , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391
186 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , , , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391
187 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , , , , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391
188 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , , , , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391
189 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. i x (i) u i v i , , , , Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391
190 Lorenzkurve Beispiel eines Monopols Von 5 Bauern besitzt einer die gesamten 100 ha. 1.0 i x (i) u i v i , , , ,8 0 v i u i Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 131 / 391
191 Lorenzkurve Erscheinungsbild von Lorenzkurven Die Kurve bildet auf einen quadratischen Graphen mit Kantenlänge 1 ab. Die Koordinate (u 0 ; v 0 )istimmer (0; 0). Die Koordinate (u n ; v n )istimmer (1; 1). Der konstruierte Polygonzug verläuft immer unterhalb (im Grenzfall auf) der Winkelhalbierenden. Der konstruierte Polygonzug ist (streng) monoton steigend. Die Steigung des nächsten Polygonsegments ist entweder gleich groß oder größer als die Steigung des letzten Polygonsegments. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 132 / 391
192 Lorenzkurve Aussagemöglichkeiten von Lorenzkurven Aufgrund ihrer Struktur kann man anhand einer Lorenzkurve folgende Aussagen verfassen: Die ärmsten x% besitzten einen Anteil von y%. Die reichsten x% besitzen einen Anteil von y%. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 133 / 391
193 Lorenzkurve Beispiel Bruttohaushaltseinkommen 2003 in der Schweiz Es zeigt sich, dass das ärmste Viertel der Schweizer Bevölkerung nur 10%, das reichste Viertel jedoch über 40% des gesamten Bruttoeinkommens verdient. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 134 / 391
194 Gini-Koe zient Definition Gini-Koe zient Der Gini-Koe zient bzw. das Lorenzsche Konzentrationsmaß ist eine Maßzahl, die das Ausmaß der Konzentration beschreibt. Er ist definiert als G =2 F, F wobei F die Fläche zwischen der Diagonalen und der Lorenzkurve ist. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 135 / 391
195 Gini-Koe zient Berechnung des Gini-Koe zienten Für die praktische Berechnung von G aus den Wertepaaren (u i ; v i ) stehen folgende alternative Formeln zur Verfügung: G = 2 P n i=1 i x (i) (n + 1) P n i=1 x (i) n P n i=i x (i) oder alternativ G =1 1 n nx (v i 1 + v i ) i=1 Wertebereich des Gini-Koe zienten 0 apple G apple n 1 n Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 136 / 391
196 Gini-Koe zient der normierte Gini-Koe zient G + Der Gini-Koe zient wird auf folgende Weise normiert: G + = Er hat somit den Wertebereich n n 1 G 0 apple G + apple 1, wobei 0 für keine Konzentration (Gleichverteilung) und 1 für vollständige Konzentration (Monopol) steht. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 137 / 391
197 GINI Einkommen nach CIA report 2009 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 138 / 391
198 Bericht der Bundesregierung - X - Einkommensverteilung (Gini-Koeffizient) 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0, Quelle: Berechnungen des DIW Berlin auf Basis SOEP Ein weiteres Verteilungsmaß ist der Gini-Koeffizient. Er beschreibt auf einer Skala von null bis eins die Ungleichheit der Verteilung. Je höher der Wert, umso ungleicher ist die Verteilung. Dieses Maß zeigt eine nach 2007 rückläufige Ungleichheit der Nettoäquivalenzeinkommen auf Haushaltsebene an. Dies umfasst alle Einkommensarten (insbesondere Einkommen aus Erwerb, Renten und Pensionen, aus Vermögen und Sozialtransfers). Der Trend einer Zunahme zwischen 2000 und 2005 hat sich also in der Zeit danach umgekehrt. Die Ungleichheit der Einkommen nimmt derzeit ab. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 139 / 391
199 Bericht der Bundesregierung personenhaushalt berücksichtigt. Die Verteilung der so ermittelten Nettoäquivalenzeinkommen hat sich, gemessen am Gini-Koeffizienten und den Anteilen der Dezile, nach den Daten der EVS zwischen 2003 und 2008 leicht weiter gespreizt. Tabelle C I.1.2: Verteilung der Nettoäquivalenzeinkommen 2003 und 2008 Jahr Quelle: EVS; Statistisches Bundesamt. Dezil Anteile (%) am Volumen des Nettoäquivalenzeinkommens Gini- Koeffizient ,9 5,5 6,5 7,5 8,4 9,4 10,5 12,0 14,3 22,0 0, ,6 5,1 6,3 7,3 8,3 9,3 10,5 12,2 14,7 22,7 0,284 Während die unteren sechs Dezile gegenüber 2003 einen geringeren Anteil aufweisen, haben die obersten drei Dezile Zuwächse erfahren. Der Gini-Koeffizient stieg von 0,267 auf 0,284 und damit um rund sechs Prozent (Tabelle C I.1.2). Nach den Daten des SOEP zeigt dieses Maß eine nach 2007 rückläufige Ungleichheit der Nettoäquivalenzeinkommen auf Haushaltsebene an. Der Trend einer Zunahme zwischen 2000 und 2005 hat sich also in der Zeit danach umgekehrt. Die Ungleichheit der Einkommen nimmt derzeit ab (Schaubild C I.1.1). 338 Schaubild C I.1.1: Ungleichheit der Einkommensverteilung in Deutschland, (Gini-Koeffizient) 0,35 0,30 0,27 0,29 0,28 0,25 0,20 0,26 0,28 0,28 0,15 0,10 0,05 0, Quelle: Berechnungen im DIW auf Basis SOEP Werte auf zwei Nachkommastellen gerundet. 338 Vgl. Grabka, M. M. u. a. (2012): Höhepunkt der Einkommensungleichheit in Deutschland überschritten? In: DIW Wochenbericht 43/2012. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 140 / 391
200 5 Analyse von Zusammenhängen
201 Multivariate beschreibende Statistik Motivation Bei Datenanalysen werden meist mehrere Merkmale X Y Z betrachtet. Fragestellungen Gibt es einen Zusammenhang zwischen X und Y? Wie stark ist der Zusammenhang? Wird Y von X beeinflusst? Kann Y mit Hilfe von X und Z prognostiziert werden? Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 142 / 391
202 Beispiel: US Wahl Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 143 / 391
203 Beispiel: Studienanbschluss und Einstiegsgehalt Bruttojahreseinkommen Anglistik Germanistik Psychologie Kulturwirtschaft Pädagogik (Uni) Geschichte Quelle: Bayerisches Absolventenpanel, Befragung Abschlussjahrgang Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 144 / 391
204 Beispiel: Studienanbschluss und Einstiegsgehalt (2) 4. Wirtschaftswissenschaften Bruttojahreseinkommen VWL BWL (Uni) BWL (FH) Spezielle BWL (FH) Spezielle BWL (Uni) Touristik Wirtschaftsing. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 145 / 391
205 Mögliche Strukturen X (Studienfach)! Y (Gehalt) oder Y (Gehalt)! X (Studienfach) oder Z(IQ)! X (Studienfach) Z(IQ)! Y (Gehalt) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 146 / 391
206 Interpretation von beobachteten Zusammenhängen Beachte: Zusammenhänge können verschiedene Ursachen haben Kausalität (X hat E ekt auf Y) Kausalität in der anderen Richtung (Y hat E ekt auf X ) Drittvariablen (Confounder), simultane Wirkung von Z auf X und Y Zufall und Selektion von Variablen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 147 / 391
207 Notation Es werden an jeder Einheit gleichzeitig mehrere Merkmale X, Y, Z,... erhoben: ) mehrdimensionale oder multivariate Daten Werte (x i, y i, z i )der Merkmale (X, Y, Z) Einheit i Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 148 / 391
208 Diskrete und gruppierte Merkmale Darstellung, Präsentation von (zwei) diskreten Merkmalen X und Y mit den Ausprägungen a 1,...,a k b 1,...,b m für X für Y Skalenniveau von X, Y beliebig; X, Y können auch gruppierte metrische Merkmale sein. Benutzt wird nur das Nominalskalenniveau der Merkmale. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 149 / 391
209 Beispiel: Arbeitslosigkeit Zwei Merkmale: X Ausbildungsniveau mit den Kategorien keine Ausbildung, Lehre, fachspezifische Ausbildung Hochschulabschluß Y Dauer der Arbeitslosigkeit mit den Kategorien Kurzzeitarbeitslosigkeit (apple 6 Monate), mittelfristige Arbeitslosigkeit (7 12 Monate), Langzeitarbeitslosigkeit ( 12 Monate) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 150 / 391
210 Arbeitslosigkeit Kurzzeit- mittelfristige Langzeitarbeitslosigkeit Arbeitslosigkeit arbeitslosigkeit KA Lehre Fachspez Hoch Ausbildungsspezifische Dauer der Arbeitslosigkeit für männliche Deutsche Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 151 / 391
211 Allgemeine Darstellung Kontingenztafel der absoluten Häufigkeiten: Eine (k m)-kontingenztafel der absoluten Häufigkeiten besitzt die Form b 1... b m a 1 h h 1m h 1 a 2 h h 2m h a k h k1... h km h k h 1... h m n Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 152 / 391
212 Notation h ij = h(a i, b j ) die absolute Häufigkeit der Kombination (a i, b j ), h 1,...,h k die Randhäufigkeiten von X, h 1,...,h m die Randhäufigkeiten von Y. Die Kontingenztabelle gibt die gemeinsame Verteilung der Merkmale X und Y in absoluten Häufigkeiten wieder. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 153 / 391
213 Kontingenztafel der relativen Häufigkeiten Die (k m)-kontingenztafel der relativen Häufigkeiten hat die Form b 1... b m a 1 f f 1m f a k f k1... f km f k f 1... f m 1 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 154 / 391
214 Notation f ij = h ij /n die relative Häufigkeit der Kombination (a i, b j ), P f i = m f ij = h i /n, i =1,...,k, die relativen Randhäufigkeiten zu X, j=1 P f j = k f ij = h j /n, j =1,...,m, dierelativenrandhäufigkeiten zu Y. i=1 Die Kontingenztabelle gibt die gemeinsame Verteilung von X und Y wieder. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 155 / 391
215 Bedingte Häufigkeiten Zusammenhang zwischen X und Y aus gemeinsamen Häufigkeiten h ij bzw. f ij schwer ersichtlich. Deshalb: Blick auf bedingte Häufigkeiten ) Verteilung des einen Merkmals für einen festgehaltenen Wert des zweiten Merkmals Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 156 / 391
216 Bedingte relative Häufigkeitsverteilung Die bedingte Häufigkeitsverteilung von Y unter der Bedingung X = a i,kurzy X = a i,istbestimmtdurch f Y (b 1 a i )= h i1 h i,...,f Y (b m a i )= h im h i. Die bedingte Häufigkeitsverteilung von X unter der Bedingung Y = b j,kurzx Y = b j,istbestimmtdurch f X (a 1 b j )= h 1j h j,...,f X (a k b j )= h kj h j. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 157 / 391
217 Bemerkung Wegen gilt auch h i1 = h i1/n h i h = f i1 i /n f i f Y (b 1 a i )= f i1 f i,...,f Y (b m a i )= f im fi f X (a 1 b j )= f 1j f j,...,f X (a k b j )= f kj f j. Merksatz: Bedingte Häufigkeitsverteilungen werden durch Division der h ij bzw. f ij durch die entsprechende Zeilen- bzw. Spaltensumme gebildet. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 158 / 391
218 Beispiel: Arbeitslosigkeit f ( a i ), X = a i, i =1,...,4 Ausbildungsniveau z.b =0.699, =0.154, =0.730,... usw. Für festgehaltenes Ausbildungsniveau (X = a i )erhält man die relative Verteilung über die Dauer der Arbeitslosigkeit durch die folgende Tabelle. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 159 / 391
219 Bedingte Verteilung Kurzzeit- mittelfristige Langzeitarbeitslosigkeit Arbeitslosigkeit arbeitslosigkeit Keine Ausb Lehre Fachspez. Aus Hochschula Bedingen auf das Ausbildungsniveau: ) Verteilung der Dauer der Arbeitslosigkeit für die Subpopulationen Keine Ausbildung, Lehre, usw. Verteilungen lassen sich nun miteinander vergleichen )Nun ersichtlich: Relative Häufigkeit für Kurzzeitarbeitslosigkeit ist in der Subpopulation Hochschulabschluß mit 0.8 am größten. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 160 / 391
220 Bedingte Verteilungen Bei zwei Merkmalen X und Y kann man die bedingte Verteilung von X Y und auch von Y X berechnen. Die Wahl hängt von der inhaltlichen Fragestellung ab. Typischerweise betrachtet man die bedingte Verteilung Y X, wenn Y eine Zielgröße und X eine Einflussgröße ist. Die Struktur des Zusammenhangs ist dann X! Y. Y X hilft die Wirkung von X auf Y zu verstehen oder auch Y mit Hilfe von X zu prognostizieren Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 161 / 391
221 Beispiel: US Wahl Y:Wahlentscheidung X1 : Geschlecht, X2 : Hautfarbe Y wird durch X1 und X2 beeinflusst (prognostiziert). Betrachte daher Y X 1undY X 2 X 2 Y beantwortet z.b. die Frage: Wie hoch ist der Anteil der Schwarzen bei den Wählern von Trump?. Das ist häufig nicht sinnvoll und manchmal auch irreführend. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 162 / 391
222 Darstellung der bedingten Verteilung Balkendiagramme für binäre Zielgrößen und für nicht geordnete Zielgrößen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 163 / 391
223 Darstellung der bedingten Verteilung Gestapelte Balkendiagramme für binäre ordinale Zielgrößen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 164 / 391
224 Zusammenhangsanalyse in Kontingenztabellen Bisher: Tabellarische / grafische Präsentation Jetzt: Maßzahlen für Stärke des Zusammenhangs zwischen X und Y. Chancen und relative Chancen Zunächst Kontingenztafel Y h 11 h 12 h 1 X 2 h21 h 22 h 2 h 1 h 2 n Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 165 / 391
225 Chancen ( Odds ) Wir betrachten die Merkmale X und Y zunächst asymmetrisch: Die Ausprägungen von X definieren (hier 2) Subpopulationen, Y ist das interessierende binäre Merkmal in diesen Subpopulationen Unter einer Chance ( odds ) versteht man nun das Verhältnis zwischen dem Auftreten von Y =1undY =2ineiner Subpopulation X = a i. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 166 / 391
226 Odds Ratio Die (empirische) bedingte Chance für festes X = a i ist bestimmt durch (1, 2 X = a i )= h i1 h i2. Ein sehr einfaches Zusammenhangsmaß stellen die empirischen relativen Chancen (Odds Ratio) dar, die gegeben sind durch (1, 2 X =1, X = 2) = (1, 2 X = 1) (1, 2 X = 2) = h 11/h 12 h 21 /h 22 = h 11h 22 h 21 h 12, d.h. (1, 2 X =1, X = 2) ist das Verhältnis zwischen den Chancen der 1. Population (X = 1, 1. Zeile) zu den Chancen der 2. Population (X = 2, 2. Zeile). Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 167 / 391
227 Beispiel: Dauer der Arbeitslosigkeit Beschränkt man sich jeweils nur auf zwei Kategorien der Merkmale Ausbildungsniveau und Dauer der Arbeitslosigkeit, erhält man beispielsweise die Tabelle Kurzzeit- Mittel- und langfristige arbeitslosigkeit Arbeitslosigkeit Fachspezifische Ausbildung Hochschulabschluß 28 7 Daraus ergibt sich für Personen mit fachspezifischer Ausbildung die Chance, kurzzeitig arbeitslos zu sein, im Verhältnis dazu, mittel oder längerfristig arbeitslos zu sein, durch (1, 2 fachspezifisch) = =2.5. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 168 / 391
228 Für Arbeitslose mit Hochschulabschluß erhält man (1, 2 Hochschulabschluß) = 28 7 =4. Für fachspezifische Ausbildung stehen die Chancen somit 5 : 2, für Arbeitslose mit Hochschulabschluß 4 : 1. Man erhält für fachspezifische Ausbildung und Hochschulabschluß die relativen Chancen (Odds Ratio) (1, 2 fachsp. Ausbildung, Hochschule) = =0.625 = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 169 / 391
229 Interpretation Odds Ratio Wegen der spezifischen Form (1, 2 X =1, X = 2) = (h 11 h 22 )/(h 21 h 12 )werdendierelativen Chancen auch als Kreuzproduktverhältnis bezeichnet. Es gilt = 1 Chancen in beiden Populationen gleich >1 Chancen in Population X = 1 besser als in Population X =2 <1 Chancen in Population X = 1 schlechter als in Population X = 2. Die relativen Chancen geben somit an, welche der Populationen die besseren Chancen besitzen und um wieviel besser diese Chancen sind. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 170 / 391
230 Symmetrie Für die Kontingenztafel h 11 h 12 h 21 h 22 ist das Kreuzproduktverhältnis (relative Chance oder Odds Ratio) bestimmtdurch = h 11/h 12 h 21 /h 22 = h 11h 22 h 21 h 12. Die asymmetrische Betrachtung der Merkmale X und Y wird aufgehoben Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 171 / 391
231 Fall - Kontroll - Studien Beispiel: Morbus Alzheimer und Genetik Genetik ApoE3 ApoE4 Summe Fall Kontrolle OR = 593/ /803 =0.34 ) Chance für ApoE3 bei Fällen um den Faktor 3 niedriger als bei Kontrollen? ) ApoE4 Risiko-Faktor für Morbus Alzheimer Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 172 / 391
232 Fall - Kontroll - Studien Zentrale Argumentation: Odds Ratio ist symmetrisches Maß d.h. Chancenverhältnis für Auftreten von ApoE4 bei Kontrolle zu Auftreten von ApoE4 bei Fällen Person ist krank bei ApoE3 zu Person ist krank bei ApoE4 ) Interpretation als Risikofaktor zulässig Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 173 / 391
233 Kontingenz- und 2 -Koe zient Ausgangspunkt: Wie sollten gemeinsame Häufigkeiten h ij bzw. f ij verteilt sein, damit - bei vorgegebenen Randverteilungen - die Merkmale X und Y als empirisch unabhängig angesehen werden können? b 1... b m a 1 h 1.?. a k h k h 1... h m n Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 174 / 391
234 Empirische Unabhängigkeit Idee: X und Y empirisch unabhängig, Bedingte relative Häufigkeiten f Y (b 1 a i ),...,f Y (b m a i ), i =1,...,k sind in jeder Schicht X = a i identisch, d.h. unabhängig von a i. Formal: f Y (b 1 a 1 ) = f (b 1 ),...,f Y (b m a 1 )=f Y (b m ) f Y (b 1 a 2 ) = f (b 1 ),...,f Y (b m a 2 )=f Y (b m ). =. f Y (b 1 a k ) = f (b 1 ),...,f Y (b m a k )=f Y (b m ) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 175 / 391
235 Kunstbeispiel: b 1 b 2 b 3 a a f Y (b 1 a 1 ) = f Y (b 1 a 2 )=f Y (b 1 )= 1 6 f Y (b 2 a 1 ) = f Y (b 2 a 2 )=f Y (b 2 )= 1 3 f Y (b 3 a 1 ) = f Y (b 3 a 2 )=f Y (b 3 )= 1 2 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 176 / 391
236 Wie sehen die erwarteten (absoluten und relativen) Häufigkeiten h ij und f ij also aus? f Y (b 1 a i )=f (b 1 ),...,f Y (b m a i )=f Y (b m ), i =1,...,k, h ij h i = h j n, h ij = h i h j n, f ij = f i f j Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 177 / 391
237 Unabhängigkeitstabelle Idee: Vergleiche für jede Zelle (i, j) h ij mit tatsächlich beobachteten h ij ) 2 -Koe zient Der 2 -Koe zient ist bestimmt durch 2 = kx i=1 mx j=1 h ij hij 2 h ij = kx i=1 mx j=1 h ij h i h j n h i h j n 2 = n X i X j (f ij f i f j ) 2 f i f j Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 178 / 391
238 Eigenschaften des 2 -Koe zienten: 2 2 [0, 1) 2 =0, X und Y empirisch unabhängig 2 groß, starker Zusammenhang 2 klein, schwacher Zusammenhang Nachteil: 2 hängt vom Stichprobenumfang n und von der Dimension der Tafel ab. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 179 / 391
239 Kontingenzkoe zient und korrigierter Kontingenzkoe zient Weitere Normierung ) Kontingenzkoe zient Der Kontingenzkoe zient ist bestimmt durch s K = und besitzt den Wertebereich K 2 M =min{k, m}. Der korrigierte Kontingenzkoe K = K/ mit dem Wertebereich K 2 [0, 1]. 2 n + 2 apple q M 1 0, M, wobei zient ergibt sich durch r M 1 M Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 180 / 391
240 Eigenschaften des Kontingenzkoe zienten Es wird nur die Stärke des Zusammenhangs gemessen, nicht die Richtung wie beim Odds Ratio. Vorsicht ist geboten bei einem Vergleich von Kontingenztafeln mit stark unterschiedlichen Stichprobenumfängen, da 2 mit wachsendem Stichprobenumfang wächst, beispielsweise führte eine Verzehnfachung von h ij und h ij zu zehnfachem 2. Sämtliche Maße benutzen nur das Nominalskalenniveau von X und Y. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 181 / 391
241 Beispiel: Sonntagsfrage Für die Kontingenztafel aus Geschlecht und Parteipräferenz für das Beispiel der Sonntagsfrage erhält man die in der folgenden Tabelle wiedergegebenen zu erwartenden Häufigkeiten h ij. CDU/CSU SPD FDP Grüne Rest Männer (144) (153) (17) (26) (95) 435 Frauen (200) (145) (30) (50) (71) Zu erwartende Häufigkeiten h ij und tatsächliche Häufigkeiten h ij (in Klammern) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 182 / 391
242 Interpretation: Wenn Geschlecht und Parteipräferenz keinen Zusammenhang aufweisen, wären die CDU/CSU präferierende Männer zu erwarten. Tatsächlich wurden aber nur 144 beobachtet. ) 2 -Wert von , K =0.145, K =0.205 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 183 / 391
243 Spezialfall: (2 2)-Tafel Für den Spezialfall einer (2 2)-Tafel a b a + b c d c + d a + c b + d erhält man 2 aus 2 = n(ad bc) 2 (a + b)(a + c)(b + d)(c + d). Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 184 / 391
244 Beispiel: Arbeitslosigkeit Aus der Kontingenztafel Mittelfristige Langfristige Arbeitslosigkeit Arbeitslosigkeit Keine Ausbildung Lehre erhält man also unmittelbar 2 = und K =0.165, K = ( ) =2.826 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 185 / 391
245 Mehrdimensionale Kontingenztabellen Beispiel: Fluglinien und Verspätung Mehrere diskrete Merkmale: Fluglinie, Ort, Verpätung (Ja/Nein) Darstellung durch geeignete bedingte und marginale Verteilungen Berechnung von Odds-Ratio zweier Merkmale bedingt auf ein drittes Merkmal Graphische Darstellung durch Mosaik-Plot Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 186 / 391
246 Verspätung von Flügen Flüge mit (sp) und ohne Verspätung (ok) Fluglinie AW AA Summe ok Verspätung Summe Welche Fluglinie nehmen Sie? Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 187 / 391
247 Verspätung von Flügen Flüge mit (sp) und ohne Verspätung (ok) Fluglinie AW AA Summe ok Verspätung Summe Wie entscheiden Sie? Fluglinie AW AA ok sp Summe 1 1 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 188 / 391
248 Verspätung von Flügen Sie starten in LA : Fluglinie AW AA ok sp Wie entscheiden Sie jetzt? AW AA ok sp Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 189 / 391
249 Verspätung von Flügen Sie starten in San Francisco : AW AA ok sp Wie entscheiden Sie jetzt? AW AA ok sp Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 190 / 391
250 Verspätung von Flügen Sie starten in Seattle AW AA ok sp Wie entscheiden Sie jetzt? AW AA ok sp Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 191 / 391
251 Verspätung von Flügen Sie starten in Phoenix AW AA ok sp Wie entscheiden Sie jetzt? AW AA ok sp Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 192 / 391
252 Verspätung von Flügen Sie starten San Diego AW AA ok sp Wie entscheiden Sie jetzt? AW AA ok sp Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 193 / 391
253 Das Simpsonsche Paradoxon Betrachte beide Fluglinien SanF Seattle LA San Diego Phoenix ok sp SanF Seattle LA San Diego Phoenix ok sp AW startet häufiger von Phoenix!!! Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 194 / 391
254 Mosaik-Plot Flächentreue Darstellung von Häufigkeiten Aufteilung schrittweise Zuerst Einflussgröße, zum Schluss nach Zielgröße aufteilen Gut geeignet für mehrkategoriale ordinale Daten Auch für höhere Dimensionen geeignet Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 195 / 391
255 Beispiel: Fluglinien FD AW AA sp Status ok Fluglinie Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 196 / 391
256 Beispiel: Fluglinien nach Ort Verpätungen und Fluglinien SanF Seattle LA San Diego Phoenix ok sp ok sp ok sp ok sp ok sp AA Fluglinie AW Ort Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 197 / 391
257 Ergänzung: Relatives Risiko Gegeben sei eine Kontingenztafel Y h 11 h 12 h 1 X 2 h21 h 22 h 2 h 1 h 2 n X: Gruppe Y: Zielgröße, z.b. Krankheit, Insolvenz Odds Ratio (Chancenverhältnis) h 11 /h 12 h 21 /h 22 Relatives Risiko h 11 /h 1 h 21 /h 2 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 198 / 391
258 6 Zusammenhänge von metrischen Variablen
259 Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i =1,...,n Beispiel: x: Wohnfläche y: Quadratmeterpreis Frage: Gibt es einen Zusammenhang zwischen diesen Merkmalen? Wie lässt sich dieser Zusammenhang beschreiben? Einfachste graphische Darstellung: Streudiagramm. Die Datenpaare entsprechen Punkten in der Ebene (Punktwolke) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 200 / 391
260 Beispiel: Streudiagramm (Mietspiegel 2015) Wohnfläche Mietpreis Wohnfläche Quadratmeterpreis Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 201 / 391
261 Beispiel: Streudiagramm (Mietspiegel 2015) Wohnfläche Mietpreis Zusammenhang erkennbar Wohnfläche Quadratmeterpreis Kaum ein Zusammenhang zu sehen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 201 / 391
262 Beispiel: Streudiagramm (Mietspiegel 2015) Mietpreis Quadratmeterpreis Wohnfläche Wohnfläche Zusammenhang erkennbar Kaum ein Zusammenhang zu sehen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 201 / 391
263 Kovarianz Maß für den Zusammenhang der beiden Merkmale: Daten: (x i, y i ), i =1,...,n Beachte: S XY = 1 n nx (x i x)(y i ȳ) i=1 Summand i positiv, falls x i und y i relativ zum Mittelwert das gleiche Vorzeichen haben. Für s xx ergibt sich die Varianz von X. Die Kovarianz hängt sowohl von der Streuung als auch von dem Zusammenhang der beiden Merkmale ab. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 202 / 391
264 Beispiel: Kovarianz Punkte in Englisch und Mathematik Gruppe 1 Gruppe 2 Schüler Englisch Mathe Englisch Mathe Mittelwert Standardabweichung Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 203 / 391
265 Beispiel: Kovarianz 15 Gruppe 1 15 Gruppe Mathe Mathe Englisch Englisch Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 204 / 391
266 Beispiel: Kovarianz 15 Gruppe 1 15 Gruppe Mathe 5 + Mathe Englisch Kovarianz: Englisch Kovarianz: Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 204 / 391
267 Bravais-Pearson-Korrelationskoe zient Der Bravais-Pearson-Korrelationskoe (x i, y i ), i =1,...,n durch zient ergibt sich aus den Daten r = P n i=1 (x i x)(y i ȳ) q Pn i=1 (x i x) P 2 n i=1 (y i ȳ) 2 ) = S xy S x S y Wertebereich: 1 apple r apple 1 r > 0 r < 0 r = 0 positive Korrelation Tendenz: Werte (x i, y i ) um eine Gerade positiver Steigung liegend negative Korrelation Tendenz: Werte (x i, y i ) um eine Gerade negativer Steigung liegend keine Korrelation, kein linearer Zusammenhang Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 205 / 391
268 Punkte in Englisch und Mathematik Gruppe 1: Gruppe 2: r xy = S xy S x S y = =0.65 r xy = S xy S x S y = = 0.56 Gruppe 1: positiver linearer Zusammenhang Gruppe 2: negativer linearer Zusammenhang Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 206 / 391
269 Eigenschaften des Korrelationskoe zienten Maß für den linearen Zusammenhang Ändert sich nicht bei linearen Transformationen Symmetrisch (Korrelation zwischen x und y = Korrelation zwischen y und x) Positive Korrelation bedeutet: Je größer x, desto größer im Durchschnitt y Korrelation = +1 oder -1, falls die Punkte genau auf einer Geraden liegen Korrelation = 0 bedeutet keinen linearen Zusammenhang, aber nicht Unabhängigkeit Korrelation empfindlich gegenüber Ausreißern Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 207 / 391
270 Eigenschaften von r r misst Stärke des linearen Zusammenhangs. Punktkonfigurationen und Korrelationskoe (qualitativ) zienten Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 208 / 391
271 Einige Beispiele von Zusammenhängen Beispiel 1: Lineare (unverrauschte) Funktion, y = 0.8x + 2.0, 101 equidistante Stützstellen im Intervall [-1,1], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 209 / 391
272 Einige Beispiele von exakten und verrauschten Zusammenhängen Beispiel 2: Lineare (unverrauschte) Funktion, y = 0.8x + 2.0, 101 equidistante Stützstellen im Intervall [-1,1], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 210 / 391
273 Einige Beispiele von exakten und verrauschten Zusammenhängen Beispiel 3: Lineare (unverrauschte) Funktion, y = 0.001x + 2.0, 101 equidistante Stützstellen im Intervall [-1,1], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 211 / 391
274 Einige Beispiele von exakten und verrauschten Zusammenhängen Beispiel 4: Periodische (unverrauschte) Funktion, y = sin(x), 101 equidistante Stützstellen im Intervall [, ], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 212 / 391
275 Einige Beispiele von exakten und verrauschten Zusammenhängen Beispiel 5: Quadratische (unverrauschte) Funktion, y = x , 101 equidistante Stützstellen im Intervall [ 1, 1], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 213 / 391
276 Einige Beispiele von exakten und verrauschten Zusammenhängen Beispiel 6: Abschnittweise definierte (unverrauschte) Funktion y =sin(x), 50 und 51 equidistante Stützstellen in den Intervallen [, 2 ]und[ 2, ], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 214 / 391
277 Einige Beispiele von exakten und verrauschten Zusammenhängen Beispiel 7: Lineare, schwach verrauschte Funktion, y =0.8x +2.0+N(0, 0.1), 101 equidistante Stützstellen im Intervall [-1,1], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 215 / 391
278 Einige Beispiele von exakten und verrauschten Zusammenhängen Beispiel 8: Lineare, stärker verrauschte Funktion, y =0.8x +2.0+N(0, 0.5), 101 equidistante Stützstellen im Intervall [-1,1], r = Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 216 / 391
279 Lineare Transformationen Bei exakten lineare Zusammenhängen gilt: r =+1bzw. 1, Y = ax + b mit a > 0bzw.a < 0 Lineare Transformationen X = a X X + b X, Ỹ = a Y Y + b Y, a X, a Y 6=0 r Korrelationskoe zient zwischen X und Y r Korrelationskoe zient zwischen X und Ỹ ) r = r, a X, a Y > 0odera X, a Y < 0 r = r, a X > 0, a Y < 0odera X < 0, a Y > 0. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 217 / 391
280 Korrelationsmatrix Bei mehr als zwei Merkmalen werden die Korrelationen häufig in Form einer Matrix dargestellt. Auf der Hauptdiagonalen stehen 1er. Die Matrix ist symmetrisch. 1 r xy r xz r xy 1 r yz r xz r yz 1 1 A Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 218 / 391
281 Beisipiel: Korrelationen am Finanzmarkt Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 219 / 391
282 Spearmans Korrelationskoe zient = Rang-Korrelationskoe zient X, Y (mindestens) ordinal Idee: Gehe von Werten x i, i =1,...,n und y i, i =1,...,n über zu ihren Rängen. analog für y (1),...,y (n). x (1) apple...x (i)...apple x (n) rg(x (i) )=i, Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 220 / 391
283 Beispiel bei Bindungen (ties): x i rg(x i ) x i ) Durchschnittsrang = 3.5 vergeben. Also: Daten der Größe nach durchsortieren ) Ranglisten rg(x i ), rg(y i ), i =1,...,n vergeben (bei ties: Durchschnittsränge) Idee: Berechne den Korrelationskoe zienten nach Bravais-Pearson für die Ränge statt für die Ursprungsdaten. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 221 / 391
284 Definition: Spearmans Korrelationskoe zient Der Korrelationskoe zient nach Spearman ist definiert durch r SP = P (rg(xi ) pp (rg(xi ) rg X )(rg(y i ) rg X ) 2 P (rg(y i ) rg Y ) rg Y ). 2 Wertebereich: 1 apple r SP apple 1 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 222 / 391
285 Interpretation r SP > 0 gleichsinniger monotoner Zusammenhang, Tendenz: x groß, y groß, x klein, y klein r SP < 0 gegensinniger monotoner Zusammenhang, Tendenz: x groß, y klein, x klein, y groß r SP 0 kein monotoner Zusammenhang Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 223 / 391
286 Beispiele Extremfälle für Spearmans Korrelationskoe zienten, r SP =1(oben)und r SP = 1(unten) Spearmans Korrelationskoe zient misst monotone (auch nichtlineare) Zusammenhänge! Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 224 / 391
287 Bemerkungen: Rechentechnische Vereinfachungen: rg X = 1 P n n i=1 rg(x i)= 1 P n n i=1 i =(n + 1)/2, rg Y = 1 P n n i=1 rg(y i)= 1 P n n i=1 i =(n + 1)/2. Rechentechnisch günstige Version von r SP : Daten: (x i, y i ), i =1,...,n, x i 6= x j, y i 6= y j für alle i, j Rangdi erenzen: d i = rg(x i ) rg(y i ) r SP =1 6 P d 2 i (n 2 1)n Voraussetzung: keine Bindungen Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 225 / 391
288 Monotone Transformationen X = g(x ) Ỹ = h(y ) g streng monoton, h streng monoton ) r SP ( X, Ỹ )=r SP (X, Y ), wenn g und h monoton wachsend bzw. g und h monoton fallend sind, r SP ( X, Ỹ )= r SP (X, Y ), wenn g monoton wachsend und h monoton fallend bzw. g monoton fallend und h monoton wachsend sind. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 226 / 391
289 Kendalls Tau Betrachte Paare von Beobachtungen (x i, y i )und(x j, y j ) Ein Paar heißt: konkordant, diskordant, falls x i < x j und y i < y j oder x i > x j und y i > y j falls x i < x j und y i > y j oder x i > x j und y i < y j N C : Anzahl der konkordanten Paare N D :AnzahlderdiskordantenPaare N D a = N C n(n 1)/2 Kendalls Tau Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 227 / 391
290 7 Regression
291 Einleitung Motivation In vielen Anwendungen ist es bedeutsam zu wissen, welchen Einfluss ein quantitatives Merkmal X auf ein weiteres Merkmal Y hat, z.b. Einkommen (X )undkreditwunsch(y )einesbankkunden Einsatz von Werbung in e (X )undumsatzine (Y )einer Handelskette Geschwindigkeit (X )und Bremsweg(Y )eines Pkw In diesem Abschnitt werden Methoden zur Analyse dieses Einflusses behandelt und wie dies in einem Modell formuliert werden kann. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 229 / 391
292 Einfache lineare Regression Linearer Zusammenhang zwischen zwei metrischen Größen wird als Gerade visualisiert Finde Gerade Y = + X Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 230 / 391
293 Einfache lineare Regression Linearer Zusammenhang zwischen zwei metrischen Größen wird als Gerade visualisiert Finde Gerade Y = + X : Steigung der Geraden, d.h. erhöht sich X um eine Einheit, so erhöht sich Y um Einheiten. Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 230 / 391
294 Einfache lineare Regression Linearer Zusammenhang zwischen zwei metrischen Größen wird als Gerade visualisiert Finde Gerade Y = + X : Steigung der Geraden, d.h. erhöht sich X um eine Einheit, so erhöht sich Y um Einheiten. : Achsenabschnitt, d.h. Wert von Y für X =0 Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 230 / 391
295 Welche Gerade? Welche Gerade? Mietpreis Quadratmeter Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 231 / 391
296 Bestimmung der Regressionsgerade Welche Gerade ist die Beste? Sie sollte etwa in der Mitte der Punktwolke liegen Abweichungen der Wertepaare (x i, y i ) (Punkte) von der Geraden sollten möglichst klein (minimal) sein Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 232 / 391
297 Bestimmung der Regressionsgerade Welche Gerade ist die Beste? Sie sollte etwa in der Mitte der Punktwolke liegen Abweichungen der Wertepaare (x i, y i ) (Punkte) von der Geraden sollten möglichst klein (minimal) sein Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 232 / 391
298 Methode der kleinsten Quadrate Y ist Zielgröße und X Einflussgröße Y soll mit Hilfe von X erklärt oder prognostiziert werden Lineares Modell Y = + X + " Minimierung der Abstände in Y -Richtung Wähle ˆ und ˆ so, dass P n i=1 y i (ˆ + ˆx i ) 2 minimal wird Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 233 / 391
299 Geschichte Idee der KQ-Schätzung von Gauss (1795) im Alter von 18 Jahren Verö entlichung von Legendre Idee der Regression von Galton (1886) Statistik 1 WiSe 2016/2017 Helmut Küchenho (Institut für Statistik, LMU) 234 / 391
Empirische Verteilungsfunktion
Empirische Verteilungsfunktion H(x) := Anzahl der Werte x ist. Deskriptive
MehrVorlesung: Statistik für Kommunikationswissenschaftler
Vorlesung: Statistik für Kommunikationswissenschaftler Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München WiSe 2009/2010 Übungen zur Veranstaltung Mittwoch: 14.15-15.45 HG DZ007 Cornelia Oberhauser
MehrEinführung: Was ist Statistik?
Einführung: Was ist Statistik? 1 Datenerhebung und Messung Die Messung Skalenniveaus 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Grundbegriffe Statistische Einheit,
Mehr0 Einführung: Was ist Statistik
0 Einführung: Was ist Statistik 1 Datenerhebung und Messung Die Messung Skalenniveaus 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Grundbegriffe Statistische Einheit,
MehrDeskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische
MehrUnivariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66
Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/19 Skalenniveaus Skalenniveau Relation
MehrKapitel 2. Häufigkeitsverteilungen
6 Kapitel 2 Häufigkeitsverteilungen Ziel: Darstellung bzw Beschreibung (Exploration) einer Variablen Ausgangssituation: An n Einheiten ω,, ω n sei das Merkmal X beobachtet worden x = X(ω ),, x n = X(ω
MehrWahrscheinlichkeits - rechnung und Statistik
Michael Sachs Mathematik-Studienhilfen Wahrscheinlichkeits - rechnung und Statistik für Ingenieurstudenten an Fachhochschulen 4., aktualisierte Auflage 2.2 Eindimensionale Häufigkeitsverteilungen 19 absolute
MehrStatistik II: Grundlagen und Definitionen der Statistik
Medien Institut : Grundlagen und Definitionen der Statistik Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Hintergrund: Entstehung der Statistik 2. Grundlagen
MehrWISTA WIRTSCHAFTSSTATISTIK
WISTA WIRTSCHAFTSSTATISTIK PROF DR ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 23042013 Datenlagen und Darstellung eindimensionaler Häufigkeitsverteilungen
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 26.02.2008 1 Warum Statistik und Wahrscheinlichkeits rechnung im Ingenieurwesen? Zusammenfassung der letzten Vorlesung Statistik und Wahrscheinlichkeitsrechnung
MehrKapitel 1 Beschreibende Statistik
Beispiel 1.25: fiktive Aktienkurse Zeitpunkt i 0 1 2 Aktienkurs x i 100 160 100 Frage: Wie hoch ist die durchschnittliche Wachstumsrate? Dr. Karsten Webel 53 Beispiel 1.25: fiktive Aktienkurse (Fortsetzung)
MehrBitte am PC mit Windows anmelden!
Einführung in SPSS Plan für heute: Grundlagen/ Vorwissen für SPSS Vergleich der Übungsaufgaben Einführung in SPSS http://weknowmemes.com/generator/uploads/generated/g1374774654830726655.jpg Standardnormalverteilung
MehrMathematische Statistik. Zur Notation
Mathematische Statistik dient dazu, anhand von Stichproben Informationen zu gewinnen. Während die Wahrscheinlichkeitsrechnung Prognosen über das Eintreten zufälliger (zukünftiger) Ereignisse macht, werden
Mehr3. Merkmale und Daten
3. Merkmale und Daten Ziel dieses Kapitels: Vermittlung des statistischen Grundvokabulars Zu klärende Begriffe: Grundgesamtheit Merkmale (Skalenniveau etc.) Stichprobe 46 3.1 Grundgesamtheiten Definition
MehrGünther Bourier. Beschreibende Statistik. Praxisorientierte Einführung - Mit. Aufgaben und Lösungen. 12., überarbeitete und aktualisierte Auflage
i Günther Bourier Beschreibende Statistik Praxisorientierte Einführung - Mit Aufgaben und Lösungen 12., überarbeitete und aktualisierte Auflage 4^ Springer Gabler Inhaltsverzeichnis Vorwort V 1 Einführung
MehrVerteilungsfunktion und dquantile
Statistik 1 für SoziologInnen Verteilungsfunktion und dquantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit die Kumulation inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal
MehrForschungsmethoden in der Sozialen Arbeit
Forschungsmethoden in der Sozialen Arbeit Fachhochschule für Sozialarbeit und Sozialpädagogik Alice- Salomon Hochschule für Soziale arbeit, Gesundheit, Erziehung und Bildung University of Applied Sciences
MehrFachrechnen für Tierpfleger
Z.B.: Fachrechnen für Tierpfleger A10. Statistik 10.1 Allgemeines Was ist Statistik? 1. Daten sammeln: Durch Umfragen, Zählung, Messung,... 2. Daten präsentieren: Tabellen, Grafiken 3. Daten beschreiben/charakterisieren:
Mehr4. Kumulierte Häufigkeiten und Quantile
4. Kumulierte Häufigkeiten und Quantile Kumulierte Häufigkeiten Oft ist man nicht an der Häufigkeit einzelner Merkmalsausprägungen interessiert, sondern an der Häufigkeit von Intervallen. Typische Fragestellung:
Mehr3. Deskriptive Statistik
3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro Objekt wird ein Merkmal durch Messung / Befragung/ Beobachtung erhoben. Resultat ist jeweils ein Wert (Merkmalsausprägung) x i : - Gewicht
MehrLagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg
Lagemaße Übung M O D U S, M E D I A N, M I T T E L W E R T, M O D A L K L A S S E, M E D I A N, K L A S S E, I N T E R P O L A T I O N D E R M E D I A N, K L A S S E M I T T E Zentrale Methodenlehre, Europa
MehrWISTA WIRTSCHAFTSSTATISTIK
WISTA WIRTSCHAFTSSTATISTIK PROF DR ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 07052013 Mittelwerte und Lagemaße II 1 Anwendung und Berechnung
MehrHäufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit
TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Häufigkeitsverteilungen und Statistische Maßzahlen Statistik SS Variablentypen Qualitative
MehrGrafische Darstellung von Häufigkeitsverteilungen (1)
Grafische Darstellung von Häufigkeitsverteilungen () Grafische Darstellungen dienen... - Einführung - der Unterstützung des Lesens und Interpretierens von Daten. der Veranschaulichung mathematischer Begriffe
MehrDeskriptive Statistik
Deskriptive Statistik [descriptive statistics] Ziel der deskriptiven (beschreibenden) Statistik einschließlich der explorativen Datenanalyse [exploratory data analysis] ist zunächst die übersichtliche
MehrVerteilungen und ihre Darstellungen
Verteilungen und ihre Darstellungen Übung: Stamm-Blatt-Diagramme Wie sind die gekennzeichneten Beobachtungswerte eweils zu lesen? Tragen Sie in beiden Diagrammen den Wert 0.452 an der richtigen Stelle
MehrDaten, Datentypen, Skalen
Bildung kommt von Bildschirm und nicht von Buch, sonst hieße es ja Buchung. Daten, Datentypen, Skalen [main types of data; levels of measurement] Die Umsetzung sozialwissenschaftlicher Forschungsvorhaben
MehrStatistik. Jan Müller
Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen
Mehr3 Lage- und Streuungsmaße
3 Lage- und Streuungsmaße Grafische Darstellungen geben einen allgemeinen Eindruck der Verteilung eines Merkmals, u.a. von Lage und Zentrum der Daten, Streuung der Daten um dieses Zentrum, Schiefe / Symmetrie
MehrDeskriptive Statistik Auswertung durch Informationsreduktion
Deskriptive Statistik Auswertung durch Informationsreduktion Gliederung Ø Grundbegriffe der Datenerhebung Total-/Stichprobenerhebung, qualitatives/quantitatives Merkmal Einteilung der Daten (Skalierung,
MehrGrundlagen der Statistik I
NWB-Studienbücher Wirtschaftswissenschaften Grundlagen der Statistik I Beschreibende Verfahren Von Professor Dr. Jochen Schwarze 10. Auflage Verlag Neue Wirtschafts-Briefe Herne/Berlin Inhaltsverzeichnis
MehrStatistische Grundlagen I
Statistische Grundlagen I Arten der Statistik Zusammenfassung und Darstellung von Daten Beschäftigt sich mit der Untersuchung u. Beschreibung von Gesamtheiten oder Teilmengen von Gesamtheiten durch z.b.
MehrVerteilungsfunktion und Quantile
Statistik 1 für SoziologInnen Verteilungsfunktion und Quantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit das Kumulieren inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal
Mehrfh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik
fh management, communication & it Folie 1 Überblick Grundlagen (Testvoraussetzungen) Mittelwertvergleiche (t-test,..) Nichtparametrische Tests Korrelationen Regressionsanalyse... Folie 2 Überblick... Varianzanalyse
MehrP (X = 2) = 1/36, P (X = 3) = 2/36,...
2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel
MehrWiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8
Wiederholung Statistik I Statistik für SozialwissenschaftlerInnen II p.8 Konstanten und Variablen Konstante: Merkmal hat nur eine Ausprägung Variable: Merkmal kann mehrere Ausprägungen annehmen Statistik
MehrBeispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es
Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es beim radioaktiven Zerfall, zwischen 100 und 110 Zerfälle
MehrMathematische und statistische Methoden I
Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de
MehrAnteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen
DAS THEMA: VERTEILUNGEN LAGEMAßE - STREUUUNGSMAßE Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen Anteile Häufigkeiten Verteilungen Anteile und Häufigkeiten Darstellung
Mehr1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18
3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen
MehrAngewandte Statistik 3. Semester
Angewandte Statistik 3. Semester Übung 5 Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines Beispieles Häufigkeitsauswertungen Grafiken Statistische Grundlagen
MehrStatistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn
Statistikpraktikum Carsten Rezny Institut für angewandte Mathematik Universität Bonn Sommersemester 2016 Anmeldung in Basis: 06. 10.06.2016 Organisatorisches Einführung Statistik Analyse empirischer Daten
MehrStatistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage
Statistik Datenanalyse mit EXCEL und SPSS Von Prof. Dr. Karlheinz Zwerenz 3., überarbeitete Auflage R.01denbourg Verlag München Wien Inhalt Vorwort Hinweise zu EXCEL und SPSS Hinweise zum Master-Projekt
MehrStatistik I für Humanund Sozialwissenschaften
Statistik I für Humanund Sozialwissenschaften 1 Übung Lösungsvorschlag Gruppenübung G 1 Auf einer Touristeninsel in der Karibik wurden in den letzten beiden Juliwochen morgens zur gleichen Zeit die folgenden
MehrEinführung in die computergestützte Datenanalyse
Karlheinz Zwerenz Statistik Einführung in die computergestützte Datenanalyse 6., überarbeitete Auflage DE GRUYTER OLDENBOURG Vorwort Hinweise zu EXCEL und SPSS Hinweise zum Master-Projekt XI XII XII TEIL
MehrGraphische Darstellung einer univariaten Verteilung:
Graphische Darstellung einer univariaten Verteilung: Die graphische Darstellung einer univariaten Verteilung hängt von dem Messniveau der Variablen ab. Bei einer graphischen Darstellung wird die Häufigkeit
MehrStatistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage
Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz Statistik Der Weg zur Datenanalyse Zweite, verbesserte Auflage Mit 165 Abbildungen und 34 Tabellen Springer Inhaltsverzeichnis Vorwort v 1 Einführung
MehrEs können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.
Teil III: Statistik Alle Fragen sind zu beantworten. Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Wird
Mehr3 Häufigkeitsverteilungen
3 Häufigkeitsverteilungen 3.1 Absolute und relative Häufigkeiten 3.2 Klassierung von Daten 3.3 Verteilungsverläufe 3.1 Absolute und relative Häufigkeiten Datenaggregation: Bildung von Häufigkeiten X nominal
MehrVorlesungsskript. Deskriptive Statistik. Prof. Dr. Günter Hellmig
Vorlesungsskript Deskriptive Statistik Prof. Dr. Günter Hellmig Prof. Dr. Günter Hellmig Vorlesungsskript Deskriptive Statistik Erstes Kapitel Die Feingliederung des ersten Kapitels, welches sich mit einigen
MehrEinführung in die Statistik für Politikwissenschaftler Sommersemester 2011
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen
MehrEinführung in die Statistik mit R
Einführung in die Statistik mit R Bernd Weiler syntegris information solutions GmbH Neu Isenburg Schlüsselworte Statistik, R Einleitung Es ist seit längerer Zeit möglich statistische Berechnungen mit der
Mehr9. Kapitel: Grafische Darstellung quantitativer Informationen
9. Kapitel: Grafische Darstellung quantitativer Informationen 9.1: Fallstricke bei der Übersetzung von Zahlen in Bilder a) optische Täuschungen b) absichtliche Manipulationen 9.2: Typologie von Datengrafiken
MehrVorlesung Stichproben WS 2009/2010
Institut für Statistik Statistisches Beratungslabor Prof. Dr. Helmut Küchenhoff WS 2009/2010 http://www.stat.uni-muenchen.de/~helmut/stichproben_0910.html Übung: Monia Mahling donnerstags 08:00 bis 10:00
MehrVerteilungsfunktion und Quantile
Statistik 1 für SoziologInnen Verteilungsfunktion und Quantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit das Kumulieren inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal
MehrAngewandte Statistik mit R
Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 2., überarbeitete Auflage B 374545 GABLER Inhaltsverzeichnis Vorwort zur zweiten Auflage Tabellenverzeichnis
MehrSkript 6 Häufigkeiten und Deskriptive Statistiken einer Variablen
Skript 6 Häufigkeiten und Deskriptive Statistiken einer Variablen Ziel: Charakterisierung der Verteilung einer Variablen. Je nach Variablentyp geschieht dies durch Häufigkeitsauszählung und Modus (Nominale
MehrDeskriptive Statistik 1 behaftet.
Die Statistik beschäftigt sich mit Massenerscheinungen, bei denen die dahinterstehenden Einzelereignisse meist zufällig sind. Statistik benutzt die Methoden der Wahrscheinlichkeitsrechnung. Fundamentalregeln:
Mehr1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober
1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte D. Horstmann: Oktober 2014 4 Graphische Darstellung von Daten und unterschiedliche Mittelwerte Eine Umfrage nach der Körpergröße
Mehr0 Einführung: Was ist Statistik
0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Explorative Datenanalyse EDA Auffinden von Strukturen
MehrStatistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von
Statistik Datenanalyse mit EXCEL und SPSS Von Prof. Dr. Karlheinz Zwerenz R.Oldenbourg Verlag München Wien Inhalt Vorwort Hinweise zu EXCEL und SPSS Hinweise zum Master-Projekt XI XII XII TEIL I GRUNDLAGEN
MehrDr. Reinhard Vonthein, Dipl. Statistiker (Univ.)
Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.) Reinhard.Vonthein@imbs.uni-luebeck.de Institut für Medizinische Biometrie und Statistik Universität zu Lübeck / Universitätsklinikums Schleswig-Holstein
MehrAlle weiteren Messoperationen schließen die Klassifikation als Minimaloperation ein.
1 unterschiedliche Skalenniveaus Wir haben zuvor schon kurz von unterschiedlichen Skalenniveaus gehört, nämlich dem: - Nominalskalenniveau - Ordinalskalenniveau - Intervallskalenniveau - Ratioskalenniveau
MehrBestimmen von Quantilen
Workshop im Rahmen der VIV-Begabtenförderung Bestimmen von Quantilen Wie Rückwärtsdenken in der Stochastik hilft Leitung: Tobias Wiernicki-Krips Samstag, 10. Januar 2015 1 / 29 Motivation Wie bestimmt
MehrFelix Klug SS 2011. 2. Tutorium Deskriptive Statistik
2. Tutorium Deskriptive Statistik Felix Klug SS 2011 Skalenniveus Weitere Beispiele für Skalenniveus (Entnommen aus Wiederholungsblatt 1.): Skalenniveu Nominalskala Ordinalskala Intervallskala Verhältnisskala
Mehr1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung?
86 8. Lageparameter Leitfragen 1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung? 2) Was ist der Unterschied zwischen Parametern der Lage und der Streuung?
MehrDeskriptive Statistik
Markus Wirtz, Christof Nachtigall Deskriptive Statistik 2008 AGI-Information Management Consultants May be used for personal purporses only or by libraries associated to dandelon.com network. Statistische
Mehr1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:
. Einführung und statistische Grundbegriffe Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik: Quantitative Information Graphische oder tabellarische Darstellung von Datenmaterial
MehrEinführung in die Statistik mit EXCEL und SPSS
Christine Duller 2008 AGI-Information Management Consultants May be used for personal purporses only or by libraries associated to dandelon.com network. Einführung in die Statistik mit EXCEL und SPSS Ein
Mehr1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43
1) Ermittle jeweils das arithmetische Mittel. Ordne die Datenerhebungen nach der Größe der arithmetischen Mittel. Beginne mit dem Größten. 1 45, 39, 44, 48, 42, 39, 40, 31 2 35, 31, 46, 35, 31, 42, 51,
MehrGrafische Darstellungen. Box-and-Whiskers-Plot (Boxplot) Grafische Darstellungen. Grafische Darstellungen
Box-and-Whiskers-Plot (Boxplot) der Boxplot vereinigt bekannte deskriptive Kenngrößen zu einer grafischen Darstellung Box x 0.5, Median, x 0.75 vertikale Linien x 0.5 -.5 IQR x 0.75 +.5 IQR Extremwerte
MehrTEIL 7: EINFÜHRUNG UNIVARIATE ANALYSE TABELLARISCHE DARSTELLUNG / AUSWERTUNG
TEIL 7: EINFÜHRUNG UNIVARIATE ANALYSE TABELLARISCHE DARSTELLUNG / AUSWERTUNG GLIEDERUNG Statistik eine Umschreibung Gliederung der Statistik in zwei zentrale Teilbereiche Deskriptive Statistik Inferenzstatistik
Mehra 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52
2 Häufigkeitsverteilungen 2.0 Grundbegriffe Ziel: Darstellung bzw. Beschreibung (Exploration) einer Variablen. Ausgangssituation: An n Einheiten ω 1,..., ω n sei das Merkmal X beobachtet worden. x 1 =
MehrStandardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend
Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten
MehrBeide Verteilungen der Zeiten sind leicht schief. Der Quartilsabstand für Zeiten zum Surfen ist kleiner als der zum Fernsehen.
Welche der folgenden Maßzahlen sind resistent gegenüber Ausreißer? Der Mittelwert und die Standardabweichung. Der und die Standardabweichung. Der und die Spannweite. Der und der Quartilsabstand. Die Spannweite
MehrZusammenhangsanalyse in Kontingenztabellen
Zusammenhangsanalyse in Kontingenztabellen Bisher: Tabellarische / graphische Präsentation Jetzt: Maßzahlen für Stärke des Zusammenhangs zwischen X und Y. Chancen und relative Chancen Zunächst 2 2 - Kontingenztafel
MehrMATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK
MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK PROF. DR. CHRISTINA BIRKENHAKE Inhaltsverzeichnis 1. Merkmale 2 2. Urliste und Häufigkeitstabellen 9. Graphische Darstellung von Daten 10 4. Lageparameter 1
MehrInhaltsverzeichnis: Aufgaben zur Vorlesung Statistik Seite 1 von 10 Prof. Dr. Karin Melzer, Prof. Dr. Gabriele Gühring, Fakultät Grundlagen
Inhaltsverzeichnis: 1. Aufgabenlösungen... Lösung zu Aufgabe 1:... Lösung zu Aufgabe... Lösung zu Aufgabe 3... Lösung zu Aufgabe 4... Lösung zu Aufgabe 5... 3 Lösung zu Aufgabe... 3 Lösung zu Aufgabe 7...
MehrWillkommen zur Vorlesung Statistik
Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Häufigkeiten und ihre Verteilung, oder: Zusammenfassende Darstellungen einzelner Variablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen
MehrDeskriptive Statistik
Fakultät für Humanwissenschaften Sozialwissenschaftliche Methodenlehre Prof. Dr. Daniel Lois Deskriptive Statistik Stand: April 2015 (V2) Inhaltsverzeichnis 1. Notation 2 2. Messniveau 3 3. Häufigkeitsverteilungen
MehrStatistik eindimensionaler Größen
Statistik eindimensionaler Größen Michael Spielmann Inhaltsverzeichnis 1 Aufgabe der eindimensionalen Statistik 2 2 Grundbegriffe 2 3 Aufbereiten der Stichprobe 3 4 Die Kennzahlen Mittelwert und Streuung,
MehrBeschreibende Statistik
Beschreibende Aufgaben der beschreibenden : Erhebung von Daten Auswertung von Daten Darstellung von Daten Erhebung von Daten Bei der Erhebung von Daten geht es um die Erfassung von Merkmalen (Variablen)
MehrÜber den Autor 7 Über den Fachkorrektor 7. Einführung 19
Inhaltsverzeichnis Über den Autor 7 Über den Fachkorrektor 7 Einführung 19 Über dieses Buch 19 Törichte Annahmen über den Leser 20 Wie dieses Buch aufgebaut ist 20 Teil I: Ein paar statistische Grundlagen
MehrTutorial: Balken- und Tortendiagramm
Tutorial: Balken- und Tortendiagramm In der Tabelle ist die Notenverteilung von 510 Teilnehmern an Mathematik Proseminaren angegeben (NA bedeutet einen unbekannten Wert). Der Sachverhalt sollte in zwei
MehrMathematische und statistische Methoden I
Prof. Dr. G. Meinhardt Methodenlehre Mathematische und statistische Methoden I Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206 Dr. Malte Persike persike@uni-mainz.de
MehrHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche
Lehrveranstaltung Empirische Forschung und Politikberatung der Universität Bonn, WS 2007/2008 Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael
Mehr8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik
Informationsbestände analysieren Statistik 8. Statistik Nebst der Darstellung von Datenreihen bildet die Statistik eine weitere Domäne für die Auswertung von Datenbestände. Sie ist ein Fachgebiet der Mathematik
MehrEinführung in die Statistik mit EXCEL und SPSS
Christine Duller Einführung in die Statistik mit EXCEL und SPSS Ein anwendungsorientiertes Lehr- und Arbeitsbuch Zweite, überarbeitete Auflage Mit 71 Abbildungen und 26 Tabellen Physica-Verlag Ein Unternehmen
MehrAllgemeine Grundlagen Seite Termin: Eindimensionale Häufigkeitsverteilung
Statistik für alle Gliederung insgesamt Allgemeine Grundlagen Seite 1 1. Termin: Allgemeine Grundlagen 2. Termin: Eindimensionale Häufigkeitsverteilung 3. Termin: Lageparameter 4. Termin: Streuungsparameter
MehrDeskriptive Statistik Lösungen zu Blatt 1 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 1
1 Deskriptive Statistik Lösungen zu Blatt 1 Christian Heumann, Susanne Konrath SS 2011 Lösung Aufgabe 1 (a) Es sollen die mathematischen Vorkenntnisse der Studenten, die die Vorlesung Statistik I für Statistiker,
MehrBeispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)
Beispiel (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter) 1 Ein Statistiker ist zu früh zu einer Verabredung gekommen und vertreibt sich nun die Zeit damit, daß er die Anzahl X der Stockwerke
MehrDeskriptive Statistik
Deskriptive Statistik In der beschreibenden Statistik werden Methoden behandelt, mit deren Hilfe man Daten übersichtlich darstellen und kennzeichnen kann. Die Urliste (=Daten in der Reihenfolge ihrer Erhebung)
MehrModul 04: Messbarkeit von Merkmalen, Skalen und Klassierung. Prof. Dr. W. Laufner Beschreibende Statistik
Modul 04: Messbarkeit von Merkmalen, Skalen und 1 Modul 04: Informationsbedarf empirische (statistische) Untersuchung Bei einer empirischen Untersuchung messen wir Merkmale bei ausgewählten Untersuchungseinheiten
MehrBeschreibende Statistik Eindimensionale Daten
Mathematik II für Biologen 16. April 2015 Prolog Geordnete Stichprobe Rang Maße für die mittlere Lage der Daten Robustheit Quantile Maße für die Streuung der Daten Erkennung potentieller Eindimensionales
MehrInhaltsverzeichnis. Teil I Einführung
Inhaltsverzeichnis Teil I Einführung 1 Statistik-Programme... 1.1 Kleine Einführung in R... 1.1.1 Installieren und Starten von R. 1.1.2 R-Konsole... 1.1.3 R-Workspace... 1.1.4 R-History... 1.1.5 R-Skripteditor...
MehrParametrische vs. Non-Parametrische Testverfahren
Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer
MehrKeine Panik vor Statistik!
Markus Oestreich I Oliver Romberg Keine Panik vor Statistik! Erfolg und Spaß im Horrorfach nichttechnischer Studiengänge STUDIUM 11 VIEWEG+ TEUBNER Inhaltsverzeichnis 1 Erstmal locker bleiben: Es längt
MehrStatistik für das Psychologiestudium
Dieter Rasch / Klaus D. Kubinger Statistik für das Psychologiestudium Mit Softwareunterstützung zur Planung und Auswertung von Untersuchungen sowie zu sequentiellen Verfahren ELSEVIER SPEKTRUM AKADEMISCHER
MehrPROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)
PROC MEAS zum Berechnen statistischer Maßzahlen (für quantitative Merkmale) Allgemeine Form: PROC MEAS DATA=name Optionen ; VAR variablenliste ; CLASS vergleichsvariable ; Beispiel und Beschreibung der
Mehr