3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro Objekt wird ein Merkmal durch Messung / Befragung/ Beobachtung erhoben. Resultat ist jeweils ein Wert (Merkmalsausprägung) x i : - Gewicht einer Person, - Gehalt einer Person, - Wohngegend Zweidimensionale (bivariate) Daten: Pro Objekt werden zwei Merkmale erhoben: (Gewicht und Größe einer Person) (Ausbildung, Gehalt) (Wohngegend, Wagentyp) 1
3.1. Univariate Verteilungen, grafische Darstellungen und Kenngrößen Selbststudium Ausgangspunkt: Urliste Häufigkeiten: x 1, x 2,..., x n H i... Anzahl oder absolute Häufigkeit des Auftretens der Merkmalsausprägung a i, i = 1,..., l Darstellung in Strichlisten, Häufigkeitstabellen, Balkenoder Stabdiagrammen bei zu vielen Ausprägungen (und ordinalen Daten): Klasseneinteilung; subjektiv, Manipulationsmöglichkeit! h i = H i /n... relative Häufigkeit von a i, i = 1,..., l. Darstellung in Kreisdiagrammen bei ordinalen Daten: kumulierte absolute und relative Häufigkeiten: K i = i j=1 H j, k i = i h j j=1 Darstellung in Summenkurven (Summenpolygon) 2
Kenngrößen eindimensionaler Verteilungen Charakterisierung von Verteilungen durch statistische Maßzahlen (Kenngrößen, Parameter), die die Eigenschaften (Zentrum, Ausbreitung, Form) der Verteilung widerspiegeln wichtigste Maßzahlen sind Lage- und Streuungsparameter Wichtig: Skalierungsniveau beachten Lageparameter: Der Modalwert = die am häufigsten auftretende Merkmalsausprägung = die Klasse (Klassenmitte) mit der größten Häufigkeit bei gruppierten Daten (Klassen) Mehrere Maxima: kein Modalwert Eigenschaften und Interpretation: Wert, der am ehesten zu beobachten ist (sprachl. Formulierungen wie: Diese Krankheit dauert normalerweise 3 Tage., Die Fahrzeit beträgt normalerweise 2 Stunden. ) unempfindlich gegenüber Ausreißern (extremen Werten) 3
Median mindestens ordinale Daten Median heißt jede Merkmalsausprägung a, für die gilt: h i 1/2, h i 1/2 i : x i a i : x i a oberhalb und unterhalb der Mediane befinden sich gleichviele Elemente der Stichprobe Bei metrischen Daten wird häufig der Mittelwert der Mediane als Median angegeben. Eigenschaften und Interpretation: zentraler Wert bei ordinalen Merkmalen unempfindlich gegenüber Ausreißern Minimaleigenschaft bez. absoluter Abweichungen (metrische Daten), jeder Median löst n x i z min 4
Das arithmetische Mittel metrische Daten x = 1 n n x i = l j=1 a j h j Eigenschaften und Interpretation: Schwerpunkt der Verteilung, empfindlich gegenüber Ausreißern (vgl. Median), Minimaleigenschaft bezüglich quadratischer Abweichungen: n hat die Lösung z = x (x i z) 2 min (Beweis: Übung). bei gruppierten Daten mit Klassenmitten x i Klassenhäufigkeiten n i : und x = 1 n k n i x i gewichtetes Mittel der Klassenmitten Im Gegensatz zum Median kann das arithmetische Mittel bei gruppierten Daten mit offenen Randklassen nicht berechnet werden. 5
Streuungsparameter (Variabilitätsparameter) Maßzahlen zur Bewertung der Variabilität der Messwerte, der Breite einer Verteilung, der Abweichungen vom Mittelwert Ziel von Analysen: Zerlegung der Variabilität der Messwerte nach verschiedenen Ursachen (Faktoren, Fehler des Messgerätes usw.), Analyse der Wirkung des Zufalls Streuungsparameter für metrische Daten Spannweite: v = x max x min empirische Varianz: s 2 s 2 = 1 n 1 n (x i x) 2 = 1 ( n n 1 mittlere quadratische Abweichung 1 n 1 2 ( ) Dimension von s 2 : ist z.b. x i eine Konzentration, dann mg 2 /l 2 x 2 i n x 2 ) Eigentlich müsste durch n geteilt werden. Grund für die Division durch n 1 ist die Anwendung der so erhaltenen Größe in der schließenden Statistik. Standardabweichung s = s 2, gleiche Dimension wie x i. Variationskoeffizient v = 100% s x dimensionslos 6
Quartilsabstand Grundgedanke: Ähnlich der Spannweite (s.o.) wird die Spannweite der mittleren 50% der Werte berechnet. Unteres Quartil q 0.25 heißt jede Merkmalsausprägung a, für die gilt: i : x i a h i 1/4, i : x i a h i 3/4. Oberes Quartil q 0.75 heißt jede Merkmalsausprägung a, für die gilt: i : x i a h i 3/4, i : x i a h i 1/4. q 0.25 und q 0.75 sind i.a. nicht eindeutig bestimmt. Falls doch, dann heißt q 0.75 q 0.25 (empirischer) Quartilsabstand, Interquartilbereich, IQR. In Statistiksoftware sind unterschiedliche Interpolationsregeln für die Quartile realisiert. 7
Veranschaulichung von Median, Quartilen, IQR, Minimum, Maximum im Boxplot: Ausreißer (mit Fallnummer) maximale Zaunlänge = 1,5 Boxlänge oberes Quartil unteres Quartil Median kleinster Wert, der nicht als Ausreißer erkannt wird Beispiel: ALLBUS, Monatliches Haushalt-Nettoeinkommen (die ersten 300 Fälle, nur 178 haben geantwortet). 8