Deskriptive Statistik [descriptive statistics] Ziel der deskriptiven (beschreibenden) Statistik einschließlich der explorativen Datenanalyse [exploratory data analysis] ist zunächst die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltenen Informationen und Strukturen. Im Vordergrund stehen dabei Informationen über die Verteilung der Merkmalsausprägungen einzelner Merkmale univariate Statistik und der Kombinationen von Merkmalsausprägungen mehrerer Merkmale bi- oder multivariate Statistik (Suche nach Zusammenhängen/Abhängigkeiten). Die verwendeten Techniken hängen vom Skalenniveau der einbezogenen Merkmale (Variablen) ab. 1
Typische Fragestellungen: Wertebereich, Verteilung (z.b. deren Form) und Kenngrößen einzelner Merkmale (univariate Statistik) und von Merkmalspaaren (bivariate Statistik)... Ähnlichkeiten und Unterschiede in der Verteilung von mehreren Merkmalen Abhängigkeiten zwischen Merkmalen Verdichtung der Information, Datenreduktion Ähnlichkeits- und Gruppenstruktur der Objekte Absonderliches Verhalten einzelner Objekte 2
Auch bei Fragestellungen der multivariaten Statistik beginnt die Analyse zunächst mit der Betrachtung einzelner Merkmale, d.h. ihrer univariaten Verteilungen. 3
Univariate Eindimensionale Daten [univariate data]: Pro Objekt i (i = 1,..., n; n Stichprobenumfang) wird ein Merkmal X durch Messung, Befragung oder Beobachtung erhoben, z. B. Bildungsstand, Gehalt, Wohngegend oder Wahlverhalten der befragten Person. Das Resultat ist jeweils ein Wert (die Merkmalsausprägung) x i. 4
Bivariate Zweidimensionale Daten [bivariate data]: Pro Objekt i (i = 1,..., n) werden zwei Merkmale X und Y gemeinsam erhoben, z. B. Bildungsstand und Gehalt, Bildungsstand und Wohngegend oder Wohngegend und Wahlverhalten der befragten Person. Resultat ist jeweils ein Paar (x i, y i ) von Merkmalsausprägungen. 5
Darstellung univariater Verteilungen Ausgangspunkt bei eindimensionalen Daten ist die Urliste, d.h. das Ergebnis der Registrierung der Beobachtungen (Merkmalsausprägungen) x 1, x 2,..., x n des Merkmals X. Dies entspricht einer Spalte der Datenmatrix; in der Regel werden Zahlen(-kodes) verwendet. 6
Bezeichnungen: n heißt Stichprobenumfang [sample size] a 1,..., a k bezeichnen die verschiedenen in der Urliste vorliegenden Merkmalsausprägungen des Merkmals X. Da Ausprägungen mehrfach in der Urliste auftreten können, gilt stets k n. Handelt es sich um Daten mit mindestens ordinalem Skalenniveau, so wollen wir annehmen, dass die Ausprägungen geordnet a 1 < a 2 <... < a k vorliegen. 7
h(a j ) = h j bezeichnet die absolute Häufigkeit [absolute frequency] der Ausprägung a j in der Urliste, d.h. die Anzahl der x i aus x 1, x 2,..., x n mit x i = a j. f(a j ) = f j := h j /n heißt relative Häufigkeit [relative frequency] der Ausprägung a j. (h 1,..., h k ) heißt absolute Häufigkeitsverteilung [... distribution]. (f 1,..., f k ) heißt relative Häufigkeitsverteilung. 8
Beispiel (Verkehrsmittel): Benutzte Verkehrsmittel (Merkmal X) von n = 100 Urlaubern bei der letzten Auslandsreise (Nominalskala). Verwendete Kodierung: a 1 = 1 a 2 = 2 a 3 = 3 a 4 = 4 a 5 = 5 entspricht Bahn... Bus... Flugzeug... PKW... Sonstige Es gilt k = 5 100 = n. 9
Anfang der Urliste: Person i x i 1 4 2 3 3 2 4 4 5 2 6 4 7 4 8 3 9 2.. 10
Bestimmen der absoluten (h(a j ) = h j ) und relativen Häufigkeiten (f(a j ) = f j ) für das Auftreten der verschiedenen Merkmalsausprägungen (a j ) und Erstellen einer Häufigkeitstabelle mit der absoluten und relativen Häufigkeitsverteilung (Tabellieren der Verteilung). Strichliste: 1 Bahn 7 2 Bus 9 3 Flugzeug 29 4 PKW 53 5 Sonstige 2 11
Häufigkeitstabelle: Ausprägung a j abs. Häufigkeiten h j rel. Häufigkeiten f j 1 7 7/100 = 0.07 2 9 9/100 = 0.09 3 29 29/100 = 0.29 4 53 53/100 = 0.53 5 2 2/100 = 0.02 Summe: 100 100/100 = 1.00 k h j = n j=1 k f j = 1 j=1 12
Relative Häufigkeiten sind günstig zur Bewertung und für den Vergleich von Anteilen einsetzbar (Prozentsätze bezogen auf den Stichprobenumfang). Allein aus relativen Häufigkeiten kann allerdings nicht mehr auf die absoluten Häufigkeiten geschlossen werden. Absolute oder relative Häufigkeiten lassen sich mit Balken- [bar chart] oder Kreisdiagrammen [Pie chart] grafisch darstellen. 13
SPSS berechnet in Häufigkeitstabellen neben den absoluten Häufigkeiten verschiedene Prozentsätze: Prozent: relative Häufigkeiten bezogen auf die gesamte Stichprobe mit Stichprobenumfang n. Gültige Prozente: relative Häufigkeiten bezogen nur auf die gültigen Werte; der Stichprobenumfang n wird dabei um die Anzahl der in PASW/SPSS vereinbarten fehlenden Werte reduziert. Kumulierte Prozente: kumulierte gültige Prozente; nur für Merkmale mit mindestens ordinalem Skalenniveau sinnvoll. 14
Speziell bei umfangreicheren metrischen Datensätzen ist oft die Anzahl k der verschiedenen Ausprägungen des beobachteten Merkmals groß und die Häufigkeit für ihr Auftreten sind klein (k n). Entsprechende Häufigkeitstabellen sind unübersichtlich. Ein Ausweg ist dann die Vergröberung des Datenmaterials durch Klassenbildung. 15
Beispiel (Körpergrößen): Population von n = 200 Kindern, 10 Jahre alt, gemessenes Merkmal X: Körperhöhe in cm (Verhältnisskala). Sehr viele verschiedene Messwerte, Häufigkeitstabelle unübersichtlich. Ausweg: Klasseneinteilung, Bildung von Messwertklassen, Daten werden gruppiert 16
Klasse Häufigkeit 125.5... 130.5 8 130.5... 135.5 28 135.5... 140.5 36 140.5... 145.5 36 145.5... 150.5 50 150.5... 155.5 40 155.5... 160.5 2 17
Die Klassenbildung erfolgt so, dass die Ordnung erhalten bleibt, d.h. nur benachbarte Werte werden zusammengefasst. Die Klasseneinteilung muss disjunkt und vollständig sein und sollte möglichst (bis auf die Randklassen) die gleiche Breite verwenden. Faustregel zur Wahl der Anzahl der Klassen: Anzahl n. 18
Die Klassenbildung ist auch für ordinale Daten anwendbar; es dürfen nur benachbarte Ausprägungen zusammengefasst werden. Bei kategorialen (nominalen) Daten ggf. nach der Kausalstruktur (inhaltlichen Ähnlichkeiten) vorgehen. Mit jeder Klassenbildung (Vergröberung) ist ein Informationsverlust verbunden. Grafische Darstellung der gruppierten Daten: Balkendiagramm, Kreisdiagramm 19
Grafische Darstellung der (zunächst) ungruppierten Originaldaten (mindestens intervallskaliert): Histogramm [histogram]: Bei Histogrammen (z.b. in SPSS) übernimmt der Rechner die Klasseneinteilung und stellt die sich ergebende Häufigkeitsverteilung durch eine Balkengrafik dar, wobei die Balken für benachbarte Klassen lückenlos aufeinander folgen. Am Rechner sollte man bei Histogrammen Zahl und Lage der Klassen (Anfangspunkt) variieren, um eine genauere Vorstellung von der Form der Werteverteilung zu bekommen. Die Form ergibt sich dabei durch das Verbinden der Werte für die Balkenhöhen in den Klassenmitten (Häufigkeitspolygon [frequency or density function]). 20
Stamm Blatt Diagramm [stem and leaf display] Siehe Literatur bzw. PC-Praktika (SPSS: Stengel Blatt) Analysieren Deskriptive Statistiken Explorative Datenanalyse: Diagramme Weitere Möglichkeiten zur Darstellung stetiger Verteilungen bieten gleitende Histogramme und Kerndichteschätzer. 21
Typische Verteilungsformen (a) glockenförmige Verteilung: sehr häufig, z.b. immer dann, wenn das untersuchte Merkmal additiv durch viele kleine zufällige Effekte überlagert wird; symmetrisch; z.b. Messfehler (Summe aus vielen kleinen Fehlern). (b) U förmige Verteilung: extreme Werte treten am häufigsten auf; z.b. vorherrschen extremer Meinungen (Polarisierungen). (c) J förmige Verteilung: ein Extrem tritt am häufigsten auf, monotones Abfallen der Häufigkeiten zum anderen Extrem; z.b. Wartezeiten (zwischen Anrufen). 22
(d) eingipflige (unimodale) schiefe Verteilung: asymmetrisch; tritt oft als theoretische Verteilung positiver statistischer Prüfgrößen auf, z.b. χ 2 Verteilung, siehe später. (e) zweigipflige (bimodale) Verteilung: Mischung zweier unterschiedlicher Populationen; z.b. Körpergröße von Männern und Frauen, Mischverteilung. (f) schmalgipflige Verteilung: Werte streuen nur wenig. (g) breitgipflige Verteilung: Werte streuen stark. 23
Kumulierte Häufigkeiten entstehen durch Summieren der absoluten oder relativen Häufigkeiten nach der Größe der Ausprägungen (Kodes) des untersuchten Merkmals, also von links beginnend. Es ist mindestens eine Ordinalskala erforderlich. 24
Im Beispiel Körpergrößen ergibt sich: Klasse Häufigkeit kumulierte Häufigkeiten 125.5... 130.5 8 8 130.5... 135.5 28 8 + 28 = 36 135.5... 140.5 36 36 + 36 = 72 140.5... 145.5 36 72 + 36 = 108 145.5... 150.5 50 108 + 50 = 158 150.5... 155.5 40 158 + 40 = 198 155.5... 160.5 2 198 + 2 = 200 25
Grafische Darstellung der kumulierten Häufigkeiten: Summenpolygon. Hier ergibt sich z.b.: 158 Kinder hatten eine Größe von unter (oder gleich) 150.5 cm 26
Empirische Verteilungsfunktion [empirical distribution function] Voraussetzung: mindestens ordinalskalierte Daten Fragestellung: Welcher Anteil der Daten ist kleiner oder gleich einem vorgegebenen Wert x? 27
Empirische Verteilungsfunktion (kumulierte relative Häufigkeitsverteilung) eines Merkmals X: Wir bestimmen für jede reelle Zahl x den Anteil der Datenwerte, die kleiner oder gleich x sind. Die Funktion F mit F (x) = Anzahl d. Beob. x i mit x i x Stichprobenumfang n = j=1,...,k mit a j x ist die empirische Verteilungsfunktion oder kumulierte relative Häufigkeitsverteilung des Merkmals X mit den beobachteten Merkmalsausprägungen x 1, x 2,..., x n. f j 28
F ist eine monoton wachsende Treppenfunktion, die an den Stellen a 1,..., a k um die entsprechenden relativen Häufigkeiten f 1,..., f k nach oben springt. Es gilt F (x) = 0 für alle x < a 1 und F (x) = 1 für alle x a k. 29
Beispiel (Studiendauer): Studiendauer in Semester von n = Studierenden (Verhältnisskala). Häufigkeitsverteilung: a j 7 8 9 10 11 12 13 14 15 h j 1 2 7 11 21 15 13 4 1 f j 1 2 7 11 21 15 13 4 1 F (a j ) 1 3 10 21 42 57 70 74 30
Mit Hilfe der empirischen Verteilungsfunktion lassen sich Häufigkeitsverteilungen, Anteilswerte und empirische Quantile (siehe später) bestimmen. 31
Geordnete Stichprobe und Ränge [ordered data set and ranks] Gegeben seien (mindestens) ordinale Daten! Das Ordnen der Urliste x 1, x 2,..., x n liefert die geordnete Stichprobe x (1), x (2),..., x (n) mit x (1) x (2)... x (n). Beispiel (Körpergröße von Kindern, Auszug, n = 10): Urliste: 154, 130, 148, 153, 149, 142, 138, 152, 137, 140 geordnete Stichprobe: 130, 137, 138, 140, 142, 148, 149, 152, 153, 154 32
Seien nun alle Merkmalsausprägungen unterschiedlich (!), d.h. es gelte k = n. Dann gelten für die geordnete Stichprobe x (1), x (2),..., x (n) die strengen Ungleichungen x (1) < x (2) <... < x (n) Die Ränge der Daten sind dann definiert als Rg(x (i) ) := i d.h. x (i) ist der i te Wert in der geordneten Stichprobe. 33
Beispiel (Forts.): x i Rg(x i ) x (i) Rg(x (i) ) 154 10 130 1 130 1 137 2 148 6 138 3 153 9 140 4 149 7 142 5 142 5 148 6 138 3 149 7 152 8 152 8 137 2 153 9 140 4 154 10 34
Die Definition der Ränge ist komplizierter, wenn Werte mehrfach auftreten (Bindungen [ties or tied ranks]). Siehe Literatur. SPSS: Transformieren Rangfolge bilden Das Untermenü Rangbindungen erlaubt verschiedene Definitionen von Rängen bei vorliegenden Bindungen. 35