Tabelle 3.1: Beobachtete Häufigkeiten

Ähnliche Dokumente
Lage- und Streuungsparameter

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik

Statistische Grundlagen I

Statistik eindimensionaler Größen

Angewandte Statistik 3. Semester

2 Statistische Maßzahlen

Chi-Quadrat Verfahren

Deskriptive Statistik & grafische Darstellung

Fachrechnen für Tierpfleger

Statistik. Jan Müller

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

Auswertung und Darstellung wissenschaftlicher Daten (1)

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Herzlich willkommen zum Thema SPSS

Mathematische und statistische Methoden I

Kapitel 13 Häufigkeitstabellen

Biomathematik für Mediziner, Klausur SS 2001 Seite 1

Kapitel 1: Deskriptive Statistik

Deskriptive Statistik

Kapitel 1: Deskriptive Statistik

Thema: Mittelwert einer Häufigkeitsverteilung. Welche Informationen kann der Mittelwert geben?

Kapitel 1 Beschreibende Statistik

Sonderanhang: Manuelle Berechnungen der Statistikaufgaben

Willkommen zur Vorlesung Statistik

Lösungen zur Biomathe-Klausur Gruppe A Montag, den 16. Juli 2001

Deskriptive Statistik

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität

Beschreibende Statistik Eindimensionale Daten

3.5 Beschreibende Statistik. Inhaltsverzeichnis

Kapitel 38 Verteilungsdiagramme

Lösungen zu den Übungsaufgaben in Kapitel 10

Statistik für SozialwissenschaftlerInnen II p.85

Analytische Statistik II

8. Konfidenzintervalle und Hypothesentests

Mathematik: LehrerInnenteam Arbeitsblatt Semester ARBEITSBLATT 12. Erwartungswert, Varianz und Standardabweichung


Bivariater Zusammenhang in der Mehrfeldertafel PEΣO

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.)

Expertenrunde Gruppe 1: Wiederholungsgruppe EXCEL (Datenerfassung, Darstellungsformen, Verwertung)

Beschreibung univariater Verteilungen

Webergänzung zu Kapitel 10

Hydrologie und Flussgebietsmanagement

Kapitel VI - Lage- und Streuungsparameter

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Jost Reinecke. 7. Juni 2005

1 Verteilungen und ihre Darstellung

II Wahrscheinlichkeitsrechnung

Exemplar für Prüfer/innen

I. Deskriptive Statistik 1

Kategoriale Daten. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/17

Einfache statistische Auswertungen mit dem TI-Nspire

N

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Faustformeln / Zusammenhänge a) Binomialverteilung als Poissonverteilung:

Mathematische und statistische Methoden II

4. Kumulierte Häufigkeiten und Quantile

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Grenzen für x -s-regelkarten

Teil I: Deskriptive Statistik

Vorlesung Wirtschaftsstatistik 2 (FK ) Wiederholungen deskriptive Statistik und Einleitung Normalverteilungsverfahren. Dipl.-Ing.

Übungsaufgaben zu Statistik II

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Statistik II. Statistische Tests. Statistik II

Kapitel 35 Histogramme

Eine zweidimensionale Stichprobe

Skript 7 Kreuztabellen und benutzerdefinierte Tabellen

Die zweite Form ist die Profillinie, in der die Mittelwerte aller Skalafragen in einer Übersicht übereinander dargestellt werden.

3 Häufigkeitsverteilungen

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

Deskriptive Statistik Beschreiben, Zusammenfassen, Darstellen gegebener Daten (Datenreduktion!)

Klausur Statistik I. Dr. Andreas Voß Wintersemester 2005/06

Einfache statistische Auswertungen mit dem Programm SPSS

3.4.1 Referenzwerte für das fetale Schätzgewicht in der SSW

Wie man zwei Kekssorten auf Unterschiede testet

Grundlegende Eigenschaften von Punktschätzern

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Computergestützte Methoden. Master of Science Prof. Dr. G. H. Franke WS 07/08

Inferenzstatistik (=schließende Statistik)


Diskrete Wahrscheinlichkeitsverteilungen

Zufallsauswahl mit R

1 Grundprinzipien statistischer Schlußweisen

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

2. Eindimensionale (univariate) Datenanalyse

Statistik und Wahrscheinlichkeitsrechnung

Testverfahren. 1. Pepsi vs. Coca-Cola

Kapitel 34 Boxplots und Fehlerbalken

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Statistik - Übungsaufgaben

Transkript:

3 Deskriptive Statistik Deskriptive Statistik ist im Gegensatz zur analytischen Statistik (siehe Kap. 5) die reine Beschreibung der Daten durch Häufigkeitstabellen, passende Kennwerte oder Grafiken. Das vorliegende Kapitel beschäftigt sich mit der Erstellung von Häufigkeitstabellen und mit der Berechnung von Kennwerten, die man in Lokalisations- und Dispersionsparameter einteilen kann. Grafiken werden in einem späteren Kapitel (Kap. 12) behandelt. 3.1 Häufigkeitstabellen Als einfachstes statistisches Verfahren gilt das Zählen. Im Falle von nominalskalierten Variablen ist dies auch die einzig mögliche statistische Operation. In einer Bevölkerungsumfrage wurde u. a. nach dem Familienstand der interviewten Personen gefragt. Die Auszählung ergab die Häufigkeiten der Tabelle 3.1. Häufigkeit ledig 777 verheiratet 1761 verwitwet 373 geschieden 141 Tabelle 3.1: Beobachtete Häufigkeiten Die Berechnung statistischer Kennwerte wie Mittelwert oder Median ist bei solchen nominalskalierten Variablen, denen nicht einmal eine Ordnungsrelation zugrunde liegt, sinnlos. Der einzig sinnvolle Kennwert ist der Modalwert; dies ist der am häufigsten vorkommende Wert. Codiert man im gegebenen Beispiel die auftretenden Kategorien der Reihe nach fortlaufend mit bei 1 beginnenden natürlichen Zahlen, so ist der Modalwert gleich 2 (Verheiratete). Dieser Wert tritt 1761-mal und damit am häufigsten auf. Da der Modalwert alle anderen Werte unberücksichtigt lässt, hat er allerdings nur eine sehr geringe praktische Bedeutung. 3.1.1 Beobachtete und prozentuale Häufigkeiten Sinnvoller als die Angabe des Modalwertes ist es, bei nominalskalierten Variablen die komplette Häufigkeitstabelle anzugeben und zusätzlich zu den beobachteten Häufigkeiten die prozentualen Häufigkeiten.

30 Kapitel 3: Deskriptive Statistik Bezeichnet man die Anzahl der Kategorien mit k und die beobachteten Häufigkeiten mit f i, so ist die Gesamtsumme der Häufigkeiten n = n i=1 f i Daraus berechnen sich die prozentualen Häufigkeiten zu p i = f i 100 i =1,...,k n Diese prozentualen Häufigkeiten sind in Tabelle 3.2 mit eingetragen. Häufigkeit Prozent ledig 777 25 5 % verheiratet 1761 57 7 % verwitwet 373 12 2 % geschieden 141 4 6 % Summe 3052 Tabelle 3.2: Prozentuale Häufigkeiten 3.1.2 Kumulierte Häufigkeiten Auch bei ordinalskalierten Variablen ist neben der Berechnung des Medians (siehe Kap. 3.2.2) meist die Angabe der beobachteten und prozentualen Häufigkeiten empfehlenswert. Sinnvoll ist dann ebenfalls die Bestimmung der kumulierten Häufigkeiten F i und der kumulierten prozentualen Häufigkeiten P i. Erstere sind dabei die bis zur betreffenden Kategorie aufsummierten beobachteten Häufigkeiten, die dann wieder auf der Basis der Gesamtsumme der Häufigkeiten prozentuiert werden können. In derselben Bevölkerungsumfrage wurde auch die Frage gestellt Wie oft gehen Sie in die Kirche?. Alle anfallenden Häufigkeiten sind in Tabelle 3.3 zusammengestellt. Den kumulierten prozentualen Häufigkeiten kann man z. B. entnehmen, dass über die Hälfte der Befragten, nämlich 51 6 %, zumindest mehrmals im Jahr in die Kirche gehen. 3.1.3 Klassenbildung Bei intervallskalierten Variablen liegen meist viele verschiedene Werte vor, so dass eine Häufigkeitstabelle recht unübersichtlich wird. In diesem Falle bietet es sich an, mehrere benachbarte Werte zu Klassen zusammenzufassen. Als Beispiel sei die Häufigkeitstabelle der Altersangaben aus der schon mehrfach zitierten Bevölkerungsumfrage betrachtet (Tabelle 3.4).

3.1 Häufigkeitstabellen 31 Häufigkeit Prozent kumulierte kumulierte Häufigkeit Prozente mindestens zweimal pro Woche 73 2 6 % 73 2 6 % einmal pro Woche 360 13 0 % 433 15 7 % ein- bis dreimal pro Monat 331 12 0 % 764 27 7 % mehrmals im Jahr 660 23 9 % 1424 51 6 % seltener 935 33 9 % 2359 85 5 % nie 402 14 6 % 2761 100 0 % Tabelle 3.3: Kumulierte Häufigkeiten Alter n Alter n Alter n Alter n 18 60 36 49 54 33 72 31 19 48 37 46 55 42 73 40 20 49 38 61 56 51 74 26 21 64 39 52 57 31 75 30 22 76 40 55 58 47 76 27 23 55 41 43 59 42 77 24 24 85 42 35 60 56 78 22 25 88 43 38 61 39 79 21 26 72 44 42 62 44 80 18 27 71 45 41 63 40 81 13 28 70 46 52 64 45 82 14 29 59 47 47 65 45 83 13 30 58 48 51 66 56 84 5 31 55 49 55 67 38 85 8 32 56 50 49 68 47 86 3 33 58 51 49 69 27 87 3 34 60 52 56 70 27 89 3 35 56 53 39 71 39 92 2 Tabelle 3.4: Beobachtete Häufigkeiten von Altersangaben Vor einer Klassenzusammenfassung sind zwei Entscheidungen zu treffen, nämlich über die Klassenbreite und über den Beginn der ersten Klasse. Was die Wahl der Klassenbreite anbelangt, so gibt es hierfür keine verbindliche Regel. Geringe Klassenbreite hat große

32 Kapitel 3: Deskriptive Statistik Klassenzahl und Unübersichtlichkeit zur Folge, große Klassenbreite hingegen kann typische Verteilungsformen verwischen. Man sollte etwa zehn bis zwanzig Klassen wählen, und zwar so, dass in der Mitte alle Klassen besetzt sind. Am linken und rechten Verteilungsende können nach unten bzw. nach oben offene Klassen verwendet werden. Wir wollen uns im gegebenen Beispiel mit acht Klassen begnügen, wobei die erste und die achte Klasse offene Klassen sind (Tabelle 3.5). Klasse Häufigkeit Prozent kumulierte Prozente bis 20 Jahre 157 5 1 % 5 1 % 21 30 Jahre 698 22 9 % 28 0 % 31 40 Jahre 548 18 0 % 46 0 % 41 50 Jahre 453 14 8 % 60 8 % 51 60 Jahre 446 14 6 % 75 4 % 61 70 Jahre 408 13 4 % 88 8 % 71 80 Jahre 278 9 1 % 97 9 % über 80 Jahre 64 2 1 % 100 0 % Tabelle 3.5: Klassenhäufigkeiten Bei der ersten, nach unten offenen Klasse ist zu bedenken, dass sie nur drei Jahrgänge umfasst, so dass von vornherein eine geringere Klassenhäufigkeit zu erwarten ist. Davon abgesehen handelt es sich um eine linksgipflige Verteilung. Dies wird besonders deutlich, wenn man die gegebene Verteilung der Häufigkeiten in Form eines Histogramms darstellt (siehe Kap. 2.3). 3.2 Lokalisationsparameter 3.2.1 Der Mittelwert Der Mittelwert ist der passende Lokalisationsparameter für intervallskalierte und normalverteilte Variablen. Er ist weniger geeignet für nicht normalverteilte oder ordinalskalierte Variablen und unsinnig für nominalskalierte Variablen. Der Mittelwert (genauer: das arithmetische Mittel) von n Werten x i ist die Summe dieser Werte, geteilt durch ihre Anzahl: x = n x i i=1 n

3.2 Lokalisationsparameter 33 Als Beispiel seien die Altersangaben von n = 12 Personen betrachtet. 40 37 67 23 45 39 29 51 56 24 42 38 Die Summe dieser Werte ist 491; damit wird x = 491 12 = 40,9 Die Personen sind also im Mittel 40 9 Jahre alt. Bitte achten Sie darauf, dass Sie den Mittelwert nicht mit übertriebener Genauigkeit veröffentlichen. Die Angabe einer Dezimalstelle erscheint hier angemessen, nicht aber etwa die Angabe x = 40 9167. Zwei Eigenschaften des Mittelwertes seien erwähnt: Die Summe der Differenzen aller Werte von ihrem Mittelwert ist null. Die Summe der Quadrate der Differenzen aller Werte von ihrem Mittelwert ist kleiner als die Summe der Quadrate der Differenzen aller Werte zu irgendeinem anderen Wert. Bei Störungen der Normalverteilung, was insbesondere beim Auftreten von Ausreißern der Fall ist, ist die Berechnung des Mittelwertes meist nicht sinnvoll, wie das folgende extreme Beispiel zeigt. Vier Berufstätige wurden nach ihrem monatlichen Einkommen gefragt: 4 000 DM 7 000 DM 5 000 DM 100 000 DM Als mittleres Einkommen ergibt sich 116 000 x = = 29 000 4 Das mittlere Einkommen der befragten Personen beträgt also 29 000 DM. Es dürfte ohne weitere Erläuterung klar sein, dass dies eine sinnlose Aussage ist. Ähnlich sinnlos sind zum Beispiel die von Zeit zu Zeit zu lesenden Angaben über die Höhe der mittleren Spareinlagen der deutschen Bevölkerung. In solchen Fällen ist die Bestimmung des Medians sinnvoller. Berechnung eines gemeinsamen Mittelwertes Zuweilen tritt das Problem auf, dass bei verschiedenen Stichproben gewonnene Mittelwerte zu einem gemeinsamen Mittelwert zusammengeführt werden sollen. So wollen wir annehmen, bei einer zweiten Stichprobe von nunmehr 20 Personen habe sich ein Altersmittelwert von 43 2 Jahren ergeben.

34 Kapitel 3: Deskriptive Statistik Zur Berechnung des gemeinsamen Mittelwertes mit unserer ersten Stichprobe ( x = 40,9; n =12) wäre es falsch, die beiden Mittelwerte zu addieren und die Summe durch 2 zu teilen, da dann die unterschiedlichen Fallzahlen nicht berücksichtigt würden. Richtig ist es, bei der Berechnung des gemeinsamen Mittelwertes zweier Stichproben, von denen die Mittelwerte x 1 und x 2 bei den Fallzahlen n 1 und n 2 vorliegen, diese Mittelwerte entsprechend zu gewichten: x = n 1 x 1 + n 2 x 2 n 1 + n 2 Im gegebenen Beispiel ergibt sich hiermit 12 40,9 + 20 43,2 x = = 42,3 12+20 Bei mehr als zwei zu vereinigenden Mittelwerten wird entsprechend verfahren. Es wurde schon darauf hingewiesen, dass die Berechnung des Mittelwertes bei nominalskalierten Variablen unsinnig ist. Haben Sie etwa ein neues Medikament getestet und die auftretenden insgesamt 27 verschiedenen Nebenwirkungen mit einer Codierung von 1 bis 27 versehen, so ist die Aussage die mittlere Nebenwirkung beträgt 12 4 natürlich sinnlos. 3.2.2 Der Median Der Median wird bei ordinalskalierten bzw. intervallskalierten, aber nicht normalverteilten Variablen berechnet. Er ist derjenige Wert, unterhalb und oberhalb dessen jeweils die Hälfte der Messwerte liegen. Dabei gibt es zwei verschiedene Arten der Berechnung, je nachdem, ob die Messwerte einzeln oder in Form einer Häufigkeitstabelle vorliegen. Wir betrachten zunächst ein Beispiel zur erstgenannten Möglichkeit. Bei elf Patienten seien die folgenden Triglyceridwerte gemessen worden: 489 113 141 120 217 109 675 218 96 225 132 Es treten zwei Ausreißerwerte auf (489, 675), so dass es sinnvoll erscheint, anstelle des Mittelwertes den gegenüber Ausreißern unempfindlichen Median zu berechnen. Zu diesem Zweck schreibt man zunächst die Werte der Größe nach sortiert auf: 96 109 113 120 132 141 217 218 225 489 675 Bei einer solch ungeraden Anzahl von Werten ist der Median ein tatsächlich auftretender Wert, nämlich der mittlere Wert der in aufsteigender Reihenfolge sortierten Wertereihe. Im gegebenen Beispiel mit elf Messwerten ist dies der 6. Wert, also der Wert 141: Median = 141 Links und rechts von diesem Wert liegen dann gleich viele Werte, nämlich fünf.

3.2 Lokalisationsparameter 35 Wir wollen der aufsteigend notierten Wertereihe noch einen Wert anfügen: 96 109 113 120 132 141 217 218 225 489 675 690 In diesem Fall einer geraden Anzahl von Werten ist der Median der Mittelwert aus den beiden mittleren Werten, hier also 141 + 217 Median = = 179 2 Es ist offensichtlich, dass der Median gänzlich unempfindlich gegen Ausreißerwerte ist. So ist es zum Beispiel völlig gleichgültig, welchen Wert der größte Messwert annimmt, da der Wert des Medians hiervon unberührt bleibt. Häufig wird der Median auch bei ordinalskalierten Variablen bestimmt, wobei die Angaben in Form einer Häufigkeitstabelle vorliegen. In einem Fragebogen zur Krankheitsverarbeitung sollten 160 Patienten auf einer Fünferskala angeben, inwieweit sie aktive Anstrengungen zur Lösung ihrer gesundheitlichen Probleme unternehmen. Die entsprechenden Häufigkeiten sind in Tabelle 3.6 wiedergegeben. Skalenwert Häufigkeit kumulierte Häufigkeit gar nicht 1 12 12 wenig 2 25 37 mittelmäßig 3 23 60 ziemlich 4 53 113 sehr stark 5 47 160 Tabelle 3.6: Beobachtete und kumulierte Häufigkeiten Zusätzlich zu den Häufigkeiten ist jeweils die kumulierte Häufigkeit aufgeführt (siehe Kap. 3.1.2). Nach der erläuterten Regel zur Bestimmung des Medians ergibt sich hierfür der Wert 4. Bei insgesamt 160 Werten liegt der Median nämlich, wenn man die Werte aufsteigend sortiert, zwischen dem 80. und 81. Wert. Die kumulierte Häufigkeit zeigt an, dass sowohl der 80. als auch der 81. Wert den Wert 4 haben, womit auch der Median diesen Wert annimmt. Es dürfte aber unmittelbar klar sein, dass dies ein recht unbrauchbarer, da zu ungenauer Wert ist. Im Falle von solchen gehäuften Daten benutzt man zur genaueren Bestimmung des Medians die folgende Schätzformel: Median = x m 0,5 + 1 ( n m 1) f m 2 F Dabei bezeichnet m die Kategorie, bei welcher der Median liegt. Ferner bedeuten:

36 Kapitel 3: Deskriptive Statistik x m Wert der m-ten Kategorie f m Häufigkeit der m-ten Kategorie F m 1 kumulierte Häufigkeit bei der Kategorie m 1 n Gesamtsumme der Häufigkeiten Im gegebenen Beispiel sind m =4 x m =4 f 4 =53 F 3 =60 n = 160 Damit ergibt sich für den Median Median =4 0,5 + 1 ( ) 160 53 2 60 = 3,877 Bezeichnet man die Anzahl der Kategorien mit k, so würde sich der Mittelwert aller Werte nach folgender Formel errechnen: k f m x m m=1 x = n Dies ergibt im gegebenen Beispiel x = 578 160 = 3,613 Der Mittelwert ist also kleiner als der Median, was bei einer rechtsgipfligen Verteilung wie im gegebenen Beispiel stets der Fall ist. Bei einer linksgipfligen Verteilung ist der Mittelwert größer als der Median. 3.3 Dispersionsparameter Während die Lokalisationsparameter die Lage einer Verteilung oder ihre zentrale Tendenz beschreiben, kennzeichnen die Dispersionsparameter oder Streuungsmaße die Breite einer Verteilung. Das einfachste Streuungsmaß, Spannweite genannt, ist die Differenz zwischen größtem und kleinstem Wert: Spannweite = Maximum Minimum Der Nachteil dieses Streuungsmaßes ist, dass es lediglich auf den beiden Extremwerten basiert und somit höchst unsicher ist; es sagt zudem nichts über die dazwischen liegenden Werte aus. Daher wurden, je nach Messniveau, aussagekräftigere Streuuungsmaße entwickelt.

3.3 Dispersionsparameter 37 3.3.1 Standardabweichung und Standardfehler Die Standardabweichung als gebräuchlichstes Streuungsmaß wird bei intervallskalierten und normalverteilten Variablen berechnet. Man erhält sie, indem man die Summe der quadratischen Abweichungen aller Messwerte vom Mittelwert bildet, diese durch die um 1 verminderte Fallzahl teilt und hieraus die Wurzel zieht. Liegen also n Messwerte x 1,x 2,...,x n vor, so ist deren Standardabweichung definiert durch n (x i x) 2 i=1 s = n 1 Je mehr also die einzelnen Messwerte von ihrem Mittelwert abweichen, desto größer wird die Standardabweichung. Zur praktischen Berechnung der Standardabweichung benutzt man eine modifizierte Formel: ( n n x 2 i i=1 s = n 1 ) 2 x i i=1 n Als Rechenbeispiel sollen die Altersangaben aus Kap. 3.2.1 dienen. Diese Werte (n = 12) sind zusammen mit den quadrierten Werten in Tabelle 3.7 eingetragen. x i x 2 i 40 1600 37 1369 67 4489 23 529 45 2025 39 1521 29 841 51 2601 56 3136 24 576 42 1764 38 1444 Summe 491 21895 Tabelle 3.7: Summe und Quadratsumme

38 Kapitel 3: Deskriptive Statistik Damit ergibt sich für die Standardabweichung 21895 4912 s = 12 = 12,81 12 1 Beim Vergleich zweier Standardabweichungen miteinander ist zu beachten, dass dieser nur bei ähnlichen Mittelwerten sinnvoll ist. So hat eine Standardabweichung von 1 natürlich eine unterschiedliche Gewichtung, je nachdem, ob die zugehörigen Mittelwerte beispielsweise 10 oder 100 sind. Eine Relativierung der Standardabweichung s am Mittelwert x führt zur Definition des Variationskoeffizienten V : V = s x In unserem Beispiel der Altersangaben ergibt sich V = 40,9 12,81 = 3,19 Der Variationskoeffizient ist also dann nützlich, wenn Standardabweichungen zwischen Stichproben mit verschiedenen Mittelwerten verglichen werden sollen. In manchen Zusammenhängen wird anstelle der Standardabweichung der Begriff Varianz verwendet; diese ist das Quadrat der Standardabweichung: Varianz = n (x i x) 2 i=1 n 1 Berechnung einer gemeinsamen Standardabweichung Ähnlich wie beim Mittelwert kann man auch an verschiedenen Stichproben gewonnene Standardabweichungen zu einer gemeinsamen Standardabweichung zusammenführen. Die entsprechende Formel ist s = 1 k N 1 ( k (nj 1) sj) 2 + (n j ( x j x) 2 ) Dabei bedeuten: j=1 j=1 k n j x j s j x Anzahl der Stichproben die Umfänge der Stichproben die Mittelwerte der Stichproben die Standardabweichungen der Stichproben der Gesamtmittelwert der Stichproben

3.3 Dispersionsparameter 39 N ist die Summe der Stichprobenumfänge: N = k j=1 n j Der Rechengang soll anhand eines einfachen Beispiels mit zwei Stichproben gezeigt werden. Gegeben seien x 1 =30 x 2 =25 s 1 =5 s 2 =4 n 1 =22 n 2 =24 Der gemeinsame Mittelwert x berechnet sich nach Kap. 3.2.1 zu 22 30+24 28 x = = 28,96 22+24 Die weiteren benötigten Zwischenergebnisse sind in Tabelle 3.8 eingetragen. j n j s 2 j (n j 1) s 2 j ( x j x) 2 n j ( x j x) 2 1 22 25 525 1 081 23 782 2 24 16 368 0 922 22 128 Summe 46 893 45 910 Tabelle 3.8: Rechenschritte zur gemeinsamen Standardabweichung Hiermit ergibt sich 1 s = (893 + 45,910) = 4,57 45 Die anschauliche Bedeutung der Standardabweichung ergibt sich aus einer Faustregel: Im Intervall von x s bis x + s liegen etwa zwei Drittel (67 %) aller Werte, im Intervall von x 2 s bis x +2 s etwa 95 % aller Werte. Die Standardabweichung erlaubt über die Angabe eines so genannten Konfidenzintervalls auch eine Voraussage über den Mittelwert der betreffenden Grundgesamtheit (siehe Kap. 6). In diesem Zusammenhang wird ein etwas modifiziertes Streuungsmaß eingeführt, der Standardfehler des Mittelwertes oder kurz Standardfehler. Dieser ist definiert durch s m = s n Näheres hierzu wird in Kap. 6 erläutert. In Veröffentlichungen sollte man sich entscheiden, ob man die Standardabweichung s oder den Standardfehler s m publiziert, da die Angabe von zwei Streuungsmaßen sicherlich zu viel des Guten ist.

40 Kapitel 3: Deskriptive Statistik 3.3.2 Der Quartilabstand Der Median ist nach seiner in Kap. 3.2.2 gegebenen Definition derjenige Wert, unterhalb und oberhalb dessen jeweils 50 % der Werte liegen. Zwei weitere ausgezeichnete Punkte der Messwertskala sind das 1. Quartil (Q1) und das 3. Quartil (Q3). Unterhalb des 1. Quartils liegen 25 % der Werte, unterhalb des 3. Quartils 75 %. Das 1. Quartil, der Median (auch 2. Quartil genannt) und das 3. Quartil teilen die Messwertskala also in vier Teile mit gleichen Häufigkeiten ein. Der Abstand zwischen Q1 und Q3 (der 50 % der Werte abdeckt) ist also offensichtlich ein Maß für die Streuung der Werte. In der Praxis benutzt man allerdings den halben Quartilabstand Q3 Q1 2 Der halbe Quartilabstand als Streuungsmaß wird sinnvollerweise genau dort verwendet, wo anstelle des Mittelwertes der Median als Lokalisationsparameter benutzt wird. Als Rechenbeispiel betrachten wir noch einmal das Beispiel der gehäuften Daten in Tabelle 3.6. Da die Fallzahl n = 160 beträgt, ist die Stellung des 1. Quartils wegen n 4 = 160 4 =40 beim 3. Skalenwert festgelegt. Analog wie beim Median gibt es zur genaueren Bestimmung des 1. Quartils eine Schätzformel: Q1 =x m 0,5 + 1 ( n m 1) f m 4 F Die Bedeutung der einzelnen Größen ist bei der Medianformel in Kap. 3.2.2 angegeben. Im gegebenen Beispiel wird m =3 x m =3 f 3 =23 F 2 =37 n = 160 Damit ergibt sich Q1 =3 0,5 + 1 ( ) 160 23 4 37 = 2,630 Das 3. Quartil ist festgelegt bei 3 n 4 = 3 160 4 = 120 und damit beim 5. Skalenwert. Die Abschätzformel für das 3. Quartil lautet: Q3 =x m 0,5 + 1 ( ) 3 n F m 1 f m 4 Im vorliegenden Beispiel ist m =5 x m =5 f 5 =47 F 4 = 113 n = 160

3.3 Dispersionsparameter 41 Damit erhält man Q3 =5 0,5 + 1 ( ) 3 160 47 113 = 4,649 4 Der halbe Quartilabstand wird damit Q3 Q1 2 = 4,649 2,630 2 = 1,010 Bei nicht gehäuften Werten, also intervallskalierten Variablen, werden Q1 und Q3 ähnlich wie beim Median durch Auszählen bestimmt. 3.3.3 Perzentilberechnung nach Cole Die Berechnung des Medians und der Quartile Q1 und Q3 ist ein Versuch, durch Zerlegung in vier gleich große Teile die zentrale Tendenz einer Verteilung zu beschreiben. Stattdessen kann man die so definierten Schnittpunkte auch an beliebiger Stelle ansetzen und zum Beispiel fragen, unter welchem Wert der Messwertskala sich zehn Prozent der Werte befinden. Dies führt zum Begriff der Perzentile. Wie der Median und die beiden anderen Quartile auch können die Perzentile durch einfaches Abzählen ermittelt werden, wenn man die Werte in eine aufsteigend sortierte Reihenfolge bringt. Als Beispiel betrachten wir die an genau 1 000 Probanden einer klinischen Studie ermittelten Werte des Body Mass Index (BMI), der nach der Formel BMI = Körpergewicht Körpergröße 2 eine Einteilung in normalgewichtige, übergewichtige und adipöse Probanden gestattet, wobei das Körpergewicht in kg und die Körpergröße in m anzugeben ist. Die Werte sind in aufsteigender Reihenfolge in der Datei bmi.dat gespeichert. Um beispielsweise die Perzentile P 10 (unterhalb dessen 10 % der Werte liegen), P 20, P 30 usw. zu bestimmen, genügt es offensichtlich, die Werte in den Zeilen 100, 200, 300 usw. dieser Datei zu betrachten. Die so ermittelten Perzentile sind in Tabelle 3.9 enthalten. Die Ermittlung der Perzentilwerte ist natürlich deshalb so einfach, weil genau eintausend bereits vorsortierte Werte vorliegen. Eine solch große Anzahl von Werten erlaubt auch eine einigermaßen verlässliche Bestimmung auch hoher Perzentilwerte wie P 95 oder P 99. Da in der Regel die Fallzahl nicht so groß sein dürfte, werden dann die Werte relativ ungenau und sind vor allem im Extrembereich zufälligen Schwankungen unterworfen. Aus diesem Grunde hat T. J. Cole eine allerdings sehr rechenaufwendige Methode entwickelt, die es bei Anwendung eines ausgeklügelten Glättungsalgorithmus auch bei nicht so großen Fallzahlen erlaubt, von zufälligen Schwankungen unabhängige Perzentilwerte zu bestimmen. Die Rechenschritte sind im Folgenden aufgeführt, wobei weitgehend die Bezeichnungen von Cole verwandt werden. Gegeben seien die n Messwerte x i (i =1,...,n).

42 Kapitel 3: Deskriptive Statistik Perzentil Perzentilwert P 10 20 6 P 20 21 9 P 30 23 0 P 40 23 9 P 50 24 8 P 60 25 5 P 70 26 5 P 80 27 7 P 90 29 4 P 95 31 1 P 99 34 7 Tabelle 3.9: Perzentilwerte Zu diesen werden die mit dem natürlichen Logarithmus logarithmierten Werte und die reziproken Werte bestimmt: xl i = ln(x i ) i =1,...,n xr i = 1 x i i =1,...,n Aus den Originalwerten und den transformierten Werten werden berechnet: M a s xl S g xr S r Mittelwert der Originalwerte Standardabweichung der Originalwerte Mittelwerte der logarithmierten Werte Standardabweichung der logarithmierten Werte Mittelwert der reziproken Werte Standardabweichung der reziproken Werte Mit diesen Mittelwerten und Standardabweichungen werden die folgenden Ausdrücke bestimmt: M g = exp ( xl ) S a = s M g M h = 1 xr

3.3 Dispersionsparameter 43 S h = S r M g ( ) Sa A = ln S h ( ) S a S h B = ln Sg 2 L = A 2 B ( ) A L S = S g exp 4 M = M g +(M a M h ) L 2 +(M a 2 M g + M h ) L2 2 Die berechneten Größen haben nach Cole die folgende Bedeutung: M a M g M h M S a S g S h S L arithmetischer Mittelwert geometrischer Mittelwert harmonischer Mittelwert generalisierter Mittelwert arithmetischer Variationskoeffizient geometrischer Variationskoeffizient harmonischer Variationskoeffizient generalisierter Variationskoeffizient Box-Cox power Aus den Größen L, M und S (aus diesem Grund wird das Verfahren auch LMS-Methode genannt) kann nun unter Zuhilfenahme der Standardnormalverteilungskurve zu jedem vorgegebenen Prozentsatz P der Perzentilwert bestimmt werden. Man teilt die Prozentzahl durch 100 und betrachtet den sich ergebenden Wert als Fläche unter der Standardnormalverteilungskurve, zu welcher nach der z-tabelle der zugehörige z-wert ermittelt wird. Der zugehörige Perzentilwert berechnet sich dann nach der Formel Perzentilwert = M (1 + L S z) 1 L Dies alles klingt etwas wie Zauberei, wir wollen uns aber anhand des gegebenen Beispiels von der Sinnhaftigkeit der Methode überzeugen. Die Berechnung der Mittelwerte und Standardabweichungen der Originalwerte, der logarithmierten und der reziproken Werte ist natürlich insbesondere bei großen Fallzahlen nur mit einem Computerprogramm zu leisten. Haben Sie das Programm SPSS zur Verfügung, so erledigt das nach dem Laden der Datei bmi.sav der Syntax-Dreizeiler

44 Kapitel 3: Deskriptive Statistik compute xl=ln(x). compute xr=1/x. descriptives x,xl,xr. Damit ergibt sich M a = 24,88 xl = 3,2037 xr = 0,04106 s = 3,607 S g = 0,1464 S r = 0,00619 Die weiteren Rechenschritte ergeben M g = exp(3,2037) = 24,62 S a = 3,607 24,62 = 0,1465 1 M h = 0,04106 = 24,35 S h = 0,00619 24,62 = 0,1524 ( ) 0,1465 A = ln = 0,0395 0,1524 ( ) 0,1465 0,1524 B = ln 0,1464 2 = 0,0395 L = 0,0395 2 0,0395 = 0,5 ( ) 0,0395 0,5 S = 0,1464 exp = 0,1457 4 M = 24,62 + (24,88 24,35) 0,5 0.52 + (24,88 2 24,62 + 24,35) 2 2 = 24,62 + 0,132 0,001 = 24,75 Beispielhaft soll der Perzentilwert P 60 berechnet werden. Nach der z-tabelle gehört zur Fläche 0 6 unter der Standardnormalverteilungskurve der Wert z = 0 25. Damit wird P 60 = 24,75 (1 + 0,5 0,1457 0,25) 1 0,5 = 25,7 Nach der Abzählmethode hatte sich P 60 = 25,5 ergeben. Die Ergebnisse der LMS- Methode nach Cole sind denen der Abzählmethode in Tabelle 3.10 gegenübergestellt. Aufgrund der hohen Fallzahl stimmen die beiden Methoden in ihren Ergebnissen sehr gut überein. Die LMS-Methode nach Cole ist insbesondere bei kleineren Fallzahlen von Vorteil, wenn die Auszählmethode stärker von zufälligen Schwankungen abhängig ist.

3.3 Dispersionsparameter 45 Perzentil Perzentilwert Perzentilwert nach Abzählmethode nach Cole P 10 20 6 20 3 P 20 21 9 21 8 P 30 23 0 22 9 P 40 23 9 23 8 P 50 24 8 24 8 P 60 25 5 25 7 P 70 26 5 26 7 P 80 27 7 27 9 P 90 29 4 29 6 P 95 31 1 31 0 P 99 34 7 32 7 Tabelle 3.10: Perzentilwerte nach der Abzählmethode und nach Cole