Statistik eindimensionaler Größen Michael Spielmann Inhaltsverzeichnis 1 Aufgabe der eindimensionalen Statistik 2 2 Grundbegriffe 2 3 Aufbereiten der Stichprobe 3 4 Die Kennzahlen Mittelwert und Streuung, erste Beschreibungen 4 4.1 Mittelwert............................... 4 4.2 Streuung................................ 4 5 Die Kennzahlen Mittelwert und Streuung, praktisches Rechnen 4 5.1 Schreibweise, Abkürzungen..................... 4 5.2 arithmetisches Mittel......................... 5 5.3 Varianz................................ 5 6 Sätze und Formeln 6 7 Beispiele 7 8 Streuungsintervalle 9 1
1 Aufgabe der eindimensionalen Statistik In vielen Bereichen der Wissenschaft und Technik will man mit Hilfe der beschreibenden (deskriptiven) Statistik Aussagen über eine Grundgesamtheit machen, die zu groß ist, um sie ganz zu erfassen. Man untersucht stattdessen eine Stichprobe. Sie wird geordnet, klassiert, graphisch veranschaulicht, zahlenmäßig ausgewertet. Dazu berechnet man Häufigkeiten, Mittelwerte, Streuungen. Die absolute Häufigkeit eines Ereignisses gibt an, wie oft das Ereignis tatsächlich eingetreten ist. Die relative Häufigkeit benötigt man als Vergleichszahl bei Serien oder Zufallsexperimenten unterschiedlichen Umfangs. Unter 100 Versuchen trat 55-mal G ein, dann ist die absolute Häufigkeit 55 und die relative Häufigkeit ist 55 100 = 55% = 0, 55. Die Tabelle, die die Stichprobenwerte und die zugeordneten (relativen) Häufigkeiten enthält, nennt man Häufigkeitsverteilung. Der Mittelwert als einzelner Zahlenwert soll die Stichprobe repräsentieren. Die Information der gesamten Stichprobe wird dadurch reduziert zugunsten einer kompakten Darstellung. Streuungen, also Abweichungen vom Mittelwert oder Spannweiten, bestimmt man, wenn man Stichproben gleichen Mittelwertes vergleichen will oder über die Struktur der Stichprobe mehr aussagen will als der Mittelwert alleine zulässt. Mit dem Rückschluss auf die Grundgesamtheit beschäftigt sich die Beurteilende Statistik. Sie benötigt zur theoretischen Begründung die Wahrscheinlichkeitsrechnung. Mit Hilfe der induktiven Statistik schließt man von der Stichprobe zurück auf die Grundgesamtheit. Dies erfordert Kenntnisse aus der Wahrscheinlichkeitsrechnung und soll hier auch nicht weiter untersucht werden. 1. Erheben der Stichprobe 2. Verarbeiten der Stichprobe Stichprobe Grundgesamtheit 3. Rückschluss auf Grundgesamtheit Abbildung 1: von der Grundgesamtheit zur Stichprobe 2 Grundbegriffe Stichprobe Urliste Sammlung von Daten ungeordnete Auflistung der Daten 2
Häufigkeitstabelle Merkmalwert Stichprobenumfang tabellarische Zusammenstellung der Daten sortiert und mit Häufigkeiten versehen ein Wert der Urliste Anzahl der Merkmalwerte 3 Aufbereiten der Stichprobe Gewöhnlich ist eine Stichprobe in Form einer ungeordneten Liste, der sogenannten Urliste, gegeben. Die Anzahl der Elemente ist der Umfang der Stichprobe. Enthält die Urliste wenige Elemente, sortiert man sie. Enthält sie viele Elemente, fasst man sie mittels einer Strichliste in Klassen zusammen. Die Strichliste ist schon eine Häufigkeitstabelle. Beispiel Klassenarbeit: Urliste Strichliste 2 3 1 4 3 3 4 5 2 3 2 5 4 6 4 4 3 4 2 1 3 4 3 3 2 1 2 3 4 5 6 ll lllll llllllll lllllll ll l Die Häufigkeitstabelle wird oft auch vertikal angeordnet. x i n i 1 2 2 5 3 8 4 7 5 2 6 1 Gleiche Werte werden also mit der entsprechenden Häufigkeit gerechnet. Man kann Häufigkeitstabellen in einem Histogramm darstellen. Dazu werden die Merkmalwerte klassiert, man teilt sie in eine gewisse Anzahl von Klassen ein, damit das Histogramm nicht zu sehr ausfasert. Das ist hier wegen der geringen Zahl der Notenstufen nicht geschehen. Anzahl 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 Noten Abbildung 2: Notenverteilung 3
4 Die Kennzahlen Mittelwert und Streuung, erste Beschreibungen 4.1 Mittelwert Wenn man zur Darstellung im Histogramm die Stichprobe klassiert, verschenkt man Informationen zugunsten eines Gewinnes an Übersicht. Der Mittelwert soll die Stichprobe repräsentieren.,,mittelwerte kann man auf sehr unterschiedliche Weise bestimmen. Das arithmetische Mittel findet man durch Addieren aller Werte und anschließendes Dividieren durch den Stichprobenumfang. In der Nähe des arithmetischen Mittels wird das Maximum des Histogramms liegen. Der Median ist der Wert, unter dem 50% aller Werte liegen. Er kann bestimmt werden, wenn man die Stichprobe sortiert hat. Der Modalwert ist der Merkmalwert mit der größten Häufigkeit. Er ist in der Häufigkeitstabelle sofort abzulesen. 4.2 Streuung Ein Mittelwert sagt allein nicht genug über die Stichprobe aus. Zwei Stichproben können bei gleichem Mittelwert sehr unterschiedlich verteilt sein. Wir benötigen daher ein Streuungsmaß. Ein grobes Maß zur Einschätzung der Streuung in der Stichprobe ist die Spannweite, die Differenz aus größtem und kleinstem Wert. Passend zum Median nutzt man die sogenannten Quartile, die angeben, bis zu welchem Wert 25% bzw. 75% der Werte vorkommen. Streuung misst man mittels Abweichungen, also Differenzen. Die Summe der Abweichungen vom arithmetischen Mittel ergibt immer den Wert Null. Will man mit Differenzen die Streuung messen, dann müssen die negativen Vorzeichen verschwinden. Das kann man durch den absoluten Betrag erreichen. Die Summe der linearen betragsmäßigen Abweichungen ist minimal, wenn man sie auf den Median bezieht. Auch durch Quadrieren gehen die Vorzeichen verloren. Wir benutzen die Summe der quadrierten Abweichungen als Streuungsmaß. Die mittlere Summe der quadrierten Abweichungen passt zum arithmetischen Mittel. Sie ist minimal, wenn man sie auf das arithmetische Mittel bezieht. 5 Die Kennzahlen Mittelwert und Streuung, praktisches Rechnen 5.1 Schreibweise, Abkürzungen x i Merkmalwerte i laufender Index n Stichprobenumfang n i absolute Häufigkeit, Besetzungszahl h i relative Häufigkeit, h i = n i /n 4
x arithmetisches Mittel, gelesen,,x quer s 2 x mittlere quadratische Abweichung, Varianz, gelesen,,s quadrat x s x Standardabweichung, Wurzel aus der Varianz Summe der quadrierten Abweichungen, nicht gemittelt S xx 5.2 arithmetisches Mittel Definition 5.1 Den Term nennen wir arithmetisches Mittel. x n (x 1 + x 2 + + x n ) n In klassierter Darstellung mit k Klassen x n (x 1 n 1 + x 2 n 2 + + x k n k ) n x i x i n i Oft rechnet man mit relativen Häufigkeiten, statt die absoluten Häufigkeiten zu benutzen; man kann dann Stichproben unterschiedlichen Umfangs besser vergleichen. Wir ziehen also den Stichprobenumfang in die Summe hinein. 5.3 Varianz x n x i n i = x i ni n = x i h i Definition 5.2 Den Term s 2 x ( (x1 x) 2 + (x 2 x) 2 + + (x n x) 2) (x i x) 2 nennen wir Varianz. In klassierter Darstellung mit k Klassen s 2 x ( (x1 x) 2 n 1 + (x 2 x) 2 n 2 + + (x k x) 2 ) n k (x i x) 2 n i Manchmal findet man auch den Faktor 1 n zur Bildung der Varianz. Wenn wir theoretische Verteilungen untersucht haben, können wir begründen, dass im 1 allgemeinen der Faktor n 1 bessere Werte (im Sinne der Theorie) liefert. Sollten die Merkmalwerte anders bezeichnet sein, z.b. mit y i, passen wir die Schreibweise der Varianz an. s 2 y (y i y) 2 5
Im ersten Moment fehlt uns jedes Verständnis für den Sinn der Varianz. Und sie hat dazu noch den Nachteil, die Dimension der Werte zu verändern. Was bedeutet bei einer Widerstandsmessung in Ω eine Varianz von 3Ω 2? Um in die Dimension der Stichprobe zurückzukommen, radizieren wir, berechnen also die sogenannte Standardabweichung s x. Diese allerdings lässt schon brauchbare Aussagen zu: im Intervall x ± s x liegen bei einer,,normalen Verteilung 67% aller Werte. Man kann also mit s x die Normalität einer Verteilung kontrollieren. Das weisen wir später nach. 6 Sätze und Formeln Satz 6.1 Die Summe der linearen Abweichungen bezogen auf das arithmetische Mittel ist Null. Beweis 6.1 (x i x) = x i x = n x n x = 0 Satz 6.2 Eine lineare Transformation transformiert den Mittelwert genau so wie die Merkmalwerte. z i = ax i + b z = ax + b Beweis 6.2 z n n z i n (ax i + b) ax i + 1 n b = a 1 x i + 1 n n n b = ax + b Zur Berechnung der Varianz wird der Mittelwert von jedem Merkmalwert subtrahiert; er ist meistens kein glatter Wert. Die Differenz wird quadriert, was die Anzahl der Nachkommastellen verdoppelt. Dies führt zu unhandlichen Zwischenergebnissen und bei zu frühzeitigem Runden zu Fehlern. Wir nutzen eine andere Formel zur praktischen Berechnung der Varianz. Satz 6.3 s 2 x ( (x i x) 2 n ) x 2 i nx 2 6
Beweis 6.3 s 2 x (x i x) 2 (x 2 i 2x i x + x 2 ) ( n ) x 2 i 2x i x + x 2 ( n ) x 2 i 2nx 2 + nx 2 ( n ) x 2 i nx 2 Was passiert mit der Varianz unter linearer Transformation? Satz 6.4 Auf die Varianz wirkt sich nur der Faktor der linearen Transformation aus. z i = ax i + b s 2 z = a 2 s 2 x Beweis 6.4 s 2 z (z i z) (ax i + b (ax + b)) 2 (ax i ax) 2 a2 (x i x) 2 = a 2 s 2 x Das ist ein naheliegendes Ergebnis, da eine additive Konstante die Verteilung nur in der Horizontalen verschiebt ohne die Form zu beeinflussen, eine multiplikative Konstante aber zu einer Streckung führt. 7 Beispiele Eine Tabelle zur Mittelwertberechnung könnte folgendermaßen aufgebaut sein. i x i n i x i n i 1 17,5 7 122,5 2 19,0 16 304,0 3 20,5 30 615,0 4 22,0 26 572,0 5 23,5 11 258,5 Summen n = 90 1872 7
x 872 90 = 20, 8 Die x i verlangen aber geradezu nach einer Transformation. z i = (x i 20, 5) : 1, 5 i x i n i z i z i n i 1 17,5 7-2 -14 2 19,0 16-1 -16 3 20,5 30 0 0 4 22,0 26 1 26 5 23,5 11 2 22 Summen n = 90 18 z 8 90 = 0, 2 x i = z i 1, 5 + 20, 5 x = 0, 2 1, 5 + 20, 5 = 20, 8 Mit dieser Tabelle wollen wir die folgende vergleichen; sie hat denselben Mittelwert. i x i n i z i z i n i 1 17,5 1-2 -2 2 19,0 12-1 -12 3 20,5 47 0 0 4 22,0 28 1 28 5 23,5 2 2 4 Summen n = 90 18 Wir sehen, dass sich die Werte wesentlich enger um den Mittelwert scharen. Wir benötigen daher zur angemessenen Beschreibung der Stichprobe ein Abweichungsmaß. Die Tabelle wird um zwei Spalten erweitert, sodass die Varianz und daraus die Standardabweichung ermittelt werden kann. Zur Abschreckung rechnen wir zunächst ohne Transformation. i x i n i x i n i (x i x) 2 (x i x) 2 n i 1 17,5 7 122,5 10,89 76,23 2 19,0 16 304,0 3,24 51,84 3 20,5 30 615,0 0,09 2,70 4 22,0 26 572,0 1,44 37,44 5 23,5 11 258,5 7,29 80,19 Summen 90 1872 248,4 s 2 x 248, 4 = 2, 7910 89 s x, 6706 Natürlich ist es besser, wenn wir transformieren und auch noch die praktischere Varianzformel benutzen. 8
i x i n i z i z i n i zi 2 zi 2n i 1 17,5 7-2 -14 4 28 2 19,0 16-1 -16 1 16 3 20,5 30 0 0 0 0 4 22,0 26 1 26 1 26 5 23,5 11 2 22 4 44 Summen 90 114 s 2 z 89 (114 90 0, 22 ) 110, 4, 2404 89 s 2 x, 5 2 1, 2404 = 2, 7910 s x, 6706 Wir berechnen Varianz und Standardabweichung der zweiten Tabelle. Sie müssten kleiner sein. i x i n i z i z i n i zi 2 zi 2n i 1 17,5 1-2 -14 4 4 2 19,0 12-1 -16 1 12 3 20,5 47 0 0 0 0 4 22,0 28 1 26 1 28 5 23,5 2 2 22 4 8 Summen 90 52 s 2 z 89 (52 90 0, 22 ) 48, 8 = 0, 5438 89 8 Streuungsintervalle s 2 x, 5 2 0, 5438, 2236 s x, 1062 Oben fragten wir uns, welchen Sinn die Standardabweichung hat. Wenn wir sie als Maß für die Stichprobe nutzen in dem Sinne, dass man die Skala der Werte ausgehend vom Mittelwert mit Schritten der Standardabweichung neu einteilt, dann erhält man im allgemeinen für das Intervall x±s einen Anteil von 67%, im Intervall x ± 2s einen Anteil von 95%, im Intervall x ± 3s einen Anteil von 99%. Dies gilt für,,normal verteilte Stichproben, also solche, deren Histogramm etwa glockenförmig ist. 9