Statistik eindimensionaler Größen

Ähnliche Dokumente
Deskriptive Statistik

Statistik K urs SS 2004

Lage- und Streuungsparameter

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Maße der zentralen Tendenz

3.5 Beschreibende Statistik. Inhaltsverzeichnis

Einführung in Quantitative Methoden

Grundlagen der. h Rückblick. Dr. K. Krüger. Grundwissen Mathematik

Einführung in Quantitative Methoden

1.5 Erwartungswert und Varianz

Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist.

Der Modus ist. Der Median ist. 3. Übung. Aufgabe 1. a) der häufigste Wert. b) der Wert unter dem 50 % aller anderen Werte liegen.

benötigen. Die Zeit wird dabei in Minuten angegeben und in einem Boxplot-Diagramm veranschaulicht.

Weitere Lagemaße: Quantile/Perzentile I

Stochastik Deskriptive Statistik

Übungsblatt 3 zur Vorlesung Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker

3) Lagemaße: Mittelwert, Median, Modus

Lösungen. w58r4p Lösungen. w58r4p. Name: Klasse: Datum:

Statistik und Wahrscheinlichkeitsrechnung

Inhaltsverzeichnis DESKRIPTIVE STATISTIK. 1 Grundlagen Grundbegriffe Skalen... 15

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

Einführung in die computergestützte Datenanalyse

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43

Statistik. Einführung in die com putergestützte Daten an alyse. Oldenbourg Verlag München B , überarbeitete Auflage

1 GRUNDLAGEN Grundbegriffe Skalen...15

Statistik für NichtStatistiker

Lage- und Streuungsmaße

Deskriptive Statistik

1.5 Erwartungswert und Varianz

Beispiel 4 (Einige weitere Aufgaben)

Deskriptive Statistik Erläuterungen

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober

Diese Lücken sollten nicht auch bei Ihnen vorhanden sein: Aufgrund einer statistischen Untersuchung entsteht eine geordnete bzw. ungeordnete, die durc

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Wahrscheinlichkeitsverteilungen

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung?

Bitte am PC mit Windows anmelden!

Brückenkurs Statistik für Wirtschaftswissenschaften

W-Seminar: Versuche mit und am Menschen 2017/2019 Skript

Teil / Ein paar statistische Grundlagen 25. Kapitel 1 Was Statistik ist und Warum sie benötigt Wird 2 7

4 Statistische Maßzahlen

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

3. Lektion: Deskriptive Statistik

Das arithmetische Mittel. x i = = 8. x = 1 4. und. y i = = 8

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Über dieses Buch Die Anfänge Wichtige Begriffe... 21

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

1 EINLEITUNG Allgemeines Kapitelübersicht Gebrauch dieses Buches Verwenden zusätzlicher Literatur...

Statistik und Wahrscheinlichkeitsrechnung

SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1

Lösungsskizzen zur Präsenzübung 02

Deskriptive Statistik Aufgaben und Lösungen

Wiederholung. Statistik I. Sommersemester 2009

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

Günther Bourier. Beschreibende Statistik. Praxisorientierte Einführung - Mit. Aufgaben und Lösungen. 12., überarbeitete und aktualisierte Auflage

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II,

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität

3. Deskriptive Statistik

Aufgabe 3 Bei 16 PKWs desselben Typs wurde der Benzinverbrauch pro 100 km gemessen. Dabei ergab sich die folgende Urliste (in Liter pro 100km):

Deskriptive Statistik Auswertung durch Informationsreduktion

Statistik. Ronald Balestra CH St. Peter

Fachrechnen für Tierpfleger

JosefPuhani. Kleine Formelsammlung zur Statistik. 10. Auflage. averiag i

Angewandte Statistik 1

Bio- Statistik 1. mit 87 Abbildungen, 40 Tabellen und 102 Beispielen

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Lagemasse und Streuung

5.4 Verteilungsfunktion Verteilungsfunktion diskreten Zufallsvariablen stetigen Zufallsvariablen Verteilungsfunktion

Beschreibende Statistik

BOXPLOT 1. Begründung. Boxplot A B C

Erwartungswert, Varianz und Standardabweichung einer Zufallsgröße. Was ist eine Zufallsgröße und was genau deren Verteilung?

Kapitel 2. Mittelwerte

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Lösungsvorschläge zur Klausur Beschreibende Statistik und Wirtschaftsstatistik (Sommersemester 2013)

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Rtattiematische Zenchem) und Abkürzungen 11

Tabellarische und graphie Darstellung von univariaten Daten

4 Statistische Maßzahlen

Eine zweidimensionale Stichprobe

Deskriptive Statistik

Ü B U N G S S K R I P T S T A T I S T I K

Fragebogen zur Standortbestimmung von Zürcher Volksschulen: Ermittlung und Darstellung von Ergebnissen der einzelnen Schulen

Mathematik: LehrerInnenteam Arbeitsblatt Semester ARBEITSBLATT 12. Erwartungswert, Varianz und Standardabweichung

Mathematische Statistik. Zur Notation

Kennwerte zur Charakterisierung von Datenreihen. Mittelwerte

Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik

Transkript:

Statistik eindimensionaler Größen Michael Spielmann Inhaltsverzeichnis 1 Aufgabe der eindimensionalen Statistik 2 2 Grundbegriffe 2 3 Aufbereiten der Stichprobe 3 4 Die Kennzahlen Mittelwert und Streuung, erste Beschreibungen 4 4.1 Mittelwert............................... 4 4.2 Streuung................................ 4 5 Die Kennzahlen Mittelwert und Streuung, praktisches Rechnen 4 5.1 Schreibweise, Abkürzungen..................... 4 5.2 arithmetisches Mittel......................... 5 5.3 Varianz................................ 5 6 Sätze und Formeln 6 7 Beispiele 7 8 Streuungsintervalle 9 1

1 Aufgabe der eindimensionalen Statistik In vielen Bereichen der Wissenschaft und Technik will man mit Hilfe der beschreibenden (deskriptiven) Statistik Aussagen über eine Grundgesamtheit machen, die zu groß ist, um sie ganz zu erfassen. Man untersucht stattdessen eine Stichprobe. Sie wird geordnet, klassiert, graphisch veranschaulicht, zahlenmäßig ausgewertet. Dazu berechnet man Häufigkeiten, Mittelwerte, Streuungen. Die absolute Häufigkeit eines Ereignisses gibt an, wie oft das Ereignis tatsächlich eingetreten ist. Die relative Häufigkeit benötigt man als Vergleichszahl bei Serien oder Zufallsexperimenten unterschiedlichen Umfangs. Unter 100 Versuchen trat 55-mal G ein, dann ist die absolute Häufigkeit 55 und die relative Häufigkeit ist 55 100 = 55% = 0, 55. Die Tabelle, die die Stichprobenwerte und die zugeordneten (relativen) Häufigkeiten enthält, nennt man Häufigkeitsverteilung. Der Mittelwert als einzelner Zahlenwert soll die Stichprobe repräsentieren. Die Information der gesamten Stichprobe wird dadurch reduziert zugunsten einer kompakten Darstellung. Streuungen, also Abweichungen vom Mittelwert oder Spannweiten, bestimmt man, wenn man Stichproben gleichen Mittelwertes vergleichen will oder über die Struktur der Stichprobe mehr aussagen will als der Mittelwert alleine zulässt. Mit dem Rückschluss auf die Grundgesamtheit beschäftigt sich die Beurteilende Statistik. Sie benötigt zur theoretischen Begründung die Wahrscheinlichkeitsrechnung. Mit Hilfe der induktiven Statistik schließt man von der Stichprobe zurück auf die Grundgesamtheit. Dies erfordert Kenntnisse aus der Wahrscheinlichkeitsrechnung und soll hier auch nicht weiter untersucht werden. 1. Erheben der Stichprobe 2. Verarbeiten der Stichprobe Stichprobe Grundgesamtheit 3. Rückschluss auf Grundgesamtheit Abbildung 1: von der Grundgesamtheit zur Stichprobe 2 Grundbegriffe Stichprobe Urliste Sammlung von Daten ungeordnete Auflistung der Daten 2

Häufigkeitstabelle Merkmalwert Stichprobenumfang tabellarische Zusammenstellung der Daten sortiert und mit Häufigkeiten versehen ein Wert der Urliste Anzahl der Merkmalwerte 3 Aufbereiten der Stichprobe Gewöhnlich ist eine Stichprobe in Form einer ungeordneten Liste, der sogenannten Urliste, gegeben. Die Anzahl der Elemente ist der Umfang der Stichprobe. Enthält die Urliste wenige Elemente, sortiert man sie. Enthält sie viele Elemente, fasst man sie mittels einer Strichliste in Klassen zusammen. Die Strichliste ist schon eine Häufigkeitstabelle. Beispiel Klassenarbeit: Urliste Strichliste 2 3 1 4 3 3 4 5 2 3 2 5 4 6 4 4 3 4 2 1 3 4 3 3 2 1 2 3 4 5 6 ll lllll llllllll lllllll ll l Die Häufigkeitstabelle wird oft auch vertikal angeordnet. x i n i 1 2 2 5 3 8 4 7 5 2 6 1 Gleiche Werte werden also mit der entsprechenden Häufigkeit gerechnet. Man kann Häufigkeitstabellen in einem Histogramm darstellen. Dazu werden die Merkmalwerte klassiert, man teilt sie in eine gewisse Anzahl von Klassen ein, damit das Histogramm nicht zu sehr ausfasert. Das ist hier wegen der geringen Zahl der Notenstufen nicht geschehen. Anzahl 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 Noten Abbildung 2: Notenverteilung 3

4 Die Kennzahlen Mittelwert und Streuung, erste Beschreibungen 4.1 Mittelwert Wenn man zur Darstellung im Histogramm die Stichprobe klassiert, verschenkt man Informationen zugunsten eines Gewinnes an Übersicht. Der Mittelwert soll die Stichprobe repräsentieren.,,mittelwerte kann man auf sehr unterschiedliche Weise bestimmen. Das arithmetische Mittel findet man durch Addieren aller Werte und anschließendes Dividieren durch den Stichprobenumfang. In der Nähe des arithmetischen Mittels wird das Maximum des Histogramms liegen. Der Median ist der Wert, unter dem 50% aller Werte liegen. Er kann bestimmt werden, wenn man die Stichprobe sortiert hat. Der Modalwert ist der Merkmalwert mit der größten Häufigkeit. Er ist in der Häufigkeitstabelle sofort abzulesen. 4.2 Streuung Ein Mittelwert sagt allein nicht genug über die Stichprobe aus. Zwei Stichproben können bei gleichem Mittelwert sehr unterschiedlich verteilt sein. Wir benötigen daher ein Streuungsmaß. Ein grobes Maß zur Einschätzung der Streuung in der Stichprobe ist die Spannweite, die Differenz aus größtem und kleinstem Wert. Passend zum Median nutzt man die sogenannten Quartile, die angeben, bis zu welchem Wert 25% bzw. 75% der Werte vorkommen. Streuung misst man mittels Abweichungen, also Differenzen. Die Summe der Abweichungen vom arithmetischen Mittel ergibt immer den Wert Null. Will man mit Differenzen die Streuung messen, dann müssen die negativen Vorzeichen verschwinden. Das kann man durch den absoluten Betrag erreichen. Die Summe der linearen betragsmäßigen Abweichungen ist minimal, wenn man sie auf den Median bezieht. Auch durch Quadrieren gehen die Vorzeichen verloren. Wir benutzen die Summe der quadrierten Abweichungen als Streuungsmaß. Die mittlere Summe der quadrierten Abweichungen passt zum arithmetischen Mittel. Sie ist minimal, wenn man sie auf das arithmetische Mittel bezieht. 5 Die Kennzahlen Mittelwert und Streuung, praktisches Rechnen 5.1 Schreibweise, Abkürzungen x i Merkmalwerte i laufender Index n Stichprobenumfang n i absolute Häufigkeit, Besetzungszahl h i relative Häufigkeit, h i = n i /n 4

x arithmetisches Mittel, gelesen,,x quer s 2 x mittlere quadratische Abweichung, Varianz, gelesen,,s quadrat x s x Standardabweichung, Wurzel aus der Varianz Summe der quadrierten Abweichungen, nicht gemittelt S xx 5.2 arithmetisches Mittel Definition 5.1 Den Term nennen wir arithmetisches Mittel. x n (x 1 + x 2 + + x n ) n In klassierter Darstellung mit k Klassen x n (x 1 n 1 + x 2 n 2 + + x k n k ) n x i x i n i Oft rechnet man mit relativen Häufigkeiten, statt die absoluten Häufigkeiten zu benutzen; man kann dann Stichproben unterschiedlichen Umfangs besser vergleichen. Wir ziehen also den Stichprobenumfang in die Summe hinein. 5.3 Varianz x n x i n i = x i ni n = x i h i Definition 5.2 Den Term s 2 x ( (x1 x) 2 + (x 2 x) 2 + + (x n x) 2) (x i x) 2 nennen wir Varianz. In klassierter Darstellung mit k Klassen s 2 x ( (x1 x) 2 n 1 + (x 2 x) 2 n 2 + + (x k x) 2 ) n k (x i x) 2 n i Manchmal findet man auch den Faktor 1 n zur Bildung der Varianz. Wenn wir theoretische Verteilungen untersucht haben, können wir begründen, dass im 1 allgemeinen der Faktor n 1 bessere Werte (im Sinne der Theorie) liefert. Sollten die Merkmalwerte anders bezeichnet sein, z.b. mit y i, passen wir die Schreibweise der Varianz an. s 2 y (y i y) 2 5

Im ersten Moment fehlt uns jedes Verständnis für den Sinn der Varianz. Und sie hat dazu noch den Nachteil, die Dimension der Werte zu verändern. Was bedeutet bei einer Widerstandsmessung in Ω eine Varianz von 3Ω 2? Um in die Dimension der Stichprobe zurückzukommen, radizieren wir, berechnen also die sogenannte Standardabweichung s x. Diese allerdings lässt schon brauchbare Aussagen zu: im Intervall x ± s x liegen bei einer,,normalen Verteilung 67% aller Werte. Man kann also mit s x die Normalität einer Verteilung kontrollieren. Das weisen wir später nach. 6 Sätze und Formeln Satz 6.1 Die Summe der linearen Abweichungen bezogen auf das arithmetische Mittel ist Null. Beweis 6.1 (x i x) = x i x = n x n x = 0 Satz 6.2 Eine lineare Transformation transformiert den Mittelwert genau so wie die Merkmalwerte. z i = ax i + b z = ax + b Beweis 6.2 z n n z i n (ax i + b) ax i + 1 n b = a 1 x i + 1 n n n b = ax + b Zur Berechnung der Varianz wird der Mittelwert von jedem Merkmalwert subtrahiert; er ist meistens kein glatter Wert. Die Differenz wird quadriert, was die Anzahl der Nachkommastellen verdoppelt. Dies führt zu unhandlichen Zwischenergebnissen und bei zu frühzeitigem Runden zu Fehlern. Wir nutzen eine andere Formel zur praktischen Berechnung der Varianz. Satz 6.3 s 2 x ( (x i x) 2 n ) x 2 i nx 2 6

Beweis 6.3 s 2 x (x i x) 2 (x 2 i 2x i x + x 2 ) ( n ) x 2 i 2x i x + x 2 ( n ) x 2 i 2nx 2 + nx 2 ( n ) x 2 i nx 2 Was passiert mit der Varianz unter linearer Transformation? Satz 6.4 Auf die Varianz wirkt sich nur der Faktor der linearen Transformation aus. z i = ax i + b s 2 z = a 2 s 2 x Beweis 6.4 s 2 z (z i z) (ax i + b (ax + b)) 2 (ax i ax) 2 a2 (x i x) 2 = a 2 s 2 x Das ist ein naheliegendes Ergebnis, da eine additive Konstante die Verteilung nur in der Horizontalen verschiebt ohne die Form zu beeinflussen, eine multiplikative Konstante aber zu einer Streckung führt. 7 Beispiele Eine Tabelle zur Mittelwertberechnung könnte folgendermaßen aufgebaut sein. i x i n i x i n i 1 17,5 7 122,5 2 19,0 16 304,0 3 20,5 30 615,0 4 22,0 26 572,0 5 23,5 11 258,5 Summen n = 90 1872 7

x 872 90 = 20, 8 Die x i verlangen aber geradezu nach einer Transformation. z i = (x i 20, 5) : 1, 5 i x i n i z i z i n i 1 17,5 7-2 -14 2 19,0 16-1 -16 3 20,5 30 0 0 4 22,0 26 1 26 5 23,5 11 2 22 Summen n = 90 18 z 8 90 = 0, 2 x i = z i 1, 5 + 20, 5 x = 0, 2 1, 5 + 20, 5 = 20, 8 Mit dieser Tabelle wollen wir die folgende vergleichen; sie hat denselben Mittelwert. i x i n i z i z i n i 1 17,5 1-2 -2 2 19,0 12-1 -12 3 20,5 47 0 0 4 22,0 28 1 28 5 23,5 2 2 4 Summen n = 90 18 Wir sehen, dass sich die Werte wesentlich enger um den Mittelwert scharen. Wir benötigen daher zur angemessenen Beschreibung der Stichprobe ein Abweichungsmaß. Die Tabelle wird um zwei Spalten erweitert, sodass die Varianz und daraus die Standardabweichung ermittelt werden kann. Zur Abschreckung rechnen wir zunächst ohne Transformation. i x i n i x i n i (x i x) 2 (x i x) 2 n i 1 17,5 7 122,5 10,89 76,23 2 19,0 16 304,0 3,24 51,84 3 20,5 30 615,0 0,09 2,70 4 22,0 26 572,0 1,44 37,44 5 23,5 11 258,5 7,29 80,19 Summen 90 1872 248,4 s 2 x 248, 4 = 2, 7910 89 s x, 6706 Natürlich ist es besser, wenn wir transformieren und auch noch die praktischere Varianzformel benutzen. 8

i x i n i z i z i n i zi 2 zi 2n i 1 17,5 7-2 -14 4 28 2 19,0 16-1 -16 1 16 3 20,5 30 0 0 0 0 4 22,0 26 1 26 1 26 5 23,5 11 2 22 4 44 Summen 90 114 s 2 z 89 (114 90 0, 22 ) 110, 4, 2404 89 s 2 x, 5 2 1, 2404 = 2, 7910 s x, 6706 Wir berechnen Varianz und Standardabweichung der zweiten Tabelle. Sie müssten kleiner sein. i x i n i z i z i n i zi 2 zi 2n i 1 17,5 1-2 -14 4 4 2 19,0 12-1 -16 1 12 3 20,5 47 0 0 0 0 4 22,0 28 1 26 1 28 5 23,5 2 2 22 4 8 Summen 90 52 s 2 z 89 (52 90 0, 22 ) 48, 8 = 0, 5438 89 8 Streuungsintervalle s 2 x, 5 2 0, 5438, 2236 s x, 1062 Oben fragten wir uns, welchen Sinn die Standardabweichung hat. Wenn wir sie als Maß für die Stichprobe nutzen in dem Sinne, dass man die Skala der Werte ausgehend vom Mittelwert mit Schritten der Standardabweichung neu einteilt, dann erhält man im allgemeinen für das Intervall x±s einen Anteil von 67%, im Intervall x ± 2s einen Anteil von 95%, im Intervall x ± 3s einen Anteil von 99%. Dies gilt für,,normal verteilte Stichproben, also solche, deren Histogramm etwa glockenförmig ist. 9