Mathematische Statistik dient dazu, anhand von Stichproben Informationen zu gewinnen. Während die Wahrscheinlichkeitsrechnung Prognosen über das Eintreten zufälliger (zukünftiger) Ereignisse macht, werden in der Statistik beobachtete Daten betrachtet. Diese erhält man z. B. als Realisierungen von Zufallsvariablen (z. B. beobachtete Augenzahlen bei 10 mal Würfeln) oder durch Ziehen einer Stichprobe aus einer Grundgesamtheit (z. B. Meinungsumfrage). Zur Notation Während Zufallsvariablen meist mit Groÿbuchstaben (typischerweise X, Y, Z ) benannt werden, werden für ihre Realisierungen Kleinbuchstaben benutzt. statistik.pdf, Seite 1
Teilgebiete der Statistik Es wird unterschieden zwischen Beschreibende (deskriptive) Statistik: übersichtliche Darstellung, Ermittlung von Kenngröÿen wie Mittelwert, Varianz Explorative Statistik: Suche nach Strukturen und Zusammenhängen mit Hilfe von Stichproben Induktive (schlieÿende) Statistik: Ziehen von allgemeineren Schlussfolgerungen aus einer Stichprobe mit Mitteln der Wahrscheinlichkeitsrechnung statistik.pdf, Seite 2
Eine Stichprobe besteht aus Realisierungen von Zufallsvariablen bzw. wird aus einer Grundgesamtheit (die mathematisch eine Menge darstellt, von der die Stichprobe eine Teilmenge ist) gezogen. Dabei werden bestimmte Merkmale (oder Variablen) erfasst. Der Umfang der Stichprobe ist die Zahl ihrer Elemente, d. h. die Zahl der in der Stichprobe erfassten Einheiten aus der Grundgesamtheit. Man spricht von einer Zufallsstichprobe, wenn sie als Teilmenge der Grundgesamtheit zufällig ausgewählt wird. Beispiel Grundgesamtheit: Alle Studierenden der h_da Stichprobe: Teilnehmer einer Umfrage Merkmale: Studienfach, Alter, Schuhgröÿe, Körpergewicht,... statistik.pdf, Seite 3
Ausprägungen sind die Werte, die ein Merkmal annehmen kann. Beispiel Das Merkmal Geschlecht hat die Ausprägungen männlich und weiblich. Das Merkmal Lebensalter hat die Ausprägungen 0, 1, 2, 3, 4,... Diskret und stetig Ein diskretes Merkmal hat nur endlich oder abzählbar viele Ausprägungen. Beispiel: Geschlecht, Alter in Jahren Ein stetiges Merkmal hat Ausprägungen, die in einem Intervall R liegen. Beispiel: Körpergewicht (bei beliebig hoher Messgenauigkeit) statistik.pdf, Seite 4
Skalenniveaus Ein Merkmal heiÿt nominalskaliert, wenn es für seine Ausprägungen keine natürliche Reihenfolge gibt. In der Regel sind die Ausprägungen keine Zahlenwerte. Beispiel: Geschlecht, Lieblingsfarbe, Partei, Lottozahlen ordinalskaliert, wenn es für die Ausprägungen eine natürliche Ordnung gibt. Beispiel: Dienstgrad, HotelSterne intervallskaliert, wenn die Ausprägungen Zahlen sind und die Dierenz zweier Ausprägungen als Abstand interpretiert werden kann. Beispiel: Zeitpunkt, Temperatur verhältnisskaliert, wenn es zusätzlich einen absoluten Nullpunkt gibt. Beispiel: Gewicht, Kontostand statistik.pdf, Seite 5
Bemerkungen Nominal- und ordinalskalierrte Merkmale werden auch als qualitative Merkmale bezeichnet, während intervall- und verhältnisskalierte Merkmale als quantitative Merkmale bezeichnet werden. Im erstenen Fall liegt eine Kardinalskala, im zweiten Fall eine metrische Skala vor. Die vorgestellten Begrie sind nicht immer klar voneinander abgegrenzt. statistik.pdf, Seite 6
Stichproben Man unterscheidet zwischen der Erhebung von univariaten Daten, wo nur ein Merkmal betrachtet wird, und multivariaten Daten, wo mehrere Merkmale gleichzeitig betrachtet werden. Bei einer univariaten Stichprobe vom Umfang n erhält man eine Urliste x 1,..., x n der beobachteten Werte. Häugkeiten Bei diskreten Merkmalen kann man zählen, wie oft eine bestimmte Ausprägung vorkommt. Die absolute Häugkeit h i einer Ausprägung a i ist die Zahl der x k aus der Urliste mit x k = a i, die relative Häugkeit ist gegeben durch f i = 1 n h i. statistik.pdf, Seite 7
Beispiel Bei einer Umfrage zur Lieblingsfarbe erhält man die Antworten x 1 = rot, x 2 = grün, x 3 = grün, x 4 = gelb, x 5 = rot, x 6 = grün, x 7 = blau, x 8 = gelb, welche die Urliste bilden. Es treten die Ausprägungen a 1 = rot, a 2 = grün, a 3 = gelb und a 4 = blau auf mit den absoluten Häugkeiten h 1 = h 3 = 2, h 2 = 3 und h 4 = 1. Die relativen Häugkeiten sind f 1 = f 3 = 2 8 = 25%, f 2 = 3 8 = 37, 5% und f 4 = 1 8 = 12, 5%. statistik.pdf, Seite 8
Bemerkungen Die Reihenfolge der Daten spielt für die Häugkeiten keine Rolle. Daher empehlt es sich, die Urliste zunächst zu ordnen, im Beispiel rot, rot, grün, grün, grün, gelb, gelb, blau Die absoluten Häugkeiten können mit Hilfe einer Strichliste ermittelt werden. Die Häugkeitsverteilung einer Stichprobe (d. h. die relativen Häugkeiten aller aufgetretenen Ausprägungen) kann in einem Stabdiagramm dargestellt werden. statistik.pdf, Seite 9
Stabdiagramm zur Lieblingsfarbe statistik.pdf, Seite 10
Klassierung Bei vielen verschiedenen Ausprägungen (die typischerweise bei stetigen Merkmalen auftreten) teilt man diese in Klassen ein. Man spricht dann von einer klassierten Stichprobe. Eine Klasse ist eine Teilmenge der Menge aller möglichen Ausprägungen (typischerweise ein Intervall). Häugkeiten von Klassen Die absolute Häugkeit h i der iten Klasse ist die Zahl der beobachteten Werte aus der Urliste, die in dieser Klasse liegen. Die relative Häugkeit f i = h i /n ist auch hier die absolute Häugkeit geteilt durch den Umfang der Stichprobe. statistik.pdf, Seite 11
Histogramme Die Häugkeitsverteilung einer klassierten Stichprobe wird oft in einem Histogramm dargestellt. Dort gehört zu jeder Klasse ein Rechteck, dessen Fläche gleich der relativen Häugkeit ist. Die Klassen werden dabei im Normalfall gleich breit gewählt. Bemerkung Eine Klassierung erhöht die Übersichtlichkeit der Darstellung, bedeutet aber einen Verlust von Information, da nicht mehr die genauen Ausprägungen, sondern nur noch die Klassenzugehörigkeiten betrachtet werden. Faustregel Die Zahl der Klassen sollte im Normalfall zwischen 5 und 20 gewählt werden und nicht deutlich gröÿer als n sein. statistik.pdf, Seite 12
Beispiel Körpergröÿe im cm (gerundet) der deutschen FuÿballNationalspieler (WMKader 2014) liefert die Urliste 193, 188, 188, 192, 183, 190, 187, 187, 191, 198, 184, 187, 189, 190, 182, 170, 182, 183, 171, 182, 186, 182, 183. Für die 6 Klassen k 1 = [170; 175), k 2 = [175; 180), k 3 = [180; 185), k 4 = [185; 190), k 5 = [190; 195) und k 6 = [195; 200) erhält man die folgenden absoluten und relativen Häugkeiten h i und f i : i 1 2 3 4 5 6 k i [170;175) [175;180) [180;185) [185;190) [190;195) [195;200) h i 2 0 8 7 5 1 f i 2/23 0 8/23 7/23 5/23 1/23 f i 8, 7 % 0 % 34, 8 % 30, 4 % 21, 8 % 4, 3 % statistik.pdf, Seite 13
Histogramm zum Beispiel Körpergröÿe Die Höhe jedes Rechtecks ist gleich 1 5 f i, so dass die Fläche der relativen Häugkeit f i der jeweiligen Klasse entspricht. Die Gesamtäche ist somit gleich 1. statistik.pdf, Seite 14
Kenngröÿen einer Stichprobe charakterisieren die wichtigsten Eigenschaften von Stichproben, deren Ausprägungen Zahlen sind. Lagekennwerte geben an, in welchem Bereich sich die typischen Werte einer Stichprobe benden. Dazu gehören das arithmetische, geometrische und das harmonische Mittel, der Median sowie die Quantile. Streuungsmaÿe geben an, wie weit diese Werte auseinanderliegen. Dazu gehören die empirische Varianz, die Standardabweichung, die Spannweite und der Interquartilsabstand. statistik.pdf, Seite 15
Das arithmetisches Mittel oder einfach der Mittelwert x einer Stichprobe vom Umfang n ist deniert als x = x arithm = 1 n (x 1 +... + x n ). Beispiel Bei einer Stichprobe (Körperlänge von n = 10 Fuÿballspielern) erhält man die (geordnete) Urliste 183, 187, 187, 188, 188, 190, 191, 192, 193, 198. Das arithmetische Mittel ist die Durchschnittsgröÿe x = 1 (183 + 187 + 187 + 188 + 188 + 190 + 191 + 192 + 193 + 198) 10 = 1 10 1897 = 189, 7. Weitere Anwendungsbeispiele für das arithmetische Mittel sind mittleres Einkommen oder eine Durchschnittsnote. statistik.pdf, Seite 16
Das geometrische Mittel x geom = n x 1... x n kommt zur Anwendung bei der Berechnung von durchschnittlichen Wachstumsraten, Kursgewinnen und ähnlichem. Es ist nur dann sinnvoll deniert, wenn x k > 0 für alle Stichprobenwerte x k. Beispiel Das geometrische Mittel der Stichprobe x 1 = 1, 2, x 2 = 0, 8, x 3 = 1, 1, x 4 = 1, 3, x 5 = 0, 7, x 6 = 1, 2 ist x geom = (1, 2 0, 8 1, 1 1, 3 0, 7 1, 2) 1/6 1, 153 1/6 1, 024 statistik.pdf, Seite 17
Das harmonische Mittel einer Stichprobe mit x k > 0 für alls k ist deniert als /[ ( n 1 1 x har = = 1 +... + 1 )], 1 x 1 +... + 1 x n n x 1 x n d. h. es wird zunächst das arithmetische Mittel der Kehrwerte berechnet und davon wiederum der Kehrwert gebildet. 1 x k Eine typische Anwendung ist die Berechnung einer Durchschnittsgeschwindigkeit. Beispiel Die Stichprobe x 1 = 50, x 2 = 150 und x 3 = 100 hat die Kehrwerte y 1 = 1 x 1 = 1, y 50 2 = 1 x 2 = 1 und y 150 3 = 1 x 3 = 1. 100 Diese haben das arithmetische Mittel y = 1 ( 1 + 1 + ) 1 3 50 150 100 = 1 11 = 11 0, 012. 3 300 900 Das harmonische Mittel der ursprünglichen Stichprobe ist somit x har = 1/y = 900 11 81, 8. statistik.pdf, Seite 18
Anwendung/Interpretation Ein Fahrzeug legt eine Strecke von 120 km zurück, davon jeweils ein Drittel (also s = 40 km) mit einer Geschwindigkeit von v 1 = 100 km/h, v 2 = 50 km/h und v 3 = 150 km/h. Wie groÿ ist dann die Durchschnittsgeschwindigkeit? Dazu können zunächst die Fahrzeiten für die einzelnen Streckenabschnitte bestimmt werden: t 1 = s v 1 = 0, 4 Stunden = 24 Minuten für das erste Drittel sowie t 2 = s v 2 = 48 Minuten und t 3 = s v 3 = 16 Minuten für das zweite bzw. dritte Drittel. Die Gesamtfahrzeit ist damit t = t 1 + t 2 + t 3. Auf der Gesamtstrecke 3s = 120 km erhält man die Durchschnittsgeschwindigkeit 3s t = 3s t 1 + t 2 + t 3 = = v har 81, 8 km/h. s v 1 3s + s v 2 + s v 3 = 1 3 1 ( ) 1 v 1 + 1 v 2 + 1 v 3 statistik.pdf, Seite 19
Der Median oder Zentralwert x einer Stichprobe ist der Wert in der Mitte der geordneten Urliste. Hat die Urliste die Form x 1, x 2,..., x n mit x k x k+1 für alle k, so ist { x n+1 falls n ungerade 2 x = ( 1 2 x n + x ) n 2 2 +1 falls n gerade Beispiel Die Stichprobe 1, 2, 4, 5, 8, 9 hat den Umfang n = 6, also ist der Median gleich x = 1 2 (x 3 + x 4 ) = 1 2 (4 + 5) = 4 1 2. Bei der Stichprobe -1; 0; 0,2; 0,9; 1,6; 3,8; 6,1 ist n = 7, also ist der Median x = x 4 = 0, 9. statistik.pdf, Seite 20
Bemerkungen Im Gegensatz zum (arithmetischen) Mittel ist der Median unempndlich gegenüber starken Ausreiÿern. Sind alle Elemente der Urliste verschieden, so liegen links und rechts vom Median jeweils gleich viele Elemente. Eine Verallgemeinerung sind Quantile für p (0, 1): Links vom pquantil x p liegt der Anteil p aller Stichprobenwerte, rechts davon der Anteil 1 p. Der Modalwert einer Stichprobe ist die Ausprägung mit der gröÿten Häugkeit. Beispiel: Lieblingsfarbe grün statistik.pdf, Seite 21
Quantile Zu einer Stichprobe vom Umfang n und p (0, 1) deniert man das pquantil x p wie folgt: Ist k = n p eine ganze Zahl, so nimmt man einen Wert zwischen x k und x k+1 : x p = 1 2 (x k + x k+1 ) Ist np Z, so wählt man die nächstgröÿere ganze Zahl k und setzt x p = x k. Für p = 0, 5 entspricht dies der Denition des Medians, die Quantile für p = 0, 25 und p = 0, 75 werden als unteres und oberes Quartil bezeichnet. statistik.pdf, Seite 22
Beispiel Für eine Stichprobe vom Umfang n = 10 liegt das 30%Quantil x 0,3 zwischen x 3 und x 4, genauer x 0,3 = 1 2 (x 3 + x 4 ). Sind x 3 und x 4 verschieden, so liegen x 1, x 2 und x 3 (also genau 30% aller Stichprobenwerte) links von x 0,3 und die übrigen 70% rechts von x 0,3. Konkretes Beispiel: Bei einer Stichprobe mit der geordneten Urliste 1, 2, 2, 3, 4, 6, 6, 7, 9, 10 ist x 0,3 = 1 2 (2 + 3) = 2 1 2. statistik.pdf, Seite 23
Fortsetzung Beispiel mit n = 10 Urliste 1, 2, 2, 3, 4, 6, 6, 7, 9, 10 ist Mit p = 0, 75 ist n p = 7, 5 Z, aufgerundet erhält man 8. Damit ist das obere Quartil (= 75%Quantil) der 8. Wert der geordneten Stichprobe x 0,75 = x 8 = 7. x = x 8 ist die kleinste Zahl, für die mindestens 75% der Stichprobenwerte x sind und gleichzeitig die gröÿte Zahl, für die mindestens 25% der Stichprobenwerte x sind. Darüber hinaus ist für jedes p mit 0, 7 < p < 0, 8 das pquantil x p = x 8, analog ist z. B. x p = x 4 für alle p mit 0, 3 < p < 0, 4. statistik.pdf, Seite 24
Empirische Verteilungsfunktion Die empirische Verteilungsfunktion einer Stichprobe vom Umfang n ist deniert als F (x) = 1 n #{ k : x k x }, d. h. für x R ist F (x) der relative Anteil der Stichprobenwerte, die x sind. F ist eine Treppenfunktion, d. h. sie ist auf Teilintervallen konstant mit Sprungstellen dazwischen. statistik.pdf, Seite 25
Beispiel Stichprobe 1, 2, 2, 3, 4, 6, 6, 7, 9, 10 Empirische Verteilungsfunktion F (x) mit 30%- und 75%Quantil statistik.pdf, Seite 26
Quantile und empirische Verteilungsfunktion Bei der Bestimmung des Quantils x p durch die empirische Verteilungsfunktion F (x) sind zwei Fälle zu unterscheiden: 1. Der Wert p wird von der empirschen Verteilungsfunktion angenommen, d. h. es gibt ein Teilintervall [x 1, x 2 ) mit F (x) = p für alle x [x 1, x 2 ). In diesem Fall wird das pquantil als Mittelpunkt dieses Intervall gewählt, also x p = 1 2 (x 1 + x 2 ). 2. Der Wert p wird von der empirschen Verteilungsfunktion nicht angenommen. Dann ist x p die Sprungstelle von F (x), an der der Wert p übersprungen wird. In diesem Fall gilt F (x) < p für alle x < x p und F (x) > p für alle x x p. statistik.pdf, Seite 27
Varianz Ein Maÿ für die Streuung der Werte einen Stichprobe vom Umfang n 2 um den Mittelwert x ist die (empirische) Varianz oder Stichprobenvarianz s 2 = 1 n 1 n k=1 (x k x) 2 = 1 ) ((x 1 x) 2 +... + (x n x) 2 n 1 s = s 2 wird als empirische Standardabweichung bezeichnet. Eine kleine Rechnung zeigt (mit der Denition von x) s 2 = 1 ) (x 21 + x 22 +... + x 2n n x 2 n 1 Achtung: Im Unterschied zur Varianz einer Zufallsvariable ist 1 bei der Stichprobenvarianz der Vorfaktor statt 1 n 1 n. statistik.pdf, Seite 28
Weitere Streuungsmaÿe Spannweite: Dierenz zwischen dem gröÿten und dem kleinsten Wert der Stichprobe. Interquartilsabstand d Q = x 0,75 x 0,25 : Dierenz zwischen dem 75%Quantil und dem 25%Quantil. Interpretation: Die Hälfte der Stichprobenwerte liegt innerhalb des Interquartilsabstandes, jeweils ein Viertel sind Ausreiÿer nach oben bzw. nach unten, die keinen Einuss auf den Interquartilsabstand haben. statistik.pdf, Seite 29
Beispiel Die Stichprobe 0, 1, 1, 2, 3, 5, 8, 12, 13 hat Mittelwert x = 1 (0 + 1 + 1 + 2 + 3 + 5 + 8 + 12 + 13) = 5 9 Median x = x 0,5 = x 5 = 3 Modalwert (häugster Wert) 1 Quartile x 0,25 = x 3 = 1 und x 0,75 = x 7 = 8 empirische Varianz s 2 = 1 8 (02 + 1 2 + 1 2 + 2 2 + 3 2 + 5 2 + 8 2 + 12 2 + 13 2 9 5 2 ) ( = 1 (0 3) 2 + (1 3) 2 + (1 3) 2 + (2 3) 2 8 ) +(3 3) 2 + (5 3) 2 + (8 3) 2 + (12 3) 2 + (13 3) 2 = 1 (9 + 4 + 4 + 1 + 0 + 4 + 25 + 81 + 100) = 24 8 Standardabweichung s = s 2 = 24 4, 9 Spannweite 13 0 = 13 Interquartilsabstand 8 1 = 7 statistik.pdf, Seite 30
Boxplots dienen der graphischen Darstellung statistischer Kennzahlen einer Stichprobe. Der zentrale Teil ist ein Rechteck (die Box), die vom unteren bis zum oberen Quartil reicht und am Median in zwei Teile unterteilt ist. Die Gesamtbreite der Box ist somit der Interquartilsabstand. Verlängert die Box an beiden Seiten durch Linien, welche die Daten jenseits der Quartile kennzeichnen. statistik.pdf, Seite 31