Stochastik und Statistik Vorlesung 2 (Graphik I)

Transkript

1 Stochastik und Statistik Vorlesung 2 (Graphik I) K.Gerald van den Boogaart Stochastik und Statistik p.1/44

2 Daten Schätzung Test Mathe Die Datenminen Riesige Halde mit nichtrepräsentativen Daten Die unwegsamen Ausreißerberge Bayes-Land Gletscherspalte der gleichen Messwerte Klippe der unüberprüfbaren Voraussetzungen Vorhersagebereich Rangviertel ML-City Schätzervorstadt Statistika Modell-Platz Aussichtsturm Grafingen Vertrauensbereich Normalviertel Klippe der unüberprüfbaren Voraussetzungen Sequenzielle Passage Momentenmethoden u. Lineare Modelle t-dorf Steppe der unwesentlich verletzten Voraussetzungen Todeswüste, der nicht erfüllten Voraussetzungen Posthoc robuster Weg Steig der Nichtparametrik Bonferroni Passage Sümpfe des multiplen Testens Benjamini Passage Nacht der angenommen Hypothesen Schlaraffia oder das Land des gelungen statistischen Nachweis Land des offenen Betrugs Stochastik und Statistik p.2/44

3 inteilung der Graphiken und Parameter Erste Variable diskret stetig keine?? zweite Variable diskret?? stetig? s.o. stetige Daten diskrete Daten stetig stetig diskret diskret diskret stetig Stochastik und Statistik p.3/44

4 Lernziele Zu jeder Graphik lernen wir: Für welche Daten eignet sich die Graphik? Warum lernen wir das? Stochastik und Statistik p.4/44

5 Lernziele Zu jeder Graphik lernen wir: Für welche Daten eignet sich die Graphik? Wie ist die Graphik aufgebaut? Warum lernen wir das? Stochastik und Statistik p.4/44

6 Lernziele Zu jeder Graphik lernen wir: Für welche Daten eignet sich die Graphik? Wie ist die Graphik aufgebaut? Was kann man in der Graphik sehen? Warum lernen wir das? Stochastik und Statistik p.4/44

7 Lernziele Zu jeder Graphik lernen wir: Für welche Daten eignet sich die Graphik? Wie ist die Graphik aufgebaut? Was kann man in der Graphik sehen? Woran kann man es erkennen? Warum lernen wir das? Stochastik und Statistik p.4/44

8 Lernziele Zu jeder Graphik lernen wir: Für welche Daten eignet sich die Graphik? Wie ist die Graphik aufgebaut? Was kann man in der Graphik sehen? Woran kann man es erkennen? Was übersieht man in der Graphik? Warum lernen wir das? Stochastik und Statistik p.4/44

9 Lernziele Zu jeder Graphik lernen wir: Für welche Daten eignet sich die Graphik? Wie ist die Graphik aufgebaut? Was kann man in der Graphik sehen? Woran kann man es erkennen? Was übersieht man in der Graphik? Für welche Fragestellungen eignet sich die Graphik? Warum lernen wir das? Stochastik und Statistik p.4/44

10 Vorbereitung: Darstellung des Wertes durch die Lage Stochastik und Statistik p.5/44

11 Streudiagramm Acorn.size Tree.Height Stochastik und Statistik p.6/44

12 Graphiken für stetige Daten Punktdiagramm (stapeln, verzittern) Histogramm Kastendiagramm / Boxplot Q Q-Plots (Quantils-Quantils Plot) (Empirische Verteilungsfunktion) Stochastik und Statistik p.7/44

13 Punktdiagramm Punktdiagramm gestapeltes Punktdiagramm verzittertes Punktdiagramm Stochastik und Statistik p.8/44

14 Punktdiagramm Vollständig bis auf Überdeckung Verzittern und Stapeln Was sieht man? Stochastik und Statistik p.9/44

15 Histogramm Histogram of Acorn.size Acorn.size Stochastik und Statistik p.10/44

16 Histogramm Histogram of Acorn.size Acorn.size mit Erklaerung Stochastik und Statistik p.11/44

17 Histogramm Histogram of Acorn.size Density Acorn.size als Dichteschaetzung Stochastik und Statistik p.12/44

18 Histogramm Stellt Anzahl von Datenpunkten im Intervall dar. Stellt die Dichte (Datenpunkte pro Punkt und Einheitslänge) der Punkte dar. Balkenhöhe ist zufällig. Variation von Balkenanfang und Balkenanzahl führt zu verschiedenen Eindrücken. Zu kleine Balken Zufallsflimmer Zu große Balken Information zu sehr zusammengefaßt. Extreme Ausreißer eventuell am linken oder rechten Rand erkennbar. Stochastik und Statistik p.13/44

19 Einfluß des Balkenanfangs Histogram of Acorn.size Histogram of Acorn.size Histogram of Acorn.size Acorn.size Acorn.size Histogram of Acorn.size Acorn.size Density Density Density Density Acorn.size Histogram of Acorn.size Histogram of Acorn.size Density Density Acorn.size Acorn.size Stochastik und Statistik p.14/44

20 Beschreibung der Verteilungsform und Normalverteilung als Referenzverteilung Stochastik und Statistik p.15/44

21 Normalverteilung Histogram of rnorm(1000 Histogram of rnorm(100 Histogram of rnorm( rnorm(10000) rnorm(1000) rnorm(1000) Histogram of rnorm(100 Histogram of rnorm(100 Histogram of rnorm( rnorm(100) rnorm(100) rnorm(100) Histogram of rnorm(20 Histogram of rnorm(20 Histogram of rnorm( rnorm(20) rnorm(20) rnorm(20) Stochastik und Statistik p.16/44

22 Dichte der Normalverteilung Histogramm und Dichte einer Normalverteilung Density f(x) = 1 2πσ 2e (x µ) 2 2σ rnorm(100) Stochastik und Statistik p.17/44

23 Verteilungseigenschaften symmetrisch eingipflig rechtsschief zweigipflig/bimodal rnorm(1000, mean = 3) rlnorm(1000, mean = log(3), sd = mean = 3, sd = 0.4), rnorm(500, m multimodal linksschief, eingeschraenkt Gleichverteilung auf [0,1] , 3, 0.3), rnorm(500, 5, 0.3), rnor rbeta(1000, 10, 2) rbeta(10000, 1, 1) Schwere Verteilungsschwaenze Ausreisser rechtsschief monoton fallend unten beschraenkt rcauchy(1000) c(rnorm(100, mean = 3), 20) rexp(300) Stochastik und Statistik p.18/44

24 Kenngrößen und Parameter Lage Streuung Form Verteilung Kenngrößen und Parameter sind konventionelle Zusammenfassungen der Daten in einzelne Zahlen, die jeweils einen bestimmten Aspekt quantiativ erfassen. Stochastik und Statistik p.19/44

25 Lageparameter Lage Mittelwert (geometrisch und arithmetisch) Median Modus Quantile (Quartile, Dezentile) Streuung Form Verteilung Stochastik und Statistik p.20/44

26 (arithmetischer) Mittelwert x = 1 n n x i = 1 n (x 1 + x x n ) i=1 > mean(iris$sepal.length) [1] Stochastik und Statistik p.21/44

27 Mittelwert Histogram of Sepal.Length Histogram of Sepal.Width Sepal.Length Sepal.Width Histogram of Petal.Length Histogram of Petal.Width Petal.Length Petal.Width Stochastik und Statistik p.22/44

28 (geometrischer) Mittelwert Für die ratio-skala gibt es noch den geometrischen Mittelwert x = n n x i = (x 1 x 2 x n ) 1 n i=1 > exp(mean(log(iris$sepal.length))) [1] Stochastik und Statistik p.23/44

29 Median Der Median ist der mittlere Wert: > median(c(4, 5, 1, 3, 6, 7, 8)) [1] 5 > median(c(4, 1, 3, 6, 7, 8)) [1] 5 > median(iris$sepal.length) [1] 5.8 > sapply(iris[, 1:4], median) Sepal.Length Sepal.Width Petal.Length Petal.Width Stochastik und Statistik p.24/44

30 Modus Der Modus oder Modalwert bezeichnet den Bereich mit der größten Punktdichte. Histogram of iris$sepal.lengt Histogram of iris$petal.length iris$sepal.length iris$petal.length Stochastik und Statistik p.25/44

31 Quantile Das (empirische) p-quantil ˆq p ist der Wert für den der Anteil p des sortierten Datensatzes kleiner ist. Quantile Beobachtungswert, Quantil Details in den Übungen Anteil kleiner, p Stochastik und Statistik p.26/44

32 Spezielle Quantile 1 2-Quantil ist der Median 1 4-Quantil heißt auch erstes Quartil 3 4 -Quantil heißt auch drittes Quartil n 10-Quantil heißt auch n-tes Dezentil 0-Quantil heißt auch Minimum (sehr zufällig!!!) 1-Quantil heißt auch Maximum (sehr zufällig!!!) Stochastik und Statistik p.27/44

33 Streuparameter Lage Streuung Varianz Standardabweichung IQR Variationkoeffizient geometrische Standardabweichung Form Verteilung Stochastik und Statistik p.28/44

34 Streuparameter für die relle Skala Varianz var(x) = 1 n 1 n (X i X) 2 i=1 Stochastik und Statistik p.29/44

35 Streuparameter für die relle Skala Varianz var(x) = 1 n 1 Standardabweichung n (X i X) 2 i=1 ŝd(x) = var(x) Stochastik und Statistik p.29/44

36 Streuparameter für die relle Skala Varianz var(x) = 1 n 1 Standardabweichung n (X i X) 2 i=1 Interquartilsabstand ŝd(x) = var(x) IQR(X) = q 0.75 q 0.25 Stochastik und Statistik p.29/44

37 classical mean= 5.84 sd= 0.83 classical mean= 3.76 sd= x robust: mean= 5.84 sd= x robust: mean= 4.85 sd= x x Stochastik und Statistik p.30/44

38 Streuparameter für die ratio Skala Variationskoeffizient v(x) = ŝd(x) x Stochastik und Statistik p.31/44

39 Streuparameter für die ratio Skala Variationskoeffizient v(x) = ŝd(x) x Geometrische Standardabweichung exp(ŝd(ln(x))) Stochastik und Statistik p.31/44

40 Streuparameter für die ratio Skala Variationskoeffizient v(x) = ŝd(x) x Geometrische Standardabweichung exp(ŝd(ln(x))) Stochastik und Statistik p.31/44

41 Blick mit der Ratioskala classical geom. mean= 5.79 gsd= 1.15 classical geom. mean= 3.24 gsd= x classical geom. mean= 3.03 gsd= x classical geom. mean= 0.84 gsd= x x Stochastik und Statistik p.32/44

42 Weitere Parameter Lage Streuung Form Schiefe Wölbung... Verteilung Hängt vom Verteilungsmodell ab. Stochastik und Statistik p.33/44

43 Kastendiagramm/Boxplot Dotplot Boxplot Erklärung zum Boxplot 18,2 einzelner Ausreißer obere Ausreißergrenze oberster Nichtausreißer 18,1 18,0 17,9 17,8 Obere Hälfte der Daten Untere Hälfte der Daten 1,5xIQR IQR Mittlere Hälfte der Daten 4. Viertel der Daten 3.Quartil 3. Viertel der Daten Median 2. Viertel der Daten 1.Quartil 1. Viertel der Daten 1,5xIQR unterster Nichtausreißer untere Ausreißergrenze Stochastik und Statistik p.34/44

44 Kastendiagramme Boxplots der reellen Variablen des Iris Datensatzes Sepal.Length Petal.Length Stochastik und Statistik p.35/44

45 Interpretation Ausreißer Stichprobenlage / Median Stichprobenstreuung / IQR Symmetrie und Schiefe der Verteilung eventuell extreme Werthäufungen Stochastik und Statistik p.36/44

46 Exkurs: Ausreißer Definition: Ein Ausreißer ist ein Datenpunkt der einen ungewöhnlich extremen Wert hat. Mögliche Ursachen: Zufall (Es gibt halt extreme Werte) Schwere Verteilungsschwänze (Ausreißer hier typisch) Datenfehler oder Übermittlungsfehler Untypischer Spezialfall (der Millionär mit Zweitwohnsitz im armen Bergbauerndorf) Individum fehlerhafterweise in der Stichprobe (z.b. andere Art) Anthropogene Überprägung (das verlorene Geldstück mit hohem Kupfergehalt.) Stochastik und Statistik p.37/44

47 Sepal.Length Theoretical Quantiles Q Q-Plots Sepal.Width Sample Quantiles Theoretical Quantiles Sample Quantiles Petal.Length Theoretical Quantiles Petal.Width Sample Quantiles Theoretical Quantiles Stochastik und Statistik p.38/44 Sample Quantiles

48 Interpretation Q Q-Plot Ungefähre Gerade Verteilungsmodell passend Treppenstufen Bindungen (gleiche Werte) Gegen S Ausreißer? schwere Verteilungsschwänze? Stochastik und Statistik p.39/44

49 Exkurs: Bindungen Definition: Von einer Bindung spricht man, wenn ein Datenwert in einer stetigen Variable zwei oder mehrfach auftritt. Mögliche Ursachen: Rundung Ungenau Datenerhebung Spezieller Wert hat positive Wahrscheinlichkeit Variable nicht wirklich stetig Manche statistische Verfahren verlieren an zunehmend an Genauigkeit je mehr Bindungen auftreten. Stochastik und Statistik p.40/44

50 Empirische Verteilungsfunktion ˆF(x) = Anteil des Datensatzes x Sepal.Length Sepal.Width Fn(x) Fn(x) x x Petal.Length Petal.Width Fn(x) Fn(x) Stochastik und Statistik p.41/44

51 Emprische Verteilungsfunktion Quantile können leicht abgelesen werden. Wahrscheinlichkeiten können leicht abgelesen werden. Bindungen erzeugen hohe Sprünge (fast unsichtbar). Sonst kann eigentlich nichts abgelesen werden. Stochastik und Statistik p.42/44

52 Zusammenfassung zu stetigen Daten Lage- und Streuparameter / quantitativ Punktdiagramm (stapeln, verzittern) / Daten Histogramm (Balken varieren) / Verteilungsform Kastendiagramm / Ausreißer, Streung, Lage, Symmetrie Q Q-Plot / Vergleich mit Verteilung Empirische Verteilungsfunktion / Quantile Stochastik und Statistik p.43/44

53 Stochastik und Statistik p.44/44