Datenanalyse und Statistik p. 1/44 Datenanalyse und Statistik Vorlesung 2 (Graphik I) K.Gerald van den Boogaart http://www.stat.boogaart.de
Datenanalyse und Statistik p. 2/44 Daten Schätzung Test Mathe Die Datenminen Riesige Halde mit nichtrepräsentativen Daten Die unwegsamen Ausreißerberge Bayes-Land Gletscherspalte der gleichen Messwerte Klippe der unüberprüfbaren Voraussetzungen Vorhersagebereich Rangviertel ML-City Schätzervorstadt Vertrauensbereich Statistika Modell-Platz Aussichtsturm Grafingen Normalviertel Klippe der unüberprüfbaren Voraussetzungen Sequenzielle Passage Momentenmethoden u. Lineare Modelle t-dorf Steppe der unwesentlich verletzten Voraussetzungen Todeswüste, der nicht erfüllten Voraussetzungen Steig der Nichtparametrik Posthoc robuster Weg Bonferroni Passage Sümpfe des multiplen Testens Benjamini Passage Nacht der angenommen Hypothesen Schlaraffia oder das Land des gelungen statistischen Nachweis Land des offenen Betrugs
Datenanalyse und Statistik p. 3/44 Einteilung der Graphiken und Parameter Erste Variable diskret stetig keine?? zweite Variable diskret?? stetig wie diskret-stetig? stetige Daten diskrete Daten stetig stetig diskret diskret diskret stetig
Datenanalyse und Statistik p. 4/44 Lernziele Zu jeder Graphik lernen wir: Für welche Daten eignet sich die Graphik? Wie ist die Graphik aufgebaut? Was kann man in der Graphik sehen? Woran kann man es erkennen? Was übersieht man in der Graphik? Für welche Fragestellungen eignet sich die Graphik? Warum lernen wir das?
Vorbereitung: Darstellung des Wertes durch die Lage Datenanalyse und Statistik p. 5/44
Datenanalyse und Statistik p. 6/44 Streudiagramm Acorn.size 0 5 10 15 0 5 10 15 20 25 30 Tree.Height
Datenanalyse und Statistik p. 7/44 Graphiken für stetige Daten Punktdiagramm (stapeln, verzittern) Histogramm Kastendiagramm / Boxplot Q Q-Plots (Quantils-Quantils Plot) (Empirische Verteilungsfunktion)
Datenanalyse und Statistik p. 8/44 Punktdiagramm Punktdiagramm 0 5 10 15 gestapeltes Punktdiagramm 0 5 10 15 verzittertes Punktdiagramm 0 5 10 15
Datenanalyse und Statistik p. 9/44 Punktdiagramm Vollständig bis auf Überdeckung Verzittern und Stapeln Was sieht man?
Datenanalyse und Statistik p. 10/44 Histogramm Histogram of Acorn.size 0 5 10 15 20 0 5 10 15 Acorn.size
Datenanalyse und Statistik p. 11/44 Histogramm Histogram of Acorn.size 0 5 10 15 20 0 5 10 15 Acorn.size mit Erklaerung
Datenanalyse und Statistik p. 12/44 Histogramm Histogram of Acorn.size Density 0.00 0.05 0.10 0.15 0.20 0.25 0 5 10 15 Acorn.size als Dichteschaetzung
Datenanalyse und Statistik p. 13/44 Histogramm Stellt Anzahl von Datenpunkten im Intervall dar. Stellt die Dichte (Datenpunkte pro Punkt und Einheitslänge) der Punkte dar. Balkenhöhe ist zufällig. Variation von Balkenanfang und Balkenanzahl führt zu verschiedenen Eindrücken. Zu kleine Balken Zufallsflimmer Zu große Balken Information zu sehr zusammengefaßt. Extreme Ausreißer eventuell am linken oder rechten Rand erkennbar.
Einfluß des Balkenanfangs Histogram of Acorn.size Histogram of Acorn.size Histogram of Acorn.size 5 0 5 10 15 20 Acorn.size Acorn.size Histogram of Acorn.size 5 0 5 10 15 20 Acorn.size Density Density 0.00 0.05 0.10 0.15 0.00 0.05 0.10 0.15 0.20 Density 0.00 0.05 0.10 0.15 0.20 Density 0.00 0.05 0.10 0.15 0 5 10 15 20 0 5 10 15 20 Acorn.size Histogram of Acorn.size Histogram of Acorn.size Density 0.00 0.05 0.10 0.15 0.20 Density 0.00 0.05 0.10 0.15 0.20 0 5 10 15 20 0 5 10 15 20 Acorn.size Acorn.size Datenanalyse und Statistik p. 14/44
Datenanalyse und Statistik p. 15/44 Beschreibung der Verteilungsform und Normalverteilung als Referenzverteilung
Datenanalyse und Statistik p. 16/44 Normalverteilung Histogram of rnorm(10000) Histogram of rnorm(1000) Histogram of rnorm(1000) 0 1500 0 100 0 150 4 0 2 4 rnorm(10000) 3 1 1 3 rnorm(1000) 3 1 1 3 rnorm(1000) Histogram of rnorm(100) Histogram of rnorm(100) Histogram of rnorm(100) 0 20 0 15 0 15 4 0 2 4 rnorm(100) 2 0 1 2 rnorm(100) 2 0 1 2 rnorm(100) Histogram of rnorm(20) Histogram of rnorm(20) Histogram of rnorm(20) 0 3 6 0 2 4 0 2 4 2 0 1 2 rnorm(20) 1 0 1 2 rnorm(20) 2 0 1 2 rnorm(20)
Datenanalyse und Statistik p. 17/44 Dichte der Normalverteilung Histogramm und Dichte einer Normalverteilung Density 0.0 0.1 0.2 0.3 0.4 0.5 f(x) = 1 2πσ 2e (x µ) 2 2σ 2 4 2 0 2 4 rnorm(100)
Datenanalyse und Statistik p. 18/44 Verteilungseigenschaften symmetrisch eingipflig rechtsschief zweigipflig/bimodal 0 150 0 300 0 300 0 2 4 6 2 4 6 8 2 3 4 5 6 rnorm(1000, mean = 3) rlnorm(1000, mean c(rnorm(1000, = log(3), sd = mean 0.3) = 3, sd = 0.4), rnorm(500, mean = 5, sd = 0.4)) multimodal linksschief, eingeschraenkt Gleichverteilung auf [0,1] 0 300 0 150 0 300 0 2 4 6 0.4 0.7 1.0 0.0 0.4 0.8 c(rnorm(1000, 3, 0.3), rnorm(500, 5, 0.3), rnorm(1000, 1, rbeta(1000, 0.3)) 10, 2) rbeta(10000, 1, 1) Schwere Verteilungsschwaenze Ausreisser rechtsschief monoton fallend unten beschraenkt 0 150 0 15 0 60 100 0 50 0 5 10 20 0 2 4 6 rcauchy(1000) c(rnorm(100, mean = 3), 20) rexp(300)
Datenanalyse und Statistik p. 19/44 Kenngrößen und Parameter Lage Streuung Form Verteilung Kenngrößen und Parameter sind konventionelle Zusammenfassungen der Daten in einzelne Zahlen, die jeweils einen bestimmten Aspekt quantiativ erfassen.
Datenanalyse und Statistik p. 20/44 Lageparameter Lage Mittelwert (geometrisch und arithmetisch) Median Modus Quantile (Quartile, Dezentile) Streuung Form Verteilung
Datenanalyse und Statistik p. 21/44 (arithmetischer) Mittelwert x = 1 n n x i = 1 n (x 1 + x 2 +... + x n ) i=1 > mean(iris$sepal.length) [1] 5.843333
Datenanalyse und Statistik p. 22/44 Mittelwert Histogram of Sepal.Length Histogram of Sepal.Width 0 10 20 30 0 10 25 0 2 4 6 8 10 0 2 4 6 8 10 Sepal.Length Sepal.Width Histogram of Petal.Length Histogram of Petal.Width 0 10 30 0 10 25 0 2 4 6 8 10 0 2 4 6 8 10 Petal.Length Petal.Width
Datenanalyse und Statistik p. 23/44 (geometrischer) Mittelwert Für die ratio-skala gibt es noch den geometrischen Mittelwert x = n n x i = (x 1 x 2 x n ) 1 n i=1 > exp(mean(log(iris$sepal.length))) [1] 5.78572
Datenanalyse und Statistik p. 24/44 Median Der Median ist der mittlere Wert: > median(c(4, 5, 1, 3, 6, 7, 8)) [1] 5 > median(c(4, 1, 3, 6, 7, 8)) [1] 5 > median(iris$sepal.length) [1] 5.8 > sapply(iris[, 1:4], median) Sepal.Length Sepal.Width Petal.Length Petal.Width 5.80 3.00 4.35 1.30
Datenanalyse und Statistik p. 25/44 Modus Der Modus oder Modalwert bezeichnet den Bereich mit der größten Punktdichte. Histogram of iris$sepal.length Histogram of iris$petal.length 0 10 20 30 0 10 30 4 5 6 7 8 iris$sepal.length 1 2 3 4 5 6 7 iris$petal.length
Datenanalyse und Statistik p. 26/44 Quantile Das (empirische) p-quantil ˆq p ist der Wert für den der Anteil p des sortierten Datensatzes kleiner ist. Quantile Beobachtungswert, Quantil 3.0 3.5 4.0 0.0 0.2 0.4 0.6 0.8 1.0 Anteil kleiner, p
Datenanalyse und Statistik p. 27/44 Spezielle Quantile 1 2-Quantil ist der Median 1 4-Quantil heißt auch erstes Quartil 3 4 -Quantil heißt auch drittes Quartil n 10-Quantil heißt auch n-tes Dezentil 0-Quantil heißt auch Minimum (sehr zufällig!!!) 1-Quantil heißt auch Maximum (sehr zufällig!!!)
Datenanalyse und Statistik p. 28/44 Streuparameter Lage Streuung Varianz Standardabweichung IQR Variationkoeffizient geometrische Standardabweichung Form Verteilung
Datenanalyse und Statistik p. 29/44 Streuparameter für die relle Skala Varianz var(x) = 1 n 1 Standardabweichung n (X i X) 2 i=1 Interquartilsabstand ŝd(x) = var(x) IQR(X) = q 0.75 q 0.25
Datenanalyse und Statistik p. 30/44 classical mean= 5.84 sd= 0.83 classical mean= 3.76 sd= 1.77 0 10 20 30 0 2 4 6 8 x robust: mean= 5.83 sd= 0.81 0 10 20 30 0 10 30 0 2 4 6 8 x robust: mean= 4.85 sd= 0.92 0 10 30 0 2 4 6 8 x 0 2 4 6 8 x
Datenanalyse und Statistik p. 31/44 Streuparameter für die ratio Skala Variationskoeffizient v(x) = ŝd(x) x Standardabweichung des Logarithmus ŝd(ln(x)) Geometrische Standardabweichung exp(ŝd(ln(x)))
Datenanalyse und Statistik p. 32/44 Blick mit der Ratioskala classical geom. mean= 5.79 gsd= 1.15 classical geom. mean= 3.24 gsd= 1.8 0 10 20 30 0 2 4 6 8 x classical geom. mean= 3.03 gsd= 1.15 0 10 25 0 10 30 0 2 4 6 8 x classical geom. mean= 0.84 gsd= 2.67 0 10 25 0 2 4 6 8 x 0 2 4 6 8 x
Datenanalyse und Statistik p. 33/44 Weitere Parameter Lage Streuung Form Schiefe Wölbung... Verteilung Hängt vom Verteilungsmodell ab.
Datenanalyse und Statistik p. 34/44 Kastendiagramm/Boxplot Dotplot Boxplot Erklärung zum Boxplot 18,2 einzelner Ausreißer obere Ausreißergrenze oberster Nichtausreißer 18,1 18,0 17,9 17,8 Obere Hälfte der Daten Untere Hälfte der Daten 1,5xIQR IQR Mittlere Hälfte der Daten 4. Viertel der Daten 3.Quartil 3. Viertel der Daten Median 2. Viertel der Daten 1.Quartil 1. Viertel der Daten 1,5xIQR unterster Nichtausreißer untere Ausreißergrenze
Datenanalyse und Statistik p. 35/44 Kastendiagramme Boxplots der reellen Variablen des Iris Datensatzes 0 2 4 6 8 Sepal.Length Petal.Length
Datenanalyse und Statistik p. 36/44 Interpretation Ausreißer Stichprobenlage / Median Stichprobenstreuung / IQR Symmetrie und Schiefe der Verteilung eventuell extreme Werthäufungen
Datenanalyse und Statistik p. 37/44 Exkurs: Ausreißer Definition: Ein Ausreißer ist ein Datenpunkt der einen ungewöhnlich extremen Wert hat. Mögliche Ursachen: Zufall (Es gibt halt extreme Werte) Schwere Verteilungsschwänze (Ausreißer hier typisch) Datenfehler oder Übermittlungsfehler Untypischer Spezialfall (der Millionär mit Zweitwohnsitz im armen Bergbauerndorf) Individum fehlerhafterweise in der Stichprobe (z.b. andere Art) Anthropogene Überprägung (das verlorene Geldstück mit hohem Kupfergehalt.)
Datenanalyse und Statistik p. 38/44 Q Q-Plots Sepal.Length Sepal.Width Sample Quantiles 4.5 6.0 7.5 Sample Quantiles 2.0 3.0 4.0 2 0 1 2 Theoretical Quantiles 2 0 1 2 Theoretical Quantiles Petal.Length Petal.Width Sample Quantiles 1 3 5 7 Sample Quantiles 0.5 1.5 2.5 2 0 1 2 Theoretical Quantiles 2 0 1 2 Theoretical Quantiles
Datenanalyse und Statistik p. 39/44 Interpretation Q Q-Plot Ungefähre Gerade Verteilungsmodell passend Treppenstufen Bindungen (gleiche Werte) Gegen S Ausreißer? schwere Verteilungsschwänze?
Datenanalyse und Statistik p. 40/44 Exkurs: Bindungen Definition: Von einer Bindung spricht man, wenn ein Datenwert in einer stetigen Variable zwei oder mehrfach auftritt. Mögliche Ursachen: Rundung Ungenau Datenerhebung Spezieller Wert hat positive Wahrscheinlichkeit Variable nicht wirklich stetig Manche statistische Verfahren verlieren an zunehmend an Genauigkeit je mehr Bindungen auftreten.
x x Datenanalyse und Statistik p. 41/44 Empirische Verteilungsfunktion ˆF(x) = Anteil des Datensatzes x Sepal.Length Sepal.Width Fn(x) 0.0 0.4 0.8 Fn(x) 0.0 0.4 0.8 4 5 6 7 8 x 2.0 3.0 4.0 x Petal.Length Petal.Width Fn(x) 0.0 0.4 0.8 Fn(x) 0.0 0.4 0.8 1 2 3 4 5 6 7 0.0 1.0 2.0
Datenanalyse und Statistik p. 42/44 Emprische Verteilungsfunktion Quantile können leicht abgelesen werden. Wahrscheinlichkeiten können leicht abgelesen werden. Bindungen erzeugen hohe Sprünge (fast unsichtbar). Sonst kann eigentlich nichts abgelesen werden.
Datenanalyse und Statistik p. 43/44 Zusammenfassung zu stetigen Daten Lage- und Streuparameter / quantitativ Punktdiagramm (stapeln, verzittern) / Daten Histogramm (Balken varieren) / Verteilungsform Kastendiagramm / Ausreißer, Streung, Lage, Symmetrie Q Q-Plot / Vergleich mit Verteilung Empirische Verteilungsfunktion / Quantile
Datenanalyse und Statistik p. 44/44