Datenanalyse und Statistik



Ähnliche Dokumente
Stochastik und Statistik Vorlesung 2 (Graphik I)

Stochastik und Statistik

Datenanalyse und Statistik

Überblick und Ausblick

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Statistik I für Betriebswirte Vorlesung 2

Melanie Kaspar, Prof. Dr. B. Grabowski 1

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Statistik und Wahrscheinlichkeitsrechnung

Evaluation der Normalverteilungsannahme

Statistik Vorlesung Statistik 1

Statistische Thermodynamik I Lösungen zur Serie 1

Einfache statistische Auswertungen mit dem TI-Nspire

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Überblick über die Tests

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Willkommen zur Vorlesung Statistik

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE

Statistik Vorlesung 6 (Tests II)

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE. Markt+Technik

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten

Deskriptive Statistik

- Beschreibung der Stichprobe(n-Häufigkeitsverteilung) <- Ermittlung deskriptiver Maßzahlen (Mittelungsmaße, Variationsmaße, Formparameter)

Einführung in die Statistik mit EXCEL und SPSS

1 Darstellen von Daten

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Einführung in statistische Analysen

Stichprobenauslegung. für stetige und binäre Datentypen

4. Erstellen von Klassen

Felix Klug SS Tutorium Deskriptive Statistik

Modul 1 STATISTIK Eine erste Einführung

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Grundlagen der Inferenzstatistik

Risiko und Symmetrie. Prof. Dr. Andrea Wirth

9. Schätzen und Testen bei unbekannter Varianz

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Statistik II für Betriebswirte Vorlesung 2

Grundlagen der Datenanalyse am Beispiel von SPSS

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

W-Rechnung und Statistik für Ingenieure Übung 11

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Physica-Lehrbuch. Ein anwendungsorientiertes Lehr- und Arbeitsbuch. von Christine Duller

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

QM: Prüfen -1- KN

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Quantilsschätzung als Werkzeug zur VaR-Berechnung

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Eine computergestützte Einführung mit

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

Willkommen zur Vorlesung Statistik

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist

Verfahren für metrische Variable

STATISTIK. Erinnere dich

Data Mining: Einige Grundlagen aus der Stochastik

Forschungsstatistik I

B. Heger / R. Prust: Quantitative Methoden der empirischen Sozialforschung (Master Modul 1.3) GET FILE ='Z:\ALLBUS_2007_neu.sav'.

Korrelation - Regression. Berghold, IMI

Einführung in die statistische Datenanalyse I

Verteilungsmodelle. Verteilungsfunktion und Dichte von T

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

G-Protein gekoppelte Rezeptoren. Genomische Datenanalyse 3. Kapitel

Elisabeth Raab-Steiner/Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS/PASW-Auswertung. 2., aktualisierte Auflage. facultas.

Zufallsgrößen. Vorlesung Statistik für KW Helmut Küchenhoff

Auswertung und Darstellung wissenschaftlicher Daten (1)

Histogramm und Wahrscheinlichkeitsnetz 1/16

Einführung in die Statistik mit EXCEL und SPSS

Uli Greßler. Qualitätsmanagement. Überwachung der Produkt- und Prozessqualität. Arbeitsheft. 2. Auflage. Bestellnummer 04796

2. Eindimensionale (univariate) Datenanalyse

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35

Business Value Launch 2006

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Teil II: Einführung in die Statistik

1.3 Die Beurteilung von Testleistungen

Eine Einführung in R: Statistische Tests

Zusammenhänge zwischen metrischen Merkmalen

Beweisbar sichere Verschlüsselung

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Algorithmen und Datenstrukturen

Transkript:

Datenanalyse und Statistik p. 1/44 Datenanalyse und Statistik Vorlesung 2 (Graphik I) K.Gerald van den Boogaart http://www.stat.boogaart.de

Datenanalyse und Statistik p. 2/44 Daten Schätzung Test Mathe Die Datenminen Riesige Halde mit nichtrepräsentativen Daten Die unwegsamen Ausreißerberge Bayes-Land Gletscherspalte der gleichen Messwerte Klippe der unüberprüfbaren Voraussetzungen Vorhersagebereich Rangviertel ML-City Schätzervorstadt Vertrauensbereich Statistika Modell-Platz Aussichtsturm Grafingen Normalviertel Klippe der unüberprüfbaren Voraussetzungen Sequenzielle Passage Momentenmethoden u. Lineare Modelle t-dorf Steppe der unwesentlich verletzten Voraussetzungen Todeswüste, der nicht erfüllten Voraussetzungen Steig der Nichtparametrik Posthoc robuster Weg Bonferroni Passage Sümpfe des multiplen Testens Benjamini Passage Nacht der angenommen Hypothesen Schlaraffia oder das Land des gelungen statistischen Nachweis Land des offenen Betrugs

Datenanalyse und Statistik p. 3/44 Einteilung der Graphiken und Parameter Erste Variable diskret stetig keine?? zweite Variable diskret?? stetig wie diskret-stetig? stetige Daten diskrete Daten stetig stetig diskret diskret diskret stetig

Datenanalyse und Statistik p. 4/44 Lernziele Zu jeder Graphik lernen wir: Für welche Daten eignet sich die Graphik? Wie ist die Graphik aufgebaut? Was kann man in der Graphik sehen? Woran kann man es erkennen? Was übersieht man in der Graphik? Für welche Fragestellungen eignet sich die Graphik? Warum lernen wir das?

Vorbereitung: Darstellung des Wertes durch die Lage Datenanalyse und Statistik p. 5/44

Datenanalyse und Statistik p. 6/44 Streudiagramm Acorn.size 0 5 10 15 0 5 10 15 20 25 30 Tree.Height

Datenanalyse und Statistik p. 7/44 Graphiken für stetige Daten Punktdiagramm (stapeln, verzittern) Histogramm Kastendiagramm / Boxplot Q Q-Plots (Quantils-Quantils Plot) (Empirische Verteilungsfunktion)

Datenanalyse und Statistik p. 8/44 Punktdiagramm Punktdiagramm 0 5 10 15 gestapeltes Punktdiagramm 0 5 10 15 verzittertes Punktdiagramm 0 5 10 15

Datenanalyse und Statistik p. 9/44 Punktdiagramm Vollständig bis auf Überdeckung Verzittern und Stapeln Was sieht man?

Datenanalyse und Statistik p. 10/44 Histogramm Histogram of Acorn.size 0 5 10 15 20 0 5 10 15 Acorn.size

Datenanalyse und Statistik p. 11/44 Histogramm Histogram of Acorn.size 0 5 10 15 20 0 5 10 15 Acorn.size mit Erklaerung

Datenanalyse und Statistik p. 12/44 Histogramm Histogram of Acorn.size Density 0.00 0.05 0.10 0.15 0.20 0.25 0 5 10 15 Acorn.size als Dichteschaetzung

Datenanalyse und Statistik p. 13/44 Histogramm Stellt Anzahl von Datenpunkten im Intervall dar. Stellt die Dichte (Datenpunkte pro Punkt und Einheitslänge) der Punkte dar. Balkenhöhe ist zufällig. Variation von Balkenanfang und Balkenanzahl führt zu verschiedenen Eindrücken. Zu kleine Balken Zufallsflimmer Zu große Balken Information zu sehr zusammengefaßt. Extreme Ausreißer eventuell am linken oder rechten Rand erkennbar.

Einfluß des Balkenanfangs Histogram of Acorn.size Histogram of Acorn.size Histogram of Acorn.size 5 0 5 10 15 20 Acorn.size Acorn.size Histogram of Acorn.size 5 0 5 10 15 20 Acorn.size Density Density 0.00 0.05 0.10 0.15 0.00 0.05 0.10 0.15 0.20 Density 0.00 0.05 0.10 0.15 0.20 Density 0.00 0.05 0.10 0.15 0 5 10 15 20 0 5 10 15 20 Acorn.size Histogram of Acorn.size Histogram of Acorn.size Density 0.00 0.05 0.10 0.15 0.20 Density 0.00 0.05 0.10 0.15 0.20 0 5 10 15 20 0 5 10 15 20 Acorn.size Acorn.size Datenanalyse und Statistik p. 14/44

Datenanalyse und Statistik p. 15/44 Beschreibung der Verteilungsform und Normalverteilung als Referenzverteilung

Datenanalyse und Statistik p. 16/44 Normalverteilung Histogram of rnorm(10000) Histogram of rnorm(1000) Histogram of rnorm(1000) 0 1500 0 100 0 150 4 0 2 4 rnorm(10000) 3 1 1 3 rnorm(1000) 3 1 1 3 rnorm(1000) Histogram of rnorm(100) Histogram of rnorm(100) Histogram of rnorm(100) 0 20 0 15 0 15 4 0 2 4 rnorm(100) 2 0 1 2 rnorm(100) 2 0 1 2 rnorm(100) Histogram of rnorm(20) Histogram of rnorm(20) Histogram of rnorm(20) 0 3 6 0 2 4 0 2 4 2 0 1 2 rnorm(20) 1 0 1 2 rnorm(20) 2 0 1 2 rnorm(20)

Datenanalyse und Statistik p. 17/44 Dichte der Normalverteilung Histogramm und Dichte einer Normalverteilung Density 0.0 0.1 0.2 0.3 0.4 0.5 f(x) = 1 2πσ 2e (x µ) 2 2σ 2 4 2 0 2 4 rnorm(100)

Datenanalyse und Statistik p. 18/44 Verteilungseigenschaften symmetrisch eingipflig rechtsschief zweigipflig/bimodal 0 150 0 300 0 300 0 2 4 6 2 4 6 8 2 3 4 5 6 rnorm(1000, mean = 3) rlnorm(1000, mean c(rnorm(1000, = log(3), sd = mean 0.3) = 3, sd = 0.4), rnorm(500, mean = 5, sd = 0.4)) multimodal linksschief, eingeschraenkt Gleichverteilung auf [0,1] 0 300 0 150 0 300 0 2 4 6 0.4 0.7 1.0 0.0 0.4 0.8 c(rnorm(1000, 3, 0.3), rnorm(500, 5, 0.3), rnorm(1000, 1, rbeta(1000, 0.3)) 10, 2) rbeta(10000, 1, 1) Schwere Verteilungsschwaenze Ausreisser rechtsschief monoton fallend unten beschraenkt 0 150 0 15 0 60 100 0 50 0 5 10 20 0 2 4 6 rcauchy(1000) c(rnorm(100, mean = 3), 20) rexp(300)

Datenanalyse und Statistik p. 19/44 Kenngrößen und Parameter Lage Streuung Form Verteilung Kenngrößen und Parameter sind konventionelle Zusammenfassungen der Daten in einzelne Zahlen, die jeweils einen bestimmten Aspekt quantiativ erfassen.

Datenanalyse und Statistik p. 20/44 Lageparameter Lage Mittelwert (geometrisch und arithmetisch) Median Modus Quantile (Quartile, Dezentile) Streuung Form Verteilung

Datenanalyse und Statistik p. 21/44 (arithmetischer) Mittelwert x = 1 n n x i = 1 n (x 1 + x 2 +... + x n ) i=1 > mean(iris$sepal.length) [1] 5.843333

Datenanalyse und Statistik p. 22/44 Mittelwert Histogram of Sepal.Length Histogram of Sepal.Width 0 10 20 30 0 10 25 0 2 4 6 8 10 0 2 4 6 8 10 Sepal.Length Sepal.Width Histogram of Petal.Length Histogram of Petal.Width 0 10 30 0 10 25 0 2 4 6 8 10 0 2 4 6 8 10 Petal.Length Petal.Width

Datenanalyse und Statistik p. 23/44 (geometrischer) Mittelwert Für die ratio-skala gibt es noch den geometrischen Mittelwert x = n n x i = (x 1 x 2 x n ) 1 n i=1 > exp(mean(log(iris$sepal.length))) [1] 5.78572

Datenanalyse und Statistik p. 24/44 Median Der Median ist der mittlere Wert: > median(c(4, 5, 1, 3, 6, 7, 8)) [1] 5 > median(c(4, 1, 3, 6, 7, 8)) [1] 5 > median(iris$sepal.length) [1] 5.8 > sapply(iris[, 1:4], median) Sepal.Length Sepal.Width Petal.Length Petal.Width 5.80 3.00 4.35 1.30

Datenanalyse und Statistik p. 25/44 Modus Der Modus oder Modalwert bezeichnet den Bereich mit der größten Punktdichte. Histogram of iris$sepal.length Histogram of iris$petal.length 0 10 20 30 0 10 30 4 5 6 7 8 iris$sepal.length 1 2 3 4 5 6 7 iris$petal.length

Datenanalyse und Statistik p. 26/44 Quantile Das (empirische) p-quantil ˆq p ist der Wert für den der Anteil p des sortierten Datensatzes kleiner ist. Quantile Beobachtungswert, Quantil 3.0 3.5 4.0 0.0 0.2 0.4 0.6 0.8 1.0 Anteil kleiner, p

Datenanalyse und Statistik p. 27/44 Spezielle Quantile 1 2-Quantil ist der Median 1 4-Quantil heißt auch erstes Quartil 3 4 -Quantil heißt auch drittes Quartil n 10-Quantil heißt auch n-tes Dezentil 0-Quantil heißt auch Minimum (sehr zufällig!!!) 1-Quantil heißt auch Maximum (sehr zufällig!!!)

Datenanalyse und Statistik p. 28/44 Streuparameter Lage Streuung Varianz Standardabweichung IQR Variationkoeffizient geometrische Standardabweichung Form Verteilung

Datenanalyse und Statistik p. 29/44 Streuparameter für die relle Skala Varianz var(x) = 1 n 1 Standardabweichung n (X i X) 2 i=1 Interquartilsabstand ŝd(x) = var(x) IQR(X) = q 0.75 q 0.25

Datenanalyse und Statistik p. 30/44 classical mean= 5.84 sd= 0.83 classical mean= 3.76 sd= 1.77 0 10 20 30 0 2 4 6 8 x robust: mean= 5.83 sd= 0.81 0 10 20 30 0 10 30 0 2 4 6 8 x robust: mean= 4.85 sd= 0.92 0 10 30 0 2 4 6 8 x 0 2 4 6 8 x

Datenanalyse und Statistik p. 31/44 Streuparameter für die ratio Skala Variationskoeffizient v(x) = ŝd(x) x Standardabweichung des Logarithmus ŝd(ln(x)) Geometrische Standardabweichung exp(ŝd(ln(x)))

Datenanalyse und Statistik p. 32/44 Blick mit der Ratioskala classical geom. mean= 5.79 gsd= 1.15 classical geom. mean= 3.24 gsd= 1.8 0 10 20 30 0 2 4 6 8 x classical geom. mean= 3.03 gsd= 1.15 0 10 25 0 10 30 0 2 4 6 8 x classical geom. mean= 0.84 gsd= 2.67 0 10 25 0 2 4 6 8 x 0 2 4 6 8 x

Datenanalyse und Statistik p. 33/44 Weitere Parameter Lage Streuung Form Schiefe Wölbung... Verteilung Hängt vom Verteilungsmodell ab.

Datenanalyse und Statistik p. 34/44 Kastendiagramm/Boxplot Dotplot Boxplot Erklärung zum Boxplot 18,2 einzelner Ausreißer obere Ausreißergrenze oberster Nichtausreißer 18,1 18,0 17,9 17,8 Obere Hälfte der Daten Untere Hälfte der Daten 1,5xIQR IQR Mittlere Hälfte der Daten 4. Viertel der Daten 3.Quartil 3. Viertel der Daten Median 2. Viertel der Daten 1.Quartil 1. Viertel der Daten 1,5xIQR unterster Nichtausreißer untere Ausreißergrenze

Datenanalyse und Statistik p. 35/44 Kastendiagramme Boxplots der reellen Variablen des Iris Datensatzes 0 2 4 6 8 Sepal.Length Petal.Length

Datenanalyse und Statistik p. 36/44 Interpretation Ausreißer Stichprobenlage / Median Stichprobenstreuung / IQR Symmetrie und Schiefe der Verteilung eventuell extreme Werthäufungen

Datenanalyse und Statistik p. 37/44 Exkurs: Ausreißer Definition: Ein Ausreißer ist ein Datenpunkt der einen ungewöhnlich extremen Wert hat. Mögliche Ursachen: Zufall (Es gibt halt extreme Werte) Schwere Verteilungsschwänze (Ausreißer hier typisch) Datenfehler oder Übermittlungsfehler Untypischer Spezialfall (der Millionär mit Zweitwohnsitz im armen Bergbauerndorf) Individum fehlerhafterweise in der Stichprobe (z.b. andere Art) Anthropogene Überprägung (das verlorene Geldstück mit hohem Kupfergehalt.)

Datenanalyse und Statistik p. 38/44 Q Q-Plots Sepal.Length Sepal.Width Sample Quantiles 4.5 6.0 7.5 Sample Quantiles 2.0 3.0 4.0 2 0 1 2 Theoretical Quantiles 2 0 1 2 Theoretical Quantiles Petal.Length Petal.Width Sample Quantiles 1 3 5 7 Sample Quantiles 0.5 1.5 2.5 2 0 1 2 Theoretical Quantiles 2 0 1 2 Theoretical Quantiles

Datenanalyse und Statistik p. 39/44 Interpretation Q Q-Plot Ungefähre Gerade Verteilungsmodell passend Treppenstufen Bindungen (gleiche Werte) Gegen S Ausreißer? schwere Verteilungsschwänze?

Datenanalyse und Statistik p. 40/44 Exkurs: Bindungen Definition: Von einer Bindung spricht man, wenn ein Datenwert in einer stetigen Variable zwei oder mehrfach auftritt. Mögliche Ursachen: Rundung Ungenau Datenerhebung Spezieller Wert hat positive Wahrscheinlichkeit Variable nicht wirklich stetig Manche statistische Verfahren verlieren an zunehmend an Genauigkeit je mehr Bindungen auftreten.

x x Datenanalyse und Statistik p. 41/44 Empirische Verteilungsfunktion ˆF(x) = Anteil des Datensatzes x Sepal.Length Sepal.Width Fn(x) 0.0 0.4 0.8 Fn(x) 0.0 0.4 0.8 4 5 6 7 8 x 2.0 3.0 4.0 x Petal.Length Petal.Width Fn(x) 0.0 0.4 0.8 Fn(x) 0.0 0.4 0.8 1 2 3 4 5 6 7 0.0 1.0 2.0

Datenanalyse und Statistik p. 42/44 Emprische Verteilungsfunktion Quantile können leicht abgelesen werden. Wahrscheinlichkeiten können leicht abgelesen werden. Bindungen erzeugen hohe Sprünge (fast unsichtbar). Sonst kann eigentlich nichts abgelesen werden.

Datenanalyse und Statistik p. 43/44 Zusammenfassung zu stetigen Daten Lage- und Streuparameter / quantitativ Punktdiagramm (stapeln, verzittern) / Daten Histogramm (Balken varieren) / Verteilungsform Kastendiagramm / Ausreißer, Streung, Lage, Symmetrie Q Q-Plot / Vergleich mit Verteilung Empirische Verteilungsfunktion / Quantile

Datenanalyse und Statistik p. 44/44