Datenanalyse und Statistik

Transkript

1 Datenanalyse und Statistik Vorlesung 3 (Graphik II) K.Gerald van den Boogaart Datenanalyse und Statistik p.1/48

2 Daten Schätzung Test Mathe Die Datenminen Riesige Halde mit nichtrepräsentativen Daten Die unwegsamen Ausreißerberge Bayes-Land Gletscherspalte der gleichen Messwerte Klippe der unüberprüfbaren Voraussetzungen Vorhersagebereich Rangviertel ML-City Schätzervorstadt Statistika Modell-Platz Aussichtsturm Grafingen Vertrauensbereich Normalviertel Klippe der unüberprüfbaren Voraussetzungen Sequenzielle Passage Momentenmethoden u. Lineare Modelle t-dorf Steppe der unwesentlich verletzten Voraussetzungen Todeswüste, der nicht erfüllten Voraussetzungen Posthoc robuster Weg Steig der Nichtparametrik Bonferroni Passage Sümpfe des multiplen Testens Benjamini Passage Nacht der angenommen Hypothesen Schlaraffia oder das Land des gelungen statistischen Nachweis Land des offenen Betrugs Datenanalyse und Statistik p.2/48

3 inteilung der Graphiken und Parameter Erste Variable diskret stetig keine X? zweite Variable diskret?? stetig? s.o. *stetige Daten diskrete Daten stetig stetig diskret diskret diskret stetig Datenanalyse und Statistik p.3/48

4 Diskrete Graphiken Kenngrössen Balkendiagramme Kuchendiagramme Tortendiagramm Datenanalyse und Statistik p.4/48

5 Datensatz > data(titanic) > ftable(titanic, col.vars = c("class", "Survived")) Class 1st 2nd 3rd Crew Survived No Yes No Yes No Yes No Yes Sex Age Male Child Adult Female Child Adult Datenanalyse und Statistik p.5/48

6 Kenngrössen Anteile: > margin(titanic, "Survived")/sum(Titanic) No Yes > margin(titanic, "Sex")/sum(Titanic) Male Female > margin(titanic, "Class")/sum(Titanic) 1st 2nd 3rd Crew Datenanalyse und Statistik p.6/48

7 Survived No Yes Balkendiagramm Geschlecht Klasse Male Female 1st 3rd Datenanalyse und Statistik p.7/48

8 Balkendiagramm Häufigkeiten werden als Flächen dargestellt. Häufigkeiten werden als Höhen dargestellt. Was sind die Unterschiede zum Histogramm? Was muß man bei ordinalen Daten beachten? Datenanalyse und Statistik p.8/48

9 Kuchendiagramme Survived Geschlecht No Male Yes Female Klasse 3rd 2nd 1st Crew Datenanalyse und Statistik p.9/48

10 Torte oder Diät Datenanalyse und Statistik p.10/48

11 Lesbare diskrete Graphiken Balkendiagramme Datenanalyse und Statistik p.11/48

12 Einteilung der Graphiken *stetige Daten *diskrete Daten stetig stetig diskret diskret diskret stetig Datenanalyse und Statistik p.12/48

13 Stetig Stetig Streudiagramm Kenngrößen für stetige Abhängigkeit QQ-plot Streudiagrammmatrix Datenanalyse und Statistik p.13/48

14 Streudiagramm Kelchblatt Sepal.Width Sepal.Length Datenanalyse und Statistik p.14/48

15 Streudiagramm Überlagerung bei Bindungen Verzerrung durch Ausreißer Probleme bei extremer Schiefe Nicht: Kenngrößen, nahe Ausreißer Datenanalyse und Statistik p.15/48

16 (Pearson) Korrelation cor(x Y ˆ ) = var(x) ˆ = var(y ˆ ) = cov(x Y ˆ ) = cov(x Y ˆ ) var(x) ˆ var(y ˆ ) 1 n 1 1 n 1 1 n 1 n (X i X) 2 i=1 n (Y i Ȳ )2 i=1 n (X i X)(Y i Ȳ ) i=1 Datenanalyse und Statistik p.16/48

17 Theoretischen Interpretation 1 cor(x Y ˆ ) 1 stochastisch unabhängig cov(x Y ) = 0 cor(x Y ) cor(x Y ˆ ) = 0 cor(x Y ) = 1 X Y cor(x Y ) = 1 X Y Datenanalyse und Statistik p.17/48

18 (Pearson) Korrelation cor(x,y)= 1 cor(x,y)= 0.75 cor(x,y)= 0.5 y y y X X X cor(x,y)= 0.25 cor(x,y)= 0 cor(x,y)= 0.25 y 2 1 y 2 1 y X X X cor(x,y)= 0.5 cor(x,y)= 0.75 cor(x,y)= 1 y 3 0 y 2 1 y X X X Datenanalyse und Statistik p.18/48

19 Motivation für Rangkorrelation y x Datenanalyse und Statistik p.19/48

20 Rangziffern r i = Rang der i-ten Beobachtung > x [1] > rank(x) [1] > y [1] [6] > rank(y) [1] Datenanalyse und Statistik p.20/48

21 Rangverfahren Idee: Ersetzte Daten durch ihren Rang Datenanalyse und Statistik p.21/48

22 Rangverfahren Idee: Ersetzte Daten durch ihren Rang Vorteil: Die Auswertbarkeit ist unabhängig von der Verteilung. Datenanalyse und Statistik p.21/48

23 Rangverfahren Idee: Ersetzte Daten durch ihren Rang Vorteil: Die Auswertbarkeit ist unabhängig von der Verteilung. Nachteil 1: Man verliert Information. Datenanalyse und Statistik p.21/48

24 Rangverfahren Idee: Ersetzte Daten durch ihren Rang Vorteil: Die Auswertbarkeit ist unabhängig von der Verteilung. Nachteil 1: Man verliert Information. Nachteil 2: Interpretation schwieriger. Datenanalyse und Statistik p.21/48

25 Rangverfahren Idee: Ersetzte Daten durch ihren Rang Vorteil: Die Auswertbarkeit ist unabhängig von der Verteilung. Nachteil 1: Man verliert Information. Nachteil 2: Interpretation schwieriger. Problem: Rangziffernbestimmung bei Bindungen problematisch Datenanalyse und Statistik p.21/48

26 Spearman Korrelation > plot(rank(x), rank(y)) rank(y) rank(x) Datenanalyse und Statistik p.22/48

27 Spearman Korrelation > cor(rank(x), rank(y)) [1] > cor(x, y, method = "spearman") [1] Datenanalyse und Statistik p.23/48

28 Vergleich Pearson Korrelation quantifiziert lineare Abhängigkeit Spearman Korrelation quantifiziert monotone Abhängigkeit Datenanalyse und Statistik p.24/48

29 Vergleich 100 Datensaetze a 100 Beobachtungen mit rho=0.70 Spearman Korrelation Pearson Korrelation Datenanalyse und Statistik p.25/48

30 Streudiagrammmatrix Sepal.Length Sepal.Width Petal.Length Petal.Width Species Datenanalyse und Statistik p.26/48

31 Einteilung der Graphiken *stetige Daten *diskrete Daten *stetig stetig diskret diskret diskret stetig Datenanalyse und Statistik p.27/48

32 diskret diskret gestapelte Balkendiagramme paralle Balkendiagramme Mosaikplots Datenanalyse und Statistik p.28/48

33 Passagiere der Titanic > data(titanic) > X <- apply(titanic, c(2, 3), sum) > X Age Sex Child Adult Male Female Datenanalyse und Statistik p.29/48

34 gestapelte Balkendiagramme Gestapeltes Balkendiagramm Child Adult Datenanalyse und Statistik p.30/48

35 parallele Balkendiagramme Paralleles Balkendiagramm Child Adult Datenanalyse und Statistik p.31/48

36 Vorbereitung auf Mosaikplot Mosaikplot Male Female Datenanalyse und Statistik p.32/48

37 Mosaikplot X Child Male Female Age Adult Sex Datenanalyse und Statistik p.33/48

38 Mosaikplot Titanic 1st 2nd 3rd Crew ChildAdult ChildAdult Child Adult Child Adult Female Yes No Sex Male Yes No Class Datenanalyse und Statistik p.34/48

39 Vergleich gestapelt parallel Mosaicplot Age Child Adult Male Female Child Adult Child Adult Sex gestapelt * parallel * Mosaicplot * Sex Male Female Child Adult Male Female Male Female Age Datenanalyse und Statistik p.35/48

40 Wer kann was? Überblick: stapeln Vergleich von Teilgruppen: parallel Bedingte Wahrscheinlichkeiten: Mosaik Datenanalyse und Statistik p.36/48

41 Einteilung der Graphiken *stetige Daten *diskrete Daten *stetig stetig *diskret diskret diskret stetig Datenanalyse und Statistik p.37/48

42 diskret stetig Farben und Symbole parallele Punktdiagramme parallele Boxplots gekerbte Boxplots Datenanalyse und Statistik p.38/48

43 Farben und Symbole Kelchblatt Sepal.Width Sepal.Length Datenanalyse und Statistik p.39/48

44 parallele Punktdiagramme Sepal.Length setosa versicolor virginica Datenanalyse und Statistik p.40/48

45 parallele Boxplot Petal.Width setosa versicolor virginica Datenanalyse und Statistik p.41/48

46 Boxplot (gekerbt) Sepal.Width setosa versicolor virginica Datenanalyse und Statistik p.42/48

47 Interpretation Sind die Mediane gleich so überlagern sich die Kerben mit einer Wahrscheinlichkeit von 95%. Überlagern sich die Kerben nicht, so ist das ein Hinweis auf verschiedene Mediane. Datenanalyse und Statistik p.43/48

48 Einteilung der Graphiken *stetige Daten *diskrete Daten *stetig stetig *diskret diskret diskret stetig Datenanalyse und Statistik p.44/48

49 Symbolik Kategorien Farben, Formen, Position Reelle Zahlen Position Positive Zahlen Position, Fläche, log Positionen Anzahlen, Wahrscheinlichkeiten Flächen, Höhen Dichten Höhe Datenanalyse und Statistik p.45/48

50 Zweck der Graphik Wie sind die Daten? Gibt es Ausreißer und Verteilungsbesonderheiten? Welche Zusammenhänge kann man erkennen/vermuten? Können wir unsere Vermutungen graphisch bestätigen? Wie geht es weiter? Datenanalyse und Statistik p.46/48

51 Fragen an die Graphiken Ist etwas ungewöhnlich? Warum? Wie sind die Daten verteilt? Gibt es Ausreißer oder Bindungen? Wird der optische Eindruck durch Besonderheiten verfälscht (z.b. Bindungen, zu kleine Balken, Überlagerung) Welche Abhängigkeiten sind erkennbar? Sind die Abhängigkeiten stark oder schwach, linear oder nichtlinear, zunehmen oder abnehmend? Entsprechend die Beobachtungen dem, was man inhaltlich erwarten würde? Was fällt sonst auf? Datenanalyse und Statistik p.47/48

52 Masszahlen Masszahlen werden verwendet um bestimmte Aspekte der Verteilung zusammenfassend darzustellen. Lage Streuung Form Zusammenhang Anteil fehlt noch: diskret-diskret, diskret-stetig (später R 2 ) Datenanalyse und Statistik p.48/48