Datenanalyse und Statistik Vorlesung 3 (Graphik II) K.Gerald van den Boogaart http://www.stat.boogaart.de Datenanalyse und Statistik p.1/48
Daten Schätzung Test Mathe Die Datenminen Riesige Halde mit nichtrepräsentativen Daten Die unwegsamen Ausreißerberge Bayes-Land Gletscherspalte der gleichen Messwerte Klippe der unüberprüfbaren Voraussetzungen Vorhersagebereich Rangviertel ML-City Schätzervorstadt Statistika Modell-Platz Aussichtsturm Grafingen Vertrauensbereich Normalviertel Klippe der unüberprüfbaren Voraussetzungen Sequenzielle Passage Momentenmethoden u. Lineare Modelle t-dorf Steppe der unwesentlich verletzten Voraussetzungen Todeswüste, der nicht erfüllten Voraussetzungen Posthoc robuster Weg Steig der Nichtparametrik Bonferroni Passage Sümpfe des multiplen Testens Benjamini Passage Nacht der angenommen Hypothesen Schlaraffia oder das Land des gelungen statistischen Nachweis Land des offenen Betrugs Datenanalyse und Statistik p.2/48
inteilung der Graphiken und Parameter Erste Variable diskret stetig keine X? zweite Variable diskret?? stetig? s.o. *stetige Daten diskrete Daten stetig stetig diskret diskret diskret stetig Datenanalyse und Statistik p.3/48
Diskrete Graphiken Kenngrössen Balkendiagramme Kuchendiagramme Tortendiagramm Datenanalyse und Statistik p.4/48
Datensatz > data(titanic) > ftable(titanic, col.vars = c("class", "Survived")) Class 1st 2nd 3rd Crew Survived No Yes No Yes No Yes No Yes Sex Age Male Child 0 5 0 11 35 13 0 0 Adult 118 57 154 14 387 75 670 192 Female Child 0 1 0 13 17 14 0 0 Adult 4 140 13 80 89 76 3 20 Datenanalyse und Statistik p.5/48
Kenngrössen Anteile: > margin(titanic, "Survived")/sum(Titanic) No Yes 0.676965 0.323035 > margin(titanic, "Sex")/sum(Titanic) Male Female 0.7864607 0.2135393 > margin(titanic, "Class")/sum(Titanic) 1st 2nd 3rd Crew 0.1476602 0.1294866 0.3207633 0.4020900 Datenanalyse und Statistik p.6/48
Survived No Yes Balkendiagramm Geschlecht Klasse Male Female 1st 3rd 0 200 400 600 800 1000 1200 1400 0 500 1000 1500 0 200 400 600 800 Datenanalyse und Statistik p.7/48
Balkendiagramm Häufigkeiten werden als Flächen dargestellt. Häufigkeiten werden als Höhen dargestellt. Was sind die Unterschiede zum Histogramm? Was muß man bei ordinalen Daten beachten? Datenanalyse und Statistik p.8/48
Kuchendiagramme Survived Geschlecht No Male Yes Female Klasse 3rd 2nd 1st Crew Datenanalyse und Statistik p.9/48
Torte oder Diät Datenanalyse und Statistik p.10/48
Lesbare diskrete Graphiken Balkendiagramme Datenanalyse und Statistik p.11/48
Einteilung der Graphiken *stetige Daten *diskrete Daten stetig stetig diskret diskret diskret stetig Datenanalyse und Statistik p.12/48
Stetig Stetig Streudiagramm Kenngrößen für stetige Abhängigkeit QQ-plot Streudiagrammmatrix Datenanalyse und Statistik p.13/48
Streudiagramm Kelchblatt Sepal.Width 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 Sepal.Length Datenanalyse und Statistik p.14/48
Streudiagramm Überlagerung bei Bindungen Verzerrung durch Ausreißer Probleme bei extremer Schiefe Nicht: Kenngrößen, nahe Ausreißer Datenanalyse und Statistik p.15/48
(Pearson) Korrelation cor(x Y ˆ ) = var(x) ˆ = var(y ˆ ) = cov(x Y ˆ ) = cov(x Y ˆ ) var(x) ˆ var(y ˆ ) 1 n 1 1 n 1 1 n 1 n (X i X) 2 i=1 n (Y i Ȳ )2 i=1 n (X i X)(Y i Ȳ ) i=1 Datenanalyse und Statistik p.16/48
Theoretischen Interpretation 1 cor(x Y ˆ ) 1 stochastisch unabhängig cov(x Y ) = 0 cor(x Y ) cor(x Y ˆ ) = 0 cor(x Y ) = 1 X Y cor(x Y ) = 1 X Y Datenanalyse und Statistik p.17/48
(Pearson) Korrelation cor(x,y)= 1 cor(x,y)= 0.75 cor(x,y)= 0.5 y 2 0 2 y 2 0 2 y 2 0 2 2 0 1 2 X 3 1 1 X 2 0 1 2 X cor(x,y)= 0.25 cor(x,y)= 0 cor(x,y)= 0.25 y 2 1 y 2 1 y 2 0 2 3 1 1 3 X 2 0 1 2 3 X 2 0 1 2 X cor(x,y)= 0.5 cor(x,y)= 0.75 cor(x,y)= 1 y 3 0 y 2 1 y 3 0 2 3 1 1 X 2 0 2 X 3 1 1 2 X Datenanalyse und Statistik p.18/48
Motivation für Rangkorrelation y 0 5000 10000 15000 20000 2 4 6 8 10 x Datenanalyse und Statistik p.19/48
Rangziffern r i = Rang der i-ten Beobachtung > x [1] 1 2 3 4 5 6 7 8 9 10 > rank(x) [1] 1 2 3 4 5 6 7 8 9 10 > y [1] 2.779503 18.921920 20.085738 58.939377 258.5673 [6] 336.015749 3363.618127 2066.773392 7509.013289 22366.0418 > rank(y) [1] 1 2 3 4 5 6 8 7 9 10 Datenanalyse und Statistik p.20/48
Rangverfahren Idee: Ersetzte Daten durch ihren Rang Datenanalyse und Statistik p.21/48
Rangverfahren Idee: Ersetzte Daten durch ihren Rang Vorteil: Die Auswertbarkeit ist unabhängig von der Verteilung. Datenanalyse und Statistik p.21/48
Rangverfahren Idee: Ersetzte Daten durch ihren Rang Vorteil: Die Auswertbarkeit ist unabhängig von der Verteilung. Nachteil 1: Man verliert Information. Datenanalyse und Statistik p.21/48
Rangverfahren Idee: Ersetzte Daten durch ihren Rang Vorteil: Die Auswertbarkeit ist unabhängig von der Verteilung. Nachteil 1: Man verliert Information. Nachteil 2: Interpretation schwieriger. Datenanalyse und Statistik p.21/48
Rangverfahren Idee: Ersetzte Daten durch ihren Rang Vorteil: Die Auswertbarkeit ist unabhängig von der Verteilung. Nachteil 1: Man verliert Information. Nachteil 2: Interpretation schwieriger. Problem: Rangziffernbestimmung bei Bindungen problematisch Datenanalyse und Statistik p.21/48
Spearman Korrelation > plot(rank(x), rank(y)) rank(y) 2 4 6 8 10 2 4 6 8 10 rank(x) Datenanalyse und Statistik p.22/48
Spearman Korrelation > cor(rank(x), rank(y)) [1] 0.9878788 > cor(x, y, method = "spearman") [1] 0.9878788 Datenanalyse und Statistik p.23/48
Vergleich Pearson Korrelation quantifiziert lineare Abhängigkeit Spearman Korrelation quantifiziert monotone Abhängigkeit Datenanalyse und Statistik p.24/48
Vergleich 100 Datensaetze a 100 Beobachtungen mit rho=0.70 Spearman Korrelation 0.60 0.65 0.70 0.75 0.65 0.70 0.75 Pearson Korrelation Datenanalyse und Statistik p.25/48
Streudiagrammmatrix 2.0 3.0 4.0 0.5 1.5 2.5 Sepal.Length 4.5 6.0 7.5 2.0 3.0 4.0 Sepal.Width Petal.Length 1 3 5 7 0.5 1.5 2.5 Petal.Width Species 1.0 2.0 3.0 4.5 6.0 7.5 1 3 5 7 1.0 2.0 3.0 Datenanalyse und Statistik p.26/48
Einteilung der Graphiken *stetige Daten *diskrete Daten *stetig stetig diskret diskret diskret stetig Datenanalyse und Statistik p.27/48
diskret diskret gestapelte Balkendiagramme paralle Balkendiagramme Mosaikplots Datenanalyse und Statistik p.28/48
Passagiere der Titanic > data(titanic) > X <- apply(titanic, c(2, 3), sum) > X Age Sex Child Adult Male 64 1667 Female 45 425 Datenanalyse und Statistik p.29/48
gestapelte Balkendiagramme Gestapeltes Balkendiagramm 0 500 1000 1500 2000 Child Adult Datenanalyse und Statistik p.30/48
parallele Balkendiagramme Paralleles Balkendiagramm 0 500 1000 1500 Child Adult Datenanalyse und Statistik p.31/48
Vorbereitung auf Mosaikplot Mosaikplot Male Female Datenanalyse und Statistik p.32/48
Mosaikplot X Child Male Female Age Adult Sex Datenanalyse und Statistik p.33/48
Mosaikplot Titanic 1st 2nd 3rd Crew ChildAdult ChildAdult Child Adult Child Adult Female Yes No Sex Male Yes No Class Datenanalyse und Statistik p.34/48
Vergleich gestapelt parallel Mosaicplot 0 500 1500 0 500 1000 1500 Age Child Adult Male Female Child Adult Child Adult Sex gestapelt * parallel * Mosaicplot * 0 500 1000 1500 0 500 1000 1500 Sex Male Female Child Adult Male Female Male Female Age Datenanalyse und Statistik p.35/48
Wer kann was? Überblick: stapeln Vergleich von Teilgruppen: parallel Bedingte Wahrscheinlichkeiten: Mosaik Datenanalyse und Statistik p.36/48
Einteilung der Graphiken *stetige Daten *diskrete Daten *stetig stetig *diskret diskret diskret stetig Datenanalyse und Statistik p.37/48
diskret stetig Farben und Symbole parallele Punktdiagramme parallele Boxplots gekerbte Boxplots Datenanalyse und Statistik p.38/48
Farben und Symbole Kelchblatt Sepal.Width 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 Sepal.Length Datenanalyse und Statistik p.39/48
parallele Punktdiagramme Sepal.Length setosa versicolor virginica 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 Datenanalyse und Statistik p.40/48
parallele Boxplot Petal.Width 0.5 1.0 1.5 2.0 2.5 setosa versicolor virginica Datenanalyse und Statistik p.41/48
Boxplot (gekerbt) Sepal.Width 2.0 2.5 3.0 3.5 4.0 setosa versicolor virginica Datenanalyse und Statistik p.42/48
Interpretation Sind die Mediane gleich so überlagern sich die Kerben mit einer Wahrscheinlichkeit von 95%. Überlagern sich die Kerben nicht, so ist das ein Hinweis auf verschiedene Mediane. Datenanalyse und Statistik p.43/48
Einteilung der Graphiken *stetige Daten *diskrete Daten *stetig stetig *diskret diskret diskret stetig Datenanalyse und Statistik p.44/48
Symbolik Kategorien Farben, Formen, Position Reelle Zahlen Position Positive Zahlen Position, Fläche, log Positionen Anzahlen, Wahrscheinlichkeiten Flächen, Höhen Dichten Höhe Datenanalyse und Statistik p.45/48
Zweck der Graphik Wie sind die Daten? Gibt es Ausreißer und Verteilungsbesonderheiten? Welche Zusammenhänge kann man erkennen/vermuten? Können wir unsere Vermutungen graphisch bestätigen? Wie geht es weiter? Datenanalyse und Statistik p.46/48
Fragen an die Graphiken Ist etwas ungewöhnlich? Warum? Wie sind die Daten verteilt? Gibt es Ausreißer oder Bindungen? Wird der optische Eindruck durch Besonderheiten verfälscht (z.b. Bindungen, zu kleine Balken, Überlagerung) Welche Abhängigkeiten sind erkennbar? Sind die Abhängigkeiten stark oder schwach, linear oder nichtlinear, zunehmen oder abnehmend? Entsprechend die Beobachtungen dem, was man inhaltlich erwarten würde? Was fällt sonst auf? Datenanalyse und Statistik p.47/48
Masszahlen Masszahlen werden verwendet um bestimmte Aspekte der Verteilung zusammenfassend darzustellen. Lage Streuung Form Zusammenhang Anteil fehlt noch: diskret-diskret, diskret-stetig (später R 2 ) Datenanalyse und Statistik p.48/48