Datenanalyse und Statistik

Ähnliche Dokumente
Datenanalyse und Statistik

Stochastik und Statistik

Überblick und Ausblick

2.Übung Stochastik und Statistik WS09/10 (Boogaart, Jansen)

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Statistik für Ingenieure Vorlesung 8

Musterlösung zur Aufgabensammlung Statistik I Teil 3

Statistik Vorlesung 7 (Lineare Regression)

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Univariates Datenmaterial

Einführung 17. Teil I Kopfüber eintauchen in die Statistik 23. Kapitel 1 Kategoriale Daten zusammenfassen: Häufigkeiten und Prozente 25

Einführung in die Korrelationsrechnung

Einführung in die Maximum Likelihood Methodik

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Skalenniveaus =,!=, >, <, +, -

Ein- und Zweistichprobentests

Tabellarische und graphie Darstellung von univariaten Daten

Eine computergestützte Einführung mit

Charakterisierung der Daten: Sind es genug? Sind alle notwendig? Was ist naturgegeben, was von Menschen beeinflusst (beeinflussbar)?

Klausur Statistik I. Dr. Andreas Voß Wintersemester 2005/06

Einführung in die computergestützte Datenanalyse

Teil: lineare Regression

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Fachrechnen für Tierpfleger

Deskriptive Statistik

Teil II: Einführung in die Statistik

1. Übungsblatt zu Wahrscheinlichkeitsrechnung und Statistik in den Ingenieurswissenschaften

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

1 Inhaltsverzeichnis. 1 Einführung...1

P (X = 2) = 1/36, P (X = 3) = 2/36,...

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Biostatistik Erne Einfuhrung fur Biowissenschaftler

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Übungsbuch Statistik für Dummies

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Methodik für Linguisten

Statistik, Geostatistik

- Beschreibung der Stichprobe(n-Häufigkeitsverteilung) <- Ermittlung deskriptiver Maßzahlen (Mittelungsmaße, Variationsmaße, Formparameter)

I. Deskriptive Statistik 1

4. Kumulierte Häufigkeiten und Quantile

Statistik und Wahrscheinlichkeitsrechnung

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Statistik. Jan Müller

THEMA: ZUSAMMENHANGSANALYSEN FÜR KATEGORIALE VARIABLEN " TORSTEN SCHOLZ

Modul G.1 WS 07/08: Statistik

Kategorielle Daten. Seminar für Statistik Markus Kalisch

Tutorial: Rangkorrelation

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06.

Einführung in die Statistik mit EXCEL und SPSS

1.6 Der Vorzeichentest

Verteilungsfunktion und dquantile

Einführung in R. Kapitel 2 : Einfache Statistische Auswertungen

Nachhol-Klausur - Schätzen und Testen - Wintersemester 2013/14

Statistik für Psychologen und Sozialwissenschaftler

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE

9. Kapitel: Grafische Darstellung quantitativer Informationen

Zusammenhänge zwischen metrischen Merkmalen

Statistik ohne Angst vor Formeln

2 Beschreibende Statistik

Korrelation - Regression. Berghold, IMI

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Sozialwissenschaftliche Datenanalyse mit R

Assoziation & Korrelation

Assoziation & Korrelation

Übungsblatt 9. f(x) = e x, für 0 x

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.)

TU Bergakademie Freiberg Datenanalyse/Statistik Wintersemester 2016/ Übungsblatt

Einführung in die Wahrscheinlichkeitsrechnung und Statistik für Ingenieure

Einfache Statistiken in Excel

Grundlagen der Statistik

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

5 Erwartungswerte, Varianzen und Kovarianzen

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Grundlagen der Probabilistik

Kapitel 1: Deskriptive Statistik

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Lineare Korrelation. Statistik für SozialwissenschaftlerInnen II p.143

Elisabeth Raab-Steiner/ Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS-Auswertung. 3., aktualisierte und überarbeitete Auflage

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

3. Deskriptive Statistik

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

Transkript:

Datenanalyse und Statistik Vorlesung 3 (Graphik II) K.Gerald van den Boogaart http://www.stat.boogaart.de Datenanalyse und Statistik p.1/48

Daten Schätzung Test Mathe Die Datenminen Riesige Halde mit nichtrepräsentativen Daten Die unwegsamen Ausreißerberge Bayes-Land Gletscherspalte der gleichen Messwerte Klippe der unüberprüfbaren Voraussetzungen Vorhersagebereich Rangviertel ML-City Schätzervorstadt Statistika Modell-Platz Aussichtsturm Grafingen Vertrauensbereich Normalviertel Klippe der unüberprüfbaren Voraussetzungen Sequenzielle Passage Momentenmethoden u. Lineare Modelle t-dorf Steppe der unwesentlich verletzten Voraussetzungen Todeswüste, der nicht erfüllten Voraussetzungen Posthoc robuster Weg Steig der Nichtparametrik Bonferroni Passage Sümpfe des multiplen Testens Benjamini Passage Nacht der angenommen Hypothesen Schlaraffia oder das Land des gelungen statistischen Nachweis Land des offenen Betrugs Datenanalyse und Statistik p.2/48

inteilung der Graphiken und Parameter Erste Variable diskret stetig keine X? zweite Variable diskret?? stetig? s.o. *stetige Daten diskrete Daten stetig stetig diskret diskret diskret stetig Datenanalyse und Statistik p.3/48

Diskrete Graphiken Kenngrössen Balkendiagramme Kuchendiagramme Tortendiagramm Datenanalyse und Statistik p.4/48

Datensatz > data(titanic) > ftable(titanic, col.vars = c("class", "Survived")) Class 1st 2nd 3rd Crew Survived No Yes No Yes No Yes No Yes Sex Age Male Child 0 5 0 11 35 13 0 0 Adult 118 57 154 14 387 75 670 192 Female Child 0 1 0 13 17 14 0 0 Adult 4 140 13 80 89 76 3 20 Datenanalyse und Statistik p.5/48

Kenngrössen Anteile: > margin(titanic, "Survived")/sum(Titanic) No Yes 0.676965 0.323035 > margin(titanic, "Sex")/sum(Titanic) Male Female 0.7864607 0.2135393 > margin(titanic, "Class")/sum(Titanic) 1st 2nd 3rd Crew 0.1476602 0.1294866 0.3207633 0.4020900 Datenanalyse und Statistik p.6/48

Survived No Yes Balkendiagramm Geschlecht Klasse Male Female 1st 3rd 0 200 400 600 800 1000 1200 1400 0 500 1000 1500 0 200 400 600 800 Datenanalyse und Statistik p.7/48

Balkendiagramm Häufigkeiten werden als Flächen dargestellt. Häufigkeiten werden als Höhen dargestellt. Was sind die Unterschiede zum Histogramm? Was muß man bei ordinalen Daten beachten? Datenanalyse und Statistik p.8/48

Kuchendiagramme Survived Geschlecht No Male Yes Female Klasse 3rd 2nd 1st Crew Datenanalyse und Statistik p.9/48

Torte oder Diät Datenanalyse und Statistik p.10/48

Lesbare diskrete Graphiken Balkendiagramme Datenanalyse und Statistik p.11/48

Einteilung der Graphiken *stetige Daten *diskrete Daten stetig stetig diskret diskret diskret stetig Datenanalyse und Statistik p.12/48

Stetig Stetig Streudiagramm Kenngrößen für stetige Abhängigkeit QQ-plot Streudiagrammmatrix Datenanalyse und Statistik p.13/48

Streudiagramm Kelchblatt Sepal.Width 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 Sepal.Length Datenanalyse und Statistik p.14/48

Streudiagramm Überlagerung bei Bindungen Verzerrung durch Ausreißer Probleme bei extremer Schiefe Nicht: Kenngrößen, nahe Ausreißer Datenanalyse und Statistik p.15/48

(Pearson) Korrelation cor(x Y ˆ ) = var(x) ˆ = var(y ˆ ) = cov(x Y ˆ ) = cov(x Y ˆ ) var(x) ˆ var(y ˆ ) 1 n 1 1 n 1 1 n 1 n (X i X) 2 i=1 n (Y i Ȳ )2 i=1 n (X i X)(Y i Ȳ ) i=1 Datenanalyse und Statistik p.16/48

Theoretischen Interpretation 1 cor(x Y ˆ ) 1 stochastisch unabhängig cov(x Y ) = 0 cor(x Y ) cor(x Y ˆ ) = 0 cor(x Y ) = 1 X Y cor(x Y ) = 1 X Y Datenanalyse und Statistik p.17/48

(Pearson) Korrelation cor(x,y)= 1 cor(x,y)= 0.75 cor(x,y)= 0.5 y 2 0 2 y 2 0 2 y 2 0 2 2 0 1 2 X 3 1 1 X 2 0 1 2 X cor(x,y)= 0.25 cor(x,y)= 0 cor(x,y)= 0.25 y 2 1 y 2 1 y 2 0 2 3 1 1 3 X 2 0 1 2 3 X 2 0 1 2 X cor(x,y)= 0.5 cor(x,y)= 0.75 cor(x,y)= 1 y 3 0 y 2 1 y 3 0 2 3 1 1 X 2 0 2 X 3 1 1 2 X Datenanalyse und Statistik p.18/48

Motivation für Rangkorrelation y 0 5000 10000 15000 20000 2 4 6 8 10 x Datenanalyse und Statistik p.19/48

Rangziffern r i = Rang der i-ten Beobachtung > x [1] 1 2 3 4 5 6 7 8 9 10 > rank(x) [1] 1 2 3 4 5 6 7 8 9 10 > y [1] 2.779503 18.921920 20.085738 58.939377 258.5673 [6] 336.015749 3363.618127 2066.773392 7509.013289 22366.0418 > rank(y) [1] 1 2 3 4 5 6 8 7 9 10 Datenanalyse und Statistik p.20/48

Rangverfahren Idee: Ersetzte Daten durch ihren Rang Datenanalyse und Statistik p.21/48

Rangverfahren Idee: Ersetzte Daten durch ihren Rang Vorteil: Die Auswertbarkeit ist unabhängig von der Verteilung. Datenanalyse und Statistik p.21/48

Rangverfahren Idee: Ersetzte Daten durch ihren Rang Vorteil: Die Auswertbarkeit ist unabhängig von der Verteilung. Nachteil 1: Man verliert Information. Datenanalyse und Statistik p.21/48

Rangverfahren Idee: Ersetzte Daten durch ihren Rang Vorteil: Die Auswertbarkeit ist unabhängig von der Verteilung. Nachteil 1: Man verliert Information. Nachteil 2: Interpretation schwieriger. Datenanalyse und Statistik p.21/48

Rangverfahren Idee: Ersetzte Daten durch ihren Rang Vorteil: Die Auswertbarkeit ist unabhängig von der Verteilung. Nachteil 1: Man verliert Information. Nachteil 2: Interpretation schwieriger. Problem: Rangziffernbestimmung bei Bindungen problematisch Datenanalyse und Statistik p.21/48

Spearman Korrelation > plot(rank(x), rank(y)) rank(y) 2 4 6 8 10 2 4 6 8 10 rank(x) Datenanalyse und Statistik p.22/48

Spearman Korrelation > cor(rank(x), rank(y)) [1] 0.9878788 > cor(x, y, method = "spearman") [1] 0.9878788 Datenanalyse und Statistik p.23/48

Vergleich Pearson Korrelation quantifiziert lineare Abhängigkeit Spearman Korrelation quantifiziert monotone Abhängigkeit Datenanalyse und Statistik p.24/48

Vergleich 100 Datensaetze a 100 Beobachtungen mit rho=0.70 Spearman Korrelation 0.60 0.65 0.70 0.75 0.65 0.70 0.75 Pearson Korrelation Datenanalyse und Statistik p.25/48

Streudiagrammmatrix 2.0 3.0 4.0 0.5 1.5 2.5 Sepal.Length 4.5 6.0 7.5 2.0 3.0 4.0 Sepal.Width Petal.Length 1 3 5 7 0.5 1.5 2.5 Petal.Width Species 1.0 2.0 3.0 4.5 6.0 7.5 1 3 5 7 1.0 2.0 3.0 Datenanalyse und Statistik p.26/48

Einteilung der Graphiken *stetige Daten *diskrete Daten *stetig stetig diskret diskret diskret stetig Datenanalyse und Statistik p.27/48

diskret diskret gestapelte Balkendiagramme paralle Balkendiagramme Mosaikplots Datenanalyse und Statistik p.28/48

Passagiere der Titanic > data(titanic) > X <- apply(titanic, c(2, 3), sum) > X Age Sex Child Adult Male 64 1667 Female 45 425 Datenanalyse und Statistik p.29/48

gestapelte Balkendiagramme Gestapeltes Balkendiagramm 0 500 1000 1500 2000 Child Adult Datenanalyse und Statistik p.30/48

parallele Balkendiagramme Paralleles Balkendiagramm 0 500 1000 1500 Child Adult Datenanalyse und Statistik p.31/48

Vorbereitung auf Mosaikplot Mosaikplot Male Female Datenanalyse und Statistik p.32/48

Mosaikplot X Child Male Female Age Adult Sex Datenanalyse und Statistik p.33/48

Mosaikplot Titanic 1st 2nd 3rd Crew ChildAdult ChildAdult Child Adult Child Adult Female Yes No Sex Male Yes No Class Datenanalyse und Statistik p.34/48

Vergleich gestapelt parallel Mosaicplot 0 500 1500 0 500 1000 1500 Age Child Adult Male Female Child Adult Child Adult Sex gestapelt * parallel * Mosaicplot * 0 500 1000 1500 0 500 1000 1500 Sex Male Female Child Adult Male Female Male Female Age Datenanalyse und Statistik p.35/48

Wer kann was? Überblick: stapeln Vergleich von Teilgruppen: parallel Bedingte Wahrscheinlichkeiten: Mosaik Datenanalyse und Statistik p.36/48

Einteilung der Graphiken *stetige Daten *diskrete Daten *stetig stetig *diskret diskret diskret stetig Datenanalyse und Statistik p.37/48

diskret stetig Farben und Symbole parallele Punktdiagramme parallele Boxplots gekerbte Boxplots Datenanalyse und Statistik p.38/48

Farben und Symbole Kelchblatt Sepal.Width 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 Sepal.Length Datenanalyse und Statistik p.39/48

parallele Punktdiagramme Sepal.Length setosa versicolor virginica 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 Datenanalyse und Statistik p.40/48

parallele Boxplot Petal.Width 0.5 1.0 1.5 2.0 2.5 setosa versicolor virginica Datenanalyse und Statistik p.41/48

Boxplot (gekerbt) Sepal.Width 2.0 2.5 3.0 3.5 4.0 setosa versicolor virginica Datenanalyse und Statistik p.42/48

Interpretation Sind die Mediane gleich so überlagern sich die Kerben mit einer Wahrscheinlichkeit von 95%. Überlagern sich die Kerben nicht, so ist das ein Hinweis auf verschiedene Mediane. Datenanalyse und Statistik p.43/48

Einteilung der Graphiken *stetige Daten *diskrete Daten *stetig stetig *diskret diskret diskret stetig Datenanalyse und Statistik p.44/48

Symbolik Kategorien Farben, Formen, Position Reelle Zahlen Position Positive Zahlen Position, Fläche, log Positionen Anzahlen, Wahrscheinlichkeiten Flächen, Höhen Dichten Höhe Datenanalyse und Statistik p.45/48

Zweck der Graphik Wie sind die Daten? Gibt es Ausreißer und Verteilungsbesonderheiten? Welche Zusammenhänge kann man erkennen/vermuten? Können wir unsere Vermutungen graphisch bestätigen? Wie geht es weiter? Datenanalyse und Statistik p.46/48

Fragen an die Graphiken Ist etwas ungewöhnlich? Warum? Wie sind die Daten verteilt? Gibt es Ausreißer oder Bindungen? Wird der optische Eindruck durch Besonderheiten verfälscht (z.b. Bindungen, zu kleine Balken, Überlagerung) Welche Abhängigkeiten sind erkennbar? Sind die Abhängigkeiten stark oder schwach, linear oder nichtlinear, zunehmen oder abnehmend? Entsprechend die Beobachtungen dem, was man inhaltlich erwarten würde? Was fällt sonst auf? Datenanalyse und Statistik p.47/48

Masszahlen Masszahlen werden verwendet um bestimmte Aspekte der Verteilung zusammenfassend darzustellen. Lage Streuung Form Zusammenhang Anteil fehlt noch: diskret-diskret, diskret-stetig (später R 2 ) Datenanalyse und Statistik p.48/48