Weitere Verfahren der Explorativen Datenanalyse Thomas Schäfer SS 9 1 Bisher behandelte Verfahren: Kurze Wiederholung Generelle Vorgehensweise bei Einzelstudien: 1. (Graphische) Veranschaulichung der Daten (was habe ich gefunden?) Deskriptive und Explorative Datenanalyse (Kennwerte, Tabellen, Abbildungen). Bestimmen der Bedeutsamkeit des Effekts Effektgrößen 3. Inferenzstatistik Standardfehler, Konfidenzintervalle, Signifikanztest Zusammenfassende Analyse vieler Studien Metaanalyse Thomas Schäfer SS 9 1
Bisher behandelte Verfahren: Kurze Wiederholung Stamm & Blatt Diagramm Box Plot Sonnenblumendiagramme Lowess & Potenzleiter Streuungsdiagramm Matrix Thomas Schäfer SS 9 3 Stamm & Blatt Diagramm Thomas Schäfer SS 9
Box Plot Rechenbeispiel 1: Körpergrößen der Studenten in cm: 17, 171, 17, 179, 179, 13, 13, 1, 17, 17, 1, 191, 191, 19, 19 Körpergröße in cm Stem-and-Leaf Plot Frequency Stem & Leaf 3, 17. 1, 17. 99 3, 1. 33 3, 1. 77 3, 19. 11 1, 19. Körp pergröße 195 19 15 1 175 17 Stem width: 1, Each leaf: 1 case(s) 15 N = 15 Studenten Thomas Schäfer SS 9 5 Box Plot 3,5, Durchschnittsnote 3,,5, 1,5 Note +- 1 SD,,, 1, 1, 1, 1, N = 31 ja 3 neini N = 31 ja 3 nein Chemnitz erste Wahl als Studienort Chemnitz erste Wahl als Studienort Thomas Schäfer SS 9 3
Sonnenblumendiagramme 3,5 3, Durchschnittsnote,5, 1,5 1, 1 1 3 Alter Thomas Schäfer SS 9 7 Sonnenblumendiagramme 3,5 Durchschnittsnote 3 3,,5, 1,5 1, 1 ja nein 3 Chemnitz erste Wahl als Studienort Thomas Schäfer SS 9
Lowess & Potenzleiter 7 7 ge Rating" "Knowledg 5 3 e Rating" "Knowledge 5 3 1 1 1 1 3 a) Originalwerte b) Exponent:,5 7 7 e Rating" "Knowledge 5 3 e Rating" "Knowledge 5 3 1 1 1 3 5 - c) Exponent:,5 d) Exponent: (ln) Demonstration des Prinzips der Potenzleiter mit Hilfe der LOWESS Prozedur Thomas Schäfer SS 9 9 Streuungsdiagramm Matrix RT (r =,11) (r = -,) (r =,93) IQ GENAU ANGST Thomas Schäfer SS 9 1 5
EDA: weitere Verfahren zur Illustration von Zusammenhängen Kartesische Plots vs. Polarplots Streuungsdiagramme g Variationen mit Box Plots Influence Plots mit Konfidenzlinien Bubble Plot, Mosaik Plot, Kontour Plot (dritte Variable) Q Plots Prinzip: Vergleich mit Gerade (Abweichungen P Plots leicht wahrnehmbar) Optimales Programm: SYSTAT Thomas Schäfer SS 9 11 Beispiele für kartesische Plots UES BLU 1 1 1 1 HNO TECH 1 1 1 1 ROCKNROL 1 1 1 1 JAZZ 1 1 1 1 Thomas Schäfer SS 9 1
Beispiele für Polarplots I 1 TECHNO 1 1 1 ROCKNROL 1 JAZZ 1 1 1 Thomas Schäfer SS 9 13 Beispiele für Polarplots II 1 1 3.....1. MU USIKALI 3 TECHNO 1 MU USIKALI 5 5 1 1 3 ROCKNROL 1 MUSIKALI 3 JAZZ 1 MUSIKALI 5 5 Thomas Schäfer SS 9 1 7
Streuungsdiagramm mit Box Plots Uni und bivariate Verteilungen auf einen Blick 11 1 Num merischer Test 9 7 5 1 1 1 1 Verbaler Test Thomas Schäfer SS 9 15 Influence Plot wie stark beeinflussen einzelne Punkte den Zusammenhang? 11 1 Nu umerischer Test 9 7 5 1 1 1 1 Verbaler Test Pearson r Influence.1.9..7..5..3..1. Thomas Schäfer SS 9 1
Influence Plot Beispiel mit extremem Wert ANGST 1 1 1 1 1 15 5 3 RT ANGST 1 1 1 1 1 15 5 3 RT Pearson r Influence.1.9..7..5..3..1. Thomas Schäfer SS 9 17 Streuungsdiagramm mit Konfidenzlinien 9% Konfidenzintervall für Regressionsgerade 11 1 Nu umerischer Test 9 7 5 1 1 1 1 Verbaler Test Thomas Schäfer SS 9 1 9
Einfluss von Drittvariablen: Bubble Plot muss Zusammenhang relativiert werden? Drittvariable: IQ (je höher IQ, desto größer Bubble) Num merischer Test 1 11 1 9 7 5 1 1 1 1 Verbaler Test Thomas Schäfer SS 9 19 Beispiel Einfluss der Drittvariable Anzahl der Bewerber Thomas Schäfer SS 9 1
Einfluss von Drittvariablen: Mosaikplot muss Zusammenhang relativiert werden? Drittvariable: IQ (wird durch die Farbe codiert) 11 1 Num merischer Test 9 7 5 1 1 1 1 Verbaler Test IQ 13 1 11 1 9 Thomas Schäfer SS 9 1 Einfluss von Drittvariablen: Kontourplot muss Zusammenhang relativiert werden? Drittvariable: IQ (wird durch Kontourlinien angezeigt) 11 1 1 erischer Test 9 7 11 1 13 Num 1 5 1 1 1 1 Verbaler Test Thomas Schäfer SS 9 11
Q Plots (Quantil Plots) Analyse der Häufigkeitsverteilung von Variablen erlauben Aussagen über die Symmetrie einer Verteilung benutzt werden die Quantile der Verteilungen, die eine Art Streuungsmaß darstellen Verteilungen können empirische oder theoretische sein Thomas Schäfer SS 9 Q Plot (einfaches Quantil Plot) Quantile werden gegen die Rohwerte abgetragen Gerade bei Gleichverteilung umgekehrt S förmige Beziehung bei Normalverteilung linksschiefe Verteilung n (Quantile) Anteil der Daten 1..9..7..5..3..1. 9 1 11 1 13 IQ n (Quantile) Anteil der Daten annähernd Gleichverteilung 1..9..7..5..3..1. 1 1 1 1 Verbaler Test Thomas Schäfer SS 9 1
Q Plot (einfaches Quantil Plot) Beispiel: Wohnungsgröße (nach dem SOEP ) Thomas Schäfer SS 9 5 Q Q Plot (Quantil Quantil Plot) zwei empirische Variablen haben zwei Variablen die gleiche Verteilung? (wenn ja, müsste Q Q Plot eine Gerade meist die Winkelhalbierende ergeben) 13 1 Einkommen Frauen vs. Einkommen Männer IQ 11 1 9 1 1 1 1 Verbaler Test Thomas Schäfer SS 9 13
Q Q Plot (Quantil Quantil Plot) empirische vs. theoretische Verteilung Vergleich einer empirischen mit einer theoretischen Verteilung (z.b. Normalverteilung: Normal Quantil Plot) Punkte sollten auf der Winkelhalbierenden klhlb liegen Normalverteilung der Wohnfläche? schiefe Verteilung Thomas Schäfer SS 9 7 Sonderform: Probability Plot (P Plot) im Gegensatz zu den Quantil Plots, die die Enden einer Verteilung betonen, wird hier die Mitte der Verteilung stärker betont hier werden die beobachteten kumulierten Wahrscheinlichkeiten gegen die erwarteten kumulierten Wahrscheinlichkeiten abgetragen auch hier sollte eine Gerade entstehen P Plot (Was sind kumulierte Wahrscheinlichkeiten?) Verteilung der Dichte kumulierte Verteilung Expected Value for Normal Distribution 1 zu hoch - 1 1 1 1 Verbaler Test Thomas Schäfer SS 9-1 zu niedrig 1
EDA: weitere Verfahren zur Illustration von multivariaten Zusammenhängen 3 D Smoother (DWLS) Rechteck Icons (3 Variablen) Star Plot, Variante (Icon Plot) Chernoff Gesichter Weitere Icon Plots Thomas Schäfer SS 9 9 DWLS: Distance Weighted Least Squares sozusagen eine Lowess Ebene für drei Variablen Thomas Schäfer SS 9 3 15
DWLS: Distance Weighted Least Squares (nach Dörr et al., ) Thomas Schäfer SS 9 31 Rechteck Icons Person 1 Person Person 3 Person Person 5 Person IQ: Füllung Verb. Test: Breite Num. Test: Höhe Person 7 Person Person 9 Person 1 Thomas Schäfer SS 9 3 1
Starplot, Variante jeder Plot bildet Werte für einen Fall (Case) ab Angst Genauigkeit Probleml. IQ RT Patient 1 Patient Patient 3 Patient Patient 5 Patient Patient 7 Patient Thomas Schäfer SS 9 33 Starplot, Variante Thomas Schäfer SS 9 3 17
Chernoff Gesichter Patient 1 Patient Patient 3 Patient Patient 5 Patient Patient 7 Patient Problemlösetest: Reaktionszeit: Genauigkeitstest: IQ: Angsttest: Ausmaß des Lächelns (Patient hat die meisten Aufgaben gelöst) Neigung der Augenbrauen (Patient 1 ist der schnellste) Breite der Nase (Patient 7 war am benauesten) Länge des Gesichts (Patient hat höchsten IQ) Länge der Haare (Patient hat höchsten Wert) Thomas Schäfer SS 9 35 Weitere Icon Plots Histogramm Plot Patient 1 Patient Patient 3 Patient Patient 5 Patient Patient 7 Patient Profil Plot Bei ungleichen Wertebereichen: z Transformation! Patient 1 Patient Patient 3 Patient Patient 5 Patient Patient 7 Patient Thomas Schäfer SS 9 3 1