Teil IV Deskriptive Statistik

Woche 5: Deskriptive Statistik Teil IV Deskriptive Statistik WBL 15/17, 18.05.2015 Alain Hauser <alain.hauser@bfh.ch> Berner Fachhochschule, Technik und Informatik Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 2 / 31 Lernziele Arbeitsschritte der Datenanalyse Sie können...... Kenngrössen von Stichproben berechnen, auf Papier und mit R: arithmetisches Mittel, empirische Standardabweichung und Varianz, Median, Quantile... die empirische Korrelation zweier Grössen mit Hilfe verschiedener Kennzahlen berechnen... die Unterschide der empirischen Kenngrössen zu den entsprechenden Kennzahlen bei Zufallsvariablen nennen... Plots zeichnen und lesen, die eine numerische Stichprobe visualisieren: Histogramm, Boxplot, empirische kumulative Verteilungsfunktion, Dichtekurve... Vor- und Nachteile der obenstehenden Plots benennen. Vorlesung basiert auf Kapitel 4.3 des Skripts. Modell generieren Daten messen Daten inspizieren statistische Inferenz Interpretation Wahrscheinlichkeitsrechnung deskriptive Statistik schliessende Statistik Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 3 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 4 / 31

Deskriptive und schliessende Statistik Von Modellen zu Daten Deskriptive Statistik Überblick über Datensätze Verteilungen visualisieren auffällige Eigenschaften finden Verteilungen mit wenigen Kenngrössen beschreiben Schliessende Statistik aus Daten Schlüsse ziehen Parameter schätzen Hypothesen testen Bisher probabilistische Modelle betrachtet Rest des Kurses: Analyse von Daten, die von realen System erzeugt wurden Im Folgenden nehmen wir an, x 1, x 2,..., x n seien n Messungen derselben Grösse Übliche Annahme: n unabhängige Messungen von gleicher Wahrscheinlichkeitsverteilung Formal: Modell: Stichprobe: X 1, X 2,..., X n i.i.d. F X ( ), x 1, x 2,..., x n i.i.d.: independent and identically distributed, unabhängig und identisch verteilt Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 5 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 6 / 31 Kenngrössen für eine einzelne Stichprobe Deskriptive Statistik für eine einzelne Stichprobe Mittelwert empirische Varianz und Standardabweichung empirischer Median empirische Quantile Beispieldatensatz: Aktivitätsniveau von Monoamine-Oxidase (MAO) in 18 Patienten mit einem gewissen Typ Schizophrenie Messwerte x 1 bis x 1 8 MAO: Enzym, das vermutlich das Verhalten beeinflusst, und dessen Aktivität durch Schizophrenie beeinträchtigt sein kann (Quelle: Potkin et al. (1978)) Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 7 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 8 / 31

Mittelwert (arithmetisches Mittel) Empirische Varianz Arithmetisches Mittel: x = x 1 +... + x n = 1 n n n R-Funktion: mean Arithmetisches Mittel ist ein konsistenter Schätzer für den Erwartungswert µ = E[X ]: X = 1 n x i n X i µ wenn n Arithmetisches Mittel ist erwartungstreu (engl. unbiased ): x Empirische Varianz: sx 2 = 1 n (x i x) 2 (s x : n 1 empirische Standardabweichung) R-Funktionen: var, sd Empirische Varianz ist ein konsistenter Schätzer für σ 2 = Var(X ): s 2 x σ 2 wenn n Empirische Varianz ist erwartungstreu: x + s x x x s x E[X ] = µ E[s 2 x ] = σ 2 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 9 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 10 / 31 Empirischer Median Mittelwert und Median: Vergleich Empirischer Median: Wert, der grösser (oder gleich) ist als die Hälfte der Datenpunkte kleiner (oder gleich) ist als die andere Hälfte der Datenpunkte Berechnung: Messwerte ordnen x (1) x (2)... x (n). Median: { x m = ((n+1)/2), falls n gerade ist, 1 2 (x (n/2) + x (n/2+1) ), sonst R-Funktion: median x m xm 10 20 30 40 50 mx 10 20 30 40 50 mx 10 20 30 40 50 m x Median ist robust, Mittelwert nicht! 10 20 30 40 50 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 11 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 12 / 31

Quantile Graphische Darstellungen einer einzelnen Stichprobe Verallgemeinerung des Konzepts des Medians Empirisches α-quantil: Wert q α, der grösser (oder gleich) ist als α n Messwerte, und kleiner (oder gleich) ist als (1 α) n Messwerte Berechnung: Daten sortieren: x (1) x (2)... x (n) Falls α (n 1) eine ganze Zahl ist, ist qα = x (α(n 1)+1) ; ansonsten interpoliert q α zwischen x ( α(n 1) +1) und x ( α(n 1) +1) R-Funktion: quantile Histogramm Boxplot Empirische kumulative Verteilungsfunktion später: Q-Q (Quantil-Quantil)-Plot Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 13 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 14 / 31 Histogramm Histogramm: Wahl der Intervall-Breite 0.00 0.04 0.08 0.12 Histogram of x 20 Bereich der gemessenen Werte wird in Intervalle (c k 1, c k ] unterteilt Bsp.: c k = 4, 6, 8, 10, 12, 14, 16, 18, 20 Anzahl Messwerte in jedem Intervall zählen: h k := #{i x i (c k 1, c k ]} Bsp.: h k = 2, 5, 4, 3, 1, 2, 0, 1 Über Intervall (c k 1, c k ] h k Dichte n(c k c k 1 ) einzeichnen (oder absolute Häufigkeiten h k ) Wie wählen wir die Intervall-Breite eines Histogramms? 0.00 0.04 0.08 0.00 0.10 0.20 4 bins 0 20 15 bins 0.00 0.06 0.12 0.00 0.10 0.20 8 bins 20 30 bins Herumspielen, oder R automatisch wählen lassen Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 15 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 16 / 31

Histogramm für bimodale Verteilung Nichtparametrische Dichteschätzung 0.00 0.10 0.20 0 2 4 6 8 10 12 14 0.00 0.10 0.20 0 2 4 6 8 10 12 Achtung: schlecht gewählte Intervall-Breite kann Eigenschaften (hier: Bimodalität) verschleiern! Nachteile von Histogrammen Darstellungsqualität stark von Histogrammbreite abhängig Sprünge der geschätzten Wahrscheinlichkeitsdichte an Intervallgrenzen unrealistisch Alternative: nichtparametrische Dichteschätzung Verbesserungen ggü. Histogramm: Datenpunkte nicht in vordefiniertem Intervall zählen, sondern in sliding window Punkte in der Mitte des sliding window mehr Gewicht geben als Punkte am Rand Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 17 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 18 / 31 Kerndichteschätzer Wahl der Bandbreite Gegeben: Messwerte x 1, x 2,..., x n Kerndichteschätzer für Dichte der erzeugenden Verteilung ist ˆf (x) = 1 nh n ( ) x xi K ; h K heisst Kern und kann eine beliebige, symmetrische Wahrscheinlichkeitsdichte sein. Häufig verwendet: Rechteck-Kern: K ist Dichte der uniformen Verteilung auf [ 1 2, 1 2 ]; gibt allen Datenpunkten in [x h, x + h] gleiches Gewicht Gauss-Kern: K ist Dichte der Standard-Normalverteilung; gibt Punkten, die weit von x entfernt sind, weniger Gewicht Bandbreite h hat grossen Einfluss auf Kerndichteschätzer Kleine Bandbreite lässt Schätzer stark oszillieren Grosse Bandbreite flacht Schätzer ab Automatische Bandbreitenwahl in R (Funktion density) Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 19 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 20 / 31

Beispiel: Kerndichteschätzer für RNA-Expressionsdaten Boxplot RNA expression 0.00 0.05 0.10 0.15 0.20 0 RNA exp. level R-Funktion: boxplot Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 21 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 22 / 31 Boxplot Boxplot für bimodale Stichproben Ausreisser Grösster normaler Messwert Oberes Quartil q 0.75 Median Unteres Quartil q 0.25 Kleinster normaler Messwert Ausreisser Interquartilsabstand IQR ( interquartile range ) IQR = q 0.75 q 0.25 Normale Messwerte : Messwerte, die nicht mehr als 1.5 IQR von den Quartilen entfernt sind Vergleich: Histogramm, Kerndichteschätzer und Boxplot für bimodale Stichprobe: 0.00 0.05 0.10 0.15 0.20 0.25 0 2 4 6 8 10 12 0.00 0.05 0.10 0.15 0.20 RNA expression 0 RNA exp. level 0 2 4 6 8 10 12 Boxplot verschleiert Bimodalität vollständig! Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 23 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 24 / 31

Empirische kumulative Verteilungsfunktion Verschiedene Darstellungen einer bimodalen Stichprobe Zur Erinnerung: kumulative Verteilungsfunktion einer Zufallsvariablen X ist definiert als F X = P[X x] Empirische kumulative Verteilungsfunktion einer Stichprobe x 1, x 2,..., x n : ˆF (x) = #{k x k x} n Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 0.00 0.05 0.10 0.15 0.20 0.25 0 2 4 6 8 10 12 0.00 0.05 0.10 0.15 0.20 RNA expression 0 RNA exp. level Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 25 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 26 / 31 Deskriptive Statistik für mehrere Messgrössen Pearsons Korrelationskoeffizient I Streudiagramm: NO 2 (µ g m 3 ) 40 60 80 100 120 5 0 5 Temp ( C) (Pearsons) Korrelationskoeffizient: r = s xy s x s y [ 1, 1], s xy = 1 n 1 In R: n (x i x)(y i y) > cor(no2$no2, no2$temp) [1] 0.6799612 Pearsons Korrelationskoeffizient misst die lineare Beziehung zwischen 2 Stichproben {x i } and {y i }: r = +1 falls y i = a + bx i für eine reelle Zahl b > 0 r = 1 falls y i = a + bx i für eine reelle Zahl b < 0 Achtung: verschiedene nichtlineare Abhängigkeiten können zum selben Korrelationskoeffizienten führen! Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 27 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 28 / 31

Pearsons Korrelationskoeffizient II Rangkorrelation 1 0.8 0.4 0-0.4-0.8-1 1 1 1-1 -1-1 0 0 0 0 0 0 0 Streudiagramme verschiedener simulierter Datensätze und ihr Korrelationskoeffizient Quelle: http://de.wikipedia.org/wiki/korrelationskoeffizient (Spearsons) Rangkorrelationskoeffizient: Alternative zu Pearsons Korrelationskoeffizient Misst, wie monoton Zusammenhang zwischen zwei Stichproben ist Misst auch nichtlineare Zusammenhänge Robust gegen Ausreisser Berechnung: Ränge k i der Datenpunkte x 1, x 2,..., x n berechnen: kleinster Messwert hat Rang 1, zweitkleinster Rang 2, etc. Ränge li der Datenpunkt y 1, y 2,..., y n berechnen Spearsons Rangkorrelationskoeffizient: ρ = rkl (d.h., Pearsons Korrelationskoeffizient zwischen k i und l i ) In R: > cor(no2$no2, no2$temp, method = "spearman") [1] 0.6160592 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 29 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 30 / 31 Literatur Steven G Potkin, H Eleanor Cannon, Dennis L Murphy, and Richard Jed Wyatt. Are paranoid schizophrenics biologically different from other schizophrenics? New England Journal of Medicine, 298(2):61 66, 1978. Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 31 / 31