Teil IV Deskriptive Statistik

Ähnliche Dokumente
Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele

Teil VIII Hypothesentests für zwei Stichproben

Teil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie

Zusammenfassung: diskrete und stetige Verteilungen. Woche 4: Gemeinsame Verteilungen. Zusammenfassung: diskrete und stetige Verteilungen

Deskriptive Statistik

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

Mathematik IV: Statistik

Teil VI. Gemeinsame Verteilungen. Lernziele. Beispiel: Zwei Würfel. Gemeinsame Verteilung

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

5 Exkurs: Deskriptive Statistik

Statistik und Wahrscheinlichkeitsrechnung

Statistik I für Betriebswirte Vorlesung 4

Statistik I für Betriebswirte Vorlesung 3

Mehrdimensionale Zufallsvariablen

Verfahren für metrische Variable

Tests für Erwartungswert & Median

Statistik und Wahrscheinlichkeitsrechnung

Biostatistik, Sommer 2017

Statistik für Ingenieure Vorlesung 3

Deskriptive Beschreibung linearer Zusammenhänge


Hochschule Darmstadt FB Mathematik und Naturwissenschaften. Statistik. für Wirtschaftsingenieure (B.Sc.) Sommersemester 2017

Mathematik für Naturwissenschaften, Teil 2

Teil VII Hypothesentests für eine Stichprobe

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Eine Einführung in R: Dichten und Verteilungsfunktionen

Lehrinhalte Statistik (Sozialwissenschaften)

Woche 2: Zufallsvariablen

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Stochastik-Praktikum

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

Statistische Methoden in den Umweltwissenschaften

Der Mittelwert (arithmetisches Mittel)

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Mehrdimensionale Verteilungen und Korrelation

Klausur zur Vorlesung

Wahrscheinlichkeitsrechnung und Statistik

Zusammenfassung 11. Sara dos Reis.

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Statistische Inferenz

Statistik für Ökonomen

Vorlesung: Statistik II für Wirtschaftswissenschaft

2 Grundlagen der Statistik

Einführung in die Statistik

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

Statistik und Wahrscheinlichkeitsrechnung

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Zusammenfassung PVK Statistik

Ü B U N G S S K R I P T S T A T I S T I K

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Arbeitsbuch zur deskriptiven und induktiven Statistik

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik K urs SS 2004

I. Deskriptive Statistik 1

Willkommen zur Vorlesung Statistik (Master)

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II,

2 Aufgaben aus [Teschl, Band 2]

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

Einführung in die Statistik

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion

Wolfgang Kohn Riza Öztürk. Statistik für Ökonomen. Datenanalyse mit R und SPSS. 3., überarbeitete Auflage. 4^ Springer Gabler

Beispiel 4 (Einige weitere Aufgaben)

Kapitel 3 Schließende Statistik

Übungen mit dem Applet Rangwerte

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Teil / Ein paar statistische Grundlagen 25. Kapitel 1 Was Statistik ist und Warum sie benötigt Wird 2 7

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Beschreibende Statistik Eindimensionale Daten

Statistik... formeln für Dummies

Teil IX. Verteilungen an Daten anpassen ( Maximum-Likelihood-Schätzung. fitten ) Woche 7: Maximum-Likelihood-Schätzung. Lernziele

Mathematische und statistische Methoden II

Transkript:

Woche 5: Deskriptive Statistik Teil IV Deskriptive Statistik WBL 15/17, 18.05.2015 Alain Hauser <alain.hauser@bfh.ch> Berner Fachhochschule, Technik und Informatik Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 2 / 31 Lernziele Arbeitsschritte der Datenanalyse Sie können...... Kenngrössen von Stichproben berechnen, auf Papier und mit R: arithmetisches Mittel, empirische Standardabweichung und Varianz, Median, Quantile... die empirische Korrelation zweier Grössen mit Hilfe verschiedener Kennzahlen berechnen... die Unterschide der empirischen Kenngrössen zu den entsprechenden Kennzahlen bei Zufallsvariablen nennen... Plots zeichnen und lesen, die eine numerische Stichprobe visualisieren: Histogramm, Boxplot, empirische kumulative Verteilungsfunktion, Dichtekurve... Vor- und Nachteile der obenstehenden Plots benennen. Vorlesung basiert auf Kapitel 4.3 des Skripts. Modell generieren Daten messen Daten inspizieren statistische Inferenz Interpretation Wahrscheinlichkeitsrechnung deskriptive Statistik schliessende Statistik Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 3 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 4 / 31

Deskriptive und schliessende Statistik Von Modellen zu Daten Deskriptive Statistik Überblick über Datensätze Verteilungen visualisieren auffällige Eigenschaften finden Verteilungen mit wenigen Kenngrössen beschreiben Schliessende Statistik aus Daten Schlüsse ziehen Parameter schätzen Hypothesen testen Bisher probabilistische Modelle betrachtet Rest des Kurses: Analyse von Daten, die von realen System erzeugt wurden Im Folgenden nehmen wir an, x 1, x 2,..., x n seien n Messungen derselben Grösse Übliche Annahme: n unabhängige Messungen von gleicher Wahrscheinlichkeitsverteilung Formal: Modell: Stichprobe: X 1, X 2,..., X n i.i.d. F X ( ), x 1, x 2,..., x n i.i.d.: independent and identically distributed, unabhängig und identisch verteilt Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 5 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 6 / 31 Kenngrössen für eine einzelne Stichprobe Deskriptive Statistik für eine einzelne Stichprobe Mittelwert empirische Varianz und Standardabweichung empirischer Median empirische Quantile Beispieldatensatz: Aktivitätsniveau von Monoamine-Oxidase (MAO) in 18 Patienten mit einem gewissen Typ Schizophrenie Messwerte x 1 bis x 1 8 MAO: Enzym, das vermutlich das Verhalten beeinflusst, und dessen Aktivität durch Schizophrenie beeinträchtigt sein kann (Quelle: Potkin et al. (1978)) Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 7 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 8 / 31

Mittelwert (arithmetisches Mittel) Empirische Varianz Arithmetisches Mittel: x = x 1 +... + x n = 1 n n n R-Funktion: mean Arithmetisches Mittel ist ein konsistenter Schätzer für den Erwartungswert µ = E[X ]: X = 1 n x i n X i µ wenn n Arithmetisches Mittel ist erwartungstreu (engl. unbiased ): x Empirische Varianz: sx 2 = 1 n (x i x) 2 (s x : n 1 empirische Standardabweichung) R-Funktionen: var, sd Empirische Varianz ist ein konsistenter Schätzer für σ 2 = Var(X ): s 2 x σ 2 wenn n Empirische Varianz ist erwartungstreu: x + s x x x s x E[X ] = µ E[s 2 x ] = σ 2 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 9 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 10 / 31 Empirischer Median Mittelwert und Median: Vergleich Empirischer Median: Wert, der grösser (oder gleich) ist als die Hälfte der Datenpunkte kleiner (oder gleich) ist als die andere Hälfte der Datenpunkte Berechnung: Messwerte ordnen x (1) x (2)... x (n). Median: { x m = ((n+1)/2), falls n gerade ist, 1 2 (x (n/2) + x (n/2+1) ), sonst R-Funktion: median x m xm 10 20 30 40 50 mx 10 20 30 40 50 mx 10 20 30 40 50 m x Median ist robust, Mittelwert nicht! 10 20 30 40 50 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 11 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 12 / 31

Quantile Graphische Darstellungen einer einzelnen Stichprobe Verallgemeinerung des Konzepts des Medians Empirisches α-quantil: Wert q α, der grösser (oder gleich) ist als α n Messwerte, und kleiner (oder gleich) ist als (1 α) n Messwerte Berechnung: Daten sortieren: x (1) x (2)... x (n) Falls α (n 1) eine ganze Zahl ist, ist qα = x (α(n 1)+1) ; ansonsten interpoliert q α zwischen x ( α(n 1) +1) und x ( α(n 1) +1) R-Funktion: quantile Histogramm Boxplot Empirische kumulative Verteilungsfunktion später: Q-Q (Quantil-Quantil)-Plot Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 13 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 14 / 31 Histogramm Histogramm: Wahl der Intervall-Breite 0.00 0.04 0.08 0.12 Histogram of x 20 Bereich der gemessenen Werte wird in Intervalle (c k 1, c k ] unterteilt Bsp.: c k = 4, 6, 8, 10, 12, 14, 16, 18, 20 Anzahl Messwerte in jedem Intervall zählen: h k := #{i x i (c k 1, c k ]} Bsp.: h k = 2, 5, 4, 3, 1, 2, 0, 1 Über Intervall (c k 1, c k ] h k Dichte n(c k c k 1 ) einzeichnen (oder absolute Häufigkeiten h k ) Wie wählen wir die Intervall-Breite eines Histogramms? 0.00 0.04 0.08 0.00 0.10 0.20 4 bins 0 20 15 bins 0.00 0.06 0.12 0.00 0.10 0.20 8 bins 20 30 bins Herumspielen, oder R automatisch wählen lassen Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 15 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 16 / 31

Histogramm für bimodale Verteilung Nichtparametrische Dichteschätzung 0.00 0.10 0.20 0 2 4 6 8 10 12 14 0.00 0.10 0.20 0 2 4 6 8 10 12 Achtung: schlecht gewählte Intervall-Breite kann Eigenschaften (hier: Bimodalität) verschleiern! Nachteile von Histogrammen Darstellungsqualität stark von Histogrammbreite abhängig Sprünge der geschätzten Wahrscheinlichkeitsdichte an Intervallgrenzen unrealistisch Alternative: nichtparametrische Dichteschätzung Verbesserungen ggü. Histogramm: Datenpunkte nicht in vordefiniertem Intervall zählen, sondern in sliding window Punkte in der Mitte des sliding window mehr Gewicht geben als Punkte am Rand Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 17 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 18 / 31 Kerndichteschätzer Wahl der Bandbreite Gegeben: Messwerte x 1, x 2,..., x n Kerndichteschätzer für Dichte der erzeugenden Verteilung ist ˆf (x) = 1 nh n ( ) x xi K ; h K heisst Kern und kann eine beliebige, symmetrische Wahrscheinlichkeitsdichte sein. Häufig verwendet: Rechteck-Kern: K ist Dichte der uniformen Verteilung auf [ 1 2, 1 2 ]; gibt allen Datenpunkten in [x h, x + h] gleiches Gewicht Gauss-Kern: K ist Dichte der Standard-Normalverteilung; gibt Punkten, die weit von x entfernt sind, weniger Gewicht Bandbreite h hat grossen Einfluss auf Kerndichteschätzer Kleine Bandbreite lässt Schätzer stark oszillieren Grosse Bandbreite flacht Schätzer ab Automatische Bandbreitenwahl in R (Funktion density) Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 19 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 20 / 31

Beispiel: Kerndichteschätzer für RNA-Expressionsdaten Boxplot RNA expression 0.00 0.05 0.10 0.15 0.20 0 RNA exp. level R-Funktion: boxplot Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 21 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 22 / 31 Boxplot Boxplot für bimodale Stichproben Ausreisser Grösster normaler Messwert Oberes Quartil q 0.75 Median Unteres Quartil q 0.25 Kleinster normaler Messwert Ausreisser Interquartilsabstand IQR ( interquartile range ) IQR = q 0.75 q 0.25 Normale Messwerte : Messwerte, die nicht mehr als 1.5 IQR von den Quartilen entfernt sind Vergleich: Histogramm, Kerndichteschätzer und Boxplot für bimodale Stichprobe: 0.00 0.05 0.10 0.15 0.20 0.25 0 2 4 6 8 10 12 0.00 0.05 0.10 0.15 0.20 RNA expression 0 RNA exp. level 0 2 4 6 8 10 12 Boxplot verschleiert Bimodalität vollständig! Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 23 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 24 / 31

Empirische kumulative Verteilungsfunktion Verschiedene Darstellungen einer bimodalen Stichprobe Zur Erinnerung: kumulative Verteilungsfunktion einer Zufallsvariablen X ist definiert als F X = P[X x] Empirische kumulative Verteilungsfunktion einer Stichprobe x 1, x 2,..., x n : ˆF (x) = #{k x k x} n Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 0.00 0.05 0.10 0.15 0.20 0.25 0 2 4 6 8 10 12 0.00 0.05 0.10 0.15 0.20 RNA expression 0 RNA exp. level Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 25 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 26 / 31 Deskriptive Statistik für mehrere Messgrössen Pearsons Korrelationskoeffizient I Streudiagramm: NO 2 (µ g m 3 ) 40 60 80 100 120 5 0 5 Temp ( C) (Pearsons) Korrelationskoeffizient: r = s xy s x s y [ 1, 1], s xy = 1 n 1 In R: n (x i x)(y i y) > cor(no2$no2, no2$temp) [1] 0.6799612 Pearsons Korrelationskoeffizient misst die lineare Beziehung zwischen 2 Stichproben {x i } and {y i }: r = +1 falls y i = a + bx i für eine reelle Zahl b > 0 r = 1 falls y i = a + bx i für eine reelle Zahl b < 0 Achtung: verschiedene nichtlineare Abhängigkeiten können zum selben Korrelationskoeffizienten führen! Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 27 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 28 / 31

Pearsons Korrelationskoeffizient II Rangkorrelation 1 0.8 0.4 0-0.4-0.8-1 1 1 1-1 -1-1 0 0 0 0 0 0 0 Streudiagramme verschiedener simulierter Datensätze und ihr Korrelationskoeffizient Quelle: http://de.wikipedia.org/wiki/korrelationskoeffizient (Spearsons) Rangkorrelationskoeffizient: Alternative zu Pearsons Korrelationskoeffizient Misst, wie monoton Zusammenhang zwischen zwei Stichproben ist Misst auch nichtlineare Zusammenhänge Robust gegen Ausreisser Berechnung: Ränge k i der Datenpunkte x 1, x 2,..., x n berechnen: kleinster Messwert hat Rang 1, zweitkleinster Rang 2, etc. Ränge li der Datenpunkt y 1, y 2,..., y n berechnen Spearsons Rangkorrelationskoeffizient: ρ = rkl (d.h., Pearsons Korrelationskoeffizient zwischen k i und l i ) In R: > cor(no2$no2, no2$temp, method = "spearman") [1] 0.6160592 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 29 / 31 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 30 / 31 Literatur Steven G Potkin, H Eleanor Cannon, Dennis L Murphy, and Richard Jed Wyatt. Are paranoid schizophrenics biologically different from other schizophrenics? New England Journal of Medicine, 298(2):61 66, 1978. Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 31 / 31