Good data... don t need statistics

Ähnliche Dokumente
Good data... don t need statistics

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Statistik und Wahrscheinlichkeitsrechnung

Bitte am PC mit Windows anmelden!

Mathematik IV: Statistik

Fragestellungen. Ist das Gewicht von Männern und Frauen signifikant unterschiedlich? (2-sample test)

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

Teil IV Deskriptive Statistik

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Statistik und Wahrscheinlichkeitsrechnung

Deskriptive Statistik

Statistik für Ökonomen

Deskriptive Statistik

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Stichwortverzeichnis. Symbole

Wolfgang Kohn Riza Öztürk. Statistik für Ökonomen. Datenanalyse mit R und SPSS. 3., überarbeitete Auflage. 4^ Springer Gabler

Statistik und Wahrscheinlichkeitsrechnung

Mathematische Statistik. Zur Notation

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

5 Exkurs: Deskriptive Statistik

Beschreibende Statistik Eindimensionale Daten

Biostatistik 101 Korrelation - Regressionsanalysen

Statistik. Jan Müller

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Fachrechnen für Tierpfleger

2. Deskriptive Statistik

Ferienkurse Mathematik Sommersemester 2009

das Kleingedruckte...

Teil / Ein paar statistische Grundlagen 25. Kapitel 1 Was Statistik ist und Warum sie benötigt Wird 2 7

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Inhaltsverzeichnis Inhaltsverzeichnis VII Erst mal locker bleiben: Es f angt ganz einfach an! Keine Taten ohne Daten!

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Biostatistik 101 Korrelation - Regressionsanalysen

Merkmalstypen Univ.-Prof. Dr. rer. nat. et med. habil. Andreas Faldum

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit

Verfahren für metrische Variable

Beschreibende Statistik Eindimensionale Daten

Stochastik-Praktikum

Inhaltsverzeichnis. 2 Kurzbeschreibung von SPSS Der SPSS-Dateneditor Statistische Analysen mit SPSS DieDaten...

Inhalt. Vorwort Univariate Verteilungen Verteilungen Die Normalverteilung... 47

Statistik für Ökonomen

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Uwe Hassler. Statistik im. Bachelor-Studium. Eine Einführung. für Wirtschaftswissenschaftler. ^ Springer Gabler

Einführung in die Statistik

Fragestellungen. Ist das Gewicht von Männern und Frauen signifiant unterschiedlich? (2-sample test)

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

7. Lösungen weitere Übungsaufgaben Statistik für Ingenieure WiSe 16/17

Statistik und Wahrscheinlichkeitsrechnung. Wahrscheinlichkeitsrechnung

Biostatistik, Sommer 2017

Einführung in die Statistik

Statistik K urs SS 2004

Was dieses E-Book enthält

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Inhaltsverzeichnis. Teil I Einführung

Statistik... formeln für Dummies

Good Data don't need statistics. Biostatistik 101. Statistathon. Carl Herrmann DKFZ B080 & IPMB Uni Heidelberg

Vorlesung Wirtschaftsstatistik 2 (FK ) Wiederholungen deskriptive Statistik und Einleitung Normalverteilungsverfahren. Dipl.-Ing.

Keine Panik vor Statistik!

Arbeitsbuch zur deskriptiven und induktiven Statistik

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Das arithmetische Mittel. x i = = 8. x = 1 4. und. y i = = 8

I. Deskriptive Statistik 1

1 Einleitung und Grundlagen 1

2 Grundlagen der Statistik

Ü B U N G S S K R I P T S T A T I S T I K

Biostatistik Erne Einfuhrung fur Biowissenschaftler

Grundkurs Statistik für Politologen und Soziologen

Übungsaufgabe Parameter und Verteilungsschätzung

Empirische Softwaretechnik. Boxplots. Graphische Darstellung. Median

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

Einführung in die Statistik

W-Seminar: Versuche mit und am Menschen 2017/2019 Skript

Statistische Methoden der Datenanalyse

Statistik II: Grundlagen und Definitionen der Statistik

Statistische Methoden in den Umweltwissenschaften

I. Zahlen, Rechenregeln & Kombinatorik

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Vorlesung: Statistik II für Wirtschaftswissenschaft

Einführung in Quantitative Methoden

Einführung Teil I: Erste Schritte bei der statistischen Analyse mit R... 25

Mathematik für Biologen

Beschreibende Statistik Kenngrößen in der Übersicht (Ac )

Angewandte Statistik mit R

Über dieses Buch Die Anfänge Wichtige Begriffe... 21

Über den Autor 7 Über den Fachkorrektor 7. Einführung 19

Transkript:

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra If you torture your data long enough, they will tell you whatever you want to hear. James L. Mills Good data... don t need statistics Unknown (= lots of people)

Warum Biostatistik? was bedeuten die Fehlerbalken in einer Graphik? wann muss ich multiple testing berücksichtigen*? was passiert, wenn ich einen nicht-parametrischen Test benuzte? ist es schlimm, wenn die Verteilung nicht genau einer Normalverteilung entspricht? ist Internet Explorer wirklich ein Kriminalitätsfaktor? * multiples was??

Sind Frauen/Männer kulturelle Konstrukte? Süddeutsche Zeitung 20/04/2016 JA! Beide Verteilungen haben einen sehr grossen Overlapp! wenig Unterschied NEIN! Die Diferenz ist statistisch signifkant!

Good Data don't need statistics Biostatistik 101 http://bioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/ Carl Herrmann Health Data Science Unit Uniklinikum Heidelberg carl.herrmann@uni-heidelberg.de Letzte Änderung : 17.04.2018

Plan Teil 1 Zufallsvariablen; Wahrscheinlichkeitsverteilungen; Inferenz; Konfdenzintervalle Teil 2 Hypothesen Tests; P-Werte; Signifkanz Multiple testing Teil 3 beschreibende Statistik; graphische Darstellung Korrelation; lineare Regression Teil 4 mehrdimensionale Datensätze Principal Component Analysis http://bioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/

R für Statistik R : freie Software für statistiche Datenanalyse Programmiersprache R scripts R kann interaktiv benutzt werden ( Console ) oder R Scripts können ausgeführt werden Übliche Vorgehensweise: 1. Befehle werden erst interaktiv ausgeführt 2. Befehle werden in einem Script gespeichert für spätere Ausführung sehr gutes Interface: Rstudio (Windows; Mac; Linux) http://www.rstudio.com/ide

R/Rstudio für Statistik R code Plots, Hilfeseiten,.. Console

Shiny R-Code als web-applet

Beschreibende vs Inferenz Statistik Beschreibende Statistik : Population Stichprobe Eigenschaften der Daten (Verteilung, Mittelwerte, Streuung,...) Graphische Darstellung Beispiel : Auswertung von Daten Statistiche Inferenz : Stichprobe Population Schätzer, Konfdenzintervalle Signifkanz Hypothesen Test Beispiel: Umfragen

beschreibende Statistik

Beschreibende Statistik Bei beschreibender Statistik geht es darum, den Datensatz anhand einiger Größen zu charakterisieren (Mittelwert, Streuung, ) und darzustellen daß diese Datenschätze Stichproben aus einer größeren Population darstellen interessiert uns soweit (noch) nicht!

Typen von Daten: kategoriale Daten Nominalskalierte Daten: diskrete qualitative Daten, die in Kategorien unterteilt sind, die NICHT geordnet werden können Beispiel: Staatsangehörigkeit, Geschlecht, Ordinalskalierte Daten: diskrete qualitative Daten, die in geordnete Kategorien unterteilt sind; können auch numerisch sein Beispiele: Grade der Lawinengefahr, Dienstränge, Schulnoten Brigadegeneral > Oberst > Oberstleutnant, aber der Unterschied BG/ O ist nicht gleich dem Unterschied O/OL 1 > 2 > > 6, aber der Unterschied 1 2 ist nicht gleich 2 3

Typen von Daten: metrische Skalen Intervallskalierte Daten: numerische Werte entlang einer Skala, deren Intervalle gleichbleibend sind, ohne vordefnierten Nullpunkt Beispiel: Temperatur in Celsius oder Fahrenheit: 40 C 20 C = 68 C - 48 C aber 40 C ( = 104 F) ist nicht doppelt so warm wie 20 C ( = 68 F), 2 Uhr Nachmittag ist nicht doppelt so spät wie 1 Uhr Verhältnisskalierte Daten: numerische Werte entlang einer Skala, die einen absoluten Nullpunkt besitzt Beispiel: Gewicht, Geschwindigkeit, : 40 km/h ist doppelt so schnell wie 20 km/h

Typen von Daten diabetes Patienten : stab.glu 82 97 92 93 90 94 92 75 87 89 hdl 56 24 37 12 28 69 41 44 49 40 ratio 3.60 6.90 6.20 6.50 8.90 3.60 4.80 5.20 3.60 6.60 glyhb 4.31 4.44 4.64 4.63 7.72 4.81 4.84 3.94 4.84 5.78 verhältnisskalierte Daten Metrische Daten location Buckingham Buckingham Buckingham Buckingham Buckingham Buckingham Buckingham Buckingham Buckingham Buckingham age 46 29 58 67 64 34 30 37 45 55 gender female female female male male male male male male female height 62 64 61 67 68 71 69 59 69 63 ungeordnete Kategorien ( Nominalskalierte Daten ) Kategoriale Daten weight 121 218 256 119 183 190 191 170 166 202 frame medium large large large medium large medium medium large small geordnete Kategorien ( Ordinalskalierte Daten )

Graphische Darstellung Balkendiagramme,Kuchendiagramme (kategoriale Daten) x = {Rumänien, Griechenland, Polen, Griechenland, Ukraine, Ukraine, } Mittelwert macht keinen Sinn, nur der Modus kann bestimmt werden (= Häufgste Kategorie)

Graphische Darstellung Histogramme (metrische Daten) Daten werden diskretisiert metrische Daten Ordinalskalierte Daten ( bins ) großer Einfuß des Binnings auf den graphischen Eindruck!

Graphische Darstellung Histogramme mit Densitätskurve (numerische Daten) Daten werden über eine gewisse Breite geglättet Parameter = Bandbreite

Graphische Darstellung Boxplot (Stetige + Kategorielle Daten) a.k.a. Whisker-Plot Ausreißer 1.5 IQR gibt Hinweise auf die Verteilung der Daten Median Quantile Ausreißer 75 % median IQR 25 % 1.5 IQR Achtung: Whisker reicht maximal Bis zum grössten/kleinsten Wert!

Graphische Darstellung Violinplot/Beanplot (numerische + Kategorielle Daten) gibt Hinweise auf die Verteilung der Daten und die Form der Verteilung median

Graphische Darstellung Streudiagramme (mehrdimensionale Daten) Zusammenhänge, Ausreißer bei mehr als 2 Dimensionen Auswahl von 2 Dimensionen Dimensionsreduktion (z.b. HauptkomponentenAnalyse)

Mittelwerte verschiedene Arten, den Mittelwert zu defnieren Arithmetisches Mittel Geometrisches Mittel Wie sollte am besten der Notendurchschnitt berechnet werden?

Mittelwerte verschiedene Arten, den Mittelwert zu defnieren Median Wert, der den Datensatz in 2 gleichgroße Gruppen teilt (50% darüber, 50% darunter) ungerade Zahl : Median = mittlerer Wert gerade Zahl : Median = Mittelwert... der beiden Mittleren Werte!

Arithmetisches Mittel vs. Median der Medianwert is robuster gegenüber Ausreißern z.b. werden Einkommensverteilungen meistens durch den Medianwert charakterisiert (Verteilung ist zu unsymmetrisch, cf. Bill Gates) nützliche Eigenschaft bei Meßdaten, die Meßfehler enthalten.

Quantile Defnition des Medians kann erweitert werden auf den p-quantile p-quantil = Wert, sodaß p% der Daten kleiner sind als dieser Wert Median = 50%-Quantil

Berechnung der Quartile 25% Quantil = unteres Quartil Untere Hälfte der Daten (enthält nicht den Medianwert da ungerade Anzahl von Datenpunkten) 75% Quantil = oberes Quartil Obere Hälfte der Daten Medianwert 25% Quantil (= unteres Quartil) : Medianwert der unteren Hälfte der Daten 75% Quantil (=oberes Quartil): Medianwert der oberen Hälfte der Daten

Quantile QQ-Plots Man kann anhand der Quantile Datensätze vergleichen 2 Datenreihen Datenreihe mit theoretischer Verteilung Sind die Verteilungen Vergleichbar? Gerade linie ~ beide Verteilungen habe die gleiche Form

Beispiele QQ plot Gleiche Form Gleiche Breite Unterschiedliche Mittelwerte Gleiche Form Unterschiedliche Breite Gleiche Mittelwerte

QQplot werden oft benutzt, um Normalität einer Verteilung zu beurteilen Wenn der QQ-Plot eine gerade Linie ist Daten normalverteilt (egal welche Steigung / Schnittpunkt die Gerade Hat!) Quantile einer Standardnormalverteilung (Mittelwert = 0 Standardabweichung = 1) (siehe Shiny Applet!)

Streuung Wie weit gehen die Daten auseinander? Stichprobenvarianz: Standardabweichung: Interquartile Range (IQR): Diferenz zwischen dem 75% und dem 25% Quantile

Streuung Median Absolute Deviation (=MAD) mediane Abweichung der Daten zum Medianwert Einfacher zu verstehen, wenn man weiß wie der MAD berechnet wird: für Datenreihe X wird der Medianwert bestimmt med(x) für jeden Wert Xi berechnet man die absolute Diferenz zum Medianwert si = Xi med(x) der MAD ist der Medianwert der si : MAD = med(si) median

Streuung MAD und IQR sind robuster gegen Ausreißer als die Standardabweichung z.b. : welche Gene haben die größte Variation ihrer Expression in einem Datensatz? IQR, MAD besser geeignet, da technische Variabilität der Messung