Good data... don t need statistics

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra If you torture your data long enough, they will tell you whatever you want to hear. James L. Mills Good data... don t need statistics Unknown (= lots of people)

Warum Biostatistik? was bedeuten die Fehlerbalken in einer Graphik? wann muss ich multiple testing berücksichtigen*? was passiert, wenn ich einen nicht-parametrischen Test benuzte? ist es schlimm, wenn die Verteilung nicht genau einer Normalverteilung entspricht? ist Internet Explorer wirklich ein Kriminalitätsfaktor? * multiples was??

Sind Frauen/Männer kulturelle Konstrukte? Süddeutsche Zeitung 20/04/2016 JA! Beide Verteilungen haben einen sehr grossen Overlapp! wenig Unterschied NEIN! Die Diferenz ist statistisch signifkant!

Good Data don't need statistics Biostatistik 101 http://bioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/ Carl Herrmann Health Data Science Unit Uniklinikum Heidelberg carl.herrmann@uni-heidelberg.de Letzte Änderung : 17.04.2018

Plan Teil 1 Zufallsvariablen; Wahrscheinlichkeitsverteilungen; Inferenz; Konfdenzintervalle Teil 2 Hypothesen Tests; P-Werte; Signifkanz Multiple testing Teil 3 beschreibende Statistik; graphische Darstellung Korrelation; lineare Regression Teil 4 mehrdimensionale Datensätze Principal Component Analysis http://bioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/

R für Statistik R : freie Software für statistiche Datenanalyse Programmiersprache R scripts R kann interaktiv benutzt werden ( Console ) oder R Scripts können ausgeführt werden Übliche Vorgehensweise: 1. Befehle werden erst interaktiv ausgeführt 2. Befehle werden in einem Script gespeichert für spätere Ausführung sehr gutes Interface: Rstudio (Windows; Mac; Linux) http://www.rstudio.com/ide

R/Rstudio für Statistik R code Plots, Hilfeseiten,.. Console

Shiny R-Code als web-applet

Beschreibende vs Inferenz Statistik Beschreibende Statistik : Population Stichprobe Eigenschaften der Daten (Verteilung, Mittelwerte, Streuung,...) Graphische Darstellung Beispiel : Auswertung von Daten Statistiche Inferenz : Stichprobe Population Schätzer, Konfdenzintervalle Signifkanz Hypothesen Test Beispiel: Umfragen

beschreibende Statistik

Beschreibende Statistik Bei beschreibender Statistik geht es darum, den Datensatz anhand einiger Größen zu charakterisieren (Mittelwert, Streuung, ) und darzustellen daß diese Datenschätze Stichproben aus einer größeren Population darstellen interessiert uns soweit (noch) nicht!

Typen von Daten: kategoriale Daten Nominalskalierte Daten: diskrete qualitative Daten, die in Kategorien unterteilt sind, die NICHT geordnet werden können Beispiel: Staatsangehörigkeit, Geschlecht, Ordinalskalierte Daten: diskrete qualitative Daten, die in geordnete Kategorien unterteilt sind; können auch numerisch sein Beispiele: Grade der Lawinengefahr, Dienstränge, Schulnoten Brigadegeneral > Oberst > Oberstleutnant, aber der Unterschied BG/ O ist nicht gleich dem Unterschied O/OL 1 > 2 > > 6, aber der Unterschied 1 2 ist nicht gleich 2 3

Typen von Daten: metrische Skalen Intervallskalierte Daten: numerische Werte entlang einer Skala, deren Intervalle gleichbleibend sind, ohne vordefnierten Nullpunkt Beispiel: Temperatur in Celsius oder Fahrenheit: 40 C 20 C = 68 C - 48 C aber 40 C ( = 104 F) ist nicht doppelt so warm wie 20 C ( = 68 F), 2 Uhr Nachmittag ist nicht doppelt so spät wie 1 Uhr Verhältnisskalierte Daten: numerische Werte entlang einer Skala, die einen absoluten Nullpunkt besitzt Beispiel: Gewicht, Geschwindigkeit, : 40 km/h ist doppelt so schnell wie 20 km/h

Typen von Daten diabetes Patienten : stab.glu 82 97 92 93 90 94 92 75 87 89 hdl 56 24 37 12 28 69 41 44 49 40 ratio 3.60 6.90 6.20 6.50 8.90 3.60 4.80 5.20 3.60 6.60 glyhb 4.31 4.44 4.64 4.63 7.72 4.81 4.84 3.94 4.84 5.78 verhältnisskalierte Daten Metrische Daten location Buckingham Buckingham Buckingham Buckingham Buckingham Buckingham Buckingham Buckingham Buckingham Buckingham age 46 29 58 67 64 34 30 37 45 55 gender female female female male male male male male male female height 62 64 61 67 68 71 69 59 69 63 ungeordnete Kategorien ( Nominalskalierte Daten ) Kategoriale Daten weight 121 218 256 119 183 190 191 170 166 202 frame medium large large large medium large medium medium large small geordnete Kategorien ( Ordinalskalierte Daten )

Graphische Darstellung Balkendiagramme,Kuchendiagramme (kategoriale Daten) x = {Rumänien, Griechenland, Polen, Griechenland, Ukraine, Ukraine, } Mittelwert macht keinen Sinn, nur der Modus kann bestimmt werden (= Häufgste Kategorie)

Graphische Darstellung Histogramme (metrische Daten) Daten werden diskretisiert metrische Daten Ordinalskalierte Daten ( bins ) großer Einfuß des Binnings auf den graphischen Eindruck!

Graphische Darstellung Histogramme mit Densitätskurve (numerische Daten) Daten werden über eine gewisse Breite geglättet Parameter = Bandbreite

Graphische Darstellung Boxplot (Stetige + Kategorielle Daten) a.k.a. Whisker-Plot Ausreißer 1.5 IQR gibt Hinweise auf die Verteilung der Daten Median Quantile Ausreißer 75 % median IQR 25 % 1.5 IQR Achtung: Whisker reicht maximal Bis zum grössten/kleinsten Wert!

Graphische Darstellung Violinplot/Beanplot (numerische + Kategorielle Daten) gibt Hinweise auf die Verteilung der Daten und die Form der Verteilung median

Graphische Darstellung Streudiagramme (mehrdimensionale Daten) Zusammenhänge, Ausreißer bei mehr als 2 Dimensionen Auswahl von 2 Dimensionen Dimensionsreduktion (z.b. HauptkomponentenAnalyse)

Mittelwerte verschiedene Arten, den Mittelwert zu defnieren Arithmetisches Mittel Geometrisches Mittel Wie sollte am besten der Notendurchschnitt berechnet werden?

Mittelwerte verschiedene Arten, den Mittelwert zu defnieren Median Wert, der den Datensatz in 2 gleichgroße Gruppen teilt (50% darüber, 50% darunter) ungerade Zahl : Median = mittlerer Wert gerade Zahl : Median = Mittelwert... der beiden Mittleren Werte!

Arithmetisches Mittel vs. Median der Medianwert is robuster gegenüber Ausreißern z.b. werden Einkommensverteilungen meistens durch den Medianwert charakterisiert (Verteilung ist zu unsymmetrisch, cf. Bill Gates) nützliche Eigenschaft bei Meßdaten, die Meßfehler enthalten.

Quantile Defnition des Medians kann erweitert werden auf den p-quantile p-quantil = Wert, sodaß p% der Daten kleiner sind als dieser Wert Median = 50%-Quantil

Berechnung der Quartile 25% Quantil = unteres Quartil Untere Hälfte der Daten (enthält nicht den Medianwert da ungerade Anzahl von Datenpunkten) 75% Quantil = oberes Quartil Obere Hälfte der Daten Medianwert 25% Quantil (= unteres Quartil) : Medianwert der unteren Hälfte der Daten 75% Quantil (=oberes Quartil): Medianwert der oberen Hälfte der Daten

Quantile QQ-Plots Man kann anhand der Quantile Datensätze vergleichen 2 Datenreihen Datenreihe mit theoretischer Verteilung Sind die Verteilungen Vergleichbar? Gerade linie ~ beide Verteilungen habe die gleiche Form

Beispiele QQ plot Gleiche Form Gleiche Breite Unterschiedliche Mittelwerte Gleiche Form Unterschiedliche Breite Gleiche Mittelwerte

QQplot werden oft benutzt, um Normalität einer Verteilung zu beurteilen Wenn der QQ-Plot eine gerade Linie ist Daten normalverteilt (egal welche Steigung / Schnittpunkt die Gerade Hat!) Quantile einer Standardnormalverteilung (Mittelwert = 0 Standardabweichung = 1) (siehe Shiny Applet!)

Streuung Wie weit gehen die Daten auseinander? Stichprobenvarianz: Standardabweichung: Interquartile Range (IQR): Diferenz zwischen dem 75% und dem 25% Quantile

Streuung Median Absolute Deviation (=MAD) mediane Abweichung der Daten zum Medianwert Einfacher zu verstehen, wenn man weiß wie der MAD berechnet wird: für Datenreihe X wird der Medianwert bestimmt med(x) für jeden Wert Xi berechnet man die absolute Diferenz zum Medianwert si = Xi med(x) der MAD ist der Medianwert der si : MAD = med(si) median

Streuung MAD und IQR sind robuster gegen Ausreißer als die Standardabweichung z.b. : welche Gene haben die größte Variation ihrer Expression in einem Datensatz? IQR, MAD besser geeignet, da technische Variabilität der Messung