Big Data - und nun? Was kann die Bioinformatik?

Transkript

1 Big Data - und nun? Was kann die Bioinformatik? Jochen Kruppa Institut für Biometrie und Klinische Epidemiologie jochenkruppa@charitede 1 59

2 Vorstellung

3 Wer spricht heute zu Ihnen? Studium der Pflanzenbiotechnologie PhD Universität zu Lübeck Institut für medizinische Biometrie und Statistik ( ) Lübeck Postdoc Universität Göttingen Department of Animal Breeding ( ) Postdoc Universitätsmedizin Göttingen Department of Medical Statistics ( ) Postdoc TiHo Hannover AG Genomics and Bioinformatics of Infectious Diseases ( ) Göttingen AG-Leiter Statistische Bioinformatik Berliner Charité ( heute) 3 59

4 "Das ist die Logik der Forschung, die nie verifizieren, sondern immer nur jene Erklärungen beibehalten kann, die beim derzeitigen Erkenntnisstand am wenigsten falsifiziert sind" Bildungsökonom Ludger Wößmann

5 "Das ist die Logik der Forschung, die nie verifizieren, sondern immer nur jene Erklärungen beibehalten kann, die beim derzeitigen Erkenntnisstand am wenigsten falsifiziert sind" Bildungsökonom Ludger Wößmann

6 "Das ist die Logik der Forschung, die nie verifizieren, sondern immer nur jene Modelle beibehalten kann, die beim derzeitigen Erkenntnisstand am wenigsten falsifiziert sind" Bildungsökonom Ludger Wößmann

7 Small data

8 Small Data vs Big Data p 1 p 2 p 3 n 1 a 1 a 2 a 3 n 2 b 1 b 2 b 3 n 3 c 1 c 2 c 3 n s n s1 n s2 n s3 n > p p 1 p 2 p 3 p b n 1 a 1 a 2 a 3 a 4 n 2 b 1 b 2 b 3 b 4 n 3 c 1 c 2 c 3 c 4 n b n b1 n b2 n b3 n bp n p oder n p 6 59

9 Small Data Ein Model von Gewicht und Sport Gewicht Sport 8050 wenig 8303 wenig 9299 wenig 9413 wenig 8490 wenig 7668 viel 7049 viel 6702 viel 7214 viel 7338 viel 7 59

10 Small Data Ein Model von Gewicht und Sport Gewicht wenig Sport viel 8 59

11 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport 9 59

12 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport T = 9 59

13 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport T =

16 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport T = =

17 Small Data Ein Model von Gewicht und Sport T Statistik 10 59

20 Small Data Der Stern mit dem p-wert p-werte werden meist falsch interpretiert und daher falsch genutzt The ASA s Statement on p-values Q: Why do so many colleges and grad schools teach p = 005? A: Because that s still what the scientific community and journal editors use Q: Why do so many people still use p = 005? A: Because that s what they were taught in college or grad school p-werte waren nie so von Fisher gedacht, wie p-werte genutzt werden p-werte sind bedingte Wahrscheinlichkeiten p(meine Daten Null Hypothese) Ronald L Wasserstein & Nicole A Lazar (2016) The ASA s Statement on p-values: Context, Process, and Purpose, The American Statistician, 70:2, ,

21 Small data und confounder

25 Small Data Ein Model von Gewicht und Sport Lineare Regression 90 f(gewicht) = β 0 + β 1 Sport 85 Gewicht 80 β 0 gleich dem Y-Achsenabschnitt wenig Sport viel β 1 gleich der Steigung und dem Mittelwertsunterschied 18 59

26 Small Data Ein Model von Gewicht und Sport T = Sport wenig Sport viel SE Sport f(gewicht) = β 0 + β 1 Sport Wir können (Gruppen)variablen testen und Covariablen hinzufügen (die Varianz erklären) und f() ändern, wenn die zb (0,1) vorliegt und erhalten einen p-wert für die Signifkanz (p α) 19 59

27 Small Data Ein Model von Gewicht und Sport p 1 p 2 p 3 p 4 Gewicht Sport Geschlecht Rauchen Kalorien n wenig weiblich n wenig weiblich n wenig männlich n wenig männlich n wenig weiblich n viel weiblich n viel männlich n viel männlich n viel weiblich n viel männlich n > p 20 59

28 t-test und 2x2 Tafeln Sato, Y (2017) Statistical Methods in the Journal - An Update N Engl J Med 21 59

29 Überblick Inza (2010) Met Mol Biol 593:

30 Big data in der Informationstechnologie

31 Big Data und Informationen: Text Mining Einfache Frage: Welchen Buchstaben sehen Sie? 24 59

32 Big Data und Informationen: Text Mining 25 59

35 Big Data und Informationen: Bilderkennung Einfache Frage: Welche Geschlechter sehen Sie? 28 59

36 Big Data und Informationen: Bilderkennung 29 59

37 Big Data und Informationen: Medizin Im Februar bei einem Allgemeinarzt 30 59

38 Big Data und Informationen: Medizin Im Februar bei einem Allgemeinarzt Patient mit Fieber steht an der Anmeldung 30 59

39 Big Data und Informationen: Medizin Im Februar bei einem Allgemeinarzt Patient mit Fieber steht an der Anmeldung Liefert jeder weitere Parameter mehr Informationen? 30 59

40 Big Data und Informationen: Medizin Im Februar bei einem Allgemeinarzt Patient mit Fieber steht an der Anmeldung Liefert jeder weitere Parameter mehr Informationen? Eine wichtige Annahme ist, dass mehr Parameter auch mehr Informationen bedeuten Das ist in der Medizin nicht so gegeben, wie in dem Bereich wo maschinelle Lernverfahren entwickelt werden 30 59

41 Maschinelle Lernverfahren Inza, I, Calvo, B, Armananzas, R, Bengoetxea, E, Larranaga, P and Lozano, J,A (2010) Machine learning: an indispensable tool in bioinformatics Methods in Molecular Biology, 593:25 Libbrecht M W and Noble W S (2015) Machine learning applications in genetics and genomics Nature Review Genetics, 16: Yip, K Y, Cheng, C and Gerstein, M (2013) Machine learning and genome annotation: a match meant to be? Genome Biology, 14:

42 Maschinelle Lernverfahren Inza, I, Calvo, B, Armananzas, R, Bengoetxea, E, Larranaga, P and Lozano, J,A (2010) Machine learning: an indispensable tool in bioinformatics Methods in Molecular Biology, 593:25 Libbrecht M W and Noble W S (2015) Machine learning applications in genetics and genomics Nature Review Genetics, 16: Yip, K Y, Cheng, C and Gerstein, M (2013) Machine learning and genome annotation: a match meant to be? Genome Biology, 14:

43 Maschinelle Lernverfahren Vokabular Modellbeschreibung wobei y a + b + c y ist die response oder Endpoint/Endpunkt oder gemessene Variable/Outcome: Krebs ja/nein a, b, c sind die Covariablen, Risk factors oder Variablen: sex, age, dose level Libbrecht (2015) Nat Rev Genet 16:

44 Maschinelle Lernverfahren Vokabular Modellbeschreibung wobei y a + b + c y ist die response oder Endpoint/Endpunkt oder gemessene Variable/Outcome: Krebs ja/nein a, b, c sind die Covariablen, Risk factors oder Variablen: sex, age, dose level Krebs [ja/nein] hängt ab sex + age + dose label hängt ab features Libbrecht (2015) Nat Rev Genet 16:

45 Maschinelle Lernverfahren Vokabular Modellbeschreibung label hängt ab features label ist das Ziel der Vorhersage feature einzelne Varibalen, die für das maschinelle Lernverfahren verwendet werden Ziel von maschinellen Lernverfahren Etwas Vorhersagen (test data) mit der Hilfe von etwas Anderem (training data) Libbrecht (2015) Nat Rev Genet 16:

46 Maschinelle Lernverfahren Ziel von maschinellen Lernverfahren Etwas Vorhersagen (test data) mit der Hilfe von etwas Anderem (training data) Maschinelle Lernverfahren behandeln Klassifikation Ist der Patient ein Krebspatient gegeben der Feature? In welche Gruppe gehört eine Maus? Ein p-wert ist nicht zu berechnen 34 59

47 Maschinelle Lernverfahren Libbrecht (2015) Nat Rev Genet 16:

48 Maschinelle Lernverfahren Supervised learning: Maschinelle Lernverfahren basierend auf gelabelten Patienten Diese werden genutzt um nicht bekannte Labels vorherzusagen Yip (2013) Genom Biol 14:

49 Maschinelle Lernverfahren Supervised learning: Maschinelle Lernverfahren basierend auf gelabelten Patienten Diese werden genutzt um nicht bekannte Labels vorherzusagen Unsupervised learning: Maschinelle Lernverfahren ohne bekannte Label Yip (2013) Genom Biol 14:

50 Maschinelle Lernverfahren Supervised learning: Maschinelle Lernverfahren basierend auf gelabelten Patienten Diese werden genutzt um nicht bekannte Labels vorherzusagen Unsupervised learning: Maschinelle Lernverfahren ohne bekannte Label Semi-supervised learning: Maschinelle Lernverfahren nutzen eine Mischung Yip (2013) Genom Biol 14:

51 Die drei meist verbreitesten Maschinen Support vector machine: Zeichne eine Linie durch Punkte Yip (2013) Genom Biol 14:

52 Die drei meist verbreitesten Maschinen Support vector machine: Zeichne eine Linie durch Punkte Random Forest: Baue eine Mischung aus verschiedenen Entscheidungsbäumen Yip (2013) Genom Biol 14:

53 Die drei meist verbreitesten Maschinen Support vector machine: Zeichne eine Linie durch Punkte Random Forest: Baue eine Mischung aus verschiedenen Entscheidungsbäumen k nearest neighbor: Ich mache was mein Nachbar macht Yip (2013) Genom Biol 14:

54 Support vector machines (SVM)

55 Die farbigen Bälle sollen getrennt werden 39 59

56 Eine einfache Linie macht den Job 40 59

57 Wir erhöhen die Anzahl an Bällen nachträglich 41 59

58 SVM s versuchen so viel Platz wie möglich zwischen der Linie zu generieren 42 59

59 Mehr Bälle passen hinein 43 59

60 Es gibt auch komplexe Situationen 44 59

61 Transformieren von 2D zu 3D 45 59

62 Rücktransformation von 3D zu 2D 46 59

63 Random Forest

64 Random Forest basiert auf Entscheidungsbäumen t 1 X 1 c 1 X 1 > c 1 t 2 t 3 X 2 c 2 X 2 > c 2 t 4 t

65 Random Forest basiert auf Entscheidungsbäumen t 1 X 1 c 1 X 1 > c 1 t 2 t 3 X 2 c 2 X 2 > c 2 t 4 t

66 Random Forest a ensemble of trees Random forest ist ein Wald aus bis zu 1000 Bäumen 49 59

67 Random Forest: Wie Varibilität generieren? Für einen Baum nutzen wir ein Bootstrap Sample Training data T A B C D E F G H I J 50 59

68 Random Forest: Wie Varibilität generieren? Für einen Baum nutzen wir ein Bootstrap Sample Training data T A B C D E F G H I J A A C F G F F H G A Bagged sample T 50 59

69 Random Forest: Wie Varibilität generieren? Für einen Baum nutzen wir ein Bootstrap Sample Training data T A B C D E F G H I J A A C F G I J F F H G A D D Bagged sample T Out of bag sample T \T 50 59

70 k nearest neighbors (k-nn)

71 k-nn: Algorithm 52 59

72 k-nn: Algorithm k =

75 Probleme mit den Daten Unterschiedliche Klassengröße Die Daten bestehen aus 2000 enhancer sites und non enhancer sites Missing data Die Daten haben fehlende Werte (NA, NaN, oder ähnliches) Stark korrelierte Variablen BMI und Gewicht wird Probleme verursachen Wenn zwei Variablen gleich gut sind, welche bevorzugen? Libbrecht (2015) Nat Rev Genet 16:

76 Zusammenfassung Missing data Data preparation Imbalanced data Training set / Test set Random forest Machine learning algorithm Support vector machine k nearest neighbor Feature selection 57 59

77 Regulierung und Anwendung FDA und EDA Maschinelle Lernverfahren sind bekannt und werden auch berücksichtigt Mangel an Experten auf dem Gebiet für die Regulierung (Risikoabschätzung) Vorausetzungen Wie auch bei normalen Tests, haben maschinelle Lernverfahren Annahmen Fehlende Werte, Unbalanzierte Daten oder starke Korrelationen, können die Klassifikation beeinflussen 58 59

78 Kontakt 59 59