Big Data - und nun? Was kann die Bioinformatik?
|
|
- Gotthilf Rosenberg
- vor 5 Jahren
- Abrufe
Transkript
1 Big Data - und nun? Was kann die Bioinformatik? Jochen Kruppa Institut für Biometrie und Klinische Epidemiologie jochenkruppa@charitede 1 59
2 Vorstellung
3 Wer spricht heute zu Ihnen? Studium der Pflanzenbiotechnologie PhD Universität zu Lübeck Institut für medizinische Biometrie und Statistik ( ) Lübeck Postdoc Universität Göttingen Department of Animal Breeding ( ) Postdoc Universitätsmedizin Göttingen Department of Medical Statistics ( ) Postdoc TiHo Hannover AG Genomics and Bioinformatics of Infectious Diseases ( ) Göttingen AG-Leiter Statistische Bioinformatik Berliner Charité ( heute) 3 59
4 "Das ist die Logik der Forschung, die nie verifizieren, sondern immer nur jene Erklärungen beibehalten kann, die beim derzeitigen Erkenntnisstand am wenigsten falsifiziert sind" Bildungsökonom Ludger Wößmann
5 "Das ist die Logik der Forschung, die nie verifizieren, sondern immer nur jene Erklärungen beibehalten kann, die beim derzeitigen Erkenntnisstand am wenigsten falsifiziert sind" Bildungsökonom Ludger Wößmann
6 "Das ist die Logik der Forschung, die nie verifizieren, sondern immer nur jene Modelle beibehalten kann, die beim derzeitigen Erkenntnisstand am wenigsten falsifiziert sind" Bildungsökonom Ludger Wößmann
7 Small data
8 Small Data vs Big Data p 1 p 2 p 3 n 1 a 1 a 2 a 3 n 2 b 1 b 2 b 3 n 3 c 1 c 2 c 3 n s n s1 n s2 n s3 n > p p 1 p 2 p 3 p b n 1 a 1 a 2 a 3 a 4 n 2 b 1 b 2 b 3 b 4 n 3 c 1 c 2 c 3 c 4 n b n b1 n b2 n b3 n bp n p oder n p 6 59
9 Small Data Ein Model von Gewicht und Sport Gewicht Sport 8050 wenig 8303 wenig 9299 wenig 9413 wenig 8490 wenig 7668 viel 7049 viel 6702 viel 7214 viel 7338 viel 7 59
10 Small Data Ein Model von Gewicht und Sport Gewicht wenig Sport viel 8 59
11 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport 9 59
12 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport T = 9 59
13 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport T =
14 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport T =
15 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport T =
16 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport T = =
17 Small Data Ein Model von Gewicht und Sport T Statistik 10 59
18 Small Data Ein Model von Gewicht und Sport T Statistik 11 59
19 Small Data Ein Model von Gewicht und Sport T Statistik 12 59
20 Small Data Der Stern mit dem p-wert p-werte werden meist falsch interpretiert und daher falsch genutzt The ASA s Statement on p-values Q: Why do so many colleges and grad schools teach p = 005? A: Because that s still what the scientific community and journal editors use Q: Why do so many people still use p = 005? A: Because that s what they were taught in college or grad school p-werte waren nie so von Fisher gedacht, wie p-werte genutzt werden p-werte sind bedingte Wahrscheinlichkeiten p(meine Daten Null Hypothese) Ronald L Wasserstein & Nicole A Lazar (2016) The ASA s Statement on p-values: Context, Process, and Purpose, The American Statistician, 70:2, ,
21 Small data und confounder
22 Small Data Ein Model von Gewicht und Sport Gewicht wenig Sport viel 15 59
23 Small Data Ein Model von Gewicht und Sport Gewicht wenig Sport viel 16 59
24 Small Data Ein Model von Gewicht und Sport Gewicht wenig Sport viel 17 59
25 Small Data Ein Model von Gewicht und Sport Lineare Regression 90 f(gewicht) = β 0 + β 1 Sport 85 Gewicht 80 β 0 gleich dem Y-Achsenabschnitt wenig Sport viel β 1 gleich der Steigung und dem Mittelwertsunterschied 18 59
26 Small Data Ein Model von Gewicht und Sport T = Sport wenig Sport viel SE Sport f(gewicht) = β 0 + β 1 Sport Wir können (Gruppen)variablen testen und Covariablen hinzufügen (die Varianz erklären) und f() ändern, wenn die zb (0,1) vorliegt und erhalten einen p-wert für die Signifkanz (p α) 19 59
27 Small Data Ein Model von Gewicht und Sport p 1 p 2 p 3 p 4 Gewicht Sport Geschlecht Rauchen Kalorien n wenig weiblich n wenig weiblich n wenig männlich n wenig männlich n wenig weiblich n viel weiblich n viel männlich n viel männlich n viel weiblich n viel männlich n > p 20 59
28 t-test und 2x2 Tafeln Sato, Y (2017) Statistical Methods in the Journal - An Update N Engl J Med 21 59
29 Überblick Inza (2010) Met Mol Biol 593:
30 Big data in der Informationstechnologie
31 Big Data und Informationen: Text Mining Einfache Frage: Welchen Buchstaben sehen Sie? 24 59
32 Big Data und Informationen: Text Mining 25 59
33 Big Data und Informationen: Text Mining 26 59
34 Big Data und Informationen: Text Mining 27 59
35 Big Data und Informationen: Bilderkennung Einfache Frage: Welche Geschlechter sehen Sie? 28 59
36 Big Data und Informationen: Bilderkennung 29 59
37 Big Data und Informationen: Medizin Im Februar bei einem Allgemeinarzt 30 59
38 Big Data und Informationen: Medizin Im Februar bei einem Allgemeinarzt Patient mit Fieber steht an der Anmeldung 30 59
39 Big Data und Informationen: Medizin Im Februar bei einem Allgemeinarzt Patient mit Fieber steht an der Anmeldung Liefert jeder weitere Parameter mehr Informationen? 30 59
40 Big Data und Informationen: Medizin Im Februar bei einem Allgemeinarzt Patient mit Fieber steht an der Anmeldung Liefert jeder weitere Parameter mehr Informationen? Eine wichtige Annahme ist, dass mehr Parameter auch mehr Informationen bedeuten Das ist in der Medizin nicht so gegeben, wie in dem Bereich wo maschinelle Lernverfahren entwickelt werden 30 59
41 Maschinelle Lernverfahren Inza, I, Calvo, B, Armananzas, R, Bengoetxea, E, Larranaga, P and Lozano, J,A (2010) Machine learning: an indispensable tool in bioinformatics Methods in Molecular Biology, 593:25 Libbrecht M W and Noble W S (2015) Machine learning applications in genetics and genomics Nature Review Genetics, 16: Yip, K Y, Cheng, C and Gerstein, M (2013) Machine learning and genome annotation: a match meant to be? Genome Biology, 14:
42 Maschinelle Lernverfahren Inza, I, Calvo, B, Armananzas, R, Bengoetxea, E, Larranaga, P and Lozano, J,A (2010) Machine learning: an indispensable tool in bioinformatics Methods in Molecular Biology, 593:25 Libbrecht M W and Noble W S (2015) Machine learning applications in genetics and genomics Nature Review Genetics, 16: Yip, K Y, Cheng, C and Gerstein, M (2013) Machine learning and genome annotation: a match meant to be? Genome Biology, 14:
43 Maschinelle Lernverfahren Vokabular Modellbeschreibung wobei y a + b + c y ist die response oder Endpoint/Endpunkt oder gemessene Variable/Outcome: Krebs ja/nein a, b, c sind die Covariablen, Risk factors oder Variablen: sex, age, dose level Libbrecht (2015) Nat Rev Genet 16:
44 Maschinelle Lernverfahren Vokabular Modellbeschreibung wobei y a + b + c y ist die response oder Endpoint/Endpunkt oder gemessene Variable/Outcome: Krebs ja/nein a, b, c sind die Covariablen, Risk factors oder Variablen: sex, age, dose level Krebs [ja/nein] hängt ab sex + age + dose label hängt ab features Libbrecht (2015) Nat Rev Genet 16:
45 Maschinelle Lernverfahren Vokabular Modellbeschreibung label hängt ab features label ist das Ziel der Vorhersage feature einzelne Varibalen, die für das maschinelle Lernverfahren verwendet werden Ziel von maschinellen Lernverfahren Etwas Vorhersagen (test data) mit der Hilfe von etwas Anderem (training data) Libbrecht (2015) Nat Rev Genet 16:
46 Maschinelle Lernverfahren Ziel von maschinellen Lernverfahren Etwas Vorhersagen (test data) mit der Hilfe von etwas Anderem (training data) Maschinelle Lernverfahren behandeln Klassifikation Ist der Patient ein Krebspatient gegeben der Feature? In welche Gruppe gehört eine Maus? Ein p-wert ist nicht zu berechnen 34 59
47 Maschinelle Lernverfahren Libbrecht (2015) Nat Rev Genet 16:
48 Maschinelle Lernverfahren Supervised learning: Maschinelle Lernverfahren basierend auf gelabelten Patienten Diese werden genutzt um nicht bekannte Labels vorherzusagen Yip (2013) Genom Biol 14:
49 Maschinelle Lernverfahren Supervised learning: Maschinelle Lernverfahren basierend auf gelabelten Patienten Diese werden genutzt um nicht bekannte Labels vorherzusagen Unsupervised learning: Maschinelle Lernverfahren ohne bekannte Label Yip (2013) Genom Biol 14:
50 Maschinelle Lernverfahren Supervised learning: Maschinelle Lernverfahren basierend auf gelabelten Patienten Diese werden genutzt um nicht bekannte Labels vorherzusagen Unsupervised learning: Maschinelle Lernverfahren ohne bekannte Label Semi-supervised learning: Maschinelle Lernverfahren nutzen eine Mischung Yip (2013) Genom Biol 14:
51 Die drei meist verbreitesten Maschinen Support vector machine: Zeichne eine Linie durch Punkte Yip (2013) Genom Biol 14:
52 Die drei meist verbreitesten Maschinen Support vector machine: Zeichne eine Linie durch Punkte Random Forest: Baue eine Mischung aus verschiedenen Entscheidungsbäumen Yip (2013) Genom Biol 14:
53 Die drei meist verbreitesten Maschinen Support vector machine: Zeichne eine Linie durch Punkte Random Forest: Baue eine Mischung aus verschiedenen Entscheidungsbäumen k nearest neighbor: Ich mache was mein Nachbar macht Yip (2013) Genom Biol 14:
54 Support vector machines (SVM)
55 Die farbigen Bälle sollen getrennt werden 39 59
56 Eine einfache Linie macht den Job 40 59
57 Wir erhöhen die Anzahl an Bällen nachträglich 41 59
58 SVM s versuchen so viel Platz wie möglich zwischen der Linie zu generieren 42 59
59 Mehr Bälle passen hinein 43 59
60 Es gibt auch komplexe Situationen 44 59
61 Transformieren von 2D zu 3D 45 59
62 Rücktransformation von 3D zu 2D 46 59
63 Random Forest
64 Random Forest basiert auf Entscheidungsbäumen t 1 X 1 c 1 X 1 > c 1 t 2 t 3 X 2 c 2 X 2 > c 2 t 4 t
65 Random Forest basiert auf Entscheidungsbäumen t 1 X 1 c 1 X 1 > c 1 t 2 t 3 X 2 c 2 X 2 > c 2 t 4 t
66 Random Forest a ensemble of trees Random forest ist ein Wald aus bis zu 1000 Bäumen 49 59
67 Random Forest: Wie Varibilität generieren? Für einen Baum nutzen wir ein Bootstrap Sample Training data T A B C D E F G H I J 50 59
68 Random Forest: Wie Varibilität generieren? Für einen Baum nutzen wir ein Bootstrap Sample Training data T A B C D E F G H I J A A C F G F F H G A Bagged sample T 50 59
69 Random Forest: Wie Varibilität generieren? Für einen Baum nutzen wir ein Bootstrap Sample Training data T A B C D E F G H I J A A C F G I J F F H G A D D Bagged sample T Out of bag sample T \T 50 59
70 k nearest neighbors (k-nn)
71 k-nn: Algorithm 52 59
72 k-nn: Algorithm k =
73 k-nn: Algorithm k =
74 k-nn: Algorithm k =
75 Probleme mit den Daten Unterschiedliche Klassengröße Die Daten bestehen aus 2000 enhancer sites und non enhancer sites Missing data Die Daten haben fehlende Werte (NA, NaN, oder ähnliches) Stark korrelierte Variablen BMI und Gewicht wird Probleme verursachen Wenn zwei Variablen gleich gut sind, welche bevorzugen? Libbrecht (2015) Nat Rev Genet 16:
76 Zusammenfassung Missing data Data preparation Imbalanced data Training set / Test set Random forest Machine learning algorithm Support vector machine k nearest neighbor Feature selection 57 59
77 Regulierung und Anwendung FDA und EDA Maschinelle Lernverfahren sind bekannt und werden auch berücksichtigt Mangel an Experten auf dem Gebiet für die Regulierung (Risikoabschätzung) Vorausetzungen Wie auch bei normalen Tests, haben maschinelle Lernverfahren Annahmen Fehlende Werte, Unbalanzierte Daten oder starke Korrelationen, können die Klassifikation beeinflussen 58 59
78 Kontakt 59 59
After Work Statistics
After Work Statistics Maja Krajewska Institute of Biometry and Clinical Epidemiology maja.krajewska@charite.de U N I V E R S I T Ä T S M E D I Z I N B E R L I N Institut für Biometrie und klinische Epidemiologie
MehrVergleich von SVM und Regel- und Entscheidungsbaum-Lernern
Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge
MehrAfter Work Statistics
After Work Statistics Robert Röhle Institute of Biometry and Clinical Epidemiology robert.roehle@charite.de U N I V E R S I T Ä T S M E D I Z I N B E R L I N Institut für Biometrie und klinische Epidemiologie
MehrVorlesung Digitale Bildverarbeitung Sommersemester 2013
Vorlesung Digitale Bildverarbeitung Sommersemester 2013 Sebastian Houben (Marc Schlipsing) Institut für Neuroinformatik Inhalt Crash-Course in Machine Learning Klassifikationsverfahren Grundsätzliches
MehrLogistische Regression
Logistische Regression Markus Kalisch 30.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2, 4, 5, 6 Klassifikation
MehrValidation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation
Validation Oktober, 2013 1 von 20 Validation Lernziele Konzepte des maschinellen Lernens Validierungsdaten Model Selection Kreuz-Validierung (Cross Validation) 2 von 20 Validation Outline 1 Validation
MehrU N I V E R S I T Ä T S M E D I Z I N B E R L I N. After Work Statistics
U N I V E R S I T Ä T S M E D I Z I N B E R L I N After Work Statistics Institut für Biometrie und klinische Epidemiologie Wir sind Hilfsbereit und nett! als Wissenschaftler aktiv in der statistischen
MehrLineare Regression 1 Seminar für Statistik
Lineare Regression 1 Seminar für Statistik Markus Kalisch 17.09.2014 1 Statistik 2: Ziele Konzepte von einer breiten Auswahl von Methoden verstehen Umsetzung mit R: Daten einlesen, Daten analysieren, Grafiken
MehrInhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume
4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden
MehrRidge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel
Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel Dr. Dominik Grimm Probelehrveranstaltung Fakultät für Informatik und Mathematik Hochschule
MehrMachine Learning & Künstliche Intelligenz
Dr. med. Christina Czeschik Serapion www.serapion.de Machine Learning & Künstliche Intelligenz Eine kurze Einführung Künstliche Intelligenz intelligent nutzen Essen, 08.06.2018 Künstliche Intelligenz Turing-Test
MehrInstitut für Biometrie und klinische Forschung. WiSe 2012/2013
Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie () WiSe /3 Univariate und bivariate Verfahren Univariate
MehrGlobale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten
Globale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten M. Siebers 1 U. Schmid 2 1 Otto-Friedrich-Universität Bamberg 2 Fakultät für Wirtschaftsinformatik und Angewandte Informatik
MehrData Mining & Machine Learning Dipl.-Inf. Christoph Carl Kling
Web Science & Technologies University of Koblenz Landau, Germany Data Mining & Machine Learning Dipl.-Inf. Christoph Carl Kling Mündliche Prüfung Welche Methoden gibt es? Wie sind die Annahmen für die
MehrLineare Methoden zur Klassifizierung
Lineare Methoden zur Klassifizierung Kapitel 3 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität
MehrInstitut für angewandte Datenanalyse GmbH
Institut für angewandte Datenanalyse GmbH Überblick Vorstellung Marktforschung oder Data Mining? Database Enrichment Machine-Learning-Verfahren Zwei Fallstudien Ausblick und Fazit Vorstellung IfaD Institut
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrMotivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus
3. Klassifikation Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos
MehrPrädiktion und Klassifikation mit
Prädiktion und Klassifikation mit Random Forest Prof. Dr. T. Nouri Nouri@acm.org Technical University NW-Switzerland /35 Übersicht a. Probleme mit Decision Tree b. Der Random Forests RF c. Implementation
MehrModellierung mit künstlicher Intelligenz
Samuel Kost kosts@mailbox.tu-freiberg.de Institut für Numerische Mathematik und Optimierung Modellierung mit künstlicher Intelligenz Ein Überblick über existierende Methoden des maschinellen Lernens 13.
MehrBiometrie. Regressionsmodelle
1 Regressionsmodelle Einflussgrößen Zielgröße (Alter, Geschlecht Blutdruck) Zielgröße entscheidet über das Regressionsmodell stetige Zielgröße lineare Regression binäre Zielgröße logistische Regression
MehrPredictive Analytics VON PAUL BAUMGARTEN
Predictive Analytics VON PAUL BAUMGARTEN 1 Der Fall Target Werbemail an minderjährige mit Babyartikeln regt Vater auf. Vater beschwert sich beim Manager der entschuldigt sich. Manager ruft nach ein paar
MehrProjekt Maschinelles Lernen WS 06/07
Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb
MehrA linear-regression analysis resulted in the following coefficients for the available training data
Machine Learning Name: Vorname: Prof. Dr.-Ing. Klaus Berberich Matrikel: Aufgabe 1 2 3 4 Punkte % % (Bonus) % (Gesamt) Problem 1 (5 Points) A linear-regression analysis resulted in the following coefficients
Mehr6. Tutoriumsserie Statistik II
6. Tutoriumsserie Statistik II 1. Aufgabe: Eine Unternehmensabteilung ist ausschließlich mit der Herstellung eines einzigen Produktes beschäftigt. Für 10 Perioden wurden folgende Produktmenge y und Gesamtkosten
MehrWissensrepräsentation
Wissensrepräsentation Vorlesung Sommersemester 2008 8. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU (Fortsetzung LC-/Chart-Parsing) Statistische Verfahren in der KI Impliziert Maschinelles
MehrAnalyse 2: Hypothesentests
Analyse 2: Hypothesentests Ashkan Taassob Andreas Reisch Inhalt Motivation Statistischer Hintergrund Hypothese Nullhypothesen Alternativhypothesen Fehler beim Hypothesentesten Signifikanz-LEVEL und P-value
MehrData Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 1. Übungsblatt 1 1. Anwendungsszenario Überlegen
MehrEinführung in das Maschinelle Lernen I
Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL
MehrEin exakter Test für die Meta-Analyse von Studien mit binären Endpunkten. Oliver Kuß, Cora Gromann
Ein exakter Test für die Meta-Analyse von Studien mit binären Endpunkten Oliver Kuß, Cora Gromann Institut für Medizinische Epidemiologie, Biometrie und Informatik, Universität Halle-Wittenberg, Halle
MehrÜbung 4 im Fach "Biometrie / Q1"
Universität Ulm, Institut für Epidemiologie und Medizinische Biometrie, D-89070 Ulm Institut für Epidemiologie und Medizinische Biometrie Leiter: Prof. Dr. D. Rothenbacher Schwabstr. 13, 89075 Ulm Tel.
MehrMachine Learning. Dr. Bartholomäus Wissmath 3. Swiss Innovation Day
Machine Learning Dr. Bartholomäus Wissmath 3. Swiss Innovation Day Artificial Intelligence (AI) Teilgebiet der Informatik, welches sich mit der Automatisierung von intelligenten Verhalten und dem Maschinenlernen
MehrPareto optimale lineare Klassifikation
Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung
MehrMultiple Lineare Regression. Statistik (Biol./Pharm./HST) Herbst 2013
Multiple Lineare Regression Statistik (Biol./Pharm./HST) Herbst 2013 Wdh: Einfache lineare Regression Modell: Y i = β 0 + β 1 x i + ε i, ε i ~N 0, σ 2 i. i. d Finde β 0, β 1 : Methode der kleinsten Quadrate
MehrEine Einführung in R: Hochdimensionale Daten: n << p Teil II
Eine Einführung in R: Hochdimensionale Daten: n
MehrPlanung von Humanstudien Fallzahlberechnung
Planung von Humanstudien Fallzahlberechnung Hans-Peter Helfrich Universität Bonn 5. November 2015 H.-P. Helfrich (Universität Bonn) Planung von Humanstudien 5. November 2015 1 / 15 Einführung 1 Einführung
MehrKünstliche Intelligenz im Maschinen- und Anlagenbau Heilsbringer oder Hypebringer?
ASQF Automation Day 2018 - Predictive Analytics Künstliche Intelligenz im Maschinen- und Anlagenbau Heilsbringer oder Hypebringer? Vasilij Baumann Co-Founder/Co-CEO vasilij.baumann@instrunext.com +49 931
MehrWebsite. Vorlesung Statistisches Lernen. Dozenten. Termine. Einheit 1: Einführung
Website Vorlesung Statistisches Lernen Einheit 1: Einführung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig (Aktuelle) Informationen
MehrData Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
MehrVorlesung Statistisches Lernen
Vorlesung Statistisches Lernen Einheit 1: Einführung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 20 Organisatorisches
MehrPrüfung im Fach Mikroökonometrie im Sommersemester 2014 Aufgaben
Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Mikroökonometrie im Sommersemester 014 Aufgaben Vorbemerkungen: Anzahl der Aufgaben: Bewertung:
MehrMethoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
MehrFolien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr
Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der
MehrTeil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller
Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 1. Übungsblatt Aufgabe 1: Anwendungsszenario Überlegen Sie sich ein neues Szenario des klassifizierenden Lernens (kein
MehrData Mining und maschinelles Lernen
Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:
MehrPflege Deine Vorurteile! A statistician is a person who draws a mathematically precise line from an unwarranted assumption to a foregone conclusion.
Pflege Deine Vorurteile! A statistician is a person who draws a mathematically precise line from an unwarranted assumption to a foregone conclusion. Statistik als wissenschaftliche Qualitätskontrolle Quo
MehrDas PhD-Studium ein Start ins ForscherInnenleben lb?
Das PhD-Studium ein Start ins ForscherInnenleben lb? Ao. Univ.-Prof. Dr.med.univ. Wolfgang PRODINGER Sektion Hygiene und Medizinische Mikrobiologie Neues Doktoratsstudium für Medizin wieso denn? Ausgangspunkt:
MehrLineare Regression 2: Gute Vorhersagen
Lineare Regression 2: Gute Vorhersagen Markus Kalisch 23.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2,
MehrÜbungsblatt 10: Lineare Regression (Sitzung 11)
1 Übungsblatt 10: Lineare Regression (Sitzung 11) Aufgabe 1 a) Nach welchem Kriterium wird die Regressionsgerade zur Vorhersage von Y-Werten festgelegt? b) Was sind die Gemeinsamkeiten und Unterschiede
MehrInterdependence of physical activity and body mass at various ages in lifetime in a retrospective population-based study
08.09.2010 Interdependence of physical activity and body mass at various ages in lifetime in a retrospective population-based study Michael Hoffmeister 1, Karen Steindorf 2, Jenny Chang-Claude 3, Hermann
MehrAfter Work Statistics
After Work Statistics Ulrike Grittner Annette Aigner Institute of Biometry and Clinical Epidemiology ulrike.grittner@charite.de U N I V E R S I T Ä T S M E D I Z I N B E R L I N Institut für Biometrie
MehrBiomathematik für Mediziner, Klausur WS 1999/2000 Seite 1
Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1 Aufgabe 1: Wieviele der folgenden Variablen sind quantitativ stetig? Schulnoten, Familienstand, Religion, Steuerklasse, Alter, Reaktionszeit, Fahrzeit,
MehrBZQ II: Stochastikpraktikum
BZQ II: Stochastikpraktikum Block 5: Markov-Chain-Monte-Carlo-Verfahren Randolf Altmeyer February 1, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden
MehrSchnelles Denken - Maschinelles Lernen mit Apache Spark 2
Schnelles Denken - Maschinelles Lernen mit Apache Spark 2 Heiko Spindler Apache Spark - Components Machine Learning Machine learning explores the construction and study of algorithms that can learn from
MehrGutartig oder bösartig? Die Diagnose aus dem Rechner
Gutartig oder bösartig? Die Diagnose aus dem Rechner Eine Krankheit Drei Therapien Klinische Studie Im Mittel 75% 55% 35% Erfolg Drei unterschiedliche Formen dieser Krankheit A B C A B C 100% 60% 65% 40%
MehrEntscheidungsbäume aus großen Datenbanken: SLIQ
Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:
MehrÜbung 5 im Fach "Biometrie / Q1" Thema: Wilcoxon, Chi-Quadrat, multiples Testen
Universität Ulm, Institut für Epidemiologie und Medizinische Biometrie, D-89070 Ulm Institut für Epidemiologie und Medizinische Biometrie Leiter: Prof. Dr. D. Rothenbacher Schwabstr. 13, 89075 Ulm Tel.
MehrKovarianzanalyse. Truthahngewicht. Truthahngewicht. Methoden empirischer Sozialforschung. 1 metrische und mehrere metrische und kategoriale Variablen
Kovarianzanalyse 1 metrische und mehrere metrische und kategoriale Variablen Methoden empirischer Sozialforschung Lineare Modelle (2. Teil) Wie läßt sich die Abhängigkeit einer metrischen Variablen von
MehrPrädiktive Gentests multifaktorieller Erkrankungen
Prädiktive Gentests multifaktorieller Erkrankungen Prof. Dr. med. Andreas Papassotiropoulos Division of Molecular Neuroscience Faculty of Psychology and University Psychiatric Clinics Life Sciences Training
MehrÜbersicht. Definition Daten Problemklassen Fehlerfunktionen
Übersicht 1 Maschinelle Lernverfahren Definition Daten Problemklassen Fehlerfunktionen 2 Entwickeln von maschinellen Lernverfahren Aufteilung der Daten Underfitting und Overfitting Erkennen Regularisierung
MehrMultiple Lineare Regression. Statistik (Biol./Pharm.) Herbst 2012
Multiple Lineare Regression Statistik (Biol./Pharm.) Herbst 2012 Wdh: Einfache lineare Regression Modell: Y i = β 0 + β 1 x i + ε i, ε i ~N 0, σ 2 i. i. d Finde β 0, β 1 : Methode der kleinsten Quadrate
MehrAnwendung von Multi-Level Moderation in Worst Performance Analysen
Anwendung von Multi-Level Moderation in Worst Performance Analysen Präsentation auf der FGME 2015 - Jena Gidon T. Frischkorn, Anna-Lena Schubert, Andreas B. Neubauer & Dirk Hagemann 16. September 2015
Mehrx t2 y t = 160, y = 8, y y = 3400 t=1
Aufgabe 1 (25 Punkte) 1. Eine Online Druckerei möchte die Abhängigkeit des Absatzes gedruckter Fotos vom Preis untersuchen. Dazu verwendet die Firma das folgende lineare Regressionsmodell: wobei y t =
MehrStatistische Methoden in der Bioinformatik
Statistische Methoden in der Bioinformatik Prof. Dr. Jörg Rahnenführer Raum 720 Email: rahnenfuehrer@statistik. tu-.de Voraussetzungen: Vordiplom in Statistik, Mathematik, Datenanalyse, Informatik Zeiten
MehrMultivariate Statistik
27.04.2017 27.04.2017 Multivariate Statistik Inhaltliche Abstimmung innerhalb des Moduls Vorlesung Grundlegende Konzepte der Datenanalyse Lineare Regression Allgemeines Lineares Model Übung Konkrete Einführung
MehrWas ist Statistik? CASE Center for Applied Statistics and Econometrics Institut für Statistik and Ökonometrie Humboldt-Universität zu Berlin
CASE Center for Applied Statistics and Econometrics Institut für Statistik and Ökonometrie Humboldt-Universität zu Berlin http://ise.wiwi.hu-berlin.de http://www.xplore-stat.de http://www.md-stat.com Grundlagen
MehrFeature Selection / Preprocessing
1 Feature Selection / Preprocessing 2 Was ist Feature Selection? 3 Warum Feature Selection? Mehr Variablen führen nicht automatisch zu besseren Ergebnissen. Lernen von unwichtigen Daten Mehr Daten notwendig
MehrInnovative Datenanalyse für die Medizin
Innovative Datenanalyse für die Medizin IDEALearning Intelligent Data Evaluation and Analysis by Machine Learning Dr. Susanne Winter winter:science Technologiezentrum Ruhr Universitätsstr. 142 44799 Bochum
MehrRisiken einschätzen: die wahren Ursachen feststellen. Marloes Maathuis Seminar für Statistik ETH Zürich
Risiken einschätzen: die wahren Ursachen feststellen Marloes Maathuis Seminar für Statistik ETH Zürich Beispiele von Risiken Eat breakfast if you want to reduce your risk of coronary heart disease (The
MehrAfter Work Statistics
After Work Statistics Konrad Neumann Institute of Biometry and Clinical Epidemiology Konrad.Neumann@charite.de U N I V E R S I T Ä T S M E D I Z I N B E R L I N Institut für Biometrie und klinische Epidemiologie
MehrCIM2004 Übung 7: Permutationstest, Bootstrap & Jackknife
CIM2004 Übung 7: Permutationstest, Bootstrap & Jackknife Michael Höhle hoehle@stat.uni-muenchen.de Lösung 24. Juni 2004 1 Permutationstest Bilirubin ist ein Zerlegungsprodukt von Haemoglobin. Falls die
MehrGleiche Daten, unterschiedliche Erkenntnisziele?
Gleiche Daten, unterschiedliche Erkenntnisziele? Zum Potential vermeintlich widersprüchlicher Zugänge zur Textanalyse Universität Hamburg Evelyn Gius Jan Christoph Meister Janina Jacke Marco Petris Universität
MehrForschungsstatistik I
Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/
MehrDOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING
DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING Andreas Nadolski Softwareentwickler andreas.nadolski@enpit.de Twitter: @enpit Blogs: enpit.de/blog medium.com/enpit-developer-blog 05.10.2018, DOAG Big Data
MehrH E R Z L I C H W I L L K O M M E N Z U R D O A G K O N F E R E N Z
H E R Z L I C H W I L L K O M M E N Z U R D O A G K O N F E R E N Z 2 0 1 6 A D V A N C E D A N A L Y T I C S : V O N S E M I - S T R U K T U R I E R T E N D A T E N Z U W I S S E N T O M S E I D E L &
MehrKünstliche Intelligenz angewandt bei koronarer Herzkrankheit - Cardioexplorer
Kardiologie Künstliche Intelligenz angewandt bei koronarer Herzkrankheit - Cardioexplorer Michael J. Zellweger, MD, Professor of Cardiology, Cardiology Department, University Hospital Basel, Switzerland;
MehrApproximate Maximum Margin Algorithms with Rules Controlled by the Number of Mistakes
Approximate Maximum Margin Algorithms with Rules Controlled by the Number of Mistakes Seminar Maschinelles Lernen VORTRAGENDER: SEBASTIAN STEINMETZ BETREUT VON: ENELDO LOZA MENCÍA Inhalt Vorbedingungen
MehrPredictive Analytics. Warum datenbasierte Vorhersagen kein Hexenwerk sind. ASQF Automation Day Dr. Stefano Signoriello
Predictive Analytics Warum datenbasierte Vorhersagen kein Hexenwerk sind Dr. Stefano Signoriello Seite 1 Inhalte des Vortrags Analytics Von Daten zu Wissen Von Nachsicht über Einsicht zu Voraussicht Descriptive,
MehrStatistik und Studienauslegung. Teil 1: Studiendesigns, Bias, Confounding
Statistik und Studienauslegung Teil 1: Studiendesigns, Bias, Confounding Maria Flamm Österreichische Cochrane Zweigstelle Donau Universität Krems Übersicht Warum brauchen wir gute Studien? Unterschiedliche
MehrNutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten
Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung
MehrMixed Effects Models: Wachstumskurven
Mixed Effects Models: Wachstumskurven Markus Kalisch 07.10.2014 1 Überblick Wiederholte Messungen (z.b. Wachstumskurven): Korrelierte Beobachtungen Random Intercept Model (RI) Random Intercept and Random
MehrTeil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.
Woche 11: Multiple lineare Regression Patric Müller Teil XIII Multiple lineare Regression ETHZ WBL 17/19, 10.07.017 Wahrscheinlichkeit und Statistik Patric Müller WBL
MehrKapitel 4: Merkmalszusammenhänge
Kapitel 4: Merkmalszusammenhänge Korrelationen 1 Lineare Regression 3 Literatur 5 Korrelationen Mit Hilfe von G*Power lässt sich analog zum Vorgehen beim t-test (Kapitel 3, Band I) vor einer Untersuchung
MehrMythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011
Voraussetzungen für Data Mining und Text Mining Schluÿ Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ
Mehr5. Klassifikation. 5.6 Support Vector Maschines (SVM)
5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus
MehrStatistische Matching-Verfahren
Statistische Matching-Verfahren Erste Statistik-Tage 2012 Bamberg Fürth 26./27. Juli 2012 in Bamberg Prof. Dr. Susanne Rässler Lehrstuhl für Statistik und Ökonometrie in den Sozial- und Wirtschaftswissenschaften
MehrNeural Networks: Architectures and Applications for NLP
Neural Networks: Architectures and Applications for NLP Session 02 Julia Kreutzer 8. November 2016 Institut für Computerlinguistik, Heidelberg 1 Overview 1. Recap 2. Backpropagation 3. Ausblick 2 Recap
MehrStatistische Überlegungen: Eine kleine Einführung in das 1 x 1
Statistische Überlegungen: Eine kleine Einführung in das 1 x 1 PD Dr. Thomas Friedl Klinik für Frauenheilkunde und Geburtshilfe, Universitätsklinikum Ulm München, 23.11.2012 Inhaltsübersicht Allgemeine
MehrAfter Work Statistics
After Work Statistics Dr. Jochen Kruppa Institute of Biometry and Clinical Epidemiology jochen.kruppa@charite.de U N I V E R S I T Ä T S M E D I Z I N B E R L I N Institut für Biometrie und klinische Epidemiologie
MehrFragestellungen. Ist das Gewicht von Männern und Frauen signifikant unterschiedlich? (2-sample test)
Hypothesen Tests Fragestellungen stab.glu 82 97 92 93 90 94 92 75 87 89 hdl 56 24 37 12 28 69 41 44 49 40 ratio 3.60 6.90 6.20 6.50 8.90 3.60 4.80 5.20 3.60 6.60 glyhb 4.31 4.44 4.64 4.63 7.72 4.81 4.84
MehrFunktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen
5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus
MehrNeuronale Netze. Christian Böhm.
Ludwig Maximilians Universität München Institut für Informatik Forschungsgruppe Data Mining in der Medizin Neuronale Netze Christian Böhm http://dmm.dbs.ifi.lmu.de/dbs 1 Lehrbuch zur Vorlesung Lehrbuch
MehrMaschinelles Lernen zur Hautkrebsvorhersage
Maschinelles Lernen zur Hautkrebsvorhersage Eine Bachelorarbeit von Daniel Fischer Betreuung: Dipl. Inf. Frederik Janssen Prof. Dr. Johannes Fürnkranz Dr. med. Matthias Herbst 03.07.2011 Fachbereich Informatik
MehrÜberblick. 4.1 Einleitung 42Cl 4.2 Clustering 4.3 Klassifikation. 4.4 Outlier Detection
Überblick 4.1 Einleitung 42Cl 4.2 Clustering 4.3 Klassifikation 4.4 Einführung in die Informatik: Systeme und Anwendungen SoSe 2013 32 Was ist ein Outlier? Definition nach Hawkins [Hawkins 1980]: Ein Outlier
MehrForschungsstatistik I
Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/
MehrData Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Daniel Meschenmoser Übersicht Gemeinsamkeiten von Data Mining und Statistik Unterschiede zwischen Data Mining und Statistik Assoziationsregeln
Mehr