Big Data - und nun? Was kann die Bioinformatik?

Größe: px
Ab Seite anzeigen:

Download "Big Data - und nun? Was kann die Bioinformatik?"

Transkript

1 Big Data - und nun? Was kann die Bioinformatik? Jochen Kruppa Institut für Biometrie und Klinische Epidemiologie jochenkruppa@charitede 1 59

2 Vorstellung

3 Wer spricht heute zu Ihnen? Studium der Pflanzenbiotechnologie PhD Universität zu Lübeck Institut für medizinische Biometrie und Statistik ( ) Lübeck Postdoc Universität Göttingen Department of Animal Breeding ( ) Postdoc Universitätsmedizin Göttingen Department of Medical Statistics ( ) Postdoc TiHo Hannover AG Genomics and Bioinformatics of Infectious Diseases ( ) Göttingen AG-Leiter Statistische Bioinformatik Berliner Charité ( heute) 3 59

4 "Das ist die Logik der Forschung, die nie verifizieren, sondern immer nur jene Erklärungen beibehalten kann, die beim derzeitigen Erkenntnisstand am wenigsten falsifiziert sind" Bildungsökonom Ludger Wößmann

5 "Das ist die Logik der Forschung, die nie verifizieren, sondern immer nur jene Erklärungen beibehalten kann, die beim derzeitigen Erkenntnisstand am wenigsten falsifiziert sind" Bildungsökonom Ludger Wößmann

6 "Das ist die Logik der Forschung, die nie verifizieren, sondern immer nur jene Modelle beibehalten kann, die beim derzeitigen Erkenntnisstand am wenigsten falsifiziert sind" Bildungsökonom Ludger Wößmann

7 Small data

8 Small Data vs Big Data p 1 p 2 p 3 n 1 a 1 a 2 a 3 n 2 b 1 b 2 b 3 n 3 c 1 c 2 c 3 n s n s1 n s2 n s3 n > p p 1 p 2 p 3 p b n 1 a 1 a 2 a 3 a 4 n 2 b 1 b 2 b 3 b 4 n 3 c 1 c 2 c 3 c 4 n b n b1 n b2 n b3 n bp n p oder n p 6 59

9 Small Data Ein Model von Gewicht und Sport Gewicht Sport 8050 wenig 8303 wenig 9299 wenig 9413 wenig 8490 wenig 7668 viel 7049 viel 6702 viel 7214 viel 7338 viel 7 59

10 Small Data Ein Model von Gewicht und Sport Gewicht wenig Sport viel 8 59

11 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport 9 59

12 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport T = 9 59

13 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport T =

14 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport T =

15 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport T =

16 Small Data Ein Model von Gewicht und Sport Ein simpler t-test T = Sport wenig Sport viel SE Sport T = =

17 Small Data Ein Model von Gewicht und Sport T Statistik 10 59

18 Small Data Ein Model von Gewicht und Sport T Statistik 11 59

19 Small Data Ein Model von Gewicht und Sport T Statistik 12 59

20 Small Data Der Stern mit dem p-wert p-werte werden meist falsch interpretiert und daher falsch genutzt The ASA s Statement on p-values Q: Why do so many colleges and grad schools teach p = 005? A: Because that s still what the scientific community and journal editors use Q: Why do so many people still use p = 005? A: Because that s what they were taught in college or grad school p-werte waren nie so von Fisher gedacht, wie p-werte genutzt werden p-werte sind bedingte Wahrscheinlichkeiten p(meine Daten Null Hypothese) Ronald L Wasserstein & Nicole A Lazar (2016) The ASA s Statement on p-values: Context, Process, and Purpose, The American Statistician, 70:2, ,

21 Small data und confounder

22 Small Data Ein Model von Gewicht und Sport Gewicht wenig Sport viel 15 59

23 Small Data Ein Model von Gewicht und Sport Gewicht wenig Sport viel 16 59

24 Small Data Ein Model von Gewicht und Sport Gewicht wenig Sport viel 17 59

25 Small Data Ein Model von Gewicht und Sport Lineare Regression 90 f(gewicht) = β 0 + β 1 Sport 85 Gewicht 80 β 0 gleich dem Y-Achsenabschnitt wenig Sport viel β 1 gleich der Steigung und dem Mittelwertsunterschied 18 59

26 Small Data Ein Model von Gewicht und Sport T = Sport wenig Sport viel SE Sport f(gewicht) = β 0 + β 1 Sport Wir können (Gruppen)variablen testen und Covariablen hinzufügen (die Varianz erklären) und f() ändern, wenn die zb (0,1) vorliegt und erhalten einen p-wert für die Signifkanz (p α) 19 59

27 Small Data Ein Model von Gewicht und Sport p 1 p 2 p 3 p 4 Gewicht Sport Geschlecht Rauchen Kalorien n wenig weiblich n wenig weiblich n wenig männlich n wenig männlich n wenig weiblich n viel weiblich n viel männlich n viel männlich n viel weiblich n viel männlich n > p 20 59

28 t-test und 2x2 Tafeln Sato, Y (2017) Statistical Methods in the Journal - An Update N Engl J Med 21 59

29 Überblick Inza (2010) Met Mol Biol 593:

30 Big data in der Informationstechnologie

31 Big Data und Informationen: Text Mining Einfache Frage: Welchen Buchstaben sehen Sie? 24 59

32 Big Data und Informationen: Text Mining 25 59

33 Big Data und Informationen: Text Mining 26 59

34 Big Data und Informationen: Text Mining 27 59

35 Big Data und Informationen: Bilderkennung Einfache Frage: Welche Geschlechter sehen Sie? 28 59

36 Big Data und Informationen: Bilderkennung 29 59

37 Big Data und Informationen: Medizin Im Februar bei einem Allgemeinarzt 30 59

38 Big Data und Informationen: Medizin Im Februar bei einem Allgemeinarzt Patient mit Fieber steht an der Anmeldung 30 59

39 Big Data und Informationen: Medizin Im Februar bei einem Allgemeinarzt Patient mit Fieber steht an der Anmeldung Liefert jeder weitere Parameter mehr Informationen? 30 59

40 Big Data und Informationen: Medizin Im Februar bei einem Allgemeinarzt Patient mit Fieber steht an der Anmeldung Liefert jeder weitere Parameter mehr Informationen? Eine wichtige Annahme ist, dass mehr Parameter auch mehr Informationen bedeuten Das ist in der Medizin nicht so gegeben, wie in dem Bereich wo maschinelle Lernverfahren entwickelt werden 30 59

41 Maschinelle Lernverfahren Inza, I, Calvo, B, Armananzas, R, Bengoetxea, E, Larranaga, P and Lozano, J,A (2010) Machine learning: an indispensable tool in bioinformatics Methods in Molecular Biology, 593:25 Libbrecht M W and Noble W S (2015) Machine learning applications in genetics and genomics Nature Review Genetics, 16: Yip, K Y, Cheng, C and Gerstein, M (2013) Machine learning and genome annotation: a match meant to be? Genome Biology, 14:

42 Maschinelle Lernverfahren Inza, I, Calvo, B, Armananzas, R, Bengoetxea, E, Larranaga, P and Lozano, J,A (2010) Machine learning: an indispensable tool in bioinformatics Methods in Molecular Biology, 593:25 Libbrecht M W and Noble W S (2015) Machine learning applications in genetics and genomics Nature Review Genetics, 16: Yip, K Y, Cheng, C and Gerstein, M (2013) Machine learning and genome annotation: a match meant to be? Genome Biology, 14:

43 Maschinelle Lernverfahren Vokabular Modellbeschreibung wobei y a + b + c y ist die response oder Endpoint/Endpunkt oder gemessene Variable/Outcome: Krebs ja/nein a, b, c sind die Covariablen, Risk factors oder Variablen: sex, age, dose level Libbrecht (2015) Nat Rev Genet 16:

44 Maschinelle Lernverfahren Vokabular Modellbeschreibung wobei y a + b + c y ist die response oder Endpoint/Endpunkt oder gemessene Variable/Outcome: Krebs ja/nein a, b, c sind die Covariablen, Risk factors oder Variablen: sex, age, dose level Krebs [ja/nein] hängt ab sex + age + dose label hängt ab features Libbrecht (2015) Nat Rev Genet 16:

45 Maschinelle Lernverfahren Vokabular Modellbeschreibung label hängt ab features label ist das Ziel der Vorhersage feature einzelne Varibalen, die für das maschinelle Lernverfahren verwendet werden Ziel von maschinellen Lernverfahren Etwas Vorhersagen (test data) mit der Hilfe von etwas Anderem (training data) Libbrecht (2015) Nat Rev Genet 16:

46 Maschinelle Lernverfahren Ziel von maschinellen Lernverfahren Etwas Vorhersagen (test data) mit der Hilfe von etwas Anderem (training data) Maschinelle Lernverfahren behandeln Klassifikation Ist der Patient ein Krebspatient gegeben der Feature? In welche Gruppe gehört eine Maus? Ein p-wert ist nicht zu berechnen 34 59

47 Maschinelle Lernverfahren Libbrecht (2015) Nat Rev Genet 16:

48 Maschinelle Lernverfahren Supervised learning: Maschinelle Lernverfahren basierend auf gelabelten Patienten Diese werden genutzt um nicht bekannte Labels vorherzusagen Yip (2013) Genom Biol 14:

49 Maschinelle Lernverfahren Supervised learning: Maschinelle Lernverfahren basierend auf gelabelten Patienten Diese werden genutzt um nicht bekannte Labels vorherzusagen Unsupervised learning: Maschinelle Lernverfahren ohne bekannte Label Yip (2013) Genom Biol 14:

50 Maschinelle Lernverfahren Supervised learning: Maschinelle Lernverfahren basierend auf gelabelten Patienten Diese werden genutzt um nicht bekannte Labels vorherzusagen Unsupervised learning: Maschinelle Lernverfahren ohne bekannte Label Semi-supervised learning: Maschinelle Lernverfahren nutzen eine Mischung Yip (2013) Genom Biol 14:

51 Die drei meist verbreitesten Maschinen Support vector machine: Zeichne eine Linie durch Punkte Yip (2013) Genom Biol 14:

52 Die drei meist verbreitesten Maschinen Support vector machine: Zeichne eine Linie durch Punkte Random Forest: Baue eine Mischung aus verschiedenen Entscheidungsbäumen Yip (2013) Genom Biol 14:

53 Die drei meist verbreitesten Maschinen Support vector machine: Zeichne eine Linie durch Punkte Random Forest: Baue eine Mischung aus verschiedenen Entscheidungsbäumen k nearest neighbor: Ich mache was mein Nachbar macht Yip (2013) Genom Biol 14:

54 Support vector machines (SVM)

55 Die farbigen Bälle sollen getrennt werden 39 59

56 Eine einfache Linie macht den Job 40 59

57 Wir erhöhen die Anzahl an Bällen nachträglich 41 59

58 SVM s versuchen so viel Platz wie möglich zwischen der Linie zu generieren 42 59

59 Mehr Bälle passen hinein 43 59

60 Es gibt auch komplexe Situationen 44 59

61 Transformieren von 2D zu 3D 45 59

62 Rücktransformation von 3D zu 2D 46 59

63 Random Forest

64 Random Forest basiert auf Entscheidungsbäumen t 1 X 1 c 1 X 1 > c 1 t 2 t 3 X 2 c 2 X 2 > c 2 t 4 t

65 Random Forest basiert auf Entscheidungsbäumen t 1 X 1 c 1 X 1 > c 1 t 2 t 3 X 2 c 2 X 2 > c 2 t 4 t

66 Random Forest a ensemble of trees Random forest ist ein Wald aus bis zu 1000 Bäumen 49 59

67 Random Forest: Wie Varibilität generieren? Für einen Baum nutzen wir ein Bootstrap Sample Training data T A B C D E F G H I J 50 59

68 Random Forest: Wie Varibilität generieren? Für einen Baum nutzen wir ein Bootstrap Sample Training data T A B C D E F G H I J A A C F G F F H G A Bagged sample T 50 59

69 Random Forest: Wie Varibilität generieren? Für einen Baum nutzen wir ein Bootstrap Sample Training data T A B C D E F G H I J A A C F G I J F F H G A D D Bagged sample T Out of bag sample T \T 50 59

70 k nearest neighbors (k-nn)

71 k-nn: Algorithm 52 59

72 k-nn: Algorithm k =

73 k-nn: Algorithm k =

74 k-nn: Algorithm k =

75 Probleme mit den Daten Unterschiedliche Klassengröße Die Daten bestehen aus 2000 enhancer sites und non enhancer sites Missing data Die Daten haben fehlende Werte (NA, NaN, oder ähnliches) Stark korrelierte Variablen BMI und Gewicht wird Probleme verursachen Wenn zwei Variablen gleich gut sind, welche bevorzugen? Libbrecht (2015) Nat Rev Genet 16:

76 Zusammenfassung Missing data Data preparation Imbalanced data Training set / Test set Random forest Machine learning algorithm Support vector machine k nearest neighbor Feature selection 57 59

77 Regulierung und Anwendung FDA und EDA Maschinelle Lernverfahren sind bekannt und werden auch berücksichtigt Mangel an Experten auf dem Gebiet für die Regulierung (Risikoabschätzung) Vorausetzungen Wie auch bei normalen Tests, haben maschinelle Lernverfahren Annahmen Fehlende Werte, Unbalanzierte Daten oder starke Korrelationen, können die Klassifikation beeinflussen 58 59

78 Kontakt 59 59

After Work Statistics

After Work Statistics After Work Statistics Maja Krajewska Institute of Biometry and Clinical Epidemiology maja.krajewska@charite.de U N I V E R S I T Ä T S M E D I Z I N B E R L I N Institut für Biometrie und klinische Epidemiologie

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

After Work Statistics

After Work Statistics After Work Statistics Robert Röhle Institute of Biometry and Clinical Epidemiology robert.roehle@charite.de U N I V E R S I T Ä T S M E D I Z I N B E R L I N Institut für Biometrie und klinische Epidemiologie

Mehr

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

Vorlesung Digitale Bildverarbeitung Sommersemester 2013 Vorlesung Digitale Bildverarbeitung Sommersemester 2013 Sebastian Houben (Marc Schlipsing) Institut für Neuroinformatik Inhalt Crash-Course in Machine Learning Klassifikationsverfahren Grundsätzliches

Mehr

Logistische Regression

Logistische Regression Logistische Regression Markus Kalisch 30.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2, 4, 5, 6 Klassifikation

Mehr

Validation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation

Validation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation Validation Oktober, 2013 1 von 20 Validation Lernziele Konzepte des maschinellen Lernens Validierungsdaten Model Selection Kreuz-Validierung (Cross Validation) 2 von 20 Validation Outline 1 Validation

Mehr

U N I V E R S I T Ä T S M E D I Z I N B E R L I N. After Work Statistics

U N I V E R S I T Ä T S M E D I Z I N B E R L I N. After Work Statistics U N I V E R S I T Ä T S M E D I Z I N B E R L I N After Work Statistics Institut für Biometrie und klinische Epidemiologie Wir sind Hilfsbereit und nett! als Wissenschaftler aktiv in der statistischen

Mehr

Lineare Regression 1 Seminar für Statistik

Lineare Regression 1 Seminar für Statistik Lineare Regression 1 Seminar für Statistik Markus Kalisch 17.09.2014 1 Statistik 2: Ziele Konzepte von einer breiten Auswahl von Methoden verstehen Umsetzung mit R: Daten einlesen, Daten analysieren, Grafiken

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel Dr. Dominik Grimm Probelehrveranstaltung Fakultät für Informatik und Mathematik Hochschule

Mehr

Machine Learning & Künstliche Intelligenz

Machine Learning & Künstliche Intelligenz Dr. med. Christina Czeschik Serapion www.serapion.de Machine Learning & Künstliche Intelligenz Eine kurze Einführung Künstliche Intelligenz intelligent nutzen Essen, 08.06.2018 Künstliche Intelligenz Turing-Test

Mehr

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Institut für Biometrie und klinische Forschung. WiSe 2012/2013 Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie () WiSe /3 Univariate und bivariate Verfahren Univariate

Mehr

Globale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten

Globale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten Globale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten M. Siebers 1 U. Schmid 2 1 Otto-Friedrich-Universität Bamberg 2 Fakultät für Wirtschaftsinformatik und Angewandte Informatik

Mehr

Data Mining & Machine Learning Dipl.-Inf. Christoph Carl Kling

Data Mining & Machine Learning Dipl.-Inf. Christoph Carl Kling Web Science & Technologies University of Koblenz Landau, Germany Data Mining & Machine Learning Dipl.-Inf. Christoph Carl Kling Mündliche Prüfung Welche Methoden gibt es? Wie sind die Annahmen für die

Mehr

Lineare Methoden zur Klassifizierung

Lineare Methoden zur Klassifizierung Lineare Methoden zur Klassifizierung Kapitel 3 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität

Mehr

Institut für angewandte Datenanalyse GmbH

Institut für angewandte Datenanalyse GmbH Institut für angewandte Datenanalyse GmbH Überblick Vorstellung Marktforschung oder Data Mining? Database Enrichment Machine-Learning-Verfahren Zwei Fallstudien Ausblick und Fazit Vorstellung IfaD Institut

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus 3. Klassifikation Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos

Mehr

Prädiktion und Klassifikation mit

Prädiktion und Klassifikation mit Prädiktion und Klassifikation mit Random Forest Prof. Dr. T. Nouri Nouri@acm.org Technical University NW-Switzerland /35 Übersicht a. Probleme mit Decision Tree b. Der Random Forests RF c. Implementation

Mehr

Modellierung mit künstlicher Intelligenz

Modellierung mit künstlicher Intelligenz Samuel Kost kosts@mailbox.tu-freiberg.de Institut für Numerische Mathematik und Optimierung Modellierung mit künstlicher Intelligenz Ein Überblick über existierende Methoden des maschinellen Lernens 13.

Mehr

Biometrie. Regressionsmodelle

Biometrie. Regressionsmodelle 1 Regressionsmodelle Einflussgrößen Zielgröße (Alter, Geschlecht Blutdruck) Zielgröße entscheidet über das Regressionsmodell stetige Zielgröße lineare Regression binäre Zielgröße logistische Regression

Mehr

Predictive Analytics VON PAUL BAUMGARTEN

Predictive Analytics VON PAUL BAUMGARTEN Predictive Analytics VON PAUL BAUMGARTEN 1 Der Fall Target Werbemail an minderjährige mit Babyartikeln regt Vater auf. Vater beschwert sich beim Manager der entschuldigt sich. Manager ruft nach ein paar

Mehr

Projekt Maschinelles Lernen WS 06/07

Projekt Maschinelles Lernen WS 06/07 Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb

Mehr

A linear-regression analysis resulted in the following coefficients for the available training data

A linear-regression analysis resulted in the following coefficients for the available training data Machine Learning Name: Vorname: Prof. Dr.-Ing. Klaus Berberich Matrikel: Aufgabe 1 2 3 4 Punkte % % (Bonus) % (Gesamt) Problem 1 (5 Points) A linear-regression analysis resulted in the following coefficients

Mehr

6. Tutoriumsserie Statistik II

6. Tutoriumsserie Statistik II 6. Tutoriumsserie Statistik II 1. Aufgabe: Eine Unternehmensabteilung ist ausschließlich mit der Herstellung eines einzigen Produktes beschäftigt. Für 10 Perioden wurden folgende Produktmenge y und Gesamtkosten

Mehr

Wissensrepräsentation

Wissensrepräsentation Wissensrepräsentation Vorlesung Sommersemester 2008 8. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU (Fortsetzung LC-/Chart-Parsing) Statistische Verfahren in der KI Impliziert Maschinelles

Mehr

Analyse 2: Hypothesentests

Analyse 2: Hypothesentests Analyse 2: Hypothesentests Ashkan Taassob Andreas Reisch Inhalt Motivation Statistischer Hintergrund Hypothese Nullhypothesen Alternativhypothesen Fehler beim Hypothesentesten Signifikanz-LEVEL und P-value

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 1. Übungsblatt 1 1. Anwendungsszenario Überlegen

Mehr

Einführung in das Maschinelle Lernen I

Einführung in das Maschinelle Lernen I Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL

Mehr

Ein exakter Test für die Meta-Analyse von Studien mit binären Endpunkten. Oliver Kuß, Cora Gromann

Ein exakter Test für die Meta-Analyse von Studien mit binären Endpunkten. Oliver Kuß, Cora Gromann Ein exakter Test für die Meta-Analyse von Studien mit binären Endpunkten Oliver Kuß, Cora Gromann Institut für Medizinische Epidemiologie, Biometrie und Informatik, Universität Halle-Wittenberg, Halle

Mehr

Übung 4 im Fach "Biometrie / Q1"

Übung 4 im Fach Biometrie / Q1 Universität Ulm, Institut für Epidemiologie und Medizinische Biometrie, D-89070 Ulm Institut für Epidemiologie und Medizinische Biometrie Leiter: Prof. Dr. D. Rothenbacher Schwabstr. 13, 89075 Ulm Tel.

Mehr

Machine Learning. Dr. Bartholomäus Wissmath 3. Swiss Innovation Day

Machine Learning. Dr. Bartholomäus Wissmath 3. Swiss Innovation Day Machine Learning Dr. Bartholomäus Wissmath 3. Swiss Innovation Day Artificial Intelligence (AI) Teilgebiet der Informatik, welches sich mit der Automatisierung von intelligenten Verhalten und dem Maschinenlernen

Mehr

Pareto optimale lineare Klassifikation

Pareto optimale lineare Klassifikation Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung

Mehr

Multiple Lineare Regression. Statistik (Biol./Pharm./HST) Herbst 2013

Multiple Lineare Regression. Statistik (Biol./Pharm./HST) Herbst 2013 Multiple Lineare Regression Statistik (Biol./Pharm./HST) Herbst 2013 Wdh: Einfache lineare Regression Modell: Y i = β 0 + β 1 x i + ε i, ε i ~N 0, σ 2 i. i. d Finde β 0, β 1 : Methode der kleinsten Quadrate

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Planung von Humanstudien Fallzahlberechnung

Planung von Humanstudien Fallzahlberechnung Planung von Humanstudien Fallzahlberechnung Hans-Peter Helfrich Universität Bonn 5. November 2015 H.-P. Helfrich (Universität Bonn) Planung von Humanstudien 5. November 2015 1 / 15 Einführung 1 Einführung

Mehr

Künstliche Intelligenz im Maschinen- und Anlagenbau Heilsbringer oder Hypebringer?

Künstliche Intelligenz im Maschinen- und Anlagenbau Heilsbringer oder Hypebringer? ASQF Automation Day 2018 - Predictive Analytics Künstliche Intelligenz im Maschinen- und Anlagenbau Heilsbringer oder Hypebringer? Vasilij Baumann Co-Founder/Co-CEO vasilij.baumann@instrunext.com +49 931

Mehr

Website. Vorlesung Statistisches Lernen. Dozenten. Termine. Einheit 1: Einführung

Website. Vorlesung Statistisches Lernen. Dozenten. Termine. Einheit 1: Einführung Website Vorlesung Statistisches Lernen Einheit 1: Einführung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig (Aktuelle) Informationen

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Vorlesung Statistisches Lernen

Vorlesung Statistisches Lernen Vorlesung Statistisches Lernen Einheit 1: Einführung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 20 Organisatorisches

Mehr

Prüfung im Fach Mikroökonometrie im Sommersemester 2014 Aufgaben

Prüfung im Fach Mikroökonometrie im Sommersemester 2014 Aufgaben Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Mikroökonometrie im Sommersemester 014 Aufgaben Vorbemerkungen: Anzahl der Aufgaben: Bewertung:

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 1. Übungsblatt Aufgabe 1: Anwendungsszenario Überlegen Sie sich ein neues Szenario des klassifizierenden Lernens (kein

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Pflege Deine Vorurteile! A statistician is a person who draws a mathematically precise line from an unwarranted assumption to a foregone conclusion.

Pflege Deine Vorurteile! A statistician is a person who draws a mathematically precise line from an unwarranted assumption to a foregone conclusion. Pflege Deine Vorurteile! A statistician is a person who draws a mathematically precise line from an unwarranted assumption to a foregone conclusion. Statistik als wissenschaftliche Qualitätskontrolle Quo

Mehr

Das PhD-Studium ein Start ins ForscherInnenleben lb?

Das PhD-Studium ein Start ins ForscherInnenleben lb? Das PhD-Studium ein Start ins ForscherInnenleben lb? Ao. Univ.-Prof. Dr.med.univ. Wolfgang PRODINGER Sektion Hygiene und Medizinische Mikrobiologie Neues Doktoratsstudium für Medizin wieso denn? Ausgangspunkt:

Mehr

Lineare Regression 2: Gute Vorhersagen

Lineare Regression 2: Gute Vorhersagen Lineare Regression 2: Gute Vorhersagen Markus Kalisch 23.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2,

Mehr

Übungsblatt 10: Lineare Regression (Sitzung 11)

Übungsblatt 10: Lineare Regression (Sitzung 11) 1 Übungsblatt 10: Lineare Regression (Sitzung 11) Aufgabe 1 a) Nach welchem Kriterium wird die Regressionsgerade zur Vorhersage von Y-Werten festgelegt? b) Was sind die Gemeinsamkeiten und Unterschiede

Mehr

Interdependence of physical activity and body mass at various ages in lifetime in a retrospective population-based study

Interdependence of physical activity and body mass at various ages in lifetime in a retrospective population-based study 08.09.2010 Interdependence of physical activity and body mass at various ages in lifetime in a retrospective population-based study Michael Hoffmeister 1, Karen Steindorf 2, Jenny Chang-Claude 3, Hermann

Mehr

After Work Statistics

After Work Statistics After Work Statistics Ulrike Grittner Annette Aigner Institute of Biometry and Clinical Epidemiology ulrike.grittner@charite.de U N I V E R S I T Ä T S M E D I Z I N B E R L I N Institut für Biometrie

Mehr

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1 Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1 Aufgabe 1: Wieviele der folgenden Variablen sind quantitativ stetig? Schulnoten, Familienstand, Religion, Steuerklasse, Alter, Reaktionszeit, Fahrzeit,

Mehr

BZQ II: Stochastikpraktikum

BZQ II: Stochastikpraktikum BZQ II: Stochastikpraktikum Block 5: Markov-Chain-Monte-Carlo-Verfahren Randolf Altmeyer February 1, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden

Mehr

Schnelles Denken - Maschinelles Lernen mit Apache Spark 2

Schnelles Denken - Maschinelles Lernen mit Apache Spark 2 Schnelles Denken - Maschinelles Lernen mit Apache Spark 2 Heiko Spindler Apache Spark - Components Machine Learning Machine learning explores the construction and study of algorithms that can learn from

Mehr

Gutartig oder bösartig? Die Diagnose aus dem Rechner

Gutartig oder bösartig? Die Diagnose aus dem Rechner Gutartig oder bösartig? Die Diagnose aus dem Rechner Eine Krankheit Drei Therapien Klinische Studie Im Mittel 75% 55% 35% Erfolg Drei unterschiedliche Formen dieser Krankheit A B C A B C 100% 60% 65% 40%

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr

Übung 5 im Fach "Biometrie / Q1" Thema: Wilcoxon, Chi-Quadrat, multiples Testen

Übung 5 im Fach Biometrie / Q1 Thema: Wilcoxon, Chi-Quadrat, multiples Testen Universität Ulm, Institut für Epidemiologie und Medizinische Biometrie, D-89070 Ulm Institut für Epidemiologie und Medizinische Biometrie Leiter: Prof. Dr. D. Rothenbacher Schwabstr. 13, 89075 Ulm Tel.

Mehr

Kovarianzanalyse. Truthahngewicht. Truthahngewicht. Methoden empirischer Sozialforschung. 1 metrische und mehrere metrische und kategoriale Variablen

Kovarianzanalyse. Truthahngewicht. Truthahngewicht. Methoden empirischer Sozialforschung. 1 metrische und mehrere metrische und kategoriale Variablen Kovarianzanalyse 1 metrische und mehrere metrische und kategoriale Variablen Methoden empirischer Sozialforschung Lineare Modelle (2. Teil) Wie läßt sich die Abhängigkeit einer metrischen Variablen von

Mehr

Prädiktive Gentests multifaktorieller Erkrankungen

Prädiktive Gentests multifaktorieller Erkrankungen Prädiktive Gentests multifaktorieller Erkrankungen Prof. Dr. med. Andreas Papassotiropoulos Division of Molecular Neuroscience Faculty of Psychology and University Psychiatric Clinics Life Sciences Training

Mehr

Übersicht. Definition Daten Problemklassen Fehlerfunktionen

Übersicht. Definition Daten Problemklassen Fehlerfunktionen Übersicht 1 Maschinelle Lernverfahren Definition Daten Problemklassen Fehlerfunktionen 2 Entwickeln von maschinellen Lernverfahren Aufteilung der Daten Underfitting und Overfitting Erkennen Regularisierung

Mehr

Multiple Lineare Regression. Statistik (Biol./Pharm.) Herbst 2012

Multiple Lineare Regression. Statistik (Biol./Pharm.) Herbst 2012 Multiple Lineare Regression Statistik (Biol./Pharm.) Herbst 2012 Wdh: Einfache lineare Regression Modell: Y i = β 0 + β 1 x i + ε i, ε i ~N 0, σ 2 i. i. d Finde β 0, β 1 : Methode der kleinsten Quadrate

Mehr

Anwendung von Multi-Level Moderation in Worst Performance Analysen

Anwendung von Multi-Level Moderation in Worst Performance Analysen Anwendung von Multi-Level Moderation in Worst Performance Analysen Präsentation auf der FGME 2015 - Jena Gidon T. Frischkorn, Anna-Lena Schubert, Andreas B. Neubauer & Dirk Hagemann 16. September 2015

Mehr

x t2 y t = 160, y = 8, y y = 3400 t=1

x t2 y t = 160, y = 8, y y = 3400 t=1 Aufgabe 1 (25 Punkte) 1. Eine Online Druckerei möchte die Abhängigkeit des Absatzes gedruckter Fotos vom Preis untersuchen. Dazu verwendet die Firma das folgende lineare Regressionsmodell: wobei y t =

Mehr

Statistische Methoden in der Bioinformatik

Statistische Methoden in der Bioinformatik Statistische Methoden in der Bioinformatik Prof. Dr. Jörg Rahnenführer Raum 720 Email: rahnenfuehrer@statistik. tu-.de Voraussetzungen: Vordiplom in Statistik, Mathematik, Datenanalyse, Informatik Zeiten

Mehr

Multivariate Statistik

Multivariate Statistik 27.04.2017 27.04.2017 Multivariate Statistik Inhaltliche Abstimmung innerhalb des Moduls Vorlesung Grundlegende Konzepte der Datenanalyse Lineare Regression Allgemeines Lineares Model Übung Konkrete Einführung

Mehr

Was ist Statistik? CASE Center for Applied Statistics and Econometrics Institut für Statistik and Ökonometrie Humboldt-Universität zu Berlin

Was ist Statistik? CASE Center for Applied Statistics and Econometrics Institut für Statistik and Ökonometrie Humboldt-Universität zu Berlin CASE Center for Applied Statistics and Econometrics Institut für Statistik and Ökonometrie Humboldt-Universität zu Berlin http://ise.wiwi.hu-berlin.de http://www.xplore-stat.de http://www.md-stat.com Grundlagen

Mehr

Feature Selection / Preprocessing

Feature Selection / Preprocessing 1 Feature Selection / Preprocessing 2 Was ist Feature Selection? 3 Warum Feature Selection? Mehr Variablen führen nicht automatisch zu besseren Ergebnissen. Lernen von unwichtigen Daten Mehr Daten notwendig

Mehr

Innovative Datenanalyse für die Medizin

Innovative Datenanalyse für die Medizin Innovative Datenanalyse für die Medizin IDEALearning Intelligent Data Evaluation and Analysis by Machine Learning Dr. Susanne Winter winter:science Technologiezentrum Ruhr Universitätsstr. 142 44799 Bochum

Mehr

Risiken einschätzen: die wahren Ursachen feststellen. Marloes Maathuis Seminar für Statistik ETH Zürich

Risiken einschätzen: die wahren Ursachen feststellen. Marloes Maathuis Seminar für Statistik ETH Zürich Risiken einschätzen: die wahren Ursachen feststellen Marloes Maathuis Seminar für Statistik ETH Zürich Beispiele von Risiken Eat breakfast if you want to reduce your risk of coronary heart disease (The

Mehr

After Work Statistics

After Work Statistics After Work Statistics Konrad Neumann Institute of Biometry and Clinical Epidemiology Konrad.Neumann@charite.de U N I V E R S I T Ä T S M E D I Z I N B E R L I N Institut für Biometrie und klinische Epidemiologie

Mehr

CIM2004 Übung 7: Permutationstest, Bootstrap & Jackknife

CIM2004 Übung 7: Permutationstest, Bootstrap & Jackknife CIM2004 Übung 7: Permutationstest, Bootstrap & Jackknife Michael Höhle hoehle@stat.uni-muenchen.de Lösung 24. Juni 2004 1 Permutationstest Bilirubin ist ein Zerlegungsprodukt von Haemoglobin. Falls die

Mehr

Gleiche Daten, unterschiedliche Erkenntnisziele?

Gleiche Daten, unterschiedliche Erkenntnisziele? Gleiche Daten, unterschiedliche Erkenntnisziele? Zum Potential vermeintlich widersprüchlicher Zugänge zur Textanalyse Universität Hamburg Evelyn Gius Jan Christoph Meister Janina Jacke Marco Petris Universität

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING Andreas Nadolski Softwareentwickler andreas.nadolski@enpit.de Twitter: @enpit Blogs: enpit.de/blog medium.com/enpit-developer-blog 05.10.2018, DOAG Big Data

Mehr

H E R Z L I C H W I L L K O M M E N Z U R D O A G K O N F E R E N Z

H E R Z L I C H W I L L K O M M E N Z U R D O A G K O N F E R E N Z H E R Z L I C H W I L L K O M M E N Z U R D O A G K O N F E R E N Z 2 0 1 6 A D V A N C E D A N A L Y T I C S : V O N S E M I - S T R U K T U R I E R T E N D A T E N Z U W I S S E N T O M S E I D E L &

Mehr

Künstliche Intelligenz angewandt bei koronarer Herzkrankheit - Cardioexplorer

Künstliche Intelligenz angewandt bei koronarer Herzkrankheit - Cardioexplorer Kardiologie Künstliche Intelligenz angewandt bei koronarer Herzkrankheit - Cardioexplorer Michael J. Zellweger, MD, Professor of Cardiology, Cardiology Department, University Hospital Basel, Switzerland;

Mehr

Approximate Maximum Margin Algorithms with Rules Controlled by the Number of Mistakes

Approximate Maximum Margin Algorithms with Rules Controlled by the Number of Mistakes Approximate Maximum Margin Algorithms with Rules Controlled by the Number of Mistakes Seminar Maschinelles Lernen VORTRAGENDER: SEBASTIAN STEINMETZ BETREUT VON: ENELDO LOZA MENCÍA Inhalt Vorbedingungen

Mehr

Predictive Analytics. Warum datenbasierte Vorhersagen kein Hexenwerk sind. ASQF Automation Day Dr. Stefano Signoriello

Predictive Analytics. Warum datenbasierte Vorhersagen kein Hexenwerk sind. ASQF Automation Day Dr. Stefano Signoriello Predictive Analytics Warum datenbasierte Vorhersagen kein Hexenwerk sind Dr. Stefano Signoriello Seite 1 Inhalte des Vortrags Analytics Von Daten zu Wissen Von Nachsicht über Einsicht zu Voraussicht Descriptive,

Mehr

Statistik und Studienauslegung. Teil 1: Studiendesigns, Bias, Confounding

Statistik und Studienauslegung. Teil 1: Studiendesigns, Bias, Confounding Statistik und Studienauslegung Teil 1: Studiendesigns, Bias, Confounding Maria Flamm Österreichische Cochrane Zweigstelle Donau Universität Krems Übersicht Warum brauchen wir gute Studien? Unterschiedliche

Mehr

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung

Mehr

Mixed Effects Models: Wachstumskurven

Mixed Effects Models: Wachstumskurven Mixed Effects Models: Wachstumskurven Markus Kalisch 07.10.2014 1 Überblick Wiederholte Messungen (z.b. Wachstumskurven): Korrelierte Beobachtungen Random Intercept Model (RI) Random Intercept and Random

Mehr

Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.

Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression. Woche 11: Multiple lineare Regression Patric Müller Teil XIII Multiple lineare Regression ETHZ WBL 17/19, 10.07.017 Wahrscheinlichkeit und Statistik Patric Müller WBL

Mehr

Kapitel 4: Merkmalszusammenhänge

Kapitel 4: Merkmalszusammenhänge Kapitel 4: Merkmalszusammenhänge Korrelationen 1 Lineare Regression 3 Literatur 5 Korrelationen Mit Hilfe von G*Power lässt sich analog zum Vorgehen beim t-test (Kapitel 3, Band I) vor einer Untersuchung

Mehr

MythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011

MythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ

Mehr

5. Klassifikation. 5.6 Support Vector Maschines (SVM)

5. Klassifikation. 5.6 Support Vector Maschines (SVM) 5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus

Mehr

Statistische Matching-Verfahren

Statistische Matching-Verfahren Statistische Matching-Verfahren Erste Statistik-Tage 2012 Bamberg Fürth 26./27. Juli 2012 in Bamberg Prof. Dr. Susanne Rässler Lehrstuhl für Statistik und Ökonometrie in den Sozial- und Wirtschaftswissenschaften

Mehr

Neural Networks: Architectures and Applications for NLP

Neural Networks: Architectures and Applications for NLP Neural Networks: Architectures and Applications for NLP Session 02 Julia Kreutzer 8. November 2016 Institut für Computerlinguistik, Heidelberg 1 Overview 1. Recap 2. Backpropagation 3. Ausblick 2 Recap

Mehr

Statistische Überlegungen: Eine kleine Einführung in das 1 x 1

Statistische Überlegungen: Eine kleine Einführung in das 1 x 1 Statistische Überlegungen: Eine kleine Einführung in das 1 x 1 PD Dr. Thomas Friedl Klinik für Frauenheilkunde und Geburtshilfe, Universitätsklinikum Ulm München, 23.11.2012 Inhaltsübersicht Allgemeine

Mehr

After Work Statistics

After Work Statistics After Work Statistics Dr. Jochen Kruppa Institute of Biometry and Clinical Epidemiology jochen.kruppa@charite.de U N I V E R S I T Ä T S M E D I Z I N B E R L I N Institut für Biometrie und klinische Epidemiologie

Mehr

Fragestellungen. Ist das Gewicht von Männern und Frauen signifikant unterschiedlich? (2-sample test)

Fragestellungen. Ist das Gewicht von Männern und Frauen signifikant unterschiedlich? (2-sample test) Hypothesen Tests Fragestellungen stab.glu 82 97 92 93 90 94 92 75 87 89 hdl 56 24 37 12 28 69 41 44 49 40 ratio 3.60 6.90 6.20 6.50 8.90 3.60 4.80 5.20 3.60 6.60 glyhb 4.31 4.44 4.64 4.63 7.72 4.81 4.84

Mehr

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen 5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus

Mehr

Neuronale Netze. Christian Böhm.

Neuronale Netze. Christian Böhm. Ludwig Maximilians Universität München Institut für Informatik Forschungsgruppe Data Mining in der Medizin Neuronale Netze Christian Böhm http://dmm.dbs.ifi.lmu.de/dbs 1 Lehrbuch zur Vorlesung Lehrbuch

Mehr

Maschinelles Lernen zur Hautkrebsvorhersage

Maschinelles Lernen zur Hautkrebsvorhersage Maschinelles Lernen zur Hautkrebsvorhersage Eine Bachelorarbeit von Daniel Fischer Betreuung: Dipl. Inf. Frederik Janssen Prof. Dr. Johannes Fürnkranz Dr. med. Matthias Herbst 03.07.2011 Fachbereich Informatik

Mehr

Überblick. 4.1 Einleitung 42Cl 4.2 Clustering 4.3 Klassifikation. 4.4 Outlier Detection

Überblick. 4.1 Einleitung 42Cl 4.2 Clustering 4.3 Klassifikation. 4.4 Outlier Detection Überblick 4.1 Einleitung 42Cl 4.2 Clustering 4.3 Klassifikation 4.4 Einführung in die Informatik: Systeme und Anwendungen SoSe 2013 32 Was ist ein Outlier? Definition nach Hawkins [Hawkins 1980]: Ein Outlier

Mehr

Forschungsstatistik I

Forschungsstatistik I Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Daniel Meschenmoser Übersicht Gemeinsamkeiten von Data Mining und Statistik Unterschiede zwischen Data Mining und Statistik Assoziationsregeln

Mehr