Einführung in Maschinelles Lernen zur Datenanalyse

Transkript

1 Einführung in Maschinelles Lernen zur Datenanalyse Prof. Dr. Ing. Morris Riedel School of Engineering and Natural Sciences, University of Iceland Research Group Leader, Juelich Supercomputing Centre, Germany Smart Data Innovation Lab, Leitung Community Medizin TUTORIAL TEIL 2 Klassifikation von Daten in Anwendungen 13. Oktober 2016 Karlsruhe

2 Gliederung 2/ 47

3 Gliederung des Tutorials 1. Grundlagen und Überblick 2. Klassifikation von Daten in Anwendungen Das Tutorial ist nur ein kleiner Ausschnitt an Grundlagen und Skills die ein normaler Universitätskurs vermittelt und kann daher nicht die volle Breite des maschinellen Lernens zeigen 3/ 47

4 Gliederung Teil 2 Klassifikation von Daten in Anwendungen Klassifikation Realisierbarkeit des Lernens Komponenten und Ablauf Anwendungebeisspiele Herausforderungen Probleme Anwendungsbeispiel Fernbeobachtung Anwendungsbeispiele Verstehen der Datensätze vom Tutorial Validation und Modellselektion Vorteile Parallelisierung auf SDIL Platform 4/ 47

5 Klassifikation 5/ 47

6 Zur Erinnerung: Lernansatz Überwachtes Lernen Jeder Prädiktor hat einen Response Der Output überwacht den Lernfortschritt Input Output Daten Ziel: Ein Modell trainieren das Response mit Prediktor verbindet Prädiktiv: Versucht so akkurat wie möglich Vorhersagen über die Reponse von zukünftigen Beobachtungen zu machen Inferenz: Versucht besser die Beziehungen zwischen Response und Prädiktor zu verstehen Überwachte Lernansätze trainieren ein Modell das Reponse mit Prädiktor verbindet Überwachte Lernansätze werden in Klassifikationsalgorithmen wie SVMs benutzt Überwachte Lernansätze arbeiten mit Daten = [input, korrekter output] [1] An Introduction to Statistical Learning 6/ 47

7 Zur Erinnerung Lernmodell Support Vector Machines SVMs SVMs sind häufig benutzt & flexible Klassifikationsmethode Idee: Linear model funktionieren, geht besser Beispiel: was ist die beste Entscheidungsgrenze hier für Zukünftige Daten (lineares Beispiel) ( maximal margin classifier example) Support Vector Machines (SVM) und Kernelmethoden sind ca. 2-3 Vorlesungen, hier nur benutzt 7/ 47

8 Datensatz Rome 8/ 47

9 Übung Rome SVM Training auf SDIL Platform (1) Job Skripte Dateien unter /gpfs/sdic16/tutorials/pisvm-script-examples 9/ 47

10 Übung Rome SVM Training auf SDIL Platform (2) Job Skripte Dateien unter /gpfs/sdic16/tutorials 10 / 47

11 Übungen Rome SVM Training auf SDIL Platform 11 / 47

12 Realisierbarkeit des Lernens Statistische Lerntheorie handelt vom Finden einer prädiktiven Funktion basierend auf Daten Theoretisches Framework das praktisches Lernen ermöglicht E.g. Support Vector Machines (SVMs) Best understood for Supervised Learning [2] Wikipedia on statistical learning theory Theoretische Hintergrund das benutzt wird für Lernprobleme Hauptbestandteil ist die target function die Input nach Output ermöglicht Die gelernte Funktion Unknown Target Function kann dann Klassen von zukünftigen Punkten vorhersagen (Ideale Funktion unbekannt!) ( nur fit existierender Daten nicht genug ) [3] Valiant, A Theory of the Learnable, 1984 Diese Theorie ist Basis für maschinelles Lernen & umfasst 2-3 Vorlesungen, hier stark vereinfacht 12 / 47

13 Komponenten und Ablauf (1) Unknown Target Function (ideale Funktion) Elements we not exactly (need to) know Training Examples (historische Daten, Groundtruth Daten, Beispiele) Elements we must and/or should have and that might raise huge demands for storage Elements that we derive from our skillset and that can be computationally intensive Elements that we derive from our skillset 13 / 47

14 Komponenten und Ablauf (2) Unknown Target Function (ideale Funktion) Elements we not exactly (need to) know Training Examples (historische Daten, Groundtruth Daten, Beispiele) Elements we must and/or should have and that might raise huge demands for storage Final Hypothesis (finale Formel) Elements that we derive from our skillset and that can be computationally intensive Hypothesis Set (Auswahl von Formelkandidaten) Elements that we derive from our skillset 14 / 47

15 Komponenten und Ablauf (3) Unknown Target Function (ideale Funktion) Elements we not exactly (need to) know Training Examples (historische Daten, Groundtruth Daten, Beispiele) Elements we must and/or should have and that might raise huge demands for storage Learning Algorithm ( train a system ) (Auswahl bekannter Algorithmen) Final Hypothesis (finale Formel) Elements that we derive from our skillset and that can be computationally intensive Hypothesis Set (Auswahl von Formelkandidaten) Elements that we derive from our skillset 15 / 47

16 Komponenten und Ablauf (4) Unknown Target Function (ideale Funktion) Training Examples (historische Daten, Groundtruth Daten, Beispiele) Probability Distribution Elements we not exactly (need to) know constants in learning Elements we must and/or should have and that might raise huge demands for storage Learning Algorithm ( train a system ) (Auswahl bekannter Algorithmen) Final Hypothesis (finale Formel) Elements that we derive from our skillset and that can be computationally intensive Hypothesis Set (Auswahl von Formelkandidaten) Elements that we derive from our skillset 16 / 47

17 Komponenten und Ablauf (5) Unknown Target Distribution Function target function plus noise (ideale Funktion) Training Examples (historische Daten, Groundtruth Daten, Beispiele) Error Measure Probability Distribution Elements we not exactly (need to) know constants in learning Elements we must and/or should have and that might raise huge demands for storage Learning Algorithm ( train a system ) (Auswahl bekannter Algorithmen) Final Hypothesis (finale Formel) Elements that we derive from our skillset and that can be computationally intensive Hypothesis Set (Auswahl von Formelkandidaten) Elements that we derive from our skillset 17 / 47

18 Datensatz Rome 18 / 47

19 Übung Rome SVM Testing auf SDIL Platform (1) Job Skripte Dateien unter /gpfs/sdic16/tutorials 19 / 47

20 Übung Rome SVM Testing auf SDIL Platform (2) Job Skripte Dateien unter /gpfs/sdic16/tutorials/pisvm-script-examples 20 / 47

21 Übung Rome SVM Testing auf SDIL Platform (3) Job Skripte Dateien unter /gpfs/sdic16/tutorials 21 / 47

22 Übung Rome SVM Testing auf SDIL Platform (4) 22 / 47

23 Übungen Rome SVM Testing auf SDIL Platform 23 / 47

24 Herausforderungen: Warum ist es nicht so einfach in Praxis? Skalierbarkeit Gigabytes, Terabytes, und Petabytes Datensätze passen nicht in Speicher Bspw. Algorithmen werden gebraucht mit out-of-core/cpu Strategien Hohe Dimensionen Datensötze mit Attributen werden immer öfter benutzt Bspw. Bioinformatik mit Gendaten haben tausende von Features Heterogene und komplexe Daten Viele komplexe Daten in strukturierten und unstrukturierten Datensätzen Bspw. Erdbeobachtungen über lange Zeit in globaler Betrachtung Datenbesitz und Verteilung Verteilte Datensätze oft (bspw. Sicherheits und Transferprobleme) Herausforderungen für das traditionelle maschinelle Lernen sind Skalierbarkeit, hohe Dimensionen, heterogene und komplexe Daten sowie Datenbesitz und Datenverteilung [5] Introduction to Data Mining 24 / 47

25 Anwendungsbeispiel in Industrie Netflix ~ Netflix Prize Challenge 2009 Daten: Netflix Firma gab Daten um von Filmen zu lernen Herausforderung: Verbesserung des Netflix in-house Recommendersystem Preis: US $ für das Team das 10% Verbesserung schaft Ansätze: Algorithmen des maschinellen Lernens Gewinner: Preis erhalten durch Künstliche Neuronalen Netze (KNN) [6] A. Töscher and M. Jahrer, The BigChaos Solution to the Netflix Grand Prize, / 47

26 Komplexe Anwendunge in Wissenschaft & Engineering Klassifikation von Abweichungen in Gehirn MRI Bildern Nutzung Support Vector Machines (SVMs) Klassifizierung zwischen normalen und Abweichungen zusammen mit der Erkennung der Krankheit? [7] D. Singh et al., 2012 input data class Infected by clot class normal brain class Infected by tumor class Infected by bleed Klassifikation Landnutzung von multi-spektralen Satellitendaten Nutzung Support Vector Machines (SVMs) Klassifikation der Landnutzung durch Bilddaten und Feature Engineering [8] G. Cavallaro & M. Riedel et al., 2014? Verschiedene Typen der Landnutzung 26 / 47

27 Problem nicht linear separable Daten 3 (4) Modelling Phase 2.5 (resampled, again N = 100 samples) 2? Iris-versicolor Iris-virginica (lineare Entscheidungsgrenze) (nicht-lineare Entscheidungsgrenze) (lessons learned in Praxis: man muss ein paar Fehler zulassen so dass die gesamte Klassifikation besser wird) (lessons learned in Praxis: nicht-lineare Entscheidungsgrenzen gebraucht) 27 / 47

28 Problem des Overfitting [4] Stop Overfitting, YouTube 28 / 47

29 Anwendungsbeispiel 29 / 47

30 Datensatz Indianpines 30 / 47

31 Übungen Indian Pines SVM Training auf SDIL Platform 31 / 47

32 Grobes Verständnis des Anwendungsgebiets Fernbeobachtung (engl. Remote Sensing) ist die Erzeugung von Informationen über ein Objekt ohne in physischen Kontakt mit dem Objekt zu kommen [11] Wikipedia on Remote Sensing Das gesamte System ist sehr komplex Emissions von Energie der Erdoberfläche einsammeln Sendung durch die Atmosphäre zu Instrumenten auf Fernbeobachtungs-Platformen (bspw. Satelliten) Sendung der Daten zurück zur Erdoberfläche Verarbeiten in Bilder für die Anwender und Datenanalyse teams 32 / 47

33 Anwendungsdaten Labelled Data ist Gold (hohe Dimension) Pansharpened (UDWT) low-resolution (2.4m) multispectral images (Quickbird) Sattelite Data Groundtruth Classification Study of Land Cover Types [8] G. Cavallaro & M. Riedel et al., 2014 Model & Algorithm 33 / 47

34 Remote Sensing Application The Dataset Example dataset: Geographical location: Image of Rome, Italy Remote sensor data obtained by Quickbird satellite High-resolution (0.6m) panchromatic image Pansharpened (UDWT) low-resolution (2.4m) multispectral images (high dimension) (Reasoning for picking SVM: Good classification accuracies on high dimensional datasets, even with a small rare number of training samples) 34 / 47

35 Datensatz Indianpines Herausfordernder Datensatz (nicht linear separabel) 52 Klassen; wenig groundtruth Samples; mixed pixels; hohe Dimension remote sensing cube & ground reference [10] G. Cavallaro, M. Riedel, J.A. Benediktsson et al., Journal of Selected Topics in Applied Earth Observation and Remote Sensing, / 47

36 Datensatz Indianpines Indian Pines Dataset Processed Training Indian_processed_training.el LibSVM data format: class feature1:value1 feature2:value2 36 / 47

37 Datensatz Indianpines 37 / 47

38 Übungen Indian Pines SVM Testing auf SDIL Platform 38 / 47

39 Validation Technik Modellselektion Modellselektion nutzt (a) verschiedene Typen von Modellen oder (b) Modellparameter Modellselektion nutzt Validierungsfehler zur Entscheidung Nutze das beste Modell im Lauf Hypothesis Set (Potentielle Hypothesen und Modelle) Viele Modelle Nutzung validation error um Entscheidungen zu treffen je Modell Vorsicht ist geboten: Wahl ist Entscheidung Hypothese hat damit ein bias ( kontaminiert) Using M times Final Hypothesis (testen auf ungesehene Daten gut, aber braucht mehr Daten in Praxis) (Training run auf ganzen Datensatz) (out-of-sample bzgl. D Train ) (training) (validate) (nehme best bias) (finales Training auf allen Daten, Nutzung der Validierungsdaten) (unbiased estimates) (Entscheidung Modell) (finales Training : bessere Genauigkeit out-of-sample) 39 / 47

40 (Datensatz) Validation Technik 10-fold cross validation 10-fold cross validation wird meist in praktischen Problemen benutzt fold K = N/10 for real data Durch N/K training sessions auf N K Punkte jedes mal braucht computing ( Parallelisierung) Leave-one-out N training sessions auf N 1 Datenpunkten jedes mal Leave-more-out (leave 1 point out bei jedem run viele runs) Training Examples (Generalisierung zu leave k Punkte raus bei jedem run) Training Examples K-fold Daten in Folds aufteilen N/K training sessions auf N K Datenpunkten jedes mal (weniger sessions) Beispiel: 10-fold cross-valdation with K = N/10 multiple times (N/K) (Nutze 1/10 zur Validierung, aber 9/10 für Training, dann wieder 1/10 N/K mal) Training Examples 1 (Praxis um bias zu vermeiden & Kontamination: Reste für tests als ungesehene Daten ) (involviert im Training jetzt) (involviert im Training jetzt) (Darstellung eines Runs) 40 / 47

41 pisvm-train Parameter bietet cross-validation Weitere Parameter der parallelen pisvm Version (Erzeugt kein Modell, aber gibt eine Prognose für ungesehene Daten zur Modelselektion) 41 / 47

42 Vorteile Parallelisierung & Möglichkeiten im SDIL Jeder Eintrag ist selbst parallelisiert berechenbar Die ganzen Tabelleneinträge sind auch gleichzeitig berechenbar Die SDIL Platform bietet die Möglichkeit Analyse zu beschleunigen (1) Scenario unprocessed data, 10xCV serial: accuracy (min) (2) Scenario pre-processed data, 10xCV serial: accuracy (min) (1) Scenario unprocessed data 10xCV parallel: accuracy (min) (2) Scenario pre-processed data, 10xCV parallel: accuracy (min) First Result: best parameter set from min to 4.09 min Second Result: all parameter sets from ~3 days to ~2 hours First Result: best parameter set from min to 1.02 min Second Result: all parameter sets from ~9 hours to ~35 min [10] G. Cavallaro, M. Riedel, J.A. Benediktsson et al., Journal of Selected Topics in Applied Earth Observation and Remote Sensing, / 47

43 Übungen Indian Pines Cross-Validation auf SDIL Platform 43 / 47

44 [Video] Remote Sensing [9] YouTube Video, Remote Sensing 44 / 47

45 Referenzen 45 / 47

46 Referenzen (1) [1] An Introduction to Statistical Learning with Applications in R, Online: [2] Wikipedia on Statistical Learning Theory, Online: [3] Leslie G. Valiant, A Theory of the Learnable, Communications of the ACM 27(11): , 1984, Online: [4] Udacity, Overfitting, Online: [5] Introduction to Data Mining, Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Addison Wesley, ISBN , English, ~769 pages, 2005 [6] Andreas Töscher and Michael Jahrer, The BigChaos Solution to the Netflix Grand Prize, 2009 [7] D. Singh and K. Kaur, Classification of Abnormalities in Brain MRI Images Using, International Journal of Engineering and Advanced Technology, ISSN: , Volume 1, Issue-6, 2012 [8] G. Cavallaro and M. Riedel, Smart Data Analytics Methods for Remote Sensing Applications, 35th Canadian Symposium on Remote Sensing (IGARSS), 2014, Quebec, Canada [9] Video: What is Remote Sensing Online: [10] G. Cavallaro, M. Riedel, J.A. Benediktsson et al., Journal of Selected Topics in Applied Earth Observation and Remote Sensing, 2015 [11] Wikipedia on Remote Sensing, Online: 46 / 47

47 Folien sind in Kürze erhältlich auf: 47 / 47