Einführung in Maschinelles Lernen zur Datenanalyse

Ähnliche Dokumente
Einführung in Maschinelles Lernen zur Datenanalyse

Logistische Regression

Mathematische Grundlagen III

Approximate Maximum Margin Algorithms with Rules Controlled by the Number of Mistakes

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Machine Learning Tutorial

Einführung in Support Vector Machines (SVMs)

Machine Learning. 1. Grundlagen des Machine Learning

Pareto optimale lineare Klassifikation

Modell Komplexität und Generalisierung

Analytics Entscheidungsbäume

, Data Mining, 2 VO Sommersemester 2008

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel

Übersicht. Definition Daten Problemklassen Fehlerfunktionen

SKOPOS Webinar 22. Mai 2018

Semiüberwachte Paarweise Klassifikation

Künstliche Intelligenz im Maschinen- und Anlagenbau Heilsbringer oder Hypebringer?

Data Science Anwendungen bei innogy Netz & Infrastruktur (G&I)

Wissensentdeckung in Datenbanken

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vorlesung Wissensentdeckung

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

INTELLIGENTE DATENANALYSE IN MATLAB

Maschinelles Lernen und Data Mining

Efficient Learning of Label Ranking by Soft Projections onto Polyhedra

Projekt Maschinelles Lernen WS 06/07

INTELLIGENTE DATENANALYSE IN MATLAB. Einführungsveranstaltung

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Kapitel 5: Ensemble Techniken

Das Perzeptron. Volker Tresp

IMPULSVORTRAG KÜNSTLICHE INTELLIGENZ & HELMHOLTZ

Methoden zur Cluster - Analyse

Modell Training in Transkribus

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung

Clustering 2010/06/11 Sebastian Koch 1

<Insert Picture Here> Grid Control 11g und My Oracle Support Ulrike Schwinn

Artificial Intelligence. Was ist das? Was kann das?

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff

Kapitel LF: I. Beispiele für Lernaufgaben. Beispiele für Lernaufgaben. LF: I Introduction c STEIN

Die Datenmatrix für Überwachtes Lernen

Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

Einführung in das Maschinelle Lernen I

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen

Business Analytics Day Predictive Sales in CRM

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Maschinelles Lernen II

Validation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation

Der CRISP-DM Prozess für Data Mining

Data Mining mit RapidMiner. Fakultät Informatik Lehrstuhl für Künstliche Intelligenz

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Multivariate Pattern Analysis. Jan Mehnert, Christoph Korn

Big Data - und nun? Was kann die Bioinformatik?

Data Mining und Maschinelles Lernen

Nachweis von Feature Freezes durch Clustering

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Einführung in Data Mining anhand des Modells CRISP-DM

Skript Lineare Algebra

So lösen Sie das multivariate lineare Regressionsproblem von Christian Herta

Rekurrente Neuronale Netze

Klassifikation und Ähnlichkeitssuche

Analyse von Transaktionsdaten im Online-Ticketing mit Data-Mining-Methoden

Bielefeld Graphics & Geometry Group. Brain Machine Interfaces Reaching and Grasping by Primates

Accountability in Algorithmic. Decision Making.

Intelligente Algorithmen Einführung in die Technologie

Adaptive Resonance Theory

A linear-regression analysis resulted in the following coefficients for the available training data

Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn

Projekt-INF Folie 1

Wie können Computer lernen?

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Microsoft Azure Deutschland ist jetzt verfügbar -

Maschinelles Lernen: Symbolische Ansätze

Modellierung mit künstlicher Intelligenz

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen

Neural Networks: Architectures and Applications for NLP

Innovative Datenanalyse für die Medizin

Einführung i.d. Wissensverarbeitung

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Neuronale Netze. Christian Böhm.

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Entscheidungsbäume aus großen Datenbanken: SLIQ

Emotion Recognition of Call Center Conversations Robert Bosch Engineering and Business Solutions Private Limited

Vorlesung Maschinelles Lernen

Konzepte der AI Neuronale Netze

Theoretische Informatik 1

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Focusing Search in Multiobjective Evolutionary Optimization through Preference Learning from User Feedback

Von schwachen zu starken Lernern

PPC und Data Mining. Seminar aus Informatik LV Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

Transkript:

Einführung in Maschinelles Lernen zur Datenanalyse Prof. Dr. Ing. Morris Riedel School of Engineering and Natural Sciences, University of Iceland Research Group Leader, Juelich Supercomputing Centre, Germany Smart Data Innovation Lab, Leitung Community Medizin TUTORIAL TEIL 1 Grundlagen und Überblick 13. Oktober 2016 Karlsruhe

Gliederung 2/ 59

Gliederung des Tutorials 1. Grundlagen und Überblick 2. Klassifikation von Daten in Anwendungen Das Tutorial ist nur ein kleiner Ausschnitt an Grundlagen und Skills die ein normaler Universitätskurs vermittelt und kann daher nicht die volle Breite des maschinellen Lernens zeigen 3/ 59

Gliederung Teil 1 Grundlagen und Überblick Grundlagen Motivation Überblick der Methoden Einfaches Anwendungsbeispiel Entscheidungsgrenze & Lineare Separabilität Einfaches Perceptron Lernmodell Lernen aus Daten Systematischer Prozess des Lernens Prädiktive and Deskriptive Aufgaben Verschiedene Lernansätze Terminologien & Datensätze Modell Evaluation und Phasen 4/ 59

Grundlagen 5/ 59

Motivation Deutliche Zunahme in Datensammlungen und Größe der Speichertechnologien Extrahieren von sinnvollen Informationen wird zunehmend ein Problem in den Datenmengen Traditionelle Techniken zur Datenanalyse können oft nicht mehr benutzt werden (bspw. zu wenig Hauptspeicher, mehr Rechenkraft, etc.) Maschinelles Lernen / Data Mining sind Technologien die traditionelle Methoden der Datenanalyse mit Algorithmen verbinden und für große Datenmengen sinnvoll sind Maschinelles Lernen / Data Mining zieht automatisch nützliche Informationen aus Datenmengen heraus und sollte einem systematischen Prozess folgen modifiziert von [1] Introduction to Data Mining Maschinelles Lernen & Data Mining sowie Nutzung von Statistik Traditionalle Ansätze wie Algorithmen oder Methoden trotzdem sinnvoll Bswp. Reduzierung von Daten zu Smart Data ( hohe Informationsdichte ) 6/ 59

Maschinelles Lernen Voraussetzungen und Überblick 1. Irgendein Muster existiert in den Daten 2. Es existiert keine mathematische Formel 3. Daten sind vorhanden Idee Lernen von Daten ist auch in vielen anderen Disziplinen wichtig Bspw. signal processing, data mining, etc. Herausforderung: Komplexe Daten Maschinelles Lernen ist ein breiter Expertenbereich und reicht von abtrakter Theorie bis zur extremen Praxis (Klare Algorithmen bis zu Faustregeln ) Data Mining Data Science Machine Learning Applied Statistics 7/ 59

Beispiele Datensammlungen Datensammlung der Erd und Umweltwissenschaften Eher starker Unterschied zu UCI machine learning repository Beispielen (Echte wissenschaftliche Datensätze) (Beispiele zum Lernen und Vergleichen) [2] PANGAEA data collection [3] UCI Machine Learning Repository 8/ 59

Überblick der Methoden Maschinelles Lernen kann man grob in drei Bereiche einteilen die sich Klassifikation, Clustering und Regression nennen weitere Techniken dienen der Datenauswahl und Datenänderung Klassifikation Clustering Regression? Gruppen existieren Neuer Datenpunkt in welcher Gruppe? Keine Gruppen existieren Erzeuge Gruppen durch Daten die ähnlich sind Identifizierung einer Linie und Trends in den Datensätzen Der konkrete Fokus in diesem Tutorial ist die Klassifikation mit einem bekannten Algorithmus 9/ 59

Einfaches Anwendungsbeispiel: Klassifikation einer Blume (1) Problem Understanding Phase (Welcher Blumentyp ist das?)? (Typ der Blume IRIS Setosa ) Gruppen existieren Neuer Datenpunkt in welcher Gruppe? [4] Image sources: Species Iris Group of North America Database, www.signa.org (Typ der Blume IRIS Virginica ) 10 / 59

Das Maschinelle Lernen Problem (Typ der Blume IRIS Setosa ) (Typ der Blume IRIS Virginica ) [4] Image sources: Species Iris Group of North America Database, www.signa.org Lernproblem: Ein prädiktiver Task Automatisiert herausfinden ob es sich um den Blumentyp Setosa oder Virginica handelt Binäres / Zwei-Klassen Klassifikationsproblem Welche Attribute in den Daten helfen hier? (Welcher Blumentyp ist das?) 11 / 59

Prüfung der Anwendbarkeit von Maschinellen Lernen 1. Irgendein Muster existiert in den Daten Wir glauben an ein Muster mit petal length & petal width die den Typ beschreiben 2. Es existiert keine mathematische Formel So gut wir momentan wissen scheint es dafür keine exakte Formel zu geben 3. Daten sind vorhanden Datenkollektion aus UCI Datensatz Iris 150 labelled samples (aka Datenpunkte ) Balanciert: 50 samples / Klasse (2) Data Understanding Phase [6] UCI Machine Learning Repository Iris Dataset (vier Attribute in den Daten für jedes Sample im Datensatz) (ein Klassenlabel für jedes Sample im Datensatz) [5] Image source: Wikipedia, Sepal sepal length in cm sepal width in cm petal length in cm petal width in cm Klasse: Iris Setosa, oder Iris Versicolour, oder Iris Virginica 12 / 59

Datensatz Iris 13 / 59

Übungen Datenexploration 14 / 59

Verstehen der Daten Prüfung von Metadaten Zuerst: Check metadata wenn vorhanden Beispiel: Downloaded iris.names beinhaltet Metadaten (Metadaten fehlen oft in Praxis leider) (Subject, title, or context) (author, source, or creator) (number of samples, instances) (attribute information) (detailed attribute information) (detailed attribute information) [6] UCI Machine Learning Repository Iris Dataset 15 / 59

Verstehen der Daten Tabellenansicht Oft sinnvoll: Prüfung der Daten in Tabellenansicht ( Auszug ) Bspw. Nutzung GUI Rattle (Bibliothek von R), Excel in Windows, etc. Bspw. Prüfung ob erste Zeile header information ist oder ein Sample (Achtung erstes Sample wird hier als Header genommen, das resultiert in nur 149 data Samples statt 150) (vier Attribute in den Daten für jedes Sample im Datensatz) (ein Klassenlabel für jedes Sample im Datensatz) sepal length in cm sepal width in cm petal length in cm petal width in cm Klasse: Iris Setosa, oder Iris Versicolour, oder Iris Virginica [7] Rattle Library for R 16 / 59

Vorbereiten der Daten Korrigierter Header (3) Data Preparation Phase (korrigierter Header, resultiert in 150 data Samples) (Korrektur des Headers ist nicht immer notwendig, oder kann z.b. automatisiert werden, bspw. Rattle) 17 / 59

Vorbereiten der Daten Entfernung der Dritten Klasse Daten Vorbereitung der Daten für unser konkretes Problem In der Praxis braucht man nicht alle Daten im Datensatz zur Problemlösung Bspw. Nutzung von Sampling Strategien (achten sie auf Klassenbalance) Zur Erinnerung: Unser konkretes Lernproblem Automatisiert herausfinden ob es sich um den Blumentyp Setosa oder Virginica handelt Binäres / Zwei-Klassen Klassifikationsproblem (Drei Klassen Problem N = 150 Samples enthält auch Iris Versicolour) (Zwei Klassen Problem N = 100 Samples enthält nicht mehr Iris Versicolour) (Entfernen der Versicolour Klasse samples aus dem Datensatz) 18 / 59

Vorbereiten der Daten Feature Selektion Vorbereitung der Daten für unser konkretes Problem In der Praxis braucht man nicht alle Daten im Datensatz zur Problemlösung Bspw. Nutzung von Feature Selektion (bspw. Entfernung von Attributen) Zur Erinnerung: Unser angenommenes Muster in den Daten Wir glauben an ein Muster mit petal length & petal width die den Typ beschreiben sepal length in cm sepal width in cm petal length in cm petal width in cm Klasse: Iris Setosa, oder Iris Versicolour, oder Iris Virginica (N = 100 samples mit 4 Attributen und 1 class label) petal length in cm petal width in cm Klasse: Iris Setosa, oder Iris Versicolour, oder Iris Virginica (N = 100 samples mit 2 Attributen und 1 class label) 19 / 59

Vorbereiten der Daten: Grafische Darstellung petal width (in cm) 3 2.5 2 1.5 1 Dataset (Zur Erinnerung: Wir glauben an ein Muster mit petal length & petal width die den Typ beschreiben) (Attribute mit d=2) (x1 ist petal length, x2 ist petal width) Dataset (N = 100 samples) 0.5 (Und die class labels?) 0 0 1 2 3 4 5 6 7 8 petal length (in cm) 20 / 59

Vorbereiten der Daten: Klassen Labels petal width (in cm) 3 2.5 2 1.5 Iris-setosa Iris-virginica 1 (N = 100 samples) 0.5 0 (Das ist noch kein maschinelles Lernen) 0 1 2 3 4 5 6 7 8 petal length (in cm) 21 / 59

Lineare Separabilität & Lineare Entscheidungsgrenze petal width (in cm) 3 2.5 2 1.5? (4) Modelling Phase Die Daten sind linear separabel (nicht oft in Praxis) Eine Linie wird eine Entscheidungsgrenze ob ein neuer Punkt rot oder grün wird Iris-setosa Iris-virginica 1 (N = 100 samples) 0.5 0 0 1 2 3 4 5 6 7 8 (Entscheidungsgrenze, aber wie genau erstellt? Maschinelles Lernen) petal length (in cm) 22 / 59

Entscheidungsgrenze & Mathematische Notation Resultate aus erster Datensichtung Linie kann zwischen Klassen erstellt werden in linear separabelen Daten Alle Datenpunkte der Iris-setosa sind unterhalt dieser Linie Alle Datenpunkte der Iris-virginica sind oberhalb dieser Linie Mathematische Notation Input: (Attribute der Blumen, bei uns nur zwei hier) Output: class +1 (Iris-virginica) or class -1 (Iris-setosa) (Entscheidungsgrenze) Iris-virginica wenn Iris-setosa wenn (w i und threshold kennen wir noch nicht) (Kompakte Notation) 23 / 59

Entscheidungsgrenze & Entscheidungsraum Beispiel (Entscheidungslinie) (Gleichung der Linie) modified from [13] An Introduction to Statistical Learning (Alle Punkte X i auf dieser Linie erfüllen die Gleichung) 24 / 59

Einfaches Lineares Lernmodell Das Perceptron Analogie des menschlichen Lernens [8] F. Rosenblatt, 1957 Menschliches Gehirn hat Nervenzellen die sich Neuronen nennen Es lernt durch die Änderung der Stärken von Neuronenverbindungen (w i ) durch wiederholte Stimulation deselben Impulses (aka Trainingsphase ) Trainieren eines Perceptron Lernmodells ändert die Gewichte w i Solange bis die input-output Beziehung in den Trainingsdaten stimmt (Trainingsdaten) (modelliert als bias Term) (Aktivierungs -funktion, +1 or -1) (Das Signal) d (Dimension der Features) (repräsentiert den Threshold) 25 / 59

Perceptron Beispiel einer Boolean Funktion (Trainingsdaten) (trainingsphase) Output node Interpretation (trainiertes Perceptron Modell) Mehr als nur die gewichtete Summe der Inputs threshold (aka bias) Aktivierungsfunktion sign (weighted sum): nimmt Zeichen der Summe (bspw. Sample #3, Summe ist positiv (0.2) +1) (bspw. Sample #6, Summe ist negativ (-0.1) -1) 26 / 59

Zusammenfassung Perceptron & Hypothesis Set h(x) Wann: Bei einem linearen Klassifikationsproblem Ziel: lernen eines Werts (+1/-1) über/unter einem bestimmen threshold Klassen label wird vereinfacht: Iris-setosa = -1 and Iris-virginica = +1 Input: (Attribute in einem Datensatz) [8] F. Rosenblatt, 1957 Lineare Formel (nimm Attribute und gebe Ihnen verschiedenene Gewichte ) Alle gelernten Formels sind tatsächlich unterschiedliche Hypothesen (Parameters die eine Hypothese von der anderen unterscheiden) (Jeder grüne Bereich und blaue Bereich sind Regionen des gleichen Klassenlabels bestimmt durch das Vorzeichen der Funktion) (Rote Parameters korrespondieren zu der roten Linie in der Grafik) (Frage bleibt: We wird nun wirklich w i gelernt und der threshold?) 27 / 59

Perceptron Lernalgorithmus Vektor W Verstehen Wann: Wenn wir glauben es gibt ein lineares Muster in Daten Annahme: Linear separable Daten (Algorithmus konvergiert) Entscheidungsgrenze: perpendicular vector w i fixes orientation of the line (Punkte auf der Entscheidungsgrenze halten Gleichung ein) Möglich durch Vereinfachungen denn wir lernen auch den threshold: w i (Vektor notation, Nutzung T = transpose) (equivalenz dotproduct Notation) [9] Rosenblatt, 1958 (All Notationen sind equivalent und resultieren in einem Skalar von diesem Skalar nutzen wir dann das Vorzeichen) 28 / 59

Verstehen des Dot Product Beispiel & Interpretation Dot product Zwei Vektoren sind gegeben Multiplikation der Vektorkomponenten Hinzufügen des resultierenden Produkts Einfaches Beispiel: Wichtig: Dot product zweier Vektoren ist tatsächlich ein Skalar! (ein Skalar!) Projektioneigenschaft eines Dot product (vereinfacht) Orthogonale Projektion von Vektor in Richtung von Vektor (Projektion) Normalisierung durch Länge Vektor 29 / 59

Perceptron Lernalgorithmus Lernschritte Iterative Methode nutzt labelled Datensatz (ein Punkt wird jedesmal gewählt) 1. Wählen einen falsch klassifizierten Punkt wo gilt das: y = +1 w + yx (a) w x 2. Update des weight Vektors: (a) (b) Addieren eines Vektors oder Subtrahieren eines Vektors (y n ist entweder +1 oder -1) Algorithmus konvergiert wenn es keine falsch klassifizierten Punkte gibt (konvergiert also nur wenn linear separable Daten existieren) (b) y = -1 w yx w x 30 / 59

[Video] Perceptron Lernalgorithmus [10] PLA Video 31 / 59

Lernen aus Daten 32 / 59

Systematischer Prozess Systematische Datenanalyse orientiert am Standard Prozess Cross-Industry Standard Process for Data Mining (CRISP-DM) A data mining project is guided by these six phases: (1) Problem Understanding; (2) Data Understanding; (3) Data Preparation; (4) Modeling; (5) Evaluation; (6) Deployment (Lernen von Daten passiert hier) Lessons Learned aus der Praxis Man bewegt sich zwischen den Phasen immer hin und her [11] C. Shearer, CRISP-DM model, Journal Data Warehousing, 5:13 33 / 59

Maschinelles Lernen und Data Mining Anwendungen Maschinelles Lernen kann man in zwei Kategorien einteilen: Prediktive & Deskriptive Aufgaben Prädiktive Aufgaben [1] Introduction to Data Mining Sagt Wert eines Attributs vorher basiert auf Werten anderer Attribute Target/dependent variable: Attribut zur Vorhersage Explanatory/independent variables: Attribute für Entscheidungen genutzt E.g. Vorhersage des Typs einer Blumer basierend auf Charakteristiken Deskriptive Tasks Beschreibt Muster die die Beziehungen in Daten zusammenfassen Muster können sein Korrelationen, Trends, Trajektorien, Anomalien Oft eher beschreibend und braucht oft eine Art von Post-processing E.g. Kreditkartenmißbrauch anhand untypischer Transaktionen 34 / 59

Prädiktive Aufgabe: Erkenne Klasse neuer Blumenpunkt 3 (4) Modelling Phase petal width (in cm) 2.5 2 1.5? Iris-setosa Iris-virginica 1 (N = 100 samples) 0.5 (Entscheidungsgrenze) 0 0 1 2 3 4 5 6 7 8 petal length (in cm) [4] Image sources: Species Iris Group of North America Database, www.signa.org 35 / 59

Was bedeutet Lernen eigentlich hier? Die Nutzung von Beobachtungen um einen zugrundeliegenden Prozess zu entdecken Drei Arten der Lernansätze heissen überwachtes, unüberwachtes, und reinforcement Lernen Überwachtes Lernen Die Mehrheit der Methoden in diesem Kurs folgt diesem Ansatz Beispiel: Kreditzusage basierend auf vorherigen Kundenanträgen Unüberwachtes Lernen Oft vor anderem Lernen angewandt höherwertige Datenrepräsentation Beispiel: Münzenerkennung in Automaten basierend auf Gewicht/Größe Reinforcement Learning Typischer eher menschliche Weg des Lernens Beispiel: Baby versucht eine heisse Kaffeetasse zu berühren (wiederholt) 36 / 59

Lernansatz Überwachtes Lernen Jeder Prädiktor hat einen Response Der Output überwacht den Lernfortschritt Input Output Daten Ziel: Ein Modell trainieren das Response mit Prediktor verbindet Prädiktiv: Versucht so akkurat wie möglich Vorhersagen über die Reponse von zukünftigen Beobachtungen zu machen Inferenz: Versucht besser die Beziehungen zwischen Response und Prädiktor zu verstehen Überwachte Lernansätze trainieren ein Modell das Reponse mit Prädiktor verbindet Überwachte Lernansätze werden in Klassifikationsalgorithmen wie SVMs benutzt Überwachte Lernansätze arbeiten mit Daten = [input, korrekter output] [13] An Introduction to Statistical Learning 37 / 59

Beispiel Lernansatz Überwachtes Lernen petal width (in cm) 3 2.5 2 1.5? Die labels lenken den Lernfortschritt wie ein Supervisor uns hilft Iris-setosa Iris-virginica 1 (N = 100 samples) 0.5 (Entscheidungsgrenze) 0 0 1 2 3 4 5 6 7 8 petal length (in cm) Tutorial Teil 2 gibt mehr Details in das überwachte Lernen mit Klassifikationsalgorithmen 38 / 59

Lernmodell Support Vector Machines SVMs SVMs sind häufig benutzt & flexible Klassifikationsmethode Idee: Linear model funktionieren, geht besser Beispiel: was ist die beste Entscheidungsgrenze hier für Zukünftige Daten (lineares Beispiel) ( maximal margin classifier example) Support Vector Machines (SVM) & Kernelmethoden sind 2-3 Vorlesungen, hier nur oberflächlich 39 / 59

Übung Jupyther auf SDIL Platform Jupyther Notebook Datei unter /gpfs/sdic16/tutorials/pisvm-scripts-examples/ 40 / 59

Übungen Iris SVM 41 / 59

SVMs und Iris Datensatz Was passiert bei SVMs da nun eigentlich? [15] scikit-learn SVM 42 / 59

Lernansatz Unüberwachtes Lernen Jeder Prädiktor hat keinen Response Trotzdem können interessante Dinge gelernt werden Input No output Daten Ziel: Untersuchung der Beziehungen zwischen den Daten Cluster analysis: Prüfen ob Daten in gewissen Gruppen fallen Herausforderungen Keine response/output das uns bei der Datenanalyse hilft Clustern von Gruppen die sich überschneiden hart zu differenzieren Unüberwachte Lernansätze untersuchen die Beziehungen zwischen den Daten Unüberwachte Lernansätze werden in Cluster Algorithmen benutzt wie K-Means oder DBSCAN Unüberwachte Lernansätze arbeiten mit Daten = [input, ---] [13] An Introduction to Statistical Learning 43 / 59

Beispiel Lernansatz Unüberwachtes Lernen Praxis: Die Anzahl von Cluster wird oft nicht genau erkannt # [13] An Introduction to Statistical Learning Forschungsaktivitäten mit Timo Dickscheid et al. (Juelich Institute of Neuroscience & Medicine) 44 / 59

Lernansatz Reinforcement Lernen Jeder Prädiktor hat einen Grad der Response Mit Grad ist hier die Güte gemeint Input Etwas an output & Grad der Güte des Outputs Daten Ziel: Lernen durch Iterationen Geleitet durch Grad des Outputs: prüfe gelerntes uns vergleiche mit Grad Herausforderung: Iterationen brauchen oft sehr viel CPUs (e.g. backgammon Spielrunden) Reinforcement Lernansätze lernen durch Iterationen und Nutzen den Grad des Outputs Reinforcement Lernansätze werden oft in Spielalgorithmen benutzt (bspw. Backgammon) Reinforcement Lernansätze arbeiten mit Daten = [input, etwas output, Grad des Output] [13] An Introduction to Statistical Learning 45 / 59

Zusammenfassung Terminologien & Datensätze Target Funktion Idealle Funktion die die Daten erklärt die wir lernen wollen Labelled Dataset (samples) in-sample Daten geben uns: Lernen vs. Auswendiglernen Das Ziel ist es ein System zu erzeugen das gut out of sample funktioniert Wir wollen zukünftige Daten (ouf of sample) korrekt klassifizieren Datensatz Teil Eins: Training set Benutzt um maschinelle Lernalgorithmus zu trainieren Resultat nach dem Training: ein trainiertes System Datensatz Teil Zwei: Test set (4) Modelling Phase (5) Evaluation Phase Benutzt um zu testen ob trainiertes System wohl gut funktionieren wird Resultat nach dem Testen: Genauigkeit des trainierten Systems 46 / 59

Modell Evaluation Unterschiedliche Phasen Unterschiedliche Phasen im Lernen Trainingsphase ist ein Suche nach Hypothesis Testingphase prüft ob wir richtig lernen (wenn die Hypothesis klar ist) Arbeit an Training Samples (4) Modelling Phase (5) Evaluation Phase (bspw. Student Klausurtraining anhand von Beispielen um Error in zu reduzieren, dann test via Klausur sein wird) Erzeuge zwei Datensätze training set test set Einer nur für Training Training Examples (aka training set) Ein anderer exklusiv für Testen (Historische Daten, groundtruth Daten, Beispiele) (aka test set) Aufteilung nach Fausregeln & Anwendung (bspw. 10 % training, 90% test) Praxis: Wenn man einen Datensatz bekommt sofort Testdaten sichern ( diese in eine Ecke schmeissen und in Modellierungsphase vergessen ) Argumentation: Nach Lernen haben Trainingsdaten optimistische Neigung 47 / 59

Modell Evaluation Testing Phase & Confusion Matrix Modell ist klar Modell wird dann mit dem Testdatensatz genutzt Parameter w i sind gesetzt und wir haben eine Entscheidungsgrenze bereits Evaluation der Performance des Modells Zählung der Test samples die falsch vorhergesagt sind Zählung der Test samples die korrekt vorhergesagt sind Bspw. Erzeuge confusion matrix für ein zwei Klassen Problem (5) Evaluation Phase Zählung per sample Vorhergesagte Klasse Class = 1 Class = 0 Tatsächliche Class Class = 1 f 11 f 10 Class = 0 f 01 f 00 (wird oft als Basis für weitere Performance Metriken genutzt) 48 / 59

Modell Evaluation Testing Phase & Performance Metrics Zählung per sample Vorhergesagte Klasse (5) Evaluation Phase Tatsächliche Class Class = 1 Class = 0 Class = 1 f 11 f 10 Class = 0 f 01 f 00 Genauigkeit, engl. Accurary (in %) (100% Genauigkeit beim Lernen ist oft ein Anzeichen von Problemen bei der Nutzung von maschinellen Lernen) Error rate Wenn Evaluation des Modells ist gut: (6) Deployment Phase 49 / 59

Datensatz Rome 50 / 59

Übung Jupyther auf SDIL Platform Jupyther Notebook Datei unter /gpfs/sdic16/tutorials 51 / 59

Übungen Rome 52 / 59

Datensatz Indianpines 53 / 59

Übungen Indianpines 54 / 59

[Video] European Plate Observing System [14] EPOS Data Community Services, YouTube 55 / 59

Referenzen 56 / 59

Referenzen (1) [1] Introduction to Data Mining, Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Addison Wesley, ISBN 0321321367, English, ~769 pages, 2005 [2] PANGAEA Data Collection, Data Publisher for Earth & Environmental Science, Online: http://www.pangaea.de/ [3] UCI Machine Learning Repository, Online: http://archive.ics.uci.edu/ml/datasets.html [4] Species Iris Group of North America Database, Online: http://www.signa.org [5] UCI Machine Learning Repository Iris Dataset, Online: https://archive.ics.uci.edu/ml/datasets/iris [6] Wikipedia Sepal, Online: https://en.wikipedia.org/wiki/sepal [7] Rattle Library for R, Online: http://rattle.togaware.com/ [8] F. Rosenblatt, The Perceptron--a perceiving and recognizing automaton, Report 85-460-1, Cornell Aeronautical Laboratory, 1957 [9] Rosenblatt, The Perceptron: A probabilistic model for information storage and orgainzation in the brain, Psychological Review 65(6), pp. 386-408, 1958 [10] PLA Algorithm, YouTube Video, Online: [11] C. Shearer, CRISP-DM model, Journal Data Warehousing, 5:13 [12] Pete Chapman, CRISP-DM User Guide, 1999, Online: http://lyle.smu.edu/~mhd/8331f03/crisp.pdf 57 / 59

Referenzen (2) [13] An Introduction to Statistical Learning with Applications in R, Online: http://www-bcf.usc.edu/~gareth/isl/index.html [14] EPOS - European Plate Observing System -- Community Services, YouTube Video, Online: http://www.youtube.com/watch?v=zh-paxiqhki [15] scikit-learn SVM, Online: http://scikit-learn.org/stable/modules/svm.html 58 / 59

Danke für Ihre Aufmerksamkeit Folien sind in Kürze erhältlich auf: http://www.morrisriedel.de/talks 59 / 59