Überwachtes Lernen II: Netze und Support-Vektor-Maschinen

Ähnliche Dokumente
kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

Neuronale Netze (Konnektionismus) Einführung in die KI. Beispiel-Aufgabe: Schrifterkennung. Biologisches Vorbild. Neuronale Netze.

Gliederung. Biologische Motivation Künstliche neuronale Netzwerke. Anwendungsbeispiele Zusammenfassung. Das Perzeptron

Neuronale Netze. Anna Wallner. 15. Mai 2007

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Überwachtes Lernen: Klassifikation und Regression

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

Überwachtes Lernen I: Klassifikation und Regression

Praktische Optimierung

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Ein selbstmodellierendes System für die Wasserwirtschaft

(hoffentlich kurze) Einführung: Neuronale Netze. Dipl.-Inform. Martin Lösch. (0721) Dipl.-Inform.

Hannah Wester Juan Jose Gonzalez

Neuronale Netze mit mehreren Schichten

Thema 3: Radiale Basisfunktionen und RBF- Netze

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Künstliche neuronale Netze

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Neuronale Netze, Fuzzy Control, Genetische Algorithmen. Prof. Jürgen Sauer. 5. Aufgabenblatt: Neural Network Toolbox 1

Aufbau und Beschreibung Neuronaler Netzwerke

Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und

Einführung in Support Vector Machines (SVMs)

Support Vector Machines (SVM)

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Andreas Scherer. Neuronale Netze. Grundlagen und Anwendungen. vieweg

Was bisher geschah. Lernen: überwachtes Lernen. biologisches Vorbild neuronaler Netze: unüberwachtes Lernen

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation

Softcomputing Biologische Prinzipien in der Informatik. Neuronale Netze. Dipl. Math. Maria Oelinger Dipl. Inform. Gabriele Vierhuff IF TIF

Das Perzeptron. Künstliche neuronale Netze. Sebastian Otte. 1 Grundlegendes. 2 Perzeptron Modell

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation

Grundlagen Neuronaler Netze

Praktikum Computational Intelligence 2 Ulrich Lehmann, Johannes Brenig, Michael Schneider

Können neuronale Netze Vorhersagen treffen? Eine Anwendung aus der Stahlindustrie

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Proseminar Machine Learning. Neuronale Netze: mehrschichtige Perzeptrone. Christina Schmiedl Betreuer: Christian Spieth, Andreas Dräger

Überwachtes Lernen / Support Vector Machines. Rudolf Kruse Neuronale Netze 246

Theoretische Informatik 1

Data Mining - Wiederholung

Neuronale Netze (Konnektionismus)

5. Lernregeln für neuronale Netze

Neuronale Netze. Gehirn: ca Neuronen. stark vernetzt. Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor)

Neuronale Netze. Maschinelles Lernen. Michael Baumann. Universität Paderborn. Forschungsgruppe Wissensbasierte Systeme Prof. Dr.

Künstliche Neuronale Netze und Data Mining

Hochschule Regensburg. Spezielle Algorithmen (SAL) Lehrbeauftragter: Prof. Sauer

Eine kleine Einführung in neuronale Netze

Kohonennetze Selbstorganisierende Karten

Einführung in Neuronale Netze

Neuronale Netze. Volker Tresp

Datenorientierte SA. Aufbau und Grundlagen. Aufbau und Grundlagen. Aufbau und Grundlagen. Was sind neuronale Netze?

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Globale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten

Data Mining und maschinelles Lernen

Reinforcement Learning

x 2 x 1 x Lernen mit Entscheidungsbäumen

Räumliches Data Mining

Einführung in neuronale Netze

Allgemeine (Künstliche) Neuronale Netze. Rudolf Kruse Neuronale Netze 40

Was sind Neuronale Netze?

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Technische Universität. Fakultät für Informatik

(künstliche) Neuronale Netze. (c) Till Hänisch 2003,2015, DHBW Heidenheim

Implementationsaspekte

Wissensbasierte Systeme

Kapitel LF: IV. IV. Neuronale Netze

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Schriftlicher Test Teilklausur 2

Künstliche Neuronale Netze. 2. Optimierung des Trainings 3. Optimierung der Topologie 4. Anwendungen in der Medizin 5.

auch: Konnektionismus; subsymbolische Wissensverarbeitung

Selbstorganisierende Karten

Künstliche neuronale Netze

Neuronale Netze (I) Biologisches Neuronales Netz

KNN-Methode zur Einschätzung von Veränderungen des Salzgehaltes in Ästuaren

Neuronale Netze in der Phonetik: Grundlagen. Pfitzinger, Reichel IPSK, LMU München {hpt 24.

Einführung in das Maschinelle Lernen I

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Fehler- und Ausgleichsrechnung

Structurally Evolved Neural Networks for Forecasting

BK07_Vorlesung Physiologie. 05. November 2012

ML-Werkzeuge und ihre Anwendung

C1/4 - Modellierung und Simulation von Neuronen

Kapitel LF: IV. Multilayer-Perzeptrons und Backpropagation. Multilayer-Perzeptrons und Backpropagation. LF: IV Machine Learning c STEIN

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

9.5 Entscheidungsbäume

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren Thomas Brox, Fabian Kuhn

Computational Intelligence I Künstliche Neuronale Netze

Künstliche Neuronale Netze

(künstliche) Neuronale Netze. (c) Till Hänisch 2003, BA Heidenheim

Multi-Layer Neural Networks and Learning Algorithms

Business Intelligence & Machine Learning

Praktikum Computational Intelligence 2 Ulrich Lehmann, Johannes Brenig, Michael Schneider

Kapitel 5: Ensemble Techniken

Modellbildung und Simulation

Innovative Information Retrieval Verfahren

Transkript:

Überwachtes Lernen II: Klassifikation und Regression - Neuronale Netze und Support-Vektor-Maschinen Praktikum: Data Warehousing und Data Mining Praktikum Data Warehousing und Mining, Sommersemester 2009

Künstliche Neuronale Netze Praktikum Data Warehousing und Mining, Sommersemester 2009

Künstliche Neuronale Netze Idee Ausgangssituation Eingabegrößen: Mehrere e e beliebige eb Attribute Zielgröße: Vorhersage einer binären, kategorischen oder numerischen Variablen Idee: Nachbildung der kognitiven Fähigkeiten des menschlichen Gehirns Netzwerk aus Neuronen (Nervenzellen) verknüpft Eingabegröße mit Zielgröße Beispiel: Auge sieht Bier, Gehirn meldet Durst Definition Neuron Binäres Schaltelement mit zwei Zuständen (aktiv, inaktiv) Praktikum Data Warehousing und Mining, Sommersemester 2009 3

Struktur des Neurons in der Biologie BSt Christi rol uian ct ogical Borgelt u r e of Ba ack p r otgr ou y p incal d b i ol ogi Int roduct cal ionn eu t o Neural r onnetworks 5 Endplatte Synapse Dendriten Zellkern Zellkörper Axon Myelinscheide Praktikum Data Warehousing und Mining, Sommersemester 2009 4

Arbeitsweise von Neuronen Die Synapsen an den Enden der Axone senden chemische Stoffe aus, sog. Neuro-Transmitter. Diese wirken auf die Rezeptoren der Dendriten, deren Spannungspotential p ändert sich. Man unterscheidet zwischen exzitatorischen (erregenden) Synapsen inhibitorischen i h (hemmenden) Synapsen Bei genügend exzitatorischen Reizen (netto, über gewisse Zeitspanne) wird das Neuron aktiv. Aktive Neuronen senden selbst wieder Signale zu benachbarten Neuronen Praktikum Data Warehousing und Mining, Sommersemester 2009 5

Das einfache Perzeptron (künstliches Neuron) x 0 w 0 - μ Weiteres k Gewicht (Bias) x 1 x n w 1 w n f Ausgabe y Zum Beispiel : Eingabe- Vkt Vektor X Gewichts- Gewichtete Aktivierungs- y = sign( w x i i Vkt Vektor W Summe Funktion i= 0 n + μ ) k Der n-dimensionale Eingabe-Vektor X wird durch ein Skalarprodukt kt und eine nichtlineare Funktion auf y abgebildet. bild Praktikum Data Warehousing und Mining, Sommersemester 2009 6

Neuronale Netze - Multilayer-Perceptron (MLP) Eingabe-Neuron Verstecktes oder inneres Neuron Verbindungen (Gewichte) Ausgabe-Neuron Es kann mehr als nur eine versteckte Schicht geben! Eingabeschicht Versteckte Schicht Ausgabeschicht Praktikum Data Warehousing und Mining, Sommersemester 2009 7

Künstliche Neuronale Netze Arbeitsweise Vorgehen Klassifikation/Regression Gegeben: Netzwerk e aus Neuronen e Alle Neuronen inaktiv, senden keine Signale Eingabeneuronen gemäß Eingabegrößen gereizt Gereizte Neuronen senden Signale Signale werden über Netzwerk zum Ausgabeneuron weitergeleitet Regression: Ausgabeneuron liefert kontinuierlichen Wert. Klassifikation (binär): Schwellwertsetzung am Ausgabeneuron. Klassifikation (allgemein) Ausgabeneuron mit höchstem Reiz definiert Klasse. Anwendung auf verschiedene Datensätze Einfaches Perzeptron: Linearer Klassifikator MLP: kann auch nicht linear separierbare Probleme lösen Praktikum Data Warehousing und Mining, Sommersemester 2009 8

Lernen von neuronalen Netzen Zunächst: Definition der Netzstruktur Trial and Error Dann: Lernen der Gewichte 1. Initialisiere Gewichte und Bias mit zufälligen Werten 2. Propagiere die Werte eines Lerntupels durch das Netz 3. Berechne den Fehler, Anpassen von Gewichten und Bias 4. Wiederhole 2 und 3 bis Stoppkriterium erreicht (z.b. Fehler hinreichend klein oder Zeitüberschreitung) Anpassung findet entweder nach jedem Tupel statt oder nach jeder Epoche (ganzer Lerndatensatz) Variante: Eine Epoche besteht aus n zufälligen Lerndatensätzen. Praktikum Data Warehousing und Mining, Sommersemester 2009 9

Lernen der Gewichte einfaches Perzeptron Anpassen erfolgt durch Delta-Regel: w i = w i + Δw i Δwi = μ = μ + Δμ 0 + σx σx 0 Δμ = σ + σ i i wenn wenn wenn wenn wenn y wenn p y p y y p p y y p = y = 0 y = 1 = 1 y = 0 p = y = 0 y = 1 = 1 y = 0 w i : Ein Gewicht des Perzeptrons μ: Bias des Perzeptrons (x 1, x 2,, x n ): Ein Eingabemuster y: Zugehöriger Zielwert y p : Berechneter Ausgabewert p σ: Lernrate (Benutzerdefiniert) Praktikum Data Warehousing und Mining, Sommersemester 2009 10

Lernen der Gewichte MLP Generalisierung der Delta-Regel: Backpropagation Ziel: Minimierung i i des Fehlers und Festlegen der Gewichte/Bias-Werte; Netzwerk ist vorgegeben. Lösung: Gradientenverfahren Aktivierungsfunktion muss differenzierbar sein: Sigmoidfunktion statt sign: sig(x) = 1 / (1 + e -x ) Mit Bias und Steilheit α: sig(x) = 1 / (1 + e -α(x-μ) ) Fehlerfunktion muss differenzierbar sein: Fehlerquadrate Funktioniert auch bei mehreren versteckten Ebenen und mehreren Ausgabeneuronen. Gradientenverfahren liefert lokales Minimum σ ändern oder initiale Gewichte bzw. Bias variieren. Praktikum Data Warehousing und Mining, Sommersemester 2009 11

Neuronale Netze - Bewertung Herausforderungen Aufbereiten e der Daten Üblich: Normalisierung auf 0 1 Bei kategorischen Daten: ggf. ein Eingabeneuron pro Attribut-Ausprägung Aufbau des Netzes Erfahrungswerte oder Trial and Error. Verhinderung von Overfitting Evaluation mit neuen Daten Voraussagewert bei Regressionsproblemen Lineare Funktion an Ausgabeneuron und Skalieren des Wertes Vorteile Gutes Verhalten bei neuen und verrauschten Daten Nachteile Lernen oft vergleichsweise aufwändig Ergebnis schwer zu interpretieren Praktikum Data Warehousing und Mining, Sommersemester 2009 12

Support-Vektor-Maschinen (SVMs) Praktikum Data Warehousing und Mining, Sommersemester 2009

Support-Vektor-Maschinen - Motivation Relativ neue Klassifikationstechnik Nativ für binäre Probleme Gesucht ist eine Hyperebene, die optimal zwei Klassen separiert 1D: Grenzwert 2D: Gerade 3D: Ebene 4D etc.: Hyperebene Auch nicht linear separierbare Fälle lösbar x x x x o x x x o o x x o o o o o Linear separierbares Beispiel für den 2D-Fall x o o o o o Praktikum Data Warehousing und Mining, Sommersemester 2009 14

SVMs - Finden von Hyperebenen (linear separierbar) Small Margin Large Margin Ziel: Finden einer Hyperebene mit max. Margin. So entsteht ein generalisierender Klassifikator. Praktikum Data Warehousing und Mining, Sommersemester 2009 15

Finden einer separierenden Hyperebene Eine Hyperebene kann wie folgt beschrieben werden: W X + w 0 = 0 W = {w 1, w 2,, w n } ist Vektor von gesuchten Gewichten X ist Lerndatensatz H 2 H 1 Im 2D-Fall z.b.: w 0 + w 1 x 1 + w 2 x 2 = 0 Für die Rand- Hyperebenen gilt dann: H 1 : w 0 + w 1 x 1 + w 2 x 2 1 für y i = +1, und H 2 : w 0 + w 1 x 1 + w 2 x 2 1 für y i = 1 Die Tupel des Lerndatensatzes auf H 1 und H 2 heißen Stützvektoren (support vectors) Praktikum Data Warehousing und Mining, Sommersemester 2009 16

Berechnung der Hyperebene Das Bestimmen von W = {w 1, w 2,, w n } ist ein quadratisches Optimierungsproblem i mit Constraints. t Lösbar mit der Lagrange-Multiplikatorenregel. S. Bücher von V. Vapnik. Die Komplexität hängt von der Anzahl der Stützvektoren ab, nicht von der Dimension der Daten. Auch mit wenigen Vektoren können gute Ergebnisse erzielt werden, auch im hochdimensionalen Raum. Praktikum Data Warehousing und Mining, Sommersemester 2009 17

SVMs Nicht linear separierbare Probleme Trainingsdaten werden nichtlinear in einen höherdimensionalen i Raum abgebildet. bild Dort wird nach linear separierender Hyperebene gesucht. Viele Mapping-Techniken (Kernels) verfügbar Z.B.: Aus (x, y, z) wird (x, y, z, x², xy, xz) Mit geeigneten Mapping-Techniken und hinreichend hohen Dimensionen kann meist eine separierende Hyperebene gefunden werden. Theorem von Cover (1965): Die Wahrscheinlichkeit dass Klassen linear separierbar sind steigt wenn die Features nichtlinear in einen höheren Raum abgebildet werden. Praktikum Data Warehousing und Mining, Sommersemester 2009 18

SVMs zur Klassifikation - Bewertung Herausforderungen Anwendung auf allgemeine e e Klassifikationsprobleme at sp ob e (allgemeine kategorische Zielgröße, nicht binäre): Lernen mehrerer SVMs und Zusammenführung der Ergebnisse. Wahl von Kernel-Funktion und Dimensionalität. Vorteile Oft hervorragende Ergebnisse. Oft Bessere Generalisierung als neuronales Netzwerk. Nachteile Skaliert schlecht für viele Lerndatensätze (Dimensionalität nicht problematisch). Ergebnis im extrem hochdimensionalen Raum schwer zu interpretieren. Häufige Anwendungen: Handschrifterkennung, Objekterkennung, Sprechererkennung Praktikum Data Warehousing und Mining, Sommersemester 2009 19

SVMs zur Regression Idee Die Idee von Support-Vektoren und Kernel- Funktionen kann übertragen werden. Ähnlich wie lineare Regression, aber: Fehler kleiner als ε werden ignoriert. ε ist benutzerdefinierter Parameter, der Schlauch um Regressionsfunktion definiert. Meist wird absolutes Fehlermaß in y-richtung verwendet. Gleichzeitig werden Flache Funktionen angestrebt. ε=1 ε=2 Praktikum Data Warehousing und Mining, Sommersemester 2009 20

SVMs zur Regression Berechnung Stützvektoren sind die Lerndatensatz-Punkte, die außerhalb des Schlauchs liegen. Im allgemeinen kann kein Schlauch bei gegebenem ε gefunden werden, der alle Punkte umschließt. Es existieren zwei konkurrierende Optimierungsziele: Minimierung des Fehlers der Stützvektoren. Erreichen einer flachen Funktion. Parameter C kontrolliert Tradeoff. C: max. Wert der Regressionskoeffizienten. Hohes C: Gut auf Trainingsdaten, da keine Wertbegrenzung. Niedriges C: Bessere Generalisierung. Praktikum Data Warehousing und Mining, Sommersemester 2009 21 ε=0,5

Wiederholung: Evaluationstechniken Praktikum Data Warehousing und Mining, Sommersemester 2009

Überwachtes Lernen Vorgehen Trainingsdaten Klassifikator lernen Klassifikationsregeln modell Testdaten Klassifikator testen optimiertes Klassifikationsregeln modell Produktivdaten Klassifikator anwenden Praktikum Data Warehousing und Mining, Sommersemester 2009 23

Sampling bzw. Holdout Institut für Programmstrukturen und Datenorganisation (IPD) Die Leistung eines Klassifikators kann nicht mit dem Lerndatensatz beurteilt werden! Overfitting! Vgl. Motivation Pruning. Deshalb: Unterteilung der Ausgangsdaten in Training Set zum Lernen des Klassifikators (oft zwei Drittel) Test Set zur Evaluation des Klassifikators (oft ein Drittel) Beide Mengen sollten möglichst repräsentativ sein: Stratifikation: Aus jeder Klasse wird ein proportionaler p Anteil in das Training- und Test Set übernommen. Eine Unterteilung in Training- und Test Set ist oft nicht möglich, wenn nicht genug Daten zur Verfügung stehen: Ein kleines Test Set ist ggf. nicht mehr repräsentativ. Ein kleines Training Set bietet ggf. zu wenig zum Lernen. Praktikum Data Warehousing und Mining, Sommersemester 2009 24

Cross-Validation Institut für Programmstrukturen und Datenorganisation (IPD) Unterteilung der Ausgangsdaten in k Partitionen Typischerweise eise wird k=10 gewählt Eine Partition bildet Test Set k 1 Partitionen bilden Training Set Berechnung und Evaluation von k Klassifikatoren: In k Runden wird jedes Datentupel k-1 mal zum Lernen verwendet und genau ein mal klassifiziert. Stratifizierte Cross-Validation ist in vielen Fällen die zu empfehlende Evaluationstechnik, besonders aber bei kleinen Datensätzen. Achtung: Cross-Validation ist sehr Rechenaufwändig Leave-One-Out Out ist Spezialfall für k=n Praktikum Data Warehousing und Mining, Sommersemester 2009 25

Quellen Institut für Programmstrukturen und Datenorganisation (IPD) J. Han und M. Kamber: Data Mining: Concepts and Techniques, Morgan Kaufmann, 2006. I.H. Witten und E. Frank: "Data Mining - Practical Machine Learning Tools and Techniques", Morgan Kaufmann, 2005. Vladimir N. Vapnik : The Nature of Statistical Learning Theory, Springer, 1995. Vladimir N. Vapnik : Statistical Learning Theory, Wiley, 1998. T. M. Mitchell: Machine Learning, Mc Graw Hill, 1997. F. Klawonn: Folien zur Vorlesung Data Mining, 2006. C. Borgelt: Folien zur Vorlesung Introduction to Neural Networks, 2009 SPSS: SS Clementine 12.0 Algorithms Guide. 2007. http://isl.ira.uka.de/neuralnetcourse/2006/vorlesung_2006-05- 09/applet-perceptron/Perceptron.html http://fbim.fh-regensburg.de/~saj39122/wabrpi/ fh b / b i/ Praktikum Data Warehousing und Mining, Sommersemester 2009 26

Organisatorisches zum Data-Mining-Cup Praktikum Data Warehousing und Mining, Sommersemester 2009

Zwischenpräsentation am 11.05.2009 pro Gruppe 10 Minuten Vortrag, 5 Minuten Diskussion Status Quo beim Data-Mining-Cup: Ergebnisse der Analyse der Daten statistische Auffälligkeiten? resultierende Vorverarbeitungsschritte ggf. ausprobierte Verfahren (evtl. erste Punktzahlen) nächste geplante Schritte Praktikum Data Warehousing und Mining, Sommersemester 2009 28

Weiteres Vorgehen Institut für Programmstrukturen und Datenorganisation (IPD) 18. Mai: Vorstellung von Punktzahlen im Tutorium keine Vorlesungssitzung genaues Evaluationsverfahren wird am 11.05. spezifiziert Punktzahl ist Grundlage für Gewichtung unserer gemeinsamen Einreichung 25. Mai: Abgabe DMC Gruppenergebnis per E-Mail bis 9:30 Uhr an uns wir berechnen dann Gesamtlösung Praktikum Data Warehousing und Mining, Sommersemester 2009 29