Approximate Maximum Margin Algorithms with Rules Controlled by the Number of Mistakes

Ähnliche Dokumente
Pareto optimale lineare Klassifikation

Einführung in Support Vector Machines (SVMs)

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen

Support Vector Machines, Kernels

Support Vector Machines (SVM)

Lineare Regression. Volker Tresp

Thema: Support Vector Machines Johannes Lächele

Semiüberwachte Paarweise Klassifikation

Neural Networks: Architectures and Applications for NLP

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen

Projekt Maschinelles Lernen WS 06/07

Von schwachen zu starken Lernern

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Computer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10

Einführung in das Maschinelle Lernen I

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Softwareprojektpraktikum Maschinelle Übersetzung

Methoden zur Cluster - Analyse

Die Datenmatrix für Überwachtes Lernen

Vorlesung Maschinelles Lernen

Statistical Learning

Hauptseminar Machine Learning: Support Vector Machines, Kernels. Katja Kunze

Kapitel LF: I. Beispiele für Lernaufgaben. Beispiele für Lernaufgaben. LF: I Introduction c STEIN

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren

MULTI-CLASS PROTEIN CLASSIFICATION USING ADAPTIVE CODES

Überblick. Classifying The Real World. Textkategorisierung. Textkategorisierung. Textkategorisierung (II)

One-class Support Vector Machines

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Syntaktische und Statistische Mustererkennung. Bernhard Jung

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Klassifikation und Ähnlichkeitssuche

Algorithmentechnik - U bung 7 8. Sitzung Tanja Hartmann 04. Februar 2010

Grundlagen von Support Vector Maschinen und Anwendungen in der Bildverarbeitung

Vorlesung Wissensentdeckung

Wissensentdeckung in Datenbanken

RL und Funktionsapproximation

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

3. Suchen. Das Suchproblem. Suche in Array. Lineare Suche. 1 n. i = n Gegeben Menge von Datensätzen.

Globale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten

Temporal Difference Learning

Lernen mit Queries. Hans Kleine Büning Institut für Informatik, Universität Paderborn Paderborn (Germany),

Unüberwachte Nächste Nachbarn

Lösungen Klausur. k k (n + 1) n. für alle n N. Lösung: IA: Für n = 1 ist 1. k k + (n + 1) n+1. k k = k=1. k=1 kk = 1 1 = 1 2 = 2 1.

Mathematische Grundlagen III

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Schwellenwertelemente. Rudolf Kruse Neuronale Netze 8

Chapter 6: Classification

, Data Mining, 2 VO Sommersemester 2008

Übungen zur Vorlesung Grundlagen der Bilderzeugung und Bildanalyse (Mustererkennung) WS 04/05. Musterlösung 9

Überwachtes Lernen II: Netze und Support-Vektor-Maschinen

Algorithmen auf Zeichenketten

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Learning to Rank Sven Münnich

Bildverarbeitung: RANSAC. D. Schlesinger () Bildverarbeitung: RANSAC 1 / 11

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 3 Maschinelles Lernen und Klassifikation

Einführung in die Bioinformatik: Lernen mit Kernen

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1

Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben

a) Name and draw three typical input signals used in control technique.

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Proseminar String Matching

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle

Teil 2.2: Lernen formaler Sprachen: Hypothesenräume

Support Vector Machines (SVM)

κ Κα π Κ α α Κ Α

Einführung in Approximative Algorithmen und Parametrisierte Komplexität

Vorlesung Maschinelles Lernen

Einführung in Maschinelles Lernen zur Datenanalyse

Einführung in die Computerlinguistik

Übung Algorithmen und Datenstrukturen

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Formale Sprachen und Automaten: Tutorium Nr. 8

WEKA A Machine Learning Interface for Data Mining

Theoretische Informatik 1

Vorlesung Maschinelles Lernen

3 Numerische Behandlung der Tschebyscheff-Approximation

Lösungen zu Übungsblatt 1

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Computer Vision: SVM-Anwendungsbeispiele, Generalisierbarkeit

INTELLIGENTE DATENANALYSE IN MATLAB

Cognitive Interaction Technology Center of Excellence

1 Einführung in Lineare Programme und Dualität

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation

Seminar über Neuronale Netze und Maschinelles Lernen WS 06/07

Signale und Codes Vorlesung 4

Reinforcement Learning

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Pollards Rho-Methode zur Faktorisierung

7. Übungs-/Wiederholungsblatt zu Einführung in die Numerik (SS 2012)

Begriffsklärung: Dominanz

Datenstrukturen und Algorithmen

Neuronale Netze. Christian Böhm.

Transkript:

Approximate Maximum Margin Algorithms with Rules Controlled by the Number of Mistakes Seminar Maschinelles Lernen VORTRAGENDER: SEBASTIAN STEINMETZ BETREUT VON: ENELDO LOZA MENCÍA

Inhalt Vorbedingungen an die Daten Perceptron-Like Large Margin Classifiers Der Neue: MICRA Herleitung & Konvergenzbetrachtungen Effiziente Implementierung Das Experiment: MICRA gegen den Rest der Welt Zusammenfassung

Die Daten Linear separierbar wenn nicht -> Transformation in einen höheren Raum ( Considered Space ) Augmentierung des Raums um eine weitere Dimension. daraus folgt: Trennende Hyperebene verläuft durch den Ursprung.

Die Daten (II) Fallunterscheidung (Positiv-/Negativbeispiel) Punktspiegelung am Ursprung Einheitliche Darstellung in den Formeln

Lineare Separierbarkeit Was tun, wenn sie nicht gegeben ist?

Augmentierung des Raums Wie sieht das aus, und welchen Vorteil hat man davon?

Inhalt Vorbedingungen an die Daten Perceptron-Like Large Margin Classifiers Der Neue: MICRA Herleitung & Konvergenzbetrachtungen Effiziente Implementierung Das Experiment: MICRA gegen den Rest der Welt Zusammenfassung

Large Margin Klassifikation Gesucht: Die Lineare Hyperebene, welche genau zwischen den Clustern liegt bei maximalem Abstand. Beispiel: Support Vector Machines (SVM) oder Perceptron Like Algorithms (PLA) γd

PLAs - formal Update-Regel, Aktiviertheit Update-Regel, Weight-Vectors u ist nur normiertes a Effektive Lernrate: a t+1 = (a t + η t f t y k ) N 1 t+1 u t+1 = u t + η eff tf t y k /R u t + η eff tf t y k /R u t a t / a t η eff t η t R a t 1 Σ

PLAs - formal (II) Misclassification Condition C(t) -> 0 für große t Dann erhält man einen möglichst großen Korridor u y k γ d u t y k C(t) max min u : u =1 i {u y i } k

Inhalt Vorbedingungen an die Daten Perceptron-Like Large Margin Classifiers (PLAs) Der Neue: MICRA Herleitung & Konvergenzbetrachtungen Effiziente Implementierung Das Experiment: MICRA gegen den Rest der Welt Zusammenfassung

MICRA ε,ζ u t+1 = u t + η eff tf t y k /R u t + η eff tf t y k /R Update-Rule: u t+1 = u t + ηy k t ζ R u t + ηy k t ζ R u t y k C(t) Misclassification Condition: u t y k β t ɛ

Konvergenz für ζ 1 Konvergenz in endlicher Schrittzahl wenn η = η0(β/r) -δ konvergiert der Margin für β/r gegen den maximalen Margin γd vorausgesetzt 0 < εδ+ζ < 1 Für ζ + 2ε = 1 mit ζ > 1/2 obere Schranke für die Anzahl der benötigten Updates (tb) untere Schranke für den Anteil, des Margins, den der Algorithmus erzielt (fb)

Algorithm 1 MICRA ɛ,ζ Input: A linearly separable augmented set with reflection assumed S =(y 1,..., y k,..., y m ) Fix: η, β Define: R = max y k, q k = y k 2, k Initialise: t = 1, a 1 = y 1, a 1 = y 1, η 1 = a 1 η, β 1 = a 1 β repeat for k = 1 to m do p tk = a t y k if p tk β t then a t+1 = a t + η t y k a t 2 + η t (2p tk + η t q k ) a t+1 = t t + 1 η t = a t ηt ζ, β t = a t βt ɛ end if end for until no update made within the for loop η = η/r misclassification condition update-rule gilt jetzt (Kommentar) t++ ALGORITHMUS MICRA ε,ζ IMPLEMENTIERUNG IN PSEUDOCODE

Weitere Optimierungmöglichkeiten Epoche: einmal alle Traningsbeispiele dem Algorithmus zeigen bilden eines reduzierten active set TRAININGS-DATEN FALSCH enthält nur, in der aktuellen Epoche, falsch klassifizierte Beispiele dieser Algorithmus wird red-micra genannt Epoche FALSCH Mini- Epoche

Inhalt Vorbedingungen an die Daten Perceptron-Like Large Margin Classifiers (PLAs) Der Neue: MICRA Herleitung & Konvergenzbetrachtungen Effiziente Implementierung Das Experiment: MICRA gegen den Rest der Welt Zusammenfassung

MICRA vs. PLAs MICRA wird mit sinnvoll gewählten Parametern gegen agg- ROMMA und den normalen Perceptron-Algorithmus getestet. ROMMA: Relaxed Online Maximum Margin Algorithm Testdaten aus dem Machine Learning Repository der UCI (University of California - Irvine) Asuncion, A. & Newman, D.J. (2007). UCI Machine Learning Repository [http://www.ics.uci.edu/~mlearn/mlrepository.html]. Irvine, CA: University of California, School of Information and Computer Science.

Experiment 1 (sonar classification prob.) linear Sonar-Signale von zylindrischen Metallgegenständen vs. Sonar-Signale von Zylindrischen Steinen Instanzen Trainingsinstanzen Attribute Fehlerhafte Daten Entfernte Daten gewähltes ρ R γd 208 104 60 0 0 1 3,8121 0,00841

Experiment 1 (sonar classification prob.) linear Perceptron agg-romma MICRA 0.05,0.9 10 3 γ d upds 10 3 γ d upds 10 3 γ d upds 7,27 820.261 7,28 778.412 7,29 327.468 7,85 5.930.214 7,85 1.546.595 7,86 706.274 7,91 19.599.882 8,19 2.716.711 8,19 1.932.165 7,93 97.717.549 8,37 14.079.715 8,37 11.610.899 η = 50

Experiment 2.1 (wisconsin breast cancer) Gutartiger Tumor vs. Bösartiger Tumor Zwecks linearer Separierbarkeit, entfernen von 11 Datenpunkten Instanzen Trainingsinstanzen Attribute Fehlerhafte Daten Entfernte Daten gewähltes ρ R γd 699 672 9 16 (11) 30 41,4246 0,0243

Experiment 2.1 (WBC-11) linear Perceptron agg-romma MICRA 0.1,0.8 10 3 γ d upds 10 3 γ d upds 10 3 γ d upds 2,197 4.980.423 2,195 5.784.868 2,198 267.145 2,321 10.761.773 2,318 13.931.792 2,324 467.369 2,415 113.406.210 2,415 174.388.827 2,415 4.533.155 η = 2,3

Experiment 2.2 (wisconsin breast cancer) Gutartiger Tumor vs. Bösartiger Tumor Vollständiges WBC-Set (-> linear nicht separierbar) Instanzen Trainingsinstanzen Attribute Fehlerhafte Daten Entfernte Daten gewähltes ρ R γd 699 672 9 16 0 10 30,282 0,13033

Experiment 2.2 (WBC) non-linear Perceptron agg-romma MICRA 0.05,0.9 10 3 γ d upds 10 3 γ d upds 10 3 γ d upds 11,905 206.469 11,916 169.588 11,957 105.964 12,462 457.334 12,468 409.956 12,47 183.643 12,837 38.336.601 12,928 1.554.492 12,949 734.629 η = 20

MICRA vs. SVMs PLAs konvergieren in der nähe der optimalen Hyperebene extrem langsam Deswegen: Anforderung an γ lediglich 99% des maximalen margins Vergleich nur auf Prozessorzeit-Ebene, da SVMs nicht Epochen-Basiert arbeiten.

MICRA vs. SVMs LIBSVM und SVM light SVMs erlauben weiche Ränder, feature space ist aber hart separierbar Dekompositions-Basierte SVMs. Viel schneller als Standard-SVMs MICRA wird vertreten durch red-micra, also Training mit Hilfe von Micro-Epochen Stop von red-micra, wenn γm > γs< UND γm > γs> 0,99

data LIBSVM SVM light red MICRA 0.05,0.9 set 10 2 γ Secs 10 2 γ Secs 10 2 γ Secs 10 2 γ Secs ρ η N 10 5 β R 102 γ Secs sonar 0 0.8451 0.17 0.8405 0.10 0.8460 6.85 0.8388 4.84 1 45 80 462.2 0.8406 3.60 ionosphere 1 10.554 0.06 10.389 0.05 10.551 0.30 10.448 0.19 1.5 10 10 2929 10.449 0.07 votes 1 16.846 0.02 16.708 0.02 16.841 0.18 16.690 0.11 1 5 20 6385 16.718 0.02 WBC 1 13.034 0.12 12.848 0.09 13.033 0.81 12.929 0.45 2 25 20 837.6 12.932 0.35 tic-tac-toe 1 10.300 0.47 10.183 0.27 10.295 3.35 10.185 1.35 0.5 8 20 5334 10.203 0.05 german 25 95.361 0.62 94.055 0.45 95.332 2.96 94.217 1.82 8 30 50 908.9 94.415 0.36 mushroom 0 36.551 0.58 35.988 0.33 36.538 0.17 36.103 0.11 0 4.5 50 12535 36.212 0.10 Margins der Algorithmen: ε = 0,001;ε > 0,001;anhalte-margin EXPERIMENT 3: MICRA vs. SVMs VERSCHIEDENE UCI-DATENSÄTZE

Experiment 4 (subsets des Adult-Datensatzes) Einkommen < $ 50k / Jahr vs. Einkommen > $ 50k / Jahr Augmentierung nicht notwendig -> ρ=0 Instanzen Trainingsinstanzen Attribute (binär) Fehlerhafte Daten Entfernte Daten gewähltes ρ 48842 1.605-32.561 14 (123) 0 0 0

subset LIBSVM SVM light red MICRA 0.05,0.9 size 10 2 γ Secs 10 2 γ Secs 10 2 γ Secs 10 2 γ Secs η N 10 2 β R 102 γ Secs 1605 3.9383 1.41 3.9022 1.07 3.9375 3.02 3.8877 1.58 20 100 1.918 3.9038 0.63 3185 2.7437 5.55 2.7187 4.29 2.7434 11.3 2.7093 6.23 25 100 1.400 2.7187 1.73 6414 1.9292 22.5 1.9094 17.6 1.9290 71.3 1.9097 37.7 45 300 1.025 1.9111 5.83 11220 1.4499 73.2 1.4348 58.6 1.4497 283.4 1.4342 141.7 65 300 0.798 1.4356 14.7 16100 1.2069 389.7 1.1927 312.3 1.2068 638.2 1.1923 318.6 80 500 0.673 1.1950 28.7 32561 0.8526 3902.3 0.8424 2484.5 0.8525 2733.8 0.8432 1439.4 105 600 0.492 0.8441 75.0 Margins der Algorithmen: ε = 0,03; ε = 0,025;anhalte-margin 4: MICRA vs. SVMs ADULT-DATENSATZ

Experiment 5 (subsets des Web-Datensatzes) Fichten-/Tannenwald vs. Jede andere Art bewaldung Linear nicht separierbar, Δ=10 Für SVM light genauigkeit: ε=0,01 data SVM light red MICRA 0.05,0.9 size 10 3 γ Secs η N 10 5 β R 103 γ Secs 581012 15.774 47987.7 70 400 336 15.789 4728.0 Instanzen Trainingsinstanzen Attribute Fehlerhafte Daten Entfernte Daten gewähltes ρ 581012 581012 54 0 0 2

Zusammenfassung MICRA ist ein schnell konvergierender Perceptron- Like-Large-Margin-Classifier Geringer Speicherbedarf Perceptron MICRA SVM Genauigkeit Geschwindigkeit Speicherbedarf o + ++ o ++ o+ ++ ++ o

Vielen Dank für Ihre Aufmerksamkeit