Chapter 6: Classification

Ähnliche Dokumente
Geometrie und Bedeutung: Kap 5

Künstliche Intelligenz

Context-adaptation based on Ontologies and Spreading Activation

AS Path-Prepending in the Internet And Its Impact on Routing Decisions

Efficient Design Space Exploration for Embedded Systems

Using TerraSAR-X data for mapping of damages in forests caused by the pine sawfly (Dprion pini) Dr. Klaus MARTIN

DATA ANALYSIS AND REPRESENTATION FOR SOFTWARE SYSTEMS

ISO Reference Model

GRIPS - GIS basiertes Risikoanalyse-, Informations- und Planungssystem

IDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz

Prediction of Binary Fick Diffusion Coefficients using COSMO-RS

Assessment of disgn-flows in water management, Classical methods, nonstationary and multidimensional extensions of Extreme Value Modeling (EVM)

TomTom WEBFLEET Tachograph

Mit Legacy-Systemen in die Zukunft. adviion. in die Zukunft. Dr. Roland Schätzle

Webbasierte Exploration von großen 3D-Stadtmodellen mit dem 3DCityDB Webclient

Algorithms & Datastructures Midterm Test 1

Die Dokumentation kann auf einem angeschlossenen Sartorius Messwertdrucker erfolgen.

Hannah Wester Juan Jose Gonzalez

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

GridMate The Grid Matlab Extension

Eingebettete Taktübertragung auf Speicherbussen

p^db=`oj===pìééçêíáåñçêã~íáçå=

VGM. VGM information. HAMBURG SÜD VGM WEB PORTAL - USER GUIDE June 2016

ISO Reference Model

Exercise (Part XI) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Statistics, Data Analysis, and Simulation SS 2015

Unterspezifikation in der Semantik Hole Semantics

Fundamentals of Electrical Engineering 1 Grundlagen der Elektrotechnik 1

Fluid-Particle Multiphase Flow Simulations for the Study of Sand Infiltration into Immobile Gravel-Beds

Darstellung und Anwendung der Assessmentergebnisse

HIR Method & Tools for Fit Gap analysis

Security Patterns. Benny Clauss. Sicherheit in der Softwareentwicklung WS 07/08

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Priority search queues: Loser trees

Hazards and measures against hazards by implementation of safe pneumatic circuits

Algorithms for graph visualization

Modellfreie numerische Prognosemethoden zur Tragwerksanalyse

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

NEWSLETTER. FileDirector Version 2.5 Novelties. Filing system designer. Filing system in WinClient

x 2 x 1 x Lernen mit Entscheidungsbäumen

The new IFRS proposal for leases - The initial and subsequent measurement -

eurex rundschreiben 094/10

Labour law and Consumer protection principles usage in non-state pension system

Group and Session Management for Collaborative Applications

Bayerisches Landesamt für Statistik und Datenverarbeitung Rechenzentrum Süd. z/os Requirements 95. z/os Guide in Lahnstein 13.

An Introduction to Monetary Theory. Rudolf Peto

LWL Transceiver 9 x 1 SIP 650nm

Shock pulse measurement principle

JPlus Platform Independent Learning with Environmental Information in School

ROOT Tutorial für D. Liko

Customer-specific software for autonomous driving and driver assistance (ADAS)

4. Bayes Spiele. S i = Strategiemenge für Spieler i, S = S 1... S n. T i = Typmenge für Spieler i, T = T 1... T n

Fortgeschrittenes Programmieren mit R. Christoph Beck. Di, 14:00-15:30 (3065)

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Exercise (Part II) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Virtual PBX and SMS-Server

Browser- gestützte Visualisierung komplexer Datensätze: Das ROAD System

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Westfalia Bedienungsanleitung. Nr

Mensch-Maschine-Interaktion 2 Übung 1

Andreas Scherer. Neuronale Netze. Grundlagen und Anwendungen. vieweg

Quadt Kunststoffapparatebau GmbH

sparktable: graphical tables with R

Reinforcement Learning

Proseminar - Data Mining

Possible Solutions for Development of Multilevel Pension System in the Republic of Azerbaijan

Was sind Neuronale Netze?

Level 1 German, 2012

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Knowledge Discovery in Datenbanken I (IN5042)

Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str Jena

ColdFusion 8 PDF-Integration

Kybernetik Intelligent Agents- Decision Making

Software Engineering verteilter Systeme. Hauptseminar im WS 2011 / 2012

Level 2 German, 2013

Themen für Seminararbeiten WS 15/16

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str Jena

ONLINE LICENCE GENERATOR

Support Technologies based on Bi-Modal Network Analysis. H. Ulrich Hoppe. Virtuelles Arbeiten und Lernen in projektartigen Netzwerken

PART 3: MODELLING BUSINESS PROCESSES EVENT-DRIVEN PROCESS CHAINS (EPC)

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation

Künstliche neuronale Netze

Advanced Automated Administration with Windows PowerShell

Model-based Development of Hybrid-specific ECU Software for a Hybrid Vehicle with Compressed- Natural-Gas Engine

Infrastructure as a Service (IaaS) Solutions for Online Game Service Provision

Prediction Market, 28th July 2012 Information and Instructions. Prognosemärkte Lehrstuhl für Betriebswirtschaftslehre insbes.

Product Lifecycle Manager

FIVNAT-CH. Annual report 2002

August Macke Abschied, 1914 Museum Ludwig, Köln

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation

ETHISCHES ARGUMENTIEREN IN DER SCHULE: GESELLSCHAFTLICHE, PSYCHOLOGISCHE UND PHILOSOPHISCHE GRUNDLAGEN UND DIDAKTISCHE ANSTZE (GERMAN

Neuronale Netze (Konnektionismus) Einführung in die KI. Beispiel-Aufgabe: Schrifterkennung. Biologisches Vorbild. Neuronale Netze.

Beschreibung. Process Description: Sartorius Bestellnummer / Order No.:

Eine kleine Einführung in neuronale Netze

11: Echtzeitbetriebssystem ucos-ii

Franke & Bornberg award AachenMünchener private annuity insurance schemes top grades

Anforderungen, KEFs und Nutzen der Software- Prozessverbesserung

Transkript:

Chapter 6: Classification 1) Introduction Classification problem, evaluation of classifiers, prediction 2) Bayesian Classifiers Bayes classifier, naive Bayes classifier, applications 3) Linear discriminant functions & SVM 1) Linear discriminant functions 2) Support Vector Machines 3) Non-linear spaces and kernel methods 4) Decision Tree Classifiers Basic notions, split strategies, overfitting, pruning of decision trees 5) Nearest Neighbor Classifier Basic notions, choice of parameters, applications Max speed Id 1 Id 3 Id 2 6) Ensemble Classification Id 5 Id 4 age Outline 95

Nearest Neighbor Classifiers Motivation: Assume data in a non-vector representation: graphs, forms, XML-files, etc. No simple way to use linear classifiers or decision trees Possible solutions Definition of an appropriate kernel function for kernel machines (e.g. kernel SVM) Not always clear how to define a kernel Transformation of objects to some vector space (multidimensional scaling, histograms for color or shape distributions, etc.) Difficult to choose an appropriate number of dimensions (intrinsic/fractal dimensionality) Here: direct usage of the similarity of objects for classification Nearest neighbor classifier Requires a similarity function Classification Nearest Neighbor Classifier 96

Nearest Neighbor Classifiers: Example Procedure: Assign query object q to the class of the closest training object o :,, wolf dog wolf dog dogq cat cat cat cat Classifier decides that query object q is a dog Instance-based learning Classification Nearest Neighbor Classifier 97

Instance-Based Methods Instance-based learning: Store training examples and delay the processing ( lazy evaluation ) until a new instance must be classified Typical approaches : k-nearest neighbor approach Instances represented as points in an Euclidean space or, more general, as points in a metric space Index construction as training phase The classification has to process a huge number of NN-queries support by e.g. R- tree Eager evaluation Create models from data (training phase) and then use these models for classification (test phase) Examples: Decision tree, Bayes classifier Classification Nearest Neighbor Classifier 98

Nearest Neighbor Classifiers: Variants NN Classifier Assign query object to the class c j of the closest training object Parameter free approach wolf k-nn Classifier Consider the k>1 nearest neighbors for the class assignment decision Weighted k-nn Classifier Use weights for the classes of the k nearest neighbors wolf dog dog dog q cat cat cat cat Mean-based NN Classifier: Determine mean vector i for each class c j (in training phase) Assign query object to the class c j of the nearest mean vector i Generalization: representative-based NN Classifier Use more than one representative per class dog wolf wolf dog dog dog q cat cat wolf cat cat cat Classification Nearest Neighbor Classifier 99

Nearest Neighbor Classifiers: Notions Distance function Defines the (dis-)similarity for pairs of objects Number k of neighbors to be considered Decision set Set of k nearest neighboring objects to be used in the decision rule Decision rule Given the class labels of the objects from the decision set, how to determine the class label to be assigned to the query object? Classification Nearest Neighbor Classifier 100

Nearest Neighbor Classifiers: Parameter k Tradeoff between overfitting and generalization: Problem of choosing an appropriate value for parameter k k too small: high sensitivity against outliers k too large: decision set contains many objects from other classes Empirically, 1 << k < 10 yields a high classification accuracy in many cases prediction decision set for k = 1 red q decision set for k = 7 black decision set for k = 17 red Classification Nearest Neighbor Classifier 101

Nearest Neighbor Classifiers: Parameter k Tradeoff between overfitting and generalization: Problem of choosing an appropriate value for parameter k k too small: high sensitivity against outliers k too large: decision set contains many objects from other classes Different rules of thumb exist: Based on theoretical considerations: Choose k, such that it grows slowly with n, e.g. or log Empirically, 1 << k < 10 yields a high classification accuracy in many cases prediction decision set for k = 1 red q decision set for k = 7 black decision set for k = 17 red Classification Nearest Neighbor Classifier 102

Nearest Neighbor Classifiers: Decision Rules Standard rule Choose majority class in the decision set, i.e. the class with the most representatives in the decision set Weighted decision rules Use weights for the classes in the decision set Use distance to the query object:, Use frequency of classes in the training set, i.e. the a-priori probability of the class Example Class a: 95%, class b: 5% Decision set = {a, a, a, a, b, b, b} Standard rule yields class a Weighted rule yields class b (a-priori based) Classification Nearest Neighbor Classifier 103

Nearest Neighbor Classifiers: Example - - - + + + + + - - - + Classes + and decision set for k = 2 decision set for k = 5 Using unit weights (i.e., no weights) for the decision set Simply called majority criterion rule k = 2 yields class +, rule k = 5 yields class Using the reciprocal square of the distances as weights Both rules, k = 2 and k = 5, yield class + Using a-priori probability (=frequency) of classes as weights Both rules, k = 2 and k = 5, yield class + Classification Nearest Neighbor Classifier 104

Nearest Neighbor Classification: Discussion Pro applicability: training data and distance function required only high classification accuracy in many applications easy incremental adaptation to new training objects useful also for prediction robust to noisy data by averaging k-nearest neighbors Contra naïve implementation is inefficient requires k-nearest neighbor query processing support by database techniques may help to reduce from to log for n training objects training phase: create index structure does not produce explicit knowledge about classes But provides some explanation information Curse of dimensionality: distance between neighbors could be dominated by irrelevant attributes To overcome it, stretch axes or eliminate least relevant attributes Classification Nearest Neighbor Classifier 105

Chapter 5: Classification 1) Introduction Classification problem, evaluation of classifiers, prediction 2) Linear discriminant functions & SVM 1) Linear discriminant functions 2) Support Vector Machines 3) Non-linear spaces and kernel methods 3) Decision Tree Classifiers Basic notions, split strategies, overfitting, pruning of decision trees 4) Nearest Neighbor Classifier Basic notions, choice of parameters, applications 5) Bayesian Classifiers Bayes classifier, naive Bayes classifier, applications 6) Neuronal Networks Outline 106

Neuronale Netze Grundlagen [Bigus 1996], [Bishop 1995] Paradigma für ein Maschinen- und Berechnungsmodell Funktionsweise ähnlich der von biologischen Gehirnen Neuronales Netz: Menge von Neuronen, über Kanten miteinander verbunden Neuron: entspricht biologischem Neuron: Aktivierung durch Input-Signale an den Synapsen Beim menschlichen Gehirn: 10 11 Neuronen, jedes verbunden mit ~10 4 anderen schnellste Aktionszeit 10-3 Sek. (3GHz Prozessor: ~10-10 ) komplexe Entscheidungen sehr schnell (visuelle Erkennung der eigenen Mutter: 10-1 Sek. 100 Schritte) Neuronen erzeugen Output-Signal, das zu anderen Neuronen weitergeleitet wird Organisation eines neuronalen Netzes: Input-Schicht verborgene Schichten Output-Schicht Knoten einer Schicht mit allen Knoten der vorhergehenden Schicht verbunden 107

Grundlagen Netzwerk: Knoten (Neuronen) und (gerichtete) Kanten Kanten besitzen Gewichte Funktion eines neuronalen Netzes: Output-Vektor y Output-Schicht Output 1-dim: Wert von y ist vorhergesagte Klasse verborgene Schicht w ij Input-Schicht w ij Input-Vektor x Input-Vektor x 108

Arten von Neuronen allgemeines Neuron (auch: Perzeptron) Aktivierungswert n a w x i1 i i x 1 x 2... w 1 w 2 a y 1 1 e a x n w n Threshold Logic Unit (TLU) x 1 x 2 w 1... w 2 a y a y 1, wenn a 0, sonst x n w n 109

Neuronen Beispiel: Modellierung einer booleschen Funktion mit TLU (zwei oder mehr Variablen = 1 y=1, sonst 0) x 1 x 2 x 3 y 1 0 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 0 1 0 0 1 0 0 0 1 1 1 x 1 x 2 x n 0.3 0.3 0.3 a y θ=0.4 a y 1, wenn a 0, sonst 0 0 0 0 Lernen der Gewichte w i 110

Neuronen Klassifikation mit Hilfe einer TLU repräsentiert eine (Hyper-)Ebene links von der Ebene: Klasse 0 rechts von der Ebene: Klasse 1 n i1 w i x i x 2 1 1 1 1 1 0 1 0 1 1 1 0 0 0 0 0 0 Trainieren einer TLU x 1 Lernen der richtigen Gewichte zur Unterscheidung der zwei Klassen: iterative Anpassung der Gewichte w ij Rotation der durch w und gegebene Hyperebene um einen kleinen Betrag in Richtung v, wenn v noch nicht auf der richtigen Seite der Ebene liegt 111

XOR-Problem Nicht linear separierbares Problem mehrere innere Knoten (hidden layer) und ein Output-Knoten (zwei-klassen-problem, sonst mehr) Varianten: feed-forward (Bild rechts unten) vs. recurrent (auch Verbindungen auf derselben Ebene oder zu vorherigen Ebenen möglich) 112

Kombination mehrerer Neuronen Beispiel 1 0 A A A 1 y A A A B A A A A A B B B B B B A B A A A A 0 h 1 h 2 h 0 h 0: y 0 ( Klasse B) 1 2 andernfalls: y 1 ( Klasse A) 113

Lernalgorithmus für komplexe Neuronale Netze Bei Abweichung von vorhergesagter und tatsächlicher Klasse (Trainingsfehler): Anpassung der Gewichte mehrerer Knoten Frage: In welchem Maße sind die verschiedenen Knoten an dem Fehler beteiligt? Anpassung der Gewichte: durch Gradientenverfahren, das den Gesamtfehler minimiert Gesamtfehler: Summe der (quadratischen) Abweichungen des tatsächlichen Outputs y vom gewünschten Output t für die Menge der Inputvektoren (Least Squares Optimierung) Voraussetzung: Output y stetige Funktion der Aktivierung a 114

Algorithmus Backpropagation für jedes Paar(v,t) // v = Input,t = gewünschter Output forward pass : Bestimme den tatsächlichen Output y für Eingabe v; backpropagation : Bestimme den Fehler (t - y) der Output-Einheiten und passe die Gewichte der Output-Einheiten in die Richtung an, die den Fehler minimiert; Solange der Input-Layer nicht erreicht ist: Propagiere den Fehler auf die nächste Schicht und passe auch dort die Gewichte der Einheiten in fehlerminimierender Weise an; 115

Design der Netztopologie Bestimmung von Anzahl der Input-Knoten Anzahl der inneren Schichten und jeweilige Anzahl der Knoten Anzahl der Output-Knoten Starker Einfluss auf die Klassifikationsgüte: zu wenige Knoten niedrige Klassifikationsgüte zu viele Knoten Overfitting 116

Design der Netztopologie In diesem Zusammenhang ein bisschen BB: Deep Learning: neuronalen Netze, mit mehr als einem Hidden Layer Nutzen mehrerer Neuronen-Schichten: zwischen den Schichten können "neue" Informationen gebildet werden, die eine neue Repräsentation (Abwandlung bzw. Abstaktion) der ursprünglichen Informationen darstellen Dieser Abstraktions-Mechanismus heißt auch Representation Learning Durch diese Abstraktion können Deep Learning Modelle in der Regel sehr gut auf neue Datenpunkte abstrahieren Graphik aus: Stephan Heinz: Deep Learning Teil 1: Einführung Siehe: https://www.statworx.com/de/blog/deep-learning-teil-1-einfuehrung/ 117

Design der Netztopologie Beiepiel: Topologie von GoogleNet zur Bildklassifikation (nach: Stephan Heinz: Deep Learning Teil 1: Einführung https://www.statworx.com/de/blog/deep-learning-teil-1-einfuehrung/) 118

Bestimmung der Netztopologie (nach [SPSS Clementine 2000]) Statische Topologie Topologie wird a priori festgelegt eine verborgene Schicht reicht in vielen Anwendungen aus Dynamische Topologie dynamisches Hinzufügen von Neuronen (und verborgenen Schichten) solange Klassifikationsgüte signifikant verbessert wird Multiple Topologien Trainieren mehrerer dynamischer Netze parallel z.b. je ein Netz mit 1, 2 und 3 verborgenen Schichten Pruning Trainieren eines Netzes mit statischer Topologie nachträgliches Entfernen der unwichtigsten Neuronen solange Klassifikationsgüte verbessert wird Klassifikationsgüte Effizienz des Trainings 119

Diskussion: Neuronale Netze Vorteile: im Allgemeinen sehr hohe Klassifikationsgüte beliebig komplexe Entscheidungsflächen (möglichst einfache Topologie auswählen, um Overfitting zu vermeiden) redundante Features relativ problemlos, Gewichte werden klein Effizienz der Anwendung Nachteile: schlechte Verständlichkeit (lernt nur Gewichte, aber keine Klassenbeschreibung) Ineffizienz des Lernens (sehr lange Trainingszeiten) keine Integration von Hintergrundwissen empfindlich gegen Fehler in den Trainingsdaten mögliche Konvergenz in lokales Minimum 120