Klassifikation. Franz Pernkopf

Transkript

1 Klassifikation Franz Pernkopf Institute of Communications and Wave Propagation University of Technology Graz Inffeldgasse 16c, 8010 Graz, Austria Tel:

2 Ziel: Allgemeine Grundlagen zur Klassifikation AUTOMATISCHE Mustererkennung Entwicklung von Maschinen, die neue Objekte anhand ihrer Merkmale zu bekannten Klassen zuordnen können Attribute können qualitiativ oder quantitativ, kontinuierlich, diskret oder Bool sche Variable sein Merkmalsvektor: Statistisch Mustererkennung: Merkmale bestimmen, auftragen im Merkmalsraum, statistische Methoden zur Bestimmung von Trennflächen Beispiel: Klassifikation von Fehlern auf Lagerbolzen (5 Klassen)

3 Beispiel Beispiel: 5 Klassen von Fehlern Class 1: Material flaw (a) Class 2: Grinding flaw (b) Class 3: Scratch (c) Class 4: Chafe mark (d) Class 5: Spot (e) Gesamtsystem: Sensoren: Camera Vorverarbeitung (Filter) Segmentierung Merkmalsextraktor Entscheidungsmodul (Klassifikator) Ausgabemodul

4 Beispiel Extrahierte Merkmale

5 Merkmalsraum Objekte gleicher Klasse sollen im Merkmalsraum Cluster bilden. Probleme in der Übergangszone: RÜCKWEISUNGSKLASSE Oder: weitere Messungen einführen (z. B. Farbe) Jedes Objekt entspricht einem Punkt im Merkmalsraum > 3 Meßgrößen: Visualisierung nicht mehr möglich Dimension im Merkmalsraum: Raum, der von den einzelnen Meßwerten aufgespannt wird - hochdimensional (z. B. Lagerbolzen - 52 Dimensionen im Musterraum) Durch Kombination und Auswahl der Meßwerte: Reduktion der Dimension MERKMALSSELEKTION Meßwerte und Features werden so gewählt, dass zwischen den Klassen unterschieden werden kann. Distanz zu jedem Objekt derselben Klasse < Distanz zum nächsten Nachbarn jeder anderen Klasse Cluster sind leider selten kompakt

6 Merkmalsraum

7 Merkmalsraum

8 Klassen sind bekannt Überwachte Klassifikation Klassifikator wird durch LERNEN auf diese Klassen eingestellt Trainingsdaten sind Datenvektoren mit bekannter Klasseninformation sollen Struktur und Eigenschaften der gesamten Daten möglichst gut beschreiben Vorgangsweise: Trainingsdatensatz erstellen Trainingsdatensatz analysieren Klassifikator auswählen Klassifikator trainieren Genauigkeitsabschätzung Klassifikator ist einsatzbereit

9 Überwachte Statistische Klassifikation Notation: Merkmalvektoren Klassen Anzahl der Klassen Klassifikationsprozeß Entscheidungsfunktionen wobei bezüglich entscheidet Entscheidungsfunktion: maximale Aktivierung minimale Aktivierung

10 Bayes Klassifikator Minimierung der Fehlklassifikationen Entscheidungsfunktion Klassifikator liefert immer optimale Entscheidung ABER: nicht bekannt Satz von Bayes: damit ergibt sich die Entscheidungsfunktion Bayes Klassifikator wird anwendbar, wenn durch Modell geschätzt wird

11 Bayes Klassifikator

12 Maximum Likelihood Annahme: Wahrscheinlichkeitsdichte jeder Klasse ist eine multivariate Normalverteilung Abschätzung der bedingten Wahrscheinlichkeit für jede Klasse Abschätztung der a-priori Klassenwahrscheinlichkeit

13 Maximum Likelihood Entscheidungsfunktion (log-likelihood):

14 Schätzung der Verteilungsparameter (MLE) Gegeben: Die parametrische Struktur der Verteilungsdichten eine etikettierte Lernstichprobe Gesucht: Parameter und der Verteilungsdichten aus den Lerndaten: Form der Kovarianz-Matrix:

15 Iso-likelihood lines for the Gaussian pdf

16 Parametric Classifier Discriminant function: Case 1 (Minimum distance classifier) Assumption: Kovarianzmatrix aller Klassen sind gleich. Die Komponenten sind voneinander unabhängig und haben gleiche Varianz Discriminant function: weitere Vereinfachung: Verzicht auf a priori Wahrscheinlichkeit

17 Parametric Classifier Case 2 (Mahalanobis distance classifier) Assumption: Kovarianzmatrix aller Klassen ist gleich Discriminant function:

18 Parametric Classifier Case 3 (Covariance matrices are arbitrary)

19 Nichtparametrische Klassifikation Probleme beim Bayes Ansatz: Entscheidungsregeln nicht immer einfach Komplizierte Berechnung für nicht normalverteilte Parametrisierung Aufgrund der Minimierung der Fehlklassifikationen: Klassen mit geringer a priori Wahrscheinlichkeit haben wenig Einfluß aufs Design A priori Wahrscheinlichkeit ist schwer abzuschätzen Nearest Neighbor Klassifikator Ein Prototyp pro Klasse speichern, Distanz zu allen Prototypen bestimmen: Minimum Distanz Klassifikator Viele Prototypen pro Klasse speichern - Chancen für richtige Klasse steigen 1-NN Verbesserung entlang der Klassengrenzen: k nächste Nachbarn bestimmen und Mehrheit auswählen k-nn Klassifikator

20 k-nn Klassifikator Trainingsphase schnell - auswählen und speichern der Prototypen Klassifikation sehr rechenaufwendig - Vergleich mit allen Prototypen

21 k-nn Klassifikator mit Rückweisungsklasse 2-stufiger Schwellwert: (k,l) Methode: Mindestens l von k Nachbarn müssen dieselbe Entscheidung liefern, ansonsten wird das Objekt zurückgewiesen. ideal: Unendliche # von Prototypen aber: benötigt zuviel Speicherplatz und Rechenzeit Abhilfe: innere Prototypen sind redundant nur Prototypen entlang der Grenzen speichern

22 Vergleich der Klassifikatoren

26 Warum? Methoden: aus den Lerndaten Holdout/Cross-Validation Leave one Out Genauigkeitsabschätzung n-fold Cross-Validation Genauigkeitsabschätzung aus den Lerndaten Fehlklassifikationstabelle: (optimistische Schätzung) Qualitätsbeurteilung Klassifikatorauswahl

27 Holdout/Cross-Validation Genauigkeitsabschätzung Aufteilung der Referenzdaten in Lerndatenset und Validationsdatenset (zufällige Auswahl!) Fehlerschätzung am Validationsdatenset Nachteil: nicht alle Referenzdaten werden zum Training verwendet liefert pessimistische Schätzung Leave-one-out p Referenzdaten aufspalten in p 1 Lerndaten und 1 Validationsdatum Klassifikatordesign für alle p Partitionen (p mal Lernen!) Fehlerschätzung durch Mittelwert über alle Validationsdaten wird vor allem bei kleinen Referenzdatensätzen verwendet

28 n-fold Cross-Validation Genauigkeitsabschätzung Aufteilung der Referenzdaten in n Teile, n 1 Teile als Lerndaten und 1 Teil als Validationsdaten Klassifikatordesign für alle n Partitionen (n-mal Lernen!) Qualitätsbeurteilung durch Mittelung über alle Validationsergebnisse Tatsächliches Design meist unter Verwendung aller Referenzdaten

29 Genauigkeitsabschätzung: n-fold Cross-Validation Evaluating the performance of a classifier: n-fold cross validation Partition the data set in n segments Do n times Train the classifier with the green segments Test accuracy on the red segments Compute statistics on the n runs Mean squared error Variance D 1 D 2 D 3 D n Run 1 Run 2 Run 3 Run n Data set

30 Unüberwachtes Lernen (Klassifikation) Unüberwachtes Lernen ist der Versuch, Strukturen in einer Menge von Beobachtungen ohne gegeben Klassenzuordnung (Unlabeled Samples) zu finden. Anwendungsgebiete: Datenreduktion durch Vektorquantisierung Klassenmodellierung mit Mischverteilungen (Mixtures of Gaussians) Wieviele Klassen kommen in den Daten vor? Wo liegen die Cluster?

31 Unüberwachtes Lernen: Vektorquantisierung

32 Unüberwachtes Lernen: Vektorquantisierung K

33 Unüberwachtes Lernen: Vektorquantisierung Bedingungen für das Kodebuch und die Zellenstruktur des minimal verzerrenden Quantisierers:

34 Unüberwachtes Lernen: Clustering Vorgangsweise: 1) Startwerte für Klassenzentren wählen (Anzahl der Cluster definieren), 2) Zuweisen eines Objektes zum nächsten Klassenzentrum (z.b.: Euklidischer Abstand), 3) Aufgrund der zugewiesenen Punkt Klassenzentren neu berechnen, 4) Zurück zu 2) solange bis Klassenzentren konstant bleiben. Algorithmen: k-means Clustering (Kriterium: Least Squared Distance) Expectation-Maximization (EM) Algorithmus (Kriterium: Maximum Likelihood)

35 Unüberwachtes Lernen: Clustering

36 Unüberwachtes Lernen: Clustering/EM

39 Gaussian Mixture Models Zur Modellierung von nicht uni-modalen Verteilungen Gaussian Mixture = Summe mehrerer Gauss-Verteilungen

40 Gaussian Mixture Models i i

41 Feature Selection Reduction of the number of features to a set of a few significant ones which optimize the classification performance. Basic steps of a genetic algorithm for automatic selection of the best features: 1. A generation procedure to generate the next subset of features X. 2. An evaluation criterion J to evaluate the quality of X. 3. A stopping criterion for concluding the search. In can either be based on the generation procedure or on the evaluation function. 4. A validation procedure for verifying the validity of the selected subset

42 Feature Selection: Merkmalraumtransformation Reduktion der Vektordimension Geringerer Klassifikationsaufwand Robustere Schätzung statistischer Parameter Gütekriterien für die Transformation: Varianzmaximierung Hauptkomponentenanalyse (PCA, Karhunen-Loève Transform) Klassenseparation Lineare Diskriminanzanalyse (LDA)

43 Feature Selection: Normierung der Merkmale Kompensieren unterschiedlicher Bereiche von Merkmalen. Um im Merkmalsraum Distanzmaße zum Klassifizieren verwenden zu können Musterraum Mittelwert für jede Spalte Standardabweichung für jede Spalte

44 Feature Selection: Normierung der Merkmale Mean absolute deviation (Einfluss von Outliern wird unterdrückt) Normierung:

45 Feature Selection: Hauptkomponentenanalyse 2 Dimensionen: 54 Dimensionen: Transformierte Daten Eigenwerte

46 Feature Selection: Linear Discriminant Analysis (LDA) LDA finds a linear projection on to the subspace spanned by the m largest eigenvectors of S w -1 S b 2 Class A 1 Class B 1 2 f 1 x 2 f 2 PCA x 1 Optimal for m+1 linear separable classes c

47 Feature Selection: Limitations of LDA Suboptimal for more than m+1 classes (m is the number of extracted features) Classes should be linear separable optimal decision boundary suboptimal decision boundary optimal decision boundaries Class A Class A f 1 f optimal suboptimal decision boundary f optimal Class B Class B Class C f

48 Referenzen R.O. Duda and P.E. Hart, Pattern Classification and Scene Analysis. Wiley&Sons, Inc., R. Bolter, Bildverarbeitung und Mustererkennung, Vorlesung ICG Graz, S. Bengio, An Introduction to Statistical Machine Learning EM for GMMs, Dalle Molle Institute for Perceptual Artificial Intelligence. E.G. Schukat-Talamazzini, Automatische Spracherkennung, Vieweg-Verlag, F. Pernkopf, Automatic Visual Inspection of Metallic Surfaces, PhD Thesis, Leoben C.R. Houck, J.A. Joines, G.M. Kay, A Genetic Algorithm for Function Optimization: A Matlab Implementation, North Carolina State University. M. Obikito, Introduction to Genetic Algorithms, Hochschule für Technik und Wirtschaft Dresden,