Erkennung eines geprägten Zifferncodes mittels maschinellen Lernens

Transkript

1 Montanuniversität Leoben Department für Mathematik und Infomationstechnologie Lehrstuhl für Informationstechnologie Erkennung eines geprägten Zifferncodes mittels maschinellen Lernens Bakkalaureatsarbeit von Andreas Salmutter Juni 2011 Betreuer: Univ.-Prof. Dipl.-Ing. Dr.techn. Peter Auer

2 Andreas Salmutter Winkelfeldstraße Leoben Hiermit versichere ich, dass ich die von mir vorgelegte Arbeit selbstständig verfasst habe, dass ich die verwendeten Quellen, Internet-Quellen und Hilfsmittel vollständig angegeben habe und dass ich die Stellen der Arbeit, die anderen Werken oder dem Internet im Wortlaut oder dem Sinn nach entnommen sind, einschließlich Tabellen, Karten und Abbildungen unter Angabe der Quelle als Entlehnung kenntlich gemacht habe. 1 Leoben, den 1. Juni 2011 (Unterschrift) Andreas Salmutter 1 Der vorliegende Text ist auf Basis des Latex-Templates zu [7] erstellt.

3 Kurzfassung Identifikationssysteme sind aus Produktionsbetrieben nicht mehr wegzudenken. Technologien wie Barcode und RFID haben sich über Jahre hinweg in zahlreichen Anwendungen etabliert. Doch nicht überall sind diese Systeme einsetzbar. In rauen Umgebungen, wie beispielsweise der Stahlindustrie, müssen andere Systeme eingesetzt werden. Eines davon ist die Identifikation von Produkten mittels geprägten Zifferncodes. Hierbei werden die Stahlerzeugnisse mittels Schlagstempel gekennzeichnet. Die geprägten Zifferncodes werden später manuell gelesen. In dieser Arbeit wird gezeigt, wie sich die Erkennung der Zifferncodes automatisieren lässt. Der Schwerpunkt liegt dabei auf der Klassifikation von Abbildungen mittels Support Vektor Maschinen. Zunächst wird die mathematische Umsetzung hergeleitet und anhand eines Beispiels demonstriert. Anschließend werden einige Such-, Validierungsund Bewertungsverfahren erklärt, die für das Training der Support Vektor Maschine benötigt werden. Weiters befasst sich die Arbeit mit der Anwendbarkeit von Spektren für die Klassifikation von Abbildungen. Hierfür werden Support Vektor Maschinen auf Spektren und herkömmlichen Abbildungen trainiert. Dabei werden lineare, polynomische und RBF Kerne eingesetzt. Die erzielten Klassifikationsleistungen werden im Anschluss verglichen und diskutiert. 3

4 Abstract Identification systems are used in many different industries. Systems like barcode or RFID are proven technologies and are suited for many fields of application. In steel production plants, where the working environment is harsh, other systems should be used. One of those systems is to mark the products with embossed numerals. The great advantage of this identification system is the robustness and human-readability. Unfortunately, embossed numerals are difficult to read automatically. This paper explores a way for automated recognition of embossed digits. The focus of this work is on image classification using support vector machines. First, the derivation of the mathematical formulation is shown and demonstrated by an example. Then search, validation, and evaluation techniques are discussed that are neccesary for training support vector machines. Furthermore, the application of spectra for image classification is discussed in this paper. Therefore, support vector machines with linear, polynomial and RBF kernels are trained on spectra and conventional pixel images. Finally, the obtained classification results are discussed and compared with each other. 4

5 Inhaltsverzeichnis Abbildungsverzeichnis 7 Tabellenverzeichnis 8 1 Einleitung Aufgabenstellung Lösungsansatz Mathematische Umsetzung Lineare Support Vektor Maschine Separierbare Daten Beispiel Nicht separierbare Daten Nicht lineare Support Vektor Maschine Kernfunktionen Beispiele für Kernfunktionen Parametersuche Suchverfahren Validierung Validierung der Hypothesengenauigkeit Beurteilung der Klassifikationsleistung Mustererkennung mittels SVM Segmentierung Skalierung Nearest-Neighbor-Interpolation Bilineare Interpolation Spektren Gram-Polynom-Transformation Constraint-Polynom-Transformation Haar-Transformation Cosinus-Transformation Fourier-Transformation Vektorisierung der Abbildungen Multi-Label-Klassifikation

6 4.5.1 One-versus-one (OVO) One-versus-all (OVA) Praktische Umsetzung Setup Formatierung der Daten Training der Support Vektor Maschine Darstellung der Ergebnisse Ergebnisse Ergebnisse linearer Kern Ergebnisse RBF Kern Ergebnisse polynomischer Kern Gesamtergebnis Interpretation und Ausblick Literaturverzeichnis 67 6

7 Abbildungsverzeichnis 1 Aufbereitete 3D-Daten der Oberfläche Lineare Trennung bei separierbaren Daten Darstellung des Margins Trainingsobjekte für analytische Berechnung der Hyperebene Berechnete trennende Hyperebene Nicht separierbare Trainingsobjekte Trennende Hyperebene bei nicht separierbaren Trainingsbeispielen Transformation der Trainingsdaten in einen Featurespace Daten zur Visualisierung unterschiedlicher Kernels Polynomischer Kernel mit Grad RBF Kernel γ = RBF Kernel γ = Generalisierungsfehler [vgl. 12] Unteranpassung, Anpassung und Überanpassung F-Maß in Abhängigkeit von C und γ Segmentierung Bilineare Interpolation [vgl. 14] Transformation einer Abbildung in ein Spektrum (Quelle: C. Gugg, 2010) Gram-Polynom transformierte Abbildung, rekonstruiert mit Grad (Quelle: C. Gugg, 2010) Constraint-Polynom transformierte Abbildung, rekonstruiert mit Grad (Quelle: C. Gugg, 2010) Haar transformierte Abbildung, rekonstruiert mit Grad (Quelle: C. Gugg, 2010) Cosinus-Polynom transformierte Abbildung, rekonstruiert mit Grad (Quelle: C. Gugg, 2010) Fourier transformierte Abbildung, rekonstruiert mit Grad (Quelle: C. Gugg, 2010) Binärer Baum Schema der Mustererkennung

8 Tabellenverzeichnis 1 Wahrheitsmatrix eines binären Klassifikators Verteilung der Ziffern Datenbank Ergebnis der SQL-Query Testergebnisse linearer Kern Testergebnisse RBF Kern Testergebnisse polynomischer Kern Konfusionsmatrix Voting

9 1 Einleitung Diese Arbeit befasst sich mit der automatischen Erkennung eines in Stahl geprägten Zifferncodes. Durch die eingesetzten Bearbeitungsverfahren weist die Stahloberfläche grobe Unebenheiten auf. Hierdurch enthält eine Abbildung des Zifferncodes einerseits Informationen (Prägung) und andererseits Rauschen (Unebenheiten). Das Rauschen in der Abbildung könnte eine automatische Erkennung erschweren. Durch eine Transformation der Abbildung in ein Spektrum kann das Verhältnis zwischen Information und Rauschen verbessert werden. Durch empirische Versuche soll festgestellt werden, ob sich Spektren zur Klassifikation mittels Support Vektor Maschinen eignen. 1.1 Aufgabenstellung Stahlhalbzeuge werden bei der Fertigung mit einem Identifikationscode versehen. Bei dem Code handelt es sich um einen neun-stelligen Zifferncode, der mittels Schlagstempel in die Schnittfläche geprägt wird. Zur Identifikation des Stahlhalbzeugs soll der Zifferncode automatisch erfasst werden. Aus den erfassten Daten soll mit Hilfe einer Support Vektor Maschine der enthaltene Zifferncode ermittelt werden. Hierfür wird die Oberfläche des geprägten Zifferncodes mittels Laserschnittverfahren gescannt. Es entsteht ein dreidimensionales Modell der Oberfläche. Grobe Unebenheiten können nun aus dem Modell entfernt werden [vgl. 1]. In Abbildung 1 ist eine Darstellung der aufbereiteten Oberfläche eines Zifferncodes zu sehen. Abbildung 1: Aufbereitete 3D-Daten der Oberfläche 9

10 1.2 Lösungsansatz In Abbildung 1 ist die Darstellung eines Zifferncodes zu sehen. Um die dargestellten Ziffern maschinell zu lesen, wird die Abbildung zunächst segmentiert. Das bedeutet, dass aus der Abbildung eines neun-stelligen Zifferncodes, Einzelbilder der neun Ziffern erzeugt werden. Ziel hierbei ist es, die einzelnen Ziffern möglichst genau aus dem Zifferncode zu schneiden. Das eingesetzte Segementierungsverfahren ist nachzulesen in der Arbeit von C. Gugg [2]. In Abbildung 1 zeigt sich, dass trotz der Aufbereitung einige Unebenheiten in der Abbildung verbleiben. Auch ist die Prägungstiefe der Ziffern durch die Schlagstempel nicht immer gleich. Diese beiden Faktoren könnten eine automatische Erkennung beeinflussen. Um dem entgegen zu wirken, wurden aus den Abbildungen der Zifferncodes einige Spektren berechnet. Dies hat das Ziel, die Informationsdichte in den Daten zu erhöhen und die Klassifikation zu erleichtern. Die genaue Vorgehensweise hierfür ist nachzulesen in der Arbeit von C. Gugg [2]. Die vorliegende Arbeit untersucht, wie gut sich Spektren für die Erkennung eines geprägten Zifferncodes eignen. Hierfür werden Support Vektor Maschinen mit den unterschiedlichen Spektren trainiert und die Klassifikationsleistung ermittelt. In den nachfolgenden Kapiteln wird zunächst die Funktionsweise einer Support Vektor Maschine erklärt. Es wird gezeigt, wie eine lineare Support Vektor Maschine berechnet wird. Zum besseren Verständnis wird das mathematische Verfahren anhand eines Beispiels demonstriert. Aufbauend darauf werden nicht lineare Support Vektor Maschinen erklärt. Des weiteren wird die Parametrierung von Support Vektor Maschinen erläutert. Hierbei wird auf Themen wie Overfitting, Suchverfahren für Parameter sowie Validierungsverfahren eingegangen. Im Anschluss daran wird gezeigt, wie die Erkennung eines geprägten Zifferncodes mittels Support Vektor Maschinen realisiert werden kann. Abschließend werden die Ergebnisse der einzelnen Spektren dargestellt und diskutiert. 10

11 2 Mathematische Umsetzung Eine Support Vektor Maschine wird mit Hilfe von Trainingsbeispielen trainiert. Ein Trainingsbeispiel besteht aus einem Datenvektor x i R D und einem Label y i { 1, +1}. Ziel ist es, die Trainingsbeispiele nach ihren Klassen zu trennen. Dies geschieht mit einer Trennebene wenn die Datenvektoren der Trainingsbeispiele dreidimensional sind (x i R 3 ). Allgemeiner werden Trainingsbeispiele mit Datenvektoren x i R D von einer trennenden Hyperebene separiert. Die trennende Hyperebene wird so gelegt, dass sich alle Trainingsbeispiele mit dem Label y i = +1 auf der einen Seite der Hyperebene und alle Trainingsbeispiele mit dem Label y i = 1 auf der anderen Seite der Hyperebene befinden. Die Aufgabe der Support Vektor Maschine ist es die optimale trennende Hyperebene zu berechnen. Anschließend können Testbeispiele, deren Klasse unbekannt ist, klassifiziert werden. Nachfolgend wird das mathematische Verfahren zur Berechnung der trennende Hyperebene sowie zur Klassifikation von Testbeispielen erläutert. Zunächst wird vom einfachsten Fall ausgegangen, eine lineare Trennung bei separierbaren Daten, und der Lösungsweg gezeigt. Aufbauend auf den Ergebnissen wird das Verfahren auf nicht separierbare Daten erweitert. Anschließend wird auf nicht lineare Trennung mittels Kernfunktionen eingangen. 2.1 Lineare Support Vektor Maschine Eine lineare Support Vektor Maschine trennt die Trainingsbeispiele durch eine lineare Funktione. In R 2 ergibt sich somit eine Linie. Allgemein formuliert werden die Trainingsbeispiele durch eine trennde Hyperebene in R D getrennt Separierbare Daten Abbildung 2 zeigt positive und negative Trainingsbeispiele in R 2 die von einer trennenden Hyperebene separiert werden. Die Trainingsbeispiele die am nächsten zur trennenden Hyperebene liegen, werden Support Vektoren genannt. Die trennende Hyperebene wird so gelegt, dass der Abstand zu den Support Vektoren maximal ist. 11

12 Abbildung 2: Lineare Trennung bei separierbaren Daten Trennende Hyperebene Die trennende Hyperebene separiert die Trainingsbeispiele in die beiden Klassen { 1,+1}. Dargestellt wird sie durch den Normalvektor w auf die Hyperebene und den Abstand b vom Ursprung. Entscheidungsfunktion Mit der Entscheidungsfunktion f(x) kann von einem Datenvektor x i die zugehörige Klasse y i gefunden werden. Die Entscheidungsfunktion ist gegeben durch: f(x) = w x+b (1) Wird das Vorzeichen der Entscheidungsfunktion ausgewertet, so liefert das die zugehörige Klasse y i des Datenvektors x i. Für das Training gilt: +1, wenn w x i +b 1 y i = (2) 1, wenn w x i +b 1 12

13 Für die Klassifikation eines Testbeispiels gilt: y i = sign(w x+b) (3) Der Normalabstand eines Datenvektors auf die Hyperebene kann aus der Entscheidungfunktion berechnet werden d = f(x) w (4) Support Vektoren Die Support Vektoren sind jene Datenvektoren der Traingsbeispiele, welche die trennende Hyperebene definieren. Das bedeutet, würde man alle Datenvektoren außer den Support Vektoren aus den Traingsbeispielen entfernen, würde sich die gleiche trennende Hyperebene ergeben. Für die Support Vektoren gilt: w x + +b = +1 w x +b = 1 (5) Hierbei bezeichnet die Variable x + einen Support Vektor mit der Klasse +1, die Variable x einen Support Vektor mit der Klasse 1. Margin Die trennende Hyperebene wird durch die Support Vektoren definiert. Die Hyperebene wird dabei so gelegt, dass der Normalabstand zu den Support Vektoren maximal ist. Der Normalabstand zwischen den Support Vektoren der Klasse +1 und den Support Vektoren der Klasse -1, wird als Margin bezeichnet. In Abbildung 3 ist der Margin durch die zwei Punkte x + und x definiert. Die Verbindungslinie zwischen den Punkte x + und x ist normal auf die Trennebene. 13

14 Abbildung 3: Darstellung des Margins Mit Hilfe des Normalabstandes zwischen dem Support Vektor der Klasse +1 und dem Support Vektor der Klasse -1 lässt sich der Margin wie folgt berechnen: M = x + x (6) Um vom Punkt x zum Punkt x + zu gelangen, muss man sich um λ in Richtung w bewegen. Somit lässt sich x + wie folgt ausdrücken: x + = x +λw (7) Wird (7) in die Entscheidungsfunktion der Support Vektoren (5) eingesetzt, so ergibt sich: w (x +λw)+b = 1 w x +b+λw w = 1 (8) Aus der Entscheidungsfunktion der Support Vektoren (5) gilt w x +b = 1. Wird 14

15 dies in das obige Ergebnis (8) eingesetzt ergibt sich: 1+λw w = 1 λ = 2 w w (9) Durch einsetzen der Gleichungen (7) in die Breite des Margin (6) folgt: M = (x +λw) x M = λw M = λ w (10) Durch Kombination der Ergebnisse aus (9) und (10) kann nun die Breite des Margin berechnet werden: M = λ w M = λ w w w w M = 2 w w M = 2 w w M = 2 w (11) Der Margin M muss bei der Berechnung der trennenden Hyperebene maximiert werden. Dies ist möglich durch Minimierung von w. Da dieser Ausdruck eine Quadratwurzel enthält ist er schwierig zu optimieren. Einfacher ist es den Ausdruck vor der Optimierung zu quatrieren. Aus Konventionen wird mit 1 multipliziert. Dieoptimale trennende 2 Hyperebene kann somit gefunden werden indem folgendes Minimierungsproblem gelöst wird: τ(w) = 1 2 w 2 (12) 15

16 Nebenbedingungen Wie in (12) gezeigt wurde, lässt sich die optimale Hyperebene durch ein Minimierungsproblem finden. Es sind jedoch noch Nebenbedingungen notwendig um die korrekte Lösung zu finden. Diese lassen sich aus der Entscheidungsfunktion der Support Vektoren formulieren. Aus (5) folgt: y i (w x i +b) 1 0 (13) Lagrange Daraus folgt das quatratische Optimierungsproblem: minimiere 1 2 w 2 unter den Nebenbedingungen y i (w x i + b) 1 0 für i = 1,..,l, wobei l die Anzahl der Trainingsbeispiele ist. Das quadratische Optimierungsproblem kann durch die Lagrange-Multiplikatorregel dargestellt werden. Dabei gilt für die Optimierung von f unter der Nebenbedingung g, dass: f(p) λ g(p) = 0. (14) Bei der Berechnung der trennenden Hyperebene treten jedoch mehrere Nebenbedingungen auf. Hierfür gilt: l f(p) λ k g k (p) = 0 (15) k=1 Üblicherweise werden die Lagrangemultiplikatoren mit α zu bezeichnen. Des weiteren bezeichnet hier L P die primale Form des Optimierungsproblems. Es folgt daher aus (15) L P (w,b,α) = f(w,b) l α i g i (w,b) (16) i=1 Wird nun in (16) die zu minimierende Funktion (12) und die Nebenbedingungen (13) eingesetzt, so ergibt sich: L P (w,b,α) = 1 2 w 2 l α i [y i (w x i +b) 1], α i 0. (17) i=1 16

17 Duales Problem Das Optimierungsproblem aus (17) lässt sich in die duale Form bringen. Hierzu werden die partiellen Ableitungen nach w und b gebildet. L(w,b,α) w l = w α k y k x k = 0 k=1 w = (18) l α k y k x k k=1 L(w,b,α) b l = α k y k = 0 k=1 l α k y k = 0 k=1 (19) Werden die Ergebnisse von w und b aus (18) und (19) in die primale Form des Optimierungsproblems (17) eingesetzt, so ergibt sich: L D (α) = 1 2 l l l l α i α j y i y j x i x j α i α j y i y j x i x j + i=1 j=1 L D (α) = i=1 j=1 l α i 1 2 i=1 l i=1 j=1 l i=1 α i (20) l α i α j y i y j x i x j Die optimale Lösung des Problems hängt jetzt nur noch von den Variablen α i ab. Ist α i > 0, so ist der entsprechende Traingsvektor x i ein Support Vektor. Um die Gleichheitsbedingung aus (19) einzuhalten wird (20) erweitert: L D (α,λ) = l α i 1 2 i=1 l l l α i α j y i y j x i x j λ α i y i (21) i=1 j=1 i=1 Mit der Gleichung (21) lässte sich der Normalvektor w auf die Hyperebene bestimmen. Um den Abstand der Hyperebene vom Ursprung (b) zu bestimmen, muss eine aktive Nebenbedingung (α i > 0) gefunden werden. Wird diese aktive Nebenbedingung in die Entscheidungsfunktion (13) eingesetzt, kann b wie folgt ermittelt werden: b = y i w x i (22) 17

18 Nummerisch ist es jedoch sinnvoller b für alle aktiven Nebenbedingungen mittels (22) zu berechnen und und den Mittelwert daraus zu bilden Beispiel Abbildung 4: Trainingsobjekte für analytische Berechnung der Hyperebene Anhand eines einfachen Beispiels mit nur drei Trainingsbeispielen soll die analytische Berechnung der Hyperebene demonstriert werden. Abbildung 4 zeigt Trainingsbeispiele, die durch eine trennende Hyperebene, in diesem Fall einer Linie, in die beiden Klassen separiert werden sollen. Die Trainingsbeispiele mit ihren zugehörigen Klassen lauten also wie folgt: x 1 = (2,3),y 1 = +1 x 2 = (1,1),y 2 = 1 (23) x 3 = (3,1),y 3 = 1 Zunächst wird die Kernmatrix K berechnet. Für die lineare Support Vektor Maschine ist K ij = x i x j. Für die Trainsingsbeispiele aus (23) ergibt sich somit folgende 18

19 Kernmatrix K = (24) Im nächsten Schritt werden die Elemente der Kernmatrix K ij mit den zugehörigen Klassen y i,y j multipliziert. Wir erhalten die Matrix K. Es gilt K ij = K ijy i y j. K = (25) Aus der Gleichung (21) folgt für unser Beispiel mit drei Trainingsbeispielen: L D (α,λ) = 3 α i 1 2 i=1 3 3 l α i α j Kij λ α i y i i=1 j=1 i=1 L D (α,λ) = α 1 +α 2 +α (13α2 1 10α 1 α 2 18α 1 α 3 +2α α 2 α 3 +10α 2 3) (26) λα 1 +λα 2 +λα 3 Gesucht sind nun die Werte für die Lagrangemultiplikatoren α 1, α 2, α 3 und λ durch Nullsetzen der partiellen Ableitungen: L D (α i,λ) α 1 = (26α 1 10α 2 18α 3 ) λ = 0 L D (α i,λ) α 2 = ( 10α 1 +4α 2 +8α 3 )+λ = 0 L D (α i,λ) α 3 = ( 18α 1 +8α 2 +20α 3 )+λ = 0 L D (α i,λ) λ = α 1 +α 2 +α 3 = 0 (27) Somit ergibt sich ein Gleichungssystem mit vier Gleichungen und vier Unbekannten. 19

20 Durch Lösen des Gleichungssystems ergeben sich folgende Werte: α 1 = 1 2 α 2 = 1 4 (28) α 3 = 1 4 λ = 2 Durch Einsetzen in (18) kann der Normalvektor w berechnet werden. w = 3 α i y i x i i=1 w = α 1 y 1 x 1 +α 2 y 2 x 2 +α 3 y 3 x 3 ( ) ( ) ( ) w = ( ) 0 w = 1 (29) Der Abstand der trennenden Hyperebene zum Ursprung (b) kann aus (22) ermittelt werden. Hierfür muss ein Trainingsbeispiel gewählt werden, bei dem das zugehörige α i > 0. b = y 1 w x 1 ( ) ( ) 0 2 b = b = 2 (30) Mit den Parametern w und b kann nun die trennende Hyperebene konstruiert werden. In Abbildung 5 ist die berechnete trennende Hyperebene eingetragen. 20

21 Abbildung 5: Berechnete trennende Hyperebene Nun soll ein Testbeispiel mit x t = (3,5) klassifiziert werden. Hierzu wird in die Entscheidungsfunktion (3) eingsetzt: y t = sign(w x t +b) ( ) ( ) 0 3 y t = sign( 2) 1 5 y t = +1 (31) Die Klassifikiation des Testbeispiel x t hat die zugehörige Klasse y t = +1 geliefert. 21

22 2.1.3 Nicht separierbare Daten Abbildung 6: Nicht separierbare Trainingsobjekte Die Berechnung der trennenden Hyperebene wie sie im vorigen Abschnitt gezeigt wurde, funktioniert nur, wenn sich die Daten durch eine lineare Funktion trennen lassen. Liegen jedoch Trainingsbeispiele wie in Abbildung 6 vor, so würde die Methode aus dem vorigen Abschnitt keine Lösung finden. Um dennoch eine trennende Hyperebene zu berechnen, müssen Fehlklassifikationen zugelassen werden. Hierfür werden zusätzliche positive Schlupfvariablen ξ i eingeführt. Dadurch kann die Hyperebene berechnet werden, wenn die Trainingsobjekte nicht linear separierbar sind. Die Entscheidungsfunktion lautet dann wie folgt: +1, wenn w x i +b +1 ξ i y i = (32) 1, wenn w x i +b 1+ξ i Daraus folgt: y i (w x+b) +1 ξ i y i (w x+b) 1+ξ i 0 (33) 22

23 Und für die Support Vektoren gilt somit: y i (w x+b) 1+ξ i = 0 (34) Wenn ein Trainingsbeispiel fehlerhaft klassifiziert wird, muss die zugehörige Schlupfvariable ξ i 1 sein. Somit ist ξ i eine obere Grenze für Fehler. Um die Kosten l von i=i Fehlern zu steuern wird der Parameter C eingeführt. Dieser wird beim Training der Support Vektor Maschine festgelegt. Je größer C ist um so mehr werden Fehler bestraft. Das Minimierungsproblem lässt sich daraus wie folgt festlegen: τ(w,ξ) = 1 2 w 2 +C l ξ i (35) i=1 Daraus ergibt sich für die primale Form des Optimierungsproblems: L P (w,b,α,µ) = 1 2 w 2 l α i [y i (w x i +b) 1+ξ i ]+C i=1 l ξ i i=1 l µ i ξ i (36) i=1 unter den Nebenbedingungen: α i 0 ξ i 0 µ i 0 (37) Die Lagrangemultiplikatoren µ i stellen sicher, dass alle ξ i positiv sind. In Abbildung 7 ist die berechnete lineare trennende Hyperebene bei nicht separierbaren Trainingsbeispielen zu sehen. 23

24 Abbildung 7: Trennende Hyperebene bei nicht separierbaren Trainingsbeispielen 2.2 Nicht lineare Support Vektor Maschine Mit dem vorhin beschriebenen Verfahren ist es möglich Trainingsbeispiele durch eine lineare Funktion zu trennen und Testbeispiele zu klassifizieren. Ist das zu Grunde liegenden Klassifikationsproblem jedoch nicht linear, so liefert das vorige Verfahren unter Umständen keine gute Lösung. Es ist jedoch möglich, die lineare Support Vektor Maschine so zu generalisiern, dass sich damit nicht lineare Daten tranineren und klassifizieren lassen. Hierfür werden die Trainingsdaten durch eine nicht lineare Abbildung φ in einen höher dimensionelen Raum, dem sogenannten Featurespace transformiert. Hierdurch erhöht sich die Anzahl der möglichen linearen Trennungen (Satz von Cover) und somit auch die Chance die Daten mit einer linaren Funktion zu separieren. Abbildung 8 zeigt Trainingsdaten in einem zweidimensionalen Eingangsraum. Die Trennung der Daten ist durch eine lineare Funktion nicht möglich. Durch Abbildung der Daten in einen dreidimensionalen Featurespace mittels der Funktion φ lassen sich die Daten mit einer Ebene trennen. Die Funktion φ ist definiert durch: φ : R N R M (38) 24

25 Abbildung 8: Transformation der Trainingsdaten in einen Featurespace WobeidieDimensionvonR M größeralsdiedimensionvonr N ist.diesetransformation kann nun in das Optimierungsproblem (21) übernommen werden L D (α) = l α i 1 2 i=1 l l α i α j y i y j [φ(x i ) φ(x j )] (39) i=1 j=1 Die Entscheidungsfunktion (1) kann unter Zuhilfenahme von (18) wie folgt dargestellt werden: f(x) = f(x) = f(x) = w x+b l w = α k y k s k k=1 l α k y k s k x+b k=1 l α k y k [φ(s k ) φ(x)]+b k=1 (40) 25

26 wobei s k die Support Vektoren repräsentieren. Bei reellen Problemen können die Trainingsdaten bereits hohe Dimensionen haben. Durch die Transformation φ der Daten in den Feauturespace können sich somit sehr hohe(bis unendlich viele) Dimensionen ergeben. Hierdurch wird die Lösung des quadratischen Optimierungsproblems zur Bestimmung der Hyperebene sehr komplex. Abhilfe schafft hier die Verwendung von Kernen wie im nächsten Abschnitt beschrieben Kernfunktionen Wie bereits in den vorigen Kapiteln beschrieben, können Daten mit einer linearen Funktion relativ einfach separiert werden. Dieses Verfahren ist jedoch wenig flexibel wenn das zugrunde liegende Problem nicht linearer Natur ist. Weiters wurde gezeigt, dass durch eine Transformation der Daten in einen höherdimensionalen Raum eine Separation einfacher sein kann. Jedoch ist dies mit höherem algorithmischen Aufwand verbunden. Unter Umständen werden die Daten in einen Featurespace mit sehr hoher Dimension transformiert. Ein Berechnung der trennenden Hyperebene kann dann(fast) unmöglich werden. Wird also eine linearer Ansatz gewählt, so ist der algorithmische Aufwand vergleichsweise gering. Andererseits lassen sich damit nur lineare Probleme lösen, was den Ansatz wenig flexibel macht. Wird hingegen ein nicht linearer Ansatz gewählt, so lässt sich der Algorithmus gut an das zugrunde liegende Problem anpassen. Die Lösung des Problems kann hingegen sehr komplex sein. Durch die Verwendung von Kernen werden die Vorteile beider Ansätze verbunden. Es können einfache Optimierungsverfahren verwendet werden, was den algorithmischen Aufwand gering hält. Gleichzeitig kann durch die Auswahl und Parametrierung des Kerns der Algorithmus flexibel an das jeweilige Problem angepasst werden. Was ist nun ein Kern genau? Dies soll anhand des Grundproblems des maschinellen Lernens erklärt werden: Angenommen es gibt Trainingsbeispiele die aus Daten x i und einer zugehörigen Klasse y i bestehen. Diese Beispiele werden in zwei Klassen, +1 und 1 geteilt. Für ein neues Beispiel mit unbekannter Klasse soll nun die Klasse bestimmt werden. Anders ausgedrückt soll y i so gewählt werden, dass (x i,y i ) ähnlich den Trainingsbeispielen ist. Es muss also ein Maß für die Ähnlichkeit zwischen zwei Daten x und x sowie zwei Klassen y und y ermittelt werden. Für die Ähnlichkeit der Klassifizierungen ist dies einfach: zwei Klassifizierungen können entweder gleich oder ungleich sein. 26

27 Die Ähnlichkeit zwischen zwei Datenvektoren x und x kann durch das Skalarprodukt ermittelt werden [vgl. 5]. Je größer die Ähnlichkeit zwischen zwei Vektoren ist, umso größer ist auch das Skalarprodukt der beiden Vektoren. Eine Kernfunktion K(x,x ) liefert ein nun Maß für die Ähnlichkeit zwischen x und x durch das Skalarprodukt im Featurespace. Es ist dabei nicht notwendig die Daten vorher durch eine Funktion φ explizit in den Featurespace zu transformieren. Für die Kernfunktion kann jedoch nicht jede beliebige Funktion verwendet werden. Es muss sichergestellt sein, dass die Kernfunktion tatsächlich ein Skalarprodukt im Featurespace darstellt. Dies ist der Fall, wenn die Funktion das Theorem von Mercer erfüllt. Theorem von Mercer 1. Eine symmetrische Funktion K(x, y) kann als inneres Produkt K(x,y) = φ(x),φ(y) (41) ausgedrückt werden wenn und nur wenn K(x, y) positiv semidefinit ist: K(x, y)g(x)g(y)dxdy 0 g (42) Anders ausgedrückt bedeutet das: K(x 1,x 1 ) K(x 1,x n )..... ist positiv semidefinit für beliebige {x 1...x n } (43) K(x n,x 1 ) K(x n,x n ) Anmerkung Eine symmetrisch n n Matrix M ist dann positiv semidefinit wenn x T Mx 0 für alle x R n. Anders ausgedrückt darf die Matrix M keine negativen Eigenwerte haben. Durch die Verwendung eines Kerns im Optimierungsproblem und in der Entscheidungsfunktion lassen sich nun nicht linear separierbare Daten trainieren und klassifizieren. Wie in (39) und (40) ersichtlich, treten die Trainingsdaten x nur in Form von Skalarprodukten auf. Die Skalarprodukte können nun durch die Kernfunktion K ersetzt werden. Somit kann das Optimierungsproblem wie folgt formuliert werden: L D (α) = l α i 1 2 i=1 l l α i α j y i y j K(x i,x j ) (44) i=1 j=1 27

28 Die Entscheidungsfunktion unter Einsatz einer Kernfunktion K lautet wie folgt. f(x) = l α k y k K(s k,x)+b (45) k=1 Durch die Erweiterung um Kerne kann die Support Vektor Maschine nun für verschiedenste Probleme angepasst werden. Hierfür muss lediglich die Kernfunktion im Optimierungsproblem und in der Entscheidungsfunktion angepasst werden. Gleichzeitig kann ein relativ einfaches Optimierungsverfahren zur Bestimmung der trennenden Hyperebene eingesetzt werden. 28

29 2.2.2 Beispiele für Kernfunktionen Nachstehend werden zwei Kernfunktionen näher beschrieben: der polynomische Kern und der Radial Basis Function Kern (RBF Kern). Zur Visualisierung wurde Matlab unter Verwendung von KerMet-Tools [8] eingesetzt. Abbildung 9: Daten zur Visualisierung unterschiedlicher Kernels In Abbildung 9 sind die Trainingsbeispiele zu sehen, die zur Visualisierung der nachstehenden Kerne eingesetzt wurden. 29

30 Polynomischer Kern K(x i,x j ) = (x i x j +coef) p (46) Der Parameter p legt den Grad des polynomischen Kerns fest. Die Werte für p und coef werden bei der Parametrierung der Support Vektor Maschine ermittelt. Abbildung 10: Polynomischer Kernel mit Grad 2 Abbildung 10 zeigt die trennende Hyperebene im Featurespace. Zur besseren Veranschaulichung wurde die trennende Hyperebene schwarz hervorgehoben. Die Trainingsbeispiele werden durch ein Polynom 2. Grades im Featurespace separiert. 30

31 RBF Kern K(x i,x j ) = e 1 2γ 2 x i x j 2 (47) Für den RBF Kern wird eine Gauß-Funktion verwendet. Der Support Vektor befindet sich im Mittelpunkt der Funktion. Die Variable γ bestimmt den Einfluss dieses Support Vektors auf den Datenraum. [Vgl. 6] Abbildung 11: RBF Kernel γ = 1 Abbildung 11 zeigt die trennende Hyperebene eines RBF-Kerns im Featurespace. Die trennende Hyperebene wurde zur besseren Veranschaulichung schwarz hervorgehoben. Die Variable γ muss bei der Parametrierung der Support Vektor Maschine ermittelt werden. Je größer γ ist, umso größer ist auch der Bereich den ein Support Vektor beeinflusst [vgl. 6]. 31

32 Abbildung 12: RBF Kernel γ = 0.05 In Abbildung 12 wurden die gleichen Trainingsbeispiele verwendet, jedoch wurde der Parameter γ auf 0.05 gesetzt. Dadurch wird der Bereich, den ein Support Vektor beeinflusst verkleinert. 32

33 3 Parametersuche Um eine Support Vektor Maschine für die Klassifikation von Objekten zu verwenden, muss zunächst die trennende Hyperebene berechnet werden. Wie bereits im vorigen Kapitel erläutert wurde, sind hierfür Trainingsbeispiele notwendig. Je nach verwendetem Kern in der Support Vektor Maschine, werden neben den Trainingsbeispielen noch Parameterwerte benötigt um die optimale trennende Hyperebene zu berechnen. Die Wahl des richtigen Kerns und der zugehörigen Parameterwerte ist entscheidend um eine hohe Klassifikationsleistung zu erreichen. Ziel ist es hierbei eine Support Vektor Maschine mit möglichst niedrigem Generalisierungsfehler zu erhalten. Abbildung 13: Generalisierungsfehler [vgl. 12] Der Generalisierungsfehler gibt Aufschluss darüber, wie gut eine Support Vektor Maschine neue Daten klassifiziert. Dabei ist der Generalisierungsfehler nicht proportional dem Trainingsfehler. In Abbildung 13 ist der Generalisierungsfehler in Abhängigkeit des Parameters C aufgetragen. Obwohl der Trainingsfehler bei steigenden Werten für C abnimmt, nimmt der Generalisierungsfehler ab einem gewissen Punkt wieder zu. Dieses Phänomen kann durch Unteranpassung (engl. underfitting) und Überanpassung (engl. overfitting) erklärt werden. 33

34 Wenn die Trainingsbeispiele mit einer zu einfachen Funktion separiert werden, ergibt sich ein hoher Trainingsfehler und ein hoher Generalisierungsfehler. Es liegt Unteranpassung vor. Siehe hierzu Abbildung 14a. Wenn die Trainingsbeispiele mit einer zu komplexen Funktion separiert werden, so ist der Trainingsfehler gering. Jedoch treten bei der Klassifikation neuer Daten vermehrt Fehler auf und der Generalisierungsfehler ist groß. Siehe hierzu Abbildung 14c. Abbildung 14: Unteranpassung, Anpassung und Überanpassung Ziel ist es die Trainingsbeispiele so zu separieren, dass weder Unteranpassung noch Überanpassung vorliegt (siehe hierzu Abbildung 14b). Wenn dies der Fall ist, ist auch der Generalisierungsfehler gering und die Support Vektor Maschine erbringt eine hohe Klassifikationsleistung. Die Aufgabe der Parametersuche ist es, die Parameterwerte zu finden, bei denen der Generalisierungsfehler am geringsten ist. In diesem Kapitel werden die hierfür nötigen Methoden erläutert. Zunächst werden zwei Suchverfahren für die automatische Parametersuche vorgestellt. Im Zuge der Parametersuche werden Parameterwerte evaluiert. Einige Verfahren hierzu werden in im Abschnitt Validierung erläutert. Um nun die Parameter mit dem geringsten Generalisierungsfehler zu wählen, müssen die einzelnen Parameterwerte bewertet werden. Dies wird im letzten Abschnitt dieses Kapitels behandelt. 3.1 Suchverfahren Umdie optimalen Parameter einer Support Vektor Maschine zu finden, ist es inder Regel notwendig mehrere Parameterwerte auszuprobieren und zu evaluieren. Anschließend 34

35 wird die beste Parametrierung gewählt. Hierfür kommen Suchverfahren zum Einsatz. Grid-Search Das Grid-Search-Verfahren unterteilt den zu durchsuchenden Intervall in n gleich große Teile. Somit ergeben sich n+1 Punkte, an denen der Funktionswert (in unserem Fall die Klassifikationsleistung) bestimmt wird. Nachdem alle Punkte evaluiert wurden, wird der Punkt mit dem höchsten Funktionswert zurückgegeben. Bei der Parametrierung einer Support Vektor Maschine hat es sich bewährt das Grid- Search-Verfahren logarithmisch zu implementieren. Zunächst wird über einen relativ großenbereich mit wenig Iterationen gesucht z.b. für C = 0.01,...,100000;n = 8. Der Suchbereich wird somit in relativ große Teile unterteilt. Danach wird in dem Bereich mit dem besten Ergebnis weitergesucht. Hierfür ist es sinnvoll das Suchraster in diesem Bereich zu verfeinern. Abbildung 15 zeigt das Ergebnis einer Parametersuche. Es wurden die Parameter C und γ für eine Support Vektor Maschine mit RBF-Kern evaluiert. Hierfür wurde ein zweidimensionales logarithmisches Grid-Search-Verfahren verwendet. Die einzelnen Parameterpaare wurden mit dem Leave-One-Out-Verfahren (3.2) validiert. Die Klassifikationsleistung wurde hierbei mit dem F-Maß (3.3) bestimmt. Abbildung 15: F-Maß in Abhängigkeit von C und γ 35

36 Fibonacci-Suche Der Nachteil des Grid-Search-Verfahrens ist, dass relativ viele Iterationen notwendig sind um den Suchbereich mit hoher Genauigkeit zu durchsuchen. Falls der Suchbereich unimodal ist, das bedeutet es gibt nur ein Maximum, kann mit Hilfe der Fibonacci-Suche rasch ein Maximum gefunden werden [vgl. 11]. Bei der Fibonacci-Suche wird der Suchbereich entsprechend den Fibonaccizahlen verkleinert. Somit sind weniger Funktionsauswertungen notwendig, um ein Maximum zu finden. Jedoch ist das Verfahren nur für eindimensionale Parametersuche anwendbar. Falls sichergestellt werden kann, dass der Suchbereich bei der Parametersuche einer Support Vektor Maschine unimodal ist, hat die Fibonacci-Suche in Bezug auf Laufzeit und Genauigkeit klare Vorteile gegenüber dem Grid-Search-Verfahren. Um mit einem Suchverfahren optimale Parameter für ein Support Vektor Maschine zu finden, müssen verschiedene Parameterwerte evaluiert werden. Hierfür wird die Support Vektor Maschine mit dem gewählten Parameter trainiert, und anschließend wird die Klassifikationsleistung ermittelt. Dies wird als Validierung bezeichnet. Im nachfolgenden Abschnitt werden einige Validierungsverfahren näher beschrieben. 36

37 3.2 Validierung Um die optimalen Parameterwerte einer Support Vektor Maschine zu finden, werden Validierungsverfahren benutzt. Die Validierungsverfahren sollen sicherstellen, dass nicht der Trainingsfehler, sonder der Generalisierungsfehler minimiert wird. Im Grunde arbeiten die hier vorgestellten Verfahren alle nach dem gleichen Prinzip: Die Menge an verfügbaren Beispielen wird in ein Trainings-Set und ein Validierungs-Set aufgeteilt. Die Support Vektor Maschine wird mit den gewählten Parameterwerten auf das Trainings-Set trainiert. Anschließend wird das Validierungs-Set klassifiziert. Hierbei wird die Klassifikationsleistung der Support Vektor Maschine ermittelt. Ziel ist es, Parameterwerte zu finden die einen minimalen Generalisierungsfehler erbringen. Nachfolgend werden einige Validierungsverfahren vorgestellt. Leave-One-Out Beim Leave-One-Out-Verfahren werden n Validierungen durchgeführt. Dabei entspricht n der Anzahl der Trainingsbeispiele. Jede Validierung wird mit n 1 Trainingsbeispielen durchgeführt. Eines der Trainingsbeispiele wird als Validierungsbeispiel verwendet und jeweils vom Training der Support Vektor Maschine ausgeschlossen, so dass nach n Schätzungen jedes Trainingsbeispiel einmal ausgeschlossen wurde. Nach jedem Trainingsvorgang wird mit Hilfe des trainierten Modells das Validierungsbeispiel klassifiziert und die Klassifikiationsleistung ermittelt. Die geschätzte Gesamtklassifikationsleistung des Modells ergibt sich nach Durchführung aller n Schätzungen als Durchschnitt der Klassifikiationsleistungen der einzelnen Validierungen. Die endgültige Klassifikationsleistung wird über alle Beobachtungen berechnet [vgl. 10]. Random-Subsampling und Delete-d-Kreuzvalidierung Bei diesen Verfahren werden die Trainingsbeispiele zufällig gezogen. Beim Random-Subsampling wird k- mal eine zufällige Anzahl an Trainingsbeispielen zufällig gezogen. Bei der Delete-d- Kreuzvalidierung wird k-mal eine feste Anzahl d der Trainingsbeispiele zufällig gezogen. Diese gezogenen Trainingsbeispiele dienen jeweils als Validierungsbeispiele bei den k Trainingsdurchgängen. Die Support Vektor Maschine wird k-mal mit den jeweils verbleibenden Trainingsbeispielen trainiert. Die Klassifikationsleistung wird mit den zugehörigen Validierungsdaten ermittelt. Die geschätzte Klassifikiationsleistung ergibt sich wieder als Durchschnitt der Klassifikiationsleistungen der einzelnen Validierungen [vgl. 10]. 37

38 k-fache Kreuzvalidierung Bei der k-fachen Kreuzvalidierung wird der Gesamtdatensatz zufällig in k gleich große Teile aufgeteilt. In k Trainingsdurchgängen wird jeweils anhand von k 1 Teilen als Trainings-Set die Support Vektor Maschine trainiert und der im Trainingsdurchgang ausgeschlossene Teil als Validierungs-Set benutzt. Wieder wird das Modell validiert, indem der Prüfdatensatz klassifiziert und die Klassifikationsleistung berechnet wird. Oft wird in der Praxis die Kreuzvalidierung mit k = 2 vorgenommen. Auch bei diesem Verfahren ergibt sich die Gesamtklassifikationsleistung als Durchschnitt der einzelnen k Klassifikiationsleistungen [vgl. 10] Validierung der Hypothesengenauigkeit Wird der Klassifikationsfehler nur mit Hilfe des Validierungs-Sets der Parametersuche ermittelt, so würde sich eine zu optimistische Schätzung ergeben. Der Grund hierfür ist, dass das Validierungs-Set verwendet wird um die beste Parametrierung der Support Vektor Maschine zu wählen. Durch die Aufteilung in ein Validierungs-Set und ein Test- Set ist die Schätzung des Klassifikationsfehlers unverzerrt (englisch: unbiased) [vgl. 12]. Doppelte Kreuzvalidierung Wenn mit einem Datensatz an Beispielen die Support Vektor Maschine trainiert und gleichzeitig der wahre Klassifikationsfehler ermittelt werden soll, so muss der Datensatz in drei disjunkte Teile aufgeteilt werden [vgl. 12]: Trainings-Set: Menge an Beispielen, die für das Training der Support Vektor Maschine verwendet werden. Validierungs-Set: Menge an Beispielen, die zum Einstellen der Parameter der Support Vektor Maschine verwendet werden. Test-Set: Nachdem die Support Vektor Maschine trainiert und parametriert wurde, wird mit dem Test-Set die Klassifikationsleistung ermittelt. Nachdem die Klassifikationsleistung ermittelt wurde, darf die Parametrierung der Support Vektor Maschine nicht mehr verändert werden. Der Ablauf des Verfahrens lautet wie folgt: 1. Die Menge der Beispiele wird in ein Trainings-Set, ein Validierungs-Set und ein Test-Set aufgeteilt. 2. Die Parameter für das Training der Support Vektor Maschine werden gewählt 38

39 3. Die Support Vektor Maschine wird auf dem Trainings-Set trainiert. 4. Das Validierungs-Set wird mit der trainierten Support Vektor Maschine klassifiziert. Die Klassifikationsleistung wird ermittelt. 5. Die Schritte 2 bis 4 werden mit verschiedenen Parametern wiederholt. Je nach verwendetem Validierungsverfahren müssen die Schritte 3 und 4 gegebenenfalls öfters wiederholt werden. 6. Die besten Parameter werden gewählt und die Support Vektor Maschine wird auf dem Trainings-Set und dem Validierungs-Set trainiert. 7. Das Test-Set wird mit der trainierten Support Vektor Maschine klassifiziert. Der Klassifikationsfehler kann nun ermittelt werden. Wie schon eingangs erwähnt, ist es bei allen Validierungsverfahren notwendig, die Klassifikationsleistung der Support Vektor Maschine zu bewerten. Im nachfolgenden Abschnitt wird erläutert wie die Klassifikationsleistung ermittelt werden kann und welche Kennzahlen hierfür verwendet werden können. 3.3 Beurteilung der Klassifikationsleistung Bei der Beurteilung eines Klassifikators wird versucht, die Klassifikationsleistung in Kennzahlen zusammenzufassen. Mit Hilfe der Kennzahlen lassen sich verschiedene Klassifikatoren miteinander vergleichen. Somit kann eine Aussage getroffen werden, ob ein Klassifikator besser ist als ein anderer. Nachdem der Klassifikator mit Hilfe von Trainingsbeispielen trainiert wurde, wird er an Testbeispielen getestet. Die Ergebnisse dieser Erprobung können in einer Matrix, die Wahrheitsmatrix bezeichnet wird, dargestellt werden. Wahrheitsmatrix Die Wahrheitsmatrix eines binären Klassifikators entspricht einer 2x2-Konfusionsmatrix. In Tabelle 1 ist eine Wahrheitsmatrix zu sehen. Es werden die Ergebnisse des Klassifikators der korrekten Klassifikation gegenübergestellt. 39

40 Ergebnis des Klassifikators positiv negativ Korrekte Klasse positiv richtig positiv (tp) falsch negativ (f n) negativ falsch positiv (f p) richtig negativ (tn) Tabelle 1: Wahrheitsmatrix eines binären Klassifikators An Hand eines Beispiels sollen die vier möglichen Fälle in der Wahrheitsmatrix näher erklärt werden. Es liegen Abbildungen von Ziffern vor, die mit Hilfe eines Klassifikators identifiziert werden sollen. Es soll entschieden werden ob ein Abbildung die Ziffer 0 darstellt oder nicht. Hierbei können folgende Ergebnisse auftreten. Richtig positiv Die Abbildung stellt die Ziffer 0 dar und der Klassifikator hat die Abbildung korrekt als 0 klassifiziert. Richtig negativ Die Abbildung stellt die Ziffer 0 nicht dar und der Klassifikator hat die Abbildung nicht als 0 klassifiziert Falsch positiv Die Abbildung stellt die Ziffer 0 nicht dar und der Klassifikator hat die Abbildung als 0 klassifiziert. Dies wird auch als Fehler 1. Art bezeichnet Falsch negativ Die Abbildung stellt die Ziffer 0 dar und der Klassifikator hat die Abbildung nicht als 0 klassifiziert. Dies wird auch als Fehler 2. Art bezeichnet Richtig-Positiv-Rate Die Richtig-Positiv-Rate oder Sensitivität ist der Anteil an positiven Beispielen, die korrekt als positiv klassifiziert wurden [vgl. 9]. TPR = tp tp+fn (48) Beispiel: Mit Hilfe eines Klassifikators soll eine automatische Qualitätskontrolle an Bauteilen durchgeführt werden. Es sollen funktionstüchtige Bauteile von defekten Bauteilen unterschieden werden. Die Sensitivität ist hierbei der Anteil an funktionstüchtigen Bauteilen, die als funktionstüchtig klassifiziert wurden. 40

41 Richtig-Negativ-Rate Die Richtig-Negativ-Rate oder Spezifität ist der Anteil an negativen Beispielen, die korrekt als negativ klassifiziert wurden [vgl. 9]. TNR = tn tn+fp (49) Beispiel: Mit Hilfe eines Klassifikation soll eine automatische Qualitätskontrolle an Bauteilen durchgeführt werden. Es sollen funktionstüchtige Bauteile von defekten Bauteilen unterschieden werden. Die Spezifität ist hierbei der Anteil an defekten Bauteilen, die als defekt klassifiziert wurden. Falsch-Positiv-Rate Die Falsch-Positiv-Rate oder Ausfallrate ist der Anteil der negativen Beispiele, die als positiv klassifiziert wurden [vgl. 9]. FPR = fp tn+fp (50) Beispiel: Mit Hilfe eines Klassifikators soll eine automatische Qualitätskontrolle an Bauteilen durchgeführt werden. Es sollen funktionstüchtige Bauteile von defekten Bauteilen unterschieden werden. Die Falsch-Positiv-Rate entspricht dem Anteil der defekten Bauteile, die als funktionstüchtig klassifiziert wurden. Falsch-Negativ-Rate Die Falsch-Negativ-Rate (englisch miss rate) ist der Anteil der positiven Beispiele, die als negativ klassifiziert wurden [vgl. 9]. FNR = fn tp+fn (51) Beispiel: Mit Hilfe eines Klassifikators soll eine automatische Qualitätskontrolle an Bauteilen durchgeführt werden. Es sollen funktionstüchtige Bauteile von defekten Bauteilen unterschieden werden. Die Falsch-Negativ-Rate entspricht dem Anteil der funktionstüchtigen Bauteile, die als defekt klassifiziert wurden. 41

42 Genauigkeit Die Genauigkeit ist der Anteil an richtig klassifizierten Beispielen, bezogen auf die gesamten Beispiele [vgl. 9]. ACC = tp+tn tp+fp+fn+tn (52) Beispiel: Mit Hilfe eines Klassifikators soll eine automatische Qualitätskontrolle an Bauteilen durchgeführt werden. Es sollen funktionstüchtige Bauteile von defekten Bauteilen unterschieden werden. Die Genauigkeit entspricht dem Anteil der korrekt klassifizierten Bauteile. Präzision Die Präzision ist der Anteil an positiv klassifizierten Beispielen, die auch in Wirklichkeit positiv sind [vgl. 9]. PPV = tp tp+fp (53) Beispiel: Mit Hilfe eines Klassifikators soll eine automatische Qualitätskontrolle an Bauteilen durchgeführt werden. Es sollen funktionstüchtige Bauteile von defekten Bauteilen unterschieden werden. Die Präzision entspricht dem Anteil der als funktionstüchtig klassifizierten Bauteile, die auch tatsächlich funktionstüchtig sind. F-Maß Das F-Maß fasst die Präzision und die Sensitivität in einer Kennzahl zusammen [vgl. 9]. F = 2 PPV TPR PPV +TPR (54) 42

43 4 Mustererkennung mittels SVM In den vorigen Kapiteln wurde bereits die Funktionsweise einer Support Vektor Maschine erklärt. Nun soll gezeigt werden, wie eine konkrete Mustererkennungsaufgabe mit Hilfe von Support Vektor Maschinen gelöst werden kann. Aus einer Abbildung eines neun-stelligen Zifferncodes sollen die enthaltenen Ziffern erkannt werden. Hierfür wird die Abbildung zunächst segmentiert. Das Ergebnis sind neun Abbildungen die jeweils eine Ziffer enthalten. Für die Erkennung der einzelnen Ziffern ist ein Klassifikator notwendig. Da es sich bei der Erkennung von Ziffern um ein Multi-Label-Klassifikationsproblem handelt, ist es zunächst notwendig das Klassifikationsproblem in mehrere binäre Klassifiaktionsprobleme zu transformieren. Anschließend kann mittels Support Vektor Maschinen klassifiziert werden und die Ergebnisse zu einem Klassifikationsergebnis zusammengefasst werden. In diesem Kapitel werden die einzelnen Verfahren hierfür erklärt. Zunächst wird auf die Segmentierung, Skalierung und Berechnung von Spektren eingegangen. Danach wird gezeigt wie aus einer Abbildung ein Vektor erstellt werden kann. Anschließend wird erklärt, wie sich mit einer Support Vektor Maschine mehr als zwei Klassen unterscheiden lassen. 4.1 Segmentierung Wie in der Einleitung bereits erwähnt, soll ein neun-stelliger Zifferncode mittels einer Support Vektor Maschine klassifiziert werden. Um den dargestellten Ziffercode aus der Abbildung zu erkennen, ist es zuerst notwendig die Abbildung zu segmentieren. Das bedeutet, die Abbildung des Zifferncodes wird entsprechend der enthaltenen Ziffern aufgeteilt. Somit wird jede Ziffer in einer separaten Abbildung dargestellt. Aus einer Abbildung des neun-stelligen Zifferncodes werden somit neun Abbildungen der einzelnen Ziffern. Die einzelnen Ziffernabbildungen können anschließend klassifiziert werden. In Abbildung 16 ist die Aufgabe der Segmentierung nochmals dargestellt. Die originale Abbildung (oben) wird durch die Segmentierung in mehrere Abbildungen aufgeteilt. Hierfür wird die Abbildung des Zifferncodes zunächst horizontal beschnitten. Es wird also der obere und untere Rand entfernt. Danach werden die Grenzen zwischen den einzelnen Ziffern gesucht und aus der Abbildung entstehen neun Abbildungen der einzelnen Ziffern. Eine genauere Beschreibung des Verfahrens ist in der Arbeit von C. 43

44 Abbildung 16: Segmentierung Gugg [2] zu finden. Die exakte Segmentierung der Abbildung hat großen Einfluss auf die Klassifikationsleistung. Bereits geringe Verschiebungen in den Abbildungen der einzelnen Ziffern können zu Problemen bei der Klassifikation führen. 4.2 Skalierung Für die Klassifikation von Abbildungen ist es notwendig, dass sämtliche Abbildungen die gleichen Abmessungen (gleich Anzahl von Pixeln) haben. Dies ist erforderlich, da die Abbildungen in einen Vektor transformiert werden um sie mit einer Support Vektor Maschine zu klassifizieren. Hierbei ist es notwendig, dass sämtliche Vektoren die gleiche Dimension haben. Wie bereits in der Einleitung erwähnt, werden die Abbildungen der Zifferncodes mittels Laserschnittverfahren erstellt. Da die Oberfläche der Stahlhalbzeuge nicht plan ist, ist auch der Leseabstand zu den einzelnen Ziffern nicht immer gleich. Hierdurch resultieren Unregelmäßigkeiten in der Größe der Ziffern. Nachdem die Abbildung des Zifferncodes segmentiert wurde, haben die Abbildungen der einzelnen Ziffern unterschiedliche Abmessungen. Um die Abbildungen mit einer Support Vektor Maschine 44

45 zu klassifizieren, muss sichergestellt werden, dass sämtliche Abbildungen die gleichen Abmessungen haben. Dies wird durch eine Skalierung der einzelnen Abbildungen auf einheitliche Abmessungen erreicht. Allgemein ausgedrückt wird durch die Skalierung die Originalabbildung f(x, y) durch ein Mapping in die skalierte Abbildung f (x,y) transformiert. In der Originalabbildung f(x,y) sind die Pixelwerte nur an ganzen Zahlen für x und y definiert. Jedoch referenzieren die Pixel in f oft auf Positionen zwischen Pixeln in f. Die Werte der Pixel in f müssen in diesem Fall durch ein Interpolationsverfahren bestimmt werden. Nachfolgend werden zwei gängige Interpolationsverfahren angeführt Nearest-Neighbor-Interpolation Das einfachste Interpolationsverfahren ist die Nearest-Neighbor-Interpolation oder Pixelwiederholung. Jedes Pixel in der skalierten Abbildung referenziert auf eine Position in der Originalabbildung. Das Pixel, das am nächsten zur referenzierten Position liegt, bestimmt den Wert des Pixels in der skalierten Abbildung. Dies ist rechnerisch einfach und liefert in vielen Fällen ausreichende Ergebnisse. Werden mit diesem Verfahren Abbildungen mit feinen Strukturen interpoliert, so können Artefakte in der skalierten Abbildung auftreten [vgl. 14] Bilineare Interpolation Die bilineare Interpolation liefert bessere Ergebnisse als die Pixelwiederholung. Der Rechenaufwand hierfür ist nur geringfügig höher. Jedes Pixel in der skalierten Abbildung referenziert auf ein Position in der Originalabbildung. Aus den vier umliegenden Pixelwerten wird der Pixelwert für die skalierte Abbildung berechnet. Die nachfolgende Herleitung ist aus [14] entnommen. Es sei g(x,y) ein Funktion mit zwei Variablen, die an den Eckpunkten des Einheitsquadrats bekannt ist. Gesucht ist der Funktionswert von g(x, y) an einer beliebigen Position innerhalb des Einheitsquadrats (Abbildung 17). Hierfür kann ein hyperbolisches Paraboloid durch die vier bekannten Punkte gelegt werden. Dies kann durch folgende Gleichung ausgedrückt werden: g(x,y) = ax+by +cxy +d (55) 45

46 Abbildung 17: Bilineare Interpolation [vgl. 14] Die Koeffizienten a, b, c und d müssen nun so gewählt werden, dass g(x,y) die vier Eckpunkte berührt. Hierfür wird zunächst an den oberen beiden Punkte interpoliert: g(x,0) = g(0,0)+x[g(1,0) g(0,0)] (56) Analog wird für die unteren beiden Punkte vorgegangen: g(x,1) = g(0,1)+y[g(1,1) g(0,1)] (57) Zum Schluss wird vertikal interpoliert um den Funktionswert zu erhalten: g(x,y) = g(x,0)+y[g(x,1) g(x,0)] (58) Durch Einsetzen von (56) und (57) in die Gleichung (58) ergibt sich: g(x,y) = [g(1,0) g(0,0)]x+[g(0,1) g(0,0)]y +[g(1,1)+g(0,0) g(0,1) g(1,0)]xy+g(0,0) (59) 46

47 4.3 Spektren Eine Abbildung besteht in der Regel aus Informationen und Rauschen. Bei einer geprägten Ziffer ist die Information die Prägung der Ziffer, das Rauschen ist die Unebenheit der Oberfläche. Für die Klassifizierung einer Abbildung mittels einer Support Vektor Maschine sind nur die Informationen der Abbildung notwendig. Das Rauschen der Abbildung könnte die Klassifikationsleistung beeinträchtigen. Abbildung 18: Transformation einer Abbildung in ein Spektrum (Quelle: C. Gugg, 2010) Durch die Transformation einer Abbildung in ein Spektrum kann die Informationsdichte in den Daten erhöht werden. Hierdurch könnte sich die Klassifikationsleistung erhöhen. In Abbildung 18 ist die Transformation einer Abbildung in ein Spektrum zu sehen. In diesem Fall ist die Informationsdichte im linken oberen Teil des Spektrums am höchsten. Es ist möglich das Spektrum zu reduzieren und somit die Abbildung zu komprimieren. Anschließend kann aus dem komprimierten Spektrum die Abbildung rekonstruiert werden. Es zeigt sich, dass in der rekonstruierten Abbildung weniger Rauschen auftritt. Nachfolgend werden einige Spektren angeführt. Zu jedem Spektrum ist eine Abbildung zu finden, in der die originale Abbildung aus dem berechneten Spektrum rekonstruiert wurde. Die Verfahren sind der Arbeit von C. Gugg [2] entnommen, in der auch eine genauere Beschreibung der Spektren zu finden ist Gram-Polynom-Transformation Die Gram-Polynome werden auch modifizierte Tchebychev-Polynome genannt. Sie eignen sich gut für geometrische Modelle ohne periodische Anteile, wie z. B. eine Oberfläche die durch Prägung deformiert wird. Das Verfahren ermöglicht es, orthogonal diskrete Polynombasen mit sehr hohem Grad zu berechnen. 47

48 Abbildung 19: Gram-Polynom transformierte Abbildung, rekonstruiert mit Grad (Quelle: C. Gugg, 2010) Constraint-Polynom-Transformation Polynomische Approximationen haben ein ortsabhängiges Verhalten. Sie neigen dazu, an den Punkten nahe der Stützpunkte zu oszillieren. Mit Hilfe von Nebenbedingungen (Constraints) ist es möglich, a priori Wissen in die Transformation einfließen zu lassen. Abbildung 20: Constraint-Polynom transformierte Abbildung, rekonstruiert mit Grad (Quelle: C. Gugg, 2010) Haar-Transformation Als Basisfunktion der Haar-Transformation kommt ein Wavelet zum Einsatz. Das Haar- Wavelet ist das einfachste mögliche Wavelet. Es ist nicht stetig und daher auch nicht differenzierbar. Diese Eigenschaft kann jedoch ein Vorteil bei der Analyse von Signalen mit abrupten Übergängen sein. Dies könnte zum Beispiel bei der Aufzeichnung eines Werkzeugbruchs auftreten. 48

49 Abbildung 21: Haar transformierte Abbildung, rekonstruiert mit Grad (Quelle: C. Gugg, 2010) Cosinus-Transformation Eine diskrete Cosinus-Transformation (DCT) stellt eine Folge von endlich vielen Datenpunkten als Summe von Cosinus-Funktionen, die mit unterschiedlichen Frequenzen oszillieren, dar. Es ist oft möglich, die Folge der Datenpunkte relativ genau aus nur wenigen DCT-Koeffizienten zu rekonstruieren. Dies Eigenschaft ist nützlich bei der Datenreduktion. Bekannte Beispiel sind das JPEG- und MPEG-Format. Abbildung 22: Cosinus-Polynom transformierte Abbildung, rekonstruiert mit Grad (Quelle: C. Gugg, 2010) Fourier-Transformation Die diskrete Fourier-Transformation (DFT) transformiert eine Funktion im Zeit- oder Ortsbereich in den Frequenzbereich. Im Vergleich zur diskreten Cosinus-Transformation, wo nur Cosinus-Funktionen verwendet werden, kommen bei diesem Verfahren Sinus- 49

50 und Cosinus-Funktionen zum Einsatz. Ein weitere Eigenschaft der DFT ist die Positionsunabhängigkeit. In der Praxis kann die DFT effizient durch eine Fast-Fourier- Transformation (FFT) berechnet werden. Abbildung 23: Fourier transformierte Abbildung, rekonstruiert mit Grad 10-18(Quelle: C. Gugg, 2010) 4.4 Vektorisierung der Abbildungen Um Abbildungen mit einer Support Vektor Maschine zu klassifizieren, müssen diese zunächst in einen Vektor transformiert werden. Hierfür werden die Pixelwerte der Abbildung Zeile für Zeile zu einem Vektor zusammengefügt. Die nachstehende Java Methode transformiert eine Matrix (Pixelwerte der Abbildung) in eine Vektor. 1 / 2 Transformiert eine Matrix in eine Vektor matrix zu transformierende Matrix Vektor 5 public static double [] matrixtovector(double [][] matrix) { 6 int idx = 0 7 double [] vector = new double [ matrix. length matrix [0]. length ]; 8 for (int i = 0; i < matrix. length ; i++) { 9 for ( int j = 0; j < matrix[ i ]. length ; j++) { 10 vector [ idx ] = matrix[ i ][ j ]; 11 idx++; 12 } 13 } 14 return vector ; 15 } 50