Klassische Klassifikationsalgorithmen

Transkript

1 Klassische Klassifikationsalgorithmen Einführung in die Wissensverarbeitung 2 VO UE SS 2012 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 Institut für Grundlagen der Informationsverarbeitung TU Graz Inffeldgasse 16b/1

2 Lehrveranstaltungsübersicht IGI Kapitel 1 Grundbegriffe des maschinellen Lernens Kapitel 2 Neuronale Netze Kapitel 3 Klassische Klassifikationsalgorithmen Kapitel 4 Modellselektion Kapitel 5 Logik 2

3 Plan für heute: Kapitel 3 Welchen Lernalgorithmus gibt es für veränderliche Lerndaten? Welchen Lernalgorithmus gibt es für nominale Attribute? Was ist state-of-the-art bei Klassifikation ohne Vorwissen? 3

4 Anwendungsbereiche Voraussetzungen: Lernbeispiele können als Punkte im Euklidischen Raum repräsentiert werden Beispiele: Hanschrifterkennung Satellitenbilderkennung EKG Klassifikation 4

5 Veränderliche Lerndaten Man möchte für schnell wachsende Datenmenge (Lernbeispiele) nicht fortlaufend neue Klassifikatoren trainieren. Beispiel: 3 Klassenproblem mit 200 Datenpunkte und 2 Attributen. 5

6 Grundidee Es wird keine Hypothese erzeugt (keine Trainingsphase). Alle Trainingsdaten werden gespeichert Testbeispiele werden entsprechen der Klasse des nächstgelegenen Trainingsbeispiels klassifiziert. Voronoi Diagramm Voronoi Diagramm Entscheidungsgrenze 6

7 K-Nearest-Neighbor Algorithmus Wählt den häufigsten Zielfunktionswert der k nächstliegenden Trainingsbeispiele. Der Parameter k hat Einfluss auf Vorhersagen für neue Testbeispiele. k=1 k=3 k = 31 3 Klassenproblem: 200 Datenpunkte (2 Attribute) 7

8 Generalisierung Je weniger Nachbarn k, desto komplexer wird der Klassifikator. Je mehr Nachbarn k, desto einfacher wird der Klassifikator. Underfitting: Hypothesenklasse ist nicht ausdrucksstark genug Wahrer Fehler Optimale Komplexität, i.e. k Trainingsfehler Overfitting Hypothesenklasse ist zu komplex Komplexität (e.g. 100/k) 8

9 Generalisierung allgemein Je mehre zu bestimmende Parameter desto komplexer wird der Klassifikator. Bsp.: Neuronale Netze mit variabler Anzahl von versteckten (hidden) Neuronen Underfitting: Hypothesenklasse ist nicht ausdrucksstark genug Wahrer Fehler Optimale Komplexität, i.e. k Trainingsfehler Overfitting Hypothesenklasse ist zu komplex Komplexität (e.g. # Gewichte) Man spricht von overfitting, wenn error P H error L H 9

10 Vor- und Nachteile Vorteile: Die Komplexität der Hypothese wird automatisch an die Komplexität der Trainingsmenge angepasst. Es können laufend weitere Beispiele zur Hypothese hinzugefügt werden. Nachteile: Falls einige der Attribute in Wirklichkeit irrelevant sind für die Klassifikation, so schwächen sie die Leistung von diesem Lernalgorithmus (curse of dimensionality). Die numerischen Attribute müssen vorher vom Benutzer geeignet skaliert werden. 10

11 Auswahlkriterien für Lernalgorithmen Qualität des Lernalgorithmus (siehe Kapitel 1) Gute Performance bei vielen Trainingsbeispielen. Benötigte Rechenzeit beim Trainieren und Testen. Benötigt keine Zeit um zu Lernen. Testen dauert bei vielen Trainingsbeispielen sehr lange. Speicherbedarf Hoch (Speicherung der Trainingsdaten) Intuitive Interpretierbarkeit Gut (Density estimation bei Klassifikation / Mittelwert bei Regression) 11

12 Kapitel 3 Welchen Lernalgorithmus gibt es für nominale Attribute? 12

13 Anwendungsbereiche Voraussetzungen: Zielfunktion ist diskretwertig Beispiele: Medizinische Diagnosen Kreditrisikoanalyse Modellierung von Präferenzen bei Zeitplanerstellungen 13

14 Grundidee Einzelne Attribute werde sequentiell getestet. 14

15 Baum (Graphentheorie) Ein Baum ist ein endlicher Graph mit den Eigenschaften: 1. Es gibt genau einen Knoten, in dem keine Kante endet (die Wurzel ). 2. In jedem von der Wurzel verschiedenen Knoten endet genau eine Kante 3. Jeder Knoten ist von der Wurzel auf genau einem Pfad erreichbar. 15

16 Plan für heute: Kapitel 3 Welchen Lernalgorithmus gibt es für veränderliche Lerndaten? Welchen Lernalgorithmus gibt es für nominale Attribute? Was ist state-of-the-art bei Klassifikation ohne Vorwissen? 16

17 Was tun bei nominalen Attributen? Beispiel: Wetterdatensatz 17

18 Entscheidungsbaum Ein Entscheidungsbaum ist ein endlicher Graph: Jeder Knoten testet ein Attribute Jeder Zweig korrespondiert zu einem Attributwert Jedes Blatt (Knoten ohne ausgehende Kanten) ordnet eine Klasse zu 18

19 Reellwertige Attribute Es werden diskrete Attribute erzeugt um reellwertige zu testen: 19

20 Entscheidungsgrenzen Im Falle reellwertiger Eingabewerte sind die Entscheidunsgrenzen Hyperebenen orthogonal zu den Achsen des abgefragten Eingabewerts. x1 AB CDE x2 A x2 B CD E x1 C D 2 dimensional 20

21 Entscheidungsgrenzen Im Falle reellwertiger Eingabewerte sind die Entscheidunsgrenzen Hyperebenen orthogonal zu den Achsen des abgefragten Eingabewerts. 2 dimensional 3 dimensional 21

22 Wie wird gelernt? Schleife: 1. Wähle das Beste Entscheidungsattribut A für den nächsten Knoten 2. Für jeden Wert von A erzeuge einen neuen Abkömmlingsknoten 3. Ordne die Trainingsdaten den Abkömmlingsknoten zu 4. Wenn die Trainingsdaten fehlerfrei klassifiziert werden, dann STOPPE. Sonst iteriere über Abkömmlingsknoten ( 1.). 22

23 Wie wird gelernt? Welches Attribut ist das Beste. x2? x1? 23

24 Welches Attribut wird abgefragt? Informal: Wir wählen jenes Attribut, welches die meiste Information über die Klassenzugehörigkeit der Trainingsbeispiele enthält. Formal: Klasse y { 1, 1} H[y] Mittlerer Informationsgehalt der Zufallsvariable y 24

25 Informationsgehalt eines zufälligen Ereignisses Für eine Zufallsereignis y, welches mit Wahrscheinlichkeit P(y) aufritt, gilt... Informationsgehalt: h y log2 P y (positive Zahl) 25

26 Entropie Entropie ist der mittlere Betrag des Informationsgehalts der Zufallsvariable y H [ y ] y P y h y = y P y log 2 P y 26

27 Beispiel: Binäre Klassifikation Für eine Zufallsvariable mit 2 Zuständen wie bei Klassifikation liegt der Wert der Entropie zwischen 0 und 1 (Bits). H [ y] P y= 1 27

28 Welches Attribut wird abgefragt? Es ist von Vorteil ein Attribut zu wählen, für welches nach der Aufteilung der Trainingsbeispiele die Entropie jeder Teilmenge sehr klein ist. Gesamtmenge L Teilmenge L1 P 1 = 21/ 26 P 1 = 5/26 P 1 = 8/38 P 1 = 30/38 Teilmenge L2 H [ Li ] = P 1 log 2 P 1 P 1 log 2 P 1 28

29 Beispiel Welches Attribut soll ausgewählt werden? L :[ 9, 5 ] H [ L] = L :[ 9, 5 ] H [ L] = L 1 : [ 3, 4 ] H [ L1 ] = Gain L, humidity L 2 :[ 6, 1 ] H [ L 2 ] = L 1 :[ 6, 2 ] H [ L1 ] = L 2 :[ 3, 3 ] H [ L2 ] = 1 Gain L, wind 29

30 Welches Attribut soll hier ausgewählt werden? L sunny L sunny L sunny L sunny 30

31 Suche im Hypothesenraum 31

32 Induktiver Bias Die Hypothesenklasse besteht aus allen möglichen Funktionen H : X Y Unbiased? Nein Kurze Entscheidungsbäume mit hohem information gain nahe der Wurzel werden bevorzugt. 2. Entspricht Occam's razor: Bevorzuge kurze Hypothesen, welche zu den Daten passen. 32

33 Einfache Interpretation Umwandlung in Regeln: 33

34 Generalisierungsprobleme Beispiel: Betrachte ein noisy Trainingsbeispiel #15: Temperature Cool Mild Hot Yes Yes No 34

35 Generalisierung allgemein Je mehre zu bestimmende Parameter desto komplexer wird der Klassifikator. Bsp.: Entscheidungsbäume mit unterschiedlicher Anzahl von Knoten Underfitting: Hypothesenklasse ist nicht ausdrucksstark genug Wahrer Fehler Optimale Komplexität, i.e. k Trainingsfehler Overfitting Hypothesenklasse ist zu komplex Komplexität (e.g. # Knoten) Man spricht von overfitting, wenn error P H error L H 35

36 Vermeidung von overfitting Ansatz: Grösse des Entscheidungsbaumes kürzen: Wachstum des vollständigen Baumes mit anschließendem post-pruning Entscheidungskriterium ob gekürzt wird: Messen der performance auf unabhängigen Validierungsdaten. 36

37 Validierungsdaten In der Praxis schätzte man den wahren Fehler mittels Validierungsdaten ab, und wählt die Hypotheseklasse für welche man den geringsten Fehler erhält. Fehler auf den Validierungsdaten Wahl der Komplexität Trainingsfehler Komplexität 37

38 Verwendete Datensätze Trainingsdaten: Dienen zur Auswahl der Hypothese aus einer Hypothesenklasse H durch einen Lernalgorithmus. Testdaten: Dienen zur Betimmung der Qualität der ausgewählten Hypothese durch ein Fehlerkriterium (Generalisierung). Validierungdaten: Dienen zur Auswahl eines Modells (Modellselektion) Trainingsdaten Testdaten Validierungsdaten = Ø 38

39 Anwendung von post-pruning Schritte bis pruning den Fehler auf den Validierungsdaten vergrößert: 1. Evaluiere die Auswirkung des prunens jedes einzelnen Knotens auf den Fehler der Validierungsdaten. 2. Gierig ersetze den Knoten, welcher den Fehler auf den Validierungsdaten am meisten verringert. 39

40 Fehler Beispiel für post-pruning val. Anzahl der Knoten 40

41 Probleme mit post-pruning Problem: Gain wählt Attribut mit vielen Werten (z.b. Day) 41

42 Versionen von Entscheidungbäumen ID3 Diskrete Attribute, keine fehlenden Attribute Information Gain als Qualitätsmaß. C4.5 Erweiterung von ID3. Information GainRatio als Qualitätsmaß. Fehlenden Attribute Numerische und reellwertige Attribute Pruning des Entscheidungsbaumes 42

43 Vor- und Nachteile Vorteile: Die Komplexität der Hypothese wird automatisch an die Komplexität der Trainingsmenge angepasst (Pruning). Man bekommt Nebeninformationen, welche Attribute am wichtigsten sind für die Klassifikationsaufgabe (feature selection). Gute Interpretierbarkeit des gelernten Entscheidungsbaumes. Nachteile: Das Pruning ist oft nicht radikal genug. 43

44 Auswahlkriterien für Lernalgorithmen Qualität des Lernalgorithmus (siehe Kapitel 1) Kann nur bei diskretwertigen Zielfunktionen angewendet werden Verglichen mit SVM und backprop schlechtere performance. Benötigte Rechenzeit beim Trainieren und Testen Benötigt wenig Rechenzeit um zu Lernen und Testen Speicherbedarf Gering. Intuitive Interpretierbarkeit Sehr gut 44

45 Kapitel 3 Was ist state-of-the-art bei Klassifikation ohne Vorwissen? 45

46 Wiederholung: Erweiterung von linearen Klassifikatoren auf nichtlineare Probleme Lernbeispiel Bilderkennung: Lineare Klassifikatoren liefern für dieses XOR Problem einen zero-one Fehler von mindestens 0.25: y = sign w T x =sign w 0 w1 x1... w d x d 46

47 Wiederholung Ansätze: 1. Lineare Modelle deren Eingabewerte (Basisfunktionen) nichtlineare Funktionen der ursprünglichen Eingabewerte sind, e.g. y = sign w 0 w 1 x 1... w 12 x1 x 2... w 123 x1 x 2 x Adaptive Basisfunktionen z, welche je nach Lernproblem justiert werden, e.g. Neuronale Netze. y = sign w 0 w 1 z 1 x... w d z d x 47

48 Grundlegende Ideen von SVM 1. Nichtlineare Projektion. 2. Maximum margin Hyperebene. 3. Rechnerische Effizienz durch den kernel Trick. 48

49 Bsp.: XOR Problem Nichtlineare Projektion in den feature Raum: x = 1, 2 x1, 2 x2, 2 2, 2 x x, x, x ermöglicht lineare Trennung der projizierten Daten. 49

50 Erzeugte Hypothesen Lineare Separierung im feature - Raum Nichtlineare Separierung im Eingabe - Raum 50

51 Bsp.: Nichtlineare Separierung Projektion in den feature Raum x = 1, 2 x1, 2 x 2, 2 x 1 x 2, x 21, x 2,2 Abkürzung: f = f = -1 f = +1 f =0 f = +1 2 x1 x2 f = +1 f =0 f = -1 f = -1 51

53 Klassifikation Linearer Klassifikator y w, x = sign w 0 w T1 x 1 w 1, x 1 ℝ D 1 Es gibt viele Gewichtsvektoren mit dem selben Klassifikationsfehler. x2 x1 53

54 Unterscheidende Klassifikation Idee 2: Wir erwarten, dass wir einen besseren Klassifikator finden, welcher robuster hinsichtlich noise ist, wenn wir verlangen das der margin möglichst groß ist. Margin: Abstand zwischen Trainingsbeispielen und der Klassifikationsebene des linearen Klassifikators. 54

55 Support Vektoren maximaler margin Support Vektoren 55

56 Maximum margin für XOR Problem Abbildung in den feature Raum x = 1, 2 x1, 2 x 2, 2 x 1 x 2, x 21, x 2,2 f = -1 f = +1 f = +1 margin= 2 f =0 f = +1 f =0 f = -1 f = -1 56

58 Kernels Maximierung des Problems in der sogenannten dualen Repräsentation 1 l T y y x i=1 i 2 i, j=1 i j i j 1 i x 1 j l wobei 0 i C und x T1 i x 1 j i i y i = 0. T x 1 i x 1 j K x 1i, x 1 j Die kernel-funktion K berechnet das Skalarprodukt im feature Raum. 58

59 Kernels Idee 3: Das Skalarprodukt kann berechnet werden ohne explizit feature Vektoren im feature Raum (Φ) zu konstruieren. 59

60 Erzeugte Hypothesen Linear kernel Polynomieller kernel 2ter Ordnung Polynomieller kernel 4ter Ordnung Polynomieller kernel 8ter Ordnung 60

61 Erzeugte Hypothesen RBF kernel: Allgemeim für alle kernel Funktionen gilt: SV müssen nicht nahe an den Entscheidungsgrenzen im input Raum sein, sie müssen nur nahe an den Entscheidungsgrenzen im feature Raum sein. 61

62 Overfitting Die Dimensionalität des feature Raumes bestimmt die Anzahl der zu bestimmenden Parameter. Warum kann dieser Lernalgorithmus generalisieren? 62

63 Anmerkung Für SVM hängt die Anzahl der zu lernenden Parameter nicht von der Dimensionalität des feature Raumes ab, sondern von der Anzahl der SV 63

64 Zusammenfassung von SVM 1. Nichtlineare Projektion. 2. Maximum margin Hyperebene. 3. Rechnerische Effizienz durch den kernel Trick. 64

65 Auswahlkriterien für Lernalgorithmen Qualität des Lernalgorithmus (siehe Kapitel 1) Generell sehr gute Performance Zur Verfügung stehende Rechenzeit beim Trainieren und Testen, sowie Benötigt sehr viel Rechenzeit um zu lernen Benötigt wenig Rechenzeit um zu testen Speicherbedarf Gering. Intuitive Interpretierbarkeit Sehr schlecht 65