Klassische Klassifikationsalgorithmen

Transkript

1 Klassische Klassifikationsalgorithmen Einführung in die Wissensverarbeitung 2 VO UE SS 2013 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 Institut für Grundlagen der Informationsverarbeitung TU Graz Inffeldgasse 16b/1

2 Lehrveranstaltungsübersicht IGI Kapitel 1 Grundbegriffe des maschinellen Lernens Kapitel 2 Neuronale Netze Kapitel 3 Klassische Klassifikationsalgorithmen Kapitel 4 Modellselektion Kapitel 5 Aussagenlogik 2

3 Plan für heute: Kapitel 3 Welchen Lernalgorithmus gibt es für veränderliche Lerndaten? Welchen Lernalgorithmus gibt es für nominale Attribute? Was ist state-of-the-art bei Klassifikation ohne Vorwissen? 3

4 Anwendungsbereiche Voraussetzungen: Abstand zwischen Lernbeispielen ist definiert Beispiele: Hanschrifterkennung Satellitenbilderkennung EKG Klassifikation 4

5 Veränderliche Lerndaten Man möchte für schnell wachsende Datenmenge (Lernbeispiele) nicht fortlaufend neue Klassifikatoren trainieren. Beispiel: 3 Klassenproblem mit 200 Datenpunkte und 2 Attributen. 5

6 Grundidee Die Hypothese wird für jede Vorhersage neu erzeugt. Alle Trainingsdaten werden gespeichert Testbeispiele werden entsprechen der Klasse des nächstgelegenen Trainingsbeispiels klassifiziert. Voronoi Diagramm Voronoi Diagramm Entscheidungsgrenze 6

7 K-Nearest-Neighbor Algorithmus Wählt den häufigsten Zielfunktionswert der k nächstliegenden Trainingsbeispiele. Der Parameter k hat Einfluss auf Vorhersagen für neue Testbeispiele. k=1 k=3 k = 31 3 Klassenproblem: 200 Datenpunkte (2 Attribute) 7

8 Generalisierung Je weniger Nachbarn k, desto komplexer wird der Klassifikator. Je mehr Nachbarn k, desto einfacher wird der Klassifikator. Underfitting: Hypothesenklasse ist nicht ausdrucksstark genug Wahrer Fehler Optimale Komplexität, i.e. k Trainingsfehler Overfitting Hypothesenklasse ist zu komplex Komplexität (e.g. 100/k) Erinnerung: Man spricht von overfitting, wenn error P H error L H 8

9 Vor- und Nachteile Vorteile: Die Komplexität der Hypothese wird automatisch an die Komplexität der Trainingsmenge angepasst. Es können laufend weitere Beispiele zur Hypothese hinzugefügt werden. Nachteile: Falls einige der Attribute in Wirklichkeit irrelevant sind für die Klassifikation, so schwächen sie die Leistung von diesem Lernalgorithmus (curse of dimensionality). Die numerischen Attribute müssen vorher vom Benutzer geeignet skaliert werden. 9

10 Auswahlkriterien für Lernalgorithmen Qualität des Lernalgorithmus (siehe Kapitel 1) Gute Performance bei vielen Trainingsbeispielen. Benötigte Rechenzeit beim Trainieren und Testen. Benötigt keine Zeit um zu Lernen. Testen dauert bei vielen Trainingsbeispielen sehr lange. Speicherbedarf Hoch (Speicherung der Trainingsdaten) Intuitive Interpretierbarkeit Gut (Density estimation bei Klassifikation / Mittelwert bei Regression) 10

11 Kapitel 3 Welchen Lernalgorithmus gibt es für nominale Attribute? 11

12 Anwendungsbereiche Voraussetzungen: Zielfunktion ist diskretwertig Beispiele: Medizinische Diagnosen Kreditrisikoanalyse Modellierung von Präferenzen bei Zeitplanerstellungen 12

13 Was tun bei nominalen Attributen? Beispiel: Wetterdatensatz 13

14 Grundidee Einzelne Attribute werde sequentiell getestet. 14

15 Baum (Graphentheorie) Ein Baum ist ein endlicher Graph mit den Eigenschaften: 1. Es gibt genau einen Knoten, in dem keine Kante endet (die Wurzel ). 2. In jedem von der Wurzel verschiedenen Knoten endet genau eine Kante 3. Jeder Knoten ist von der Wurzel auf genau einem Pfad erreichbar. 15

16 Entscheidungsbaum Ein Entscheidungsbaum ist ein endlicher Graph: Jeder Knoten testet ein Attribute Jeder Zweig korrespondiert zu einem Attributwert Jedes Blatt (Knoten ohne ausgehende Kanten) ordnet eine Klasse zu 16

17 Reellwertige Attribute Es werden diskrete Attribute erzeugt um reellwertige zu testen: 17

18 Entscheidungsgrenzen Im Falle reellwertiger Attribute wird der input Raum durch achsenparallele Entscheidunsgrenzen partitioniert. x1 AB CDE x2 A x2 B CD E x1 C D 2 dimensional 18

19 Entscheidungsgrenzen Im Falle reellwertiger Attribute wird der input Raum durch achsenparallele Entscheidunsgrenzen partitioniert. 2 dimensional 3 dimensional 19

20 Wie wird gelernt? Schleife: 1. Wähle das Beste Entscheidungsattribut A für den nächsten Knoten 2. Für jeden Wert von A erzeuge einen neuen Abkömmlingsknoten 3. Ordne die Trainingsdaten den Abkömmlingsknoten zu 4. Wenn die Trainingsdaten fehlerfrei klassifiziert werden, dann STOPPE. Sonst iteriere über Abkömmlingsknoten ( 1.). 20

21 Wie wird gelernt? Welches Attribut ist das Beste. x2? x1? 21

22 Welches Attribut wird abgefragt? Informal: Wir wählen jenes Attribut, welches die meiste Information über die Klassenzugehörigkeit der Trainingsbeispiele enthält. Formal: Klasse y { 1, 1} H[y] Mittlerer Informationsgehalt der Zufallsvariable y 22

23 Informationsgehalt einer Zufallsvar. Für eine Zufallsvariable y, welche mit Wahrscheinlichkeit P(y) aufritt. Information: h y log2 P y (positive Zahl) 23

24 Entropie Entropie ist der mittlere Betrag des Informationsgehalts der Zufallsvariable y H [ y ] y P y h y = y P y log 2 P y 24

25 Beispiel: Binäre Klassifikation Für eine Zufallsvariable mit 2 Zuständen wie bei Klassifikation liegt der Wert der Entropie zwischen 0 und 1 (Bit). H [ y] P y= 1 25

26 Welches Attribut wird abgefragt? Die Entropie jeder Teilmenge soll möglichst klein sein. Gesamtmenge L Teilmenge L1 P 1 = 21/ 26 P 1 = 5/26 P 1 = 8/38 P 1 = 30/38 Teilmenge L2 H [ Li ] = P 1 log 2 P 1 P 1 log 2 P 1 26

27 Beispiel Welches Attribut soll ausgewählt werden? L :[ 9, 5 ] H [ L] = L :[ 9, 5 ] H [ L] = L 1 : [ 3, 4 ] H [ L1 ] = Gain L, humidity L 2 :[ 6, 1 ] H [ L 2 ] = L 1 :[ 6, 2 ] H [ L1 ] = L 2 :[ 3, 3 ] H [ L2 ] = 1 Gain L, wind 27

28 Welches Attribut soll hier ausgewählt werden? L sunny L sunny L sunny L sunny 28

29 Suche im Hypothesenraum 29

30 Induktiver Bias Die Hypothesenklasse besteht aus allen möglichen Funktionen H : X Y Unbiased? Nein Kurze Entscheidungsbäume mit hohem information gain nahe der Wurzel werden bevorzugt. 2. Entspricht Occam's razor: Bevorzuge kurze Hypothesen, welche zu den Daten passen. 30

31 Einfache Interpretation Umwandlung in Regeln: 31

32 Overfitting Beispiel: Betrachte ein noisy Trainingsbeispiel #15: Temperature Cool Mild Hot Yes Yes No 32

33 Vermeidung von overfitting Ansatz: Grösse des Entscheidungsbaumes kürzen: Wachstum des vollständigen Baumes mit anschließendem post-pruning Entscheidungskriterium ob gekürzt wird: Messen der performance auf unabhängigen Validierungsdaten. 33

34 Lernphasen Trainingsdaten: Dienen zur Auswahl der Hypothese aus einer Hypothesenklasse H durch einen Lernalgorithmus. Testdaten: Dienen zur Betimmung der Qualität der ausgewählten Hypothese durch ein Fehlerkriterium (Generalisierung). Validierungdaten: Dienen zur Auswahl eines Modells (Modellselektion) Trainingsdaten Testdaten Validierungsdaten = Ø 34

35 Validierungsdaten In der Praxis schätzte man den wahren Fehler mittels Validierungsdaten ab, und wählt die Hypotheseklasse für welche man den geringsten Fehler erhält. Fehler auf den Validierungsdaten Wahl der Komplexität Trainingsfehler Komplexität 35

36 Anwendung von post-pruning Schritte bis pruning den Fehler auf den Validierungsdaten vergrößert: 1. Evaluiere die Auswirkung des prunens jedes einzelnen Knotens auf den Fehler der Validierungsdaten. 2. Gierig ersetze den Knoten, welcher den Fehler auf den Validierungsdaten am meisten verringert. 36

37 Fehler Beispiel für post-pruning val. Anzahl der Knoten 37

38 Probleme mit post-pruning Problem: Gain wählt Attribut mit vielen Werten (z.b. Day) 38

39 Versionen von Entscheidungbäumen ID3 Diskrete Attribute, keine fehlenden Attribute Information Gain als Qualitätsmaß. C4.5 Erweiterung von ID3. Information GainRatio als Qualitätsmaß. Fehlenden Attribute Numerische und reellwertige Attribute Pruning des Entscheidungsbaumes 39

40 Vor- und Nachteile Vorteile: Die Komplexität der Hypothese wird automatisch an die Komplexität der Trainingsmenge angepasst (Pruning). Man bekommt Nebeninformationen, welche Attribute am wichtigsten sind für die Klassifikationsaufgabe (feature selection). Gute Interpretierbarkeit des gelernten Entscheidungsbaumes. Nachteile: Das Pruning ist oft nicht radikal genug. 40

41 Auswahlkriterien für Lernalgorithmen Qualität des Lernalgorithmus (siehe Kapitel 1) Kann nur bei diskretwertigen Zielfunktionen angewendet werden Verglichen mit SVM und backprop schlechtere performance. Benötigte Rechenzeit beim Trainieren und Testen Benötigt wenig Rechenzeit um zu Lernen und Testen Speicherbedarf Gering. Intuitive Interpretierbarkeit Sehr gut 41

42 Kapitel 3 Was ist state-of-the-art bei Klassifikation ohne Vorwissen? 42

43 Wiederholung Lineare Modelle lösen nicht alle Probleme Z.B. XOR Problem y = sign w T x =sign w 0 w 1 x 1... w d x d Mindestens ein Punkt wird falsch klassifiziert. 43

44 Grundlegende Ideen von SVM 1. Nichtlineare Projektion. 2. Maximum margin Hyperebene. 3. Rechnerische Effizienz durch den kernel Trick. 44

45 Nichtlineare Klassifikatoren Idee 1: Abbildung in den feature Raum x = 1, 2 x1, 2 x 2, 2 x 1 x 2, x 21, x 2,2 f = -1 f = +1 f = +1 margin= 2 f =0 f = +1 f =0 f = -1 f = -1 45

46 Erzeugte Hypothesen Lineare Separierung im feature - Raum Nichtlineare Separierung im originalen input - Raum 46

48 Klassifikation Linearer Klassifikator y w, x = sign w 0 w T1 x 1 w 1, x 1 ℝ D 1 Es gibt viele Gewichtsvektoren mit dem selben Klassifikationsfehler. x2 x1 48

49 Unterscheidende Klassifikation Idee 2: Wir erwarten, dass wir einen besseren Klassifikator finden, welcher robuster hinsichtlich noise ist, wenn wir verlangen, dass der margin möglichst groß ist. Margin: Abstand zwischen Trainingsbeispielen und der Klassifikationsebene des linearen Klassifikators. 49

50 Support Vektoren maximaler margin Support Vektoren 50

51 Maximum margin für XOR Problem Abbildung in den feature Raum x = 1, 2 x1, 2 x 2, 2 x 1 x 2, x 21, x 2,2 f = -1 f = +1 f = +1 margin= 2 f =0 f = +1 f =0 f = -1 f = -1 51

52 Erzeugte Hypothesen RBF kernel: Allgemeim für alle kernel Funktionen gilt: SV müssen nicht nahe an den Entscheidungsgrenzen im input Raum sein, sie müssen nur nahe an den Entscheidungsgrenzen im feature Raum sein. 52

54 Kernels Berechnung: Maximierungsproblem in der sogenannten dualen Repräsentation 1 l T y y x i=1 i 2 i, j=1 i j i j 1 i x 1 j l wobei 0 i C und x T1 i x 1 j i i y i = 0. T x 1 i x 1 j K x 1i, x 1 j Die kernel-funktion K berechnet das Skalarprodukt im feature Raum. 54

55 Kernels Idee 3: Das Skalarprodukt kann berechnet werden ohne explizit feature Vektoren im feature Φ-Raum zu konstruieren. 55

56 Overfitting Die Dimensionalität des feature Raumes bestimmt die Anzahl der zu bestimmenden Parameter. Warum kann dieser Lernalgorithmus generalisieren? 56

57 Veranschaulichung: Cross validation Für SVM hängt der leave-one-out cross-validation error nicht von der Dimensionalität des feature Raumes ab, sondern von der Anzahl der SV Leave one out CV error Anz. der support Vektoren Anz. der Trainingsbeispiele 57

58 Zusammenfassung von SVM 1. Nichtlineare Projektion. 2. Maximum margin Hyperebene. 3. Rechnerische Effizienz durch den kernel Trick. 58

59 Auswahlkriterien für Lernalgorithmen Qualität des Lernalgorithmus (siehe Kapitel 1) Generell sehr gute Performance Zur Verfügung stehende Rechenzeit beim Trainieren und Testen, sowie Benötigt sehr viel Rechenzeit um zu lernen Benötigt wenig Rechenzeit um zu testen Speicherbedarf Gering. Intuitive Interpretierbarkeit Sehr schlecht 59