Entscheidungsbäume. Minh-Khanh Do Erlangen,

Transkript

1 Entscheidungsbäume Minh-Khanh Do Erlangen,

2 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest Filter Erlangen, Minh-Khanh Do Entscheidungsbäume 2

3 Allgemeines Konzept

4 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Erlangen, Minh-Khanh Do Entscheidungsbäume 4

5 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Erlangen, Minh-Khanh Do Entscheidungsbäume 4

6 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Neue Daten klassifizieren Erlangen, Minh-Khanh Do Entscheidungsbäume 4

7 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Neue Daten klassifizieren Erlangen, Minh-Khanh Do Entscheidungsbäume 4

8 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Neue Daten klassifizieren Daten in Trainings- und Testdaten teilen Erlangen, Minh-Khanh Do Entscheidungsbäume 4

9 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Neue Daten klassifizieren Daten in Trainings- und Testdaten teilen Daten mit Regeln ( Entscheidungen ) in vorgegebene Klassen teilen (Alter 17, Geschlecht = w) Erlangen, Minh-Khanh Do Entscheidungsbäume 4

10 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Neue Daten klassifizieren Daten in Trainings- und Testdaten teilen Daten mit Regeln ( Entscheidungen ) in vorgegebene Klassen teilen (Alter 17, Geschlecht = w) Mit Testdatensatz evaluieren Erlangen, Minh-Khanh Do Entscheidungsbäume 4

11 Datenklassifizierung Datensatz ID age income student credit_rating buys_computer 1 youth high no fair no 2 youth high no excellent no 3 middle high no fair yes 4 senior medium no fair yes 5 senior low yes fair yes 6 senior low yes excellent no 7 middle low yes excellent yes 8 youth medium no fair no 9 youth low yes fair yes 10 senior medium yes fair yes 11 youth medium yes excellent yes 12 middle medium no excellent yes 13 middle high yes fair yes 14 senior medium no excellent no Erlangen, Minh-Khanh Do Entscheidungsbäume 5

12 Datenklassifizierung Datensatz ID age income student credit_rating buys_computer 1 youth high no fair no 2 youth high no excellent no 3 middle high no fair yes 4 senior medium no fair yes 5 senior low yes fair yes 6 senior low yes excellent no 7 middle low yes excellent yes 8 youth medium no fair no 9 youth low yes fair yes 10 senior medium yes fair yes 11 youth medium yes excellent yes 12 middle medium no excellent yes 13 middle high yes fair yes 14 senior medium no excellent no Entscheidungsbaum age? youth middle senior student? yes credit_rating? no yes excellent fair no yes no yes Erlangen, Minh-Khanh Do Entscheidungsbäume 5

13 Darstellung Knoten: repräsentiert einen Test Kante: Attributwert Blätter: Klasse/Klassenwahrscheinlichkeit Erlangen, Minh-Khanh Do Entscheidungsbäume 6

14 Darstellung Knoten: repräsentiert einen Test Kante: Attributwert Blätter: Klasse/Klassenwahrscheinlichkeit Kindknoten testet auf einer Teilmenge der Daten des Vaterknotens Erlangen, Minh-Khanh Do Entscheidungsbäume 6

15 age student credit youth no fair no youth no excellent no youth no fair no youth yes fair yes youth yes excellent yes middle no fair yes middle no excellent yes middle yes excellent yes middle yes fair yes senior no excellent no senior yes excellent no senior no fair yes senior yes fair yes senior yes fair yes no = 3 5 yes = 2 5 no no student? youth yes yes no = 5 14 yes = 9 14 age? middle yes yes = 4 4 excellent no senior no = 2 5 yes = 3 5 credit_rating? fair yes yes = 2 2 yes = 3 3 no = 3 3 no = 2 2 Erlangen, Minh-Khanh Do Entscheidungsbäume 7

16 age student credit youth no fair no youth no excellent no youth no fair no youth yes fair yes youth yes excellent yes middle no fair yes middle no excellent yes middle yes excellent yes middle yes fair yes senior no excellent no senior yes excellent no senior no fair yes senior yes fair yes senior yes fair yes no = 3 5 yes = 2 5 no no student? youth yes yes no = 5 14 yes = 9 14 age? middle yes yes = 4 4 excellent no senior no = 2 5 yes = 3 5 credit_rating? fair yes yes = 2 2 yes = 3 3 no = 3 3 no = 2 2 Neues Objekt ID age income student credit buys_computer 15 senior medium no fair? Erlangen, Minh-Khanh Do Entscheidungsbäume 7

17 age student credit youth no fair no youth no excellent no youth no fair no youth yes fair yes youth yes excellent yes middle no fair yes middle no excellent yes middle yes excellent yes middle yes fair yes senior no excellent no senior yes excellent no senior no fair yes senior yes fair yes senior yes fair yes no = 3 5 yes = 2 5 no no student? youth yes yes no = 5 14 yes = 9 14 age? middle yes yes = 4 4 excellent no senior no = 2 5 yes = 3 5 credit_rating? fair yes yes = 2 2 yes = 3 3 no = 3 3 no = 2 2 Neues Objekt ID age income student credit buys_computer 15 senior medium no fair yes Erlangen, Minh-Khanh Do Entscheidungsbäume 7

18 Konstruktion

19 Algorithmus Top-down Verfahren Erlangen, Minh-Khanh Do Entscheidungsbäume 9

20 Algorithmus Top-down Verfahren Rekursiver Greedy Algorithmus: Erlangen, Minh-Khanh Do Entscheidungsbäume 9

21 Algorithmus Top-down Verfahren Rekursiver Greedy Algorithmus: 1. Wähle ein Attribut Erlangen, Minh-Khanh Do Entscheidungsbäume 9

22 Algorithmus Top-down Verfahren Rekursiver Greedy Algorithmus: 1. Wähle ein Attribut 2. Teile die Daten entsprechend des Attributs in Untermengen Erlangen, Minh-Khanh Do Entscheidungsbäume 9

23 Algorithmus Top-down Verfahren Rekursiver Greedy Algorithmus: 1. Wähle ein Attribut 2. Teile die Daten entsprechend des Attributs in Untermengen 3. Für jede Untermenge Wenn alle Daten die gleiche Klasse haben bearbeite die nächste Untermenge Sonst gehe zu 1. Erlangen, Minh-Khanh Do Entscheidungsbäume 9

24 Attributwahl

25 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Erlangen, Minh-Khanh Do Entscheidungsbäume 11

26 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Baum so klein wie möglich Erlangen, Minh-Khanh Do Entscheidungsbäume 11

27 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Baum so klein wie möglich Attribute wählen, die möglichst viele Daten klassifizieren Erlangen, Minh-Khanh Do Entscheidungsbäume 11

28 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Baum so klein wie möglich Attribute wählen, die möglichst viele Daten klassifizieren Knoten so rein wie möglich Erlangen, Minh-Khanh Do Entscheidungsbäume 11

29 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Baum so klein wie möglich Attribute wählen, die möglichst viele Daten klassifizieren Knoten so rein wie möglich möglichst wenige Klassen in den Knoten Erlangen, Minh-Khanh Do Entscheidungsbäume 11

30 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Baum so klein wie möglich Attribute wählen, die möglichst viele Daten klassifizieren Knoten so rein wie möglich möglichst wenige Klassen in den Knoten möglichst viele von der selben Klasse in den Knoten Erlangen, Minh-Khanh Do Entscheidungsbäume 11

31 Entropie (Entropy) Reinheit bzw. Unreinheit einer Menge Erlangen, Minh-Khanh Do Entscheidungsbäume 12

32 Entropie (Entropy) Reinheit bzw. Unreinheit einer Menge Info(D) = m p i log 2 (p i ) i=1 D: Menge m: Anzahl der Klassen p i : Wahrscheinlichkeit für die i-te Klasse m p i = 1 i=1 Erlangen, Minh-Khanh Do Entscheidungsbäume 12

33 Entropie (Entropy) Reinheit bzw. Unreinheit einer Menge Info(D) = m p i log 2 (p i ) i=1 D: Menge m: Anzahl der Klassen p i : Wahrscheinlichkeit für die i-te Klasse m p i = 1 i=1 Je größer Info(D) ist, desto unreiner die Menge D Erlangen, Minh-Khanh Do Entscheidungsbäume 12

34 Entropie (Entropy) Reinheit bzw. Unreinheit einer Menge Info(D) = m p i log 2 (p i ) i=1 D: Menge m: Anzahl der Klassen p i : Wahrscheinlichkeit für die i-te Klasse m p i = 1 i=1 Je größer Info(D) ist, desto unreiner die Menge D Info(D) = 0: Menge besteht aus einer Klasse Erlangen, Minh-Khanh Do Entscheidungsbäume 12

35 Entropie (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Erlangen, Minh-Khanh Do Entscheidungsbäume 13

36 Entropie (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Info(vor Split) = 9 14 log log , 940 Erlangen, Minh-Khanh Do Entscheidungsbäume 13

37 Entropie (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Info(vor Split) = 9 14 log log , 940 Info(age = youth) = Info(age = senior) = 2 5 log log Info(age = middle) = 1 log log 2 0 = 0 0, 971 Erlangen, Minh-Khanh Do Entscheidungsbäume 13

38 Entropie (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Info(vor Split) = 9 14 log log , 940 Info(age = youth) = Info(age = senior) = 2 5 log log Info(age = middle) = 1 log log 2 0 = 0 0, 971 Info(income = low) = 3 4 log log 2 1 0, Info(income = medium) = 4 6 log log 2 2 0, Info(income = high) = 2 4 log log 2 2 = 4 1 Erlangen, Minh-Khanh Do Entscheidungsbäume 13

39 Informationsgewinn (Information Gain) Erwartete Entropie nach Partitionierung Erlangen, Minh-Khanh Do Entscheidungsbäume 14

40 Informationsgewinn (Information Gain) Erwartete Entropie nach Partitionierung Gain(D, A) = Info(D) v A D v D Info(D v) D: Datensatz A: Attribut bei dem geteilt werden soll D v : Untermenge von D für die A den Wert v hat Erlangen, Minh-Khanh Do Entscheidungsbäume 14

41 Informationsgewinn (Information Gain) Erwartete Entropie nach Partitionierung Gain(D, A) = Info(D) v A D v D Info(D v) D: Datensatz A: Attribut bei dem geteilt werden soll D v : Untermenge von D für die A den Wert v hat Je größer Gain(D, A), desto besser ist es die Daten mit dem Attribut A zu teilen Erlangen, Minh-Khanh Do Entscheidungsbäume 14

42 Informationsgewinn (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Erlangen, Minh-Khanh Do Entscheidungsbäume 15

43 Informationsgewinn (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Gain(age) = Info(vor Split) 5 Info(age = youth) Info(age = middle) Info(age = senior) 0, Erlangen, Minh-Khanh Do Entscheidungsbäume 15

44 Informationsgewinn (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Gain(age) = Info(vor Split) 5 Info(age = youth) Info(age = middle) Info(age = senior) 0, Gain(income) = Info(vor Split) 4 Info(income = low) Info(income = medium) 4 Info(income = high) 14 0, 029 Erlangen, Minh-Khanh Do Entscheidungsbäume 15

45 Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) Erlangen, Minh-Khanh Do Entscheidungsbäume 16

46 bluered Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) a) Aufteilung in alle Attributwerte a) color? green Erlangen, Minh-Khanh Do Entscheidungsbäume 16

47 bluered Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) a) Aufteilung in alle Attributwerte b) Aufteilung, ob in einer bestimmten Attributmenge a) color? b) color {red}? green yes no Erlangen, Minh-Khanh Do Entscheidungsbäume 16

48 bluered Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) a) Aufteilung in alle Attributwerte b) Aufteilung, ob in einer bestimmten Attributmenge numerische Attribute: (Alter, Größe) a) color? b) color {red}? green yes no Erlangen, Minh-Khanh Do Entscheidungsbäume 16

49 bluered Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) a) Aufteilung in alle Attributwerte b) Aufteilung, ob in einer bestimmten Attributmenge numerische Attribute: (Alter, Größe) c) Mit einer Konstanten vergleichen a) color? b) color {red}? c) age 20? green yes no yes no Erlangen, Minh-Khanh Do Entscheidungsbäume 16

50 bluered Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) a) Aufteilung in alle Attributwerte b) Aufteilung, ob in einer bestimmten Attributmenge numerische Attribute: (Alter, Größe) c) Mit einer Konstanten vergleichen d) Wertebereich in diskrete Werte teilen a) color? b) color {red}? c) age 20? d) age? green yes no yes no youth middle senior Erlangen, Minh-Khanh Do Entscheidungsbäume 16

51 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Erlangen, Minh-Khanh Do Entscheidungsbäume 17

52 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Vorgehen: Attributwerte sortieren Erlangen, Minh-Khanh Do Entscheidungsbäume 17

53 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Vorgehen: Attributwerte sortieren Möglicher split-point zwischen jeweils zwei verschiedenen Werten Erlangen, Minh-Khanh Do Entscheidungsbäume 17

54 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Vorgehen: Attributwerte sortieren Möglicher split-point zwischen jeweils zwei verschiedenen Werten Für alle split-points S, Gain(S) ausrechnen Erlangen, Minh-Khanh Do Entscheidungsbäume 17

55 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Vorgehen: Attributwerte sortieren Möglicher split-point zwischen jeweils zwei verschiedenen Werten Für alle split-points S, Gain(S) ausrechnen Besten split-point auswählen Erlangen, Minh-Khanh Do Entscheidungsbäume 17

56 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Vorgehen: Attributwerte sortieren Möglicher split-point zwischen jeweils zwei verschiedenen Werten Für alle split-points S, Gain(S) ausrechnen Besten split-point auswählen Aufwendig Erlangen, Minh-Khanh Do Entscheidungsbäume 17

57 Gain Ratio A B name? C D E yes= 1 5 no= 1 5 yes= 1 5 yes= 1 5 no= 1 5 Info bevorzugt Attribute mit großem Wertebereich (Kundennummer, Geburtsdatum, Name) Erlangen, Minh-Khanh Do Entscheidungsbäume 18

58 Gain Ratio A B name? C D E yes= 1 5 no= 1 5 yes= 1 5 yes= 1 5 no= 1 5 Info bevorzugt Attribute mit großem Wertebereich (Kundennummer, Geburtsdatum, Name) die meisten/alle Kindknoten sind rein Erlangen, Minh-Khanh Do Entscheidungsbäume 18

59 Gain Ratio A B name? C D E yes= 1 5 no= 1 5 yes= 1 5 yes= 1 5 no= 1 5 Info bevorzugt Attribute mit großem Wertebereich (Kundennummer, Geburtsdatum, Name) die meisten/alle Kindknoten sind rein GainRatio(D, A) = Gain(D, A) D v D log D v 2 D v A Info(D) = m p i log 2 (p i ) i=1 Erlangen, Minh-Khanh Do Entscheidungsbäume 18

60 Gain Ratio (Beispiel) youth age? middle senior ID? yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 Erlangen, Minh-Khanh Do Entscheidungsbäume 19

61 Gain Ratio (Beispiel) age? youth middle senior ID? yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 GainRatio(age) = Gain(age) 5 14 log log log , 247 1, 577 0, 157 Erlangen, Minh-Khanh Do Entscheidungsbäume 19

62 Gain Ratio (Beispiel) youth age? middle senior ID? yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 GainRatio(age) = Gain(age) 5 14 log log log , 247 1, 577 0, 157 GainRatio(ID) = Gain(ID) 14 ( 1 14 log ) , 940 3, 807 0, 247 Erlangen, Minh-Khanh Do Entscheidungsbäume 19

63 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Erlangen, Minh-Khanh Do Entscheidungsbäume 20

64 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Lösung: Kundennummer nicht als Split zulassen Erlangen, Minh-Khanh Do Entscheidungsbäume 20

65 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Lösung: Kundennummer nicht als Split zulassen Erlangen, Minh-Khanh Do Entscheidungsbäume 20

66 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Lösung: Kundennummer nicht als Split zulassen 2. Wenn D v D Erlangen, Minh-Khanh Do Entscheidungsbäume 20

67 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Lösung: Kundennummer nicht als Split zulassen 2. Wenn D v D GainRatio(D, A) = Gain(D, A) D v D log D v 2 D v A wird sehr groß Erlangen, Minh-Khanh Do Entscheidungsbäume 20

68 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Lösung: Kundennummer nicht als Split zulassen 2. Wenn D v D GainRatio(D, A) = Gain(D, A) D v D log D v 2 D v A wird sehr groß Lösung: Gain zuerst ausrechnen, dann GainRatio bei den überdurchschnittlich großen Werten ausrechnen Erlangen, Minh-Khanh Do Entscheidungsbäume 20

69 Probleme

70 Problem (Overfitting) Baum ist zu nah an den Datensatz Erlangen, Minh-Khanh Do Entscheidungsbäume 22

71 Problem (Overfitting) Baum ist zu nah an den Datensatz Die Daten werden auswendiggelernt Erlangen, Minh-Khanh Do Entscheidungsbäume 22

72 Problem (Overfitting) Baum ist zu nah an den Datensatz Die Daten werden auswendiggelernt Neue Daten werden schlecht klassifiziert Erlangen, Minh-Khanh Do Entscheidungsbäume 22

73 Problem (Overfitting) Baum ist zu nah an den Datensatz Die Daten werden auswendiggelernt Neue Daten werden schlecht klassifiziert Lösung: Pruning (Baum verkleinern, vereinfachen) Erlangen, Minh-Khanh Do Entscheidungsbäume 22

74 Problem (Overfitting) Baum ist zu nah an den Datensatz Die Daten werden auswendiggelernt Neue Daten werden schlecht klassifiziert Lösung: Pruning (Baum verkleinern, vereinfachen) Viele Pruning-Verfahren Erlangen, Minh-Khanh Do Entscheidungsbäume 22

75 Reduced Error Pruning Daten aufteilen in Trainings- und Testdaten Erlangen, Minh-Khanh Do Entscheidungsbäume 23

76 Reduced Error Pruning Daten aufteilen in Trainings- und Testdaten Aus Trainingsdaten einen Baum machen Erlangen, Minh-Khanh Do Entscheidungsbäume 23

77 Reduced Error Pruning Daten aufteilen in Trainings- und Testdaten Aus Trainingsdaten einen Baum machen Baum auf Testdaten prüfen Erlangen, Minh-Khanh Do Entscheidungsbäume 23

78 Reduced Error Pruning Daten aufteilen in Trainings- und Testdaten Aus Trainingsdaten einen Baum machen Baum auf Testdaten prüfen Einen Knoten entfernen und testen, ob man ein besseres Ergebnis mit dem neuen Baum erzielt Erlangen, Minh-Khanh Do Entscheidungsbäume 23

79 Reduced Error Pruning Daten aufteilen in Trainings- und Testdaten Aus Trainingsdaten einen Baum machen Baum auf Testdaten prüfen Einen Knoten entfernen und testen, ob man ein besseres Ergebnis mit dem neuen Baum erzielt Solange durchführen bis keine Verbesserung mehr Erlangen, Minh-Khanh Do Entscheidungsbäume 23

80 Reduced Error Pruning (Beispiel) A 1? no yes no A 2? yes no A 3? yes Yes No no A 4? yes Yes Yes No Erlangen, Minh-Khanh Do Entscheidungsbäume 24

81 Reduced Error Pruning (Beispiel) A 1? no yes A 1? A 2? A 3? no yes no Yes yes No no no A 4? yes yes Yes no Yes A 2? yes No Yes Yes No Erlangen, Minh-Khanh Do Entscheidungsbäume 24

82 Random forest

83 Konzept Viele Entscheidungsbäume (Wald) Erlangen, Minh-Khanh Do Entscheidungsbäume 26

84 Konzept Viele Entscheidungsbäume (Wald) Die Entscheidungsbäume werden mit einem bestimmten Verfahren zufällig konstruiert ( Randomisierung ) Erlangen, Minh-Khanh Do Entscheidungsbäume 26

85 Konzept Viele Entscheidungsbäume (Wald) Die Entscheidungsbäume werden mit einem bestimmten Verfahren zufällig konstruiert ( Randomisierung ) Neue Daten werden mit allen Bäumen klassifiziert Erlangen, Minh-Khanh Do Entscheidungsbäume 26

86 Konzept Viele Entscheidungsbäume (Wald) Die Entscheidungsbäume werden mit einem bestimmten Verfahren zufällig konstruiert ( Randomisierung ) Neue Daten werden mit allen Bäumen klassifiziert Die Klasse mit den meisten Stimmen wird genommen Erlangen, Minh-Khanh Do Entscheidungsbäume 26

87 Randomisierung Zufällige Anzahl von Daten aus dem Trainingsdatensatz nehmen Erlangen, Minh-Khanh Do Entscheidungsbäume 27

88 Randomisierung Zufällige Anzahl von Daten aus dem Trainingsdatensatz nehmen ID age income student credit_rating 2 youth high no excellent no 3 middle high no fair yes 4 senior medium no fair yes 6 senior low yes excellent no 7 middle low yes excellent yes 9 youth low yes fair yes 10 senior medium yes fair yes 14 senior medium no excellent no Erlangen, Minh-Khanh Do Entscheidungsbäume 27

89 Randomisierung Zufällige Anzahl von Daten aus dem Trainingsdatensatz nehmen ID age income student credit_rating 2 youth high no excellent no 3 middle high no fair yes 4 senior medium no fair yes 6 senior low yes excellent no 7 middle low yes excellent yes 9 youth low yes fair yes 10 senior medium yes fair yes 14 senior medium no excellent no Zufällige Anzahl von Attributen zum Splitten nehmen Erlangen, Minh-Khanh Do Entscheidungsbäume 27

90 Randomisierung Zufällige Anzahl von Daten aus dem Trainingsdatensatz nehmen Zufällige Anzahl von Attributen zum Splitten nehmen ID age income student credit_rating 2 youth high no excellent no 3 middle high no fair yes 4 senior medium no fair yes 6 senior low yes excellent no 7 middle low yes excellent yes 9 youth low yes fair yes 10 senior medium yes fair yes 14 senior medium no excellent no ID income credit_rating 1 high fair no 2 high excellent no 3 high fair yes 4 medium fair yes 5 low fair yes 6 low excellent no 7 low excellent yes 8 medium fair no 9 low fair yes 10 medium fair yes 11 medium excellent yes 12 medium excellent yes 13 high fair yes 14 medium excellent no Erlangen, Minh-Khanh Do Entscheidungsbäume 27

91 Vorteile Einzelne Bäume nicht so komplex Erlangen, Minh-Khanh Do Entscheidungsbäume 28

92 Vorteile Einzelne Bäume nicht so komplex Weniger Overfitting Erlangen, Minh-Khanh Do Entscheidungsbäume 28

93 Vorteile Einzelne Bäume nicht so komplex Weniger Overfitting Kein Pruning nötig Erlangen, Minh-Khanh Do Entscheidungsbäume 28

94 Vorteile Einzelne Bäume nicht so komplex Weniger Overfitting Kein Pruning nötig Klassifiziert in der Regel besser als ein einzelner Entscheidungsbaum Erlangen, Minh-Khanh Do Entscheidungsbäume 28

95 Vorteile Einzelne Bäume nicht so komplex Weniger Overfitting Kein Pruning nötig Klassifiziert in der Regel besser als ein einzelner Entscheidungsbaum Konstruktion und Klassifikation parallelisierbar Erlangen, Minh-Khanh Do Entscheidungsbäume 28

96 Filter

97 Noch Fragen? Ok Ja Nein Ok Danke für die Aufmerksamkeit! Erlangen, Minh-Khanh Do Entscheidungsbäume 30

98 Literatur Jiawei Han Micheline Kamber Jian Pei: Data Mining Concepts and Techniques (3rd Edition) Kapitel 8 Stuart Russell Peter Norvig: Artificial Intelligence A Modern Approach (3rd Edition) Kapitel 18 Trevor Hastie Robert Tibshirani Jerome Friedman The Elements of Statistical Learning (2nd Edition) Ian H. Witten Eibe Frank Mark A. Hall Data Mining Practical Machine Learning Tools and Techniques (3rd Edition) Kapitel 4,6 Leo Breiman: Random Forests Erlangen, Minh-Khanh Do Entscheidungsbäume 31