3.5 Entscheidungsbäume

Transkript

1 3.5 Entscheidungsbäume Entscheidungsbäume (decision trees) sind diskriminative Verfahren zur Klassifikation in zwei oder mehr Klassen; unabhängige Merkmale der Datenpunkte können nominal, ordinal oder metrisch sein Idee: Jeder Knoten eines Entscheidungsbaums gibt ein Split-Kriterium (z.b. Hubraum 3.1) vor; Teilbäume enthalten die entsprechend aufgeteilten Daten Entscheidungsbäume sind typischerweise binär; höhere Verzweigungsgrade sind möglich Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 75

2 Entscheidungsbäume Gewicht [lbs] <= entropy = 1.33 samples = 313 value = [195, 53, 65] class = U.S.A. True False Gewicht [lbs] <= entropy = samples = 174 value = [65, 44, 65] class = U.S.A. Leistung [hp] <= entropy = samples = 139 value = [130, 9, 0] class = U.S.A. Leistung [hp] <= 50.5 entropy = samples = 37 value = [3, 12, 22] class = Japan Leistung [hp] <= 92.5 entropy = samples = 137 value = [62, 32, 43] class = U.S.A. Leistung [hp] <= 80.5 entropy = samples = 72 value = [63, 9, 0] class = U.S.A. entropy = 0.0 samples = 67 value = [67, 0, 0] class = U.S.A. entropy = 0.0 samples = 4 value = [0, 4, 0] class = Europe entropy = 1.2 samples = 33 value = [3, 8, 22] class = Japan entropy = 1.45 samples = 92 value = [50, 22, 20] class = U.S.A. entropy = samples = 45 value = [12, 10, 23] class = Japan entropy = 1.0 samples = 6 value = [3, 3, 0] class = U.S.A. entropy = samples = 66 value = [60, 6, 0] class = U.S.A. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 76

3 Informationstheorie Claude E. Shannon ( ) begründete die Informationstheorie, welche eine wichtige Rolle spielt z.b. Kodierung Datenkompression Informationsübertragung Quelle: en.wikipedia.org zudem kommen Konzepte der Informationstheorie zum Einsatz in anderen Gebieten z.b. Maschinelles Lernen (z.b. Klassifikation) Information Retrieval Computerlinguistik Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 77

4 Entropie Entropie (entropy) ist ein Maß des Informationsgehalts (auch: Unsicherheit) einer diskreten Zufallsvariable X H(X) = ÿ P[x ] log 2 P[x ] xœx Beispiel: fairer Würfel W, d.h. alle Zahlen mit Wahrscheinlichkeit 1/6 H(W ) 2.58 gezinkter Würfel Z, die Zahl 6 hat Wahrscheinlichkeit 1/2, alle anderen Zahlen Wahrscheinlichkeit 1/10 H(Z) 2.16 Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 78

5 Entropie Entropie kann auch interpretiert werden als die mittlere Anzahl von Bits, die benötigt werden, um Werte der Zufallsvariable zu speichern oder zu kommunizieren Intuition: Wollen wir Ergebnisse von Würfen des gezinkten Würfels kommunizieren, macht es Sinn, ein kürzeres Codewort (d.h. weniger Bits) für das Ergebnis 6 zu verwenden, da es häufiger vorkommt Ereignisse mit Nullwahrscheinlichkeit werden bei der Berechnung der Entropie ignoriert Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 79

6 Bedingte Entropie Bedingte Entropie (conditional entropy) ist ein Maß des Informationsgehalts einer Zufallsvariablen X, wenn man den Wert einer zweiten Zufallsvariablen Y bereits kennt H(Y X) = ÿ P[x ] H(Y X = x) xœx Beispiel: fairer Würfel W, d.h. alle Zahlen mit Wahrscheinlichkeit 1/6 Zufallsvariable G {u, g} zeigt an, ob eine gerade oder eine ungerade Zahl gewürfelt wurde H(W G) =? Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 80

7 Bedingte Entropie Beispiel: fairer Würfel W, d.h. alle Zahlen mit Wahrscheinlichkeit 1/6 Zufallsvariable G {u, g} zeigt an, ob eine gerade oder eine ungerade Zahl gewürfelt wurde H(W G) = 1 2 H(W G = u)+1 2 H(W G = u) = ( 1 3 log 2 H(W G = g) 1.58 H(W G) log 2 H(W G = g) log ) W G P [W G] 1 u g 0 2 u 0 2 g u g 0 4 u 0 4 g u g 0 6 u 0 6 g 1 6 Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 81

8 Mutual Information Mutual Information (deutsch: Transinformation) misst die Abhängigkeit zwischen zwei Zufallsvariablen I(X, Y )= ÿ ÿ 3 4 P[x y ] P[x y ] log P[x ]P[y] xœx yœy und es gilt I(X, Y )=H(X) H(X Y )=H(Y ) H(Y X) Mutual Information kann als Informationsgewinn (information gain) interpretiert werden, den man durch Kenntnis der zweiten Zufallsvariable erlangt Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 82

9 Generieren von Entscheidungsbäumen Rekursive Generierung eines Entscheidungsbaums von der Wurzel zu den Blättern (top down) sind nur noch wenige Daten übrig oder gehören (fast) alle zur gleichen Klasse, dann erzeuge Blattknoten bestimme andernfalls das beste Split-Kriterium, teile die Daten entsprechend auf; erzeuge eine Knoten mit dem Split-Kriterium und einem linken und rechten Teilbaum, die durch Rekursion auf den beiden Teilen der Daten erzeugt werden Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 83

10 Generieren von Entscheidungsbäumen 1 Node decisiontree(data d) { 2 // Blattknoten, falls Daten rein 3 if (ispure(d)) { 4 return Leaf(majorityClass(d)); 5 } 6 7 // Bestimme bestes Split - Kriterium 8 Condition c = bestsplit(d); 9 10 // Teile Daten gemäß Split - Kriterium 11 Data ld, rd = split(d, c) // Generiere Teilbäume 14 Node lc = decisiontree(ld); 15 Node rc = decisiontree(rd); return new Node(c, lc, rc); 18 } Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 84

11 Split-Kriterien: Ordinale und metrische Merkmale Für ordinale und metrische Merkmale, auf denen eine Ordnung definiert ist, verwendet man ein Split-Kriterium x (i,j) <a mit einem zu bestimmenden Schwellwert a Zwar gibt es unendlich viele Werte für den Schwellwert a; bei der Bestimmung des besten Split-Kriteriums reicht es jedoch, die in den Daten vorkommenden Werte des Merkmals als mögliche Schwellwerte zu betrachten, damit sind alle möglichen Aufteilungen der Daten abgedeckt Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 85

12 Split-Kriterien: Ordinale und metrische Merkmale Implementierungen (z.b. in scikit-learn) betrachten für metrische Merkmale teilweise Zwischenwerte der in den Daten vorkommenden Werte Beispiel: Kommen in den Daten die Werte 1, 3, 4, 7 vor, so werden die Werte als 2, 3.5, 5.5 als Schwellwerte verwendet 86

13 Split-Kriterien: Nominale Merkmale Für nominale Merkmale (z.b. Geschlecht oder Farbe) wird eine Teilmenge der möglichen Werte A identifiziert; das Split-Kriterium ist dann x (i,j) œ A Zur Bestimmung des besten Split-Kriteriums, müssen alle Teilmengen, der in den Daten auftretenden Werte des Merkmals betrachtet werden; zwar sind dies exponentiell viele, aber nominale Merkmale haben oft nur wenige mögliche Werte Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 87

14 Auswahl des besten Split-Kriteriums Um das beste Split-Kriterium zu finden, müssen alle Merkmale und alle möglichen Split-Kriterien darauf betrachtet und bewertet werden Informationsgewinn (information gain) mit C als Klasse der Daten und S {l, r} als Seite gemäß Split-Kriterium I(C, S) =H(C) H(C S) Gini-Index misst Ungleichverteilung der Klassen in Daten G(D) =1 ÿ cœc P[c D ] 2 Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 88

15 Stutzen von Entscheidungsbäumen Führt man die rekursive Generierung durch, bis nur noch Datenpunkte einer Klasse in jedem Blatt enthalten sind, so erhält man einen tiefen Entscheidungsbaum, der zur Überanpassung (overfitting) an die Daten neigt Beende rekursive Generierung (ispure), sobald eine oder mehrere der folgenden Bedingungen erfüllt sind eine maximale Tiefe maxdepth ist erreicht es sind nur noch weniger als minsize Datenpunkte übrig mehr als minpercentage Prozent der Datenpunkte gehören zur vorherrschenden Klasse (majorityclass) Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 89

16 Beispiel Entscheidungsbäume Beispiel: Risiko nach Alter und Fahrzeugtyps des Fahrers Alter Fahrzeugtyp Risiko 25 Sportwagen gering 20 Oldtimer hoch 25 Sportwagen gering 45 SUV hoch 20 Sportwagen hoch 25 SUV hoch Vollständiger Entscheidungsbaum mit Informationsgewinn als Gütemaß für Split-Kriterien soll erstellt werden Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 90

17 Beispiel Entscheidungsbäume Alter Fahrzeugtyp Risiko 25 Sportwagen gering 20 Oldtimer hoch 25 Sportwagen gering 45 SUV hoch 20 Sportwagen hoch 25 SUV hoch 91

23 Entscheidungsbäume in Python import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score from sklearn.tree import export_graphviz ## Autodaten laden cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') ## Leistung und Gewicht als Datenmatrix extrahieren X = cars.iloc[:, [3,4]].values # Herkunft (U.S.A., Japan, Europa) als Vorhersagevektor extrahieren y = cars.iloc[:, 7].values # Daten in Trainingsdaten (80%) und Testdaten (20%) aufteilen X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0) # Entscheidungsbaum erstellen tree = DecisionTreeClassifier(criterion='entropy') tree.fit(x_train,y_train) y_predicted = tree.predict(x_test) Vollständiges Jupyter-Notebook unter:

24 Interpretierbarkeit von Entscheidungsbäumen Interpretierbarkeit als Vorteil von Entscheidungsbäumen Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer Entscheidungsregel, wie (auch ungesehene) Datenpunkte zu klassifizieren sind Beispiel: wiegt ein Auto mehr als 2959,5 Pfund und hat mehr als 134 PS, dann kommt es aus den U.S.A. Gewicht [lbs] <= entropy = samples = 174 value = [65, 44, 65] class = U.S.A. Gewicht [lbs] <= entropy = 1.33 samples = 313 value = [195, 53, 65] class = U.S.A. True False Leistung [hp] <= entropy = samples = 139 value = [130, 9, 0] class = U.S.A. entropy = samples = 37 value = [3, 12, 22] class = Japan entropy = samples = 137 value = [62, 32, 43] class = U.S.A. entropy = samples = 72 value = [63, 9, 0] class = U.S.A. entropy = 0.0 samples = 67 value = [67, 0, 0] class = U.S.A. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 98

25 3.6 Ensemble Learning Ensemble Learning trainiert mehrere Klassifikatoren auf den Trainingsdaten, oder Teilen davon, und aggregiert deren Vorhersagen Der resultierende Meta-Klassifikator besitzt in der Regel eine höhere Verallgemeinerungsfähigkeit, d.h. geringere Überanpassung, und höhere Robustheit, d.h. bessere Vorhersagegüte 99

26 Mehrheitsentscheidung Trainiere m Klassifikatoren auf den Trainingsdaten bei Verwendung verschiedener Verfahren (z.b. logistische Regression und Entscheidungsbaum) können die gesamten Trainingsdaten verwendet werden bei Verwendung eines einzelnen Verfahrens werden zufällige Teilmengen der Trainingsdaten verwendet Für neuen Datenpunkt x wird mit allen Klassifikatoren eine Vorhersage bestimmt Endgültige Vorhersage ist dann die am häufigsten von den m Klassifikatoren vorhergesagte Klasse 100

27 Mehrheitsentscheidung Nehmen wir an, dass die m Klassifikatoren unabhängig voneinander sind und eine Fehlerquote ε besitzen Bei Mehrheitsentscheidung muss mindestens die Hälfte der Klassifikatoren eine Fehlentscheidung treffen, damit ein Datenpunkt falsch klassifiziert wird Die Fehlerquote des Meta-Klassifikators entspricht damit mx m k (1 ) m k k k=dm/2e 101

28 Mehrheitsentscheidung Beispiel: Bei 9 Klassifikatoren und einer Fehlerquote von ε = 0.2 hat der resultierende Meta-Klassifikator eine Fehlerquote von

29 Mehrheitsentscheidung in Python import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.neighbors import KNeighborsClassifier from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import VotingClassifier from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score, accuracy_score ## Autodaten laden cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') ## Leistung und Gewicht als Datenmatrix extrahieren X = cars.iloc[:, [3,4]].values # Herkunft (U.S.A., Japan, Europa) als Vorhersagevektor extrahieren y = cars.iloc[:, 7].values # Daten in Trainingsdaten (80%) und Testdaten (20%) aufteilen X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0) # Logistische Regression lr = LogisticRegression() # k-nächste Nachbarn (k=3) knn = KNeighborsClassifier(n_neighbors=3) # Entscheidungsbaum tree = DecisionTreeClassifier(criterion='entropy') 103

30 Mehrheitsentscheidung in Python # Mehrheitsentscheidung vc = VotingClassifier(estimators=[('lr',lr),('knn',knn), ('tree', tree)], voting='hard') vc.fit(x_train, y_train) y_predicted = vc.predict(x_test) # Konfusionsmatrix ausgeben print("konfusionsmatrix:\n", confusion_matrix(y_true=y_test, y_pred=y_predicted)) ## Gütemaße ausgeben print("korrektklassifizierungsrate:\n", accuracy_score(y_true=y_test, y_pred=y_predicted)) print("präzision (mikro):\n", precision_score(y_true=y_test, y_pred=y_predicted, average='micro')) print("ausbeute (mikro):\n", recall_score(y_true=y_test, y_pred=y_predicted, average='micro')) print("f1 (mikro):\n", f1_score(y_true=y_test, y_pred=y_predicted, average='micro')) Vollständiges Jupyter-Notebook unter:

31 Bagging Bagging (kurz für: bootstrap aggregation) kombiniert mehrere auf zufälligen Teilmengen der Trainingsdaten trainierte Klassifikatoren Die Teilmengen werden durch Ziehen mit Zurücklegen (bootstrapping) bestimmt 105

32 Bagging Trainiere m Klassifikatoren auf zufälligen Stichproben der Trainingsdaten und fasse ihre Vorhersagen durch Mehrheitsentscheidung zusammen Trainingsdaten Stichprobe 1 Klassifikator 1 Vorhersage 1 Stichprobe n Klassifikator n Vorhersage n Vorhersage 106

33 Bagging in Python import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import BaggingClassifier from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score, accuracy_score ## Autodaten laden cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') ## Leistung und Gewicht als Datenmatrix extrahieren X = cars.iloc[:, [3,4]].values # Herkunft (U.S.A., Japan, Europa) als Vorhersagevektor extrahieren y = cars.iloc[:, 7].values # Daten in Trainingsdaten (80%) und Testdaten (20%) aufteilen X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0) # Entscheidungsbaum erstellen tree = DecisionTreeClassifier(criterion='entropy') 107

34 Bagging in Python # Bagging basierend auf 10 Stichproben bc = BaggingClassifier(base_estimator=tree, n_estimators=10) bc.fit(x_train, y_train) y_predicted = bc.predict(x_test) # Konfusionsmatrix ausgeben print("konfusionsmatrix:\n", confusion_matrix(y_true=y_test, y_pred=y_predicted)) ## Gütemaße ausgeben print("korrektklassifizierungsrate:\n", accuracy_score(y_true=y_test, y_pred=y_predicted)) print("präzision (mikro):\n", precision_score(y_true=y_test, y_pred=y_predicted, average='micro')) print("ausbeute (mikro):\n", recall_score(y_true=y_test, y_pred=y_predicted, average='micro')) print("f1 (mikro):\n", f1_score(y_true=y_test, y_pred=y_predicted, average='micro')) Vollständiges Jupyter-Notebook unter:

35 Boosting Boosting trainiert eine Folge von Klassifikatoren auf Stichproben der Trainingsdaten, die derart gezogen werden, dass fehlerhaft klassifizierte Datenpunkte für spätere Klassifikatoren bevorzugt werden Schritt 1: Trainiere ersten Klassifikator auf Teilmenge S 1 der Trainingsdaten, die durch Ziehen ohne Zurücklegen ermittelt wird 109

36 Boosting Schritt 2: Trainiere zweiten Klassifikator auf Teilmenge S 2, die durch Ziehen ohne Zurücklegen ermittelt wird und zusätzlich 50% der falsch klassifizierten Datenpunkte aus der Teilmenge S 1 enthält Schritt 3: Trainiere dritten Klassifikator auf Teilmenge S 3, die aus den Datenpunkten besteht, die die beiden ersten Klassifikatoren unterschiedlich klassifiziert haben Um einen neuen Datenpunkt zu klassifizieren, werden die Vorhersagen der drei Klassifikatoren durch Mehrheitsentscheid zusammengefasst 110

37 Boosting fehklassifiziert Trainingsdaten widersprüchlich Stichprobe 1 Stichprobe 2 Stichprobe 3 Klassifikator 1 Vorhersage 1 Klassifikator 2 Vorhersage 2 Klassifikator 3 Vorhersage 3 Vorhersage 111

38 AdaBoost Adaptives Boosting, als populäre Variante des Boosting, trainiert eine Folge von Klassifikatoren, wobei durch die bisherigen Klassifikatoren fehlklassifizierte Datenpunkte jeweils ein höheres Gewicht beim nächsten Training erhalten 112

39 AdaBoost in Python import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import AdaBoostClassifier from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score, accuracy_score ## Autodaten laden cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') ## Leistung und Gewicht als Datenmatrix extrahieren X = cars.iloc[:, [3,4]].values # Herkunft (U.S.A., Japan, Europa) als Vorhersagevektor extrahieren y = cars.iloc[:, 7].values # Daten in Trainingsdaten (80%) und Testdaten (20%) aufteilen X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0) # Entscheidungsbaum tree = DecisionTreeClassifier(criterion='entropy') 113

40 AdaBoost in Python # AdaBoost mit 10 Klassifikatoren bc = AdaBoostClassifier(base_estimator=tree, n_estimators=50) bc.fit(x_train, y_train) y_predicted = bc.predict(x_test) # Konfusionsmatrix ausgeben print("konfusionsmatrix:\n", confusion_matrix(y_true=y_test, y_pred=y_predicted)) ## Gütemaße ausgeben print("korrektklassifizierungsrate:\n", accuracy_score(y_true=y_test, y_pred=y_predicted)) print("präzision (mikro):\n", precision_score(y_true=y_test, y_pred=y_predicted, average='micro')) print("ausbeute (mikro):\n", recall_score(y_true=y_test, y_pred=y_predicted, average='micro')) print("f1 (mikro):\n", f1_score(y_true=y_test, y_pred=y_predicted, average='micro')) Vollständiges Jupyter-Notebook unter:

41 Zusammenfassung Informationstheorie stellt z.b. das Maß Entropie bereit, mit dem sich der Informationsgehalt messen lässt Entscheidungsbäume als diskriminatives Verfahren zur Klassifikation in zwei oder mehr Klassen, dessen Ergebnis als Entscheidungsregeln interpretierbar ist Ensemble Learning trainiert mehrere Klassifikatoren und fasst deren Vorhersagen zusammen, um eine höhere Verallgemeinerungsfähigkeit und eine höhere Robustheit zu erreichen Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation 115

42 Literatur [1] S. Raschka: Machine Learning in Python, mitp, 2017 (Kapitel 3.6) [2] M. J. Zaki und W. Meira: Data Mining and Analysis, Cambridge University Press, 2014 (Kapitel 19) 116