Vorlesung. Machine Learning - Entscheidungsbäume

Transkript

1 Vorlesung Machine Learning - Entscheidungsbäume

2 Vorlesung Machine Learning - Entscheidungsbäume

3

4 Entscheidungsbaum Werte: diskret oder kontinuierlich? Typen von Tests (z.b. bei numerischen Werten: Test auf Gleichheit oder ob der Wert innerhalb eines Intervalls liegt usw.) Univariate vs. Multivariate Tests: Anzahl der Tests pro Knoten

5 Entscheidungsbaum Ausschließlich univariate binärwertige Entscheidungsbäume...?

6 Entscheidungsbaum Ausschließlich univariate binärwertige Entscheidungsbäume...? Ein Entscheidungsbaum mit ausschließlich univariaten binären Tests kann als aussagenlogische Formel in DNF aufgefasst werden. Disjunktion der Pfade, die von der Wurzel zu den Blättern führen die Pfade sind Konjunktionen von Tests mit ihren Resultaten

7 Entscheidungsbaum Bei Entscheidungsbäumen, die ausschließlich binäre Tests haben, unterscheiden sich die Entscheidungsbäume durch die Reihenfolge der Tests. Wenn auch numerische Werte zulässig sind, dann muss außerdem entschieden werden, welche Tests angewendet werden sollen.

8 Definition: Entscheidungsbaumlernen Lernaufgabe: Funktionslernen aus Beispielen Gegeben: eine Menge X von Instanzen Instanzen werden durch Attribute beschrieben Attribute haben numerische oder diskrete Werte Menge Y von diskreten Klassenwerten L H : Menge der aus den Attributen und Werten konstruierbaren Entscheidungsbäume

9 Komplexität Attribute können in beliebiger Reihenfolge in den Pfaden von Entscheidungsbäumen vorkommen Die Anzahl der Attribute geht als Exponent in die Anzahl der konstruierbaren Entscheidungsbäume ein Generierung aller Entscheidungsbäume nicht praktikabel

10 TDIDT Top down induction of decision trees Beginnend mit der Wurzel: Welches Attribut würde lokal die beste Klassifikationsleistung liefern?

11 Entscheidungsbaumlernen mit ID3

12 Übersicht 1. Einführung 2. Grundlegende Definitionen 3. Der ID3 Algorithmus 4. Gain Ratios verwenden 5. C4.5 und Erweiterungen 6. Entscheidungsbaum-Pruning und Ableiten von Regeln

13 1. Einführung ID3 und C4.5 Algorithmen, die Ross Quinlan für das Erzeugen von Klassifikationsmodellen (Entscheidungsbäumen) eingeführt hat. Gegeben: Satz von Beispielen, gleiches Schema, Attribut/Werte-Paare Ziel ist auch Attribut/Werte-Paar (meistens binär) Problem: Erzeugen eines Entscheidungsbaumes, der auf der Basis der Beispiele (ohne Zielattribute) den Wert des Zielattributes korrekt vorhersagt.

14 1. Einführung Beispiel: Wetterbedingungen zum Golfspielen Ziel: Golfspielen (ja/nein) Hier die nicht-ziel-attribute: Attribut mögl. Werte outlook sunny, overcast, rain temperature continuous humidity continuous windy true, false

15 1. Einführung Trainingsdaten Outlook Temperature Humidity Windy Play sunny FALSE don't play sunny TRUE don't play overcast FALSE play rain FALSE play rain FALSE play rain TRUE don't play overcast TRUE play sunny FALSE don't play sunny FALSE play rain FALSE play sunny TRUE play overcast TRUE play overcast FALSE play rain TRUE don't play Besonderheiten: Temperature & Humidity sind kontinuierliche Werte ID3 kann das nicht ohne weiteres verarbeiten

16 Weiteres Beispiel r Patrons ( r, Full ) WaitEstima te ( r,10 30 ) Hungry ( r, N ) WillWait ( r)

17 1. Einführung Entscheidungsbäume sind nicht interessant, weil sie zusammenfassen, was wir schon wissen (Trainingsdaten), sondern weil sie neue Fälle korrekt klassifizieren können. Deswegen: Trainingsdaten Testdaten zur Güteüberprüfung Trainingsdaten braucht man, um das Modell zu konstruieren Testdaten braucht man, um das Modell zu prüfen

18 1. Einführung Die Idee von ID3 Jeder Knoten in dem Entscheidungsbaum korrespondiert zu einem Attribut (ohne das Zielattribut). Jede Kante zwischen den Knoten korrespondiert zu einem möglichen Wert des Attributes. Ein Blatt spezifiziert den Erwartungswert des Zielattributes für die Beispiele, die durch den Pfad von der Wurzel zum Blatt beschrieben werden. [Entscheidungsbaumdefinition] In dem Baum sollte an einem Knoten das Attribut assoziiert werden, das am informativsten ist (von denen, die in dem Pfad noch nicht betrachtet worden sind). [ guter Entscheidungsbaum ] Um zu messen, wie informativ ein Attribut ist, wird die Entropie verwendet. [Claude Shannon, Information Theory] C4.5 ist eine Erweiterung von ID3 Für missing values, kontinuierliche Wertebereiche, Pruning, Regelableitung, etc.

19

20

21 2. Grundlegende Definitionen Diskrete Quelle X = x 1,...,x n ein endlicher Zeichenvorrat mit n Elementarzeichen Auftrittswahrscheinlichkeit p(x 1 ) = 1/n Informationsgehalt eines Zeichens x k ist I(x k ) = log 2 (1/p(x k )) bit d.h., wenn 16 Zeichen, dann log 2 (16) = 4 4 Bits für die Identifikation eines Zeichens Da p(x 1 ) max 1 ist I(x k ) positiv. Je unwahrscheinlicher das Zeichen, desto größer I(x k ). Generell: Gegeben: Wahrscheinlichkeitsverteilung P(x 1,x 2,...,x n ) Entropie (mittlerer Informationsgehalt einer Quelle) von P I(P) = -(x 1 * log 2 (x 1 ) + x 2 * log 2 (x 2 ) x n * log 2 (x n ))

22 2. Grundlegende Definitionen Beispiele: P = (0.5,0.5) I(P) = 1 P = (0.67, 0.33) I(P) = 0.92 P = (1,0) I(P) = 0 Wichtig: Je gleichverteilter die Wahrscheinlichkeitsverteilung, desto größer ist ihre Information

23 2. Grundlegende Definitionen T sind Beispiele, die in disjunkte Klassen C 1, C 2,..., C n aufgeteilt sind (Basis: die Werte des Zielattributes). Die Information, die benötigt wird, um die Klasse eines Elementes von T zu identifizieren ist Info(T) = I(P), wobei P die Wahrscheinlichkeitsverteilung der Klassen C 1, C 2,..., C n ist. C C C n P,..., 1 2, T T T Info ( T ) I 9 14 Golfbeispiel:, Outlook Temperature Humidity Windy Play sunny FALSE don't play sunny TRUE don't play overcast FALSE play rain FALSE play rain FALSE play rain TRUE don't play overcast TRUE play sunny FALSE don't play sunny FALSE play rain FALSE play sunny TRUE play overcast TRUE play overcast FALSE play rain TRUE don't play

24 2. Grundlegende Definitionen Wenn man T in Partitionen von T 1, T 2,..., T n aufteilt (Basis: die Werte eines Nicht-Zielattributes X), dann ist die Information, die benötigt wird, um ein Element von T einer Klasse zuzuordnen das gewichtete Mittel der Information, die benötigt wird, um die Klasse eines Elementes von T i zu identifizieren, d.h., das gewichtete Mittel von Info(T i ). Info ( X, T ) i n 1 T T i Info ( T i ) Golfbeispiel: Info ( Outlook, T ) I (, ) I (,0) I ( 5, 2 )

25 2. Grundlegende Definitionen Golfbeispiel: Info ( Outlook, T ) I (, ) I (,0) I ( 5, 2 ) Outlook Temperature Humidity Windy Play sunny FALSE don't play sunny TRUE don't play overcast FALSE play rain FALSE play rain FALSE play rain TRUE don't play overcast TRUE play sunny FALSE don't play sunny FALSE play rain FALSE play sunny TRUE play overcast TRUE play overcast FALSE play rain TRUE don't play

28 2. Grundlegende Definitionen Gain(X,T): Die Differenz zwischen der Information, die benötigt wird, um ein Element von T zu identifizieren und der Information, die benötigt wird, um ein Element von T zu identifizieren, nachdem der Wert des Attributes X bekannt ist. Das ist der Gewinn an Informationsgehalt durch das Attribut X. Gain ( X, T ) Info ( T ) Info ( X, T ) Golfbeispiel: Gain ( Outlook, T ) Info ( T ) Info ( Outlook, T ) Aber: Info(Windy,T) = und Gain(Windy,T) = Outlook bietet mehr Zunahme an Informationsgehalt!

29 2. Grundlegende Definitionen Gain Ranking zwischen Attributen möglich Erzeugen des Baumes dadurch möglich Was will man dadurch erreichen? Möglichst kleine Entscheidungsbäume, so dass Beispiele schon nach einigen Fragen identifiziert werden können Okham s Razor: Wir suchen nach einem Muster, das eine große Anzahl von Beispielen abdeckt und das in einer kurzen und knappen Form. Dieses Beispiel des generelles Prinzips von Induktionslernen wird auch Ockham s razor genannt. Die wahrscheinlichste Hypothese ist die einfachste, die mit allen Beobachtungen konsistent ist.

30 Entscheidungsbaumalgorithmus

31 Beispiel r Patrons ( r, Full ) WaitEstima te ( r,10 30 ) Hungry ( r, N ) WillWait ( r)

32 Trainings-Set.

33 Beispiel 12 Trainingsbeispiele Positiv/negativ Klassifikation Entscheidung, welches Attribut zuerst (a) zeigt, das Patrons wichtig ist, weil für None und Some eindeutig sind (b) zeigt, das Type kein gutes Attribut ist, weil vier Optionen mit jeweils pos./neg. Werten Wir checken jedes Attribut auf diesem Weg und entscheiden uns für das beste (c) jetzt wird gesplittet. Jede Option ist ein neuer Baum mit weniger Beispielen und einem Attribut weniger

34 Beispiel 4 Fälle sind für dieses rekursive Problem zu beachten: 1) wenn pos. und neg. Bsp. vorhanden, dann wähle bestes Attribut zum Splitten (c) 2) wenn alle übrig gebliebenen Bsp. positiv (oder negativ), dann fertig (c) 3) wenn keine Beispiele mehr vorhanden sind Bsp. wurde nicht beobachtet, return default, z.b. Majority 4) wenn keine Attribute mehr, aber pos. und neg. Bsp. Problem. Gleiche Daten haben unterschiedliche Klassen. Nicht korrekte Daten NOISE, Rückgabe: z. B. Majority

35 Ergebnis aus Restaurantbeispiel Entscheidungsbaum aus Beispiel

36 Ergebnis Baum nach Algorithmus, Raining und Reservations sind nicht notwendig, um zu einer Entscheidung zu kommen, die Klassifikationen werden auch ohne sie richtig erstellt. Außerdem: Der Algorithmus hat eine Regularität entdeckt: Thai on Weekends

37 Problemfall Problem: kein Fall, wo das Restaurant voll ist, und das Warten zwischen 0 und 10 min ist. Wenn Hungry false ist, würde der Baum nicht warten, aber der Gast würde. Die Frage ist: Wie inkorrekt ist der Baum? Wenn er alle Beispiele konsistent abdeckt, heißt das nicht, dass er auch für andere Beispiele korrekt ist.

38 4. Gain Ratios verwenden Was passiert, wenn man Gain verwendet, wie wir es vorhin kennen gelernt haben? Attribute mit einer größeren Anzahl von Werten werden bevorzugt Bsp.: Attribut D hat jeweils einen Wert für die Beispiele. Info(D,T) ist 0, deswegen ist Gain(D,T) maximal. Quinlan hat deswegen folgendes vorgeschlagen: GainRatio ( D, T ) Gain ( D, T ) SplitInfo ( D, T ) SplitInfo(D,T) ist die Information durch die Aufteilung von T auf der Basis des Wertes des Zielattributes D.

39 4. Gain Ratios verwenden SplitInfo(D,T) ist die Information durch die Aufteilung von T auf der Basis des Wertes des Zielattributes D. I T1 2 T T, T,..., T m T Wobei (T 1, T 2,..., T m ) die Partition von T ist, die durch den Wert von D induziert wird

40 5. C4.5 und Erweiterungen C4.5 bietet eine Reihe von Erweiterungen in Bezug auf ID3 Bei der Konstruktion des Entscheidungsbaumes Trainingsdaten mit unbekannten Attributwerten Gain, GainRatios werden nur mit Attributwerten berechnet, die bekannt sind Beim Verwenden des Entscheidungsbaumes Klassifizieren von Beispielen mit unbekannten Attributwerten durch Wahrscheinlichkeiten Golfbsp.: Outlook Temperature Humidity Windy Play sunny FALSE don't play sunny TRUE don't play sunny 71 unknown TRUE?

41 5. C4.5 und Erweiterungen Outlook Temperature Humidity Windy Play sunny FALSE don't play sunny TRUE don't play overcast FALSE play rain FALSE play rain FALSE play rain TRUE don't play overcast TRUE play sunny FALSE don't play sunny FALSE play rain FALSE play sunny TRUE play overcast TRUE play overcast FALSE play rain TRUE don't play sunny 80 unknown TRUE don't play overcast p la y <= 75 p la y su n ny h u m id ity? O u tlo ok > 75 d o n 't p lay ra in w in d y true d o n 't p lay fa lse p la y Von Outlook über sunny nach humidity? Wir kennen den Wert von humidity nicht, sehen aber, dass wenn die humidity höchstens 75% ist, wir 2x play haben

42 5. C4.5 und Erweiterungen Outlook Temperature Humidity Windy Play sunny FALSE don't play sunny TRUE don't play overcast FALSE play rain FALSE play rain FALSE play rain TRUE don't play overcast TRUE play sunny FALSE don't play sunny FALSE play rain FALSE play sunny TRUE play overcast TRUE play overcast FALSE play rain TRUE don't play sunny 80 unknown TRUE don't play overcast p la y <= 75 p la y su n ny h u m id ity? O u tlo ok > 75 d o n 't p lay ra in w in d y true d o n 't p lay fa lse p la y Wenn die humidity > 75% ist, haben wir 3x don t play Also: die Wahrscheinlichkeit ist 40% play zu 60% don t play

43 5. C4.5 und Erweiterungen Wie verhält sich das mit kontinuierlichen Attributwerten? Sei C i ein Attribut mit kontinuierlichen Werten Untersuchung der Werte des Attributes in der Trainingsmenge Es seien A 1, A 2,..., A m unterschiedliche Werte vorhanden (aufsteigende Reihenfolge) Dann wird für jeden Wert A j, j=1,...,m die Beispiele partitioniert derart, dass eine Partition A j und eine Partition > A j. Für jede Partition Gain, GainRatio ausrechnen und die Partition mit dem maximalen Gain selektieren. Golfbeispiel: Beste Partition bei 75, der Wertebereich für das Attribut Humidity ist dann {<=75,>75} Nachteil: viele Rechenschritte

44 6. Pruning und Ableiten von Regeln Entscheidungsbaum korrekt (meistens) für die Trainingsdaten Aber: Pfade manchmal sehr komplex und viel zu lang Pruning durch Abschneiden ganzer Äste Ersatz eines Astes durch ein Blatt Substitution dann, wenn der erwartete Fehler des Subbaumes größer ist, als durch ein einzelnes Blatt Vermeidung von Overfitting Vorhersagequalität des Gesamtbaumes ist besser, wenn schlechte Teilbäume abgeschnitten werden

45 6. Pruning und Ableiten von Regeln Schätzung des wahren Fehlers

46 7. Testen der Ergebnisse Baum erzeugt durch ID3 oder C4.5 Aussage nur über Trainingsdaten 14 Bsp. werden korrekt klassifiziert Überschätzung des Modells O u tlo ok Trainings- und Testset Aufsplittung der Daten in zwei Datensätze o ve rca st su n ny ra in Evaluationsmethoden? Gütetest der Vorhersage Gebräuchlich: Cross Validation Jackknifing p la y <= 75 p la y h u m id ity > 75 d o n 't p lay true d o n 't p lay w in d y fa lse p la y

47 7. Testen der Ergebnisse Evaluation Absolut unverzichtbar ist eine nachvollziehbare Prüfung der Qualität der Modelle Getestet werden dabei die prädiktiven Fähigkeiten der verschiedenen Methoden und deren unterschiedlichen Parameterausprägungen die Werte für eine Reihe von Stichprobenpunkten vorherzusagen. Cross Validation Sehr gebräuchlich Schätzt den globalen Fehler basierend auf resampling Diese Fehler werden oft dazu benutzt, um Modelle anderen Modellen vorzuziehen Bsp.: Netzwerk-Topologien bei neuronalen Netzen

48 7. Testen der Ergebnisse K-fold Cross Validation Datensatz in k gleich große Subsets splitten Modell k-mal trainieren, jedes mal einen Subset beim trainieren auslassen Diesen Subset dazu benutzen, den Fehler zu bestimmen (Vorhersagegüte) Wenn k = Anzahl der Trainingsbeispiele, dann leave-one-out cross validation Populär: k=10 Kein Replacement (wenn Bsp. für Trainings-Testset ausgewählt, dann kann es nicht noch einmal ausgewählt werden)

49 7. Testen der Ergebnisse Jackknifing Leicht verwechselbar mit leave-one-out cross validation Beide Verfahren lassen einen Subset aus und trainieren mit den restlichen Aber: Cross Validation für generellen Fehler Jackknife für das Schätzen der Abweichungen von statistischen Kennwerten Statistiken für jedes Subset, die Mittelwerte dieser Subsets werden dann mit denen des Gesamtdatensatzes verglichen

50 Prediction is very difficult, especially about the future. Niels Bohr ( )