3. Lernen von Entscheidungsbäumen

3. Lernen von Entscheidungsbäumen Entscheidungsbäume 3. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden. Ein Entscheidungsbaum liefert eine Entscheidung für die Frage, welcher Klasse ein betreffendes Objekt zuzuordnen ist. Beispiel 3.1. Gegeben seien die Beschreibungen von Bankkunden. Die Bankkunden können in die beiden Klassen kreditwürdig und nicht kreditwürdig eingeteilt werden. Ein Entscheidungsbaum soll eine Entscheidung liefern, ob ein Kunde kreditwürdig ist oder nicht. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 109 3. Lernen von Entscheidungsbäumen Entscheidungsbäume Entscheidungsbaum Ein Entscheidungsbaum ist ein Baum mit den folgenden Eigenschaften: Ein Blatt repräsentiert eine der Klassen. Ein innerer Knoten repräsentiert ein Attribut. Eine Kante repräsentiert einen Test auf dem Attribut des Vaterknotens. Geht man von nur zwei Klassen aus, repräsentiert der Entscheidungsbaum eine boolsche Funktion. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 110

3. Lernen von Entscheidungsbäumen Entscheidungsbäume Klassifikation mit Entscheidungsbäumen Ein neues Objekt wird mit Hilfe eines Entscheidungsbaums klassifiziert, indem man ausgehend von der Wurzel jeweils die den Knoten zugeordneten Attribute überprüft und so lange den Kanten folgt, die mit den Attributwerten des Objekts markiert sind, bis man einen Blattknoten erreicht. Der dem Blattknoten zugeordnete Wert entspricht der Klasse, der das Objekt zugeordnet wird. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 111 3. Lernen von Entscheidungsbäumen Entscheidungsbäume Beispiel 3.2. Ein Entscheidungsbaum zur Risikoabschätzung für eine KFZ-Versicherung: Autotyp = LKW <> LKW Risikoklasse = niedrig Alter > 60 <= 60 Risikoklasse = niedrig Risikoklasse = hoch Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 112

3. Lernen von Entscheidungsbäumen Entscheidungsbäume Soll man auf einen freien Tisch im Restaurant warten? Patrons? None Some Full No >60 30 60 10 30 0 10 Alternate? Reservation? Bar? Yes WaitEstimate? Fri/Sat? Hungry? No Yes Yes Alternate? Yes Yes Raining? Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 113 3. Lernen von Entscheidungsbäumen Entscheidungsbäume Entscheidungsbäume und Regeln Entscheidungsbäume repräsentieren Regeln in kompakter Form. Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer logischen Formel in der Form einer if-then-regel. Beispiel 3.3. Der Entscheidungsbaum aus Beispiel 3.2 entspricht den folgenden Regeln: if Autotyp LKW then Risikoklasse = niedrig, if Autotyp LKW and Alter 60 then Risikoklasse = niedrig, if Autotyp LKW and Alter 60 then Risikoklasse hoch. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 114

3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Problem der Generierung von Entscheidungsbäumen Ziel ist es, aus einer Menge von Beispielen (der sogenannten Trainingsmenge) einen Entscheidungsbaum zu generieren. Ein Beispiel der Trainingsmenge besteht aus einer Menge von Attribut/Wert-Paaren zusammen mit der Klassifikation. Aus dieser Trainingsmenge ist ein Entscheidungsbaum aufzubauen, der die Beispiele richtig klassifiziert. Für so einen generierten Entscheidungsbaum hofft man, daß dieser auch Beispiele, die nicht aus der Trainingsmenge stammen, mit hoher Wahrscheinlichkeit richtig klassifiziert. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 115 3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Beispiel 3.4. Trainingsmenge für den Baum aus Beispiel 3.2: ID Alter Autotyp Risikoklasse 1 23 Familie hoch 2 18 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 116

3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Naiver Ansatz der Generierung: Man entscheidet streng sequentiell anhand der Attribute. Jeder Baumebene ist ein Attribut zugeordnet. Der Baum wird dann konstruiert, in dem für jedes Beispiel ein Pfad erzeugt wird. Tafel. Keine sinnvolle Generalisierung auf andere Fälle Overfitting Entscheidungsbaum mit vielen Knoten Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 117 3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Beispiel 3.5. Zwei Entscheidungsbäume für die Trainingsmenge aus Beispiel 3.4: Autotyp Alter = LKW <> LKW < 30 >= 30 and <= 60 > 60 Risikoklasse = niedrig Alter Risikoklasse = hoch Autotyp Risikoklasse = niedrig > 60 <= 60 <> LKW = LKW Risikoklasse = niedrig Risikoklasse = hoch Risikoklasse = hoch Risikoklasse = niedrig Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 118

3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Ziel der Generierung ist es, einen Baum aufzubauen, der die Beispiele der gegebenen Trainingsmenge korrekt klassifiziert und der möglichst kompakt ist. Bevorzuge die einfachste Hypothese, die konsistent mit allen Beobachtungen ist. Occam s Razor (William of Occam, engl. Philosoph 1285 1349): One should not increase, beyond what is necessary, the number of entities required to explain anything. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 119 3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Prinzip der Generierung Man teste das wichtigste Attribut zuerst! Die Wichtigkeit hängt von der Differenzierung der Beispielmenge ab. Die Beispielmenge wird gemäß der Attributwerte des ausgewählten Attributs auf die Söhne verteilt. Man setze dieses Prinzip in jedem Unterbaum für die diesem Unterbaum zugeordnete Beispielmenge fort. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 120

3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Trainingsmenge zum Thema Kinobesuch : Nr. Attr. Preis Loge Wetter Warten Bes. Kat. Land Res. Gr. Kino? 1 + $$ ja - ja + AC int ja F ja 2 o $ ja o nein o KO int nein P ja 3 o $ nein o ja o DR int nein F nein 4 - $ ja o ja o SF int nein a nein 5 o $ ja o nein o DR int nein P ja 6 + $$ ja + nein + SF int ja F ja 7 o $ ja - nein o KO nat nein F ja 8 o $ nein - ja o AC int nein F ja 9 - $ ja + nein o KO nat nein F nein 10 o $ ja + nein o KO int nein P nein 11 + $ ja o ja + DR int nein P ja 12 o $ nein - ja o AC nat nein a nein 13 + $$ ja o ja o SF int nein a nein 14 o $ ja + ja + DR int ja F nein 15 o $ ja - nein o AC int nein P ja Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 121 3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Attributauswahl für das Kinoproblem: ja: 1, 2, 5, 6, 7, 8, 11, 15 nein: 3, 4, 9, 10, 12, 13, 14 Gruppe F a P ja: 1, 6, 7, 8 nein: 3, 9, 14 ja: nein: 4, 12, 13 ja: 2, 5, 11, 15 nein: 10 ja: 1, 2, 5, 6, 7, 8, 11, 15 nein: 3, 4, 9, 10, 12, 13, 14 Kategorie DR AC KO SF ja: 5, 11 nein: 3, 14 ja: 1, 8, 15 nein: 12 ja: 2, 7 nein: 9, 10 ja: 6 nein: 4, 13 Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 122

3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Bei der rekursiven Konstruktion können die folgenden Situationen auftreten: 1. Alle Beispiele zu einem Knoten haben die gleiche Klassifikation. Dann wird der Knoten mit der entsprechenden Klasse markiert und die Rekursion beendet. 2. Die Menge der Beispiele zu einem Knoten ist leer. In diesem Fall kann man eine Default-Klassifikation angeben. Man wählt zum Beispiel die Klasse, die unter den Beispielen des Vaters am häufigsten vorkommt. 3. Falls Beispiele mit unterschiedlicher Klassifikation existieren und es Attribute gibt, die noch nicht in den Vorgängerknoten verwendet wurden, dann wähle aus diesen Attributen ein Attribut gemäß seiner Wichtigkeit aus. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 123 3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Generiere für jeden möglichen Attributwert einen Nachfolgerknoten und verteile die Beispiele auf die Nachfolger gemäß ihres Attributwerts. Setze das Verfahren für jeden Nachfolger fort. 4. Falls Beispiele mit unterschiedlicher Klassifikation existieren, es aber kein noch nicht verwendetes Attribut gibt, dann ist die Trainingsmenge inkonsistent. Inkonsistent bedeutet hier, daß keine funktionale Abhängigkeit der Klassifikation von den Attributen existiert. Beispiel 3.6. Kinoproblem: Als Grad für die Wichtigkeit eines Attributs nehme man die Anzahl der Beispiele, die damit endgültig klassifiziert werden. Tafel. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 124

3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Algorithmus zur Konstruktion Algorithmus 3.1. [Entscheidungsbaum-Konstruktion] Entscheidungsbaum( )! "! #$ % &('*)+ -,.,0/1 %32 45.! " markiere mit4! ; #$ 6! ". #$ markiere mit einer Default-Klasse; Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 125. 78 3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen. 7 mögliche Partition9 von "! 1: ;9 2 besser als<=/., %! <>/., % &? 1@ ;A9 2!!! Sei<=/, % 1@ ;9 2 Seien9CB.EDFDEDG9IH ;.8J die Teilmengen von9 &? KL NMO ; erzeuge Knoten'QP als Sohn von P &? % % ; fällt in9 P Entscheidungsbaum(RPS A'QP )! Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 126

3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Partitionen für Attribute Typen von Partitionen fuer nominale Attribute Attribut Attribut =a1 =a2 =a3 in A1 in A2 Attribut Attribut <a1 <=a2 <=a3 < a >= a Typen von Partitiionen fuer numerische Attribute Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 127 Attributauswahl Die auf Algorithmus 3.1 basierenden Verfahren heißen Top-Down Induction of Decision Trees (TDIDT). Durch den schrittweisen Aufbau des Entscheidungsbaums wird die dadurch repräsentierte Hypothese schrittweise spezialisiert. Der Kern eines TDIDT-Verfahrens ist die Attributauswahl. Das Ziel bei der Attributauswahl ist es, den Baum möglichst klein zu halten. Ein ideales Attribut würde die verbleibende Beispielmenge exakt auf verschiedene Klassen aufteilen. Der ID3-Algorithmus formalisiert diese Idee durch die Berücksichtigung des Informationsgehaltes der Attribute. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 128

Informationsgehalt und Informationsgewinn Die mit einem Ereignis verbundene Information wird logarithmisch aus dessen Wahrscheinlichkeit berechnet. Den mittleren Informationsgehalt TU1:9 2 einer Wahrscheinlichkeitsverteilung9 über einer endlichen MengeV bezeichnet man als die Entropie von9 : TW1@9 2 X"Y[Z\9]1_^ 2a`_b(cd 9e1f^ 2 Wir stellen uns vor, daß in einer beliebigen Trainigsmenge jedes Beispiel die gleiche Wahrscheinlichkeit hat. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 129 3. Lernen von Entscheidungsbäumen g1@h 2 Die Algorithmen ID3 h und C4.5 Demnach ist der Informationsgehalt einer Beispielmenge miti positiven undm negativen Beispielen (genau zwei Klassen) g;1:h 2 &? T i ikj Mml M ikj M i inj M `fb(c d i ikj M M ikj M `_b(c d M ikj M bit Bei der Attributauswahl soll nun berücksichtigt werden, welchen Informationsgewinn man erhält, wenn man den Wert eines Attributs kennt. Dazu stellen wir fest, wieviel Information wir nach dem Test eines Attributs noch benötigen. Jedes Attribut teilt die Trainingsmenge h in o disjunkte Teilmenge hpb.gdgdgdghnq auf, wobei o die Anzahl der verschiedenen Werte 1@rB.EDFDGDGrpq 2 ist, die annehmen kann. TeilmengehmP habeisp positive undm P negative Beispiele. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 130

Der mittlere Informationsgehalt vonh P ist also 2 bit g1@hmp2 TU1 isp isptj M P l M P isptj M P Der mittlere Informationsgehalt der Antwort, nachdem wir Attribut getestet haben ist: g1@h bekannt2 q P+uvB 9]1@ẅ rlp2 g;1:h\p2 q PxuvB isptj M P ikj M TW1 i[p isptj M P l M P isptj M P Um den Informationsgewinny" JzM 1@ 2 von Attribut zu quantifizieren, bilden wir die Differenz der ursprünglichen Information (vor dem Test von ) und der Restinformation (nach dem Test von ): y" JzM 1@ 2 &{ g1@h 2 g1@h bekannt2 2 bit Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 131 Der ID3-Algorithmus Algorithmus 3.2. [ID3] Der ID3-Algorithmus ist eine Spezialisierung von Algorithmus 3.1, bei der die Relation besser für die Attributauswahl auf dem InformationsgewinnyR JzM 1@ 2 basiert. ID3 wählt als nächstes Attribut dasjenige aus, bei demy" JzM 1@ 2 maximal ist. Beispiel 3.7. Für die Wurzel des Kinoproblems haben wir yr JzM 1 Gruppe2 g1@h 2 g1@h Gruppe bekannt2 ƒ 2j D{}(}(~( KG TW1 l KG TW1 l K 2 j D{ (}(~ ƒ KG TW1K l 2 Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 132

y" JzM 1 Kategorie2 g;1@h 2 g1@h Kategorie bekannt2 ƒ l D?}(}(~( KG TW1 K 2 j KG TW1 K l K D ~ ƒ 2 j KG TW1 K l K 2 j ƒ KG TW1 ƒk l ƒ 2 Beispiel 3.8. Man berechney" JzM 1@ 2 für alle Attribute und zeige damit, daß das Attribut Gruppe bei Anwendung von ID3 auf das Kinoproblem als Attribut für den Wurzelknoten selektiert würde. Tafel. Man berechne den Entscheidungsbaum gemäß ID3 für das Kinoproblem. Tafel. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 133 Example Attributes Goal Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait X 1 Yes No Some $$$ French 0 10 Yes X 2 Yes No Full $ No No Thai 30 60 No X 3 No No Some $ No No Burger 0 10 Yes X 4 Yes Yes Full $ No No Thai 10 30 Yes X 5 Yes No Full $$$ French >60 No X 6 Some $$ Yes Yes Italian 0 10 Yes X 7 No No None $ Yes No Burger 0 10 No X 8 No No Some $$ Yes Yes Thai 0 10 Yes X 9 Yes No Full $ Yes No Burger >60 No X 10 Yes Yes Yes Yes Full $$$ Italian 10 30 No X 11 No No No No None $ No No Thai 0 10 No X 12 Yes Yes Yes Yes Full $ No No Burger 30 60 Yes Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 134

q Patrons? None Some Full Hungry? Type? No French Italian Thai Burger Yes No Fri/Sat? Yes Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 135 Bemerkung 3.1. In der vorangegangenen Darstellung gingen wir stets von einer Beispielmenge mit zwei Klassen aus. Dies entspricht einer Bernoulli- Verteilung. Dies Konzept wird mit Hilfe der Entropie auf o Klassen verallgemeinert. isp Beispielen in Klasse'ˆP (M &? P+uvB isp ) ist dann: g1@h 2 &? TW1_iB.EDFDEDG@i q 2 q P+uvB isp `_bšc d i[p Der Informationsgehalt einer Beispielmengeh mito Klassen'QP und Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 136

B Beispiel 3.9. Gegeben sei die folgende Beispielmenge zur Klassifikation von Tieren: ID 1 2 3 4 5 6 7 8 Größe 0.1 0.2 1.8 0.2 2.1 1.7 0.1 1.6 Beine 0 2 2 4 4 2 4 2 Tier F V M K P M K M g;1@h Beine 2 K `fb(c d K bit g;1@h Beine 2 `_b(c d B Œ `_b(c d Œ D?aK(K ƒ bit g;1@h Beine 2 B `_b(c d B d `_b(c d d Œ Œ Œ Œ D?}aKG ƒ bit y" JzM 1 Beine2 TW1@h 2 K D?aK(K ƒ ƒ D?}tKG ƒ K(D? akgak bit Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 137 Der C4.5-Algorithmus Der (absolute) InformationsgewinnyR JzM 1@ 2 hat den Nachteil, daß dieser Attribute mit zahlreichen Werten bevorzugt. Dies kann im Extremfall zu unsinnigen Ergebnissen führen. Beispiel 3.10. Bei einer medizinischen Diagnose werde als eines der Attribute die PIN eines Patienten benutzt. Dieses Attribut habe soviele Werte, wie es Patienten in der Datei gibt. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 138

Das Attribut partitioniert die Beispielmenge daher in Teilmengen, die aus genau einem Patienten bestehen. Die bedingte mittlere Information ist also g1@h PIN bekannt2 q PxuvB TW1 l K 2 und damit ist der Informationsgewinn maximal. Für die Diagnose ist die PIN dagegen nutzlos. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 139 Algorithmus 3.3. Der C4.5-Algorithmus ist eine Spezialisierung von Algorithmus 3.1, bei der die Relation besser für die Attributauswahl auf dem sogenannten normierten InformationsgewinnyR JzMŽ % Jz 1@ 2 basiert. y" JzM % Jz 1@ 2 y" JzM 1@ 2, ia)j%jzm Ž 1@ 2, ir)j%jzm 1@ 2 M Hierbei ist die Entropie des Attributs &{ h. Es sei die Kardinalität der Beispielmenge, es gebe verschiedene Werte für Attribut und9]1@ r P 2 sei die relative Häufigkeit von AttributwertrLP., ir)j%jzmž 1@ 2 &{ TW1@ 2 Pxu B 9]1@ẅ r P2a`_b(cd 9]1@ẅ r P2 C4.5 wählt als nächstes Attribut demyr JzM % Jz 1@ 2 dasjenige aus, bei maximal ist. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 140