4 Induktion von Regeln

Transkript

1 4 Induktion von egeln Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- aare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden. Ein Entscheidungsbaum liefert eine Entscheidung für die Frage, welcher Klasse ein betreffendes Objekt zuzuordnen ist. Beispiel 4.1. Gegeben seien die Beschreibungen von Bankkunden. Die Bankkunden können in die beiden Klassen kreditwürdig und nicht kreditwürdig eingeteilt werden. Ein Entscheidungsbaum soll eine Entscheidung liefern, ob ein Kunde kreditwürdig ist oder nicht. Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 18 Entscheidungsbaum Ein Entscheidungsbaum ist ein Baum mit den folgenden Eigenschaften: Ein Blatt repräsentiert eine der Klassen. Ein innerer Knoten repräsentiert ein Attribut. Eine Kante repräsentiert einen Test auf dem Attribut des Vaterknotens. Geht man von nur zwei Klassen aus, repräsentiert der Entscheidungsbaum eine boolsche Funktion. Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 19

2 Klassifikation mit Entscheidungsbäumen Ein neues Objekt wird mit Hilfe eines Entscheidungsbaums klassifiziert, indem man ausgehend von der Wurzel jeweils die den Knoten zugeordneten Attribute überprüft und so lange den Kanten folgt, die mit den Attributwerten des Objekts markiert sind, bis man einen Blattknoten erreicht. Der dem Blattknoten zugeordnete Wert entspricht der Klasse, der das Objekt zugeordnet wird. Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/ Beispiel 4.2. Ein Entscheidungsbaum zur isikoabschätzung für eine KFZ-Versicherung: Autotyp = LKW <> LKW isikoklasse = niedrig Alter > 0 <= 0 isikoklasse = niedrig isikoklasse = hoch Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 171

3 Entscheidungsbäume und egeln Entscheidungsbäume repräsentieren egeln in kompakter Form. Jeder fad von der Wurzel zu einem Blattknoten entspricht einer logischen Formel in der Form einer if-then-egel. Beispiel 4.3. Der Entscheidungsbaum aus Beispiel 4.2 entspricht den folgenden egeln: if Autotyp LKW then isikoklasse = niedrig, if Autotyp LKW and Alter 0 then isikoklasse = niedrig, if Autotyp LKW and Alter 0 then isikoklasse hoch. Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/ roblem der Generierung von Entscheidungsbäumen Ziel ist es, aus einer Menge von Beispielen (der sogenannten Trainingsmenge) einen Entscheidungsbaum zu generieren. Ein Beispiel der Trainingsmenge besteht aus einer Menge von Attribut/Wert-aaren zusammen mit der Klassifikation. Aus dieser Trainingsmenge ist ein Entscheidungsbaum aufzubauen, der die Beispiele richtig klassifiziert. Für so einen generierten Entscheidungsbaum hofft man, daß dieser auch Beispiele, die nicht aus der Trainingsmenge stammen, mit hoher Wahrscheinlichkeit richtig klassifiziert. Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 173

4 Beispiel 4.4. Trainingsmenge für den Baum aus Beispiel 4.2: ID Alter Autotyp isikoklasse 1 23 Familie hoch 2 18 Sport hoch 3 43 Sport hoch 4 8 Familie niedrig 5 32 LKW niedrig Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/ Naiver Ansatz der Generierung: Man entscheidet streng sequentiell anhand der Attribute. Jeder Baumebene ist ein Attribut zugeordnet. Der Baum wird dann konstruiert, in dem für jedes Beispiel ein fad erzeugt wird. Tafel. Keine sinnvolle Generalisierung auf andere Fälle Overfitting Entscheidungsbaum mit vielen Knoten Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 175

5 Beispiel 4.5. Zwei Entscheidungsbäume für die Trainingsmenge aus Beispiel 4.4: Autotyp Alter = LKW <> LKW < 30 >= 30 and <= 0 > 0 isikoklasse = niedrig Alter isikoklasse = hoch Autotyp isikoklasse = niedrig > 0 <= 0 <> LKW = LKW isikoklasse = niedrig isikoklasse = hoch isikoklasse = hoch isikoklasse = niedrig Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 17 Ziel der Generierung ist es, einen Baum aufzubauen, der die Beispiele der gegebenen Trainingsmenge korrekt klassifiziert und der möglichst kompakt ist. Bevorzuge die einfachste Hypothese, die konsistent mit allen Beobachtungen ist. Occam s azor (William of Occam, ): One should not increase, beyond what is necessary, the number of entities required to explain anything. Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 177

6 rinzip der Generierung Man teste das wichtigste Attribut zuerst! Die Wichtigkeit hängt von der Differenzierung der Beispielmenge ab. Die Beispielmenge wird gemäß der Attributwerte des ausgewählten Attributs auf die Söhne verteilt. Man setze dieses rinzip in jedem Unterbaum für die diesem Unterbaum zugeordnete Beispielmenge fort. Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/ Trainingsmenge zum Thema Kinobesuch : Nr. Attr. reis Loge Wetter Warten Bes. Kat. Land es. Gr. Kino? 1 + $$ ja - ja + AC int ja F ja 2 o $ ja o nein o KO int nein ja 3 o $ nein o ja o D int nein F nein 4 - $ ja o ja o SF int nein a nein 5 o $ ja o nein o D int nein ja + $$ ja + nein + SF int ja F ja 7 o $ ja - nein o KO nat nein F ja 8 o $ nein - ja o AC int nein F ja 9 - $ ja + nein o KO nat nein F nein 10 o $ ja + nein o KO int nein nein 11 + $ ja o ja + D int nein ja 12 o $ nein - ja o AC nat nein a nein 13 + $$ ja o ja o SF int nein a nein 14 o $ ja + ja + D int ja F nein 15 o $ ja - nein o AC int nein ja Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 179

7 Attributauswahl für das Kinoproblem: ja: 1, 2, 5,, 7, 8, 11, 15 nein: 3, 4, 9, 10, 12, 13, 14 Gruppe F a ja: 1,, 7, 8 nein: 3, 9, 14 ja: nein: 4, 12, 13 ja: 2, 5, 11, 15 nein: 10 ja: 1, 2, 5,, 7, 8, 11, 15 nein: 3, 4, 9, 10, 12, 13, 14 Kategorie D AC KO SF ja: 5, 11 nein: 3, 14 ja: 1, 8, 15 nein: 12 ja: 2, 7 nein: 9, 10 ja: nein: 4, 13 Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/ Bei der rekursiven Konstruktion können die folgenden Situationen auftreten: 1. Alle Beispiele zu einem Knoten haben die gleiche Klassifikation. Dann wird der Knoten mit der entsprechenden Klasse markiert und die ekursion beendet. 2. Die Menge der Beispiele zu einem Knoten ist leer. In diesem Fall kann man eine Default-Klassifikation angeben. Man wählt zum Beispiel die Klasse, die unter den Beispielen des Vaters am häufigsten vorkommt. 3. Falls Beispiele mit unterschiedlicher Klassifikation existieren und es Attribute gibt, die noch nicht in den Vorgängerknoten verwendet wurden, dann wähle aus diesen Attributen ein Attribut gemäß seiner Wichtigkeit aus. Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 181

8 Generiere für jeden möglichen Attributwert einen Nachfolgerknoten und verteile die Beispiele auf die Nachfolger gemäß ihres Attributwerts. Setze das Verfahren für jeden Nachfolger fort. 4. Falls Beispiele mit unterschiedlicher Klassifikation existieren, es aber kein noch nicht verwendetes Attribut gibt, dann ist die Trainingsmenge inkonsistent. Inkonsistent bedeutet hier, daß keine funktionale Abhängigkeit der Klassifikation von den Attributen existiert. Beispiel 4.. Kinoproblem: Als Grad für die Wichtigkeit eines Attributs nehme man die Anzahl der Beispiele, die damit endgültig klassifiziert werden. Tafel. Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/ Algorithmus zur Konstruktion Algorithmus 4.1. [Entscheidungsbaum-Konstruktion] 7 Entscheidungsbaum(! ) markiere mit einer Default-Klasse; " # %$& ('*),+ ) -/.102 3!3!4%5 78/ markiere " # mit ; %$& % 9! %$& Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 183

9 ) V + ) ) )! "! " ;: < ;: mögliche artition = von 5> *?= -C 5D *E=! "! " 5D *?= ; Seien =GFAIHJHIHK?=ML die Teilmengen von = ; ON -C Q S erzeuge Knoten.UT als Sohn von ; )W+ T -C <X fällt in = TZY Entscheidungsbaum( [T\?^]_V! Y E.UT )! " Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/ artitionen für Attribute Typen von artitionen fuer nominale Attribute Attribut Attribut =a1 =a2 =a3 in A1 in A2 Attribut Attribut <a1 <=a2 <=a3 < a >= a Typen von artitiionen fuer numerische Attribute Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 185

10 Attributauswahl Die auf Algorithmus 4.1 basierenden Verfahren heißen Top-Down Induction of Decision Trees (TDIDT). Durch den schrittweisen Aufbau des Entscheidungsbaums wird die dadurch repräsentierte Hypothese schrittweise spezialisiert. Der Kern eines TDIDT-Verfahrens ist die Attributauswahl. Das Ziel bei der Attributauswahl ist es, den Baum möglichst klein zu halten. Ein ideales Attribut würde die verbleibende Beispielmenge exakt auf verschiedene Klassen aufteilen. Der ID3-Algorithmus formalisiert diese Idee durch die Berücksichtigung des Informationsgehaltes der Attribute. Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 18 Informationsgehalt und Informationsgewinn Die mit einem Ereignis verbundene Information wird logarithmisch aus dessen Wahrscheinlichkeit berechnet. Den mittleren Informationsgehalt à5>= einer Wahrscheinlichkeitsverteilung = über einer endlichen Menge b bezeichnet man als die Entropie von = : kmlnpo `c5d= d e*fg=h5ji =U5qi Wir stellen uns vor, daß in einer beliebigen Trainigsmenge jedes Beispiel die gleiche Wahrscheinlichkeit hat. Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 187

11 ` v T x T T d T T x T T Demnach ist der Informationsgehalt rs5dt einer Beispielmenge t positiven und negativen Beispielen (genau zwei Klassen) r[5>t -C u u<w yx u<w {z d u u w k}ln o u u<w u<w kmln o u<w mit u Bei der Attributauswahl soll nun berücksichtigt werden, welchen Informationsgewinn man erhält, wenn man den Wert eines Attributs kennt. Dazu stellen wir fest, wieviel Information wir nach dem Test eines Attributs noch benötigen. Jedes Attribut teilt die Trainingsmenge t in ~ disjunkte Teilmenge tfakhkhkhkt( auf, wobei ~ die Anzahl der verschiedenen Werte 5> FAIHJHKHK ist, die annehmen kann. Teilmenge tt habe u*t positive und T negative Beispiele. bit Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/ Der mittlere Informationsgehalt von t T ist also rs5dtt à5 u*t u*t"w ge- Der mittlere Informationsgehalt der Antowrt, nachdem wir Attribut testet haben ist: rs5dt Xƒ bekannt T F =h5d ˆ T r[5>t_t u*t"w TŠ F u*t"w u<w bit `c5 u T u*t"w Um den Informationsgewinn Œ N 5D von Attribut zu quantifizieren, bilden wir die Differenz der ursprünglichen Information (vor dem Test von ) und der estinformation (nach dem Test von ): Œ N 5D -Ž ˆrs5Dt d rs5dt Xƒ bekannt u*t"w bit Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 189

12 H v x w w x x w x z x z Der ID3-Algorithmus Algorithmus 4.2. [ID3] Der ID3-Algorithmus ist eine Spezialisierung von Algorithmus 4.1, bei der die elation besser für die Attributauswahl auf dem Informationsgewinn Œ N 5D basiert. maxi- ID3 wählt als nächstes Attribut dasjenige aus, bei dem Œ N 5D mal ist. Beispiel 4.7. Für die Wurzel des Kinoproblems haben wir Œ N 5 Gruppe rs5dt d rs5dt X Gruppe bekannt vs H d `c5š xj `c5œ Hž w `c5š x Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/ Œ N 5 Kategorie r[5dt Hž Ÿd d rs5dt X Kategorie bekannt Beispiel 4.8. Man berechne Œ N 5D für alle Attribute und zeige damit, daß das Attribut Gruppe bei Anwendung von ID3 auf das Kinoproblem als Attribut für den Wurzelknoten selektiert würde. Tafel. `c5 `c5 `c5 w `c5 Man berechne den Entscheidungsbaum gemäß ID3 für das Kinoproblem. Tafel. Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 191

13 d d d o o Bemerkung 4.1. In der vorangegangenen Darstellung gingen wir stets von einer Beispielmenge mit zwei Klassen aus. Dies entspricht einer Bernoulli- Verteilung. Klassen verallgemei- Dies Konzept wird mit Hilfe der Entropie auf ~ nert. Der Informationsgehalt einer Beispielmenge t mit ~ Klassen.UT und u*t Beispielen in Klasse.hT ( -C T F u*t ) ist dann: rs5dt -C ˆ`c5 u FAIHJHIHKDus d T F u*t kmln o u T Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/ Beispiel 4.9. Gegeben sei die folgende Beispielmenge zur Klassifikation von Tieren: ID Größe Beine Tier F V M K M K M r[5dt X Beine do kmln o bit r[5dt X Beine r[5dt X Beine d d F F kmln o F d kmln o F kmln o kmln o Hž " Hž "J bit bit Œ N 5 Beine `c5dt Hž " d Hž J H J " bit Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 193

14 Der C4.5-Algorithmus Der (absolute) Informationsgewinn Œ N 5D hat den Nachteil, daß dieser Attribute mit zahlreichen Werten bevorzugt. Dies kann im Extremfall zu unsinnigen Ergebnissen führen. Beispiel Bei einer medizinischen Diagnose werde als eines der Attribute die IN eines atienten benutzt. Dieses Attribut habe soviele Werte, wie es atienten in der Datei gibt. Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/ Das Attribut partitioniert die Beispielmenge daher in Teilmengen, die aus genau einem atienten bestehen. Die bedingte mittlere Information ist also rs5dt X IN bekannt TŠ F `c5 x und damit ist der Informationsgewinn maximal. Für die Diagnose ist die IN dagegen nutzlos. Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 195

15 Algorithmus 4.3. Der C4.5-Algorithmus ist eine Spezialisierung von Algorithmus 4.1, bei der die elation besser für die Attributauswahl auf dem sogenannten normierten Informationsgewinn Œ N ) N\ 5D basiert. Œ N [ ) N\ 5D Œ N 5D 3u 0 N ) N «ª Hierbei ist 3œu*0 N ) N «ª* 5D die Entropie des Attributs. Es sei -Ž X t X die Kardinalität der Beispielmenge, es gebe verschiedene Werte für Attribut und =h5d ˆ QT sei die relative Häufigkeit von Attributwert T. 5D 3u*0 N ) N ª* 5D -Ž `c5d d TŠ MF =h5d QT kmlnpo =h5d QT C4.5 wählt als nächstes Attribut dasjenige aus, bei dem Œ maximal ist. N [ ) N\ 5D Wissensverarbeitung und Data Mining FH Bonn-hein-Sieg, WS 01/02 19