3. Lernen von Entscheidungsbäumen



Ähnliche Dokumente
4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

2. Lernen von Entscheidungsbäumen

4. Lernen von Entscheidungsbäumen

4 Induktion von Regeln

Künstliche Intelligenz Maschinelles Lernen

1 topologisches Sortieren

Grundlagen der Theoretischen Informatik, SoSe 2008

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume?

Primzahlen und RSA-Verschlüsselung

1 Mathematische Grundlagen

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Maschinelles Lernen. Kapitel 5

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

W-Rechnung und Statistik für Ingenieure Übung 11

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

15 Optimales Kodieren

Kapiteltests zum Leitprogramm Binäre Suchbäume

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Anmerkungen zur Übergangsprüfung

Informationsblatt Induktionsbeweis

Das Briefträgerproblem

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Einführung in die Algebra

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Zufallsgrößen und Wahrscheinlichkeitsverteilungen

Beweisbar sichere Verschlüsselung

Erweiterung der Aufgabe. Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen:

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Das sogenannte Beamen ist auch in EEP möglich ohne das Zusatzprogramm Beamer. Zwar etwas umständlicher aber es funktioniert

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Theoretische Grundlagen der Informatik

Formeln. Signatur. aussagenlogische Formeln: Aussagenlogische Signatur

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Moderne Methoden der KI: Maschinelles Lernen

A1.7: Entropie natürlicher Texte

Anleitung über den Umgang mit Schildern

Beispiel(unten ist der Spielfeldrand):

Um die Patientenverwaltung von Sesam zu nutzen, muss man die Patienten natürlich zuerst in die Kartei eintragen.

13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.

Kombinatorische Optimierung

Musterlösungen zur Linearen Algebra II Blatt 5

Algorithmentheorie Maximale Flüsse

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Erstellen von x-y-diagrammen in OpenOffice.calc

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

7 Rechnen mit Polynomen

WS 2009/10. Diskrete Strukturen

Idee: Wenn wir beim Kopfknoten zwei Referenzen verfolgen können, sind die Teillisten kürzer. kopf Eine Datenstruktur mit Schlüsselwerten 1 bis 10

Österreichische Trachtenjugend

Mediator 9 - Lernprogramm

Klausur Nr. 1. Wahrscheinlichkeitsrechnung. Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt.

Korrelation (II) Korrelation und Kausalität

Zeichen bei Zahlen entschlüsseln

1. Adressen für den Serienversand (Briefe Katalogdruck Werbung/Anfrage ) auswählen. Die Auswahl kann gespeichert werden.

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

Fallbeispiel: Eintragen einer Behandlung

Motivation. Formale Grundlagen der Informatik 1 Kapitel 5 Kontextfreie Sprachen. Informales Beispiel. Informales Beispiel.

Vorab per . Oberste Finanzbehörden der Länder

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Elexis-BlueEvidence-Connector

Folge 19 - Bäume Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Die reellen Lösungen der kubischen Gleichung

Programmiersprachen und Übersetzer

Lineare Gleichungssysteme

Biogena IMK. Individuelle Mikronährstoff Komponenten. Benutzerhandbuch. Natürlich so individuell wie Ihr Patient

Algorithmen II Vorlesung am

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

R ist freie Software und kann von der Website.

Formale Systeme, WS 2012/2013 Lösungen zu Übungsblatt 4

WS 2008/09. Diskrete Strukturen

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG

Internet online Update (Mozilla Firefox)

Installation OMNIKEY 3121 USB

Datenbanken Kapitel 2

Quadratische Gleichungen

Datenbanken Microsoft Access 2010

Punkt 1 bis 11: -Anmeldung bei Schlecker und 1-8 -Herunterladen der Software

Kompetitive Analysen von Online-Algorithmen

KONSTRUKTION VON ROT-SCHWARZ-BÄUMEN

ecaros2 - Accountmanager

Unterscheidung: Workflowsystem vs. Informationssystem

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Modellbildungssysteme: Pädagogische und didaktische Ziele

Repetitionsaufgaben Wurzelgleichungen

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Statistische Thermodynamik I Lösungen zur Serie 1

Kreativ visualisieren

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

AutoCAD Dienstprogramm zur Lizenzübertragung

Definition und Begriffe

Erweiterung AE WWS Lite Win: AES Security Verschlüsselung

Anmelden und Vorträge einreichen auf der JBFOne-Website Inhalt

Bewertung des Blattes

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Der Task-Manager

Transkript:

3. Lernen von Entscheidungsbäumen Entscheidungsbäume 3. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden. Ein Entscheidungsbaum liefert eine Entscheidung für die Frage, welcher Klasse ein betreffendes Objekt zuzuordnen ist. Beispiel 3.1. Gegeben seien die Beschreibungen von Bankkunden. Die Bankkunden können in die beiden Klassen kreditwürdig und nicht kreditwürdig eingeteilt werden. Ein Entscheidungsbaum soll eine Entscheidung liefern, ob ein Kunde kreditwürdig ist oder nicht. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 109 3. Lernen von Entscheidungsbäumen Entscheidungsbäume Entscheidungsbaum Ein Entscheidungsbaum ist ein Baum mit den folgenden Eigenschaften: Ein Blatt repräsentiert eine der Klassen. Ein innerer Knoten repräsentiert ein Attribut. Eine Kante repräsentiert einen Test auf dem Attribut des Vaterknotens. Geht man von nur zwei Klassen aus, repräsentiert der Entscheidungsbaum eine boolsche Funktion. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 110

3. Lernen von Entscheidungsbäumen Entscheidungsbäume Klassifikation mit Entscheidungsbäumen Ein neues Objekt wird mit Hilfe eines Entscheidungsbaums klassifiziert, indem man ausgehend von der Wurzel jeweils die den Knoten zugeordneten Attribute überprüft und so lange den Kanten folgt, die mit den Attributwerten des Objekts markiert sind, bis man einen Blattknoten erreicht. Der dem Blattknoten zugeordnete Wert entspricht der Klasse, der das Objekt zugeordnet wird. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 111 3. Lernen von Entscheidungsbäumen Entscheidungsbäume Beispiel 3.2. Ein Entscheidungsbaum zur Risikoabschätzung für eine KFZ-Versicherung: Autotyp = LKW <> LKW Risikoklasse = niedrig Alter > 60 <= 60 Risikoklasse = niedrig Risikoklasse = hoch Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 112

3. Lernen von Entscheidungsbäumen Entscheidungsbäume Soll man auf einen freien Tisch im Restaurant warten? Patrons? None Some Full No >60 30 60 10 30 0 10 Alternate? Reservation? Bar? Yes WaitEstimate? Fri/Sat? Hungry? No Yes Yes Alternate? Yes Yes Raining? Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 113 3. Lernen von Entscheidungsbäumen Entscheidungsbäume Entscheidungsbäume und Regeln Entscheidungsbäume repräsentieren Regeln in kompakter Form. Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer logischen Formel in der Form einer if-then-regel. Beispiel 3.3. Der Entscheidungsbaum aus Beispiel 3.2 entspricht den folgenden Regeln: if Autotyp LKW then Risikoklasse = niedrig, if Autotyp LKW and Alter 60 then Risikoklasse = niedrig, if Autotyp LKW and Alter 60 then Risikoklasse hoch. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 114

3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Problem der Generierung von Entscheidungsbäumen Ziel ist es, aus einer Menge von Beispielen (der sogenannten Trainingsmenge) einen Entscheidungsbaum zu generieren. Ein Beispiel der Trainingsmenge besteht aus einer Menge von Attribut/Wert-Paaren zusammen mit der Klassifikation. Aus dieser Trainingsmenge ist ein Entscheidungsbaum aufzubauen, der die Beispiele richtig klassifiziert. Für so einen generierten Entscheidungsbaum hofft man, daß dieser auch Beispiele, die nicht aus der Trainingsmenge stammen, mit hoher Wahrscheinlichkeit richtig klassifiziert. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 115 3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Beispiel 3.4. Trainingsmenge für den Baum aus Beispiel 3.2: ID Alter Autotyp Risikoklasse 1 23 Familie hoch 2 18 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 116

3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Naiver Ansatz der Generierung: Man entscheidet streng sequentiell anhand der Attribute. Jeder Baumebene ist ein Attribut zugeordnet. Der Baum wird dann konstruiert, in dem für jedes Beispiel ein Pfad erzeugt wird. Tafel. Keine sinnvolle Generalisierung auf andere Fälle Overfitting Entscheidungsbaum mit vielen Knoten Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 117 3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Beispiel 3.5. Zwei Entscheidungsbäume für die Trainingsmenge aus Beispiel 3.4: Autotyp Alter = LKW <> LKW < 30 >= 30 and <= 60 > 60 Risikoklasse = niedrig Alter Risikoklasse = hoch Autotyp Risikoklasse = niedrig > 60 <= 60 <> LKW = LKW Risikoklasse = niedrig Risikoklasse = hoch Risikoklasse = hoch Risikoklasse = niedrig Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 118

3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Ziel der Generierung ist es, einen Baum aufzubauen, der die Beispiele der gegebenen Trainingsmenge korrekt klassifiziert und der möglichst kompakt ist. Bevorzuge die einfachste Hypothese, die konsistent mit allen Beobachtungen ist. Occam s Razor (William of Occam, engl. Philosoph 1285 1349): One should not increase, beyond what is necessary, the number of entities required to explain anything. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 119 3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Prinzip der Generierung Man teste das wichtigste Attribut zuerst! Die Wichtigkeit hängt von der Differenzierung der Beispielmenge ab. Die Beispielmenge wird gemäß der Attributwerte des ausgewählten Attributs auf die Söhne verteilt. Man setze dieses Prinzip in jedem Unterbaum für die diesem Unterbaum zugeordnete Beispielmenge fort. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 120

3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Trainingsmenge zum Thema Kinobesuch : Nr. Attr. Preis Loge Wetter Warten Bes. Kat. Land Res. Gr. Kino? 1 + $$ ja - ja + AC int ja F ja 2 o $ ja o nein o KO int nein P ja 3 o $ nein o ja o DR int nein F nein 4 - $ ja o ja o SF int nein a nein 5 o $ ja o nein o DR int nein P ja 6 + $$ ja + nein + SF int ja F ja 7 o $ ja - nein o KO nat nein F ja 8 o $ nein - ja o AC int nein F ja 9 - $ ja + nein o KO nat nein F nein 10 o $ ja + nein o KO int nein P nein 11 + $ ja o ja + DR int nein P ja 12 o $ nein - ja o AC nat nein a nein 13 + $$ ja o ja o SF int nein a nein 14 o $ ja + ja + DR int ja F nein 15 o $ ja - nein o AC int nein P ja Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 121 3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Attributauswahl für das Kinoproblem: ja: 1, 2, 5, 6, 7, 8, 11, 15 nein: 3, 4, 9, 10, 12, 13, 14 Gruppe F a P ja: 1, 6, 7, 8 nein: 3, 9, 14 ja: nein: 4, 12, 13 ja: 2, 5, 11, 15 nein: 10 ja: 1, 2, 5, 6, 7, 8, 11, 15 nein: 3, 4, 9, 10, 12, 13, 14 Kategorie DR AC KO SF ja: 5, 11 nein: 3, 14 ja: 1, 8, 15 nein: 12 ja: 2, 7 nein: 9, 10 ja: 6 nein: 4, 13 Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 122

3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Bei der rekursiven Konstruktion können die folgenden Situationen auftreten: 1. Alle Beispiele zu einem Knoten haben die gleiche Klassifikation. Dann wird der Knoten mit der entsprechenden Klasse markiert und die Rekursion beendet. 2. Die Menge der Beispiele zu einem Knoten ist leer. In diesem Fall kann man eine Default-Klassifikation angeben. Man wählt zum Beispiel die Klasse, die unter den Beispielen des Vaters am häufigsten vorkommt. 3. Falls Beispiele mit unterschiedlicher Klassifikation existieren und es Attribute gibt, die noch nicht in den Vorgängerknoten verwendet wurden, dann wähle aus diesen Attributen ein Attribut gemäß seiner Wichtigkeit aus. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 123 3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Generiere für jeden möglichen Attributwert einen Nachfolgerknoten und verteile die Beispiele auf die Nachfolger gemäß ihres Attributwerts. Setze das Verfahren für jeden Nachfolger fort. 4. Falls Beispiele mit unterschiedlicher Klassifikation existieren, es aber kein noch nicht verwendetes Attribut gibt, dann ist die Trainingsmenge inkonsistent. Inkonsistent bedeutet hier, daß keine funktionale Abhängigkeit der Klassifikation von den Attributen existiert. Beispiel 3.6. Kinoproblem: Als Grad für die Wichtigkeit eines Attributs nehme man die Anzahl der Beispiele, die damit endgültig klassifiziert werden. Tafel. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 124

3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Algorithmus zur Konstruktion Algorithmus 3.1. [Entscheidungsbaum-Konstruktion] Entscheidungsbaum( )! "! #$ % &('*)+ -,.,0/1 %32 45.! " markiere mit4! ; #$ 6! ". #$ markiere mit einer Default-Klasse; Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 125. 78 3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen. 7 mögliche Partition9 von "! 1: ;9 2 besser als<=/., %! <>/., % &? 1@ ;A9 2!!! Sei<=/, % 1@ ;9 2 Seien9CB.EDFDEDG9IH ;.8J die Teilmengen von9 &? KL NMO ; erzeuge Knoten'QP als Sohn von P &? % % ; fällt in9 P Entscheidungsbaum(RPS A'QP )! Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 126

3. Lernen von Entscheidungsbäumen Generierung von Entscheidungsbäumen Partitionen für Attribute Typen von Partitionen fuer nominale Attribute Attribut Attribut =a1 =a2 =a3 in A1 in A2 Attribut Attribut <a1 <=a2 <=a3 < a >= a Typen von Partitiionen fuer numerische Attribute Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 127 Attributauswahl Die auf Algorithmus 3.1 basierenden Verfahren heißen Top-Down Induction of Decision Trees (TDIDT). Durch den schrittweisen Aufbau des Entscheidungsbaums wird die dadurch repräsentierte Hypothese schrittweise spezialisiert. Der Kern eines TDIDT-Verfahrens ist die Attributauswahl. Das Ziel bei der Attributauswahl ist es, den Baum möglichst klein zu halten. Ein ideales Attribut würde die verbleibende Beispielmenge exakt auf verschiedene Klassen aufteilen. Der ID3-Algorithmus formalisiert diese Idee durch die Berücksichtigung des Informationsgehaltes der Attribute. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 128

Informationsgehalt und Informationsgewinn Die mit einem Ereignis verbundene Information wird logarithmisch aus dessen Wahrscheinlichkeit berechnet. Den mittleren Informationsgehalt TU1:9 2 einer Wahrscheinlichkeitsverteilung9 über einer endlichen MengeV bezeichnet man als die Entropie von9 : TW1@9 2 X"Y[Z\9]1_^ 2a`_b(cd 9e1f^ 2 Wir stellen uns vor, daß in einer beliebigen Trainigsmenge jedes Beispiel die gleiche Wahrscheinlichkeit hat. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 129 3. Lernen von Entscheidungsbäumen g1@h 2 Die Algorithmen ID3 h und C4.5 Demnach ist der Informationsgehalt einer Beispielmenge miti positiven undm negativen Beispielen (genau zwei Klassen) g;1:h 2 &? T i ikj Mml M ikj M i inj M `fb(c d i ikj M M ikj M `_b(c d M ikj M bit Bei der Attributauswahl soll nun berücksichtigt werden, welchen Informationsgewinn man erhält, wenn man den Wert eines Attributs kennt. Dazu stellen wir fest, wieviel Information wir nach dem Test eines Attributs noch benötigen. Jedes Attribut teilt die Trainingsmenge h in o disjunkte Teilmenge hpb.gdgdgdghnq auf, wobei o die Anzahl der verschiedenen Werte 1@rB.EDFDGDGrpq 2 ist, die annehmen kann. TeilmengehmP habeisp positive undm P negative Beispiele. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 130

Der mittlere Informationsgehalt vonh P ist also 2 bit g1@hmp2 TU1 isp isptj M P l M P isptj M P Der mittlere Informationsgehalt der Antwort, nachdem wir Attribut getestet haben ist: g1@h bekannt2 q P+uvB 9]1@ẅ rlp2 g;1:h\p2 q PxuvB isptj M P ikj M TW1 i[p isptj M P l M P isptj M P Um den Informationsgewinny" JzM 1@ 2 von Attribut zu quantifizieren, bilden wir die Differenz der ursprünglichen Information (vor dem Test von ) und der Restinformation (nach dem Test von ): y" JzM 1@ 2 &{ g1@h 2 g1@h bekannt2 2 bit Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 131 Der ID3-Algorithmus Algorithmus 3.2. [ID3] Der ID3-Algorithmus ist eine Spezialisierung von Algorithmus 3.1, bei der die Relation besser für die Attributauswahl auf dem InformationsgewinnyR JzM 1@ 2 basiert. ID3 wählt als nächstes Attribut dasjenige aus, bei demy" JzM 1@ 2 maximal ist. Beispiel 3.7. Für die Wurzel des Kinoproblems haben wir yr JzM 1 Gruppe2 g1@h 2 g1@h Gruppe bekannt2 ƒ 2j D{}(}(~( KG TW1 l KG TW1 l K 2 j D{ (}(~ ƒ KG TW1K l 2 Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 132

y" JzM 1 Kategorie2 g;1@h 2 g1@h Kategorie bekannt2 ƒ l D?}(}(~( KG TW1 K 2 j KG TW1 K l K D ~ ƒ 2 j KG TW1 K l K 2 j ƒ KG TW1 ƒk l ƒ 2 Beispiel 3.8. Man berechney" JzM 1@ 2 für alle Attribute und zeige damit, daß das Attribut Gruppe bei Anwendung von ID3 auf das Kinoproblem als Attribut für den Wurzelknoten selektiert würde. Tafel. Man berechne den Entscheidungsbaum gemäß ID3 für das Kinoproblem. Tafel. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 133 Example Attributes Goal Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait X 1 Yes No Some $$$ French 0 10 Yes X 2 Yes No Full $ No No Thai 30 60 No X 3 No No Some $ No No Burger 0 10 Yes X 4 Yes Yes Full $ No No Thai 10 30 Yes X 5 Yes No Full $$$ French >60 No X 6 Some $$ Yes Yes Italian 0 10 Yes X 7 No No None $ Yes No Burger 0 10 No X 8 No No Some $$ Yes Yes Thai 0 10 Yes X 9 Yes No Full $ Yes No Burger >60 No X 10 Yes Yes Yes Yes Full $$$ Italian 10 30 No X 11 No No No No None $ No No Thai 0 10 No X 12 Yes Yes Yes Yes Full $ No No Burger 30 60 Yes Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 134

q Patrons? None Some Full Hungry? Type? No French Italian Thai Burger Yes No Fri/Sat? Yes Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 135 Bemerkung 3.1. In der vorangegangenen Darstellung gingen wir stets von einer Beispielmenge mit zwei Klassen aus. Dies entspricht einer Bernoulli- Verteilung. Dies Konzept wird mit Hilfe der Entropie auf o Klassen verallgemeinert. isp Beispielen in Klasse'ˆP (M &? P+uvB isp ) ist dann: g1@h 2 &? TW1_iB.EDFDEDG@i q 2 q P+uvB isp `_bšc d i[p Der Informationsgehalt einer Beispielmengeh mito Klassen'QP und Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 136

B Beispiel 3.9. Gegeben sei die folgende Beispielmenge zur Klassifikation von Tieren: ID 1 2 3 4 5 6 7 8 Größe 0.1 0.2 1.8 0.2 2.1 1.7 0.1 1.6 Beine 0 2 2 4 4 2 4 2 Tier F V M K P M K M g;1@h Beine 2 K `fb(c d K bit g;1@h Beine 2 `_b(c d B Œ `_b(c d Œ D?aK(K ƒ bit g;1@h Beine 2 B `_b(c d B d `_b(c d d Œ Œ Œ Œ D?}aKG ƒ bit y" JzM 1 Beine2 TW1@h 2 K D?aK(K ƒ ƒ D?}tKG ƒ K(D? akgak bit Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 137 Der C4.5-Algorithmus Der (absolute) InformationsgewinnyR JzM 1@ 2 hat den Nachteil, daß dieser Attribute mit zahlreichen Werten bevorzugt. Dies kann im Extremfall zu unsinnigen Ergebnissen führen. Beispiel 3.10. Bei einer medizinischen Diagnose werde als eines der Attribute die PIN eines Patienten benutzt. Dieses Attribut habe soviele Werte, wie es Patienten in der Datei gibt. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 138

Das Attribut partitioniert die Beispielmenge daher in Teilmengen, die aus genau einem Patienten bestehen. Die bedingte mittlere Information ist also g1@h PIN bekannt2 q PxuvB TW1 l K 2 und damit ist der Informationsgewinn maximal. Für die Diagnose ist die PIN dagegen nutzlos. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 139 Algorithmus 3.3. Der C4.5-Algorithmus ist eine Spezialisierung von Algorithmus 3.1, bei der die Relation besser für die Attributauswahl auf dem sogenannten normierten InformationsgewinnyR JzMŽ % Jz 1@ 2 basiert. y" JzM % Jz 1@ 2 y" JzM 1@ 2, ia)j%jzm Ž 1@ 2, ir)j%jzm 1@ 2 M Hierbei ist die Entropie des Attributs &{ h. Es sei die Kardinalität der Beispielmenge, es gebe verschiedene Werte für Attribut und9]1@ r P 2 sei die relative Häufigkeit von AttributwertrLP., ir)j%jzmž 1@ 2 &{ TW1@ 2 Pxu B 9]1@ẅ r P2a`_b(cd 9]1@ẅ r P2 C4.5 wählt als nächstes Attribut demyr JzM % Jz 1@ 2 dasjenige aus, bei maximal ist. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 140