Induktion von Entscheidungsbäumen

Größe: px

Ab Seite anzeigen:

Download "Induktion von Entscheidungsbäumen"

Erwin Hase
vor 6 Jahren
Abrufe

1 Induktion von Entscheidungsbäumen Christian Borgelt Institut für Wissens- und Sprachverarbeitung Otto-von-Guericke-Universität Magdeburg Universitätsplatz 2, Magdeburg

2 Ein sehr einfacher Entscheidungsbaum Zuordnung eines Medikamentes: hoch Blutdruck normal niedrig Medikament A Alter Medikament B 40 Medikament A > 40 Medikament B

3 Entscheidungsbauminduktion: Ein einfaches Beispiel Patientendatenbank 12 Beispielfälle 3 beschreibende Attribute 1 Klassenattribut Medikamentzuordnung (ohne Patientenattribute) Immer Med. A oder immer Med. B: 50% richtig (in 6 von 12 Fällen) Nr Geschlecht Alter Blutdruck Med. 1 männlich 20 normal A 2 weiblich 73 normal B 3 weiblich 37 hoch A 4 männlich 33 niedrig B 5 weiblich 48 hoch A 6 männlich 29 normal A 7 weiblich 52 normal B 8 männlich 42 niedrig B 9 männlich 61 normal B 10 weiblich 30 normal A 11 weiblich 26 niedrig B 12 männlich 54 hoch A

4 Entscheidungsbauminduktion: Ein einfaches Beispiel Geschlecht des Patienten Unterteilung nach männlich/weiblich Medikamentzuordnung männlich: 50% richtig (in 3 von 6 Fällen) weiblich: 50% richtig (in 3 von 6 Fällen) Gesamt: 50% richtig (in 6 von 12 Fällen) Nr Geschlecht Med. 1 männlich A 6 männlich A 12 männlich A 4 männlich B 8 männlich B 9 männlich B 3 weiblich A 5 weiblich A 10 weiblich A 2 weiblich B 7 weiblich B 11 weiblich B

5 Entscheidungsbauminduktion: Ein einfaches Beispiel Alter des Patienten Sortieren nach Alter Finden der besten Altersgrenze hier: ca. 40 Jahre Medikamentzuordnung 40: A 67% richtig (in 4 von 6 Fällen) > 40: B 67% richtig (in 4 von 6 Fällen) Gesamt: 67% richtig (in 8 von 12 Fällen) Nr Alter Med A B 6 29 A A 4 33 B 3 37 A 8 42 B 5 48 A 7 52 B A 9 61 B 2 73 B

6 Entscheidungsbauminduktion: Ein einfaches Beispiel Blutdruck des Patienten Unterteilung nach hoch/normal/niedrig Medikamentzuordnung hoch: A 100% richtig (in 3 von 3 Fällen) normal: 50% richtig (in 3 von 6 Fällen) niedrig: B 100% richtig (in 3 von 3 Fällen) Gesamt: 75% richtig (in 9 von 12 Fällen) Nr Blutdruck Med. 3 hoch A 5 hoch A 12 hoch A 1 normal A 6 normal A 10 normal A 2 normal B 7 normal B 9 normal B 4 niedrig B 8 niedrig B 11 niedrig B

7 Entscheidungsbauminduktion: Ein einfaches Beispiel Blutdruck und Geschlecht Nur Patienten mit normalem Blutdruck Unterteilung nach männlich/weiblich Medikamentzuordnung männlich: A 67% richtig (2 von 3) weiblich: B 67% richtig (2 von 3) Gesamt: 67% richtig (4 von 6) Nr Blutdruck Geschlecht Med. 3 hoch A 5 hoch A 12 hoch A 1 normal männlich A 6 normal männlich A 9 normal männlich B 2 normal weiblich B 7 normal weiblich B 10 normal weiblich A 4 niedrig B 8 niedrig B 11 niedrig B

8 Entscheidungsbauminduktion: Ein einfaches Beispiel Blutdruck und Alter Nur Patienten mit normalem Blutdruck Sortieren nach Alter Finden der besten Altersgrenze hier: ca. 40 Jahre Medikamentzuordnung 40: A 100% richtig (3 von 3) > 40: B 100% richtig (3 von 3) Gesamt: 100% richtig (6 von 6) Nr Blutdruck Alter Med. 3 hoch A 5 hoch A 12 hoch A 1 normal 20 A 6 normal 29 A 10 normal 30 A 7 normal 52 B 9 normal 61 B 2 normal 73 B 11 niedrig B 4 niedrig B 8 niedrig B

9 Ergebnis der Entscheidungsbauminduktion Zuordnung des Medikamentes: hoch Blutdruck normal niedrig Medikament A Alter Medikament B 40 Medikament A > 40 Medikament B

10 Induktion von Entscheidungsbäumen Gierige Auswahl eines Testattributes Berechnung eines Bewertungsmaßes für alle Attribute Auswahl des Attributes mit der besten Bewertung Teile-und-Herrsche-Verfahren / Rekursiver Abstieg Aufteilung der Beispielfälle nach den Werten des Testattributs Rekursive Anwendung des Verfahrens auf die Teilmengen Rekursionsabbruch, wenn alle Fälle zur gleichen Klasse gehören kein weiteres Testattribut verfügbar ist Stutzen des gelernten Entscheidungsbaums Ersetzen von schlechten Zweigen (Teilbäumen) durch Blätter Stutzen dient der Vereinfachung des Baums Vermeidung von Überanpassung (Overfitting)

11 Ein informationstheoretisches Attributauswahlmaß Informationsgewinn (Kullback und Leibler 1951, Quinlan 1986) Basiert auf Shannonscher Entropie H = n i=1 p i log 2 p i (Shannon 1948) I gain(c; A) = H(C) H(CjA) = {}}{ n C i=1 p i: log 2 p i: {}}{ n A n C p :j p log ijj 2 p ijj j=1 i=1 H(C) Entropie der Klassenverteilung (C: Klassenattribut) H(CjA) Erwartete Entropie der Klassenverteilung bei Bekanntwerden des Wertes des Attributes A H(C) H(CjA) Erwartete Entropieverringerung oder Informationsgewinn

12 Frage-/Kodierungsschemata P (x 1) = 0:40; P (x 2) = 0:19; P (x 3) = 0:16; P (x 4) = 0:15; P (x 5) = 0:10 Shannonsche Entropie: i P (x i) log 2 P (x i ) = 2:15 bit/symbol Shannon-Fano-Kodierung (1948) x 1 ; x 2 ; x 3 ; x 4 ; x x 1 ; x 2 x 3 ; x 4 ; x x 4 ; x x 1 x 2 x 3 x 4 x Kodelänge: 2.25 bit/symbol Kodeeffizienz: Huffman-Kodierung (1952) x 1 ; x 2 ; x 3 ; x 4 ; x x 2 ; x 3 ; x 4 ; x x 2 ; x 3 x 4 ; x x 1 x 2 x 3 x 4 x Kodelänge: 2.20 bit/symbol Kodeeffizienz: 0.977

13 Zusammenfassung Entscheidungsbäume Entscheidungsbäume sind Klassifikatoren mit Baumstruktur innerer Knoten: Blattknoten: Test eines beschreibenden Attributes Zuordnung einer Klasse Induktion von Entscheidungsbäumen aus Daten (Top Down Induction of Decision Trees, TDIDT) Teile-und-Herrsche-Verfahren / Rekursiver Abstieg Gierige Auswahl der Testattribute Attribute werden mit einem Bewertungsmaß ausgewählt, z.b. dem Informationsgewinn Ggf. anschließendes Stutzen des Entscheidungsbaums

Ähnliche Dokumente

Vorlesung Wissensentdeckung

Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der