Kapitel ML: III (Fortsetzung)

Transkript

1 Kapitel ML: III (Fortsetzung) III. Entscheidungsbäume Repräsentation und Konstruktion Impurity-Funktionen Entscheidungsbaumalgorithmen Pruning ML: III-87 Decision Trees c STEIN/LETTMANN

2 Missklassifikationskosten beim Splitting Lemma 2 Für jedes induzierte Splitting D(t 1 ),...,D(t s ) einer Menge von Beispielen D(t) in einem Entscheidungsbaum T gilt: Err cost (t,d(t)) Err cost (t i,d(t i )), i {1,...,s} mit Gleichheit in dem Fall, dass allen Knoten t,t 1,...,t s dieselbe Klasse zugewiesen wird. ML: III-88 Decision Trees c STEIN/LETTMANN

3 Missklassifikationskosten beim Splitting Lemma 2 Für jedes induzierte Splitting D(t 1 ),...,D(t s ) einer Menge von Beispielen D(t) in einem Entscheidungsbaum T gilt: Err cost (t,d(t)) Err cost (t i,d(t i )), i {1,...,s} mit Gleichheit in dem Fall, dass allen Knoten t,t 1,...,t s dieselbe Klasse zugewiesen wird. Das Algorithmenschema DT -construct zur Konstruktion von Entscheidungsbäumen bevorzugt große Bäume, d.h. eine weitestmögliche Zerlegung der Menge D von Beispielen, und minimiert so die Missklassifikationskosten auf der Trainingsmenge. ML: III-89 Decision Trees c STEIN/LETTMANN

4 Missklassifikationskosten beim Splitting (Fortsetzung) Beweisidee: Err cost (t,d(t)) = min c C cost(c c) p(c t) p(t) c C = c C cost(label(t) c) p(c,t) = c C cost(label(t) c) (p(c,t 1 )+...+p(c,t ks )) = i {1,...,k s } c C cost(label(t) c) (p(c,t i ) Err cost (t,d(t)) i {1,...,k s } Err cost(t i,d(t i )) = ( ) cost(label(t) c) (p(c,t i ) min cost(c c) p(c,t i ) c C i {1,...,k s } c C c C Jeder Summand der rechten Seite ist größer als Null. ML: III-90 Decision Trees c STEIN/LETTMANN

5 Bemerkungen: Das Lemma gilt auch bei Verwendung des Missklassifikationsanteils als Gütemaß. ML: III-91 Decision Trees c STEIN/LETTMANN

6 Overfitting Definition 9 (Überanpassung (Overfitting) ) Sei D eine Menge von Beispielen und H ein Hypothesenraum. Dann stellt h H eine Überanpassung (Overfitting) von D dar, falls ein h H mit folgender Eigenschaft existiert: Err(h,D) < Err(h,D) und Err (h) > Err (h ) ML: III-92 Decision Trees c STEIN/LETTMANN

7 Overfitting Definition 9 (Überanpassung (Overfitting) ) Sei D eine Menge von Beispielen und H ein Hypothesenraum. Dann stellt h H eine Überanpassung (Overfitting) von D dar, falls ein h H mit folgender Eigenschaft existiert: Err(h,D) < Err(h,D) und Err (h) > Err (h ) Ursachen für Overfitting: D ist verrauscht D ist nicht repräsentativ ein zu kleines D täuscht nicht vorhandene Regelmäßigkeiten vor... ML: III-93 Decision Trees c STEIN/LETTMANN

8 Bemerkungen: Hierbei stellen Err(h,D) und Err (h) monoton steigende Funktionen in der Anzahl der mit einer Hypothese inkonsistenen Beispiele dar. ML: III-94 Decision Trees c STEIN/LETTMANN

9 Overfitting Err (h) kann mit Hilfe einer von der Trainingsmenge unabhängig gezogenen Validierungsmenge D V geschätzt werden: h H stellt eine Überanpassung (Overfitting) von D dar, falls ein h H mit folgender Eigenschaft existiert: Err(h,D) < Err(h,D) und Err(h,D V ) > Err(h,D V ) Feststellung von Overfitting erfordert weitere Aufteilung der Beispielmenge D: D = {(x 1,c(x 1 )),...,(x n,c(x n ))} X C ist eine Menge von Beispielen. D tr D Trainingsmenge zur Konstruktion des Entscheidungsbaumes mit DT -construct D V D Validierungsmenge zur Messung des Overfitting während des Pruning D ts D Testmenge zur Messung der Güte des Entscheidungsbaumes nach Pruning D tr,d V,D ts sind paarweise disjunkt. ML: III-95 Decision Trees c STEIN/LETTMANN

10 Overfitting Accuracy On training data On test data Size of tree (number of nodes) [Mitchell 1997] ML: III-96 Decision Trees c STEIN/LETTMANN

11 Bemerkungen: Auf der Ordinate ist die Accuracy, also der Anteil der korrekt klassifizierten Beispiele während des Konstruktionsprozesses aufgetragen. Der Trainingsfehler Err(T, D) für den Entscheidungsbaum T fällt monoton bei Vergrößerung von T. Wann wird der Wert 0 erreicht? Wo ist Err(T,D) am genauesten in Bezug auf Err (T)? Der Missklassifikationsanteil Err(T,D V ) auf einer Testmenge D V hat ein lokales Minimum häufig bei relativ geringer Blattzahl. ML: III-97 Decision Trees c STEIN/LETTMANN

12 Overfitting Ansätze, um Overfitting entgegenzuwirken: 1. Beschränkung der Entscheidungsbaumkonstruktion während des Trainings 2. Verkleinerung (Pruning) von Entscheidungsbäumen nach dem Training Aufteilung der Menge D in Trainings-, Validierungs- und Testmenge (a) Reduced-Error-Pruning (b) Minimal Cost-Complexity Pruning (c) Rule-Post-Pruning statistische Tests (z. B. χ 2 ), um Generalisierbarkeit zu beurteilen heuristische Minimierung der Entscheidungsbaums ML: III-98 Decision Trees c STEIN/LETTMANN

13 Stopping Einfache Kriterien: Größe von D(t) Ein Knoten t wird nicht weiter zerlegt, wenn die Anzahl der Beispiele in D(t) zu gering ist: D(t) < β. Reinheit von D(t) Ein Knoten t wird nicht weiter zerlegt, wenn die Impurity nicht ausreichend reduziert werden kann: ι(d(t),{d(t 1 ),...,D(t s )}) < β für alle Splittings. Problem: Abbruch des Splitting mit kleinem β führt zu übergroßen Entscheidungsbäumen. Abbruch des Splitting mit großem β kann nützliche Splittings verhindern. ML: III-99 Decision Trees c STEIN/LETTMANN

14 Pruning statt Stopping Idee: 1. Bilde einen ausreichend großen EntscheidungsbaumT max. 2. Beschneide T max auf die richtige Weise von Blättern in Richtung Wurzel. Wann ist T max groß genug? Aufbau von T max ist beendet, wenn jeder Blattknoten eine genügend kleine Teilmenge der Beispielmenge D repräsentiert oder nur Beispiele einer Klasse repräsentiert (Knoten ist pur) oder nur Beispiele mit identischen Merkmalsvektoren repräsentiert. ML: III-100 Decision Trees c STEIN/LETTMANN

15 Bemerkungen: Optimal für T max : genügend klein D(t) = 1 Kompromiss für T max : z.b. genügend klein D(t) 5 Der Trainingsfehler Err(T,D) ist als Schätzer für Err (T) ungeeignet wegen seiner Monotonie-Eigenschaft. Daher muss die richtige Größe des Entscheidungsbaums auf andere Weise bestimmt werden. ML: III-101 Decision Trees c STEIN/LETTMANN

16 Terminologie für Teilbäume Baum T mit Knoten t, Zweig T t, Resultat des Pruning von T t T T t t T \T t t t t bezeichnet den Teilbaum mit Wurzel t. ML: III-102 Decision Trees c STEIN/LETTMANN

17 Definition 10 (Pruning) Für einen Baum T mit innerem Knoten t besteht das Pruning des Zweiges T t aus der Entfernung aller Nachfolgerknoten von t und der durch diese Elimination betroffenen Kanten. Der so beschnittene Baum wird mit T \T t bezeichnet. Der Knoten t ist in T \T t ein Blattknoten. Definition 11 (Pruning-induzierte Ordnung) Entsteht ein Baum T durch (mehrfaches) Pruning aus einem Baum T, schreiben wir kurz T T. Die Relation bildet eine Halbordnung auf der Menge der Bäume. ML: III-103 Decision Trees c STEIN/LETTMANN

18 Definition 10 (Pruning) Für einen Baum T mit innerem Knoten t besteht das Pruning des Zweiges T t aus der Entfernung aller Nachfolgerknoten von t und der durch diese Elimination betroffenen Kanten. Der so beschnittene Baum wird mit T \T t bezeichnet. Der Knoten t ist in T \T t ein Blattknoten. Definition 11 (Pruning-induzierte Ordnung) Entsteht ein Baum T durch (mehrfaches) Pruning aus einem Baum T, schreiben wir kurz T T. Die Relation bildet eine Halbordnung auf der Menge der Bäume. Welches Maß kann die Güte der durch Pruning entstehenden Kandidaten bewerten? Problematik: Kandidaten-Teilbäume sind nicht angeordnet bzgl.. Gute Kandidaten-Teilbäume entstehen oft nicht durch wiederholtes Pruning von T max bei einem Greedy-Vorgehen. ML: III-104 Decision Trees c STEIN/LETTMANN

19 Pruning mit Validierungsmenge Sei D V eine fest gewählte Validierungsmenge. Reduced-Error-Pruning: 1. Pruning des Zweiges T t für einen inneren Knoten t. 2. label(t) ist die von DT -construct auf Basis von D(t) dem Knoten zugeordnete Klasse. 3. Falls Err(T,D V ) < Err(T \T t,d V ), Rücknahme der Ersetzung. 4. Weiter bei 1., bis alle Elternknoten der Blattknoten des aktuellen Entscheidungsbaums überprüft wurden. ML: III-105 Decision Trees c STEIN/LETTMANN

20 Pruning mit Validierungsmenge Sei D V eine fest gewählte Validierungsmenge. Reduced-Error-Pruning: 1. Pruning des Zweiges T t für einen inneren Knoten t. 2. label(t) ist die von DT -construct auf Basis von D(t) dem Knoten zugeordnete Klasse. 3. Falls Err(T,D V ) < Err(T \T t,d V ), Rücknahme der Ersetzung. 4. Weiter bei 1., bis alle Elternknoten der Blattknoten des aktuellen Entscheidungsbaums überprüft wurden. Nachteil: Ist D klein, so geht durch eine Aufteilung in Trainings- und Validierungsmenge wertvolle Information zur Konstruktion des Entscheidungsbaums verloren. Verbesserung: Rule-Post-Pruning ML: III-106 Decision Trees c STEIN/LETTMANN

21 Pruning mit Validierungsmenge Accuracy On training data On test data On test data (during pruning) Size of tree (number of nodes) [Mitchell 1997] ML: III-107 Decision Trees c STEIN/LETTMANN

22 Pruning mit Maß für Kosten-Komplexität Einfache Idee: 1. Teile die von T max aus durch Pruning erreichbaren Teilbäume auf Teilmengen auf nach der Anzahl ihrer Blätter. 2. Wähle aus den Teilmengen jeweils einen Teilbaum T mit minimalem Wert für Err(T,D V ) als Kandidaten. ML: III-108 Decision Trees c STEIN/LETTMANN

23 Pruning mit Maß für Kosten-Komplexität Einfache Idee: 1. Teile die von T max aus durch Pruning erreichbaren Teilbäume auf Teilmengen auf nach der Anzahl ihrer Blätter. 2. Wähle aus den Teilmengen jeweils einen Teilbaum T mit minimalem Wert für Err(T,D V ) als Kandidaten. Definition 12 (Kostenkomplexität) Für einen Entscheidungsbaum T und eine Validierungsmenge D V wählen wir ein von Missklassifikationsanteil und leaves(t), also der Anzahl der Blattknoten in T, abhängiges Maß für die Komplexität (Complexity) von T. Für einen Komplexitätsparameter α R, α 0 bezeichnet die Kostenkomplexität von T. Err α (T,D V ) := Err(T,D V )+α leaves(t) ML: III-109 Decision Trees c STEIN/LETTMANN

24 Pruning mit Maß für Kosten-Komplexität (Fortsetzung) Definition 13 (kleinster minimierender Teilbaum) Ausgehend von einem Entscheidungsbaum T und einem Komplexitätsparameter α R,α 0 bezeichnen wir einen Baum T(α) T als kleinsten optimal beschnittenen (Optimally Pruned) Teilbaum von T für α, wenn er folgende Bedingungen erfüllt: 1. Err α (T(α),D) = min T T Err α (T,D) 2. Falls für einen Teilbaum T T gilt Err α (T(α),D) = Err α (T,D), so folgt T(α) T. ML: III-110 Decision Trees c STEIN/LETTMANN

25 Pruning mit Maß für Kosten-Komplexität (Fortsetzung) Lemma 3 Für jeden Baum T und jeden Komplexitätsparameter α R, α 0 existiert ein kleinster optimal beschnittener Teilbaum T(α) T. Beweis (Skizze) Induktion unter Verwendung von Err α (T(α),D) = min{err α (t,d), Err α (T L,D(T L ))+Err α (T R,D(T R ))} für t Wurzel von T sowie T L,T R als linker und rechter Teilbaum von t. ML: III-111 Decision Trees c STEIN/LETTMANN

26 Pruning mit Maß für Kosten-Komplexität (Fortsetzung) Beobachtung: T max Blattanzahl minimaler optimal beschnittener Teilbäume von Tmax { root } 0 α Fragen: Müssen alle Werte für α durchlaufen werden? Sind die Teilbäume geordnet? ML: III-112 Decision Trees c STEIN/LETTMANN

27 Weakest Link Pruning 1. Bestimmung von T 1 = T(α 1 ) mit α 1 = 0 ausgehend von T max. Wegen Err(T 1,D) = Err(T max,d) und Err(t,D(t)) Err(t L,D(t L ))+Err(t R,D(t R )) für innere Knoten t von T max mit Nachfolgern t L und t R schneide alle Blätter t L und t R ab, für die mit ihrem Vorgänger t gilt: Err(t,D(t )) = Err(t L,D(t L))+Err(t R,D(t R)) ML: III-113 Decision Trees c STEIN/LETTMANN

28 Weakest Link Pruning (Fortsetzung) 2. Bestimmung von T k+1 ausgehend von T k. Für jeden inneren Knoten t von T k gilt Err(t,D(t)) > Err(T t,d(t)). Wegen Err α ({t},d(t)) = Err(t,D(t))+α und Err α (T t,d(t)) = Err(T t,d(t))+α leaves(t t ) gilt damit Err α (T t,d(t)) < Err α ({t},d(t)) für genügend kleine Werte für α. Setze: g k (t) := { Err(t,D(t)) Err(Tt,D(t)) leaves(t t ) 1 für t innerer Knoten von T k + für t Blattknoten von T k α k+1 := min t T k g k (t) Die von t k = argmin t Tk g k (t) ausgehenden Kanten bezeichnet man als schwächste Kanten (weakest links) in T k. Durch Abschneiden dieser Zweige T tk (weakest link pruning) erhält man T k+1 = T(α 2 ). ML: III-114 Decision Trees c STEIN/LETTMANN

29 Weakest Link Pruning (Fortsetzung) 3. Bewertung der Teilbäume T k. Bestimme Err(T k,d V ) für alle Teilbäume T k und wähle den Teilbaum mit minimalem Fehler auf der ValidierungsmengeD V. ML: III-115 Decision Trees c STEIN/LETTMANN

30 Weakest Link Pruning (Fortsetzung) 3. Bewertung der Teilbäume T k. Bestimme Err(T k,d V ) für alle Teilbäume T k und wähle den Teilbaum mit minimalem Fehler auf der ValidierungsmengeD V. Satz 2 Die durch das Weakest Link Pruning erhaltene endliche Folge (α k ) ist streng monoton wachsend, d.h. α k < α k+1 für alle k und es gilt sowie T(α) = T(α k ) = T k für alle k und α k α < α k+1 T 1 T 2 T 3 T 4... {t} mit t Wurzel von T max. ML: III-116 Decision Trees c STEIN/LETTMANN

31 Bemerkungen: Schritt 1 und zwei werden mit der Trainingsmenge D für T max durchgeführt, Schritt 3 mit einer Validierungsmenge D V. Anstelle der Verwendung einer Validierungsmenge D V in Schritt 3. kann für die Bewertung der Teilbäume T k auch mit einer Kreuzvalidierung erfolgen. Dazu werden die Schritte 1. bis 3. zunächst für die gemäß der Kreuzvalidierung vorgesehenen Aufteilungen von D in Trainings- und Validierungsmenge vorgenommen. Es ergeben sich entsprechend viele Folgen von kleinsten optimal beschnittenen Teilbäumen. Die mit D ermittelten Bäume T k, die ja von α k bis α k+1 unverändert bleiben, werden bewertet mit dem Mittel des Missklassifikationsanteils der zum geometrischen Mittel αk α k+1 gehörenden kleinsten, optimal beschnittenen Teilbäume aus den Kreuzvalidierungsläufen. D α ML: III-117 Decision Trees c STEIN/LETTMANN

32 Erweiterungen Berücksichtigung von Missklassifikationskosten beim Splitting Surrogate Splittings für fehlende Merkmalwerte Linearkombinationen von Merkmalen Regression Trees ML: III-118 Decision Trees c STEIN/LETTMANN