Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Transkript

1 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013

2 Bäume - Einführung und Beispiele Supervised Learning Je nach Skalenniveau der abhängigen Variablen: Regressionsbaum Klassifikationsbaum Bäume partitionieren den Kovariablen-Raum in Rechtecke R m (m = 1,..., M) und fitten einfache Modelle (z.b. Konstante) in jedem Rechteck: f (x) = M c m I(x R m ), m=1 wobei c m entweder den gefitteten Wert für einen Regressionsbaum oder die gefittete Klassenverteilung bzw. die häufigste Klasse für einen Klassifikationsbaum darstellt. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 1 / 49

3 Bäume - Einführung und Beispiele / 2 Beispiel: Iris-Daten Petal.Length Petal.Width Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 2 / 49

4 Bäume - Einführung und Beispiele / Petal.Length Petal.Width Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 3 / 49

7 Bäume - Einführung und Beispiele / 6 1 Petal.Length <= 1.9 > Petal.Width <= 1.7 > Petal.Length <= 4.8 > 4.8 Node 2 (n = 50) Node 5 (n = 46) Node 6 (n = 8) Node 7 (n = 46) setosa versicolor virginica setosa versicolor virginica setosa versicolor virginica setosa versicolor virginica Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 6 / 49

8 Algorithmen zur Baumkonstruktion CART [Breiman et al. (1984): Classification and Regression Trees, CRC Press] C4.5 [Quinlan, J. R. (1993): C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers] Unverzerrtes Rekursives Partitionieren [Hothorn et al. (2006): Unbiased recursive partitioning: A conditional inference framework, Journal of Computational and Graphical Statistics, Vol. 15, pp ] Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 7 / 49

9 Bausteine der Algorithmen Greedy-Algorithmus: Auswahl der besten Kovariablen mit bestem Splitpunkt über alle Kovariablen und alle möglichen Splitpunkte pro Schritt. Binäre Splits / Mehrweg-Splits Kriterium zur Auswahl einer Variablen und des Splitpunkts / der Splitpunkte Stopp-Kriterium Umgang mit fehlenden Werten Pruning Erstellung von Vorhersageregeln Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 8 / 49

10 Vorteile Leicht verständliches Modell. Interpretierbarkeit durch graphische Veranschaulichung. Interaktionen zwischen erklärenden Variablen können gut eingefangen werden. Baumstruktur spiegelt stufenweise Entscheidungen wider. Funktioniert auch für nichtlineare Funktionen. Auch bei kleiner Stichprobengröße und vielen Prädiktoren anwendbar. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 9 / 49

11 Nachteile Hohe Instabilität (Varianz) der Bäume: kleine Änderungen in den Daten können zu völlig anderen Splits und somit zu komplett anderen Bäumen führen. Entscheidungen auf oberem Level beeinflussen Entscheidungen weiter unten ( Fehler in oberen Levels setzen sich nach unten fort) Vorhersagefunktion ist nicht glatt (es wird eine Treppenfunktion angepasst) Lineare Zusammenhänge müssen über mehrere Splits modelliert werden Einfache lineare Zusammenhänge müssen in eine komplexe Baumstruktur übersetzt werden Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 10 / 49

12 Nachteile / x1 x2 Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 11 / 49

18 Classification and Regression Trees (CART) Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 17 / 49

19 CART (Classification and Regression Trees) Abhängige Variable kann metrisch oder kategoriell sein. Es werden nur binäre Splits betrachtet: Bei Auswahl des Splitkriteriums muss auf das Bestrafen von Mehrweg-Splits nicht geachtet werden. Interpretierbarkeit des Baums u.u. schlechter, da dies zu mehreren Splits in derselben Variablen auf verschiedenen Stufen führen kann. Gütekriterium je nach Skalenniveau der abhängigen Variablen. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 18 / 49

20 CART: Gütekriterien Metrische Zielgröße: minimaler quadratischer Abstand. Aufteilung aller Daten anhand der Splivariablen X j am Splitpoint s ergibt die folgenden Halbebenen: R 1 (j, s) = {X : X j s} und R 2 (j, s) = {X : X j > s}. Ermittlung der besten Splitvariable und des dazugehörigen besten Splitpunktes: min j,s min c 1 X i R 1 (j,s) (Y i c 1 ) 2 + min c 2 X i R 2 (j,s) (Y i c 2 ) 2. Für beliebige j und s wird die innere Minimierung durch ĉ 1 = ave(y i X i R 1 (j, s)) und ĉ 2 = ave(y i X i R 2 (j, s)) gelöst. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 19 / 49

21 CART: Gütekriterien / 2 Kategorielle Zielgröße (K Kategorien): Unreinheitsmaße ( Impurity Measures ) Gini-Index: k k ˆp k ˆp k = Missklassifikationsrate: Entropie: K ˆp k (1 ˆp k ) k=1 1 arg max ˆp k k K ˆp k log ˆp k, k=1 wobei ˆp k die relative Häufigkeit von Kategorie k ist. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 20 / 49

22 CART: Gütekriterien / Gini Index Entropie Missklassifikationsfehler p Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 21 / 49

23 CART: Stopp-Kriterien Vorgegebene minimale Anzahl an Beobachtungen pro Knoten, damit ein Split versucht wird. Vorgegebene minimale Anzahl an Beobachtungen, die in einem Blatt vorhanden sein müssen. Minimale vorgegebene Verbesserung in der Anpassungsgüte wird nicht erreicht. Maximale vorgegebene Anzahl an Levels für den Baum erreicht. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 22 / 49

24 CART: Overfitting CART-Algorithmus lässt sich prinzipiell so lange fortführen, bis in jedem Blatt genau eine Beobachtung enthalten ist Komplexität (und damit die Overfitting-Gefahr) wächst mit der Zahl der Splits / Levels / Blätter Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 23 / 49

25 CART: Pruning Methode zum optimalen Trade-off zwischen Anpassungsgüte und Komplexität ( Minimal Cost Complexity Pruning ) Kriterium: Kostenfunktion R α = R(T ) + α #Blätter, wobei R(T ) der Fehler des Baums T auf den Trainingsdaten ist ( R α = Trainigsfehler + Komplexitätsterm). Für jedes α gibt es einen eindeutig bestimmten, kleinsten Unterbaum des ursprünglichen Baums, der die Kostenfunktion minimiert. ˆα kann mit Hilfe von Kreuzvalidierung bestimmt werden. Endgültiger Baum wird auf den gesamten Daten geschätzt, wobei ˆα verwendet wird, um die optimale Größe zu bestimmen. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 24 / 49

26 CART: Kategorielle Prädiktoren Für eine ungeordnete, kategorielle Kovariable mit Q Ausprägungen gibt es 2 Q 1 1 mögliche Partitionen für die Q Werte. Anzahl prohibitiv groß für große Werte von Q. Effiziente Umsetzung im Fall einer binären abhängigen Variablen: Bestimme den Anteil der Erfolge der abhängigen Variablen in jeder Kategorie der Kovariablen. Sortiere die Kategorien anhand dieser Anteile. Kovariable kann dann wie eine geordnete kategorielle Variable behandelt werden. Solche Vereinfachungen sind für eine abhängige Variable mit mehr als 2 Ausprägungen nicht möglich. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 25 / 49

27 CART: Fehlende Kovariablenwerte Zwei Möglichkeiten: 1 Fehlenden Werten wird bei einer kategoriellen Variablen eine eigene Kategorie zugeordnet. 2 Für die Auswahl einer Variable mit zughörigem Splitpunkt werden nur Beobachtungen ohne fehlenden Wert betrachtet. Um Beobachtungen mit fehlenden Werten ebenfalls im Baum nach unten weiterzugeben, werden Stellvertretervariablen gesucht, die ähnliche Splits erzeugen. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 26 / 49

28 C4.5 Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 27 / 49

29 C4.5 Nachfolger in einer Reihe von Entscheidungsbaumlernern, die in den späten 1950ern und frühen 1960ern entwickelt worden sind. Kovariablen: metrische und diskrete Merkmale möglich Zielgröße: kategorielle Variable mit K Ausprägungen Spezifikation 1: Wenn alle Beobachtungen im Knoten S zur selben Klasse gehören, dann handelt es sich bei dem Knoten um ein Blatt. Spezifikation 2: Ansonsten sei B ein Test (Split), der die Beobachtungen im Knoten S in eine nicht-triviale Partition von t Teilmengen unterteilt. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 28 / 49

30 C4.5: Kovariablen Für jede partitionierende Kovariable X j : Wenn X j eine diskrete Variable mit Q Ausprägungen ist, dann sind mögliche Tests B: 1 jede Ausprägung definiert ein neues Blatt 2 Blätter werden durch teilweises Zusammenfassen von Ausprägungen gebildet Wenn X j eine metrische Variable ist, dann werden Schwellwerte verwendet, die die geordnete Datenliste jeweils unterschiedlich teilen. Für d verschiedene Werte von X j im Knoten S gibt es d 1 Schwellwerte, die betrachtet werden müssen. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 29 / 49

31 C4.5: Auswahlkriterien Informationszugewinn (Information Gain): Die Information (hier als Impurity Measure verwendet) des Modells im Knoten S ist gegeben durch die Entropie I(S) = K p(c k, S) log(p(c k, S)), k=1 wobei p(c k, S) gleich der relativen Häufigkeit der Fälle in S, die zur Zielgrößen-Klasse C k gehören, ist. Der Informationszugewinn einer Partition von S in S 1, S 2,..., S t durch einen Test B ist gegeben durch G(S, B) = I(S) t j=1 S j S I(S j). Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 30 / 49

32 C4.5: Auswahlkriterien / 2 G(S, B) sollte möglichst groß werden Problem: Je größer t wird, desto größer wird tendenziell der Informationsgewinn. Beispiel: falls S j = 1 j, dann gilt t S j j=1 S I(S j) = 0, und der Informationsgewinn wird maximal. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 31 / 49

33 C4.5: Auswahlkriterien / 3 Ausweg: Zugewinnverhältnis (Gain Ratio): Die potentielle Information der Partition (und damit ihre Impurity) ist gegeben durch P(S, B) = t j=1 ( ) S j S log Sj. S Es wird dann der Test gewählt, der folgenden Ausdruck maximiert: G(S, B)/P(S, B). Das Zugewinnverhältnis hat im Vergleich zum Informationszugewinn den Vorteil, dass es nicht maximal wird, falls der Test B jede Beobachtung in eine eigene Gruppe einteilt. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 32 / 49

34 C4.5: Fehlende Kovariablenwerte Bei fehlenden Werten ändert sich der Informationsgewinn zu G(S, B) = S\S 0 G(S\S 0, B), S wobei S 0 die Beobachtungen mit fehlenden Werten in derjenigen Kovariablen enthält, die beim Test betrachtet wird. Die potentielle Information der Partition ändert sich zu P(S, B) = S ( ) 0 S log S0 t S j S S log j=1 ( Sj S ). Beide Änderungen haben den Effekt, dass Attribute mit vielen fehlenden Werten schlechter abschneiden. Nach Wahl eines Tests werden die Beobachtungen mit fehlenden Werten zu jeder Partition mit den Gewichten S j / S\S 0 zugeordnet. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 33 / 49

35 C4.5: Vermeiden von Overfitting - Pruning Sei M die Anzahl der falsch klassifizierten Beobachtungen im Trainingsdatensatz. Eine obere Schranke U CF = U CF (M, S ) für die Fehlerrate wird bestimmt durch { (1 UCF S für M = 0 CF = M ( S ) i=0 i U i CF (1 U CF ) S i für M > 0 Der Default für CF ist Der Baum wird durch einen einzigen Durchlauf von unten nach oben zurechtgestutzt ( Post Pruning ). Hierbei werden die Schranken U CF als Abschätzungen für die Fehlerraten verwendet. Übersteigt die gewichtete Summe der Fehlerraten in den Blättern eines Knotens diejenige des Knotens, so wird der zugehörige Unterbaum entfernt. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 34 / 49

36 Vergleich CART - C4.5 Splits sind bei CART binär, bei C4.5 nicht notwendigerweise Pruning: CART verwendet Kostenfunktion + Kreuzvalidierung für Tuningparameter α C4.5 verwendet Binomialapproximation auf Basis der Lerndaten zur Fehlerratenschätzung beim Pruning Unterschiedliche Behandlung von Missing Values Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 35 / 49

37 Software in R CART: Paket rpart mit Fit-Funktion rpart(). C4.5: Im Paket RWeka steht J48() zum Fitten zur Verfügung. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 36 / 49

38 Unverzerrtes Rekursives Partitionieren Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 37 / 49

39 Unverzerrtes Rekursives Partitionieren Probleme bei klassischen Baumalgorithmen: Kein Konzept der Signifikanz Möglicherweise verzerrte Variablenselektion Idee: Führe Partitionierung anhand eines generischen Frameworks durch, das auf statistischer Inferenz beruht. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 38 / 49

40 Bedingte Inferenzbäume Nichtparametrischer Ansatz unter Verwendung eines vereinheitlichenden Frameworks von nichtparametrischen Tests. Algorithmus: 1 Assoziationsmaß ( Gütekriterium für die Variablenselektion): p-wert des Permutationstests auf Unabhängigkeit zwischen Y und X j 2 Split-Strategie nach Selektion: Maximiere Zwei-Stichproben-Kontrast von Y entlang der selektierten Kovariablen X j. 3 Stopp-Kriterium: Signifikanz des Tests in Schritt 2. Anmerkung: Sowohl Modell als auch Test bedingen auf die beobachteten Daten. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 39 / 49

41 Bedingte Inferenzbäume / 2 Assoziationsmaß: Unabhängigkeitstest abgeleitet von genereller Korrelation zwischen Y und X j, ( n ) t j = vec h(y i ) g j (X ij ), i=1 wobei g j ( ) eine m j -dimensionale Transformation und h( ) eine q-dimensionale Einflussfunktion sind (m j, q N, t j R q m j ) Die Einflussfunktion kann vom Antwortvektor (Y 1,..., Y n ) abhängen, jedoch nur auf permutationssymmetrische Art und Weise h(y i ) = h(y i, (Y 1,..., Y n )). Die Einflussfunktion darf nicht davon abhängen, in welcher Reihenfolge die Y i eingetreten sind. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 40 / 49

42 Bedingte Inferenzbäume / 3 Teststatistik: Skalare standardisierte Statistik basierend auf der bedingten Erwartung µ j und der Varianz-Kovarianzmatix Σ j (gegeben die Daten), z.b. (t µ) k s max (t, µ, Σ) = max, oder k=1,...,q m (Σ)kk s quad (t, µ, Σ) = (t µ)σ + (t µ), wobei Σ + die Moore-Penrose-Inverse von Σ ist. Unter Unabhängigkeit ergeben alle Permutationen von Y die bedingte Verteilung von t j. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 41 / 49

43 Bedingte Inferenzbäume / 4 Erwartungswertbildung ergibt den bedingten Erwartungswert (( n ) ) µ j = E(t j ) = vec g j (X ij ) E(h), E(h) = 1 n h(y i ). n i=1 Die bedingte Varianz-Kovarianzmatrix Σ j ergibt sich aus ( n ) Σ j = Var(t j ) = n n 1 Var(h) g j (X ij ) g j (X ij ) Var(h) = 1 n 1 n 1 Var(h) i=1 i=1 ( n ) ( n g j (X ij ) g j (X ij )), i=1 i=1 n (h(y i ) E(h))(h(Y i ) E(h)), i=1 wobei das Kronecker-Produkt bezeichnet. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 42 / 49

44 Bedingte Inferenzbäume / 5 Signifikanz: Verschiedene Methoden möglich, um die Signifikanz der Teststatistiken s(t j, µ j, Σ j ) zu bestimmen: Exakt: Direkte Berechnung der Statistik für alle Permutationen. Im allgemeinen sehr rechenintensiv. Approximativ: Berechne Statistik für eine genügend große Anzahl an Permutationen, die mit Hilfe von Monte-Carlo-Methoden gezogen werden. Asymptotisch: Berechne die bedingte asymptotische Verteilung von s basierend auf der asymptotischen bedingten Verteilung von t j mit t j N (µ j, Σ j ). Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 43 / 49

45 Bedingte Inferenzbäume / 6 Wahl der Transformationen: Basierend auf Skalenniveau von Y und X j sowie der Art der Abhängigkeit. Kategoriell: Indikatorfunktionen für alle K Kategorien h(y) = (I 1 (y),..., I K (y)). Metrisch: Identität: h(y) = y Ränge: h(y) = rank(y). Schwellwert: h(y) = I(y > ζ). Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 44 / 49

46 Bedingte Inferenzbäume / 7 Spezialfälle: Geeignete Wahl von h( ) und g( ) ergibt viele klassische Tests als Spezialfälle: Wilcoxon-Mann-Whitney Test: h( ): Ränge für metrische Variable g j ( ): Dummy-Kodierung für kategorielle Variable Teststatistik: skalar Kruskal-Wallis Rangsummentest: h( ): Ränge für metrische Variable g j ( ): Dummy-Kodierung für kategorielle Variable Teststatistik: quadratische Form Implementiert im Paket coin. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 45 / 49

47 Bedingte Inferenzbäume / 8 > airq <- subset(airquality, Month %in% c(5, 8)) > wilcox.test(ozone ~ Month, data = airq, + exact = FALSE, correct = FALSE) Wilcoxon rank sum test data: Ozone by Month W = 127.5, p-value = alternative hypothesis: true location shift is not equal to 0 > independence_test(ozone ~ Month, data = airq, + ytrafo = rank, teststat = "scalar") Asymptotic General Independence Test data: Ozone by Month Z = , p-value = alternative hypothesis: two.sided Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 46 / 49

48 Bedingte Inferenzbäume / 9 > data("alpha", package = "coin") > kruskal.test(elevel ~ alength, data = alpha) Kruskal-Wallis rank sum test data: elevel by alength Kruskal-Wallis chi-squared = , df = 2, p-value = > independence_test(elevel ~ alength, data = alpha, + ytrafo = rank, teststat = "quad") Asymptotic General Independence Test data: elevel by alength (short, intermediate, long) chi-squared = , df = 2, p-value = Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 47 / 49

49 Bedingte Inferenzbäume / 10 Split-Strategie: Maximiere Zwei-Stichprobenkontrast entlang der selektierten Kovariablen X j. Verwende Schwellwerttransformation g j (X j ) = I(X j > ζ) für alle möglichen Werte von ζ. Wähle den Split ζ, der die zugehörige Teststatistik maximiert. Stopp-Kriterium: Nicht-Signifikanz von Bonferroni-korrigierten p-werten der Permutationstests. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 48 / 49

50 Software in R Paket party auf CRAN ctree() zum Fitten von bedingten Inferenzbäumen. Paket partykit auf CRAN / R-Forge Ein Werkzeugsatz für das rekursive Partitionieren mit einer Infrastuktur für Bäume von rpart, RWeka und party (in Entwicklung). Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 49 / 49