Boosting für Bäume. Seminar Modellwahlkriterien. Holger Rettig. 18. Dezember 2009

Transkript

1 Boosting für Bäume Seminar Modellwahlkriterien Holger Rettig 18. Dezember 2009 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

2 Gliederung 1 Einführung in CART Motivation Regressionsbäume Klassifikationsbäume 2 Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Optimierung mittels Gradientenboosting Bestimmung der Baumgröße 3 Zusammenfassung 4 Literatur Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

3 Hintergrund Einführung in CART Motivation Entscheidungsbäume Darstellungsform zur Veranschaulichung von Entscheidungsregeln Lösung von Entscheidungsproblemen (Klassifikation, Regression) Aufbau bestehend aus Wurzelknoten, inneren Knoten und Endknoten Repräsentation einer Entscheidungsregel durch Knoten Beschränkung auf binäre Entscheidungsbäume Aufteilung des Merkmalsraums in disjunkte Rechtecke bzw. Regionen Anpassung eines einfachen Modells (z.b. Konstante) für jede Region jeder Endknoten stellt eine Region dar Aufteilung der Daten in Trainings- und Testmenge Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

4 Einführungsbeispiel Einführung in CART Motivation Regressionsproblem Gegeben: abhängige Variable Y und unabhängige Variablen X 1, X 2 Ziel: möglichst genaue Vorhersage von Y Abbildung: Beispielhafte Partitionierung des Merkmalsraums im R 2 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

5 Einführungsbeispiel Einführung in CART Motivation Partitionierung des Merkmalsraums rekursives Vorgehen, bis gewünschte Anzahl von Regionen erreicht binäre Partitionierung, d.h. ausgehend vom gesamtem Raum in jedem Schritt Aufteilung einer Region in zwei Schätzung von Y mittels ˆf (X) = c m, wobei c m Mittelwert von Y in der Region m ist, in der sich X=(X 1, X 2 ) befindet hier fünf Regionen R 1,..., R 5 mit Regressionsmodell: 5 ˆf (X) = c m I {(X1,X 2 ) R m}(x) i=1 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

6 Einführungsbeispiel Einführung in CART Motivation Abbildung: Darstellung des Regressionsmodells mit einem Entscheidungsbaum 1 Wurzelknoten, 3 innere Knoten, 5 Endknoten, 4 Entscheidungsregeln Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

7 Einführungsbeispiel Einführung in CART Motivation Mittelwerte der Regionen z.b. c 1 = 5, c 2 = 7, c 3 = 0, c 4 = 2, c 5 = 4 Abbildung: perspektivische Darstellung der Schätzoberfläche Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

8 Einführung in CART Regressionsbäume Bestimmung eines Regressionsbaums Datengrundlage (x i1,..., x ip, y i ), i = 1,..., N, mit x i = (x i1,..., x ip ) Ziele Bestimmung einer geeigneten Partitionierung des Merkmalsraum in M Regionen R 1,..., R M möglichst genaue Vorhersage der y i mittels c m, m = 1,..., M Entscheidungsregel des Baums M f (x i ) = c m I {xi R m}(x i ) m=1 d.h. falls x i R k f (x i ) = c k, k {1,..., M} Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

9 Einführung in CART Regressionsbäume Bestimmung eines Regressionsbaums Lösung mit binärem Partitionierungsalgorithmus Sei j Index der Trennvariable und s Trennpunkt eines Knotens, d.h. erster Schritt: R 1 (j, s) = {x i x ij s} und R 2 (j, s) = {x i x ij > s} min j,s min c 1 x i R 1 (j,s) (y i c 1 ) 2 + min dabei Lösung der inneren Minimierungsproblems: ĉ 1 = 1 N 1 x i R 1 (j,s) c 2 y i und ĉ 2 = 1 N 2 x i R 2 (j,s) (y i c 2 ) 2 x i R 2 (j,s) Aufteilung der Daten in zwei Regionen im ersten Schritt Wiederholung des Partitionierungsprozesses in resultierenden Regionen Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43 y i

10 Baumgröße Einführung in CART Regressionsbäume Problem Welche Größe (Anzahl der Endknoten/Regionen) soll der Baum haben? Tuningparameter zur Steuerung der Modellkomplexität Neigung zum Overfitting bei sehr großen Bäumen Vernachlässigung der Datenstruktur bei sehr kleinen Bäumen Lösungsansätze Aufteilung einer Region nur, wenn Verkleinerung der Quadratsumme festgelegten Grenzwert überschreitet Bestimmung eines sehr großen Baums, anschließend Zweige abschneiden im Sinne eines Optimierungskriteriums (cost-complexity pruning) Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

11 Einführung in CART Klassifikationsbäume Bestimmung eines Klassifikationsbaums Situationsunterschied im Vergleich zu Regressionsbäumen: Zielvariable y i jetzt Klassenzugehörigkeit k = 1,..., K der x i, i = 1,..., N Bestimmung eines geeigneten Klassifikationsbaums mittels Gütekriterien Anteil der Beobachtungen aus Klasse k in Endknoten m bzw. Region R m : ˆp mk = 1 N m x i R m I {yi =k} Mehrheit der dortigen Beobachtungen entscheidet Klassifikation: k(m) = arg max ˆp mk k Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

12 Gütekriterien Einführung in CART Klassifikationsbäume Fehlklassifikationsrate: 1 N m x i R m I {yi k(m)} = 1 ˆp mk(m) Gini-Index: k k ˆp mk ˆp mk = K k=1 ˆp mk (1 ˆp mk ) Kreuzentropie: K k=1 ˆp mk log(ˆp mk ) FKR Gini Index Kreuzentropie p Abbildung: Beispielhafter Verlauf der Gütekriterien im Zweiklassenfall Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

13 Klassifikationsbeispiel Einführung in CART Klassifikationsbäume Vergleich von zwei Stümpfen (Bäume mit nur zwei Endknoten) Zweiklassenproblem mit 400 Beobachtungen in jeder Klasse (400,400) Aufteilung beim ersten Baum: (300,100) und (100,300) Aufteilung beim zweiten Baum: (200,400) und (200,0) Baum FKR Gini KE zweiter Stumpf ist zu bevorzugen Gini-Index und Kreuzentropie sensibler gegenüber Veränderungen in den Endknoten Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

14 Gliederung Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus 1 Einführung in CART Motivation Regressionsbäume Klassifikationsbäume 2 Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Optimierung mittels Gradientenboosting Bestimmung der Baumgröße 3 Zusammenfassung 4 Literatur Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

15 Ausgangssituation Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Erinnerung Grundlage: Klassifikations- oder Regressionsproblem Boosting-Konzept: Zusammenführung vieler schwacher Klassifizierer/Schätzer zu einem starken Kollektiv Kombination in Boosting-Algorithmen Jetzt: Klassifikations- und Regressionsbäume (CART) als Basisprozeduren Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

16 Ausgangssituation Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus formale Schreibweise eines Entscheidungsbaums T (x i, Θ) = M m=1 c m I {xi R m}, i = 1,..., N dabei Θ = {(R 1, c 1 ),..., (R M, c M )} Aufteilung des Merkmalsraums in M Regionen bzw. des Entscheidungsbaums in M Endknoten falls x i R k mit k {1,..., M} T (x i, Θ) = c k Schätzung der Parameter mit Hilfe einer Verlustfunktion: ˆΘ = arg min Θ M m=1 x i R m L(y i, c m ) anspruchsvolles kombinatorisches Optimierungsproblem approximative Lösung gesucht Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

17 Ausgangssituation Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Aufteilung des Optimierungsproblems 1 Bestimmung der Regionen R m : schwieriges Unterfangen, approximative Lösungen nötig typische Strategie: rekursiver (Top-Down)-Partitionierungsalgorithmus alternative Schreibweise des Optimierungsproblems: Θ = arg min Θ N L(y i, T (x i, Θ)) präzisere Schätzung der c m mit ˆR m = R m 2 Bestimmung der c m (gegeben die Regionen R m ): oftmals trivial mit ĉ m = ȳ m (Mittelwert der y i aus Region m) i=1 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

18 Boostingmodelle für Bäume Boostingmodell mit Bäumen Aufbau des Boosting-Algorithmus J J M j f (x i ) = T (x i, Θ j ) = c jm I {xi R jm } j=1 j=1 m=1 Approximierung der wahren y i durch Summe der Regionskonstanten, die x i durch Bäume zugeteilt werden Θ j = {(R jm, c jm )} M j m=1 ˆ= Aufteilung des Merkmalsraums in M j Regionen im j-ten Schritt R jm ˆ= m-te Region im j-ten Schritt c jm ˆ= Region R jm widerspiegelnde Konstante im j-ten Schritt Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

19 Boostingmodelle für Bäume Boostingalgorithmus mit Bäumen Aufbau des Boosting-Algorithmus schrittweise rekursiver Aufbau Ziel in jedem Schritt: Bestimmung einer geeigneten Partitionierung Θ j ˆΘ j = arg min Θ j N L(y i, f j 1 (x i ) + T (x i, Θ j )) i=1 mit f 0 (x i ) := 0 und f j (x i ) := f j 1 (x i ) + T (x i, Θ j ), j = 1,..., J Bestimmung der c jm gegeben die Regionen R jm : ĉ jm = arg min L(y i, f j 1 (x i ) + c jm ) c jm x i R jm Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

20 Boostingmodelle für Bäume Lösung des Optimierungsproblems Aufbau des Boosting-Algorithmus Vereinfachung in Spezialfällen quadratischer Verlust L(y, f (x)) = (y f (x)) 2 bei Regressionsbäumen ˆΘ j ˆ= Partitionierung, die die Residuen y i f j 1 (x i ) am besten vorhersagt ĉ jm = 1 (y i f j 1 (x i )) N jm x i R jm Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

21 Boostingmodelle für Bäume Lösung des Optimierungsproblems Aufbau des Boosting-Algorithmus Vereinfachung in Spezialfällen exponentielle Verlustfunktion L(y, f (x)) = exp( y f (x)) bei Klassifikationsbäumen mit zwei Klassen AdaBoost-Algorithmus w ij = exp( y i f j 1 (x i )) N ˆΘ j = arg min w ij exp( y i T (x i, Θ j )) Θ j i=1 ĉ jm = log( x i R jm w ij I {yi =+1} x i R jm w ij I {yi = 1} ) Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

22 Boostingmodelle für Bäume Alternative Verlustfunktionen Aufbau des Boosting-Algorithmus für Regressionsbäume absoluter Verlust: L(y, f (x)) = y f (x) Huber-Verlustfunktion: { (y f (x)) L(y, f (x)) = 2 für y f (x) δ 2δ y f (x) δ 2 sonst für Klassifikationsbäume multinomiale Devianz für K Klassen: K K L(y, f (x)) = I {y=k} f k (x) + log( e fh(x) ) k=1 h=1 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

23 Boostingmodelle für Bäume Alternative Verlustfunktionen Aufbau des Boosting-Algorithmus Vorteile robustere Entscheidungsbäume schnelle iterative Algorithmen zur Bestimmung der c jm Problem keine schnellen iterativen Boostingalgorithmen zur Bestimmung der Regionen bzw. Endknoten Übergang zu approximativen Kriterien Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

24 Gliederung Boostingmodelle für Bäume Optimierung mittels Gradientenboosting 1 Einführung in CART Motivation Regressionsbäume Klassifikationsbäume 2 Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Optimierung mittels Gradientenboosting Bestimmung der Baumgröße 3 Zusammenfassung 4 Literatur Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

25 Ausgangssituation Boostingmodelle für Bäume Optimierung mittels Gradientenboosting Ziele: schnelle approximative Boostingalgorithmen zur Bestimmung von Entscheidungsbäumen für jede differenzierbare Verlustfunktion Minimierung des Verlusts L(f ) = N i=1 L(y i, f (x i )) numerische Optimierung Gesucht: f = arg min f L(f ) dabei f R N mit f = {f (x 1 ),..., f (x N )} f (x i ) approximierende Funktion Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

26 Ausgangssituation Boostingmodelle für Bäume Optimierung mittels Gradientenboosting Behandlung von f im numerischen Lösungsverfahren als Summe von Komponentenvektoren h j R N : J f J = h j j=0 dabei f 0 = h 0 anfängliche Schätzung (durch Raten) und f j basierend auf f j 1, j = 1,..., J Methode des steilsten Abstiegs: h j = ρ j g j p j Skalar und g j R N Gradient von L(f ) an der Stelle f = f j 1 Gradientenboosting Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

27 Boostingmodelle für Bäume Parameterbestimmung Optimierung mittels Gradientenboosting Komponenten des Gradienten g j (j-ter Schritt): [ ] L(yi, f (x i )) g ij = f (x i ) f (x i )=f j 1 (x i ) Schrittlänge ρ j : ρ j = arg min ρ L(f j 1 ρ g j ) rekursive Bestimmung der approximierenden Funktionen: f j = f j 1 ρ j g j Interpretation von ( g j ) (negativer Gradient im j-ten Schritt): Richtung im R N, für die L(f ) mit f = f j 1 am schnellsten fällt Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

28 Boostingmodelle für Bäume Vergleich mit Boosting für Bäume Optimierung mittels Gradientenboosting Gemeinsamkeiten iterative { Algorithmen, die in jedem } Schritt Verlustfunktion bzgl. Θ j = (R j1, c j1 ),..., (R jmj, c jmj ) bzw. ρ j maximal reduzieren rekursiver Aufbau (auf f j 1 basierend) Baumkomponenten T (x i, Θ j ) analog zu Komponenten des negativen Gradienten g ij Unterschiede t j = (T (x 1, Θ j ),..., T (x N, Θ j )) nicht unabhängig, da Vorhersagen eines Baums mit M j Endknoten negativer Gradient g j (Richtung des maximalen Gefälles) ohne einschränkende Bedingung Bestimmung der c jm für jede Region R jm separat Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

29 Boostingmodelle für Bäume Optimierung mittels Gradientenboosting Dilemma der Methode des steilsten Abstiegs Methode des steilsten Abstiegs zu bevorzugen, wenn Minimierung des Verlusts L(f ) auf den Trainingsdaten einziges Ziel Gradient g j, j = 1,..., J, leicht zu bestimmen für differenzierbare Verlustfunktionen L(y, f (x)) Lösung des Optimierungsproblem für Θ j schwierig für robuste Verlustfunktionen Problem: Gradient nur für Trainingsdaten x i, i = 1,..., N, definiert Hauptziel aber: Generalisierung von f (x) für neue Testdaten Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

30 Ausweg Boostingmodelle für Bäume Optimierung mittels Gradientenboosting Erstellung eines Baums T (x, Θ j ) im j-ten Boostingschritt, dessen Vorhersagen t j sich so nah wie möglich am negativen Gradienten orientieren: Θ j = arg min Θ N ( g ij T (x i, Θ)) 2 i=1 Anpassung mittels Minimierung des quadratischer Fehlers Regionen R jm zumeist leicht von R jm abweichend dennoch ähnlich genug, um dem gleichen Zweck zu dienen keine Veränderung in der Bestimmung der c jm Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

31 Boostingmodelle für Bäume Gradienten gängiger Verlustfunktionen Optimierung mittels Gradientenboosting Verfahren Verlustfunktion L(y i, f (x i ))/ f (x i ) Regression 1 2 [y i f (x i )] 2 y i f (x i ) Regression y i f (x i ) sign[y i f (x i )] Regression Huber y i f (x i ) für y i f (x i ) δ j δ j sign[y i f (x i )] für y i f (x i ) > δ j wobei δ j das α-quantil von y i f (x i ) Klassifikation multinomiale k-te Klasse: (K Klassen) Devianz I {yi =k} e f k(x i ) / K h=1 e f h(x i ) Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

32 Boostingmodelle für Bäume Gradientenboosting-Algorithmus Optimierung mittels Gradientenboosting Gegeben: Regressionsproblem N 1 Setze f 0 (x) = arg min L(y i, c) c i=1 2 Für j = 1,..., J: [ ] L(yi, f (x i ) Für i = 1,..., N berechne: g ij = f (x i ) f =f j 1 Anpassung eines Regressionsbaums T (x, Θ j ) an den neg. Gradienten g j mit Endregionen R jm, m = 1,..., M j Für m = 1,..., M j berechne c jm = arg min L(y i, f j 1 (x i ) + c) c x i R jm Setze f j (x) = f j 1 (x) + c jm I {x Rjm} M j m=1 J 3 Ergebnis: Regressionsbaum f J (x) = T (x, Θ j ) j=1 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

33 Boostingmodelle für Bäume Gradientenboosting-Algorithmus Optimierung mittels Gradientenboosting Gegeben: Klassifikationsproblem Einzige Unterschiede K-malige Ausführung von Schritt 2 pro Iteration j = 1,..., J Resultat nach letzter (J-ter) Iteration: K verschiedene Regressionsbäume f Jk, k = 1,..., K Allgemeine Tuningparameter Anzahl der Iterationen J im Boostingalgorithmus Größe M j (Anzahl der Endknoten bzw. Regionen) des zu bestimmenden Baums im j-ten Boostingschritt Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

34 Gliederung Boostingmodelle für Bäume Bestimmung der Baumgröße 1 Einführung in CART Motivation Regressionsbäume Klassifikationsbäume 2 Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Optimierung mittels Gradientenboosting Bestimmung der Baumgröße 3 Zusammenfassung 4 Literatur Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

35 Boostingmodelle für Bäume Baumgröße als Tuningparameter Bestimmung der Baumgröße bisherige Vorgehensweise: in jeder Boosting-Iteration zunächst Bestimmung eines sehr großen, überdimensionierten Baums anschließend Verminderung der Endknoten bis zur jeweils gewünschten (als optimal geschätzten) Anzahl M j (pruning) unerwünschte Begleiterscheinungen: Erstellung erheblich zu großer Bäume besonders in den ersten Iterationen höherer Rechenaufwand, geringere Effizienz einfachste Lösungsstrategie: Restriktion auf einheitliche Größe M j = M j Approximation der Zielfunktion η = arg min E XY [L(Y, f (X))] f Ziel: Minimierung des Vorhersagerisikos auf Testdaten Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

36 Boostingmodelle für Bäume Approximation der Zielfunktion Bestimmung der Baumgröße wichtiger Bestandteil der zu approximierenden Zielfunktion η(x): Interaktionsgrad der Variablen X T = (X 1,..., X p ) beschrieben in ANOVA-Struktur (analysis of variance) η(x) = j η j (X j ) + jk η jk (X j, X k ) + jkl η jkl (X j, X k, X l ) +... Haupteffekte, Wechselwirkungen ersten Grades, zweiten Grades usw. in der Praxis oftmals nur Wechselwirkungen niedrigen Grades einflussreich Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

37 Boostingmodelle für Bäume Zusammenhang mit Baumgröße Bestimmung der Baumgröße Frage: Was hat der Wechselwirkungsgrad mit der Baumgröße zu tun? Wechselwirkungsniveau von baumbasierenden Approximationen begrenzt durch Baumgröße M keine Interaktionseffekte vom Grad größer (M 1) übertragbar in Boostingmodelle für Bäume (als Summe von Bäumen) Anzahl dominanter Wechselwirkungen zwar unbekannt, aber in der Praxis niedrig tendierend (i.d.r. 4 J 8 im Boostingprozess) Feintuning möglich mittels Risikovergleich auf Trainingsdatensatz Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

38 Beispiel Boostingmodelle für Bäume Bestimmung der Baumgröße Gegeben: Klassifikationsproblem Seien X 1,..., X 10 ~N(0,1) (u.i.v.) Zielvariable Y definiert durch Y = { +1 falls 10 j=1 X j 2 >med(χ 2 10 ) 1 sonst 2000 Trainingsfälle (mit etwa 1000 in jeder Klasse), Testfälle med(χ 2 10 ) 9.34 Testfehler von 45.8% mit einem Stumpf (ohne Boosting) Ziel: Verkleinerung der Testfehlers mittels Boosting für Bäume Gradientenboosting mit binomialer Devianz L(Y, f (X)) = log(1 + exp( 2Y f (X))) als Verlustfunktion Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

39 Boostingmodelle für Bäume Bestimmung der Baumgröße Beispiel X1 X X1 X2 Y = 1 Y = +1 Abbildung: Gegenüberstellung zweier Variablen Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

40 Beispiel Boostingmodelle für Bäume Bestimmung der Baumgröße Abbildung: Testfehler unterschiedlicher Baumgrößen beim Gradientenboosting Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

41 Gliederung Zusammenfassung 1 Einführung in CART Motivation Regressionsbäume Klassifikationsbäume 2 Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Optimierung mittels Gradientenboosting Bestimmung der Baumgröße 3 Zusammenfassung 4 Literatur Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

42 Zusammenfassung Zusammenfassung Entscheidungsbäume nützlich zur Lösung von Klassifikations- und Regressionsproblemen (CART-Algorithmus) mit Boosting-Konzept kombinierbar Robustheit in Abhängigkeit der gewählten Verlustfunktion Übergang zu approximativem Verfahren (Gradientenboosting) Baumgröße und Anzahl der Iterationen sind Tuningparameter Interaktionsgrad beschränkt durch Baumgröße geringere Fehlerrate im Vergleich zum herkömmlichen AdaBoost Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

43 Literatur Hastie, T., Tibshirani, R., Friedman, J. (2009): The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2. Auflage, Springer, New York. R Development Core Team (2009): A language and environment for statistical computing, Version 2.9.0, R Foundation for Statistical Computing, Wien. Vogt, J. (2000): Bagging, Boosting und verwandte Methoden, Diplomarbeit. Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43