Kapitel V. V. Ensemble Methods. Einführung Bagging Boosting Cascading

Größe: px

Ab Seite anzeigen:

Download "Kapitel V. V. Ensemble Methods. Einführung Bagging Boosting Cascading"

Minna Reuter
vor 6 Jahren
Abrufe

1 Kapitel V V. Ensemble Methods Einführung Bagging Boosting Cascading V-1 Ensemble Methods c Lettmann 2005

2 Einführung Bewertung der Generalisierungsfähigkeit von Klassifikatoren R (c) wahre Missklassifikationsrate R(c) = {i {1,...,N} c(x i) ĉ(x i )} N Resubstitutionsfehler R ts (c) = {x L ts c(x) ĉ(x)} L ts Missklassifikationsrate auf der Testmenge R cv = 1 K K k=1 R ts (c k ) Missklassifikationsrate bei Kreuzvalidierung R ts (als Beispiel) ermöglicht auch den Vergleich von Lernverfahren. Gibt es ein bestes Lernverfahren? V-2 Ensemble Methods c Lettmann 2005

3 Einführung No free lunch theorems There Ain t No Such Thing As A Free Lunch. [Robert A. Heinlein in The Moon Is a Harsh Mistress, 1966] In der Optimierung: [...] all algorithms that search for an extremum of a cost function perform exactly the same, when averaged over all possible cost functions. [David H. Wolpert und William G. Macready, 1995] Im Maschinellen Lernen: Some of those theorems show, loosely speaking, that for any two algorithms A and B, there are as many targets for which algorithm A has lower expected OTS [off-training set sampling] error than algorithm B as vice-versa (whether one averages over training sets or not). [David H. Wolpert 1996] V-3 Ensemble Methods c Lettmann 2005

4 Einführung Probleme von Lernverfahren Statistisches Problem: Das Verfahren betrachtet eine gemessen an der Menge von Trainingsdaten zu große von Hypothesen. Auf Basis der Trainingsdaten eignen sich mehrere Hypothesen gleichermaßen gut als Klassifizierer. Rechentechnisches Problem: Aufgrund der Komplexität des Problems kann das Lernverfahren nicht das Finden einer besten Lösung innerhalb der Hypothesenmenge garantieren. Bei Verwendung von Heuristiken besteht die Gefahr einer suboptimalen Lösung. Repräsentationsproblem: Die Kandidatenmenge der Hypothesen enthält keine ausreichend guten Approximationen des Zielkonzeptes. Das Lernverfahren kann einen gewünschten Approximationsgrad nicht liefern. V-4 Ensemble Methods c Lettmann 2005

5 Einführung Instabilität von Lernverfahren Heuristische Formulierung: Ein Lernverfahren heißt instabil, wenn eine kleine Veränderung in den Trainingsdaten eine große Veränderung im gelernten Klassifikator bewirkt. Instabile Lernverfahren: Neuronale Netze CART Stabile Lernverfahren: k Nearest Neighbor V-5 Ensemble Methods c Lettmann 2005

6 Bagging Bootstrap Aggregating Idee: Eine Gruppe von Klassifikatoren, die gemeinsam klassifizieren, kann die Nachteile einzelner Klassifikatoren aufwiegen. Problem: Das Lernverfahren braucht verschiedene Trainingsmengen, um verschiedene Klassifikatoren zu bestimmen. Lösung: Generierung von ähnlichen Trainingsmengen durch Bootstrapping (vgl. Kreuzvalidierung). V-6 Ensemble Methods c Lettmann 2005

7 Bagging Bootstrap Aggregating [Breiman 1994] Ausgangspunkt Lernmenge L mit N Beispielen Für b =1,...,B wiederhole den folgenden Auswahlprozess Ziehe aus L insgesamt N Beispiele mit Zurücklegen und bilde daraus die Lernmenge L b Mit den Lernmengen L 1,...,L B werden mit Hilfe eines Lernverfahrens die einzelne Klassifikatoren c k bestimmt. Die Klassifikatoren c 1,...,c B werden zu einem Ensemble zusammengefasst und legen durch Mehrheitsentscheid die Klasse eines Beispiels fest: c(x) := argmax {b {1,...,B} : c b (x) =j} j {1,...,J} V-7 Ensemble Methods c Lettmann 2005

8 Bagging Leistungsfähigkeit von Bootstrap Aggregating Die Wahrscheinlichkeit, dass ein Beispiel mindestens einmal gezogen wird, ist 1 (1 1/N ) N. Für N groß, gilt 1 (1 1/N ) N 1 1/e In jeder Lernmenge sind etwa 63.2% der Beispiele in L. Verbesserungen der Fehlerrate von 20% bis 47% bei Anwendung mit Entscheidungsbäumen wurden beobachtet. V-8 Ensemble Methods c Lettmann 2005

9 Boosting Boosting Weak Classifiers Idee: Eine Gruppe von Klassifikatoren, die gemeinsam klassifizieren, kann die Nachteile einzelner Klassifikatoren aufwiegen. Problem: Das Lernverfahren braucht verschiedene Trainingsmengen, um verschiedene Klassifikatoren zu bestimmen. Lösung: Verschränkung von Lernalgorithmus und Generierung von Lernmengen: Gewichtung der Lernbeispiele (Änderung der relativen Häufigkeiten) aufgrund der Auswertung des vorherigen Klassifikators. V-9 Ensemble Methods c Lettmann 2005

10 Boosting AdaBoost (Adaptive Boosting [Freund, Schapire 1996] Ausgangspunkt Lernmenge L mit N Beispielen Gewichtung der Lernbeispiele entsprechend dem Klassifikationsergebnis des zuletzt generierten schwachen Klassifikators Verringerung des Gewichts von korrekt klassifizierten Beispielen Erhöhung des Gewichts von falsch klassifizierten Beispielen Mit der neuen Lernmenge wird mit Hilfe eines Lernverfahrens der nächste Klassifikator bestimmt. Die Klassifikatoren c 1,...,c T werden zu einem Ensemble zusammengefasst und legen durch gewichteten Mehrheitsentscheid die Klasse eines Beispiels fest. Anwendung z.b. mit Stümpfen von Entscheidungsbäumen V-10 Ensemble Methods c Lettmann 2005

11 Boosting Algorithm: AdaBoost.M1 Input: Lernbeispiele (x 1,y 1 ),...,(x N,y N ), N N mit x i X und y i {1,...,J} für 1 i N; Anzahl T mit T N für die Anzahl der Runden. Output: Klassifizierer c für X. 1. Initialisiere Gewichte für alle Beispiele durch w 1 (i) =1/m für 1 i N. 2. Für t =1,...,T führe folgende Schritte aus: (a) Trainiere einen schwachen Klassifikator c t,d.h.c t : X R, mit den durch w t gewichteten Beispielen. (b) Sei ε t = N i=1 w t(i) (1 δ(c t (x i ),y i )) = {i c t (x i ) y i } w t(i). (δ Kronecker-Funktion, d.h. δ(x, y) = 1für x = y und δ(x, y) = 0sonst.) (c) Setze β t = ε t (1 ε t ) {. wt (i) β (d) Setze w t+1 (i) = t 1/z t falls c t (x i )=y i für 1 i N. w t (i) 1/z t sonst z t ist Normalisierungsfaktor, durch den das Gesamtgewicht aller Beispiele den Wert 1 erhält, also eine Verteilung widerspiegelt. 3. Ergebnis ist der Klassifikator c(x) = argmax log 1 β t j {1,...,J} {t c t (x i )=j} V-11 Ensemble Methods c Lettmann 2005

12 Boosting Leistungsfähigkeit von AdaBoost.M1 Der Klassifikator c gewichtet die Entscheidungen der einzelnen Klassifikatoren stärker, wenn ihr Fehler klein ist. Wenn die einzelnen Klassifikatoren eine bessere Fehlerrate als 1/2 haben, dann fällt der Fehler von c exponentiell in T gegen 0. Satz 1 Falls für die Fehlerraten ε t während des Ablaufs von Algorithmus AdaBoost.M1 gilt ε t 1/2, so folgt für den trainierten Klassifizierer c 1 N {i : c(x i) y i } exp ( 2 T t=1 ( ) ) ε t V-12 Ensemble Methods c Lettmann 2005

13 Boosting Problem: Fehlerrate der im Fall von J Klassen mit J>2 nicht so einfach erreichbar. Spezialfall J =2: Klassifikationsproblem mit genau 2 Klassen, ein schwacher Klassifizierer muss nur geringfügig besser sein als Raten. Betrachtung der Klassen { 1, +1} erlaubt einfachere Schreibweisen. V-13 Ensemble Methods c Lettmann 2005

14 Boosting Algorithm: Discrete AdaBoost Input: Lernbeispiele (x 1,y 1 ),...,(x N,y N ), N N mit x i X und y i { 1, +1} für 1 i N; Anzahl T mit T N für die Anzahl der Runden. Output: Klassifizierer c für X. 1. Initialisiere Gewichte für alle Beispiele durch w 1 (i) =1/N für 1 i N. 2. Für t =1,...,T führe folgende Schritte aus: (a) Trainiere einen schwachen Klassifikator c t,d.h.c t : X R, mit den durch w t gewichteten Beispielen. (b) Sei ε t = N i=1 w t(i) 1/2 c t (x i ) y i = {i c t (x i ) y i } w t(i). (c) Setze β t = ε t (1 ε t ) {. wt (i) β (d) Setze w t+1 (i) = t 1/z t falls c t (x i )=y i für 1 i N. w t (i) 1/z t sonst z t ist Normalisierungsfaktor, durch den das Gesamtgewicht aller Beispiele den Wert 1 erhält, also eine Verteilung widerspiegelt. 3. Ergebnis ist der Klassifikator ( T ) c(x) =sign log 1 c t (x) β t t=1 V-14 Ensemble Methods c Lettmann 2005

15 Boosting Erweiterungen von AdaBoost Real AdaBoost (2 Klassen) Die schwachen Klassifikatoren liefern eine Schätzung der mit den w t gewichteten Wahrscheinlichkeit für die Klasse +1. V-15 Ensemble Methods c Lettmann 2005

16 Cascading Cascades of Classifiers [Viola, Jones 2001] h h h c c 2 c 3 c T h 1-f 1-f 1-f 1-f Gesucht wird eine Folge c 1,...,c T von Klassifikatoren mit steigender Komplexität für ein 2-Klassen-Problem. Für jeden Klassifikator werden Mindestbedingungen gestellt an die Hitrate {x L:c t(x)=ĉ(x)=+1} {x L:ĉ(x)=+1} und die False Alarm Rate {x L:c t(x)=+1} {x L:ĉ(x)= 1}. Aus der Lernmenge L wird eine Teilmenge von Beispielen gezogen, die von der bisherigen Kaskade mit +1 klassifiziert werden. Das Verhältnis von Positivbeispielen und Negativbeispielen ist fest. Für 10 Stufen in der Kaskade, einer Hitrate von mindestens 0.99 und einer False Alarm Rate von höchstens 0.3 erhält man für die Kaskade eine Hitrate von und eine False Alarm Rate von höchstens V-16 Ensemble Methods c Lettmann 2005

Ähnliche Dokumente

Kapitel ML:IX (Fortsetzung)

Kapitel ML:IX (Fortsetzung) IX. Combined Models and Meta Learning Motivating Ensemble Classification Bagging Boosting Cascading Ensemble Classifier ML:IX-1 Meta Learning LETTMANN 2007-2015 Motivating Ensemble