Modell Komplexität und Generalisierung

Transkript

1 Modell Komplexität und Generalisierung Christian Herta November, von 41 Christian Herta Bias-Variance

2 Lernziele Konzepte des maschinellen Lernens Targetfunktion Overtting, Undertting Generalisierung Out-of-sample error und Testdaten Modell-Komplexität (model complexität) 2 von 41 Christian Herta Bias-Variance

3 Outline 1 Tagetfunktion und Rauschen 2 Overtting-Undertting 3 Testdaten 4 Bias-Varianz Analyse 5 Lern Kurven 3 von 41 Christian Herta Bias-Variance

4 Targetfunktion Es soll eine unbekannte Funktion, die sogenannte Targetfunktion t( x), angenähert werden. Erhält man die Datentargets y deterministisch aus den x Werten, so kann man y als Funktion, der sogenannten Targetfunktion t, schreiben: y = t( x) 4 von 41 Christian Herta Bias-Variance

5 Verrauschte Targets Die unbekannte Targetfunktion t( x) entspricht in der Regel für ein x (i) nicht (direkt) dem y (i). Die Daten sind typischerweise verrauscht. Dies kann man folgenderweise modellieren: y (i) = t( x (i) ) + ɛ mit einer Zufallsvariable ɛ (= stochastisches Rauschen) Somit erhält man statt einer Funktion eine Wahrscheinlichkeitsverteilung p(y x) Die Wahrscheinlichkeitsverteilung des Rauschens kann dabei auch von x abhängen p(ɛ x). 5 von 41 Christian Herta Bias-Variance

6 Ziel des Lernens und Trainingsdaten Ziel des Lernens: Finden einer geeigneten Hypothese h( x) t( x) für alle interessanten x, d.h. x für die eine Vorhersage gemacht werden soll. p( x) hinreichend groÿ. Die Traingsdaten sind verrauscht: y (i) = t( x (i) ) + ɛ Welche Muster liegen der Targetfunktion zu Grunde und welche kommen zufällig aus der Auswahl der Trainingsdaten (sampling error). Die Werte der Hypothese h( x (i) ) sollte nicht perfekt den y (i) der Trainingsdaten entsprechen. Aber wie weit soll die Übereinstimmung sein? 6 von 41 Christian Herta Bias-Variance

7 Lern-Diagramm nur Training nach [Abu] 7 von 41 Christian Herta Bias-Variance

9 Beispiel: Undertting-Overtting: Polynominal Regression 9 von 41 Christian Herta Bias-Variance

10 Logistic Regression: Undertting 10 von 41 Christian Herta Bias-Variance

11 Logistic Regression: Overtting Logistische Regression mit hochgradigem Polynom: h Θ ( x) = g(θ 0 + Θ 1 x1 + Θ 2 x1x2 + Θ 3 x Θ 4x Θ 5x 2 1 x ) 11 von 41 Christian Herta Bias-Variance

12 Logistic Regression: Passend 12 von 41 Christian Herta Bias-Variance

13 Ziel des Lernens - Hypothesenmenge H Ziel des Lernens: Finden einer geeigneten Hypothese h( x) t( x) h wird aus einer Menge von Hypothesen H durch die Trainingsprozedur bestimmt. Univariate Lineare Regression als Beispiel zur Verdeutlichung der Bedeutung von H: H ist die Menge aller (unendlich vielen) Hypothesen h Θ (x) = Θ 0 + Θ 1 x, die sich durch Variation der Θ ergeben. Aus der Menge von möglichen Hypothesen H wird durch Lernen der Parameter Θ mittels den Trainingsdaten eine bestimmte Hypothese h Θnal (x) erhalten. Diese zeichnet sich durch das Minimum der Kostenfunktion aus, d.h. Θ : J(Θ nal ) J(Θ) 13 von 41 Christian Herta Bias-Variance

14 Undertting Ziel: h( x) t( x) Was passiert beim Undertting? 14 von 41 Christian Herta Bias-Variance

15 Undertting Ziel: h( x) t( x) Was passiert beim Undertting? Das Ziel kann im Undertting-Fall nicht (ausreichend) erreicht werden, da keine der Hypothesen aus H ähnlich der Targetfunktion ist. d.h.: H ist zu wenig mächtig (komplex). 14 von 41 Christian Herta Bias-Variance

16 Overtting Ziel: Was passiert beim Overtting? h( x) t( x) 15 von 41 Christian Herta Bias-Variance

17 Overtting Ziel: Was passiert beim Overtting? h( x) t( x) Die durch das Lernen gefundene Hypothese h aus H passt sich zu sehr an die spezielle Ausprägung der Trainingsdaten an. Da H sehr mächtig (komplex) ist. 15 von 41 Christian Herta Bias-Variance

19 Trainingsfehler Bisher nur Trainingsmenge D und Berechung des (durchschnittlichen) Loss der Traingsdaten (bisher genannt Kostenfunktion): Trainingsfehler (train error, in-sample error) trainingsfehler = E in (h) = 1 m m loss(h( x (i) ), y (i) ) i=0 Der Trainingsfehler wurde bisher als Funktion der Parameter J(Θ) für ein spezisches Modell (Hypothesenmenge) benutzt, um die Parameter Θ aus den Daten zu lernen. Jetzt E in (h) als Funktion der Hypothesen h, da verschiedene Modelle benutzt werden können. 17 von 41 Christian Herta Bias-Variance

20 Trainingsfehler als Kriterium nicht ausreichend Ein niedriger Trainingsfehler impliziert nicht automatisch ein gutes Modell (Overtting!), d.h. h( x) t( x) ist nicht garantiert. h( x) kann eine schlechte Prognose abgeben für x-werte, die in der Trainingsmenge nicht enthalten sind. 18 von 41 Christian Herta Bias-Variance

21 Out-of-sample error / expected risk Der out-of-sample error ist der durchschnittliche Loss, der sich auf typischen weiteren Daten (p(x, y ) hinreichend groÿ) ergeben würde, die nicht zum Training verwendet worden sind: E out (h) = E x,y [loss(h(x), y)] = loss(h(x), y)dp(x, y) X Y 19 von 41 Christian Herta Bias-Variance

22 Generaliserungsfehler Der Generalisierungsfehler einer Hypothese h kann folgendermaÿen deniert werden (nach [Abu]): E out (h) E in (h) Also der Fehler, die sich durch die Anpassung von h mittels Trainings an die spezielle Ausprägung der Trainingsdaten D train ergibt, im Vergleich zu dem zu erwarteten Vorhersage-Fehler. Zwei Gründe für die Dierenz: auch ohne Rauschen sind zu wenig Daten in D, so dass der Lernalgorithmus A eine wenig generalisierende Hypothese h ndet. zu wenig Trainingsdaten, so dass auch das Rauschen gelernt wird. 20 von 41 Christian Herta Bias-Variance

23 Generaliserungsfehler (cont.) In der Literatur ndet man unter dem Begri Generalisierungsfehler verschiedene Denitionen, wie z.b.: Der Generalisierungsfehler einer Hypothese h gelernt mit einem Algorithmus A und den Trainingsdaten D train ist R(A, D train ) = E out (h) inf E out (h ) h H Also die Abweichung in E out von h vom besten h. oder manchmal wird auch nur E out (h) als Generalisierungsfehler bezeichnet. 21 von 41 Christian Herta Bias-Variance

24 Testdaten Out-of-sample error E out ist nicht direkt zugänglich. Einführung von m test gelabelte Testdaten, um zu überprüfen, ob das Modell h( x) auch Werte gut vorhersagt, die nicht beim Training verwendet wurden: testdaten = D test = {( x (0), y (0) ), ( x (1), y (1) ),..., ( x (mtest), y (m test) )} 22 von 41 Christian Herta Bias-Variance

25 Testfehler Der Testfehler ist der durchschnittlicher Loss der Testdaten: testfehler = 1 m test m i=0 loss(h( x (i) ), y (i) ) Testfehler dient als Schätzung des out-of-sample error E out (h) testfehler E X,Y [loss(h(x), y)] = E out (h) 23 von 41 Christian Herta Bias-Variance

26 Modell Komplexität (model complexity, capacity) Informell: Die Komplexität von H (des Modells) beschreibt wieviele unterschiedlich komplizierte Funktionen durch H abgedeckt werden. Maÿe um die Modell Komplexität zu beschreiben: VC-Dimension d vc (VapnikChervonenkis Dimension) Rademacher Komplexität 24 von 41 Christian Herta Bias-Variance

27 Einuss der Komplexität Komplexeres Hypothesenset H gröÿere Wahrscheinlichkeit die Targetfunktion darstellen zu können, d.h. die Targetfunktion ist in H oder nahe H. Weniger komplexes Hypothesenset H gröÿere Wahrscheinlichkeit, dass der Generaliserungsfehler niedriger ist. 25 von 41 Christian Herta Bias-Variance

28 Schranke für Generalisierung aus der Theorie ergibt sich mit Wahrscheinlichkeit 1 δ: E out (h) E in (h) + Ω(m, H, δ) mit der VC-Dimension d VC als Maÿ für die Komplexität Ω(m, H, δ) 8 ln 4((2m)d VC + 1) m δ d.h. Lernen (Generalisierung) ist möglich, wenn die Modell-Komplexität nicht zu hoch ist und genügend Trainingsdaten vorhanden sind. 26 von 41 Christian Herta Bias-Variance

29 Komplexität und erwartete Fehler Quelle: [Abu] 27 von 41 Christian Herta Bias-Variance

31 Trainingsmenge, Hypothesenmenge und Hypothese Für quadratischem Loss und Regression ist die Bias-Variance Dekomposition einfach. Analoges gilt aber auch für Klassikation und andere Loss-Funktionen. Lernen der Hypothesenmenge (Modell) H mit den Trainingsdaten D führt zu Hypothese h (D) (hochgestelltes D zeigt die Abhängigkeit von den Traingsdaten D). 29 von 41 Christian Herta Bias-Variance

32 Erwartungswert des out-of-sample errors Ausgangspunkt der Bias-Varianz Analyse ist der Erwartungswert des out-of-sample errors: E D [ E out (h D (x)) ] mit h D : gelernte Hypothese mit den Traingsdaten D E out (h D ): out-of-sample error für die gelernete Hypothese E D : Erwartungswert bezüglich der Trainingsdaten. 30 von 41 Christian Herta Bias-Variance

33 Bias-Varianz Analyse ohne Rauschen in den Daten und quadratischem Fehler: [ E D E out (h D ) ] [ [ ( = E D E X h D (x) t(x) ) ]] 2 = E X [ E D [ ( h D (x) t(x) ) 2 ]] mit der durchschnittlichen Hypothese h(x) = E D [ h D (x) ] ergibt sich: [ E D E out (h D (x)) ] [ ( = E X [E D h D (x) h(x) ) ]] 2 +E X [ ( h(x) t(x) ) 2 ] = variance +bias 2 Falls die Daten verrauscht sind kommt ein dritter Term, der irreduzierbare Fehler E X [ɛ 2 ], hinzu. (siehe z.b. [Has]) 31 von 41 Christian Herta Bias-Variance

34 Interpretation: Bias 2 E x [ ( h(x) t(x) ) 2 ] Quadratische Abweichung der durchschnittlichen Hypothese h von der Targetfunktion t Undertting 32 von 41 Christian Herta Bias-Variance

35 Interpretation: Varianz [ ( E x [E D h D (x) h(x) ) ]] 2 Durchschnittliche quadratische Abweichung der gelernten Hypothesen {h D } von der durchschnittlichen Hypothese h Overtting 33 von 41 Christian Herta Bias-Variance

36 Interpretation: Varianz Veranschaulichung am Beispiel: 2 Datenpunkte und Fitten von Sinus mit Konstanter und Geraden. siehe Folien Seite 10. Quelle:[Abu] 34 von 41 Christian Herta Bias-Variance

38 Ziel Ziel: h( x) t( x) gegeben wenn E out bzw der testfehler klein ist. Erfüllt, falls folgende beide Bedingungen erfüllt sind: E in (Trainingsfehler) klein, d.h. kein Undertting. E out E in klein bzw. testfehler trainingsfehler, d.h. kein Overtting. 36 von 41 Christian Herta Bias-Variance

39 Lern Kurve Wie kann man erkennen, dass das Model passend ist? Beachte passend bezieht sich auf die Einussgröÿen: Anzahl der Datenpunkte m der Trainingsdaten D train Komplexität der Hypothesenmenge (Modell) H Stärke des stochastischen Rauschen ɛ im Vergleich zur Targetfunktion t, d.h. das Signal-Rausch Verhältnis. 37 von 41 Christian Herta Bias-Variance

40 Lern Kurve: Einfaches Modell 38 von 41 Christian Herta Bias-Variance

41 Lern Kurve: Komplexes Modell 39 von 41 Christian Herta Bias-Variance

42 Lern-Diagramm für überwachtes Lernen nach [Abu] 40 von 41 Christian Herta Bias-Variance

43 Literaturangabe Andrew Ng: Machine Learning (Cousera Online Kurs), 2013 [Has] Trevor Hastie,Robert Tibshirani, Jerome Friedman: The Elements of Statistical Learning, insb.: Kapitel 7, Springer Verlag 2009 [Abu] Yaser Abu-Mostafa: Learning from Data, Caltech Machine Learning bzw. Yaser Abu-Mostafa et all.: Learning from Data, AMLBook von 41 Christian Herta Bias-Variance