Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Dominik Lahmann Tobias Scheffer

2 Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele 2

4 Lernen und Vorhersage Klassifikation, Regression: Lernproblem Eingabe: Trainingsdaten Ausgabe: Hypothese (Modell) Modell wird verwendet, um Vorhersagen für neue Testbeispiele zu treffen Verschiedene Verfahren kennengelernt L ( x, y1),...,( x Lineare Modelle, Entscheidungsbäume, Naive Bayes, y 1 m m f : X Y f ( x)? x Testbeispiel ) 4

5 Hypothesenbewertung Frage: Nachdem wir Verfahren implementiert, Hypothese trainiert haben etc.: wie gut sind die Vorhersagen? Was genau heißt gut? Wie berechnet / misst / schätzt man es? Gute Vorhersagen : in der Zukunft, wenn die gelernte Hypothese eingesetzt wird (auf Testdaten) Hypothesenbewertung : Verfahren zur Abschätzung der Genauigkeit/Güte von Vorhersagen gelernter Modelle 5

6 Hypothesenbewertung Um Hypothesenbewertung formal zu untersuchen, müssen wir Annahmen über die Eigenschaften von Trainings- und Testdaten machen Zentrale Annahme: dem Lernproblem liegt eine (unbekannte) Verteilung p(x,y) zugrunde Beispiel Spam-Filterung Verteilung über Instanzen p( x, y) p( x) p( y x) Verteilung für Label gegeben Instanz p(x) Wahrscheinlichkeit dass wir x sehen p(y x) Wahrscheinlichkeit dass Mensch x als y {Spam/Ok} klassifiziert 6

7 Hypothesenbewertung i.i.d. -Annahme: Beispiele sind independent and identically distributed. Trainingsdaten werden unabhängig aus der Verteilung p(x,y) gezogen: ( x, y ) ~ p( x, y) i i Testdaten ebenfalls i.i.d. aus dieser Verteilung gezogen ( x, y) ~ p( x, y) Immer realistisch? Trainingsbeispiele Testbeispiel (Anwendung des Modells) Wir nehmen im Folgenden immer i.i.d. Daten an 7

8 Verlustfunktionen Wir haben Annahmen darüber gemacht, welche Instanzen (x,y) auftauchen werden Testbeispiel (x,y), Hypothese sagt f(x). Verlustfunktion definiert, wie schlecht das ist: Nicht-negativ: Problem-spezifisch, gegeben. Verlustfunktionen für Klassifikation Zero-one loss: ( y, y') 0, wenn y y'; 1, sonst ( y, f( x)) y, y': ( y, y') 0 Klassenabhängige Kostenmatrix Verlustfunktionen für Regression Squared loss: ( y, y') ( y y') Verlust der Vorhersage f(x) auf Instanz (x,y) 2 8

9 Hypothesenbewertung: Risiko Zentraler Begriff der Hypothesenbewertung: Risiko Risiko einer Hypothese: erwarteter Verlust für eine neue Instanz ( x, y) ~ p( x, y) Testbeispiel x mit Label y (Zufallsvariable) ( y, f( x)) Verlust auf Testbeispiel (Zufallsvariable) R( f ) E[ ( y, f ( x))] ( y, f ( x)) p( x, y) dxdy Für Zero-One-Loss heisst Risiko auch Fehlerrate. Für Squared Loss heisst Risiko auch Mean Squared Error. Hauptziel der Hypothesenbewertung: Risikobestimmung Nicht möglich, das Risiko exakt zu bestimmen, weil p(x,y) unbekannt ist Schätzproblem 9

10 Einschub: Begriff Schätzer Wir wollen das Risiko einer Hypothese aus Daten schätzen Formalisierung: ein Schätzer ist ein Verfahren, das Beobachtungen L auf einen Schätzwert abbildet. Beispiel Münzwurf: Beobachtung N k, N z : wie oft Kopf/Zahl gesehen schätze Münzparameter (Wahrscheinlichkeit, dass Kopf fällt) Notation: Schätzer für (unbekannten) Wert wird mit bezeichnet ˆ 10

11 Hypothesenbewertung:Risikoschätzung Risikoschätzung aus Daten Wenn aus p(x,y) gezogene Daten T ( x, y ),...,( x, y ) ( x, y ) ~ p( x, y) gegeben sind, kann das Risiko geschätzt werden: Wichtig: Wo kommt T her? m m m Rˆ( f ) m ( y, f j ( x j )) "Empirisches Risiko" j1 Trainingsdaten (T=L)? Verfügbare Daten in disjunkte L und T aufteilen. Cross-Validation. i i 11

12 Bias eines Schätzers Schätzer Schätzer ist Zufallsvariable: Instanzen in T zufällig gezogen Wert des Schätzers hängt von zufällig gezogenen Instanzen ab, ist also Produkt eines Zufallsprozesses Schätzer hat einen Erwartungswert Schätzer ist erwartungstreu, genau dann wenn: 1 ˆ( ) m j1 ( j, ( j )) m R f y f x ( x, y ) ~ p( x, y) Welche ( x, y ) werden gezogen? j j Erwartungswert des empirischen Risikos = echtes Risiko. j j 12

13 Bias eines Schätzers Schätzer R ˆ ( f ) ist erwartungstreu, genau dann wenn: Ansonsten hat R ˆ ( f ) einen Bias: E[ Rˆ( f )] R( f ) Bias E[ Rˆ ( f )] R( f ) Schätzer ist optimistisch, wenn Bias < 0. Schätzer ist pessimistisch, wenn Bias > 0. Schätzer ist erwartungstreu, wenn Bias = 0. 13

14 Varianz eines Schätzers Schätzer R ( ) hat eine Varianz Je größer die Stichprobe ist, die zum Schätzen verwendet wird, desto geringer ist die Varianz. Varianz vs. Bias: ˆ f Var[ Rˆ ( f )] E[ Rˆ ( f ) ] E[ Rˆ ( f )] 2 2 Hohe Varianz: großer Zufallsanteil bei der Bestimmung des empirischen Risikos. Großer Bias: systematischer Fehler bei der Bestimmung des empirischen Risikos. 14

15 Varianz eines Schätzers Erwarteter (quadratischer) Fehler des Schätzers: E Rˆ f 2 [( ( ) R) ] Lässt sich zerlegen in Bias und Varianz Linearität Erwartungswert ˆ 2 ˆ 2 ˆ 2 [( ( ) ) ] [ ( ) 2 ( ) ] E R f R E R f RR f R Verschiebungssatz Wert Rˆ ( f) R R ˆ ˆ 2 2 E[ R( f ) ] 2 RE[ R( f )] R E[ Rˆ( f )] 2 RE[ Rˆ( f )] R E[ Rˆ( f ) ] E[ Rˆ( f )] ˆ ( E[ R( f )] R) Var[ R( f )] Bias Rˆ f 2 [ ( )] Var[ R( f ) ˆ ˆ ] Bias dominiert Varianz dominiert 15

16 Risikoschätzer auf den Trainingsdaten Welche Menge T verwenden? 1. Versuch: Trainingsdaten L Hypothese f, trainiert auf Empirisches Risiko gemessen auf Trainingsdaten Ist dieses empirische Risiko ein erwartungstreuer optimistischer pessimistischer L ( x, y ),...,( x, y ) 1 1 R ˆ 1 ( f m L ) 1 ( y j j, f ( x j )) m Schätzer für das echte Risiko und warum? m m 16

17 Risikoschätzer auf den Trainingsdaten Empirisches Risiko auf den Trainingsdaten ist ein optimistischer Schätzer des echten Risikos Empirisches Risiko aller möglichen Hypothesen für ein festes L? Aufgrund von Zufallseffekten gilt für einige Hypothesen f, dass Rˆ L ( f ) R ( f ) und für andere Hypothesen f, dass. Rˆ ( f ) R ( f ) L Lernalgorithmus wählt eine Hypothese f L mit kleinem empirischen Risiko Rˆ ( f ) L L ˆ ( ) ( ) Wahrscheinlich, dass R f R f (Risiko unterschätzt) L L L 17

18 Risikoschätzer auf den Trainingsdaten Empirisches Risiko der vom Lerner gewählten Hypothese auf den Trainingsdaten ( Trainingsfehler ) ist ein optimistischer Schätzer des echten Risikos: E[ Rˆ ( f )] R( f ) L L L Problem ist die Abhängigkeit von gewählter Hypothese und zur Fehlerschätzung verwendeten Daten Ansatz: Testdaten verwenden, die von den Trainingsdaten unabhängig sind. 18

19 Holdout-Testing Idee: Fehlerschätzung auf unabhängigen Testdaten Gegeben: Daten D ( x, y ),...,( x, y ) 1 1 d d Teile Daten auf in Trainingsdaten Testdaten L ( x, y ),...,( x, y ) 1 1 T ( x, y ),...,( x, y ) m m1 m1 d d L T m und 19

20 Holdout-Testing Starte Lernalgorithmus mit Daten L, gewinne so Hypothese. f L ˆ ( ) Ermittle empirisches Risiko R f auf Daten T. Starte Lernalgorithmus auf Daten D, gewinne so Hypothese f D. Ausgabe: Hypothese, benutze RT fl als Schätzer für das Risiko von f D T f D L T L ˆ ( ) 20

21 Holdout-Testing: Analyse Ist der Schätzer ˆ ( ) für Risiko der Hypothese erwartungstreu, optimistisch, pessimistisch? R f f D T L 21

22 Holdout-Testing: Analyse Schätzer Rˆ T ( f ) ist pessimistisch für R( f L D ): Rˆ ( f ) ist erwartungstreu für fl T L f L wurde mit weniger Trainingsdaten gelernt als f D und hat daher im Erwartungswert ein höheres Risiko Aber Schätzer RT fl ist in der Praxis brauchbar, während Rˆ ( f ) meist 0 (oder nahe 0) ist. L L ˆ ( ) 22

23 Holdout-Testing: Analyse Warum wird Hypothese f D trainiert und zurückgeliefert? Rückgegebene Hypothese f D und nicht fl, weil ein geringeres Risiko hat, also besser ist. f D 23

24 Holdout-Testing: Analyse Was sind die Vorteile/Nachteile wenn Testmenge T möglichst groß möglichst klein gewählt wird? ˆ ( ) T möglichst groß, damit Risikoschätzer RT fl geringe Varianz hat. T möglichst klein, damit Risikoschätzer Rˆ T ( fl ) geringen Bias hat, also nicht so stark pessimistisch ist. Braucht viele Daten, um gute Schätzungen zu bekommen Wird praktisch nur verwendet, wenn sehr viele Daten zur Verfügung stehen. Cross-Validation meist besser (siehe unten) 24

25 Cross-Validation Gegeben: Daten D Teile D in n gleich große Abschnitte mit D D und D i D 0 n i1 Wiederhole für i=1..n i ( x, y1),...,( x Trainiere f i mit L i =D \ D i. Bestimme empirisches Risiko ˆ ( ) auf D i., y 1 d d D1 D2 D3 D4 j R i ) D f i D,..., 1 Dn Training examples 25

26 Cross-Validation Mittle empirische Risikoschätzungen auf den jeweiligen Testmengen D i : 1 n n i 1 Trainiere f D auf allen Daten D. R Rˆ D ( f ) Liefere Hypothese f D und Schätzer R. i i Training examples 26

27 Leave-One-Out Cross-Validation Spezialfall n=d heisst auch leave-one-out Fehlerschätzung d 27

28 Cross-Validation: Analyse Ist der Schätzer Optimistisch / pessimistisch / erwartungstreu? 28

29 Cross-Validation: Analyse Ist der Schätzer Optimistisch / pessimistisch / erwartungstreu? Schätzer ist pessimistisch: Hypothesen f i werden auf Anteil (n-1)/n der verfügbaren Daten trainiert. Hypothese f D wird auf den gesamten Daten trainiert Cross-Validation Training examples Holdout 29

30 Cross-Validation: Analyse Bias/Varianz der Risikoschätzung im Vergleich zu Holdout- Testing? Varianz ist geringer als beim Holdout-Testing Mittelung über mehrere Holdout-Experimente, das reduziert die Varianz Alle Daten fließen in den Schätzer ein Bias ähnlich wie beim Holdout-Testing, je nach Split- Verhältnissen. Cross-Validation Training examples Holdout 30

32 Anwendungen/Beispiele Hypothesenevaluierung Wir wollen/müssen aus Anwendungsgründen wissen, wie gut Hypothese ist Macht es überhaupt Sinn, maschinelles Lernen in der Anwendung zu verwenden? Mit wie vielen falschen Vorhersagen müssen wir rechnen? Wir wollen mehrere verschiedene Lernansätze vergleichen Sollte man Entscheidungsbäume verwenden? SVMs? Logistische Regression? Naive Bayes? 32

33 Anwendungen Hypothesenevaluierung Verfahren hat einen Parameter, den wir einstellen müssen Regularisierungsparameter fw f x y w * 2 arg min f ( ( i), i) =? w i w (Hyper)Parameter, der Modellklasse bestimmt, z.b. Polynomgrad bei polynomieller Regression M i fw ( x) wi x M=? i0 In allen diesen Fällen ist der Trainingsfehler kein geeignetes Entscheidungskriterium! Fehlerschätzung mit Holdout-Menge oder Cross- Validation 33

34 Beispiel: Polynomgrad bei polynomieller Regression Polynommodell vom Grad M: fw ( x) wi x Wir lernen Modell durch Minimierung des quadratischen Verlustes (unregularisiert schlecht) w * Gelerntes Modell Echtes Modell m arg min ( f ( x ) y ) w i1 w i i 2 M i0 i Trainingsdaten L ( x, y ),...,( x, y ) 1 1 m m Polynomgrad M=3 Datenpunkte = echtes Modell plus Gaußsches Rauschen 34

35 Beispiel polynomielle Regression: Training vs. Testfehler Erfolg des Lernens hängt vom gewählten Polynomgrad M ab, der Komplexität des Modells kontrolliert 35

36 Beispiel polynomielle Regression: Training vs. Testfehler Trainingsfehler vs. Testfehler für unterschiedliche Polynomgrade Testfehler z.b. mit grosser Holdout-Menge gemessen Phänomen der Überanpassung ( Overfitting ): Trainingsfehler sinkt monoton mit M, aber Testfehler steigt für große M wieder 36

37 Beispiel polynomielle Regression: Training vs. Testfehler Problem der Überanpassung (Overfitting) wird geringer, wenn mehr Daten verfügbar 10 Beispiele, M = Beispiele, M = 9 In der Praxis verfügbare Daten begrenzt Modell muss regularisiert werden 37

38 Regularisierte Polynomielle Regression Polynommodell vom Grad M=9: f ( x) Lerne Modell durch Minimierung des regularisierten quadratischen Verlustes Gelerntes Modell Echtes Modell M w* arg min w ( ( ) ) i1 M 9, ln 18 2 fw xi yi w 2 M wi x i0 Trainingsdaten 1 1 i L ( x, y ),...,( x, y ) m Regularisiertes Modell vom Grad M=9 verhält sich wie Polynom niedrigerer Ordnung. m Regularisierer verhindert Overfitting 38

39 Regularisierte Polynomielle Regression Jetzt müssen wir einstellen Regularisierungsparameter kontrolliert Komplexität ähnlich wie Polynomgrad M M 9 ln M 9 ln 18 M 9 ln 0 39

40 Regularisierte Polynomielle Regression Trainingsfehler vs. Testfehler für unterschiedliche Werte des Regularisierungsparameters Testfehler z.b. mit grosser Holdout-Menge gemessen 0 Trainingsfehler minimal ohne Regularisierung, aber Testfehler besser für regularisiertes Modell Umgekehrtes Verhalten wie für unterschiedliche Polynomgrade 40

41 Regularisierte Polynomielle Regression Regularisierer wirkt wie eine Begrenzung der Modellkomplexität und verhindert Überanpassung In der Praxis am besten, Modellkomplexität durch Regularisierung zu kontrollieren (direkter Parameter wie bei Polynomen oft nicht verfügbar) Regularisierer kann durch Fehlerschätzung (Holdout- Testing oder Cross-Validation) eingestellt werden. 41