Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr Paul Prasse

Ähnliche Dokumente
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Tobias Scheffer Michael Brückner

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Christoph Sawade/Niels Landwehr Tobias Scheffer

Hypothesenbewertungen: Übersicht

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

Bayessche Lineare Regression

INTELLIGENTE DATENANALYSE IN MATLAB

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck

Die Datenmatrix für Überwachtes Lernen

Modell Komplexität und Generalisierung

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Modelle, Daten, Lernprobleme

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.

Übersicht. Definition Daten Problemklassen Fehlerfunktionen

Stichproben Parameterschätzung Konfidenzintervalle:

Mathematik für Biologen

Lineare Regression. Volker Tresp

Zusammenfassung PVK Statistik

Vorlesung Wissensentdeckung

Wahrscheinlichkeit und Statistik: Zusammenfassung

Validation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

Vorlesung Wissensentdeckung

Fit for Abi & Study Stochastik

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Projekt Maschinelles Lernen WS 06/07

Wichtige Definitionen und Aussagen

3 Grundlagen statistischer Tests (Kap. 8 IS)

Prof. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft

Data Mining - Wiederholung

Modelle, Daten, Lernprobleme

Wissensentdeckung in Datenbanken

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Überblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression

6. Schätzverfahren für Parameter

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel

Statistische Sprachmodelle

2.3 Intervallschätzung

Überblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression

Statistik I für Betriebswirte Vorlesung 13

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Flussdiagramm der ökonometrischen Methode

1 Beispiel zur Methode der kleinsten Quadrate

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Statistics, Data Analysis, and Simulation SS 2017

2.3 Intervallschätzung

Aufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).

Vorlesung Wissensentdeckung

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung

Statistik I für Betriebswirte Vorlesung 14

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Clusteranalyse: Gauß sche Mischmodelle

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Statistik II. Statistische Tests. Statistik II

Verteilung von Summen

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Signalverarbeitung 2. Volker Stahl - 1 -

Willkommen zur Vorlesung Statistik (Master)

5. Spezielle stetige Verteilungen

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Bayes sches Lernen: Übersicht

Beispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Schätzung von Parametern

Korollar 116 (Grenzwertsatz von de Moivre)

Statistik und Wahrscheinlichkeitsrechnung

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Willkommen zur Vorlesung Statistik (Master)

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Mehrdimensionale Zufallsvariablen

Ringvorlesung interdisziplinäre, angewandte Mathematik: Maschinelles Lernen

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Statistik II Übung 1: Einfache lineare Regression

Grundlagen der schließenden Statistik

Analyse von Querschnittsdaten. Signifikanztests I Basics

Lineare Regression 2: Gute Vorhersagen

Statistik II. Statistische Tests. Statistik II

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Zentraler Grenzwertsatz

Bachelorprüfung: Statistik (1 Stunde)

Zentraler Grenzwertsatz

Statistics, Data Analysis, and Simulation SS 2017

Erstes Mathe-Tutorium am Themen können gewählt werden unter:

Über dieses Buch Die Anfänge Wichtige Begriffe... 21

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Mathematik für Biologen

Numerische Methoden und Algorithmen in der Physik

Transkript:

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Paul Prasse Tobias Scheffer

Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele 2 Konfidenzintervalle ROC-Analyse

Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele 3 Konfidenzintervalle ROC-Analyse

Lernen und Vorhersage Klassifikation, Regression: Lernproblem Eingabe: Trainingsdaten L Ausgabe: Hypothese (Modell) f ( x)? Y xx Testbeispiel ( x, y 1),...,( x, y 1 m m f : X Y Ziel des Lernens: genaue Vorhersagen treffen Verschiedene Verfahren kennengelernt Bayesian model averaging, MAP-Hypothesen Hypothesen, Lineare Modelle, Entscheidungsbäume, Naive Bayes ) 4

Hypothesenbewertung Nachdem wir Verfahren implementiert, Hypothese trainiert haben etc.: wie gut sind die Vorhersagen? Was genau heißt gut? Wie berechnet / misst / schätzt man es? Gut heißt vor allem: gut in der Zukunft, wenn die gelernte Hypothese eingesetzt wird Hypothesenbewertung : Abschätzung der Genauigkeit von Vorhersagen 5

Hypothesenbewertung Zentrale Annahme: dem Lernproblem liegt eine (unbekannte) Verteilung p(x,y) zugrunde Verteilung über Instanzen p ( x, y ) p ( x ) p ( y x ) Beispiel Spam-Filterung Verteilung für Label gegeben Instanz p(x) Wahrscheinlichkeit dass wir Email x sehen p(y x) Wahrscheinlichkeit dass Mensch Email x als y {Spam/Ok} klassifiziert 6

Hypothesenbewertung i.i.d. -Annahme: Beispiele sind independent and identically distributed. Trainingsdaten werden unabhängig aus der Verteilung p(x,y) gezogen: ( x, y )~ p( x, y) Trainingsbeispiele i i Testdaten ebenfalls i.i.d. aus dieser Verteilung gezogen ( x, y)~ p( x, y) Immer realistisch? Testbeispiel (Anwendung des Modells) 7

Verlustfunktionen Wir haben Annahmen darüber gemacht, welche Instanzen (x,y) auftauchen werden Instanz (x,y), Hypothese sagt f(x). Verlustfunktion definiert, wie schlecht das ist. ( y, f ( x )) Nicht-negativ: Verlust der Vorhersage f(x) auf Instanz (x,y) yy, ': ( yy, ') 0 Problem-spezifisch, gegeben. g Verlustfunktionen für Klassifikation Zero-one loss: (, ') 0, '; 1, yy wenn y y sonst Klassenabhängige Kostenmatrix: Verlustfunktionen für Regression Squared error: ( yy, ') ( y y') 2 ( yy, ') cyy ' 8

Hypothesenbewertung Beispiel Verlustfunktion Spam-Filterung: c 10 c 01 c : " ", ( ) " " 10 y spam f x ok ( y, f( x)) c01 : y " ok ", f ( x ) " spam " 0: sonst Falsch-negativ Kosten (Spam als legitim vorhergesagt) Falsch-positive Kosten (legitim als Spam vorhergesagt) g c c 10 01 9 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen

Hypothesenbewertung: Risiko Risiko einer Hypothese: erwarteter Verlust für eine neue Instanz ( x, y)~ p ( x, y ) Testbeispiel x mit Label y (Zufallsvariable) ( y, f( x)) Verlust auf Testbeispiel (Zufallsvariable) R( f ) E[ ] ( y, f( x)) p( x, y) ddy x ( ( yy, ') Risiko=erwarteter Verlust Zero-One-Loss: Risiko ik heisst auch Fehlerrate. 2 ( yy, ') quadratische Fehler ( y y') : Risiko heisst auch Mean Squared Error. Ziel: Risikobestimmung Nicht möglich, das Risiko exakt zu bestimmen, weil p(x,y) unbekannt ist Schätzproblem 10

Hypothesenbewertung:Risikoschätzung Wenn Daten T ( x, y ),...,( x, y ) gegeben sind, dann kann das Risiko geschätzt werden. Empirisches Risiko ( 1 1 m m ˆ 1 R( f ) m m j 1 l( y j, f ( x (Empirische Fehlerrate, empirischer Mean Squared Error, ). Wichtig: Wo kommt T her? Trainingsdaten (T=L)? Verfügbare Daten in disjunkte L und T aufteilen. Cross-Validation. j )) 11

Bias eines Schätzers Empirischer Fehler ist Schätzer ˆ 1 R( f ) m m j 1 Schätzer ist Zufallsvariable. l( y j, f ( x Hängt von Menge T ab, auf der Risiko geschätzt wird Instanzen in T zufällig gezogen ( x, y )~ p ( x, y ) Welche ( x, y ) werden gezogen? g i i Schätzer hat einen Erwartungswert Schätzer ist erwartungstreu, genau dann wenn: Erwartungswert des empirischen Risikos = echtes Risiko. i j )) i 12

Bias eines Schätzers Schätzer R( ˆ ( f ) ist erwartungstreu, genau dann wenn: E[ Rˆ( f )] R( f ) Ansonsten hat R( ˆ ( f ) einen Bias: Bias E[ Rˆ ( f )] R( f ) Schätzer ist optimistisch, wenn Bias < 0. Schätzer ist pessimistisch, wenn Bias > 0. Schätzer ist erwartungstreu, wenn Bias = 0. 13

Erwartungstreuer Risikoschätzer Datensatz T ( x 1, y 1 ),...,( x m, ym ) ( x, y )~ p ( x, y ) Risikoschätzer Schätzer auf T R ˆ 1 ( f m T ) l ( y, f ( )) j1 j x j m Risikoschätzer Rˆ ( f ) T für eine (festgehaltene, von T unabhängige) Hypothese f : Erwartungswert = echtes Risiko, Erwartungswert über Datensätze e T 1 m ˆ ER [ ( f)] E (, ( )) T y f x j j m j1 m 1 1 E [( y, f ( x )) ] mr ( f ) R ( f ) j j m j1 m i i 14

Varianz eines Schätzers ˆ f Schätzer R( ( f ) hat eine Varianz ˆ ˆ ˆ 2 ˆ 2 ˆ 2 Var[ R( f)] E[( R( f) E[ R( f)]) ] E[ R( f) ] E[ R( f)] Je größer die Stichprobe ist, die zum Schätzen verwendet wird, desto geringer ist die Varianz. Genaue Form der Varianz hängt von der Verlustfunktion ab. Hohe Varianz: großer Zufallsanteil bei der Bestimmung des empirischen Risikos. Großer Bias: systematischer Fehler bei der Bestimmung des empirischen Risikos. 15

Varianz eines Schätzers Wert Rˆ ( f ) Bias dominiert R Varianz dominiert R Erwarteter Fehler des Schätzers R ( ) lässt sich in Bias und Varianz zerlegen ˆ 2 ˆ 2 ˆ 2 [( ( ) ) ] [ ( ) 2 ( ) ] E R f R E R f RR f R ˆ ˆ 2 2 ER [ ( f ) ] 2 RER [ ( f )] R ˆ f ER [ ˆ( f )] 2 RE[ Rˆ( f)] R E[ Rˆ( f) ] ER [ ˆ( f )] ˆ 2 2 2 2 2 ( ER [ ( f )] R ) VarR [ ( f )] Bias Rˆ f Var Rˆ f 2 [ ( )] [ ( )] ˆ 16

Risikoschätzer auf den Trainingsdaten Welche Menge T verwenden? 1. Versuch: Trainingsdaten L Empirisches Risiko R ˆ 1 ( f m L ) j 1 ( y j, f ( x j )) m auf den Trainingsdaten L ( x, y ),...,( x, y ( 1 1 m m Ist dieses empirische Risiko ein erwartungstreuer optimistischer pessimistischer Schätzer für das echte Risiko und warum? ) gemessen. 17

Risikoschätzer auf den Trainingsdaten Feste Trainingsmenge L Empirisches Risiko aller Hypothesen für ein festes L? Aufgrund der Varianz des Schätzers gilt für einige Hypothesen f, dass Rˆ L ( f ) R ( f ) und für andere Hypothesen f, dass Rˆ ( f ) R ( f ) L Lernalgorithmus wählt eine Hypothese f L mit kleinem empirischen Risiko Rˆ ( f ) Wahrscheinlich, dass Rˆ ( f ) R ( f ) L L L L L 18

Risikoschätzer auf den Trainingsdaten Empirisches Risiko der vom Lerner gewählten Hypothese ( Trainingsfehler Trainingsfehler ) ist ein optimistischer Schätzer des echten Risikos: ER [ ˆ ( f )] R ( f ) f vom Lerner gewählte Hypothese, Zufallsvariable L L L L in Abhängigkeit von L Problem ist die Abhängigkeit gg von gewählter Hypothese und zur Fehlerschätzung verwendeten Daten Ansatz: Testdaten verwenden, die von den Trainingsdaten unabhängig sind. 19

Holdout-Testing Idee: Fehlerschätzung auf unabhängigen Testdaten Gegeben: Daten D ( x, y ),...,( x, y ) 1 1 d d Teile Daten auf in Trainingsdaten L ( x, y ),...,( x, y ) und 1 1 m m Testdaten T ( x, y ),...,( x, y ) m1 m1 d d L T 20 Sawade/La andwehr/p Prasse/Sc cheffer, Maschinelle s Lernen

Holdout-Testing Starte Lernalgorithmus mit Daten L, gewinne so Hypothese. f L ˆ ( ) Ermittle empirisches Risiko R ( f ) auf Daten T. Starte Lernalgorithmus auf Daten D, gewinne so Hypothese. f D Ausgabe: Hypothese, benutze RT fl als Schätzer für das Risiko von f D T f D L L T ˆ ( ) 21 Sawade/La andwehr/p Prasse/Sc cheffer, Maschinelles Lernen

Holdout-Testing: Analyse Ist der Schätzer ˆ ( ) für Risiko der Hypothese erwartungstreu, optimistisch, pessimistisch? R f f D T L 22 Sawade/La andwehr/p Prasse/Sc cheffer, Maschinelles Lernen

Holdout-Testing: Analyse Schätzer Rˆ ist pessimistisch für T( f ) R( f L D ) : Rˆ ( f ) ist erwartungstreu für fl T L f L wurde mit weniger Trainingsdaten gelernt als f D hat und daher im Erwartungswert ein höheres Risiko Aber Schätzer RT fl ist in der Praxis brauchbar, während Rˆ ( f ) meist 0 (oder nahe 0) ist. L L ˆ ( ) 23 Sawade/La andwehr/p Prasse/Scheffer, Ma aschinelles Lernen

Holdout-Testing: Analyse Warum wird Hypothese f D trainiert und zurückgeliefert? Rückgegebene g Hypothese f D und nicht fl, weil ein geringeres Risiko hat, also besser ist. f D 24 Sawade/La andwehr/p Prasse/Scheffer, Maschinelles Lernen

Holdout-Testing: Analyse Was sind die Vorteile/Nachteile wenn Testmenge T möglichst groß möglichst klein gewählt wird? T möglichst groß, damit Risikoschätzer Rˆ T ( f L ) geringe g Varianz hat. T möglichst klein, damit Risikoschätzer R ˆ ( ) T fl geringen Bias hat, also nicht so stark pessimistisch ist. Braucht viele Daten, um gute Schätzungen zu bekommen Wird praktisch nur verwendet, wenn sehr viele Daten zur Verfügung stehen. Cross-Validation meist besser (siehe unten) 25

Cross-Validation Gegeben: Daten D ( x, y ),...,( x, y ) ( 1 1 d d Teile D in n gleich große Abschnitte mit D D und D i D 0 n i 1 1 Wiederhole für i=1..n i Trainiere f i mit L i =D \ D i. j ˆ D,..., 1 Dn Bestimme empirisches Risiko ( ) auf D i. D1 D2 D3 D4 R i D f i Training examples 26 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen

Cross-Validation Mittle empirische Risikoschätzungen auf den jeweiligen Testmengen D i : 1 n n i 1 Trainiere f D auf allen Daten D. R R ˆ D ( f ) Liefere Hypothese f D und Schätzer R. i i Training examples 27 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen

Leave-One-Out Cross-Validation Spezialfall n=d heisst auch leave-one-out Fehlerschätzung d 28 Sawade/La andwehr/prasse/scheffer, Maschinelle s Lernen

Cross-Validation: Analyse Ist der Schätzer optimistisch, pessimistisch, erwartungstreu? 29 Sawade/La andwehr/p Prasse/Scheffer, Maschinelles Lernen

Cross-Validation: Analyse Ist der Schätzer Optimistisch / pessimistisch / erwartungstreu? Schätzer ist pessimistisch: Hypothesen f i werden auf Anteil (n-1)/n der verfügbaren Daten trainiert. Hypothese f D wird auf den gesamten Daten trainiert Cross-Validation Vlidti Holdout Training examples 30 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen

Cross-Validation: Analyse Bias/Varianz im Vergleich zu Holdout-Testing? Varianz ist geringer als beim Holdout-Testing Mittelung über mehrere Holdout-Experimente, das reduziert die Varianz Alle Daten fließen in den Schätzer ein Bias ähnlich wie beim Holdout-Testing, je nach Split- Verhältnissen. Cross-Validation Vlidti Holdout Training examples 31 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen

Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele 32 Konfidenzintervalle ROC-Analyse

Anwendungen/Beispiele Hypothesenevaluierung Wir wollen/müssen aus Anwendungsgründen wissen, wie gut Hypothese ist Macht es überhaupt Sinn, maschinelles Lernen in der Anwendung zu verwenden? Mit wie vielen falschen Vorhersagen müssen wir rechnen? Wir wollen mehrere verschiedene Lernansätze vergleichen Sollte man Entscheidungsbäume verwenden? SVMs? Logistische Regression? Naive Bayes? 33

Anwendungen Hypothesenevaluierung Verfahren hat einen Parameter, den wir einstellen müssen Regularisierungsparameter g fw f x y w * 2 arg min f ( ( i), i) =? w i w (Hyper)Parameter, der Modellklasse bestimmt, z.b. Polynomgrad bei polynomieller Regression M i fw ( x) wx i M=? i0 In allen diesen Fällen ist der Trainingsfehler i kein geeignetes Entscheidungskriterium! Fehlerschätzung mit Holdout-Menge oder Cross- Validation 34

Beispiel: Polynomgrad bei polynomieller Regression Polynommodell vom Grad M: fw ( x ) wx i Wir lernen Modell durch Minimierung des quadratischen Verlustes (unregularisiert schlecht) Gelerntes Modell Echtes Modell m 2 w * arg min w ( fw ( x i ) y i ) L ( x1, y1 ),...,( xm, ym ) i1 M i0 i Trainingsdaten Datenpunkte = echtes Modell plus Gaußsches Rauschen 35

Beispiel polynomielle Regression: Training i vs. Testfehler Erfolg des Lernens hängt vom gewählten Polynomgrad M ab, der Komplexität des Modells kontrolliert 36 Sawade/La andwehr/prasse/scheffer, Maschinelles Lernen

Beispiel polynomielle Regression: Training i vs. Testfehler Trainingsfehler vs. Testfehler für unterschiedliche Polynomgrade Testfehler z.b. mit grosser Holdout-Menge gemessen Phänomen der Überanpassung ( Overfitting ): Trainingsfehler sinkt monoton mit M, aber Testfehler steigt für große M wieder 37 Sawade/La andwehr/prasse/sc cheffer, Ma aschinelle s Lernen

Beispiel polynomielle Regression: Training i vs. Testfehler Problem der Überanpassung (Overfitting) wird geringer, wenn mehr Daten verfügbar 10 Beispiele, M = 9 100 Beispiele, M = 9 In der Praxis verfügbare Daten begrenzt Modell muss regularisiert werden 38 Sawade/La andwehr/p Prasse/Scheffer, Maschinelle s Lernen

Regularisierte Polynomielle Regression Polynommodell vom Grad M: f ( x ) M wx i Lerne Modell durch Minimierung des regularisierten quadratischen Verlustes Trainingsdaten w* arg min ( ( ) ) L ( x, y ),...,( x, y ) M Gelerntes Modell Echtes Modell 9, ln 18 i0 m 2 2 w f w x i y i w 1 1 i1 i Datenpunkte = echtes Modell plus Gaußsches Rauschen m m 39

Regularisierte Polynomielle Regression Jetzt müssen wir einstellen Regularisierungsparameter kontrolliert Komplexität ähnlich wie Polynomgrad M M 9 M 9 M 9 ln ln 18 ln 0 40 Sawade/La andwehr/p Prasse/Sc cheffer, Maschinelles Lernen

Regularisierte Polynomielle Regression Trainingsfehler vs. Testfehler für unterschiedliche Werte des Regularisierungsparameters Testfehler z.b. mit grosser Holdout-Menge gemessen 0 Trainingsfehler minimal ohne Regularisierung, aber Testfehler besser für regularisiertes Modell Umgekehrtes Verhalten wie für unterschiedliche Polynomgrade 41 Sawade/La andwehr/prasse/sc cheffer, Ma aschinelle s Lernen

Regularisierte Polynomielle Regression Regularisierer wirkt wie eine Begrenzung der Modellkomplexität und verhindert Überanpassung In der Praxis am besten, Modellkomplexität durch Regularisierung zu kontrollieren (direkter Parameter wie bei Polynomen oft nicht verfügbar) Regularisierer kann durch Fehlerschätzung (Holdout- Testing oder Cross-Validation) eingestellt werden. 42 Sawade/La andwehr/p Prasse/Sc cheffer, Maschinelles Lernen

Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele 43 Konfidenzintervalle ROC-Analyse

Konfidenzintervalle Idee Konfidenzintervall: Intervall um den geschätzten Fehler R ( ) angeben so dass der echte Fehler meistens im Intervall liegt ˆ f Quantifiziert Unsicherheit der Schätzung Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable R ˆ( f ) R ˆ( f ) [ ] R 44

Zero-One Loss und Fehlerwahrscheinlichkeit h h li hk it Für Konfidenzintervalle betrachten wir Risikoschätzung im Spezialfall Klassifikation mit Zero-One Loss Verlustfunktion Zero-One Loss: 0, wenn y y' l ( yy, ') 1, wenn y y ' Risiko = Fehlerwahrscheinlichkeit. R( f) ( y, f( x)) p( x, y) ddy x py ( f( x)) 45

Verteilung für Fehlerschätzer Hypothese f wird auf separater Testmenge mit m unabhängigen Beispielen evaluiert: 1 m m Rˆ ( f ) ( y, f ( x )) T j1 j j Fehlerschätzer ist erwartungstreu, T ( x, y ),...,( x, y ) 1 1 m ER [ ˆ ( f)] R( f) Betrachten zunächst unnormalisierten Fehlerschätzer ˆ ( ) m mr f ( y, f ( x )) T j1 j j Summe über Beispielverluste i l ( y, f( x )) {0,1} {01} Beispiele unabhängig: Summe über Münzwürfe Münzparameter ist Fehlerwahrscheinlichkeit R ( f ) j j T m 46

Fehlerwahrscheinlichkeit Unnormalisiertes empirisches Risiko ˆ ( ) m mr f ( y, f ( x )) T j1 j j ist Summe von Bernouilli-Variablen, also binomialverteilt: P mr ˆ ( f ) mr ˆ R ( f ) r Bin( mr ˆ m, r ) rˆ r T beobachtetes empirisches Risiko echtes Risiko Erwartungswert ˆ mr( f) mr mr Varianz 2 ˆ m r(1 r) mr 47

Fehlerwahrscheinlichkeit Normalisiertes empirisches Risiko ebenso binomialverteilt P mr ˆ ( f) mr ˆ R( f) r Bin( mr ˆ m, r) T P R ˆ ( f ) r ˆ R( f ) r Bin( mr ˆ m, r) T Erwartungswert Varianz rˆ R( f) r 2 1 r(1 r) rˆ m r (1 r ) 2 m m Standardabweichung g( ( Standardfehler ) rˆ r(1 r) m Standardabweichung: Zufallsanteil des Schätzers, sinkt mit 1 m 48

Binomialverteilung r 0.5 Wahrscheinlichkeit, empirischen Fehler rˆr zu beobachten: ˆ m ˆ (1 ˆ ˆ ˆ ) ( T ( ) ) Bin(, ) mr m r PR f r r mr rm r (1 r) mrˆ Konvergiert für große m gegen Normalverteilung m 5 m 16 m 160 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelle ( rˆ r) / rˆ ( rˆ r) / rˆ ( rˆ r) / rˆ 49 s Lernen

Normalverteilung Empirisches Risiko annähernd normalverteilt: ˆ ˆ r(1 r) RT( f) ~ N RT( f) r, [approximativ, für große m] m Erwartungswert, Varianz der Binomialverteilung Für die weitere Analyse betrachten wir das standardisierte Risiko, dieses ist standardnormalverteilt: Rˆ ˆ T( f) R( f) RT( f) R( f) ~ N 0,1 [approximativ, für große m] rˆ rˆ Für die weitere Analyse brauchen wir Varianz des empirischen Risikos, ist abhängig vom echtem Risiko: 2 rˆ r(1 r) m 50

Students t-verteilung Schätzen der Varianz durch empirische Varianz: s 2 rˆ rˆ (1 rˆ ) ˆ (1 ˆ ), r s r rˆ m 1 m 1 Standardisiertes empirisches Risiko folgt bei geschätzter Varianz einer Students t-verteilung mit m-1 Freiheitsgraden (ähnlich Normalverteilung, aber mehr Wahrscheinlichkeitsmasse in den Außenbereichen). Für große m konvergiert Students t-verteilung gegen die Standardnormalverteilung. 51

Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen 52 Students t-verteilung rˆr rˆr lim m t m N 0,1 s rˆ s rˆ

Schranken für echtes Risiko Wir haben Verteilung des empirischen Risikos hergeleitet Was sagt das empirische Risiko jetzt also über das echte Risiko? Wir können Schranke für echtes Risiko bestimmen! 2 rˆ Empirisches Risiko ˆr empirische Varianz s rˆ (1 rˆ) m1 ˆ ˆ ˆ R( f) RT ( f) P R( f) RT( f) P R( f) RT( f) P srˆ srˆ srˆ Approximativ standardnormalverteilt x P( X x) kumulative Verteilungsfunktion der Standardnormalverteilung 53

Schranken für echtes Risiko Zweiseitige Schranke: P R( f) Rˆ ( f)... T... 2 1 sˆr ˆ 54 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen

Konfidenzintervalle Idee: so wählen, dass Schranke mit vorgegebener Wahrscheinlichkeit von 1- (z.b. =0.05) gilt. Einseitiges 1--Konfidenzintervall: Schranke, so dass P R ( f ) Rˆ ( f ) 1 T Zweiseitiges 1--Konfidenzintervall: Schranke, so dass P R( f) Rˆ ( f) 1 Bei symmetrischer Verteilung gilt immer: zu einseitigem 1--Konfidenzintervall = zu zweiseitigem iti 1-2-Konfidenzintervall. i T 55

Konfidenzintervalle Ermitteln des einseitiges 1--Konfidenzintervalls: P R ( f ) Rˆ ( f ) 1 T 1 s rˆ s 1 1 Konfidenzintervall ist (Konfidenzlevel 1-2) rˆ [ Rˆ ( f), Rˆ ( f) ] T T 56

Konfidenzintervalle Beispiel: ˆ 0.08 beobachtetes empirisches Risiko, m=100 r s r ˆ 0.080.92 100 1 0.05 Konfidenzlevel PR ( ( f ) R ˆ T ( f ) ) 0.95 0.0271.645 0.045 1 (0.95) [Tabelle] Für 0.045 gilt mit etwa 95% Wahrscheinlichkeit: R( f) R ( f) 0.027 empirischer Standardfehler T 0.045 [ ] R 90% Konfidenz 57

Konfidenzintervalle Vorsicht bei der Interpretation von Konfidenzintervallen: die Zufallsvariable ist das empirische Risiko ˆr und das davon abgeleitete Intervall, nicht das echte Risiko R( f ). Richtig: "Die Wahrscheinlichkeit, bei einem Experiment ein Konfidenzintervall zu erhalten, das den echten Fehler enthält, ist 95%" Falsch: "Wir haben ein Konfidenzintervall erhalten. Die Wahrscheinlichkeit, dass der echte Fehler im Intervall liegt, ist 95%" 58

Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele 59 Konfidenzintervalle ROC-Analyse