INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

Transkript

1 INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen

2 Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion von Daten. Integration und Säuberung der Daten. Feature- Extraktion. Bestimmen von gegeb./gesuchten Größen. Wahl des Performanzmaß/ Zielkriteriums. Modellraum und Modellannahmen. Algorithmen für das Optimieren des Zielkriteriums finden. Implementieren der Algorithmen. Modell-Selektion & -Anpassung. Training & Evaluation des Modells auf gegebenen Daten. Vorhersage für neue Daten. 2

3 Überblick Evaluation von Lernverfahren. Selektion und Anpassung von Modellen. Evaluation von Klassifikatoren. Exploitation von Modellen. 3

4 Evaluation von Lernverfahren Ziel: Qualitätsbewertung der Modelle eines Lernverfahrens. Nachdem wir Problem analysiert haben und Verfahren identifiziert & implementiert haben. Qualität eines Modells: Wie gut sind die Vorhersagen des Modells? Was genau heißt gut? Wie berechnet/schätzt man die Genauigkeit der Vorhersagen auf zukünftigen Daten? 4

5 Evaluation von Lernverfahren Problemstellung Gegeben: Repräsentative Evaluierungsdaten E mit bekannter Zielgröße. Bewertungsmaß (Verlustfunktion) welche Qualität einer Vorhersage misst, z.b. Klassifikation: Anzahl falsch klassifizierter Beispiele (Fehlerrate). ( prediction prediction l y, y) y y Regression: Mittlerer quadratischer Fehler. prediction prediction l( y, y) ( y y) Muss nicht identisch sein zur Verlustfunktion des Lernverfahrens Ranking: Mittlerer Abstand zw. echter und vorhergesagter Position. 2 5

6 Evaluation von Lernverfahren Problemstellung Eingabe: Lernverfahren welches ein Modell h ausgibt. Ziel: Bewertung der mittleren Qualität des Lernverfahrens. Theoretischer Mittelwert des Verlusts auf der Testverteilung: Aber: Testverteilung R E[ l( h( X ), Y)] p( x, y) l( h( x), y)d( x, y) theo p( X, Y) unbekannt! Evaluierungsdaten E {( x sind repräsentativ 1, y1),,( xn, yn)} aus p( X, Y) gezogen theoretischen Mittelwert durch empirischen Mittelwert (empirisches Risiko) schätzen: n 1 R l( h( x ), y ) emp i i n i 1 6

7 Evaluation von Lernverfahren Problemstellung Welche Daten für Evaluation verwenden: Daten auf welchen das Modell trainiert wurde? Nein! Empirischer Verlust auf diesen Daten meist 0. Daten auf welche das Modell angewendet werden soll? Nein! Zielgröße für diese Daten unbekannt. Idee: Gelabelte Trainingsdaten aufteilen in Lerndaten zum Lernen eines Modells, und Evaluierungsdaten zum Evaluieren des Modells. 7

8 Evaluation von Lernverfahren Aufteilung der Trainingsdaten: Holdout Validation Gegeben: Trainingsdaten D {( x, y ),,( x, y )}. Aufteilen der Daten in Lerndaten 1 1 und Evaluierungsdaten E {( x, y ),,( x, y )}. Lerne Modell h auf Daten L und bestimme empirisches n 1 Risiko auf Daten E: R ( h) l( h( x ), y ) Lerne Modell h auf Daten D. 1 1 Ausgabe: Modell h mit Risiko-Schätzer Rˆ ( h) R ( h). n n L {( x, y ),,( x, y )} k1 k1 n n emp i i n k i k 1 emp k k emp Pessimistische Schätzung 8

9 Evaluation von Lernverfahren Aufteilung der Trainingsdaten: Cross Validation Gegeben: Trainingsdaten D {( x, y ),,( x, y )}. Aufteilen der Daten in p Blöcke D {(, ),,(, )} i xi y 1 i x 1 i y k ik mit D D und D D für 2 verschiedene Blöcke. i i i j Wiederhole für i = 1 p Trainiere Modell h i auf Daten D\D i. Berechne empirisches Risiko auf D i : Lerne Modell h auf Daten D. 1 1 Ausgabe: Modell h mit mittlerem Risiko p ˆ 1 R ( h) R ( h ). emp emp i p i 1 n n k 1 R ( h ) l( h ( x ), y ) emp i i i j i k j 1 j 9

10 Evaluation von Lernverfahren Aufteilung der Trainingsdaten: Leave-One-Out Validation Gegeben: Trainingsdaten D {( x. 1, y1),,( xn, yn)} Spezialfall von Cross Validation mit. Wiederhole für i = 1 n Trainiere Modell h i auf Daten. D\( xi, yi) Berechne empirisches Risiko für : Lerne Modell h auf Daten D. Ausgabe: Modell h mit Loo-Fehler n. I.d.R. aufwendig zu berechnen. ( x, y ) ( x, y ) i i i Für einige Probleme existiert analyt. Lösung für Loo- Fehler. i i D R ( h ) l( h ( x ), y ) emp i i i i ˆ 1 R ( h) R ( h ) emp emp i n i 1 10

11 Evaluation von Lernverfahren Signifikanz des empirischen Risikos Wie gut ist der Schätzer Risiko R h? theo ( ) Rˆ ( h) für das echte Idee: m-malige Validation ergibt m Schätzwerte für empirisches Risiko mit Mittelwert R. Standardfehler (Standardabw. des Schätzers): Test der Hypothese R ( h) R ( h) : theo emp ˆ emp 2 R R R 1 m 1 p R ( h) Rˆ ( h) 1 ( p( R ( h) Rˆ ( h) ) p( Rˆ ( h) R ( h) )) theo emp theo emp emp theo 1 2 R Inverse der Normalverteilung: z 2 x e dz 2 x 11

12 Evaluation von Lernverfahren Signifikanz des empirischen Risikos mit Signifikanz- Test der Hypothese ˆ theo ( ) emp ( ) niverau 5% (signifikantes Ereignis). R h R h Beispiel: 10-malige Wiederholung einer Leave-One- Out-Validation (auf 10 verschiedenen Datensätzen). 10 Schätzwerte mit Mittelwert R = 8% R = 0,09. Gesucht ist mit Konfidenzintervall 1 und = 5%: p R ( h) Rˆ ( h) 0,950 theo emp ( 0, 09 ) 0,950 (123,3 ) 0,975 ( z) 0,975 z 0,835 z 0,68% 123,3 R 8,0 0,68% 12

13 Selektion und Anpassung von Modellen Ziel: Hohe Qualität des Modells durch Selektion/ Anpassung des Modells bzw. Lernverfahrens. Anpassen von Modellkomponenten (z.b. Verlustfunktion/Regularisierung, Splitting-Kriterium). Parameter des Lernverfahrens (z.b. maximale Anzahl Iterationen). Parameter der Verlustfunktion (z.b. Klassen-Kosten). Parameter des Regularisierers (z.b. des 2 -Regularsierers). Parameter der Daten-Transformation bzw. des Kernels (z.b. des RBF-Kernels). 13

14 Selektion und Anpassung von Modellen Grid-Suche Idee: Stichprobenartig aus der Menge aller möglichen Parameter bzw. Parameterkombinationen ziehen. Für jede gezogene Kombination mittels Cross-Validation (CV) Schätzer für bestimmen. R ( ) theo h Parameter wählen mit minimalem Risiko. Beispiel für Parameter-Auswahl: Grid-Suche Für jeden Grid-Punkt Schätzer für das Risiko berechnen mittels CV

15 Selektion und Anpassung von Modellen Aufteilung der Lerndaten Welche Daten für Modell-Anpassung verwenden: Daten auf welchen das Modell evaluiert wird? Nein! Evaluierung des Modells wäre zu optimistisch. Idee: Lerndaten aufteilen in Daten für Learning: zum Lernen eines Modells mit festen Parametern und Tuning: zum Anpassen der Modellparameter. Art der Aufteilung: Holdout-Validation. Cross-Validation. Loo-Validation. 15

16 Selektion und Anpassung von Modellen Aufteilung der Lerndaten Beispiel: Geschachtelte Cross-Validation. Aufteilen der Trainingsdaten D in p Blöcke D i. Wiederhole für i = 1 p Aufteilen der Lerndaten L=D\D i in q Blöcke L j. Wiederhole für alle Modell-Parameterkombinationen Wiederhole für j = 1 q Trainiere für aktuelle Parameterkombination ein Modell auf L\L j. Berechne empirisches Risiko auf L j. Bestimme mittleres empirisches Risiko für aktuelle Parameterkombination. Trainiere für beste Parameterkombination Modell h i auf D\D i. Berechne empirisches Risiko auf D i. Trainiere für beste Parameterkombination Modell h auf D. 16

17 Evaluation von Klassifikatoren Ziel: Bewertung eines konkreten Modells für binäre Klassifikation. Nachdem wir Problem analysiert haben, Verfahren identifiziert & implementiert haben, und Klassifikations- Modell (Klassifikator) trainiert haben. Qualität eines Klassifikators: Precision/Recall-Analyse. ROC-Analyse. 17

18 Evaluation von Klassifikatoren Definitionen (für binäre Klassifikation) Entscheidungsfunktion: Ordnet einer Eingabe x m einen numerischen Wert f : zu,. Beispiel: Klassifikationsfunktion: Ordnet einem Entscheidungsfunktionswert f ( x ) ein Klassenlabel zu, g: Y. Beispiel: f ( x) T x w Kontingenztabelle: g( f ( x)) sign( f ( x) ) Klassifikations-Schwellwert Tatsächlich positiv Tatsächlich negativ Positiv vorhergesagt TP (true positives) FP (false positives) Negativ vorhergesagt FN (false negatives) TN (true negatives) 18

19 Evaluation von Klassifikatoren Definitionen (für binäre Klassifikation) Beispiel HIV-Erkrankungen in Deutschland: In Deutschland leben Menschen. Davon sind Menschen an HIV erkrankt. Ein HIV-Test ergab (hochgerechnet auf alle Menschen): Tatsächlich positiv Tatsächlich negativ Summe Positiv vorhergesagt Negativ vorhergesagt Summe False Negatives: fälschlicherweise als HIV-negativ klassifiziert False Positives: fälschlicherweise als HIV-positiv klassifiziert 19

20 Evaluation von Klassifikatoren Qualität eines Klassifikators Gegeben: Repräsentative Evaluierungsdaten E mit bekannter Zielgröße. Entscheidungs- und Klassifikationsfunktion. Gesucht: Bewertung der Entscheidungsfunktion. Beispiele: Precision/Recall-Kurve, ROC-Kurve. Bewertung der Klassifikationsfunktion (Entscheidungsfunktion für einen konkreten Schwellwert). Beispiele: Fehlerrate, F-Maß. 20

21 Evaluation von Klassifikatoren Qualität eines Klassifikators Für jeden Klassifikations-Schwellwert ergibt sich eine Kontigenztabelle, d.h. Werte für TP, FP, TN und FN. Unterschiedliche Bewertungsmaße für einen Klassifikator (für einen konkreten Schwellwert): Trefferquote (Recall): Genauigkeit (Precision): Ausfallquote (Fallout): TP ,89% TP FN TP ,71% TP FP FP ,14% TN FP

22 Evaluation von Klassifikatoren Qualität eines Klassifikators Tatsächlich positiv Tatsächlich negativ Summe Positiv vorhergesagt Negativ vorhergesagt Summe Trefferquote (Recall): Genauigkeit (Precision): Ausfallquote (Fallout): TP ,89% TP FN TP ,71% TP FP FP ,14% TN FP

23 Evaluation von Klassifikatoren Recall versus Precision Kombinierte Bewertungsmaße aus Recall und Precision: Sensitivität (Sensitivity): Recall bzgl. positiver Beispiele. Spezifität (Specificity): Recall bzgl. negativer Beispiele. F-Maß (F-score): Harmonisches Mittel aus Precision & Recall. Precision Recall 35,71% 99,89% F-score ,61% Precision Recall 35,71% 99,89% Spezielle Schwellwerte : Gewinnschwelle (Break-Even-Point): Schwellwert für welchen Precision = Recall. F-Schwellwert (Maximal F-score): Schwellwert für welchen F-score maximal ist. 23

24 Precision Evaluation von Klassifikatoren Recall versus Precision Precision/Recall-Kurve: Precision vs. Recall für unterschiedliche Schwellwerte. 1,00 Break-Even-Point 0,75 BEP F Maximal F-score 0,50 Vorheriges Beispiel 0,25 AUC PR (Area Under Curve: Precision/Recall) 0,00 0,25 0,50 0,75 1,00 Recall 0 Recall = 99,89% Precision = 35,71% wenig aussagekräftig 24

25 Evaluation von Klassifikatoren Recall versus Fallout Receiver-Operating-Characteristic (ROC): Bewertung der Entscheidungsfunktion unabhängig vom Schwellwert durch Fallout statt Precision. Großer Schwellwert: Mehr positive Beispiel falsch klassifiziert. Kleiner Schwellwert: Mehr negative Beispiel falsch klassifiziert. Fläche unter der ROC-Kurve (AUC ROC ) bewertet Entscheidungsfunktion. Analog zur Fläche unter Precision/Recall-Kurve. 25

26 Recall Evaluation von Klassifikatoren Recall versus Fallout ROC-Kurve bzw. Recall/Fallout-Kurve: Recall (True Positives Rate) vs. Fallout (False Positives Rate). 1,00 0 Vorheriges Beispiel Recall = 99,89% Fallout = 0,14% 0,75 0,50 0,25 AUC ROC (Area Under Curve: ROC) 0,00 0,25 0,50 0,75 1,00 Fallout 26

27 Evaluation von Klassifikatoren Recall versus Fallout Algorithmus zur Bestimmung des AUC ROC -Wertes. AUC_ROC(f, y) Sortiere Paare (f i, y i ) aufsteigend nach f i Setze TN = 0, FN = 0, AUC = 0 FOR i = 1 n IF y i > 0 THEN FN = FN + 1 ELSE AUC = AUC + TN TN = TN + 1 AUC = AUC/(FN * TN) RETURN AUC f Vektor mit n Entscheidungsfunktionswerten y Vektor mit zugehörigen Klassenlabels 27

28 Exploitation von Modellen Anwenden von Modellen in der Praxis: Einstellen von Modellparametern nach dem Lernen (z.b. Schwellwerte, Default-Klasse). Kombination mehrerer gelernter Modelle (z.b. Verwendung mehrerer Spam-Filter). Integration des Modells in bestehende Softwarearchitektur. Monitoren der Qualität (Verteilung der Eingabedaten ändert sich oft über die Zeit Qualität verringert sich). Sammeln neuer Trainingsdaten zur Verbesserung des Modells. 28

29 Zusammenfassung Qualität von Lernverfahren/Modellen messen Auf Evaluierungsdaten; nicht auf Trainingsdaten! Signifikanz des Ergebnisses prüfen. Modell-Selektion/-Anpassung Auf Tuningdaten; nicht auf Evaluierungsdaten! Modellparameter z.b. durch Grid-Suche + Cross-Validation. Bewertung eines Klassifikators durch Recall, Precision, Fallout, F-Maß usw. Bewertung einer Entscheidungsfunktion durch Fläche unter der ROC-Kurve. 29