Ringvorlesung interdisziplinäre, angewandte Mathematik: Maschinelles Lernen

Ähnliche Dokumente
Problemanalye und Datenvorverarbeitung

Maschinelles Lernen Entscheidungsbäume

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Clusteranalyse: Gauß sche Mischmodelle

Bayes sches Lernen: Übersicht

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Identifizierung regulärer Ausdrücke zum Blockieren von -Kampagnen

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Entscheidungsbäume. Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen

Maschinelles Lernen Entscheidungsbäume

x 2 x 1 x Lernen mit Entscheidungsbäumen

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Vorlesung Maschinelles Lernen

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Künstliche Intelligenz Maschinelles Lernen

Projekt Maschinelles Lernen WS 06/07

Vorlesung Wissensentdeckung

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Seminar Text- und Datamining Datamining-Grundlagen

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Signalverarbeitung 2. Volker Stahl - 1 -

Moderne Methoden der KI: Maschinelles Lernen

Einführung: Bayessches Lernen. Dipl.-Inform. Martin Lösch. (0721) Dipl.-Inform. Martin Lösch

ADS: Algorithmen und Datenstrukturen 2

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Data Mining und maschinelles Lernen

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

Data Mining - Wiederholung

Mathe III. Garance PARIS. Mathematische Grundlagen III. Evaluation. 16. Juli /25

Kapitel 11* Grundlagen ME. Aufbau eines ME-Systems Entwicklung eines ME-Systems. Kapitel11* Grundlagen ME p.1/12

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Anhang 4. Bias durch Überdiagnose von papillären Mikrokarzinomen

Latente Dirichlet-Allokation

Hannah Wester Juan Jose Gonzalez

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Kapitel 5: Ensemble Techniken

I. Deskriptive Statistik 1

Inhaltsverzeichnis. Vorwort

Neuronale Netze. Anna Wallner. 15. Mai 2007

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Proseminar - Data Mining

Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze

Projekt 7. Machine Learning. (Matthias Bethge) 7.1 Overtüre

3. Das Reinforcement Lernproblem

Data Mining Anwendungen und Techniken

Computer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10

Konzepte der AI: Maschinelles Lernen

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Minimale Anzahl von Hinweisen bei Sudoku

Ein- und Zweistichprobentests

Proseminar - Data Mining

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

Algorithmische Modelle als neues Paradigma

Stochastische Lernalgorithmen

(Lineare) stochastische Optimierung

Schriftlicher Test Teilklausur 2

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Neuronale Netze. Gehirn: ca Neuronen. stark vernetzt. Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor)

Data Mining-Modelle und -Algorithmen

Reinforcement Learning

Modellbasierte Diagnosesysteme

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

Weka: Software-Suite mit Maschineller Lernsoftware

Mathematik III - Statistik für MT(Master)

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Moderne Methoden der KI: Maschinelles Lernen

4. Kumulierte Häufigkeiten und Quantile

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

Eine zweidimensionale Stichprobe

Teil: lineare Regression

Signalverarbeitung 2. Volker Stahl - 1 -

Vorlesung Maschinelles Lernen

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

1. Lernen von Konzepten

Übersicht. Allgemeines Modell lernender Agenten. Lernende Agenten (1) Lernende Agenten (2)

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen

Einführung in die Computerlinguistik

Statistik, Geostatistik

Inhaltsverzeichnis. Grundlagen

Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und

Mathematik in den Life Siences

Algorithms for Regression and Classification

WEKA A Machine Learning Interface for Data Mining

Kapitel VIII - Tests zum Niveau α

Transkript:

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Ringvorlesung interdisziplinäre, angewandte Mathematik: Maschinelles Lernen Niels Landwehr, Paul Prasse,

Termine VL Dienstag 12:15-13:45, Raum 1.08.0.59 VL Mittwoch 12:15-13:45, Raum 1.08.0.59 Übung Donnerstag 14:15-15:45, Raum 03.04.1.03 (Matlabübungen, Poolraum Campus Griebnitzsee) 2

Literatur Chris Bishop: Pattern Recognition and Machine Learning. 30 Exemplare in der Bibliothek. 3

Themen Einleitung Bayes sche lineare Regression Generalisierte lineare Klassifikation Unsupervised Feature Learning, Deep Learning Evaluierung 4

Maschinelles Lernen?! s v 1 gt 2 g t 2 System Daten Lern-Algorithmus Modell

Überblick über heutige Einleitung Arten von Lernproblemen: Überwachtes Lernen (Klassifikation, Regression, ordinale Regression, Empfehlungen, Sequenzen und Strukturen) Unüberwachtes Lernen Unsupervised Feature Learning Modelle Verlustfunktionen, Regularisierer, Risiko Evaluierung 6

Überwachtes Lernen: Grundbegriffe Instanz In der Statistik: unabhängige Variable m X kann z.b. Vektorraum über Attribute sein ( X ) Instanz ist in diesem Fall Belegung der Attribute. x x x x X Zielvariable: 1 m Merkmalsvektor y Y In der Statistik: abhängige Variable Ein Modell bildet Instanzen auf die Zielvariable ab. x Modell y 7

Überwachtes Lernen: Klassifikation Eingabe: Instanz x X. z.b. Merkmalsvektor x1 x... x m Ausgabe: Klasse y Y ; endliche Menge. Klasse wird auch als Zielattribut bezeichnet y heißt auch (Klassen)Label x Klassifikator y Y 8

Klassifikation: Beispiel Eingabe: x X. X = Menge aller möglichen Kombinationen einer Menge von Wirkstoffem Attribute Wirkstoff 1 enthalten? Wirkstoff 6 enthalten? Instanz x 0 1 1 0 1 0 Belegung der Attribute, Merkmalsvektor Wirkstoffkombination Ausgabe: yy { toxisch, ok} Klassifikator / 9

Klassifikation: Beispiel Eingabe: Instanz x X. X = Menge aller 16x16 Pixel Bitmaps Attribute Grauwert Pixel 1 Grauwert Pixel 256 Instanz x 0.1 0.3 0.45... 0.65 0.87 256 Pixelwerte Ausgabe: yy {0,1, 2,3, 4,5,6,7,8,9} : erkannte Ziffer Klassifikator "6" 10

Klassifikation: Beispiel Eingabe: Instanz x X. X = Bag-of-Words-Repräsentation aller möglichen Email-Texte Attribute Wort 1 kommt vor? Wort N kommt vor? N 1.000.000 0 1 0... 1 0 Instanz x Alternative Beneficiary Friend Sterling Zoo Email Dear Beneficiary, your Email address has been picked online in this years MICROSOFT CONSUMER AWARD as a Winner of One Hundred and Fifty Five Thousand Pounds Sterling Ausgabe: yy { spam, ok} Dear Beneficiary, We are pleased to notify you that your Email address has been picked online in this second quarter's MICROSOFT CONSUMER AWARD (MCA) as a Winner of One Hundred and Fifty Five Thousand Pounds Sterling Klassifikator Spam 11

Klassifikation Klassifikator soll aus Trainingsdaten gelernt werden. Klassifikator Klassifikator "6" Dear Beneficiary, Klassifikator We are pleased to notify you that your Email address has been picked online in this second quarter's MICROSOFT CONSUMER AWARD (MCA) as a Winner of One Hundred and Fifty Five Thousand Pounds Sterling Spam 12

Klassifikationslernen Eingabe Lernproblem: Trainingsdaten. x X x y y y 11 1m n1 1 n x x nm T n Ausgabe: Modell y : X Y zum Beispiel y ( x) T, wenn x 0, sonst Trainingsdaten: T {( x, y ),,( x, y )} n 1 1 n n Linearer Klassifikator mit Parametervektor. 13

Klassifikationslernen Eingabe Lernproblem: Trainingsdaten. x X x y y y 11 1m n1 1 n T n Trainingsdaten: T {( x, y ),,( x, y )} nm n 1 1 n n x x Ausgabe: Modell Modellklassen: (Generalisierte) Lineare Modelle Entscheidungsbäume Ensemble- Klassifikatoren y : X Y 14

Überwachtes Lernen: Regression Eingabe: Instanz x X. z.b. Merkmalsvektor x1 x... x m Ausgabe: kontinuierlicher Wert, z.b Toxizität. y Wie toxisch ist Kombination? y 15

Regressionslernen Eingabe Lernproblem: Trainingsdaten. x X x 11 1m n1 x x nm T n Ausgabe: Modell y : X Y zum Beispiel y y y 1 n y T ( x ) x Trainingsdaten: T {( x, y ),,( x, y )} n 1 1 n n Generalisiertes lineares Modell mit Parametervektor. 16

Überwachtes Lernen: Ordinale Regression Eingabe: Instanz x X. Ausgabe: diskreter Wert yy, es existiert jedoch eine Ordnung auf den Elementen von Y. Große Abweichungen zwischen Vorhersage des Modells und echtem Wert sind schlechter als kleine. Zufrieden mit der Wirkung? 17

Überwachtes Lernen: Taxonomieklassifikation Eingabe: Instanz x X. Ausgabe: diskreter Wert yy; es gibt eine baumförmige Ordnung auf den Elementen von Y. Vorhersage ist umso schlechter, je weiter vorhergesagter und tatsächlicher Knoten auseinanderliegen. 18

Überwachtes Lernen: Sequenz- und Strukturvorhersage Eingabe: Instanz x X. Ausgabe: Sequenz, Baum oder Graph yy. Beispielanwendungen: Parsen natürlicher Sprache Proteinfaltungen AAGCTTGCACTGCCGT 19

Überwachtes Lernen: Rankings Eingabe: Anfrage q, Liste von Items I 1,, I n. Ausgabe: Sortierung der Items Trainingsdaten: Nutzer klickt nach Anfrage q auf I j : Item sollte höher gerankt werden als weiter oben stehende Items, die nicht angeklickt wurden. 20

Überwachtes Lernen: Empfehlungen Eingabe: Benutzer, Items, Kontextinformationen. Ausgabe: Wie sehr wird ein Vorschlag einem Benutzer gefallen? Trainingsdaten: Ratings, Käufe, Seitenaufrufe. 21

Unüberwachtes Lernen Trainingsdaten beim unüberwachten Lernen: Menge von Instanzen x X. Zusätzliche Annahmen über Prozess der Entstehung der Daten, beispielsweise Unabhängigkeiten von Zufallsvariablen. Ziel ist das Aufdecken von Strukturen in den Daten: Beispielsweise wahrscheinlichste Aufteilung in Cluster von Instanzen, die bestimmte, nicht direkt beobachtete Eigenschaften teilen. 22

Clusteranalyse: Beispiel Emailkampagnen Eingabe: Strom von Emails. Ausgabe: Partitionierung in Teilmengen, die zur selben Kampagne gehören. Hello, This is Terry Hagan. Our company confirms you are legible for a $250.000 loan for a $380.00/month. Dear Mr/Mrs, This is Brenda Dunn. Our office confirms you can get a $228.000 loan for a $371.00 per month payment. Dear friend, You are invited for a barbeque! Cluster 1 Cluster 2 Cluster 3 23

Clusteranalyse: Beispiel Marktsegmentierung Eingabe: Daten über Kundenverhalten. Ausgabe: Partitionierung in Cluster von Kunden, die ähnliche Produktpräferenzen haben. Cluster 1 Cluster 2 24

Unsupervised Feature Learning, Deep Learning Einige Klassifikationsprobleme sind erst nach der Konstruktion geeigneter Merkmals lösbar Schrittweise Transformation der rohen Eingabedaten in höhere Merkmale Label Individuendiskriminierende Merkmale Gesichts-Teile Gwyneth Paltrow Merkmale werden aus ungelabelten Instanzen gewonnen. Lokale Muster Grauwertmatrix 25

Wahrscheinlichkeit eines Ausgangs-Signals Deep Learning Eingänge Index i x h x h d ( h ) 2 2 k k x 2 2 2 1 2 k k k 0 ( h ) 1 1 k k 1 1 0 1 k x k k 0 Index k... x d Synaptische Gewichte: Werden durch Lernprozesse Verstärkt oder abgeschwächt Ausgabe-Ebene Gewichtete Eingangssignale werden aggregiert Axon: Ausgangssignal: Gewichtete Eingangssignale Signale in Form von Spikes Verbindungen zu anderen Nervenzellen 1 Verdeckte Ebenen 0 x 1... 0 x m Eingabe-Ebene 26

Überblick Arten von Lernproblemen: Überwachtes Lernen (Klassifikation, Regression, ordinale Regression, Empfehlungen, Sequenzen und Strukturen) Unüberwachtes Lernen Reinforcement-Lernen (Exploration vs. Exploitation) Modelle Verlustfunktionen, Regularisierer, Risiko Evaluierung 27

Klassifikationslernen Eingabe Lernproblem: Trainingsdaten. x X x y y y 11 1m n1 1 n T n Trainingsdaten: T {( x, y ),,( x, y )} nm n 1 1 n n x x Ausgabe: Klassifikator y : X Y Wie kann Lernalgorithmus Modell (Klassifikator) aus Trainingsdaten lernen? Suchproblem im Raum aller Modelle 28

Modellraum, Parameterraum Modellraum, Parameterraum, Hypothesenraum : Klassifikator hat Parameter ist Menge der Modelle (Klassifikatoren), die Lernverfahren in Betracht zieht. Modellraum ist einer der Freiheitsgrade beim maschinellen Lernen, viele Räume gebräuchlich. Heisst auch Language Bias Beispiel: Lineare Modelle y ( x),, sonst m wenn x j j 1 0 29

Verlustfunktion, Optimierungskriterium Lernprobleme werden als Optimierungsaufgaben formuliert. Verlustfunktion misst, wie gut Modell zu Trainingsdaten passt Regularisierungsfunktion misst, ob das Modell nach unserem Vorwissen wahrscheinlich ist. Optimierungskriterium ist Summe aus Verlust und Regularisierer. Suche Minimum des Optimierungskriteriums Insgesamt wahrscheinlichstes Modell, gegeben Trainingsdaten und Vorwissen. 30

Verlustfunktion Verlustfunktion: Wie schlimm ist es, wenn Modell y (x i ) vorhersagt obwohl der echte Wert der Zielvariable y i ist? ( y ( x ), y ) Mittlerer Verlust auf den gesamten Trainingsdaten : n n 1 Empirisches Risiko Rˆ( ) ( y ( i ), yi ) n x i i i1 T Beispiel: Binäres Klassifikationsproblem mit positiver Klasse (+1) und negativer Klasse (-1). False Positives und False Negatives gleich schlimm. Zero-One Loss: 0/1( y ( xi), yi) 0, wenn y ( xi) 1, sonst y i 31

Verlustfunktion Beispiel: diagnostische Klassifikationsprobleme, übersehene Erkrankungen (False Negatives) schlimmer als False Positives. Kostenmatrix c FP, c FN yi 1 yi 1 ( y( xi ), yi ) y( xi ) 1 0 cfp y ( xi ) 1 cfn 0 32

Verlustfunktion Beispiel Verlustfunktion Regression: Vorhersage möglichst dicht an echtem Wert des Zielattributes Quadratischer Fehler ( ( ), ) ( ( ) ) 2 y xi yi y xi yi 2 33

Verlustfunktion Wie schlimm ist es, wenn Modell y vorhersagt obwohl der echte Wert der Zielvariable y ist? Verlust ( y', y) Verlustfunktion ist aus der jeweiligen Anwendung heraus motiviert. 34

Beispiel- Kombinationen Suche nach Modell Suche nach Klassifikator für Kombination toxisch. Modellraum: y ( x),, sonst m wenn x j j 1 0 Trainingsdaten Medikamente in der Kombination x 1 x 2 x 3 x 4 x 5 x 6 y x 1 1 1 0 0 1 1 x 2 0 1 1 0 1 1 x 3 1 0 1 0 1 0 x 4 0 1 1 0 0 0 Ansatz: empirisches Risiko sollte minimal sein * n arg min ( y ( ), y ) x i1 01 / i i Gibt es ein solches Modell? Gibt es mehrere? 35

Beispiel- Kombinationen Suche nach Modell Suche nach Klassifikator für Kombination toxisch. Modellraum: y ( x),, sonst m wenn x j j 1 0 Trainingsdaten Medikamente in der Kombination x 1 x 2 x 3 x 4 x 5 x 6 y x 1 1 1 0 0 1 1 x 2 0 1 1 0 1 1 x 3 1 0 1 0 1 0 x 4 0 1 1 0 0 0 Modelle mit Verlust von 0: y ( x ), wenn x 1 y ( x ), wenn x x 2 y ( x ), wenn 2x4 x6 1 6 2 5 36

Beispiel- Kombinationen Suche nach Modell Suche nach Klassifikator für Kombination toxisch. Modellraum: y ( x),, sonst m wenn x j j 1 0 Trainingsdaten Medikamente in der Kombination x 1 x 2 x 3 x 4 x 5 x 6 y x 1 1 1 0 0 1 1 x 2 0 1 1 0 1 1 x 3 1 0 1 0 1 0 x 4 0 1 1 0 0 0 Modelle mit Verlust von 0: y ( x ), wenn x 1 y ( x ), wenn x x 2 y ( ), wenn 2x4 x6 1 x 2 5 6 Modelle mit einem empirischem Risiko von 0 bilden den Versionenraum. Versionenraum ist leer bei widersprüchlichen Daten. 37

Beispiel- Kombinationen Suche nach Modell Suche nach Klassifikator für Kombination toxisch. Modellraum: y ( x),, sonst m wenn x j j 1 0 Trainingsdaten Medikamente in der Kombination x 1 x 2 x 3 x 4 x 5 x 6 y x 1 1 1 0 0 1 1 x 2 0 1 1 0 1 1 x 3 1 0 1 0 1 0 x 4 0 1 1 0 0 0 Modelle mit Verlust von 0: y ( x ), wenn x 1 y ( x ), wenn x x 2 y ( ), wenn 2x4 x6 1 x 2 5 6 Modelle im Versionenraum unterscheiden sich in ihrer Vorhersage für einige Instanzen, die nicht in der Trainingsmenge vorkommen. Welches ist das Richtige? 38

Unsicherheit In der Praxis erreicht man niemals Gewissheit darüber, ein korrektes Modell gefunden zu haben. Daten können widersprüchlich sein (z.b. durch Messfehler) Viele unterschiedliche Modelle können einen niedrigen Verlust haben. Das korrekte Modell liegt vielleicht gar nicht im Modellraum. Lernen als Optimierungsproblem Verlustfunktion: Grad der Konsistenz mit Trainingsdaten Regularisierer: A-Priori-Wahrscheinlichkeit der Modelle 39

Regularisierer Verlustfunktion drückt aus, wie gut Modell zu Daten passt Regularisierer: drückt Annahme darüber aus, ob Modell a priori wahrscheinlich ist. Unabhängig von den Trainingsdaten. Je höher der Regularisierungsterm für ein Modell, desto unwahrscheinlicher Häufig wird die Annahme ausgedrückt, dass wenige der Attribute für ein gutes Modell ausreichen. Anzahl der Attribute, L 0 -Regularisierung Betrag der Attribut-Gewichtungen, L 1 -Regularisierung Quadrat der Attribut-Gewichtungen, L 2 -Regularisierung. 40

Regularisierer Kandidaten: y ( x ), wenn x 1 y ( x ), wenn x x 2 y ( ), wenn 2x x 1 x 2 5 6 4 6 0 1 2 3 4 5 6 1 1 0 0 0 0 0 1 2 2 0 1 0 0 1 0 3 1 0 0 0 2 0 1 T T T Regularisierer: L 0 -Regularisierung L 1 -Regularisierung L 2 -Regularisierung ( ) 2 0 1 ( ) 3 0 2 ( ) 3 0 3 ( ) 2 1 1 ( ) 4 1 2 ( ) 4 1 3 ( ) 2 2 1 ( ) 6 2 2 ( ) 6 2 3 41

Optimierungskriteruim Regularisiertes empirisches Risiko: Trade-Off zwischen mittlerem Verlust und Regularisierer 1 n ( y ( ), ) ( ) i 1 i yi n x Parameter steuert Trade-Off zwischen Verlust und Regularisierer. 42

Optimierungsproblem Rechtfertigung für Optimierungskriterium? Mehrere Rechtfertigungen und Herleitungen. Wahrscheinlichstes Modell (MAP-Modell). Niedrige obere Schranke für Fehler auf zukünftigen Daten abhängig von. (SRM). Lernen ohne Regularisierung ist ill-posed Problem; keine eindeutige Lösung, oder Lösung hängt extrem stark von minimalen Änderungen in den Daten ab. 43

Beispiel- Kombinationen Regularisierte empirische Risikominimierung Suche nach Klassifikator für Kombination toxisch. Modellraum: y ( x),, m wenn x j j sonst 1 0 Trainingsdaten Medikamente in der Kombination x 1 x 2 x 3 x 4 x 5 x 6 y x 1 1 1 0 0 1 1 x 2 0 1 1 0 1 1 x 3 1 0 1 0 1 0 x 4 0 1 1 0 0 0 Regularisiertes empirisches Risiko: 1 n 1 0/ 1( y ( i), y ) 0( ) i i n x Modell mit minimalem regularisiertem empirischem Risiko: y ( x ), wenn x 1 für <0.5. y ( x ) für >0.5. 2 44

Evaluierung von Modellen Wie gut wird ein Modell in Zukunft funktionieren? Zukünftige Instanzen werden entsprechend einer (unbekannten) Verteilung p( x, y) gezogen. Risiko: erwarteter Verlust unter R( ) ( y ( x), y) p( x, y) dx y p( x, y) Ist das empirische Risiko auf den Trainingsdaten ein brauchbarer Schätzer für das Risiko? 45

Evaluierung von Modellen Wie gut wird ein Modell in Zukunft funktionieren? Zukünftige Instanzen werden entsprechend einer (unbekannten) Verteilung p( x, y) gezogen. Risiko: erwarteter Verlust unter p( x, y) Ist das empirische Risiko auf den Trainingsdaten ein brauchbarer Schätzer für das Risiko? Problem: Alle Modelle aus dem Version Space haben ein emp. Risiko von 0 auf Trainingsdaten. Ein Klassifikator, der einfach nur die Trainingsdaten in einer Tabelle speichert hat ein empirisches Risiko von 0 auf Trainingsdaten. 46

Evaluierung von Modellen Wie gut wird ein Modell in Zukunft funktionieren? Zukünftige Instanzen werden entsprechend einer (unbekannten) Verteilung p( x, y) gezogen. Risiko: erwarteter Verlust unter Empirisches Risiko auf den Trainingsdaten ist ein extrem optimistischer Schätzer für das Risiko. Risiko wird auf Daten geschätzt, die nicht zum Training verwendet wurden. Training-and-Test. N-fold Cross Validation. p( x, y) 47

Optimierungsproblem Einstellung von? Teile verfügbare Daten in Trainings- und Testdaten Iteriere über Werte für Training auf Trainingsdaten, finde Modell Bestimme auf Testdaten Wähle Wert mit minimalem Verlust Trainiere mit allen Daten R( ) 48

Daten, Modelle, Lernprobleme Überwachtes Lernen: Finde Funktion, die wahrscheinlich die Trainingsdaten erzeugt hat. Verlustfunktion: Übereinstimmung zwischen Vorhersage des Modells und Wert der Zielvariable in den Trainingsdaten. Regularisierer: Übereinstimmung mit Vorwissen. Unüberwachtes Lernen: Keine Zielvariable, entdecke Struktur in den Daten, z.b. durch Einteilung der Instanzen in Cluster mit gemeinsamen Eigenschaften. 49