Ringvorlesung interdisziplinäre, angewandte Mathematik: Maschinelles Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Ringvorlesung interdisziplinäre, angewandte Mathematik: Maschinelles Lernen Niels Landwehr, Paul Prasse,

Termine VL Dienstag 12:15-13:45, Raum 1.08.0.59 VL Mittwoch 12:15-13:45, Raum 1.08.0.59 Übung Donnerstag 14:15-15:45, Raum 03.04.1.03 (Matlabübungen, Poolraum Campus Griebnitzsee) 2

Literatur Chris Bishop: Pattern Recognition and Machine Learning. 30 Exemplare in der Bibliothek. 3

Themen Einleitung Bayes sche lineare Regression Generalisierte lineare Klassifikation Unsupervised Feature Learning, Deep Learning Evaluierung 4

Maschinelles Lernen?! s v 1 gt 2 g t 2 System Daten Lern-Algorithmus Modell

Überblick über heutige Einleitung Arten von Lernproblemen: Überwachtes Lernen (Klassifikation, Regression, ordinale Regression, Empfehlungen, Sequenzen und Strukturen) Unüberwachtes Lernen Unsupervised Feature Learning Modelle Verlustfunktionen, Regularisierer, Risiko Evaluierung 6

Überwachtes Lernen: Grundbegriffe Instanz In der Statistik: unabhängige Variable m X kann z.b. Vektorraum über Attribute sein ( X ) Instanz ist in diesem Fall Belegung der Attribute. x x x x X Zielvariable: 1 m Merkmalsvektor y Y In der Statistik: abhängige Variable Ein Modell bildet Instanzen auf die Zielvariable ab. x Modell y 7

Überwachtes Lernen: Klassifikation Eingabe: Instanz x X. z.b. Merkmalsvektor x1 x... x m Ausgabe: Klasse y Y ; endliche Menge. Klasse wird auch als Zielattribut bezeichnet y heißt auch (Klassen)Label x Klassifikator y Y 8

Klassifikation: Beispiel Eingabe: x X. X = Menge aller möglichen Kombinationen einer Menge von Wirkstoffem Attribute Wirkstoff 1 enthalten? Wirkstoff 6 enthalten? Instanz x 0 1 1 0 1 0 Belegung der Attribute, Merkmalsvektor Wirkstoffkombination Ausgabe: yy { toxisch, ok} Klassifikator / 9

Klassifikation: Beispiel Eingabe: Instanz x X. X = Menge aller 16x16 Pixel Bitmaps Attribute Grauwert Pixel 1 Grauwert Pixel 256 Instanz x 0.1 0.3 0.45... 0.65 0.87 256 Pixelwerte Ausgabe: yy {0,1, 2,3, 4,5,6,7,8,9} : erkannte Ziffer Klassifikator "6" 10

Klassifikation: Beispiel Eingabe: Instanz x X. X = Bag-of-Words-Repräsentation aller möglichen Email-Texte Attribute Wort 1 kommt vor? Wort N kommt vor? N 1.000.000 0 1 0... 1 0 Instanz x Alternative Beneficiary Friend Sterling Zoo Email Dear Beneficiary, your Email address has been picked online in this years MICROSOFT CONSUMER AWARD as a Winner of One Hundred and Fifty Five Thousand Pounds Sterling Ausgabe: yy { spam, ok} Dear Beneficiary, We are pleased to notify you that your Email address has been picked online in this second quarter's MICROSOFT CONSUMER AWARD (MCA) as a Winner of One Hundred and Fifty Five Thousand Pounds Sterling Klassifikator Spam 11

Klassifikation Klassifikator soll aus Trainingsdaten gelernt werden. Klassifikator Klassifikator "6" Dear Beneficiary, Klassifikator We are pleased to notify you that your Email address has been picked online in this second quarter's MICROSOFT CONSUMER AWARD (MCA) as a Winner of One Hundred and Fifty Five Thousand Pounds Sterling Spam 12

Klassifikationslernen Eingabe Lernproblem: Trainingsdaten. x X x y y y 11 1m n1 1 n x x nm T n Ausgabe: Modell y : X Y zum Beispiel y ( x) T, wenn x 0, sonst Trainingsdaten: T {( x, y ),,( x, y )} n 1 1 n n Linearer Klassifikator mit Parametervektor. 13

Klassifikationslernen Eingabe Lernproblem: Trainingsdaten. x X x y y y 11 1m n1 1 n T n Trainingsdaten: T {( x, y ),,( x, y )} nm n 1 1 n n x x Ausgabe: Modell Modellklassen: (Generalisierte) Lineare Modelle Entscheidungsbäume Ensemble- Klassifikatoren y : X Y 14

Überwachtes Lernen: Regression Eingabe: Instanz x X. z.b. Merkmalsvektor x1 x... x m Ausgabe: kontinuierlicher Wert, z.b Toxizität. y Wie toxisch ist Kombination? y 15

Regressionslernen Eingabe Lernproblem: Trainingsdaten. x X x 11 1m n1 x x nm T n Ausgabe: Modell y : X Y zum Beispiel y y y 1 n y T ( x ) x Trainingsdaten: T {( x, y ),,( x, y )} n 1 1 n n Generalisiertes lineares Modell mit Parametervektor. 16

Überwachtes Lernen: Ordinale Regression Eingabe: Instanz x X. Ausgabe: diskreter Wert yy, es existiert jedoch eine Ordnung auf den Elementen von Y. Große Abweichungen zwischen Vorhersage des Modells und echtem Wert sind schlechter als kleine. Zufrieden mit der Wirkung? 17

Überwachtes Lernen: Taxonomieklassifikation Eingabe: Instanz x X. Ausgabe: diskreter Wert yy; es gibt eine baumförmige Ordnung auf den Elementen von Y. Vorhersage ist umso schlechter, je weiter vorhergesagter und tatsächlicher Knoten auseinanderliegen. 18

Überwachtes Lernen: Sequenz- und Strukturvorhersage Eingabe: Instanz x X. Ausgabe: Sequenz, Baum oder Graph yy. Beispielanwendungen: Parsen natürlicher Sprache Proteinfaltungen AAGCTTGCACTGCCGT 19

Überwachtes Lernen: Rankings Eingabe: Anfrage q, Liste von Items I 1,, I n. Ausgabe: Sortierung der Items Trainingsdaten: Nutzer klickt nach Anfrage q auf I j : Item sollte höher gerankt werden als weiter oben stehende Items, die nicht angeklickt wurden. 20

Überwachtes Lernen: Empfehlungen Eingabe: Benutzer, Items, Kontextinformationen. Ausgabe: Wie sehr wird ein Vorschlag einem Benutzer gefallen? Trainingsdaten: Ratings, Käufe, Seitenaufrufe. 21

Unüberwachtes Lernen Trainingsdaten beim unüberwachten Lernen: Menge von Instanzen x X. Zusätzliche Annahmen über Prozess der Entstehung der Daten, beispielsweise Unabhängigkeiten von Zufallsvariablen. Ziel ist das Aufdecken von Strukturen in den Daten: Beispielsweise wahrscheinlichste Aufteilung in Cluster von Instanzen, die bestimmte, nicht direkt beobachtete Eigenschaften teilen. 22

Clusteranalyse: Beispiel Emailkampagnen Eingabe: Strom von Emails. Ausgabe: Partitionierung in Teilmengen, die zur selben Kampagne gehören. Hello, This is Terry Hagan. Our company confirms you are legible for a $250.000 loan for a $380.00/month. Dear Mr/Mrs, This is Brenda Dunn. Our office confirms you can get a $228.000 loan for a $371.00 per month payment. Dear friend, You are invited for a barbeque! Cluster 1 Cluster 2 Cluster 3 23

Clusteranalyse: Beispiel Marktsegmentierung Eingabe: Daten über Kundenverhalten. Ausgabe: Partitionierung in Cluster von Kunden, die ähnliche Produktpräferenzen haben. Cluster 1 Cluster 2 24

Unsupervised Feature Learning, Deep Learning Einige Klassifikationsprobleme sind erst nach der Konstruktion geeigneter Merkmals lösbar Schrittweise Transformation der rohen Eingabedaten in höhere Merkmale Label Individuendiskriminierende Merkmale Gesichts-Teile Gwyneth Paltrow Merkmale werden aus ungelabelten Instanzen gewonnen. Lokale Muster Grauwertmatrix 25

Wahrscheinlichkeit eines Ausgangs-Signals Deep Learning Eingänge Index i x h x h d ( h ) 2 2 k k x 2 2 2 1 2 k k k 0 ( h ) 1 1 k k 1 1 0 1 k x k k 0 Index k... x d Synaptische Gewichte: Werden durch Lernprozesse Verstärkt oder abgeschwächt Ausgabe-Ebene Gewichtete Eingangssignale werden aggregiert Axon: Ausgangssignal: Gewichtete Eingangssignale Signale in Form von Spikes Verbindungen zu anderen Nervenzellen 1 Verdeckte Ebenen 0 x 1... 0 x m Eingabe-Ebene 26

Überblick Arten von Lernproblemen: Überwachtes Lernen (Klassifikation, Regression, ordinale Regression, Empfehlungen, Sequenzen und Strukturen) Unüberwachtes Lernen Reinforcement-Lernen (Exploration vs. Exploitation) Modelle Verlustfunktionen, Regularisierer, Risiko Evaluierung 27

Klassifikationslernen Eingabe Lernproblem: Trainingsdaten. x X x y y y 11 1m n1 1 n T n Trainingsdaten: T {( x, y ),,( x, y )} nm n 1 1 n n x x Ausgabe: Klassifikator y : X Y Wie kann Lernalgorithmus Modell (Klassifikator) aus Trainingsdaten lernen? Suchproblem im Raum aller Modelle 28

Modellraum, Parameterraum Modellraum, Parameterraum, Hypothesenraum : Klassifikator hat Parameter ist Menge der Modelle (Klassifikatoren), die Lernverfahren in Betracht zieht. Modellraum ist einer der Freiheitsgrade beim maschinellen Lernen, viele Räume gebräuchlich. Heisst auch Language Bias Beispiel: Lineare Modelle y ( x),, sonst m wenn x j j 1 0 29

Verlustfunktion, Optimierungskriterium Lernprobleme werden als Optimierungsaufgaben formuliert. Verlustfunktion misst, wie gut Modell zu Trainingsdaten passt Regularisierungsfunktion misst, ob das Modell nach unserem Vorwissen wahrscheinlich ist. Optimierungskriterium ist Summe aus Verlust und Regularisierer. Suche Minimum des Optimierungskriteriums Insgesamt wahrscheinlichstes Modell, gegeben Trainingsdaten und Vorwissen. 30

Verlustfunktion Verlustfunktion: Wie schlimm ist es, wenn Modell y (x i ) vorhersagt obwohl der echte Wert der Zielvariable y i ist? ( y ( x ), y ) Mittlerer Verlust auf den gesamten Trainingsdaten : n n 1 Empirisches Risiko Rˆ( ) ( y ( i ), yi ) n x i i i1 T Beispiel: Binäres Klassifikationsproblem mit positiver Klasse (+1) und negativer Klasse (-1). False Positives und False Negatives gleich schlimm. Zero-One Loss: 0/1( y ( xi), yi) 0, wenn y ( xi) 1, sonst y i 31

Verlustfunktion Beispiel: diagnostische Klassifikationsprobleme, übersehene Erkrankungen (False Negatives) schlimmer als False Positives. Kostenmatrix c FP, c FN yi 1 yi 1 ( y( xi ), yi ) y( xi ) 1 0 cfp y ( xi ) 1 cfn 0 32

Verlustfunktion Beispiel Verlustfunktion Regression: Vorhersage möglichst dicht an echtem Wert des Zielattributes Quadratischer Fehler ( ( ), ) ( ( ) ) 2 y xi yi y xi yi 2 33

Verlustfunktion Wie schlimm ist es, wenn Modell y vorhersagt obwohl der echte Wert der Zielvariable y ist? Verlust ( y', y) Verlustfunktion ist aus der jeweiligen Anwendung heraus motiviert. 34

Beispiel- Kombinationen Suche nach Modell Suche nach Klassifikator für Kombination toxisch. Modellraum: y ( x),, sonst m wenn x j j 1 0 Trainingsdaten Medikamente in der Kombination x 1 x 2 x 3 x 4 x 5 x 6 y x 1 1 1 0 0 1 1 x 2 0 1 1 0 1 1 x 3 1 0 1 0 1 0 x 4 0 1 1 0 0 0 Ansatz: empirisches Risiko sollte minimal sein * n arg min ( y ( ), y ) x i1 01 / i i Gibt es ein solches Modell? Gibt es mehrere? 35

Beispiel- Kombinationen Suche nach Modell Suche nach Klassifikator für Kombination toxisch. Modellraum: y ( x),, sonst m wenn x j j 1 0 Trainingsdaten Medikamente in der Kombination x 1 x 2 x 3 x 4 x 5 x 6 y x 1 1 1 0 0 1 1 x 2 0 1 1 0 1 1 x 3 1 0 1 0 1 0 x 4 0 1 1 0 0 0 Modelle mit Verlust von 0: y ( x ), wenn x 1 y ( x ), wenn x x 2 y ( x ), wenn 2x4 x6 1 6 2 5 36

Beispiel- Kombinationen Suche nach Modell Suche nach Klassifikator für Kombination toxisch. Modellraum: y ( x),, sonst m wenn x j j 1 0 Trainingsdaten Medikamente in der Kombination x 1 x 2 x 3 x 4 x 5 x 6 y x 1 1 1 0 0 1 1 x 2 0 1 1 0 1 1 x 3 1 0 1 0 1 0 x 4 0 1 1 0 0 0 Modelle mit Verlust von 0: y ( x ), wenn x 1 y ( x ), wenn x x 2 y ( ), wenn 2x4 x6 1 x 2 5 6 Modelle mit einem empirischem Risiko von 0 bilden den Versionenraum. Versionenraum ist leer bei widersprüchlichen Daten. 37

Beispiel- Kombinationen Suche nach Modell Suche nach Klassifikator für Kombination toxisch. Modellraum: y ( x),, sonst m wenn x j j 1 0 Trainingsdaten Medikamente in der Kombination x 1 x 2 x 3 x 4 x 5 x 6 y x 1 1 1 0 0 1 1 x 2 0 1 1 0 1 1 x 3 1 0 1 0 1 0 x 4 0 1 1 0 0 0 Modelle mit Verlust von 0: y ( x ), wenn x 1 y ( x ), wenn x x 2 y ( ), wenn 2x4 x6 1 x 2 5 6 Modelle im Versionenraum unterscheiden sich in ihrer Vorhersage für einige Instanzen, die nicht in der Trainingsmenge vorkommen. Welches ist das Richtige? 38

Unsicherheit In der Praxis erreicht man niemals Gewissheit darüber, ein korrektes Modell gefunden zu haben. Daten können widersprüchlich sein (z.b. durch Messfehler) Viele unterschiedliche Modelle können einen niedrigen Verlust haben. Das korrekte Modell liegt vielleicht gar nicht im Modellraum. Lernen als Optimierungsproblem Verlustfunktion: Grad der Konsistenz mit Trainingsdaten Regularisierer: A-Priori-Wahrscheinlichkeit der Modelle 39

Regularisierer Verlustfunktion drückt aus, wie gut Modell zu Daten passt Regularisierer: drückt Annahme darüber aus, ob Modell a priori wahrscheinlich ist. Unabhängig von den Trainingsdaten. Je höher der Regularisierungsterm für ein Modell, desto unwahrscheinlicher Häufig wird die Annahme ausgedrückt, dass wenige der Attribute für ein gutes Modell ausreichen. Anzahl der Attribute, L 0 -Regularisierung Betrag der Attribut-Gewichtungen, L 1 -Regularisierung Quadrat der Attribut-Gewichtungen, L 2 -Regularisierung. 40

Regularisierer Kandidaten: y ( x ), wenn x 1 y ( x ), wenn x x 2 y ( ), wenn 2x x 1 x 2 5 6 4 6 0 1 2 3 4 5 6 1 1 0 0 0 0 0 1 2 2 0 1 0 0 1 0 3 1 0 0 0 2 0 1 T T T Regularisierer: L 0 -Regularisierung L 1 -Regularisierung L 2 -Regularisierung ( ) 2 0 1 ( ) 3 0 2 ( ) 3 0 3 ( ) 2 1 1 ( ) 4 1 2 ( ) 4 1 3 ( ) 2 2 1 ( ) 6 2 2 ( ) 6 2 3 41

Optimierungskriteruim Regularisiertes empirisches Risiko: Trade-Off zwischen mittlerem Verlust und Regularisierer 1 n ( y ( ), ) ( ) i 1 i yi n x Parameter steuert Trade-Off zwischen Verlust und Regularisierer. 42

Optimierungsproblem Rechtfertigung für Optimierungskriterium? Mehrere Rechtfertigungen und Herleitungen. Wahrscheinlichstes Modell (MAP-Modell). Niedrige obere Schranke für Fehler auf zukünftigen Daten abhängig von. (SRM). Lernen ohne Regularisierung ist ill-posed Problem; keine eindeutige Lösung, oder Lösung hängt extrem stark von minimalen Änderungen in den Daten ab. 43

Beispiel- Kombinationen Regularisierte empirische Risikominimierung Suche nach Klassifikator für Kombination toxisch. Modellraum: y ( x),, m wenn x j j sonst 1 0 Trainingsdaten Medikamente in der Kombination x 1 x 2 x 3 x 4 x 5 x 6 y x 1 1 1 0 0 1 1 x 2 0 1 1 0 1 1 x 3 1 0 1 0 1 0 x 4 0 1 1 0 0 0 Regularisiertes empirisches Risiko: 1 n 1 0/ 1( y ( i), y ) 0( ) i i n x Modell mit minimalem regularisiertem empirischem Risiko: y ( x ), wenn x 1 für <0.5. y ( x ) für >0.5. 2 44

Evaluierung von Modellen Wie gut wird ein Modell in Zukunft funktionieren? Zukünftige Instanzen werden entsprechend einer (unbekannten) Verteilung p( x, y) gezogen. Risiko: erwarteter Verlust unter R( ) ( y ( x), y) p( x, y) dx y p( x, y) Ist das empirische Risiko auf den Trainingsdaten ein brauchbarer Schätzer für das Risiko? 45

Evaluierung von Modellen Wie gut wird ein Modell in Zukunft funktionieren? Zukünftige Instanzen werden entsprechend einer (unbekannten) Verteilung p( x, y) gezogen. Risiko: erwarteter Verlust unter p( x, y) Ist das empirische Risiko auf den Trainingsdaten ein brauchbarer Schätzer für das Risiko? Problem: Alle Modelle aus dem Version Space haben ein emp. Risiko von 0 auf Trainingsdaten. Ein Klassifikator, der einfach nur die Trainingsdaten in einer Tabelle speichert hat ein empirisches Risiko von 0 auf Trainingsdaten. 46

Evaluierung von Modellen Wie gut wird ein Modell in Zukunft funktionieren? Zukünftige Instanzen werden entsprechend einer (unbekannten) Verteilung p( x, y) gezogen. Risiko: erwarteter Verlust unter Empirisches Risiko auf den Trainingsdaten ist ein extrem optimistischer Schätzer für das Risiko. Risiko wird auf Daten geschätzt, die nicht zum Training verwendet wurden. Training-and-Test. N-fold Cross Validation. p( x, y) 47

Optimierungsproblem Einstellung von? Teile verfügbare Daten in Trainings- und Testdaten Iteriere über Werte für Training auf Trainingsdaten, finde Modell Bestimme auf Testdaten Wähle Wert mit minimalem Verlust Trainiere mit allen Daten R( ) 48

Daten, Modelle, Lernprobleme Überwachtes Lernen: Finde Funktion, die wahrscheinlich die Trainingsdaten erzeugt hat. Verlustfunktion: Übereinstimmung zwischen Vorhersage des Modells und Wert der Zielvariable in den Trainingsdaten. Regularisierer: Übereinstimmung mit Vorwissen. Unüberwachtes Lernen: Keine Zielvariable, entdecke Struktur in den Daten, z.b. durch Einteilung der Instanzen in Cluster mit gemeinsamen Eigenschaften. 49