und Neural Computation 840042, VO, 1 Std WS 2015/16 Georg Dorffner Inst f Artificial Intelligence Zentrum für Med Statistik, Informatik und Intelligente Systeme Medizinische Universität Wien meduniienacat/user/georgdorffner/lv/mlnchtml 1
Überblick Grundlagen ML/NC Überachtes Lernen: Klassifikation Überachtes Lernen: Regression Lernen als Optimierung Komplee Lerner in der Prais Unüberachtes Lernen Ensemble Methoden Kernel Methoden 2
Begleitende Literatur Duda R, Hart PE, Stork DG: Pattern Classification, 2 nd edition, Ne York: Wiley, 2001 Bishop CM: Pattern Recognition and Machine Learning, Ne York: Springer, 2006 3
Kapitel1: Grundlagen 4
mögliche Definitionen Computerprogramme, die sich mit Erfahrung verbessern (Mitchell 1997) (Artificial Intelligence) Auf der Basis von Beispielen nichttriviale Strukturen in Daten finden (Mustererkennung, Data Mining) Ein Modell der Daten schätzen, die diese beschreiben (Statistische Datenanalyse) 5
Einige Vorausetzungen Merkmale (Features) Beschreiben die Fälle des Problems Messungen, Daten Lerner (Version Space) Eine Klasse von Modellen Lernverfahren Ein Algorithmus, der das beste Modell findet Generalisierung Struktur/Datenmodell soll neue Daten beschreiben können 6
Features Qualitativ, nominal zb: [Student, Arbeiter, Angestellter] Qualitativ, ordinal (enthält Ordnung) zb: [schlecht, mittelmäßig, gut] Numerisch, metrisch Intervallskala: kein natürlicher Nullpunkt, nur Differenzen bedeutungsvoll (zb Temp in C) Verhältnisskala: natürlicher Nullpunkt, auch verhältnisse bedeutungsvoll (zb Größe in m) Diskret: nur endlich viele Werte (zb Anzahl) Stetig: theoretisch unendlich viele Werte (zb Länge) 7
Features: 2 numerische Werte (gezeichnet in Ebene) Aufgabe: Teile in zei Klassen (eiß und scharz) Lerner (version space): Trenngerade durch den Ursprung Lernregel: Nimm Normalvektor Addiere den Punktvektor eines falsch klassifizierten Beispiels Drehe Gerade, sodass neuer Vektor der Normalverktor ird Solange bis alles richtig klassifiziert Generalisierung: neue Punkte richtig klassifiziert Konvergenz garantiert, enn Problem lösbar(rosenblatt 1962) Beispiellerner: Perceptron 8
Arten des Lernens Überachtes Lernen (supervised learning) Zuordnung der Daten ( Label ) bekannt Finde Zusammenhänge mit Input Beispiele: medizinische Diagnose, Temperaturvorhersage Unüberachtes Lernen (unsupervised learning) Finde Struktur in den Daten Beispiele: Marktsegmentierung, Visualisierung Reinforcement Learning Finde Zusammenhänge anhand von globalem Feedback Beispiele: Steuerung einer Roboterhand, Lernen von Spielen 9
Neural Computation Ursprünglich biologisch motiviert (daher der Name) Lerner als Netzerk einfacher Einheiten beschreibbar Stärke: beliebige nichtlineare Modelle (zb nicht nur Geraden) Voraussetzung: numerische Features Qualitative Features: als Binärcode (zb 1-aus-n) 10
2 Geicht 1 i y Unit (Neuron) y f i1 f n i Das einfache mathematische Modell Aktivierung, Output (Netto-) Input i n y f i i i1 Propagierungsregel: Geichtete Summe Euklidischer Abstand (später) Transferfunktion f: Schellertfkt (McCulloch & Pitts) Lineare Fkt Sigmoide Fkt 11
Perceptron als neuronales Netz Inputs sind zufällige Featuredetektoren Binär kodiert Perceptron lernt Klassifikation Neuronengayneedu Modell der Wahrnehmung / Obekterkennung 12
Perceptron Learning Rule als Geichtsadaption t i if 0sonst "target" i if i t t Target: Rosenblatt (1962) Zielvorgabe (target) Nach dem Lernschritt: notendig = Lehrer Input ird dazugezählt (abgezogen), enn Output falsch Verendung: Klassifikation (Original: Input = visuelle Vorverarbeitung) 13
Geichtete Summe nicht vollständig y 1 i1 n 2 i i n 0 y 0 Konstante notendig i1 Realisierung: zusätzliche Unit, immer auf 1 gesetzt 0 (Bias Unit) Bias Trenngerade geht immer durch Ursprung n y i i 0 14
15 Vektor- und Matrinotation Lineares Perceptron ist Multiplikation des Input-Vektors mit der Geichtsmatri Kompakte Schreibeise Hilfsmittel aus Vektoralgebra y W n nm m m n n m n i i i y y y m y 2 1 2 1 2 22 12 1 21 11 2 1 1 1 for
16 Einschub: Matrimulitplikation Multiplikation zeier Matrizen: elementeise multiplizieren und addieren Spaltenzahl der 1Matri = Zeilenzahl der 2 Resultat: Zeilen der 1 X Spalten der 2 Matri Vektoren als Matrizen: inneres Produkt äußeres Produkt T Transpose (um Diagonale kippen) s T 1 2 2 T 1
Sigmoide Transferfunktion 1 f y y 1 e Outputs begrenzt auf [0,1] Quasi-linear um 0 Mögliche Interpretation: Wahrscheinlichkeit f out W in Immer ahrscheinlicher 17
Mehrebenen-Perceptron (MLP) 2 (oder mehrere) Schichten (= Verbindungen) Output Units (typisch linear) Hidden Units (typisch sigmoid) Input Units 18
Verallgemeinerte Delta-Regel Geichtsadaption: Backpropagation y out, out out i i W out y hid, hid W hid out hid f f ' ' out out y t n hid out out y k 1 k k Fehler ird rückpropagiert Pseudofehler an den Hidden Units 19
Backpropagation als Gradientenverfahren Definiere (quadratischen) Fehler (für Muster l): E l m out k tk k 1 2 Minimiere Fehler Ändere Geichte in Richtung des Gradienten i El i (partielle Ableitung nach dem Geicht) Kettenregel ergibt Backpropagation 20
Differenzieren von verschachtelten Funktionen: Äußere Ableitung innere Ableitung ' ' f gh f gh g h Einschub: Kettenregel ' h nur 1 Summand abh ' out out 2 k tk out f y k nur 1 Summand: hid M Wege um Geicht zu erreichen out k f y usf: ' hid in i E l m n m out f k f k 1 1 i1 hid i in i hid i0 out 0 t out k 2 21
Geometrische Interpretation Fehler bildet (hochdimensionale) Fläche Gradient entspricht der Richtung des steilsten Abstiegs Folge dieser Richtung bis zum Minimum 22
Grenzen der Backpropagation Gradientenverfahren kann in lokalem Minimum hängenbleiben (abhängig von der Initialisierung) Es ist nicht garantiert, daß Backpropagation eine eistierende Lösung auch findet Weitere Probleme: langsam, kann zu oszillieren beginnen (siehe später) 23
Prais der Backpropagation Beginne mit zufälligen Geichten Wähle kleine Lernrate (da sonst kein Gradientenverfahren) Nehme Satz von Trainingsmustern, die gelernt erden sollen Wähle eeils zufällig ein Musterpaar: 1 Vorärtsschritt, 1 Backpropagation-Schritt ( online learning ) Eigentlich: definiere Fehler als M M m out 2 E El k tk (über alle M Musterpaare) l1 l1 k 1 berechne Geichtsänderungen für alle Musterpaare des Trainingssatzes, summiere und ändere erst dann ( batch learning ) 24
Vienet2>uebung3ee Beispiel: Medizinische Diagnose Bsp: Pima Indian Diabetes ftp://ftpicsuciedu/pub/machine-learningdatabases/pima-indians-diabetes Input: 1 Number of times pregnant 2 Plasma glucose concentration at 2 hours in an oral glucose tolerance test 3 Diastolic blood pressure (mm Hg) 4 Triceps skin fold thickness (mm) 5 2-Hour serum insulin (mu U/ml) 6 Body mass inde (eight in kg/(height in m)^2) 7 Diabetes pedigree function 8 Age (years) Normalisiert auf Mittelert 0 und Varianz 1 Output: Diabetes a/nein 768 Fälle, aufgeteilt auf Training- und Testsatz Performanz nach Training auf Testsatz: ca 70-80% Fehler geht nicht auf 0! (siehe später) 25
Occam s Razor Einige ichtige Prinzipien Wenn zei Modelle die Daten gleich gut beschreiben, dann ähle das einfachere kompleer (mächtiger) ist nicht automatisch besser Fluch der Dimension Für komplee Lerner steigt der Bedarf an Beispielen überlinear (eponentiell) mit der Zahl der Features nimm nur Features, die notendig sind No free lunch Es gibt keinen Lerner, der für alle Probleme die beste Lösung liefert ende kompleen Lerner nie blind ohne Wissen über die Daten an 26
Die stochastische Sicht des überachten Lernens Realdaten sind stochastisch (von Natur aus mit Rauschen/Streuungen versehen) 2 Typen von Problemen: Regression, Klassifikation Lernen muss mathematisches Modell finden 27