Maschinelles Lernen (Zusammenfassung)

Unverstät Potsdam Insttut für Informatk Lehrstuhl (Zusammenfassung) Chrstoph Sawade /Nels Landwehr/Paul Prasse Domnk Lahmann Tobas Scheffer

Überblck Lernprobleme Entschedungsbäume Bayes sches Lernen Lneare Modelle Evaluerung 2

Problemstellung Lernen Engabe Lernproblem: Tranngsdaten. L x ( x, y1),...,( x, y 1 N N x 1... xm ) x, y dskret (Klassfkaton) oder kontnuerlch (Regresson) Ausgabe: Hypothese, Modell f : wenn x1 x3 x6 f ( x), 1 0 1, sonst 3

Klassfkaton: Bespel Engabe: Instanz (Objekt) x. = Menge aller 16x16 Pxel Btmaps Attrbute Instanz x Grauwert Pxel 1 Grauwert Pxel 256 0.1 0.3 0.45... 0.65 0.87 256 Pxelwerte Ausgabe: y {0,1,2,3,4,5,6,7,8,9} : erkannte Zffer Klassfkator "6" 4

Klassfkaton: Bespel Engabe: Instanz (Objekt) x. Attrbute Wort 1 kommt vor? = Menge aller möglchen Emal-Texte Wort N kommt vor? N 100000 0 1 0... 1 0 Instanz x Alternatve Benefcary Frend Sterlng Zoo Emal Dear Benefcary, your Emal address has been pcked onlne n ths years MICROSOFT CONSUMER AWARD as a Wnner of One Hundred and Ffty Fve Thousand Pounds Sterlng Ausgabe: y { spam, ok} Dear Benefcary, We are pleased to notfy you that your Emal address has been pcked onlne n ths second quarter's MICROSOFT CONSUMER AWARD (MCA) as a Wnner of One Hundred and Ffty Fve Thousand Pounds Sterlng Klassfkator Spam 5

Bespel- Kombnatonen Lernen durch Berechnung des Verson Space Verson Space: alle mt den Daten konssten Hypothesen Medkamente n der Kombnaton x 1 x 2 x 3 x 4 x 5 x 6 y x1 0 1 0 0 1 1 x2 0 1 1 0 1 1 x3 1 0 1 0 1 0 x4 0 1 1 0 0 0 L ( x, y ),( x, y ),( x, y ),( x, y ) 1 1 2 2 3 3 4 4 f ( x),, wenn x v sonst jj j j x 0 x 1 x 0 1 2 4 3 x 1 x 0 x1 0 x2 1 x1 0 x4 0 2 4 2 2 2 x2 1 x 1 1 0 1 6

Unscherhet Verson Space-Ansatz n der Praxs problematsch Der Hypothesenraum st mest unendlch groß. Der Verson Space st dann mest auch unendlch groß, oder leer. Alternatver Ansatz: Lernen als Optmerungsproblem 7

Verlustfunkton, Optmerungskrterum Alternatver Ansatz: Lernen als Optmerungsproblem ˆ(, ) ( ( ), ) 2 R w L f x y w Verlust auf Tranngsdaten w Regularserer Verlustfunkton msst, we gut Modell zu Tranngsdaten passt Regularserungsfunkton msst, ob das Modell nach unserem Vorwssen wahrschenlch st. Optmerungskrterum st Summe aus Verlust und Regularserer. Suchen Mnmum des Optmerungskrterums 8

Verlustfunkton Verschedene Verlustfunktonen (anwendungsspezfsch) Bespel: Verlustfunktonen n Form von Kostenmatrx y 1 y 1 ( f ( x), y) f ( x) 1 0 cfp f( x) 1 c 0 FN Zum Bespel dagnostsche Klassfkatonsprobleme, übersehene Erkrankungen (False Negatves) schlmmer als False Postves. 9

Regularserer Unterschedlche Regularserer möglch Häufg wrd de Annahme ausgedrückt, dass wenge der Attrbute für en gutes Modell ausrechen. Anzahl der Attrbute, L 0 -Regularserung Betrag der Attrbut-Gewchtungen, L 1 -Regularserung Quadrat der Attrbut-Gewchtungen, L 2 -Regularserung. 10

Optmerungsproblem Rechtfertgung für Optmerungskrterum? Mehrere Rechtfertgungen und Herletungen. Wahrschenlchste Hypothese (MAP-Hypothese). Hypothese, de Daten am stärksten komprmert (Mnmum Descrpton Length). Nedrge obere Schranke für Fehler auf zukünftgen Daten abhängg von w. (SRM). 11

Entschedungsbäume Ene von velen Anwendungen: Kredtrsken ja Länger als 3 Monate beschäftgt? Schufa-Auskunft postv? nen abgelehnt nen Ja Arbetslos? Kredt - Scherheten > 5 x verfügbares Enkommen? nen ja nen ja Kredt - Scherheten > 2 x verfügbares Enkommen? abgelehnt Student? abgelehnt nen ja nen ja abgelehnt angenommen angenommen abgelehnt 13

Entschedungsbäume Enfach zu nterpreteren. Lefern Klassfkaton plus Begründung. Abgelehnt, wel wenger als 3 Monate beschäftgt und Kredt-Scherheten < 2 x verfügbares Enkommen. Können aus Bespelen gelernt werden. Enfacher Lernalgorthmus. Effzent, skalerbar. Klassfkatons- und Regressonsbäume. Klassfkatons-, Regressons-, Modellbäume häufg Komponenten komplexer (z.b. Rsko-)Modelle. 14

Anwendung von Entschedungsbäumen Testknoten: führe Test aus, wähle passende Verzwegung, rekursver Aufruf. Termnalknoten: lefere Wert als Klasse zurück. Schufa-Auskunft postv? ja nen Länger als 3 Monate beschäftgt? abgelehnt nen Ja Arbetslos? Kredt - Scherheten > 5 x verfügbares Enkommen? nen ja nen ja Kredt - Scherheten > 2 x verfügbares Enkommen? abgelehnt Student? abgelehnt nen ja nen ja abgelehnt angenommen angenommen abgelehnt 15

Lernen von Entschedungsbäumen Eleganter Weg: Unter den Bäumen, de mt den Tranngsdaten konsstent snd, wähle enen möglchst klenen Baum (möglchst wenge Knoten). Klene Bäume snd gut, wel: se lechter zu nterpreteren snd; se n velen Fällen besser generalseren. Es gbt mehr Bespele pro Blattknoten. De Klassenentschedungen n den Blättern stützen sch so auf mehr Bespele. 16

Algorthmus ID3 Voraussetzung: Klassfkatonslernen, Alle Attrbute haben festen, dskreten Werteberech. Idee: rekursver Algorthmus. Wähle das Attrbut, der de Unscherhet bzgl. der Klasse maxmal verrngert. Dann rekursver Aufruf für alle Werte des gewählten Attrbuts. Solange, bs n enem Zweg nur noch Bespele derselben Klasse snd. Orgnalreferenz: J.R. Qunlan: Inducton of Decson Trees. 1986 17

Informaton Gan / Info Gan Rato Motvaton: Vorhersage ob en Student de Prüfung besteht. We hoch st der Info Gan des Attrbutes Matrkelnummer? Informatonsgehalt des Tests st resg. Idee: Informatonsgehalt des Tests bestrafen. IG( L, x) GanRato ( L, x) SpltInfo ( L, x) SpltInfo ( L, x) v L xv L log 2 L xv L 18

Kontnuerlche Attrbute 19

Algorthmus C4.5 Weterentwcklung von ID3 Verbesserungen: auch kontnuerlche Attrbute behandelt Tranngsdaten mt fehlenden Attrbutwerten behandelt Attrbute mt Kosten Prunng Ncht der letzte Stand: sehe C5.0 Orgnalreferenz: J.R. Qunlan: C4.5: Programs for Machne Learnng. 1993 20

Prunng Problem: Blattknoten, de nur von enem (oder sehr wengen) Bespelen gestützt werden, snd lefern häufg kene gute Klassfkaton. Prunng: Entfernen von Testknoten, de Blätter mt wenger als ener Mndestzahl von Bespelen erzeugen. Dadurch entstehen Blattknoten, de dann mt der am häufgsten auftretenden Klasse beschrftet werden müssen. 21

Prunng mt Schwellwert Für alle Blattknoten: Wenn wenger als r Tranngsbespele n den Blattknoten fallen Entferne darüberlegenden Testknoten. Erzeuge neuen Blattknoten, sage Mehrhetsklasse vorher. Regularserungsparameter r. Enstellung mt Cross Valdaton. 22

Umwandlung von Bäumen n Regeln Pfad durch den Baum: Bedngung der Regel Klasse: Schlussfolgerung Prunng von Regeln: Probere aus, welche Bedngungen weggelassen werden können, ohne dass de Fehlerrate dadurch stegt. 23

Entschedungsbäume aus großen Datenbanken: SLIQ C4.5 terert häufg über de Tranngsmenge (we häufg?) Wenn de Tranngsmenge ncht n den Hauptspecher passt, wrd das Swappng unpraktkabel! SLIQ: Vorsorteren der Werte für jedes Attrbut Baum breadth-frst aufbauen, ncht depth-frst. Orgnalreferenz: M. Mehta et. al.: SLIQ: A Fast Scalable Classfer for Data Mnng. 1996 24

SLIQ: Gn Index 25

Modellbäume Entschedungsbaum, aber lneares Regressonsmodell n Blattknoten. ja x <.9 nen x <.5 x < 1.1 ja nen nen.1.2.3.4.5.6.7.8.9 1.0 1.1 1.2 1.3 26

Entschedungsbaum - Vortele Enfach zu nterpreteren. Können effzent aus velen Bespelen gelernt werden. Vele Anwendungen. Hohe Genaugket. 27

Entschedungsbaum - Nachtele Ncht robust gegenüber Rauschen Tendenz zum Overfttng Instabl 28

Dskrete und kontnuerlche Zufallsvarablen Dskrete Zufallsvarablen Endlche, dskrete Menge von Werten D möglch Vertelung beschreben durch dskrete Wahrschenlchketen p( x) [0, 1] mt p( x) 1 xd Kontnuerlche Zufallsvarablen Kontnuerlche, unendlche Menge von Werten möglch Vertelung beschreben durch kontnuerlche Dchtefunkton px ( ) 0 mt p( x) dx 1 Wahrschenlchket f ür x[ a, b]: p( x[ a, b]) p( x) dx b a 30

Dskrete Zufallsvarablen Bnomalvertelung: Anzahl Köpfe be N Münzwürfen X ~ Bern(X ) N X X, X {0,..., N} 1 X ~ Bn( X N, ) N Bn( X N, ) (1 ) X X N X N 10, 0.5 31

Kontnuerlche Zufallsvarablen Normalvertelung (Gaußvertelung) Bespel: Körpergröße X Annähernd normalvertelt: X 2 ~ ( x, ) Dchte der Normalvertelung z.b. 170, 10 32

Erwartungswert und Varanz Erwartungswert ener Zufallsvarable Gewchteter Mttelwert E( X ) xp( X x) x X dskrete ZV E( X ) xp( x) dx X kontnuerlche ZV mt Dchte p(x) Varanz ener Zufallsvarable Erwartete quadrerte Abwechung der Zufallsvarable von hrem Erwartungswert Mass für de Stärke der Streuung Var X E X E X 2 ( ) (( ( )) ) Verschebungssatz: Var( X ) E( X ) E( X ) 2 2 33

Bespel: Erwartungswert Normalvertelung Erwartungswert Normalvertelung X 2 ~ ( x, ) zx 2 E( X ) x ( x, ) dx x 1 1 2 exp ( ) 2 1/2 2 (2 ) 2 x dx 1 1 2 ( z ) exp 2 1/2 2 (2 ) 2 z dz 1 1 2 1 1 2 exp exp 2 1/2 2 2 1/2 2 (2 ) 2 z dz z (2 ) 2 z dz 1 0 34

Bayessche Lernen Bayes sches Lernen: Anwendung probablstscher Überlegungen auf Modelle, Daten, und Vorhersagen Bayes sche Regel: Modellwahrschenlchket gegeben Daten und Vorwssen Lkelhood: We hoch st de Wahrschenlchket, bestmmte Daten zu sehen, unter der Annahme dass Modell das korrekte Modell st? p( Modell Daten) Posteror: we st de Wahrschenlchket für Modelle, gegeben Evdenz der Tranngsdaten? p( Daten Modell ) p( Modell ) p( Daten) Wahrschenlchket der Daten, unabhängg von Modell A-pror Vertelung über Modelle: Vorwssen

Parameter von Vertelungen schätzen Erste Anwendung Bayes scher Überlegungen: Parameterschätzung n Münzwurfexpermenten Münze mt unbekanntem Parameter wrd N Mal geworfen Daten L n Form von N K Kopfwürfen und N Z Zahlwürfen Was sagen uns dese Beobachtungen über den echten Münzwurfparameter? Wssen über echten Münzwurfparameter abgebldet n a- posteror Vertelung p( L) Ansatz mt Bayesscher Regel: p( L) p( L p( pl ( ) 36

Parameterschätzungen von Wahrschenlchketsvertelungen: Bnomal Geegnete Pror-Vertelung: Beta-Vertelung Kontnuerlche Vertelung über Konjugerter Pror: a-posteror Vertelung weder Beta K 5, 5 1, 1 4, 2 Z K Z K Z p( ) Beta( k k z k (1 k z z 1 1 z 1 0 Beta(, ) d 1 K Z 37

Parameterschätzungen von Wahrschenlchketsvertelungen: Bnomal Mt Hlfe der Bayes schen Regel werden Vorwssen (Beta- Vertelung) und Beobachtungen (N K, N Z ) zu neuem Gesamtwssen P( L) ntegrert A-pror-Vertelung Beta P( ) Beta( 5 5 Daten L: N K =50x Kopf, N z =25x Zahl Konjugerter Pror: A-posteror Vertelung weder Beta P( L) Beta( 55 30 38

Bayessche Lneare Regresson Bayes sche Lneare Regresson: Bayes sches Modell für Regressonsprobleme Lneares Modell T f ( x w ) w x w0 m 1 w x f ( x) * Annahme über datengenererenden Prozess: echtes lneares Modell f ( x) * plus Gauß sches Rauschen y ( ) f* x mt ~ ( 0, ) 39

Bayessche Lneare Regresson: Pror Zel zunächst Berechnung der a-posteror Vertelung mt Bayes scher Regel P( w L) P( L w) P( w) pl ( ) Geegnete (konjugerte) Pror-Vertelung: Normalvertelung über Parametervektoren w Größte Dchte be w=0 Erwarten klene Attrbutgewchte 40

Bayessche Lneare Regresson: Posteror Posteror-Vertelung über Modelle gegeben Daten 1 P( w L) P( L w) P( w) Bayessche Regel Z 1 Z T ( y X w, I) ( w 0, p) 1 ( w w, A ) mt w 1 A X y A XX T p Posteror st weder normalvertelt, mt neuem Mttelwert w und Kovaranzmatrx A 1 41

Bayes sche Vorhersage Ncht auf MAP-Modell festlegen, solange noch Unscherhet über Modelle besteht Stattdessen Bayes sche Vorhersage: berechne drekt wahrschenlchstes Label für Testnstanz Neue Testnstanz x Vorhersage y arg max p( y x, L) * y arg max p( y w, xp( w L) dw y Bayesan Model Averagng Vorhersage, gegeben Modell Modell gegeben Tranngsdaten Bayes sche Vorhersage: Mtteln der Vorhersage über alle Modelle. Gewchtung: we gut passt Modell zu Tranngsdaten. 42

Bayes sche Vorhersage für de Lneare Regresson Für de Bayes sche lneare Regresson kann de Bayesoptmale Vorhersage drekt berechnet werden: T 2 1 ( y x w, ) ( w w, A ) dw mt 1 A T w Xy A XX p Vorhersagevertelung weder normalvertelt 43

Lneare Regresson auf nchtlnearen Bassfunktonen Nchtlneare Zusammenhänge n Daten darstellbar durch lneare Regresson n nchtlnearen Bassfunktonen f ( x) w T ( x) w w ( x) 0 d 1 : Abbldung von n höherdmensonalen Raum ( ) Lneare Regresson n entsprcht nchtlnearer Regresson n. ( ) y f ( x) 1 3x x 2 x y x 2 x 44

Bespel nchtlneare Regresson: Vorhersagevertelung f( x) N=1 Datenpunkt N=2 y sn(2 x) N=4 N=25 45

Bespel nchtlneare Regresson: Samples aus dem Posteror N=1 N=2 N=4 N=25 46

Nave Bayes Klassfkator (Übungen) Nave Bayes Klassfkator als enfaches probablstsches Klassfkatonsmodell (bnäre Attrbute, bnäre Klassen) Defnert ene gemensame Vertelung über x und y durch Münzwürfe p( x, y ) p( y ) p( x y, ) Münzwurf für Klasse y p( y ) p( x y, m 1 x y Münzwurf für Attrbut, gegeben Klasse Konjugerter Pror Betavertelung, Lösung für MAP Parameter we be Münzwurfexpermenten 47

Graphsches Modell für Klassfkaton Graphsches Modell defnert stochastschen Prozess Bldet Modellannahme über Erzeugung der Daten Zuerst wrd en Modellparameter gezogen Deses parametrsert P(y ) Und parametrsert auch p(x y,) x y p( x y, ) p( ) py ( ) n 49

Emprsche Inferenz Inferenz der Wahrschenlchket von y gegeben Instanz x und Tranngsdaten? P( y x, X, y) P( y x, ) p( X, y)d P( y x, ) mt arg max p( X, y) MAP MAP Bayes Glechung: Posteror = Lkelhood x Pror P( y X, p( p( X, y) p( y X P( y X, p( Faktoräquvalenz genügt, da nur argmax gesucht. 50

Emprsche Inferenz Bayes Glechung: Posteror = Lkelhood x Pror Unabhänggket der Tranngsdaten (aus graphschem Modell) p( X, y) p( X, y p( P( y X, P( y x, n 1 x y p( x y, ) p( ) py ( ) n Bayes Glechung auf Klassenlabel angewandt Py ( x, p( x y, P( y ) p( x y, P( y ) y 51

Exponentelle Famlen Wahrschenlchket für Klassenlabel st Tel des Parametervektors Bedngte Wahrschenlchket für x folgt: y y y Py ( ) p( x y, ) h( x ) e T, y, y ( x ) ln g ( ) Be Klassen 1 k zerfällt Parametervektor n,1, k y1 y yk P( y x, p( x y, Py ( ) p( x y, Py ( ) y 52

Exponentelle Famlen Bedngte Wahrschenlchket für x folgt: p( x y, ) h( x ) e Abbldung (x) heßt:, y, y In der Statstk: suffzente Statstk Im maschnellen Lernen: Feature Mappng T ( x ) ln g ( ) Parttonerungsfunkton, y normert de Vertelung Base Measure h(x). 1 g( ) Vertelung wrd durch h(x), (x), und g festgelegt. 53

Exponentelle Famlen Vektor (x) Suffzente Statstk: Abbldung, de alle Informatonen über de zu Grunde legende Wahrschenlchketsvertelung erhält. Feature Mappng: Abbldung auf Merkmale, de ene Trennung der Klassen durch en lneares Modell ermöglcht. 54

Suffzente Statstk, Feature Mappng Lneares Mappng: Quadratsches Mappng : Polynomelles Mappng : ( x ) x 1 Tensorprodukt ( x ) x x x 1 x ( x) x x x... x p Faktoren Häufg verwendet man auch Mappngs, de kene geschlossene Form haben, für de sch aber nnere Produkte bestmmen lassen Z.B. RBF-Kerne, Hash-Kerne 55

Suffzente Statstk, Feature Mappng Spezalfall: Lneares Mappng ( x ) x st suffzente Statstk, Wenn p( x y, ) [ μ y, Σ]( x) und de Kovaranzmatrx der Klassen glech st En lneares Mappng ( x ) x genügt dann für de Berechnung der Klassenwahrschenlchket. 56

Exponentelle Famlen: Normalvertelung Bedngte Wahrschenlchket für x folgt: Bespel: Normalvertelung p( x y, ) h( x) e 1 [ μ, Σ]( x) e m/2 1/2 (2 ) Σ T, y, y ( x) ln g( ) 1 2 T 1 x μ Σ x μ 3 2 1 Als Exponentelle Famle: x 2 0 x ( x), 2 x 2 1 2 2, 2 1/2 h( x) 2, g( ) exp 2 2-1 -2-3 -3-2 -1 0 1 2 3 x 1 0 0,5 0,6x1, 0 0,6 1 x 2 57

Exponentelle Famlen Bedngte Wahrschenlchket für x folgt: ( x) ln g( ) p( x y, ) h( x) e Ensetzen n p( x y, P( y ) Py ( x, p( x y ', P( y ' ) y ' h( x) e e y ' ( x) y ' h( x) e e T T ( x), y T T, y ', y, y ( x) ln g ( ), y, y T, y', y' ( x) ln g ( ) yy' b y b y ' y y y b g y y, y ln ln ( ) 58

Logstsche Regresson Aus den Annahmen Datengenererungsmodell von Fole 12 p( x y, ) st ene exponentelle Famle ergbt sch de Form der bedngten Vertelung der Zelvarable: ( ) x e Py ( x, e T, y T, y ' ( x) by ' y ' b y, y Wr kennen de Parameter ncht. Wr werden bald de MAP- (Maxmum-A-Posteror-) Parameter nfereren. 59

Logstsche Regresson Wahrschenlchket für Klasse y : ( ) x e Py ( x, e T, y T, y ' ( x) by ' y ' b y Exponent st affn n (x) (lnear + offset) Klasse y st wahrschenlchste Klasse wenn T, y y arg max ( x ) b y y Nenner st konstant bezüglch y Lneare (+offset) Entschedungsfunkton 60

Lneare Modelle Hyperebene durch Normalenvektor und Verschebung gegeben: H { f ( ) ( b 0} T, b x x x) Klassenwahrschenlchket: Py ( 1 x, T ( ) b 1 x e 1 x 2 f ( x ) 0 Entschedungsfunkton: f T ( x ) ( x ) Klassfkator: b b f ( x ) 0 f ( x ) 0 y( x ) sgn( f ( x )) x 1 61

Generalserte Lneare Modelle Hyperebene durch Normalenvektor und Verschebung gegeben: H { f ( ) ( b 0} Klassenwahrschenlchket: T, b x x x) Py ( 1 x, T ( ) b 1 x e 1 x 2 ( x ) x 1 p( x y 1, ) x x Entschedungsfunkton: Klassfkator: f T ( x ) ( x ) y( x ) sgn( f ( x )) b p( x y 1, ) x 1 62

Generalserte Lneare Modelle Hyperebene durch Normalenvektor und Verschebung gegeben: H { f ( ) ( b 0} T, b x x x) ( x ) x 1 x x Klassenwahrschenlchket: Entschedungsfunkton: Klassfkator: Py ( 1 x, T ( ) b 1 x e f T ( x ) ( x ) y( x ) sgn( f ( x )) b 1 x 2 f ( x ) 0 py ( 1 x, ) x 1 63

Lneare Modelle Mehrklassenfall Hyperebenen durch Normalenvektoren und Verschebung gegeben: H f y b, b T y { x ( x, ) ( x) y 0} y y Klassenwahrschenlchket: Entschedungsfunkton: Klassfkator: ( ) x e Py ( x, e f x y x b T, y (, ) ( ) y y( x ) arg max f ( x, y) y T, y T, y ' ( x) by ' y' b y x 2 f ( x, y ) 0 1 f ( x, y ) 0 y 1 1 y 2 f ( x, y ) 0 y 3 f ( x, y ) 0 3 2 x 1 64

Logstsche Regresson Wenn de Modellannahmen erfüllt snd: Unabhänggketsannahmen von Fole 12, p( [ 0, Σ normalvertelt, T, y, ( ) y x ln g( ) p( x y, ) h( x) e exponentelle Famle Dann st x e Py ( x, e und der Maxmum-A-Posteror-Parameter st n T, y ' ( ), T 1 y T MAP arg mn log e x ( x ) y' Σ 2 1 ( ) T, y T, y ' ( x) by ' y' b y 1 65

Inhalt Klassfkatonsproblem Bayes sche Klassenentschedung MAP-Modell Logstsche Regresson Regularserte Emprsche Rskomnmerung Kernel Perzeptron, Support Vector Machne Rdge Regresson, LASSO Representer Theorem Duales Perzeptron, Duale SVM Mercer Map Lernen mt strukturerter En- und Ausgabe Taxonome, Sequenzen, Rankng, Dekoder, Schnttebenenalgorthmus 66

Regularzed Emprcal Rsk Mnmzaton MAP-Schätzer der Logstschen Regresson: n T, y ' ( x ), T y T 1 MAP arg mn log e ( x ) y ' Σ 1 2 n arg mn ( f ( x, ), y ) 1 mt f ( x, y ) T 1 Σ ( x ) T, y ( f ( x, ), y ) e f ( x, y ') y ' 1 2 f ( x, y ) 1 67

Regularzed Emprcal Rsk Mnmzaton Zweklassenfall: MAP n T y ( ( ) ) arg mn log 1 x e 1 mt f ( x ) ( x ) yf ( x) ( f( x), y) log(1 e ) n arg m n ( f ( x ), y ) 1 1 2 T T 1 Σ 1 2 T 1 Σ 68

Regularzed Emprcal Rsk Mnmzaton Verallgemenerung (Zweklassenfall): n arg mn f ( 1 ), y x Verlustfunkton f ( x ), y bemsst Verlust der entsteht, wenn be wrklcher Klasse y das Modell f ( x) ausgbt. Regularserer : Letet sch aus Pror p() her, drückt Hntergrundwssen über wahrschenlche Lösung aus (Bayes sche Motvaton) Sorgt für numersch stable Lösung (Tkhonov-Regularserer) Ermöglcht engere Fehlerschranken (PAC-Theore) 69

Lösen des Optmerungsproblems Zel: Mnmere de Funkton n L( ) f ( x ), y 1 für bestmmte Verlustfunkton und Regularserer. Analytsche Lösung exstert nur selten. Nummersche Lösungsansätze: Gradentenabsteg (z.b. Lne-Search, Newton- Verfahren). Cuttng-Plane-Verfahren. Innere-Punkt-Verfahren. 70

Lösen des Optmerungsproblems Zel: Mnmere de Funkton n x 1 L( ) f ( ), y für bestmmte Verlustfunkton und Regularserer. Gradentenverfahren: 0 L( ) L RegERM(Daten ( x, y ),, ( x, y )) Setze DO WHILE RETURN k 0 0 und k 0 k Berechne Gradent L( ) k Berechne Schrttwete 1 Setze k k k L( k ) Setze k k1 k k 1 1 1 n n 1 L( ) 1 L( ) 0 Startlösung 71

Gradentenverfahren: Lne Search Löse RegErm-Optmerungsproblem: RegERM-LneSearch(Daten ( x, y ),, ( x, y )) Setze DO WHILE RETURN k 0 0 und k 0 k Berechne Gradent L( ) k Wähle Schrttwete : Setze Setze arg mn L( L( )) k k k k k k1 k 1 1 1 k 1 k k L( k ) n n In der Praxs st es zu teuer optmale Schrttwete zu bestmmen. Notwendges Krterum: k k k L( L( )) L( ). 72

Stochastsche Gradentenverfahren Idee: Bestmme Gradenten für zufällge Telmenge der Bespele (z.b. en enzelnes Bespel). RegERM-Stoch(Daten ( x, y ),, ( x, y ) Setze DO WHILE RETURN k 0 0 und k 0 Msche Daten zufällg FOR =1,,n END k Berechne Telgradent k Berechne Schrttwete k 1 k k k Setze L( ) Setze k k1 k n 1 1 n x n x k L( ) 73

Stochastsche Gradentenverfahren In jedem Schrtt wrd nur en Summand des Optmerungskrterums verbessert. Das gesamte Optmerungskrterum kann sch durch enen Schrtt verschlechtern. Konvergert gegen Optmum, wenn für de Schrttwete glt: 1 1 2 und (Robbns & Monro, 1951) 74

Regularzed Emprcal Rsk Mnmzaton Verallgemenerung (Zweklassenfall): n arg mn f ( x ), y 1 Verlustfunkton f ( x ), y bemsst Verlust der entsteht, wenn be wrklcher Klasse y das Modell f ( x) ausgbt. Regularserer : Letet sch aus Pror p() her, drückt Hntergrundwssen über wahrschenlche Lösung aus (Bayes sche Motvaton) Sorgt für numersch stable Lösung (Tkhonov-Regularserer) Ermöglcht engere Fehlerschranken (PAC-Theore) 75

ERM: Verlustfunktonen für Klassfkaton Zero-one loss: 0/1 1 yf ( x) 0 ( f( x), y) 0 yf ( x) 0 Perceptron loss: sgn( f ( x )) y y f( x ) y f( x ) 0 ( f( x ), y ) max(0, y f( x )) 0 yf ( x) 0 p Hnge loss: 1 y f( x ) 1 y f( x ) 0 h( f( x ), y ) max(0,1 y f( x )) 0 1 yf ( x) 0 Logstc loss: yf ( ) log ( f ( x ), y) log(1 e x ) w sgn( f ( x )) y w Zero-one loss st ncht konvex schwer zu mnmeren! 1 l 1 0 1 yf ( x)

ERM: Verlustfunktonen für Regresson Absolute loss: ( f ( x ), y ) f ( x ) y a l 1 Squared loss: ( f ( x ), y ) f ( x ) y s 2 1 0 1 f w ( x ) y -Insenstve loss: f( x ) y f( x ) y 0 ( f( x ), y ) max(0, f( x) y ) 0 f( x) y 0

Emprcal Rsk Mnmzaton Verallgemenerung (Zweklassenfall): n arg mn f ( 1 ), y x Verlustfunkton f ( x ), y bemsst Verlust der entsteht, wenn be wrklcher Klasse y das Modell f ( x) ausgbt. Regularserer : Letet sch aus Pror p() her, drückt Hntergrundwssen über wahrschenlche Lösung aus (Bayes sche Motvaton) Sorgt für numersch stable Lösung (Tkhonov-Regularserer) Ermöglcht engere Fehlerschranken (PAC-Theore) 78

ERM: Regularserer Idee: Entschedung baserend auf so wengen Attrbuten we möglch treffen. Wenge Enträge m Parametervektor unglech Null: Gernge Manhatten-Norm: Idee: Gewchte für alle Attrbute sollen möglchst gerng sen. 0 Anzahl 0 0 j m 1 1 j1 j Gernge (quadratsche) eukldsche Norm: m 2 2 j j1 2 2 0 st ncht konvex schwer zu mnmeren!

ERM: Regularserer Sparsty: Parametervektor hat vele Nullenträge. Warum st das gut? Regularserung der Sparsty durch Schwer zu optmeren 1 0 0 beste Approxmaton (auch noch sparse) 2 2 2 0 1 2 1 1 1 0 1 2

ERM: Regularserer L1-Regularserung führt auch zu sparsen Lösungen (= Lösungen mt velen Nullenträgen n ). Optmerungsproblem st äquvalent zu mn 1 unter der Nebenbedngung: n f ( x ), 1 y d. n 1 f( x ), y c 1 mn R( ) 2 R d 1 R d 2 R d 3 De Menge R() dst konvex. d d d 1 2 3 1 1

ERM: Regularserer L2-Regularserung führt ncht zu sparsen Lösungen. Optmerungsproblem st äquvalent zu mn 2 unter der Nebenbedngung: n f ( x ), 1 y d. n 1 f( x ), y c 2 mn R( ) 2 R d 1 R d 2 R d 3 De Menge R( ) dst konvex. d d d 1 2 3 1 2

ERM: Regularserer L2-Regularserung führt ncht zu sparsen Lösungen. Optmerungsproblem st äquvalent zu mn 2 unter der Nebenbedngung: n f ( x ), 1 y d. n 1 f( x ), y c 2 mn R( ) 2 1 Sparse Lösung. 1

ERM: Regularserer L1-Regularserung führt auch zu sparsen Lösungen (= Lösungen mt velen Nullenträgen n ). Optmerungsproblem st äquvalent zu mn 1 unter der Nebenbedngung: n f ( x ), 1 y d. n 1 f( x ), y c 1 mn R( ) 2 1 Sparse Lösung. 1

ERM: Regularserer L1-Regularserung führt auch zu sparsen Lösungen (= Lösungen mt velen Nullenträgen n ). Optmerungsproblem st äquvalent zu mn 1 unter der Nebenbedngung: n f ( x ), 1 y d. n 1 f( x ), y c 1 mn R( ) 2 Regularserungsparameter: je größer c um so sparser st de Lösung. 1 Größeres c verschebt Schnttpunkt auf Bahn mt klenerem Umfang. 1 Lösungen für c

ERM: Perzeptron Verlustfunkton: Ken Regularserer Klassen y{-1,+1} Lneares Feature Mappng: (x)= x Stochastsches Gradentenverfahren: ( f ( x ), y ) p y f( x ) y f( x ) 0 0 yf ( x) 0 max(0, yf( x )) L x k ( ) yx y f( x ) 0 0 yf ( x) 0 1 l 1 0 1 yf ( x) Rosenblatt, 1960 86

ERM: Perzeptron-Algorthmus Perceptron(Instanzen (x, y )) Setze = 0 DO FOR =1,,n IF THEN END yf( x ) 0 x WHILE verändert RETURN y Stochastsches Gradentenverfahren mt 0 und Schrttwete 1 2 Termnert, obwohl 1 Daten lnear separerbar., wenn Rosenblatt, 1960 87

ERM: Support Vector Machne Verlustfunkton: 1 y f( x ) 1 y f( x ) 0 ( f( x ), y ) 0 1 yf ( x) 0 max(0,1 yf( x )) h l 1 Regularserer: m 1 T 1 2 2 2 j 1 j 2 1 0 1 yf ( x) Klassen y{-1,+1} 88

Support Vector Machne Verlustfunkton st 0, wenn n 1 max(0,1 yf( x )) 0 : yf( x ) 1 N 1 N T 1 : y x ) 1 T ) wenn y 1 N 2 2 1 : T 1 x y ) wenn 1 2 2 alle Tranngsbespele enen 1 Abstand von mndestens zur Trennebene haben 1 x + 1 ( x) 2 2 + + + + Abstand der Ebene vom Ursprung Hesse sche Normalform: Normalenvektor hat Länge 1 - - - - ( x) 1 89

Support Vector Machne Verlustfunkton st 0, wenn alle Tranngsbespele enen 1 Abstand von mndestens 2 zur Trennebene haben Regularserer 2 1 2 Ist null, wenn T 0 SVM wrd auch als Large-Margn-Klassfkator bezechnet, wel Optmerungskrterum von Ebene mnmert wrd, de möglchst großen Abstand von Bespelen hat. + 1 ( x) 2 2 + + + + - - - - ( x) 1 90

Support Vector Machne Verlustfunkton als Summe von Slack-Termen n max(0,1 yf( x )) 1 1 T max(0,1 yx ) ) N Slack-Term, Margn-Verletzung 91

Rdge Regresson Verlustfunkton: ( f ( x ), y ) f ( x ) y s Regularserer: T 2 2 Regularserte Regresson. Regularserer macht Regresson numersch stabler, führt n der Praxs zu besseren Lösungen als unregularserte klenste Quadrate. Äquvalent zur MAP-Lösung der Bayes schen Lneare Regresson. 92

LASSO Verlustfunkton: ( f ( x ), y ) f ( x ) y s Regularserer: 1 1 2 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 Normal(0,1) Laplace(0,1) 0-4 -3-2 -1 0 1 2 3 4 L1-regularserte Regresson. Normalvertelungspror p( [ 0, Σ wrd durch Laplace-Pror ersetzt. Führt zu sparsen Lösungen. 93

Duale Form lnearer Modelle Feature Mappng ( x) kann hochdmensonal sen Anzahl zu schätzender Parameter hängt von ab. Berechnung von ( x) teuer. 94

Duale Form lnearer Modelle Representer Theorem: Wenn g f streng monoton 2 * stegend st, hat das Argument, das n 1 2 x L ( ) f ( ), y g f * mnmert, de Form ( x ), mt. * n T f ( x) ( x) ( x) 1 n 1 Inneres Produkt st Maß für Ähnlchlchket zwschen Bespelen 95

Representer Theorem Prmale Scht: Hypothese hat so vele Parameter we Dmensonen hat. Gut für vele Bespele, wenge Attrbute. Duale Scht: f * *T ( x) x) n * T f * ( x) ( x) ( x) α 1 ( x) Hypothese hat so vele Parameter we Bespele exsteren. Gut für wenge Bespele, vele Dmensonen. Repräsentaton ( x) kann unendlch vele Dmensonen haben, solange nnere Produkt effzent berechnet werden kann: Kernelfunktonen. 96

Duales Perzeptron Perzeptron-Verlust, ken Regularserer Duale Form der Entschedungsfunkton: Duale Form der Updateregel: Wenn n T j 1 j j f ( x ) ( x α ) ( x ) yf α ( x ) 0, dann Äquvalent zur prmalen Form des Perzeptrons Vortelhafter als prmales Perzeptron, wenn wenge Bespele vorlegen und ( x ) vele Dmensonen hat. y 97

Duale Support Vector Machne Hnge Loss, L2-Regularserung Duale Form der Entschedungsfunkton: Duale Form des Optmerungsproblems f β T ( x) y( x) ( x) 1 x SV n 1 max ( ) ( ) β n T j yy j x x j 2, j1 unter den Nebenbedngungen: 0. Prmale und duale Optmerungsprobleme haben dentsche Lösung, aber prmale bzw. duale Form Vortelhafter als prmale SVM, wenn wenge Bespele vorlegen und ( x) vele Dmensonen hat. 98

Kernel ( x) Feature Mappng kann hochdmensonal sen Anzahl zu schätzender Parameter hängt von Berechnung von ( x) teuer. T Bsher: ( x ) gegeben, ( x) ( x' ) msst Ähnlchket zwschen Bespelen. ab. Vele Verfahren können umgeformt werden, so dass Bespele nur als nnere Produkte auftauchen. Idee: Ersetze nneres Produkt durch belebges T Ähnlchketsmaß k( x, x') ( x) ( x ') und mappe Bespele nur mplzt. Für welche Funktonen k exstert en Mappng ( x), so dass k nneres Produkt darstellt? 99

Kerne Theorem: Für jede postv defnte Funkton exstert ene Abbldung ( x), so dass T k( x, x') ( x) ( x') glt. k Abbldung ncht endeutg. Bespel 1( x) x und 2( x) x : es glt: ( x) T ( x') x T x' ( x) T ( x' ) ( x) T ( x ') 1 1 2 2 Gram-Matrx oder Kernel-Matrx K ( k( x, x )) j j Matrx der nneren Produkte = Ähnlchketen zwschen Bespelen, n x n -Matrx. 100

Mercer Map Feature Mappng kann für Tranngsdaten kann dann defnert werden als ( x1) ( x n ) : Kernelmatrx zwschen Tranngs- und Testdaten K UV 1/2 T X X test tran test 1/2 UV Xtest T Egenwerte bzw. -vektoren von K Umstellen ergbt Mappng der Testdaten 1/2 1 X UV K U U test X test V 1/2 U T K T 1 101

Kernel-Funktonen Polynomelle Kernels Radale Bassfunkton k x x x x (, ) ( T 1) p poly j j RBF ( x, x j ) e ( x Sgmode Kernels, Strng-Kernels (z.b. zum Klassfzeren von Gensequenzen). Graph-Kernels zum Lernen mt strukturerten Instanzen. k x j ) 2 Wetere Lteratur: B.Schölkopf, A.J.Smola: Learnng wth Kernels. 2002 102

Polynomelle Kernel Kernel: T k (, ) ( poly x x j x x j 1)k Welcher Transformaton entsprcht das? Bespel: 2-D Orgnalraum, t=2. 103

RBF-Kernel Kernel k 2 RBF ( x, x j ) exp ( x x j ) Welcher Transformaton entsprcht das? 104

Bnäre SVM Klassfkaton be mehr als zwe Klassen: y( x) sgn f ( x), En Parametervektor f ( x ) ( x ) T Optmerungsproblem: n 1 T mnξ, 2 1 unter den Nebenbedngungen: y f ( x) 1 und 0. Verallgemenerung für k Klassen? 105

Multklassen SVM Klassfkaton be mehr als zwe Klassen: y( x) arg max f ( x, y), Parametervektor für jede der möglchen k Klassen Optmerungsproblem: n k 1 T mnξ, 2 1 y 1 unter den Nebenbedngungen: y y : f ( x, y ) f ( x, y) 1 und 1,..., 0. k T f ( x, y) ( x) T y [J.Weston, C.Watkns, 1999] 106

Multklassen SVM Klassfkaton be mehr als zwe Klassen: y( x) arg max f ( x, y), Parametervektor für jede der möglchen k Klassen Optmerungsproblem: n 1 T mnξ, 2 1 unter den Nebenbedngungen: y und 0. y y : f ( x, y ) f ( x, y) 1 1,..., k T f y y T ( x, ) x, ) 107

kodert z.b. en Dokument kodert Klasse Multklassen SVM Bespel 108 1 2 3 4 5 6, y y y y y y y x x x x x x x 1 x 0 0 0 0 0 y 2 x 2 3 4 5 6

kodert z.b. en Dokument st en Pfad z.b. n enem Themenbaum Klassfkaton mt Taxonomen Bespel 109 2 2 2 2 1 1 1 1 3 2 3 1 3 3 3 3 3 2, y v y v y v y v y v y v x x x x y x x x 1 v 1 2 v 1 2 v 2 3 v 1 3 v 2 3 v 3 0 0 0 x x x 1 2 3 1 2 3,, T v v v y x

Strukturerte En-/Ausgaben Ausgaberaum Y benhaltet komplexe Objekte Darstellung als Kombnaton von bnären Vorhersageproblemen? Bespele: Wortart- und Egennamenerkennung Natural Language Parsng Sequence Algnment 110

Lernen mt strukturerten Ausgaben Bespel: POS-Taggng (Wortarterkennung) Satz x= Curosty klls the cat Gewünscht: argmax y T ( x, y ) = <N,V,Det,N> Explzt: T (x,<n,v,det,n>) T (x,<n,n,n,n>) T (x,<n,v,det,n>) T (x,<n,n,n,v>) ZU VIELE!!! T (x,<n,v,det,n>) T (x,<n,n,v,n>) T (x,<n,v,det,n>) T (x,<n,v,n,n>) 111

Strukturerte En-/Ausgaben Ausgaberaum Y benhaltet komplexe Objekte. Mehrstufenverfahren propageren Fehler Exponentelle Anzahl von Klassen, aber wenger zu schätzende Parameter; effzente Vorhersage; effzenter Lernalgorthmus. Feature-Mappng: reduzert de Anzahl der Parameter für jede Klasse Schnttebenenalgorthmus Problemspezfsche Koderung 112

Hypothesenbewertung Problem der Rskoschätzung für gelernte Hypothesen Rsko ener Hypothese: erwarteter Verlust auf Testbespelen R( f ) E[ ( y, f ( x))] ( y, f ( x)) p( x, y) dxdy (, x y) ~ p( x, y) Testbespel Rsko lässt sch aus Daten schätzen 1 m m Rˆ( f ) ( y, f ( x )) "Rskoschätzer, emprsches Rsko" 1 1 j1 j j T ( x, y ),...,( x, y ) ( x, y ) ~ p( x, y) m m 114

Der Rskoschätzer als Zufallsvarable Wert Rˆ ( f) Rskoschätzer st Zufallsvarable Charaktersert durch Bas und Varanz: systematscher Fehler und zufällge Streuung R Bas domnert R Varanz domnert Fehler des Schätzers lässt sch zerlegen n Bas und Varanz ˆ 2 ˆ 2 ˆ 2 [( ( ) ) ] [ ( ) 2 ( ) ] E R f R E R f RR f R ˆ ˆ 2 2 E[ R( f ) ] 2 RE[ R( f )] R E[ Rˆ( f )] 2 RE[ Rˆ( f )] R E[ Rˆ( f ) ] E[ Rˆ( f )] ˆ 2 2 2 2 2 ( E[ R( f )] R) Var[ R( f )] Bas Rˆ f 2 [ ( )] Var[ R( f ) ˆ ˆ ] 115

Rskoschätzung auf Tranngsdaten? Rskoschätzung kann ncht auf Tranngsdaten erfolgen: optmstscher Bas E[ Rˆ ( f )] R( f ) L Problem st de Abhänggket von gewählter Hypothese und zur Fehlerschätzung verwendeten Daten Ansatz: Testdaten verwenden, de von den Tranngsdaten unabhängg snd. 116

Holdout-Testng Gegeben Daten Tele Daten auf n Tranngsdaten L ( x1, y1),...,( xm, ym) und Testdaten Starte Lernalgorthmus mt Daten L, gewnne so Hypothese. Rˆ ( f ) Ermttle emprsches Rsko auf Daten T. T Starte Lernalgorthmus auf Daten D, gewnne so Hypothese. f D Ausgabe: Hypothese, benutze RT fl als Schätzer für das Rsko von f D D ( x, y ),...,( x, y ) 1 1 T ( x, y ),...,( x, y ) m1 m1 d d d L d ˆ ( ) f L f D L T 117

Cross-Valdaton Gegeben: Daten Tele D n n glech große Blöcke Wederhole für =1..n Tranere f mt L =D \ D. Bestmme emprsches Rsko auf D. D Fehlerschätzung ( x, y1),...,( x R, y 1 d d n n 1 1 ˆ ) D,..., 1 Dn R Rˆ D ( f ) ( D f ) D1 D2 D3 D4 Tranng examples 118

Bas und Varanz n Holdout-Testng und Cross-Valdaton Bas und Varanz der Fehlerschätzung aus Holdout-Testng und Cross-Valdaton? Fehlerschätzungen aus Holdout-Testng und Cross-Valdaton jewels lecht pessmstsch Aber m Gegensatz zum Tranngsfehler n der Praxs brauchbar Cross-Valdaton hat gerngere Varanz als Holdout-Testng, wel wr über mehrere Holdout-Expermente mtteln 119