Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen

Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen Chrstoph Sawade/Nels Landwehr/Paul Prasse Slva Makowsk Tobas Scheffer

Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Bayessche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer, Maschnelles Lernen 2

Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Bayessche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer, Maschnelles Lernen 3

Statstk & Maschnelles Lernen Maschnelles Lernen: eng verwandt mt (nduktver) Statstk Zwe Gebete n der Statstk: Deskrptve Statstk: Beschrebung, Untersuchung von Egenschaften von Daten. Mttelwerte Induktve Statstk: Welche Schlussfolgerungen über de Realtät lassen sch aus Daten zehen? Erklärungen für Beobachtungen Varanzen Modellbldung Unterschede zwschen Populatonen Zusammenhänge, Muster n Daten 4 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Thomas Bayes 1702-1761 An essay towards solvng a problem n the doctrne of chances, 1764 veröffentlcht. Arbeten von Bayes grundlegend für nduktve Statstk. Bayessche Wahrschenlchketen wchtge Schtwese auf Unscherhet & Wahrschenlchket Sawade/Landwehr/Scheffer, Maschnelles Lernen 5

Frequentstsche / Bayessche Wahrschenlchket Frequentstsche Wahrschenlchketen Beschreben de Möglchket des Entretens ntrnssch stochastscher Eregnsse (z.b. Münzwurf). Defnton über relatve Häufgketen möglcher Ergebnsse enes wederholbaren Versuches Wenn man ene fare Münze 1000 Mal wrft, wrd etwa 500 Mal Kopf fallen In 1 Gramm Potassum-40 zerfallen pro Sekunde ca. 260.000 Atomkerne Sawade/Landwehr/Scheffer, Maschnelles Lernen 6

Frequentstsche / Bayessche Wahrschenlchket Bayessche, subjektve Wahrschenlchketen Grund der Unscherhet en Mangel an Informatonen We wahrschenlch st es, dass der Verdächtge X das Opfer umgebracht hat? Neue Informatonen (z.b. Fngerabdrücke) können dese subjektven Wahrschenlchketen verändern. Bayessche Schtwese m maschnellen Lernen wchtger Frequentstsche Schtwese auch manchmal verwendet, mathematsch äquvalent Sawade/Landwehr/Scheffer, Maschnelles Lernen 7

Bayessche Wahrschenlchketen m Maschnellen Lernen Modellbldung: Erklärungen für Beobachtungen fnden Was st das wahrschenlchste Modell? Abwägen zwschen Vorwssen (Pror über Modelle) Evdenz (Daten, Beobachtungen) Bayessche Schtwese: Evdenz (Daten) verändert subjektve Wahrschenlchketen für Modelle (Erklärungen) A-posteror Modellwahrschenlchket, MAP Hypothese Sawade/Landwehr/Scheffer, Maschnelles Lernen 8

Wahrschenlchketstheore, Zufallsvarablen Zufallsexperment: defnerter Prozess, n dem en Elementareregns ω erzeugt wrd. Eregnsraum Ω: Menge aller Elementareregnsse. Eregns A: Telmenge des Eregnsraums. Wahrschenlchketsfunkton p: Funkton, de Eregnssen A Ω Wahrschenlchketen zuwest. Sawade/Landwehr/Scheffer, Maschnelles Lernen 9

Wahrschenlchketstheore Gültge Wahrschenlchketsfunkton p (Kolmogorow-Axome) Wahrschenlchket von Eregns A Ω : Scheres Eregns: p( Ω ) = 1, und 0 pa ( ) 1 Für de Wahrschenlchket zweer nkompatbler Eregnsse A Ω, B Ω (d.h. A B= ) glt: pa ( B) = pa ( ) + pb ( ) p( ) = 0 Sawade/Landwehr/Scheffer, Maschnelles Lernen 10

Wahrschenlchketstheore: Bespel Würfeln Eregnsraum Ω={1, 2,3, 4,5,6} Elementareregnsse haben Wsk Eregns gerade Zahl: A = {2, 4,6} Wahrschenlchket des Eregnsses: p({ ω }) = 1/ 6 pa= ( ) 1/2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 11

Wahrschenlchketstheore, Zufallsvarablen Zufallsvarable X: Abbldung von Elementareregnssen auf numersche Werte Wahrschenlchket dafür, dass Eregns X=x entrtt (Zufallsvarable X wrd mt Wert x belegt). X : Ω ω x px ( = x) = p({ ω Ω X( ω) = x}) Zusammenfassen n Wahrschenlchketsvertelung, der Varable X unterlegt px ( ) Experment wesst Zufallsvarable X den Wert x= X( ω) zu Vertelung gbt an, we Wahrschenlchketen über Werte x vertelt snd X~ px ( ) X st vertelt nach p(x) 12 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Zufallsvarable: Bespel Würfeln mt 2 Würfeln Eregnsraum Ω= {(, ) {1, 2,3, 4,5,6}} ω1 ω2 ω Elementareregnsse haben Wsk Zufallsvarable: Summe der bede Augenzahlen X (( ω, ω )) = ω + ω 1 2 1 2 Wahrschenlchket für Wert der ZV: px= ( 5) =? p({( ω1, ω 2)}) = 1/ 36 Sawade/Landwehr/Scheffer, Maschnelles Lernen 13

Zufallsvarable: Bespel Würfeln mt 2 Würfeln Eregnsraum Ω= {(, ) {1, 2,3, 4,5,6}} ω1 ω2 ω Elementareregnsse haben Wsk Zufallsvarable: Summe der bede Würfel X (( ω, ω )) = ω + ω 1 2 1 2 Wahrschenlchket für Wert der ZV: px ( = 5) = p({(1, 4),(2,3),(3, 2),(4,1)}) = 4 / 36 p({( ω1, ω 2)}) = 1/ 36 Sawade/Landwehr/Scheffer, Maschnelles Lernen 14

Dskrete/kontnuerlche Zufallsvarablen Dskrete Zufallsvarablen: D=X(Ω) dskret Kontnuerlche Zufallsvarablen: D=X(Ω) kontnuerlch Für dskrete Zufallsvarablen glt: x D px ( = x) = 1 D dskreter Werteberech Bespel: N Münzwürfe Zufallsvarablen X1,..., XN {0,1} Münzparameter μ gbt Wahrschenlchket für Kopf an px ( = 1) = µ px ( = 0) = 1 µ Wahrschenlchket für Kopf Wahrschenlchket für Zahl Sawade/Landwehr/Scheffer, Maschnelles Lernen X ~ Bern( X µ ) = µ (1 µ ) X X 1 Bernoull-Vertelung 15

Dskrete Zufallsvarablen Bespel: Anzahl Köpfe be N Münzwürfen ZV Anzahl Köpfe : Bnomal-Vertelung X ~ Bn( X N, µ ) Bn( X N, µ ) =? N X = X, X {0,..., N} = 1 Sawade/Landwehr/Scheffer, Maschnelles Lernen 16

Dskrete Zufallsvarablen Bespel: Anzahl Köpfe be N Münzwürfen ZV Anzahl Köpfe : Bnomal-Vertelung X ~ Bn( X N, µ ) N Bn( X N, µ ) = µ (1 µ ) X X N X N X = X, X {0,..., N} = 1 N = 10, µ = 0.5 17 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Kontnuerlche Zufallsvarablen Kontnuerlche Zufallsvarablen Unendlch (überabzählbar) vele Werte möglch Typscherwese Wahrschenlchket px ( = x) = 0 Statt Wahrschenlchketen für enzelne Werte: Dchtefunkton f X : Dchte der ZV X x : f X ( x) 0, ( x) = 1 f X Wahrschenlchket, dass ZV X Wert zwschen a und b annmmt b p( X [ a, b]) f ( x) dx, = a X f ( x ) > 1 möglch X 18 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Kontnuerlche Zufallsvarablen Bespel: Körpergröße X X annähernd Gaußvertelt ( Normalvertelt ) X x µσ 2 ~ (, ) Dchte der Normalvertelung Sawade/Landwehr/Scheffer, Maschnelles Lernen z.b. µ = 170, σ = 10 19

Kontnuerlche Zufallsvarablen Bespel: Körpergröße We groß st de Wahrschenlchket, dass en Mensch genau 180cm groß st? px= ( 180) = 0 We groß st de Wahrschenlchket, dass en Mensch zwschen 180cm und 181cm groß st? 181 2 ( [180,181]) = ( 170,10 ) 180 p X x dx Sawade/Landwehr/Scheffer, Maschnelles Lernen 20

Kontnuerlche Zufallsvarablen Vertelungsfunkton x F( x) p( X x) f ( z) dz, = = px ( [ ab, ]) = Fb ( ) Fa ( ) Dchte st Abletung der Vertelungsfunkton df( x) f X ( x) = dx Veranschaulchung Dchte: f ( x) = lmε X 0 X px ( [ x ε, x+ ε]) 2ε Sawade/Landwehr/Scheffer, Maschnelles Lernen 21

Notaton Notaton: wenn der Zusammenhang klar st, schreben wr auch manchmal px ( ) statt px ( = x) (dskrete Wahrschenlchket) px ( ) statt f ( x) (kontnuerlche Dchte) X Sawade/Landwehr/Scheffer, Maschnelles Lernen 22

Konjunkton von Eregnssen Wahrschenlchket für Entreten mehrerer Eregnsse: p( X= xy, = y) gemensame Wahrschenlchket f, ( xy, ) gemensame Dchte XY Gemensame Vertelung (dskret/kontnuerlch) pxy (, ) Sawade/Landwehr/Scheffer, Maschnelles Lernen 23

Bedngte Wahrschenlchketen We beenflusst zusätzlche Informaton de Wahrschenlchketsvertelung? Bedngte Wahrschenlchket enes Eregnsses: Bedngte Dchte: Bedngte Vertelung (dskret/kontnuerlch): px ( zusätzlche Informaton) px ( = xy = y) = f XY px ( Y) = ( x y) = pxy (, ) py ( ) p( X= xy, = y) py ( = y) f XY, f Y ( xy, ) ( y) dskret kontnuerlch 24 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Bedngte Wahrschenlchketen Produktregel pxy (, ) = px ( Y) py ( ) dskret/kontnuerlch Summenregel px ( = x) = px ( = xy, = y) y D f X( x) = f XY, ( x, y) dy dskret kontnuerlch px ( = x) hesst auch "Randwahrschenlchket" Sawade/Landwehr/Scheffer, Maschnelles Lernen 25

Gemensame und bedngte Wahrschenlchketen Zufällgen Punkt auf Fläche auswählen Bedngte Wahrschenlchket = py ( = y, X= x) j px ( = x) Gemensame Wahrschenlchket Randwahrschenlchket 26 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Wchtge Rechenregeln für Wahrschenlchketen Zufällgen Punkt auf Fläche auswählen Produktregel py ( = y, X = x ) = py ( = y X = x ) p( X = x ) j j Summenregel p( X = x ) = px ( = xy, = y ) c 1 px ( = x ) = = n N N nj nj c py ( = yj, X= x ) = = = py ( = yj X = x ) p( X = x ) N c N j j j = px ( = xy, = y) j j 27 j Sawade/Landwehr/Scheffer, Maschnelles Lernen

Unabhänggket Zwe Zufallsvarablen snd unabhängg, wenn: Äquvalent dazu pxy (, ) = px ( ) py ( ) p( X Y) = p( X) und py ( X) = py ( ) Bespel: wr würfeln zwemal mt farem Würfel, bekommen Augenzahlen x1, x2 ZV X snd unabhängg 1, X2 X = X + + 1 X X = X 2 1 X2 ZV und snd abhängg Sawade/Landwehr/Scheffer, Maschnelles Lernen 28

Erwartungswert Erwartungswert ener Zufallsvarable: E( X ) = xp( X = x) E( X ) = xp( x) dx x Veranschaulchung: gewchtetes Mttel, Schwerpunkt enes Stabes mt Dchte p(x) Rechenregeln Erwartungswert E( ax + b) = ae( X ) + b EX ( + Y) = EX ( ) + EY ( ) X dskrete ZV X kontnuerlche ZV mt Dchte p(x) 29 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Erwartungswert Erwartungswert addtv Summenregel E( X+ Y) = ( x+ y) p( X= xy, = y) xy, = xp( X = x, Y = y) + yp( X = x, Y = y) xy, xy, = x p( X= xy, = y) + y p( X= xy, = y) x y y x = xp( X = x) + yp( Y = y) x = E( X) + EY ( ) y Sawade/Landwehr/Scheffer, Maschnelles Lernen 30

Varanz, Standardabwechung Varanz: Erwartete quadrerte Abwechung von X von E(X) Mass für de Stärke der Streuung Var X E X E X x E X p X x 2 2 ( ) = (( ( )) ) = ( ( )) ( = ) x Standardabwechung Verschebungssatz 2 2 Var( X ) = E(( X E( X )) ) = ( x E( X )) p( x) dx σ = X Var(X ) VarX ( ) = EX ( ) EX ( ) 2 2 31 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Varanz, Standardabwechung Verschebungssatz Var X E X E X 2 ( ) = (( ( )) ) = EX EXX+ EX 2 2 ( 2 ( ) ( ) ) = EX ( ) 2 EXEX ( ) ( ) + EX ( ) 2 2 = EX ( ) EX ( ) 2 2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 32

Rechenregeln Varanz Rechenregeln Varanz/Standardabwechung Var ax b a Var X 2 ( + ) = ( ), Var( X + Y ) = Var( X ) + Var( Y ) + 2 Cov( X, Y ) Covaranz msst gemensame Schwankung der Varablen Falls Varablen unabhängg: Cov( X, Y ) = 0, σ aσ ax + b = X CovXY (, ) = E(( X EX ( ))( Y EY ( ))) = EXY ( ) EXEY ( ) ( ) Var( X + Y ) = Var( X ) + Var( Y ) Sawade/Landwehr/Scheffer, Maschnelles Lernen 33

Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) EX ( ) =? Sawade/Landwehr/Scheffer, Maschnelles Lernen 34

Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) E( X ) = xp( X = x) x {0,1} = 1µ + 0(1 µ ) = µ Sawade/Landwehr/Scheffer, Maschnelles Lernen 35

Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) E( X ) = xp( X = x) x {0,1} = 1µ + 0(1 µ ) = µ Erwartungswert Bnomalvertelung X ~ Bn( X N, µ ) N E( X ) = xp( X = x) x= 0 N N = x µ (1 µ ) x= 0 x =? X x N x N = X = 1 36 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) E( X ) = xp( X = x) x {0,1} = 1µ + 0(1 µ ) = µ Erwartungswert Bnomalvertelung X ~ Bn( X N, µ ) N E( X ) = xp( X = x) x= 0 N N = x µ (1 µ ) x= 0 x = Nµ X x N x N = X = 1 Summe der Erwartungswerte der Bernoull-Varablen 37 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Erwartungswert, Varanz Bnomalvertelung Varanz Bernoullvertelung? X ~ Bern( X µ ) Var( X ) =? Sawade/Landwehr/Scheffer, Maschnelles Lernen 38

Erwartungswert, Varanz Bnomalvertelung Varanz Bernoullvertelung? X ~ Bern( X µ ) Var( X ) =? Verschebungssatz: VarX ( ) = EX ( ) E( X ) 2 2 = = (1 2 µ µ µ µ ) ( ) Var X µ 39 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Erwartungswert, Varanz Bnomalvertelung Varanz Bnomalvertelung X X ~ Bn( X N, µ ) Var( X ) =? N = X = 1 X 1 X X ~ Bern( X µ ) = µ (1 µ ) Var( X ) = µ (1 µ ) Var( X ) = Nµ (1 µ ) X unabhängg Sawade/Landwehr/Scheffer, Maschnelles Lernen 40

Erwartungswert, Varanz Normalvertelung z = x µ Erwartungswert Normalvertelung X x µσ 2 ~ (, ) 2 E( X ) = x ( x µσ, ) dx 1 1 2 x exp ( x µ ) dx 2 1/2 2 (2 πσ ) 2σ = 1 1 = ( + ) exp (2 πσ ) 2σ 2 z µ z dz 2 1/2 2 2 2 exp 2 1/2 2 exp 2 1/2 2 1 1 1 1 = µ z dz + z z dz = µ (2 πσ ) 2 σ (2 πσ ) 2σ 41 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Erwartungswert, Varanz Normalvertelung z = x µ Erwartungswert Normalvertelung X x µσ 2 ~ (, ) 2 E( X ) = x ( x µσ, ) dx 1 1 2 x exp ( x µ ) dx 2 1/2 2 (2 πσ ) 2σ = 1 1 2 = ( z + µ ) exp z dz 2 1/2 2 (2 πσ ) 2σ 1 1 2 1 1 2 = µ exp exp 2 1/2 z dz z z dz µ 2 + 2 1/2 2 (2 πσ ) 2 σ = (2 πσ ) 2σ = 1 = 0 42 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Erwartungswert, Varanz Normalvertelung Varanz Normalvertelung Man kann zegen dass 2 2 X ~ ( x µσ, ) Var( X ) = σ Sawade/Landwehr/Scheffer, Maschnelles Lernen 43

Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Sawade/Landwehr/Scheffer, Maschnelles Lernen 44

Ernnerung: Problemstellung Lernen Engabe Lernproblem: Tranngsdaten. L = x ( x, y1),...,( x y, y 1 N N k Merkmalsvektoren ) Ausgabe: Klassfkator (auch als Modell bezechnet). f : X Labels Y Lnearer Klassfkator mt Parametervektor w. f w spam ok spam ( x) wx+ = ok: sonst T m wx= = 1 T spam : wenn b 0 wx 45 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Modellvorstellung Bayes sches Lernen Vele Verfahren des maschnellen Lernens baseren auf probablstschen Überlegungen Modellvorstellung bem Lernen: Jemand hat echtes Modell f * nach A-Pror Vertelung ( Pror ) p(f) gezogen f * st ncht bekannt, aber p(f) reflektert Vorwssen (was snd wahrschenlche Modelle?) Tranngsengaben x werden gezogen. * Klassenlabels y werden nach py ( x, f) gezogen. * Intuton: y = f ( x) * Um bespelswese Datenrauschen abzublden, y ~ py ( x, f) Fragestellung Lernen: Gegeben L und p(f), was st wahrschenlchstes echte Modell? Versuche, f * (ungefähr) zu rekonstrueren 46 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Bayessche Regel Wchtgstes Werkzeug m Bayes schen Lernen: Bayes sche Regel py ( X) p( X) px ( Y) = py ( ) Bewes enfach: Defnton bedngte Vertelung pxy (, ) py ( X) px ( ) px ( Y) = = py ( ) py ( ) Produktregel Wchtge Grundenscht für das maschnelle Lernen: Erlaubt den Rückschluss auf Modellwahrschenlchketen gegeben Wahrschenlchketen von Beobachtungen Sawade/Landwehr/Scheffer, Maschnelles Lernen

Bayessche Regel Anwendung Bayes sche Regel: Modellwahrschenlchket gegeben Daten und Vorwssen p( Modell Daten) = Interresanter Term: we st de Wahrschenlchket für Modelle, gegeben Evdenz der Tranngsdaten? p( Daten Modell) p( Modell) p( Daten) Erlaubt de Berechnung des maxmum a-posteror (MAP) Modells Modell MAP Relatv enfach anzugeben: we hoch st de Wahrschenlchket, bestmmte Daten zu sehen, unter der Annahme dass Modell das korrekte Modell st? = arg m ax p( Modell Daten) Modell Wahrschenlchket der Daten, unabhängg von Modell A-pror Vertelung über Modelle: Vorwssen Sawade/Landwehr/Scheffer, Maschnelles Lernen

Bayessche Regel Wahrschenlchket der Daten unnteressant, wel unabhängg von Modell p( Daten Modell) p( Modell) p( Modell Daten) = p( Daten) 1 = p( Daten Modell) p( Modell) Z p( Daten Modell) p( Modell) Notaton Prop-To : glech bs auf multplkatve Konstante Lkelhood: we gut erklärt Modell de Daten? Pror: we wahrschenlch st Modell a pror? Sawade/Landwehr/Scheffer, Maschnelles Lernen

Maxmum-A-Posteror-Hypothese Wahrschenlchstes Modell gegeben de Daten f = arg max p( f L) MAP f w p( Lf w) p( fw) = arg max fw pl ( ) = arg max p( Lf ) p( f ) f w Für ncht-negatve reellwertge Funktonen glt: arg max z G ( z) arg max log G ( z) = z Wel Logarthmus monoton: w w w Anwendung Bayes sche Regel Sawade/Landwehr/Scheffer, Maschnelles Lernen 50

Maxmum-A-Posteror-Hypothese Wahrschenlchstes Modell gegeben de Daten f = arg max p( Lf ) p( f ) MAP f = arg max log( p( Lf ) p( f )) f = arg mn log P( Lf ) log p( f ) f w w w Log-Pror Log-Lkelhood Optmerungskrterum bestehend aus log-lkelhood und log-pror Ernnerung: Lernen als Optmerungsproblem, Summe aus Verlustfunkton und Regularserer w w w w w w Sawade/Landwehr/Scheffer, Maschnelles Lernen 51

Log-Lkelhood We wahrschenlch snd de Daten gegeben das Modell? log pl ( fw) = log py ( 1,..., yn, x1,..., xn fw) = log( py ( 1,..., yn x1,..., xn, fw ) p( x1,..., xn)) = log py ( 1,..., yn x1,..., xn, fw ) log p( x1,..., xn) log py (,..., y x,..., x f ) + const Produktregel Annahme: Datenpunkte unabhängg Bespel: Label ener Emal hängt nur von Merkmalsvektor und Modell ab, ncht von anderen Merkmalsvektoren oder Labels Ensetzen ergbt =, 1 N 1 N w py (,..., y x,..., x, f ) = py ( x, fw ) 1 N 1 N w = 1 log p( L f ) = log p( y x, f ) + const w N = 1 N = 1 = log p( y x, f ) + const w w N Konstanter Faktor, unabhängg von f 52 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Log-Lkelhood Was st py ( f w, x )? Defnton mt Verlustfunkton, bespelswese Je höher der Verlust (Dfferenz zwschen Vorhersage und beobachtetem Label), desto gernger de Wahrschenlchket deser Beobachtung 1 py ( fw, x) = exp ( fw ( ), y) Z log p( y f, x ) = ( f ( x ), y ) + const Ensetzen ergbt ( f( x ), y 0: f ( x ) = c: f( x w w log p( L f ) = ( f ( ), y ) + const x w w Negatve Log-Lkelhood entsprcht Verlustterm! ) = y ) y Normalserer ( x ) Annahme: spezelle Exponentalvertelung 53 Sawade/Landwehr/Scheffer, Maschnelles Lernen

A-Pror-Wahrschenlchket (Pror) Was st a-pror Vertelung p( f w )? Ernnerung an Dskusson der Regularserer: Vorwssen: Modelle mt weng Attrbuten snd wahrschenlcher 2 Vorwssen: w eher klen Multvarate Normalvertelung p( f ) = ( w 0, σ w = 1 2πσ Negatver Log-Pror: 1 2 log p( fw ) = w + const 2 1 2 2 e σ 2 I) Negatver Log-Pror = Regularserer! w σ 2 2 Konstante Terme, unabhängg von f Größte Dchte be w=0 54 Sawade/Landwehr/Scheffer, Maschnelles Lernen

A-Posteror-Wahrschenlchket (Posteror) Wahrschenlchstes Modell gegeben Vorwssen und Daten. f = arg max p( f L) MAP f w = arg mn log p( Lf ) log p( f ) f w = arg mn f l( f ( x ), y) + λ w w w 1 λ = 2 ArgMn über regularserte Verlustfunkton! Rechtfertgung für Optmerungskrterum? w Wahrschenlchste Hypothese (MAP-Hypothese). w w 2 σ 2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 55

Lernen und Vorhersage Bsher haben wr mt Hlfe der Bayes schen Regel das wahrschenlchste Modell gegeben de Daten bestmmt: Löst Lernproblemstellung: Gegeben: Daten L, Vorwssen p(f) Gesucht: Modell f : Vorhersagen werden mt Hlfe des gelernten Modells getroffen: Zwestufger Prozess: f arg max p( f L) MAP = f w y = f MAP ( x) x neue Testnstanz Erst Modell Lernen Dann Vorhersage mt gelerntem Modell w 56 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Lernen und Vorhersage Wenn wr uns auf en Modell festlegen müssen, st MAP Modell snnvoll Aber egentlches Zel st Vorhersage ener Klasse! Besser, sch ncht auf en Modell festzulegen, solange noch Unscherhet über bestes Modell besteht Stattdessen Bayessche Vorhersage: drekt optmale Vorhersage ausrechnen, ohne sch auf Modell festzulegen Sawade/Landwehr/Scheffer, Maschnelles Lernen 57

Lernen und Vorhersage: Bespel Modellraum mt 4 Modellen: H = { f1, f2, f3, f4} Bnäres Klassfkatonsproblem, = {0,1} Tranngdaten L Wr haben a-posteror-wahrschenlchketen berechnet p( f1 L ) = 0.3 p( f L ) = 0.25 2 MAP Modell st f1 = arg max f pfl ( ) p( f3 L ) = 0.25 p( f4 L ) = 0.2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 58

Lernen und Vorhersage: Bespel Modelle probablstsche Klassfkatoren: f Modell lefert Wahrschenlchket für postve Klasse py ( = 1 x, f ) [0,1] ("80% Scherhet für Klasse Spam") Vorhersage: f 1: py ( = 1 x, f ) > 0. 5 ( x) = 0: sonst Sawade/Landwehr/Scheffer, Maschnelles Lernen 59

Lernen und Vorhersage: Bespel Bespel für probablstschen Klassfkator: Logstsche Regresson Lneares Modell: Entschedungsfunktonswert T py ( = 1 xw, ) = σ ( wx) p(y=1) T wx w Parametervektor 1 σ ( z) = 1 + exp( z ) logstsche Regresson Sawade/Landwehr/Scheffer, Maschnelles Lernen Entschedungsfunktonswert wx 60

Lernen und Vorhersage: Bespel Wr wollen neues Testbespel klassfzeren py ( = 1 x, f) = 0.6 py ( = 1, ) = 0.1 1 3 x f2 py x f4 Klassfkaton mt MAP Modell : Idee: ncht auf Modell festlegen, solange noch Unscherhet über Modelle besteht Alternatver Ansatz: Bestmme drekt de Wahrschenlchket für de optmale Vorhersage, gegeben de beobachteten Daten py ( = 1 x, L) =? x f 1 py ( = 1 x, f) = 0.2 ( = 1, ) = 0.3 y =1 Beobachtungen: Tranngsdaten L, Merkmalsvektor der Testnstanz x 61 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Lernen und Vorhersage: Bespel Ausrechnen: 4 py ( = 1 x, L) = py ( = 1, f x, L) = 1 4 = 1 4 = py ( = 1 x, f) pf ( L) = 1 Vorhersage y=0, unglech MAP-Modell! = py ( = 1 f, x, Lpf ) ( x, L) Summenregel Produktregel = 0.6*0.3+ 0.1*0.25 + 0.2*0.25 + 0.3*0.2 = 0.315 Sawade/Landwehr/Scheffer, Maschnelles Lernen 62

Lernen und Vorhersage: Bespel Wenn Zel Vorhersage st, sollten wr verwenden py ( = 1 x, L) Ncht auf en Modell festlegen, solange noch Unscherhet über Modelle besteht Grunddee der Bayesschen Vorhersage Sawade/Landwehr/Scheffer, Maschnelles Lernen 63

Bayessches Lernen und Vorhersage Problemstellung Bayes sche Vorhersage Gegeben: Tranngsdaten L, neue Testnstanz x. Gesucht: Vertelung über Labels y für gegebenes x: Bayessche Vorhersage: y* = arg max y py ( x, L) Mnmert Rsko ener falschen Vorhersage. py ( x, L) Heßt auch Bayes-optmale Entschedung oder Bayes-Hypothese. Sawade/Landwehr/Scheffer, Maschnelles Lernen 64

Bayessches Lernen und Vorhersage Berechnung Bayessche Vorhersage Summenregel Produktregel y* = arg max y py ( x, L) = arg max py (, θ x, Ld ) θ = arg max py ( θ, x) p( θ Ld ) θ Bayesan Model Averagng Bayes sche Vorhersage: y y Vorhersage, gegeben Modell Mtteln der Vorhersage über alle Modelle. Modell Modell gegeben Tranngsdaten Gewchtung: we gut passt Modell zu Tranngsdaten. θ 65 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Bayessches Lernen und Vorhersage Bayessche Vorhersage praktkabel? y* = arg max y py ( x, L) = arg max py ( x, θ) p( θ Ld ) θ y Bayesan Model Averagng: Mtteln über.a. unendlch vele Modelle We berechnen? Nur manchmal praktkabel, geschlossene Lösung. Kontrast zu Entschedungsbaumlernen: Fnde en Modell, das gut zu den Daten passt. Trff Vorhersagen für neue Instanzen baserend auf desem Modell. Trennt zwschen Lernen enes Modells und Vorhersage. Sawade/Landwehr/Scheffer, Maschnelles Lernen 66

Bayessches Lernen und Vorhersage We Bayes-Hypothese ausrechnen? y* = arg max y py ( x, L) = arg max py ( x, θ) p( θ Ld ) θ Wr brauchen: y 1) Wsk für Klassenlabel gegeben Modell, py ( x, θ ) z.b. lnearer probablstscher Klassfkator (logstsche Regresson) T py ( = 1 x, θ) = σ( wx) T py ( = 0 x, θ) = σ( wx) Sawade/Landwehr/Scheffer, Maschnelles Lernen

Bayessches Lernen und Vorhersage We Bayes-Hypothese ausrechnen? y* = arg max y py ( x, L) = arg max py ( x, θ) p( θ Ld ) θ Wr brauchen: y 2) Wsk für Modell gegeben Daten, a-posteror- Wahrschenlchket p( θ L) Ausrechnen mt Bayes Regel Sawade/Landwehr/Scheffer, Maschnelles Lernen

Bayessches Lernen und Vorhersage Berechnung der a-posteror Vertelung über Modelle Bayes Glechung Posteror, A-Posteror- Vertelung Bayessche Regel: Posteror = Lkelhood x Pror p( θ L) = pl ( θ) p( θ) pl ( ) 1 = pl ( θ) p ( θ) Z Normerungskonstante Lkelhood, We gut passt Modell zu Daten? Pror, A-Pror- Vertelung Sawade/Landwehr/Scheffer, Maschnelles Lernen 69

Bayessche Regel Brauchen: Lkelhood p(l θ). We wahrschenlch wären de Tranngsdaten, wenn θ das rchtge Modell wäre. We gut passt Modell zu den Daten. Typscherwese Unabhänggketsannahme: L= {( x, y ),...,( x, y )} 1 1 N pl ( θ) = py ( x, θ) = 1 N N Wahrschenlchket des n L beobachteten Klassenlabels gegeben Modell θ 70 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel lneare Modelle: Sawade/Landwehr/Scheffer, Maschnelles Lernen 71

Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel lneare Modelle: 2 w möglchst nedrg ( w = θ ) Sawade/Landwehr/Scheffer, Maschnelles Lernen 72

Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel Entschedungsbaumlernen: Sawade/Landwehr/Scheffer, Maschnelles Lernen 73

Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel Entschedungsbaumlernen: Klene Bäume snd n velen Fällen besser als komplexe Bäume. Algorthmen bevorzugen deshalb klene Bäume. Sawade/Landwehr/Scheffer, Maschnelles Lernen 74

Zusammenfassung Bayessche Vorhersage Um Rsko ener Fehlentschedung zu mnmeren: wähle Bayessche Vorhersage y= arg max py ( x, L) * = arg max y py ( x, θ ) p( θ Ld ) θ Problem: In velen Fällen gbt es kene geschlossene Lösung, Integraton über alle Modelle unpraktkabel. Maxmum-A-Posteror- (MAP-)Hypothese: wähle Entsprcht Entschedungsbaumlernen. Fnde bestes Modell aus Daten, Klassfzere nur mt desem Modell. y θ* = arg max θ p( θ L) y= arg max py ( x, θ ) * y * 75 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Zusammenfassung Bayessche Vorhersage Um MAP-Hypothese zu bestmmen müssen wr Posteror (Lkelhood x Pror) kennen. Unmöglch, wenn ken Vorwssen (Pror) exstert. Maxmum-Lkelhood- (ML-)Hypothese: θ* = arg max θ pl ( θ) y= arg max py ( x, θ ) * y * Berückschtgt nur Beobachtungen n L, ken Vorwssen. Problem der Überanpassung an Daten Sawade/Landwehr/Scheffer, Maschnelles Lernen 76

Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayes sche) Parameterschätzung für Wahrschenlchketsvertelungen Bayes sche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer, Maschnelles Lernen 77

Parameter von Vertelungen schätzen Oft können wr annehmen, dass Daten ener bestmmten Vertelung folgen Z.B. Bnomalvertelung für N Münzwürfe Z.B. Gaußvertelung für Körpergröße, IQ, Dese Vertelungen snd parametrsert Bnomalvertelung: Parameter µ st Wahrschenlchket für Kopf Gaußvertelung: Parameter µ, σ für Mttelwert und Standardabwechung Echte Wahrschenlchketen/Parameter kennen wr ne. Welche Aussagen über echte Wahrschenlchketen können wr machen, gegeben Daten? Sawade/Landwehr/Scheffer, Maschnelles Lernen 78

Parameter von Vertelungen schätzen Problemstellung Parameter von Vertelungen schätzen: Gegeben parametrserte Famle von Vertelungen (z.b. Bnomal, Gauß) mt Parametervektor θ Gegeben Daten L: Ausprägungen der Zufallsvarable Gesucht: a-posteror Vertelung P( θ L) bzw. maxmum a-posteror Schätzung * θ Verwende Bayessche Regel: P( θ L) = = arg max P( θ L) θ P( L θ ) P( θ ) P( L) 79 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Bnomalvertelte Daten Schätzen Bespel: Münzwurf, schätze Parameter μ =θ N Mal Münze werfen. Daten L: N k mal Kopf, N z mal Zahl. Beste Schätzung θ gegeben L? Bayes Glechung: Lkelhood der Daten gegeben Parameter, we gut erklärt Parameter de Beobachtungen? A-posteror Vertelung über Parameter, charaktersert wahrschenlche Parameterwerte und verblebende Ungewsshet P( θ L) = P( L θ ) P( θ ) P( L) A-pror Vertelung über Parameter, repräsentert Vorwssen Wahrschenlchket der Daten, nur Normalserer Sawade/Landwehr/Scheffer, Maschnelles Lernen 80

Bnomalvertelte Daten Schätzen Lkelhood der Daten: (θ = μ Wahrschenlchket für Kopf ) Lkelhood st bnomalvertelt: PL ( θ) = PN (, N θ) = Bn( N N, θ) k z PLθ ( ) k Nk + Nz Nk = θ (1 θ) Nk Wahrschenlchket, be N Münzwürfen N -mal Kopf und N Z -mal Zahl zu sehen, für Münzparameter θ N z k N = N + N k z 81 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Bnomalvertelte Daten Schätzen Was st der Pror P(θ ) m Münzwurfbespel? 1) Versuch: Ken Vorwssen Bespel: 1:0 θ 1 P( θ ) = Dchte 0: sonst Daten L = {Zahl,Zahl,Zahl} MAP Modell: * PL ( θ) P( θ) θ = arg max θ [0,1] P( θ L) = arg maxθ [0,1] PL ( ) 3 0 3 = arg max θ [0,1] PL ( θ) = arg max θ [0,1] θ (1 θ) = 0 0 Schlussfolgerung: Münze wrd nemals Kopf zegen Schlecht, Überanpassung an Daten ( Overfttng ) 82 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Bnomalvertelte Daten Schätzen ( θ [0,1]) Was st der Pror P(θ ) m Münzwurfbespel? Besser mt Vorwssen: Unwahrschenlch, dass Münze mmer Kopf oder mmer Zahl zegt Gutes Modell für Vorwssen über θ : Beta-Vertelung. P( θ) = Beta( θ αk, αz) Γ( αk + αz) θ k = (1 θ ) Γ( α )Γ( α ) k z α 1 α 1 Gamma-Funkton Γ(α) kontnuerlche Fortsetzung der Fakultätsfunkton z 1 t z t e dt Γ ( ) = n : Γ ( n) = ( n 1)! 0 z 0.5 Beta( θ 5,5) 83 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Bnomalvertelte Daten Schätzen α α k und α z snd Parameter der Beta-Vertelung ( Hyperparameter ) Beta-Vertelung st Vertelung über Vertelungen K = 5, α = 5 α = 1, α = 1 α = 4, α = 2 Z Normalserte Dchte K 1 0 Z Beta( θ α, α ) dθ = 1 K Z K Z Sawade/Landwehr/Scheffer, Maschnelles Lernen 84

Bnomalvertelte Daten Schätzen Warum gerade dese a-pror-vertelung? Strukturelle Ähnlchket mt Lkelhood: Pror Lkelhood Γ( αk + αz) k P( θ) = Beta( θ αk, αz)= θ (1 θ) Γ( α )Γ( α ) α 1 α 1 N + N P( L θ) = Bn( Nk N, θ ) = θ k ( 1 θ) Nk k Z N N Enfach, Beobachtungen zu berückschtgen: Produkt aus Lkelhood und Pror hat weder deselbe Form we Pror P( θ L) PL ( θ) P( θ) k z z z 85 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Bnomalvertelte Daten Schätzen Wenn wr den Beta-Pror n Bayes Glechung ensetzen, dann: PL ( θ) P( θ) P( θ L) = PL ( ) 1 = Bn( NK N, θ ) Beta ( θ αk, αz ) Z 1 Nk + Nz Nk N Γ( α z k + αz) k = θ (1 θ) θ (1 θ) Z Nk Γ( αk) Γ( αz) 1 αk+ Nk 1 α z+ Nz 1 = θ (1 θ) Z ' =? α 1 α 1 z Sawade/Landwehr/Scheffer, Maschnelles Lernen 86

Bnomalvertelte Daten Schätzen Wenn wr den Beta-Pror n Bayes Glechung ensetzen, dann: PL ( θ) P( θ) P( θ L) = PL ( ) 1 = Bn( NK N, θ ) Beta ( θ αk, αz ) Z 1 Nk + Nz Nk N Γ( α z k + αz) k = θ (1 θ) θ (1 θ) Z Nk Γ( αk) Γ( αz) 1 αk+ Nk 1 α z+ Nz 1 = θ (1 θ) Z ' Γ( αk + Nk + αz + Nz) αk+ Nk 1 α z+ Nz 1 = θ (1 θ) Γ( αk + Nk) Γ ( αz + Nz) = Beta( θ α + N, α + N ) k k z z α 1 α 1 Beta-Vertelung st konjugerter Pror: Posteror st weder Beta-vertelt z 87 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Zusammenfassung Bayessche Parameterschätzung Bnomalvertelung Zusammenfassung Berechnung der a-posteror Vertelung: Bayessche Regel P( θ L) = P( L θ ) P( θ ) P( L) Posteror P(θ L): We wahrschenlch st Modell θ, nachdem wr Daten L gesehen haben? Vorwssen P(θ ) und Evdenz der Tranngsdaten L werden zu neuem Gesamtwssen P(θ L) ntegrert. Bespel Münzwurf: Vorwssen Beta(θ α k, α z ) und Beobachtungen N k, N z werden zu Posteror Beta(θ α k +N k, α z +N z ). Sawade/Landwehr/Scheffer, Maschnelles Lernen 88

Münzwurf: Wahrschenlchste Wahrschenlchket Wahrschenlchster Parameter θ. arg max P( θ L) = arg max Beta( θ α + N, α + N ) Für = α = 1 ergbt sch ML Schätzung Interpretaton der Hyperparameter α 1/ α 1: αz 1/ αk 1 Pseudocounts, de auf beobachtete Counts N / N aufgeschlagen werden θ Ableten, Abletung null setzen ( ) α 1, α 1 z k z α k z Γ( αk + αz + Nk + Nz) = arg max θ θ (1 θ) Γ( α + N ) Γ ( α + N ) = k N θ Nk + αk 1 + N + α + α 2 k z k z k k z z k k z z α + N 1 α + N 1 k k z z Normalserer, unabhängg von θ we oft m Leben Münzwurf mt Kopf / Zahl gesehen? z k 89 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Münzwurf: Wahrschenlchste Wahrschenlchket Bespel MAP Schätzung Parameter Pror P( θ) = Beta( θ 5, 5) Posteror nach L={50x Kopf, 25x Zahl}: P( θ L) = Beta( θ 55, 30) N = 50, N = 25, α = 5, α = 5 k z k z * 54 MAP Schätzung: θ = arg max θ P( θ L) = 0.65 54 + 29 90 Sawade/Landwehr/Scheffer, Maschnelles Lernen

Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen (3) Chrstoph Sawade/Nels Landwehr Tobas Scheffer

Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Bayessche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer Maschnelles Lernen 2

Überblck Bayessche Lneare Regresson Modellbasertes Klassfkatonslernen: Nave Bayes Sawade/Landwehr/Scheffer Maschnelles Lernen 3

Wederholung: Regresson Regressonsproblem: X Matrxschrebwese Problemstellung Vorhersage: Tranngsdaten m L = ( x 1, y 1),...,( x N, y Merkmalsvektoren N ) x y reelles Zelattrbut Merkmalsvektoren 11 N1 = ( x1... xn ) = x x 1m Gegeben L, neues Testbespel x Fnde optmale Vorhersage y für x x x Nm Zugehörge Labels (Werte Zelattrbut) y1 y =... y N 4 Sawade/Landwehr/Scheffer Maschnelles Lernen

Exkurs: Multvarate Normalvertelung x Zufallsvarable x mt d Dmensonen. d normalvertelt, wenn Vertelung beschreben wrd durch Dchte 1 1 ( xμ, ) = exp x( μ ) 2π Σ 2 T 1 Σ Σ d /2 1/2 Mttelwertvektor μ Kovaranzmatrx Σ ( xμ Determnante Bespel d=2 d Koaranzmatrx entschedet, we Punkte streuen ) μ Sawade/Landwehr/Scheffer Maschnelles Lernen 5

Wederholung: Lneare Regresson Modellraum lneare Regresson: T f ( x w ) = wx w Parametervektor, Gewchtsvektor m = w + 0 wx Zusätzlches konstantes Attrbut x = 1 = 1 0 Lneare Abhänggket von ( x) von Parametern w Lneare Abhänggket von ( x) von Engaben x f w f w Sawade/Landwehr/Scheffer Maschnelles Lernen 6

Bayessche Regresson: Daten Modellvorstellung bem Bayesschen Lernen: Prozess der Datengenererung Echtes Modell f * wrd aus Pror-Vertelung P( f) gezogen Merkmalsvektoren x,..., 1 xn werden unabhängg vonenander gezogen (ncht modellert) Für jedes x wrd das Label y gezogen nach Vertelung Py ( (Anschauung: ) x, f* ) y ( ) f* x Daten L fertg generert We seht Py ( x, f) für Regressonsprobleme aus? * Sawade/Landwehr/Scheffer Maschnelles Lernen 7

Bayessche Regresson: Daten T Annahme, dass es echtes Modell f *( x) = xw* gbt, dass de Daten perfekt erklärt, unrealstsch Daten folgen ne genau ener Regressons- Geraden/Ebene Alternatve Annahme: Daten folgen f ( x) * bs auf klene, zufällge Abwechungen (Rauschen) Sawade/Landwehr/Scheffer Maschnelles Lernen 8

Bayessche Regresson: Daten Alternatve Annahme: Daten folgen f ( x) * bs auf klene, zufällge Abwechungen (Rauschen) Modellvorstellung: Zelattrbut y generert aus f ( x) * normalverteltes Rauschen y = f ( x) + ε mt ε ~ ( ε 0, σ 2 * ) f ( x ) * 0 f ( x) * plus Py x f = y f x σ 2 ( 0, *) ( *( 0), ) Parameter σ modellert Stärke des Rauschens 9 Sawade/Landwehr/Scheffer Maschnelles Lernen

Bayessche Regresson: Vorhersagevertelung Zel: Bayessche Vorhersage y* = arg max y Py ( x, L) Ernnerung: Berechnung mt Bayesan Model Averagng Vorhersage, gegeben Modell Modell gegeben Tranngsdaten Py ( x, L) = Py ( x, θ) P( θ Ld ) θ 1 P( θ L) = PL ( θ) P( θ) Z Lkelhood:Tranngsdaten gegeben Modell Pror über Modelle 10 Sawade/Landwehr/Scheffer Maschnelles Lernen

Bayessche Regresson: Lkelhood Lkelhood der Daten L: Zehen der x ncht modellert Nachrechnen: Multdmensonale Normalvertelung mt Kovaranzmatrx Enhetsmatrx σ 2 I 1 0... 0 0 1... 0 I =............ 0 0... 1 P( y X, w) = Py (,..., y X, w) Bespele unabhängg N 1 = Py ( x, w) = 1 N = y x w σ = 1 N T 2 (, ) ( X T, σ 2 ) = y w I X T T x1 w w =... T xn w T f ( x w ) = x w Vektor der Vorhersagen 11 Sawade/Landwehr/Scheffer Maschnelles Lernen

Bayessche Regresson: Pror Bayessches Lernen: Pror über Modelle f Modelle parametrsert durch Gewchtsvektor w Pror P(w) über Gewchtsvektoren Geegnete Pror-Vertelung: Normalvertelung Normalvertelung st konjugert zu sch selbst, normalvertelter Pror und normalvertelte Lkelhood ergeben weder normalvertelten Posteror Deshalb w ~ ( w 0, ) Σ p Σ p Kovaranzmatrx, oft Σ = σ I σ steuert Stärke des Prors 2 p erwarten klene Attrbutgewchte, w 2 klen p 2 p Sawade/Landwehr/Scheffer Maschnelles Lernen 12

Bayessche Regresson: Posteror Posteror-Vertelung über Modelle gegeben Daten Ohne Bewes 1 P( w L) = PL ( w) P( w) Bayessche Regel Z 1 = Σ Z T ( y X w, σ 2 I) ( w 0, p ) 1 (, A ) = w w mt w = σ 2 1 A X Posteror st weder normalvertelt, mt neuem Mttelwert w und Kovaranzmatrx y A T = σ 2 XX +Σ 1 p A 1 Sawade/Landwehr/Scheffer Maschnelles Lernen 13

Bayessche Regresson: Posteror Posteror: MAP-Hypothese: w = MAP? p L A 1 ( w ) = ( w w, ) Sawade/Landwehr/Scheffer Maschnelles Lernen 14

Bayessche Regresson: Posteror Posteror: MAP-Hypothese: w = w MAP 1 σ 2 p L A 1 ( w ) = ( w w, ) = A Xy Sawade/Landwehr/Scheffer Maschnelles Lernen 15

Sequentelles Update des Posterors Instanzen unabhängg Berechnung des Posteror als sequentelles Update: Aufmultplzeren der Lkelhood enzelner Instanzen P( w L) P( w) PL ( w) N = P( w) = Py (, ) 1 x w Lkelhood für enzeln an Pror multplzeren Se P( w) = P( w ) 0, P ( ) n w der Posteror, wenn wr nur de ersten n Instanzen n L verwenden: P( w L) P( w) Py ( 1 x1, w) Py ( 2 x2, w) Py ( 3 x3, w)... Py ( N xn, w) P1 ( w) P2 ( w) P3 ( w) P N ( w) y 16 Sawade/Landwehr/Scheffer Maschnelles Lernen

Sequentelles Update des Posterors Sequentelles Update: Datenpunkte nachenander anschauen Neue Informatonen (Datenpunkte) verändern Stück für Stück de Vertelung über w Sawade/Landwehr/Scheffer Maschnelles Lernen 17

Bespel Bayessche Regresson f( x) w wx = 0 + 1 (endmensonale Regresson) Sequentelles Update: P( w) = P( w) 0 P( w) = P( w) Sample aus P 0 0( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 18

Bespel Bayessche Regresson f( x) = w + wx 0 1 Sequentelles Update: Lkelhood Py ( x, w) 1 1 (endmensonale Regresson) P( w) P( w) Py ( x, w) 1 0 1 1 P ( w) 1 Datenpunkt x1, y1 y = f( x ) + ε 1 1 = w + wx + ε 0 1 1 w0= wx 1 1+ y1 ε Sample aus P ( w) 1 Sawade/Landwehr/Scheffer Maschnelles Lernen 19

Bespel Bayessche Regresson f( x) w wx = 0 + 1 (endmensonale Regresson) Sequentelles Update: Lkelhood Py ( x, w) 1 1 P( w) P( w) Py ( x, w) 1 0 1 1 Posteror P1 ( w) Sample aus P1 ( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 20

Bespel Bayessche Regresson f( x) = w + wx 0 1 Sequentelles Update: Py ( 2 x2, w) (endmensonale Regresson) P( w) P( w) Py ( x, w) 2 1 2 2 P ( w) Sample aus P 2 2( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 21

Bespel Bayessche Regresson f( x) = w + wx 0 1 Sequentelles Update: Py ( x, w) N N (endmensonale Regresson) P( w) P ( w) Py ( x, w) N N 1 N N P ( ) N w Sample aus PN ( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 22

Bayessche Regresson: Vorhersagevertelung Bayes sche Vorhersage: wahrschenlchstes y. Ernnerung: Berechnung mt Bayesan Model Averagng y* = arg max y Py ( x, L) Py ( x, L) = Py ( x, θ) P( θ Ld ) θ Bayesan Model Averagng Bayessche Vorhersage: Vorhersage, gegeben Modell Mtteln der Vorhersage über alle Modelle. Modell gegeben Tranngsdaten Gewchtung: we wahrschenlch st Modell a posteror. Sawade/Landwehr/Scheffer Maschnelles Lernen 23

Bayessche Regresson: Vorhersagevertelung Vorhersagevertelung weder normalvertelt: Ohne Bewes Py ( x, L) = Py ( xw, ) P( w Ld ) w mt = y xwσ w wa dw T 2 1 (, ) (, ) 1 ( T T y, A ) = xwx x 1 = σ 2 A T w Xy A σ 2 XX Optmale Vorhersage: Engabevektor multplzert: T y * = xw = +Σ 1 p x wrd mt w 24 Sawade/Landwehr/Scheffer Maschnelles Lernen

Bayessche Regresson: Vorhersagevertelung T y * = xw Bayessche Regresson lefert ncht nur optmale T Vorhersage y * = xw sondern Dchte von y und damt auch enen Konfdenzkorrdor. 1 ( T T y xwx, A x) x z.b. 95% Konfdenz 25 Sawade/Landwehr/Scheffer Maschnelles Lernen

Nchtlneare Bassfunktonen Enschränkung der bshergen Modelle: nur lneare Abhänggketen zwschen x und f(x). Lneare Daten Ncht-lneare Daten In velen Fällen nützlch: ncht-lneare Abhänggket Sawade/Landwehr/Scheffer Maschnelles Lernen 26

Nchtlneare Bassfunktonen Enfachster Weg: Lneare Regresson auf nchtlnearen Bassfunktonen Idee: Ncht auf den ursprünglchen x arbeten, sondern auf nchtlnearer Transformaton φ( x) Vortel: Berechnung von posteror und Bayes scher Vorhersage m Prnzp unverändert Bassfunktonen,..., : m m φ1 φ ursprünglcher Instanzenraum φ( x) d φ1 ( x) φ ( x)... φd ( x) 2 = d φ : m mestens d d m 27 Sawade/Landwehr/Scheffer Maschnelles Lernen

Nchtlneare Bassfunktonen Lneare Regresson n den Bassfunktonen T f ( x) = w φ( x) = w + wφ ( x) 0 d = 1 f(x) st lneare Kombnaton von Bassfunktonen Anschauung: Abbldung n höherdmensonalen Raum φ( ), lneare Regresson dort Sawade/Landwehr/Scheffer Maschnelles Lernen 28

Nchtlneare Bassfunktonen: Bespel y Bespel = φ ( x) = 1 f( x) = w + wφ ( x) + wφ ( x) Nchtlneare Funkton n x darstellbar als lneare Funkton n φ( x) f( x) 1 3x x 2 = + φ x x 0 1 1 2 2 φ ( x) = 2 y x 2 x 2 x 29 Sawade/Landwehr/Scheffer Maschnelles Lernen

Nchtlneare Bassfunktonen Bespele für ncht-lneare Bassfunktonen Polynome φ j ( x) = x j Sawade/Landwehr/Scheffer Maschnelles Lernen 30

Nchtlneare Bassfunktonen Bespele für ncht-lneare Bassfunktonen Gauss-Kurven ( x µ j ) φ j ( x) = exp 2 2s µ 1,..., µ d Mttelpunkte 2 s feste Varanz 2 Sawade/Landwehr/Scheffer Maschnelles Lernen 31

Nchtlneare Bassfunktonen Bespele für ncht-lneare Bassfunktonen Sgmode φ ( x) j x µ j = σ s 1 σ ( a) = 1 + exp( a ) µ 1,..., µ d Mttelpunkte s feste Skalerung Sawade/Landwehr/Scheffer Maschnelles Lernen 32

Regresson mt Bassfunktonen φ Funkton bldet m-dmensonalen Engabevektor x auf d-dmensonalen Merkmalsvektor ab. Regressonsmodell: f T ( ) ( ) x = w φ x Optmale Vorhersage we bsher, mt φ(x) statt x. ( T T 1 φ φ φ ) Py ( x, L) = y ( x) w, ( x) A ( x) y* = arg max py ( x, L) = φ( x) T w y φ( x) Transformerte Testnstanz A= σ ΦΦ + Σ = σ A Φ Φ = φ( X Transformerte Datenmatrx 2 T 1 1 p, w 2 y und ) 33 Sawade/Landwehr/Scheffer Maschnelles Lernen

Bespel Regresson mt Nchtlnearen Bassfunktonen Bespel für Regresson mt ncht-lnearen Bassfunktonen Generere ncht-lneare Datenpunkte durch y = x + x 2 sn(2 π ) ε ε ~ ( ε 0, σ ), [0,1] 9 Gaussche Bassfunktonen ( x µ j ) φ j ( x) = exp 2 2s We seht der Posteror P( w L) Vorhersagevertelung Py ( x, L) 2 µ = 0.1,..., µ = 0.9 1 9 und de aus? Sawade/Landwehr/Scheffer Maschnelles Lernen 34

Vorhersagevertelung f( x) N=1 N=4 Datenpunkt y = sn(2 π x) N=2 N=25 Sawade/Landwehr/Scheffer Maschnelles Lernen 35

Samples aus dem Posteror N=1 N=4 N=2 N=25 Sawade/Landwehr/Scheffer Maschnelles Lernen 36

Überblck Bayessche Lneare Regresson Modellbasertes Klassfkatonslernen: Nave Bayes Sawade/Landwehr/Scheffer Maschnelles Lernen 37

Klassfkatonsprobleme Tranngsdaten L L = ( x, y1),...,( x, y 1 N N Matrxschrebwese für Tranngsdaten L X Merkmalsvektoren X x 11 N1 = ( x1... xn ) = x Lernen: MAP Modell ) 1m x x Nm θmap = arg max θ P( θ L) = arg max PL ( θ) P( θ) θ x y Merkmalsvektoren dskrete Klassenlabels Zugehörge Klassenlabel y y1 y =... y N 38 Sawade/Landwehr/Scheffer Maschnelles Lernen

Modellbasertes und Dskrmnatves Lernen Lkelhood PLθ ( ) : welcher Tel der Daten L wrd modellert? Dskrmnatves Lernen: θ wrd so gewählt, dass es Werte der Klassenvarable y n den Daten gut modellert. Klassfkator soll nur y für jedes x gut vorhersagen. Wozu also gute Modellerung von X berückschtgen? Generatves (modellbasertes) Lernen: θmap = arg max θ P( θ) P( y X, θ) θmap = arg max θ P( θ) P( y, X θ) Dskrmnatve Lkelhood Generatve Lkelhood θ wrd so gewählt, dass es Merkmalsvektoren X und Werte der Klassenvarable y n den Daten gut modellert 39 Sawade/Landwehr/Scheffer Maschnelles Lernen

Modellbasert: Nave Bayes Nave Bayes: Modellbaserte Klassfkaton θmap = arg max θ P( θ) P( y, X θ) Lkelhood der Daten L: N unabhängge Instanzen mt Klassenlabels PL ( θ) = P( x,..., x, y,..., y θ) N = 1 1 N 1 = P( x, y θ ) N Sawade/Landwehr/Scheffer Maschnelles Lernen 40

Modellbasert: Nave Bayes We modelleren wr P( x, y θ )? Gemensame Vertelung (Produktregel) We modelleren wr P( x y, θ )? P( x, y θ)= Py ( θ) P( x y, θ) Klassenwahrschenlchket: z.b. P(spam) vs P(ncht spam). x1 x =... x m hochdmensonal, 2 m verschedene Werte (x bnär) Nave Unabhänggketsannahme x-vertelung gegeben Klasse: z.b. Wortvertelung n Spam-Emals Sawade/Landwehr/Scheffer Maschnelles Lernen 41

Nave Bayes: Unabhänggketsannahme Bedngte Unabhänggketsannahme: P( x y, θ) = Px ( y, θ) m = 1 Annahme: zwe Klassen, bnäre Attrbute x Attrbute unabhängg gegeben de Klasse y Modellerte Vertelungen (Modellparameter): y Pyθ ( ) Bernoull, mt Parameter θ = Py ( = 1 θ) Für {1,..., m} (Attrbute), c {0,1} (Klassen): Px ( y cθ, ) = Bernoull, mt Parameter θ x {0,1} xc = Px ( = 1 θ, y= c) Sawade/Landwehr/Scheffer Maschnelles Lernen 42

Nave Bayes: Lkelhood Lkelhood der Daten L mt bshergen Annahmen: N PL ( θ) = P ( x y θ) j= 1 j= 1 j, j N y m x y Py 1 j θ Px j 1 j yj θ = = j = ( ) (, ) Unabhänggket Instanzen N = Py ( j θ) P( x j yj, θ) Produktregel Bedngte Unabhänggket Attrbute, zuständge Modellparameter Sawade/Landwehr/Scheffer Maschnelles Lernen y = Klassenlabel j-te Instanz = Wert -tes Merkmal j-te Instanz j x j 43

Nave Bayes: Pror? Pror: Parametervektor θ besteht aus Pror-Vertelung: unabhängg für enzelne Parameter ( m x ) 0 x 1 =1 P y ( θ) = P ( θ ) P ( θ ) P ( θ ) Pror Klassenvertelung Konjugerter Pror Beta-Vertelung y y P( θ )~ Beta( θ α, α ) 0 1 Pror Merkmalsvertelungen, gegeben postve/negatve Klasse Für {1,..., m} (Attrbute), c {0,1} (Klassen): P Parameter für Klassenvertelung x 0 x 1 Parameter für Merkmalsvertelungen θ, θ ( = 1,..., m) x c x c ( θ )~ Beta( θ αx c, αx c) y θ 44 Sawade/Landwehr/Scheffer Maschnelles Lernen

Nave Bayes: Posteror A-posteror Vertelung weder Beta: Standardlösung für Münzwurfszenaro y A-posteror Vertelung für Parameter P( θ L) : y y P( θ L) = Beta( θ α + N, α + N ) θ mt y MAP N = 0 1 N N1+ α1 1 + α + N + α 2 0 0 1 1 0 0 1 1 : Anzahl Bespele mt Klasse 0 n N : Anzahl Bespele mt Klasse 1 n L L Sawade/Landwehr/Scheffer Maschnelles Lernen 45

Nave Bayes: Posteror A-posteror Vertelung für Parameter P( θ x c ): Für {1,..., m} (Attrbute), c {0,1} (Klassen): P L Beta N N mt xc xc ( θ ) = ( θ αxc + xc, αxc + xc ) θ xc MAP xc xc N : Anzahl Bespele mt x = 1 und Klasse c n L N : Anzahl Bespele mt x = 0 und Klasse c n L = N N + α 1 xc xc + α + N + α 2 xc xc xc xc Sawade/Landwehr/Scheffer Maschnelles Lernen 46

Nave Bayes: Lernalgorthmus Engabe: L= ( x, y ),...,( x, y ) 1 1 Schätze Klassenvertelung: θ Zähle 1 0 Für Klassen y=0 und y=1, für alle Attrbute : Zähle θ y MAP x y MAP = = N Alle Modellparameter gelernt! N N : Anzahl Bespele mt Klasse 1 n L N : Anzahl Bespele mt Klasse 0 n L x y x y x y x y x y x y x y x y N N : Anzahl Bespele mt x = 1 und Klasse y n L N : Anzahl Bespele mt x = 0 und Klasse y n L N N1+ α1 1 + α + N + α 2 0 0 1 1 N + α 1 + α + N + α 2 Sawade/Landwehr/Scheffer Maschnelles Lernen 47

Nave Bayes: Klassfkaton Engabe: Rückgabe: x1 x =... x m y* = arg max y Py ( x, θmap ) Laufzet bem Klassfzeren: Om ( ) m = Anzahl Attrbute Laufzet bem Lernen: O( Nm) y m x y arg max y Py ( θmap ) Px (, ) 1 yθmap = = Klassenvertelung Produkt der Attrbutvertelungen, gegeben Klasse N = Anzahl Tranngsnstanzen 48 Sawade/Landwehr/Scheffer Maschnelles Lernen

Nave Bayes: Egenschaften Enfach zu mplementeren, effzent, populär. Funktonert ok, wenn de Attrbute wrklch unabhängg snd. Das st aber häufg ncht der Fall. Unabhänggketsannahme und modellbasertes Tranng führen häufg zu schlechten Ergebnssen. Logstsche Regresson, Wnnow, Perzeptron snd mest besser. Sawade/Landwehr/Scheffer Maschnelles Lernen 49

Nave Bayes: Bespel Tranngsdaten: 1 2 3 x : Schufa pos. x : Student y: Rückzahlung ok? 1 2 Instanz x 1 1 1 Instanz x 1 0 1 Instanz x 0 1 0 Pror: alle Parameter α n den Beta-Vertelungen setzen wr auf α=2 (Pseudocounts: α-1=1) Gelernte Parameter/Hypothese? Sawade/Landwehr/Scheffer Maschnelles Lernen 50

Nave Bayes: Bespel Gelernte Parameter/Hypothese Merkmalsvertelungen x 1 Px ( y= 0) 0? 1? x 2 Klassenvertelung 1 0? 1? y Px ( y= 0) 2 Py ( ) 0? 1? Py ( ) Px ( y) x 1 Px ( y= 1) 1 0? 1? x 2 Px ( y= 1) 2 0? 1? 51 Sawade/Landwehr/Scheffer Maschnelles Lernen

Nave Bayes: Bespel Gelernte Parameter/Hypothese Merkmalsvertelungen x 1 Px ( y= 0) 0 2/3 1 1/3 x 2 0 1/3 1 2/3 Klassenpror y 1 Px ( y= 0) 2 Py ( ) 0 2/5 1 3/5 Py ( ) Px ( y) x 1 Px ( y= 1) 0 1/4 1 3/4 x 2 0 2/4 1 2/4 1 Px ( y= 1) 2 52 Sawade/Landwehr/Scheffer Maschnelles Lernen

Nave Bayes: Bespel Testanfrage: x = (Schufa pos = 0,Student = 0) Vorhersage: 4 3 > y* = 0 45 40 y* = arg max y Py ( x, θmap ) P( y = 0) P( x y = 0) = P( y = 0) P( x = 0 y = 0) P( x = 0 y = 0) 2 2 1 4 = = 5 3 3 45 1 2 P( y = 1) P( x y = 1) = P( y = 1) P( x = 0 y = 1) P( x = 0 y = 1) 3 1 2 3 = = 5 4 4 40 = arg max Py ( θ ) Px ( y, θ ) 1 2 m y MAP MAP = 1 53 Sawade/Landwehr/Scheffer Maschnelles Lernen