Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen Chrstoph Sawade/Nels Landwehr/Paul Prasse Slva Makowsk Tobas Scheffer
Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Bayessche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer, Maschnelles Lernen 2
Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Bayessche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer, Maschnelles Lernen 3
Statstk & Maschnelles Lernen Maschnelles Lernen: eng verwandt mt (nduktver) Statstk Zwe Gebete n der Statstk: Deskrptve Statstk: Beschrebung, Untersuchung von Egenschaften von Daten. Mttelwerte Induktve Statstk: Welche Schlussfolgerungen über de Realtät lassen sch aus Daten zehen? Erklärungen für Beobachtungen Varanzen Modellbldung Unterschede zwschen Populatonen Zusammenhänge, Muster n Daten 4 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Thomas Bayes 1702-1761 An essay towards solvng a problem n the doctrne of chances, 1764 veröffentlcht. Arbeten von Bayes grundlegend für nduktve Statstk. Bayessche Wahrschenlchketen wchtge Schtwese auf Unscherhet & Wahrschenlchket Sawade/Landwehr/Scheffer, Maschnelles Lernen 5
Frequentstsche / Bayessche Wahrschenlchket Frequentstsche Wahrschenlchketen Beschreben de Möglchket des Entretens ntrnssch stochastscher Eregnsse (z.b. Münzwurf). Defnton über relatve Häufgketen möglcher Ergebnsse enes wederholbaren Versuches Wenn man ene fare Münze 1000 Mal wrft, wrd etwa 500 Mal Kopf fallen In 1 Gramm Potassum-40 zerfallen pro Sekunde ca. 260.000 Atomkerne Sawade/Landwehr/Scheffer, Maschnelles Lernen 6
Frequentstsche / Bayessche Wahrschenlchket Bayessche, subjektve Wahrschenlchketen Grund der Unscherhet en Mangel an Informatonen We wahrschenlch st es, dass der Verdächtge X das Opfer umgebracht hat? Neue Informatonen (z.b. Fngerabdrücke) können dese subjektven Wahrschenlchketen verändern. Bayessche Schtwese m maschnellen Lernen wchtger Frequentstsche Schtwese auch manchmal verwendet, mathematsch äquvalent Sawade/Landwehr/Scheffer, Maschnelles Lernen 7
Bayessche Wahrschenlchketen m Maschnellen Lernen Modellbldung: Erklärungen für Beobachtungen fnden Was st das wahrschenlchste Modell? Abwägen zwschen Vorwssen (Pror über Modelle) Evdenz (Daten, Beobachtungen) Bayessche Schtwese: Evdenz (Daten) verändert subjektve Wahrschenlchketen für Modelle (Erklärungen) A-posteror Modellwahrschenlchket, MAP Hypothese Sawade/Landwehr/Scheffer, Maschnelles Lernen 8
Wahrschenlchketstheore, Zufallsvarablen Zufallsexperment: defnerter Prozess, n dem en Elementareregns ω erzeugt wrd. Eregnsraum Ω: Menge aller Elementareregnsse. Eregns A: Telmenge des Eregnsraums. Wahrschenlchketsfunkton p: Funkton, de Eregnssen A Ω Wahrschenlchketen zuwest. Sawade/Landwehr/Scheffer, Maschnelles Lernen 9
Wahrschenlchketstheore Gültge Wahrschenlchketsfunkton p (Kolmogorow-Axome) Wahrschenlchket von Eregns A Ω : Scheres Eregns: p( Ω ) = 1, und 0 pa ( ) 1 Für de Wahrschenlchket zweer nkompatbler Eregnsse A Ω, B Ω (d.h. A B= ) glt: pa ( B) = pa ( ) + pb ( ) p( ) = 0 Sawade/Landwehr/Scheffer, Maschnelles Lernen 10
Wahrschenlchketstheore: Bespel Würfeln Eregnsraum Ω={1, 2,3, 4,5,6} Elementareregnsse haben Wsk Eregns gerade Zahl: A = {2, 4,6} Wahrschenlchket des Eregnsses: p({ ω }) = 1/ 6 pa= ( ) 1/2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 11
Wahrschenlchketstheore, Zufallsvarablen Zufallsvarable X: Abbldung von Elementareregnssen auf numersche Werte Wahrschenlchket dafür, dass Eregns X=x entrtt (Zufallsvarable X wrd mt Wert x belegt). X : Ω ω x px ( = x) = p({ ω Ω X( ω) = x}) Zusammenfassen n Wahrschenlchketsvertelung, der Varable X unterlegt px ( ) Experment wesst Zufallsvarable X den Wert x= X( ω) zu Vertelung gbt an, we Wahrschenlchketen über Werte x vertelt snd X~ px ( ) X st vertelt nach p(x) 12 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Zufallsvarable: Bespel Würfeln mt 2 Würfeln Eregnsraum Ω= {(, ) {1, 2,3, 4,5,6}} ω1 ω2 ω Elementareregnsse haben Wsk Zufallsvarable: Summe der bede Augenzahlen X (( ω, ω )) = ω + ω 1 2 1 2 Wahrschenlchket für Wert der ZV: px= ( 5) =? p({( ω1, ω 2)}) = 1/ 36 Sawade/Landwehr/Scheffer, Maschnelles Lernen 13
Zufallsvarable: Bespel Würfeln mt 2 Würfeln Eregnsraum Ω= {(, ) {1, 2,3, 4,5,6}} ω1 ω2 ω Elementareregnsse haben Wsk Zufallsvarable: Summe der bede Würfel X (( ω, ω )) = ω + ω 1 2 1 2 Wahrschenlchket für Wert der ZV: px ( = 5) = p({(1, 4),(2,3),(3, 2),(4,1)}) = 4 / 36 p({( ω1, ω 2)}) = 1/ 36 Sawade/Landwehr/Scheffer, Maschnelles Lernen 14
Dskrete/kontnuerlche Zufallsvarablen Dskrete Zufallsvarablen: D=X(Ω) dskret Kontnuerlche Zufallsvarablen: D=X(Ω) kontnuerlch Für dskrete Zufallsvarablen glt: x D px ( = x) = 1 D dskreter Werteberech Bespel: N Münzwürfe Zufallsvarablen X1,..., XN {0,1} Münzparameter μ gbt Wahrschenlchket für Kopf an px ( = 1) = µ px ( = 0) = 1 µ Wahrschenlchket für Kopf Wahrschenlchket für Zahl Sawade/Landwehr/Scheffer, Maschnelles Lernen X ~ Bern( X µ ) = µ (1 µ ) X X 1 Bernoull-Vertelung 15
Dskrete Zufallsvarablen Bespel: Anzahl Köpfe be N Münzwürfen ZV Anzahl Köpfe : Bnomal-Vertelung X ~ Bn( X N, µ ) Bn( X N, µ ) =? N X = X, X {0,..., N} = 1 Sawade/Landwehr/Scheffer, Maschnelles Lernen 16
Dskrete Zufallsvarablen Bespel: Anzahl Köpfe be N Münzwürfen ZV Anzahl Köpfe : Bnomal-Vertelung X ~ Bn( X N, µ ) N Bn( X N, µ ) = µ (1 µ ) X X N X N X = X, X {0,..., N} = 1 N = 10, µ = 0.5 17 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Kontnuerlche Zufallsvarablen Kontnuerlche Zufallsvarablen Unendlch (überabzählbar) vele Werte möglch Typscherwese Wahrschenlchket px ( = x) = 0 Statt Wahrschenlchketen für enzelne Werte: Dchtefunkton f X : Dchte der ZV X x : f X ( x) 0, ( x) = 1 f X Wahrschenlchket, dass ZV X Wert zwschen a und b annmmt b p( X [ a, b]) f ( x) dx, = a X f ( x ) > 1 möglch X 18 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Kontnuerlche Zufallsvarablen Bespel: Körpergröße X X annähernd Gaußvertelt ( Normalvertelt ) X x µσ 2 ~ (, ) Dchte der Normalvertelung Sawade/Landwehr/Scheffer, Maschnelles Lernen z.b. µ = 170, σ = 10 19
Kontnuerlche Zufallsvarablen Bespel: Körpergröße We groß st de Wahrschenlchket, dass en Mensch genau 180cm groß st? px= ( 180) = 0 We groß st de Wahrschenlchket, dass en Mensch zwschen 180cm und 181cm groß st? 181 2 ( [180,181]) = ( 170,10 ) 180 p X x dx Sawade/Landwehr/Scheffer, Maschnelles Lernen 20
Kontnuerlche Zufallsvarablen Vertelungsfunkton x F( x) p( X x) f ( z) dz, = = px ( [ ab, ]) = Fb ( ) Fa ( ) Dchte st Abletung der Vertelungsfunkton df( x) f X ( x) = dx Veranschaulchung Dchte: f ( x) = lmε X 0 X px ( [ x ε, x+ ε]) 2ε Sawade/Landwehr/Scheffer, Maschnelles Lernen 21
Notaton Notaton: wenn der Zusammenhang klar st, schreben wr auch manchmal px ( ) statt px ( = x) (dskrete Wahrschenlchket) px ( ) statt f ( x) (kontnuerlche Dchte) X Sawade/Landwehr/Scheffer, Maschnelles Lernen 22
Konjunkton von Eregnssen Wahrschenlchket für Entreten mehrerer Eregnsse: p( X= xy, = y) gemensame Wahrschenlchket f, ( xy, ) gemensame Dchte XY Gemensame Vertelung (dskret/kontnuerlch) pxy (, ) Sawade/Landwehr/Scheffer, Maschnelles Lernen 23
Bedngte Wahrschenlchketen We beenflusst zusätzlche Informaton de Wahrschenlchketsvertelung? Bedngte Wahrschenlchket enes Eregnsses: Bedngte Dchte: Bedngte Vertelung (dskret/kontnuerlch): px ( zusätzlche Informaton) px ( = xy = y) = f XY px ( Y) = ( x y) = pxy (, ) py ( ) p( X= xy, = y) py ( = y) f XY, f Y ( xy, ) ( y) dskret kontnuerlch 24 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Bedngte Wahrschenlchketen Produktregel pxy (, ) = px ( Y) py ( ) dskret/kontnuerlch Summenregel px ( = x) = px ( = xy, = y) y D f X( x) = f XY, ( x, y) dy dskret kontnuerlch px ( = x) hesst auch "Randwahrschenlchket" Sawade/Landwehr/Scheffer, Maschnelles Lernen 25
Gemensame und bedngte Wahrschenlchketen Zufällgen Punkt auf Fläche auswählen Bedngte Wahrschenlchket = py ( = y, X= x) j px ( = x) Gemensame Wahrschenlchket Randwahrschenlchket 26 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Wchtge Rechenregeln für Wahrschenlchketen Zufällgen Punkt auf Fläche auswählen Produktregel py ( = y, X = x ) = py ( = y X = x ) p( X = x ) j j Summenregel p( X = x ) = px ( = xy, = y ) c 1 px ( = x ) = = n N N nj nj c py ( = yj, X= x ) = = = py ( = yj X = x ) p( X = x ) N c N j j j = px ( = xy, = y) j j 27 j Sawade/Landwehr/Scheffer, Maschnelles Lernen
Unabhänggket Zwe Zufallsvarablen snd unabhängg, wenn: Äquvalent dazu pxy (, ) = px ( ) py ( ) p( X Y) = p( X) und py ( X) = py ( ) Bespel: wr würfeln zwemal mt farem Würfel, bekommen Augenzahlen x1, x2 ZV X snd unabhängg 1, X2 X = X + + 1 X X = X 2 1 X2 ZV und snd abhängg Sawade/Landwehr/Scheffer, Maschnelles Lernen 28
Erwartungswert Erwartungswert ener Zufallsvarable: E( X ) = xp( X = x) E( X ) = xp( x) dx x Veranschaulchung: gewchtetes Mttel, Schwerpunkt enes Stabes mt Dchte p(x) Rechenregeln Erwartungswert E( ax + b) = ae( X ) + b EX ( + Y) = EX ( ) + EY ( ) X dskrete ZV X kontnuerlche ZV mt Dchte p(x) 29 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Erwartungswert Erwartungswert addtv Summenregel E( X+ Y) = ( x+ y) p( X= xy, = y) xy, = xp( X = x, Y = y) + yp( X = x, Y = y) xy, xy, = x p( X= xy, = y) + y p( X= xy, = y) x y y x = xp( X = x) + yp( Y = y) x = E( X) + EY ( ) y Sawade/Landwehr/Scheffer, Maschnelles Lernen 30
Varanz, Standardabwechung Varanz: Erwartete quadrerte Abwechung von X von E(X) Mass für de Stärke der Streuung Var X E X E X x E X p X x 2 2 ( ) = (( ( )) ) = ( ( )) ( = ) x Standardabwechung Verschebungssatz 2 2 Var( X ) = E(( X E( X )) ) = ( x E( X )) p( x) dx σ = X Var(X ) VarX ( ) = EX ( ) EX ( ) 2 2 31 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Varanz, Standardabwechung Verschebungssatz Var X E X E X 2 ( ) = (( ( )) ) = EX EXX+ EX 2 2 ( 2 ( ) ( ) ) = EX ( ) 2 EXEX ( ) ( ) + EX ( ) 2 2 = EX ( ) EX ( ) 2 2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 32
Rechenregeln Varanz Rechenregeln Varanz/Standardabwechung Var ax b a Var X 2 ( + ) = ( ), Var( X + Y ) = Var( X ) + Var( Y ) + 2 Cov( X, Y ) Covaranz msst gemensame Schwankung der Varablen Falls Varablen unabhängg: Cov( X, Y ) = 0, σ aσ ax + b = X CovXY (, ) = E(( X EX ( ))( Y EY ( ))) = EXY ( ) EXEY ( ) ( ) Var( X + Y ) = Var( X ) + Var( Y ) Sawade/Landwehr/Scheffer, Maschnelles Lernen 33
Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) EX ( ) =? Sawade/Landwehr/Scheffer, Maschnelles Lernen 34
Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) E( X ) = xp( X = x) x {0,1} = 1µ + 0(1 µ ) = µ Sawade/Landwehr/Scheffer, Maschnelles Lernen 35
Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) E( X ) = xp( X = x) x {0,1} = 1µ + 0(1 µ ) = µ Erwartungswert Bnomalvertelung X ~ Bn( X N, µ ) N E( X ) = xp( X = x) x= 0 N N = x µ (1 µ ) x= 0 x =? X x N x N = X = 1 36 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) E( X ) = xp( X = x) x {0,1} = 1µ + 0(1 µ ) = µ Erwartungswert Bnomalvertelung X ~ Bn( X N, µ ) N E( X ) = xp( X = x) x= 0 N N = x µ (1 µ ) x= 0 x = Nµ X x N x N = X = 1 Summe der Erwartungswerte der Bernoull-Varablen 37 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Erwartungswert, Varanz Bnomalvertelung Varanz Bernoullvertelung? X ~ Bern( X µ ) Var( X ) =? Sawade/Landwehr/Scheffer, Maschnelles Lernen 38
Erwartungswert, Varanz Bnomalvertelung Varanz Bernoullvertelung? X ~ Bern( X µ ) Var( X ) =? Verschebungssatz: VarX ( ) = EX ( ) E( X ) 2 2 = = (1 2 µ µ µ µ ) ( ) Var X µ 39 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Erwartungswert, Varanz Bnomalvertelung Varanz Bnomalvertelung X X ~ Bn( X N, µ ) Var( X ) =? N = X = 1 X 1 X X ~ Bern( X µ ) = µ (1 µ ) Var( X ) = µ (1 µ ) Var( X ) = Nµ (1 µ ) X unabhängg Sawade/Landwehr/Scheffer, Maschnelles Lernen 40
Erwartungswert, Varanz Normalvertelung z = x µ Erwartungswert Normalvertelung X x µσ 2 ~ (, ) 2 E( X ) = x ( x µσ, ) dx 1 1 2 x exp ( x µ ) dx 2 1/2 2 (2 πσ ) 2σ = 1 1 = ( + ) exp (2 πσ ) 2σ 2 z µ z dz 2 1/2 2 2 2 exp 2 1/2 2 exp 2 1/2 2 1 1 1 1 = µ z dz + z z dz = µ (2 πσ ) 2 σ (2 πσ ) 2σ 41 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Erwartungswert, Varanz Normalvertelung z = x µ Erwartungswert Normalvertelung X x µσ 2 ~ (, ) 2 E( X ) = x ( x µσ, ) dx 1 1 2 x exp ( x µ ) dx 2 1/2 2 (2 πσ ) 2σ = 1 1 2 = ( z + µ ) exp z dz 2 1/2 2 (2 πσ ) 2σ 1 1 2 1 1 2 = µ exp exp 2 1/2 z dz z z dz µ 2 + 2 1/2 2 (2 πσ ) 2 σ = (2 πσ ) 2σ = 1 = 0 42 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Erwartungswert, Varanz Normalvertelung Varanz Normalvertelung Man kann zegen dass 2 2 X ~ ( x µσ, ) Var( X ) = σ Sawade/Landwehr/Scheffer, Maschnelles Lernen 43
Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Sawade/Landwehr/Scheffer, Maschnelles Lernen 44
Ernnerung: Problemstellung Lernen Engabe Lernproblem: Tranngsdaten. L = x ( x, y1),...,( x y, y 1 N N k Merkmalsvektoren ) Ausgabe: Klassfkator (auch als Modell bezechnet). f : X Labels Y Lnearer Klassfkator mt Parametervektor w. f w spam ok spam ( x) wx+ = ok: sonst T m wx= = 1 T spam : wenn b 0 wx 45 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Modellvorstellung Bayes sches Lernen Vele Verfahren des maschnellen Lernens baseren auf probablstschen Überlegungen Modellvorstellung bem Lernen: Jemand hat echtes Modell f * nach A-Pror Vertelung ( Pror ) p(f) gezogen f * st ncht bekannt, aber p(f) reflektert Vorwssen (was snd wahrschenlche Modelle?) Tranngsengaben x werden gezogen. * Klassenlabels y werden nach py ( x, f) gezogen. * Intuton: y = f ( x) * Um bespelswese Datenrauschen abzublden, y ~ py ( x, f) Fragestellung Lernen: Gegeben L und p(f), was st wahrschenlchstes echte Modell? Versuche, f * (ungefähr) zu rekonstrueren 46 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Bayessche Regel Wchtgstes Werkzeug m Bayes schen Lernen: Bayes sche Regel py ( X) p( X) px ( Y) = py ( ) Bewes enfach: Defnton bedngte Vertelung pxy (, ) py ( X) px ( ) px ( Y) = = py ( ) py ( ) Produktregel Wchtge Grundenscht für das maschnelle Lernen: Erlaubt den Rückschluss auf Modellwahrschenlchketen gegeben Wahrschenlchketen von Beobachtungen Sawade/Landwehr/Scheffer, Maschnelles Lernen
Bayessche Regel Anwendung Bayes sche Regel: Modellwahrschenlchket gegeben Daten und Vorwssen p( Modell Daten) = Interresanter Term: we st de Wahrschenlchket für Modelle, gegeben Evdenz der Tranngsdaten? p( Daten Modell) p( Modell) p( Daten) Erlaubt de Berechnung des maxmum a-posteror (MAP) Modells Modell MAP Relatv enfach anzugeben: we hoch st de Wahrschenlchket, bestmmte Daten zu sehen, unter der Annahme dass Modell das korrekte Modell st? = arg m ax p( Modell Daten) Modell Wahrschenlchket der Daten, unabhängg von Modell A-pror Vertelung über Modelle: Vorwssen Sawade/Landwehr/Scheffer, Maschnelles Lernen
Bayessche Regel Wahrschenlchket der Daten unnteressant, wel unabhängg von Modell p( Daten Modell) p( Modell) p( Modell Daten) = p( Daten) 1 = p( Daten Modell) p( Modell) Z p( Daten Modell) p( Modell) Notaton Prop-To : glech bs auf multplkatve Konstante Lkelhood: we gut erklärt Modell de Daten? Pror: we wahrschenlch st Modell a pror? Sawade/Landwehr/Scheffer, Maschnelles Lernen
Maxmum-A-Posteror-Hypothese Wahrschenlchstes Modell gegeben de Daten f = arg max p( f L) MAP f w p( Lf w) p( fw) = arg max fw pl ( ) = arg max p( Lf ) p( f ) f w Für ncht-negatve reellwertge Funktonen glt: arg max z G ( z) arg max log G ( z) = z Wel Logarthmus monoton: w w w Anwendung Bayes sche Regel Sawade/Landwehr/Scheffer, Maschnelles Lernen 50
Maxmum-A-Posteror-Hypothese Wahrschenlchstes Modell gegeben de Daten f = arg max p( Lf ) p( f ) MAP f = arg max log( p( Lf ) p( f )) f = arg mn log P( Lf ) log p( f ) f w w w Log-Pror Log-Lkelhood Optmerungskrterum bestehend aus log-lkelhood und log-pror Ernnerung: Lernen als Optmerungsproblem, Summe aus Verlustfunkton und Regularserer w w w w w w Sawade/Landwehr/Scheffer, Maschnelles Lernen 51
Log-Lkelhood We wahrschenlch snd de Daten gegeben das Modell? log pl ( fw) = log py ( 1,..., yn, x1,..., xn fw) = log( py ( 1,..., yn x1,..., xn, fw ) p( x1,..., xn)) = log py ( 1,..., yn x1,..., xn, fw ) log p( x1,..., xn) log py (,..., y x,..., x f ) + const Produktregel Annahme: Datenpunkte unabhängg Bespel: Label ener Emal hängt nur von Merkmalsvektor und Modell ab, ncht von anderen Merkmalsvektoren oder Labels Ensetzen ergbt =, 1 N 1 N w py (,..., y x,..., x, f ) = py ( x, fw ) 1 N 1 N w = 1 log p( L f ) = log p( y x, f ) + const w N = 1 N = 1 = log p( y x, f ) + const w w N Konstanter Faktor, unabhängg von f 52 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Log-Lkelhood Was st py ( f w, x )? Defnton mt Verlustfunkton, bespelswese Je höher der Verlust (Dfferenz zwschen Vorhersage und beobachtetem Label), desto gernger de Wahrschenlchket deser Beobachtung 1 py ( fw, x) = exp ( fw ( ), y) Z log p( y f, x ) = ( f ( x ), y ) + const Ensetzen ergbt ( f( x ), y 0: f ( x ) = c: f( x w w log p( L f ) = ( f ( ), y ) + const x w w Negatve Log-Lkelhood entsprcht Verlustterm! ) = y ) y Normalserer ( x ) Annahme: spezelle Exponentalvertelung 53 Sawade/Landwehr/Scheffer, Maschnelles Lernen
A-Pror-Wahrschenlchket (Pror) Was st a-pror Vertelung p( f w )? Ernnerung an Dskusson der Regularserer: Vorwssen: Modelle mt weng Attrbuten snd wahrschenlcher 2 Vorwssen: w eher klen Multvarate Normalvertelung p( f ) = ( w 0, σ w = 1 2πσ Negatver Log-Pror: 1 2 log p( fw ) = w + const 2 1 2 2 e σ 2 I) Negatver Log-Pror = Regularserer! w σ 2 2 Konstante Terme, unabhängg von f Größte Dchte be w=0 54 Sawade/Landwehr/Scheffer, Maschnelles Lernen
A-Posteror-Wahrschenlchket (Posteror) Wahrschenlchstes Modell gegeben Vorwssen und Daten. f = arg max p( f L) MAP f w = arg mn log p( Lf ) log p( f ) f w = arg mn f l( f ( x ), y) + λ w w w 1 λ = 2 ArgMn über regularserte Verlustfunkton! Rechtfertgung für Optmerungskrterum? w Wahrschenlchste Hypothese (MAP-Hypothese). w w 2 σ 2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 55
Lernen und Vorhersage Bsher haben wr mt Hlfe der Bayes schen Regel das wahrschenlchste Modell gegeben de Daten bestmmt: Löst Lernproblemstellung: Gegeben: Daten L, Vorwssen p(f) Gesucht: Modell f : Vorhersagen werden mt Hlfe des gelernten Modells getroffen: Zwestufger Prozess: f arg max p( f L) MAP = f w y = f MAP ( x) x neue Testnstanz Erst Modell Lernen Dann Vorhersage mt gelerntem Modell w 56 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Lernen und Vorhersage Wenn wr uns auf en Modell festlegen müssen, st MAP Modell snnvoll Aber egentlches Zel st Vorhersage ener Klasse! Besser, sch ncht auf en Modell festzulegen, solange noch Unscherhet über bestes Modell besteht Stattdessen Bayessche Vorhersage: drekt optmale Vorhersage ausrechnen, ohne sch auf Modell festzulegen Sawade/Landwehr/Scheffer, Maschnelles Lernen 57
Lernen und Vorhersage: Bespel Modellraum mt 4 Modellen: H = { f1, f2, f3, f4} Bnäres Klassfkatonsproblem, = {0,1} Tranngdaten L Wr haben a-posteror-wahrschenlchketen berechnet p( f1 L ) = 0.3 p( f L ) = 0.25 2 MAP Modell st f1 = arg max f pfl ( ) p( f3 L ) = 0.25 p( f4 L ) = 0.2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 58
Lernen und Vorhersage: Bespel Modelle probablstsche Klassfkatoren: f Modell lefert Wahrschenlchket für postve Klasse py ( = 1 x, f ) [0,1] ("80% Scherhet für Klasse Spam") Vorhersage: f 1: py ( = 1 x, f ) > 0. 5 ( x) = 0: sonst Sawade/Landwehr/Scheffer, Maschnelles Lernen 59
Lernen und Vorhersage: Bespel Bespel für probablstschen Klassfkator: Logstsche Regresson Lneares Modell: Entschedungsfunktonswert T py ( = 1 xw, ) = σ ( wx) p(y=1) T wx w Parametervektor 1 σ ( z) = 1 + exp( z ) logstsche Regresson Sawade/Landwehr/Scheffer, Maschnelles Lernen Entschedungsfunktonswert wx 60
Lernen und Vorhersage: Bespel Wr wollen neues Testbespel klassfzeren py ( = 1 x, f) = 0.6 py ( = 1, ) = 0.1 1 3 x f2 py x f4 Klassfkaton mt MAP Modell : Idee: ncht auf Modell festlegen, solange noch Unscherhet über Modelle besteht Alternatver Ansatz: Bestmme drekt de Wahrschenlchket für de optmale Vorhersage, gegeben de beobachteten Daten py ( = 1 x, L) =? x f 1 py ( = 1 x, f) = 0.2 ( = 1, ) = 0.3 y =1 Beobachtungen: Tranngsdaten L, Merkmalsvektor der Testnstanz x 61 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Lernen und Vorhersage: Bespel Ausrechnen: 4 py ( = 1 x, L) = py ( = 1, f x, L) = 1 4 = 1 4 = py ( = 1 x, f) pf ( L) = 1 Vorhersage y=0, unglech MAP-Modell! = py ( = 1 f, x, Lpf ) ( x, L) Summenregel Produktregel = 0.6*0.3+ 0.1*0.25 + 0.2*0.25 + 0.3*0.2 = 0.315 Sawade/Landwehr/Scheffer, Maschnelles Lernen 62
Lernen und Vorhersage: Bespel Wenn Zel Vorhersage st, sollten wr verwenden py ( = 1 x, L) Ncht auf en Modell festlegen, solange noch Unscherhet über Modelle besteht Grunddee der Bayesschen Vorhersage Sawade/Landwehr/Scheffer, Maschnelles Lernen 63
Bayessches Lernen und Vorhersage Problemstellung Bayes sche Vorhersage Gegeben: Tranngsdaten L, neue Testnstanz x. Gesucht: Vertelung über Labels y für gegebenes x: Bayessche Vorhersage: y* = arg max y py ( x, L) Mnmert Rsko ener falschen Vorhersage. py ( x, L) Heßt auch Bayes-optmale Entschedung oder Bayes-Hypothese. Sawade/Landwehr/Scheffer, Maschnelles Lernen 64
Bayessches Lernen und Vorhersage Berechnung Bayessche Vorhersage Summenregel Produktregel y* = arg max y py ( x, L) = arg max py (, θ x, Ld ) θ = arg max py ( θ, x) p( θ Ld ) θ Bayesan Model Averagng Bayes sche Vorhersage: y y Vorhersage, gegeben Modell Mtteln der Vorhersage über alle Modelle. Modell Modell gegeben Tranngsdaten Gewchtung: we gut passt Modell zu Tranngsdaten. θ 65 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Bayessches Lernen und Vorhersage Bayessche Vorhersage praktkabel? y* = arg max y py ( x, L) = arg max py ( x, θ) p( θ Ld ) θ y Bayesan Model Averagng: Mtteln über.a. unendlch vele Modelle We berechnen? Nur manchmal praktkabel, geschlossene Lösung. Kontrast zu Entschedungsbaumlernen: Fnde en Modell, das gut zu den Daten passt. Trff Vorhersagen für neue Instanzen baserend auf desem Modell. Trennt zwschen Lernen enes Modells und Vorhersage. Sawade/Landwehr/Scheffer, Maschnelles Lernen 66
Bayessches Lernen und Vorhersage We Bayes-Hypothese ausrechnen? y* = arg max y py ( x, L) = arg max py ( x, θ) p( θ Ld ) θ Wr brauchen: y 1) Wsk für Klassenlabel gegeben Modell, py ( x, θ ) z.b. lnearer probablstscher Klassfkator (logstsche Regresson) T py ( = 1 x, θ) = σ( wx) T py ( = 0 x, θ) = σ( wx) Sawade/Landwehr/Scheffer, Maschnelles Lernen
Bayessches Lernen und Vorhersage We Bayes-Hypothese ausrechnen? y* = arg max y py ( x, L) = arg max py ( x, θ) p( θ Ld ) θ Wr brauchen: y 2) Wsk für Modell gegeben Daten, a-posteror- Wahrschenlchket p( θ L) Ausrechnen mt Bayes Regel Sawade/Landwehr/Scheffer, Maschnelles Lernen
Bayessches Lernen und Vorhersage Berechnung der a-posteror Vertelung über Modelle Bayes Glechung Posteror, A-Posteror- Vertelung Bayessche Regel: Posteror = Lkelhood x Pror p( θ L) = pl ( θ) p( θ) pl ( ) 1 = pl ( θ) p ( θ) Z Normerungskonstante Lkelhood, We gut passt Modell zu Daten? Pror, A-Pror- Vertelung Sawade/Landwehr/Scheffer, Maschnelles Lernen 69
Bayessche Regel Brauchen: Lkelhood p(l θ). We wahrschenlch wären de Tranngsdaten, wenn θ das rchtge Modell wäre. We gut passt Modell zu den Daten. Typscherwese Unabhänggketsannahme: L= {( x, y ),...,( x, y )} 1 1 N pl ( θ) = py ( x, θ) = 1 N N Wahrschenlchket des n L beobachteten Klassenlabels gegeben Modell θ 70 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel lneare Modelle: Sawade/Landwehr/Scheffer, Maschnelles Lernen 71
Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel lneare Modelle: 2 w möglchst nedrg ( w = θ ) Sawade/Landwehr/Scheffer, Maschnelles Lernen 72
Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel Entschedungsbaumlernen: Sawade/Landwehr/Scheffer, Maschnelles Lernen 73
Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel Entschedungsbaumlernen: Klene Bäume snd n velen Fällen besser als komplexe Bäume. Algorthmen bevorzugen deshalb klene Bäume. Sawade/Landwehr/Scheffer, Maschnelles Lernen 74
Zusammenfassung Bayessche Vorhersage Um Rsko ener Fehlentschedung zu mnmeren: wähle Bayessche Vorhersage y= arg max py ( x, L) * = arg max y py ( x, θ ) p( θ Ld ) θ Problem: In velen Fällen gbt es kene geschlossene Lösung, Integraton über alle Modelle unpraktkabel. Maxmum-A-Posteror- (MAP-)Hypothese: wähle Entsprcht Entschedungsbaumlernen. Fnde bestes Modell aus Daten, Klassfzere nur mt desem Modell. y θ* = arg max θ p( θ L) y= arg max py ( x, θ ) * y * 75 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Zusammenfassung Bayessche Vorhersage Um MAP-Hypothese zu bestmmen müssen wr Posteror (Lkelhood x Pror) kennen. Unmöglch, wenn ken Vorwssen (Pror) exstert. Maxmum-Lkelhood- (ML-)Hypothese: θ* = arg max θ pl ( θ) y= arg max py ( x, θ ) * y * Berückschtgt nur Beobachtungen n L, ken Vorwssen. Problem der Überanpassung an Daten Sawade/Landwehr/Scheffer, Maschnelles Lernen 76
Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayes sche) Parameterschätzung für Wahrschenlchketsvertelungen Bayes sche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer, Maschnelles Lernen 77
Parameter von Vertelungen schätzen Oft können wr annehmen, dass Daten ener bestmmten Vertelung folgen Z.B. Bnomalvertelung für N Münzwürfe Z.B. Gaußvertelung für Körpergröße, IQ, Dese Vertelungen snd parametrsert Bnomalvertelung: Parameter µ st Wahrschenlchket für Kopf Gaußvertelung: Parameter µ, σ für Mttelwert und Standardabwechung Echte Wahrschenlchketen/Parameter kennen wr ne. Welche Aussagen über echte Wahrschenlchketen können wr machen, gegeben Daten? Sawade/Landwehr/Scheffer, Maschnelles Lernen 78
Parameter von Vertelungen schätzen Problemstellung Parameter von Vertelungen schätzen: Gegeben parametrserte Famle von Vertelungen (z.b. Bnomal, Gauß) mt Parametervektor θ Gegeben Daten L: Ausprägungen der Zufallsvarable Gesucht: a-posteror Vertelung P( θ L) bzw. maxmum a-posteror Schätzung * θ Verwende Bayessche Regel: P( θ L) = = arg max P( θ L) θ P( L θ ) P( θ ) P( L) 79 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Bnomalvertelte Daten Schätzen Bespel: Münzwurf, schätze Parameter μ =θ N Mal Münze werfen. Daten L: N k mal Kopf, N z mal Zahl. Beste Schätzung θ gegeben L? Bayes Glechung: Lkelhood der Daten gegeben Parameter, we gut erklärt Parameter de Beobachtungen? A-posteror Vertelung über Parameter, charaktersert wahrschenlche Parameterwerte und verblebende Ungewsshet P( θ L) = P( L θ ) P( θ ) P( L) A-pror Vertelung über Parameter, repräsentert Vorwssen Wahrschenlchket der Daten, nur Normalserer Sawade/Landwehr/Scheffer, Maschnelles Lernen 80
Bnomalvertelte Daten Schätzen Lkelhood der Daten: (θ = μ Wahrschenlchket für Kopf ) Lkelhood st bnomalvertelt: PL ( θ) = PN (, N θ) = Bn( N N, θ) k z PLθ ( ) k Nk + Nz Nk = θ (1 θ) Nk Wahrschenlchket, be N Münzwürfen N -mal Kopf und N Z -mal Zahl zu sehen, für Münzparameter θ N z k N = N + N k z 81 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Bnomalvertelte Daten Schätzen Was st der Pror P(θ ) m Münzwurfbespel? 1) Versuch: Ken Vorwssen Bespel: 1:0 θ 1 P( θ ) = Dchte 0: sonst Daten L = {Zahl,Zahl,Zahl} MAP Modell: * PL ( θ) P( θ) θ = arg max θ [0,1] P( θ L) = arg maxθ [0,1] PL ( ) 3 0 3 = arg max θ [0,1] PL ( θ) = arg max θ [0,1] θ (1 θ) = 0 0 Schlussfolgerung: Münze wrd nemals Kopf zegen Schlecht, Überanpassung an Daten ( Overfttng ) 82 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Bnomalvertelte Daten Schätzen ( θ [0,1]) Was st der Pror P(θ ) m Münzwurfbespel? Besser mt Vorwssen: Unwahrschenlch, dass Münze mmer Kopf oder mmer Zahl zegt Gutes Modell für Vorwssen über θ : Beta-Vertelung. P( θ) = Beta( θ αk, αz) Γ( αk + αz) θ k = (1 θ ) Γ( α )Γ( α ) k z α 1 α 1 Gamma-Funkton Γ(α) kontnuerlche Fortsetzung der Fakultätsfunkton z 1 t z t e dt Γ ( ) = n : Γ ( n) = ( n 1)! 0 z 0.5 Beta( θ 5,5) 83 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Bnomalvertelte Daten Schätzen α α k und α z snd Parameter der Beta-Vertelung ( Hyperparameter ) Beta-Vertelung st Vertelung über Vertelungen K = 5, α = 5 α = 1, α = 1 α = 4, α = 2 Z Normalserte Dchte K 1 0 Z Beta( θ α, α ) dθ = 1 K Z K Z Sawade/Landwehr/Scheffer, Maschnelles Lernen 84
Bnomalvertelte Daten Schätzen Warum gerade dese a-pror-vertelung? Strukturelle Ähnlchket mt Lkelhood: Pror Lkelhood Γ( αk + αz) k P( θ) = Beta( θ αk, αz)= θ (1 θ) Γ( α )Γ( α ) α 1 α 1 N + N P( L θ) = Bn( Nk N, θ ) = θ k ( 1 θ) Nk k Z N N Enfach, Beobachtungen zu berückschtgen: Produkt aus Lkelhood und Pror hat weder deselbe Form we Pror P( θ L) PL ( θ) P( θ) k z z z 85 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Bnomalvertelte Daten Schätzen Wenn wr den Beta-Pror n Bayes Glechung ensetzen, dann: PL ( θ) P( θ) P( θ L) = PL ( ) 1 = Bn( NK N, θ ) Beta ( θ αk, αz ) Z 1 Nk + Nz Nk N Γ( α z k + αz) k = θ (1 θ) θ (1 θ) Z Nk Γ( αk) Γ( αz) 1 αk+ Nk 1 α z+ Nz 1 = θ (1 θ) Z ' =? α 1 α 1 z Sawade/Landwehr/Scheffer, Maschnelles Lernen 86
Bnomalvertelte Daten Schätzen Wenn wr den Beta-Pror n Bayes Glechung ensetzen, dann: PL ( θ) P( θ) P( θ L) = PL ( ) 1 = Bn( NK N, θ ) Beta ( θ αk, αz ) Z 1 Nk + Nz Nk N Γ( α z k + αz) k = θ (1 θ) θ (1 θ) Z Nk Γ( αk) Γ( αz) 1 αk+ Nk 1 α z+ Nz 1 = θ (1 θ) Z ' Γ( αk + Nk + αz + Nz) αk+ Nk 1 α z+ Nz 1 = θ (1 θ) Γ( αk + Nk) Γ ( αz + Nz) = Beta( θ α + N, α + N ) k k z z α 1 α 1 Beta-Vertelung st konjugerter Pror: Posteror st weder Beta-vertelt z 87 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Zusammenfassung Bayessche Parameterschätzung Bnomalvertelung Zusammenfassung Berechnung der a-posteror Vertelung: Bayessche Regel P( θ L) = P( L θ ) P( θ ) P( L) Posteror P(θ L): We wahrschenlch st Modell θ, nachdem wr Daten L gesehen haben? Vorwssen P(θ ) und Evdenz der Tranngsdaten L werden zu neuem Gesamtwssen P(θ L) ntegrert. Bespel Münzwurf: Vorwssen Beta(θ α k, α z ) und Beobachtungen N k, N z werden zu Posteror Beta(θ α k +N k, α z +N z ). Sawade/Landwehr/Scheffer, Maschnelles Lernen 88
Münzwurf: Wahrschenlchste Wahrschenlchket Wahrschenlchster Parameter θ. arg max P( θ L) = arg max Beta( θ α + N, α + N ) Für = α = 1 ergbt sch ML Schätzung Interpretaton der Hyperparameter α 1/ α 1: αz 1/ αk 1 Pseudocounts, de auf beobachtete Counts N / N aufgeschlagen werden θ Ableten, Abletung null setzen ( ) α 1, α 1 z k z α k z Γ( αk + αz + Nk + Nz) = arg max θ θ (1 θ) Γ( α + N ) Γ ( α + N ) = k N θ Nk + αk 1 + N + α + α 2 k z k z k k z z k k z z α + N 1 α + N 1 k k z z Normalserer, unabhängg von θ we oft m Leben Münzwurf mt Kopf / Zahl gesehen? z k 89 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Münzwurf: Wahrschenlchste Wahrschenlchket Bespel MAP Schätzung Parameter Pror P( θ) = Beta( θ 5, 5) Posteror nach L={50x Kopf, 25x Zahl}: P( θ L) = Beta( θ 55, 30) N = 50, N = 25, α = 5, α = 5 k z k z * 54 MAP Schätzung: θ = arg max θ P( θ L) = 0.65 54 + 29 90 Sawade/Landwehr/Scheffer, Maschnelles Lernen
Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen (3) Chrstoph Sawade/Nels Landwehr Tobas Scheffer
Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Bayessche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer Maschnelles Lernen 2
Überblck Bayessche Lneare Regresson Modellbasertes Klassfkatonslernen: Nave Bayes Sawade/Landwehr/Scheffer Maschnelles Lernen 3
Wederholung: Regresson Regressonsproblem: X Matrxschrebwese Problemstellung Vorhersage: Tranngsdaten m L = ( x 1, y 1),...,( x N, y Merkmalsvektoren N ) x y reelles Zelattrbut Merkmalsvektoren 11 N1 = ( x1... xn ) = x x 1m Gegeben L, neues Testbespel x Fnde optmale Vorhersage y für x x x Nm Zugehörge Labels (Werte Zelattrbut) y1 y =... y N 4 Sawade/Landwehr/Scheffer Maschnelles Lernen
Exkurs: Multvarate Normalvertelung x Zufallsvarable x mt d Dmensonen. d normalvertelt, wenn Vertelung beschreben wrd durch Dchte 1 1 ( xμ, ) = exp x( μ ) 2π Σ 2 T 1 Σ Σ d /2 1/2 Mttelwertvektor μ Kovaranzmatrx Σ ( xμ Determnante Bespel d=2 d Koaranzmatrx entschedet, we Punkte streuen ) μ Sawade/Landwehr/Scheffer Maschnelles Lernen 5
Wederholung: Lneare Regresson Modellraum lneare Regresson: T f ( x w ) = wx w Parametervektor, Gewchtsvektor m = w + 0 wx Zusätzlches konstantes Attrbut x = 1 = 1 0 Lneare Abhänggket von ( x) von Parametern w Lneare Abhänggket von ( x) von Engaben x f w f w Sawade/Landwehr/Scheffer Maschnelles Lernen 6
Bayessche Regresson: Daten Modellvorstellung bem Bayesschen Lernen: Prozess der Datengenererung Echtes Modell f * wrd aus Pror-Vertelung P( f) gezogen Merkmalsvektoren x,..., 1 xn werden unabhängg vonenander gezogen (ncht modellert) Für jedes x wrd das Label y gezogen nach Vertelung Py ( (Anschauung: ) x, f* ) y ( ) f* x Daten L fertg generert We seht Py ( x, f) für Regressonsprobleme aus? * Sawade/Landwehr/Scheffer Maschnelles Lernen 7
Bayessche Regresson: Daten T Annahme, dass es echtes Modell f *( x) = xw* gbt, dass de Daten perfekt erklärt, unrealstsch Daten folgen ne genau ener Regressons- Geraden/Ebene Alternatve Annahme: Daten folgen f ( x) * bs auf klene, zufällge Abwechungen (Rauschen) Sawade/Landwehr/Scheffer Maschnelles Lernen 8
Bayessche Regresson: Daten Alternatve Annahme: Daten folgen f ( x) * bs auf klene, zufällge Abwechungen (Rauschen) Modellvorstellung: Zelattrbut y generert aus f ( x) * normalverteltes Rauschen y = f ( x) + ε mt ε ~ ( ε 0, σ 2 * ) f ( x ) * 0 f ( x) * plus Py x f = y f x σ 2 ( 0, *) ( *( 0), ) Parameter σ modellert Stärke des Rauschens 9 Sawade/Landwehr/Scheffer Maschnelles Lernen
Bayessche Regresson: Vorhersagevertelung Zel: Bayessche Vorhersage y* = arg max y Py ( x, L) Ernnerung: Berechnung mt Bayesan Model Averagng Vorhersage, gegeben Modell Modell gegeben Tranngsdaten Py ( x, L) = Py ( x, θ) P( θ Ld ) θ 1 P( θ L) = PL ( θ) P( θ) Z Lkelhood:Tranngsdaten gegeben Modell Pror über Modelle 10 Sawade/Landwehr/Scheffer Maschnelles Lernen
Bayessche Regresson: Lkelhood Lkelhood der Daten L: Zehen der x ncht modellert Nachrechnen: Multdmensonale Normalvertelung mt Kovaranzmatrx Enhetsmatrx σ 2 I 1 0... 0 0 1... 0 I =............ 0 0... 1 P( y X, w) = Py (,..., y X, w) Bespele unabhängg N 1 = Py ( x, w) = 1 N = y x w σ = 1 N T 2 (, ) ( X T, σ 2 ) = y w I X T T x1 w w =... T xn w T f ( x w ) = x w Vektor der Vorhersagen 11 Sawade/Landwehr/Scheffer Maschnelles Lernen
Bayessche Regresson: Pror Bayessches Lernen: Pror über Modelle f Modelle parametrsert durch Gewchtsvektor w Pror P(w) über Gewchtsvektoren Geegnete Pror-Vertelung: Normalvertelung Normalvertelung st konjugert zu sch selbst, normalvertelter Pror und normalvertelte Lkelhood ergeben weder normalvertelten Posteror Deshalb w ~ ( w 0, ) Σ p Σ p Kovaranzmatrx, oft Σ = σ I σ steuert Stärke des Prors 2 p erwarten klene Attrbutgewchte, w 2 klen p 2 p Sawade/Landwehr/Scheffer Maschnelles Lernen 12
Bayessche Regresson: Posteror Posteror-Vertelung über Modelle gegeben Daten Ohne Bewes 1 P( w L) = PL ( w) P( w) Bayessche Regel Z 1 = Σ Z T ( y X w, σ 2 I) ( w 0, p ) 1 (, A ) = w w mt w = σ 2 1 A X Posteror st weder normalvertelt, mt neuem Mttelwert w und Kovaranzmatrx y A T = σ 2 XX +Σ 1 p A 1 Sawade/Landwehr/Scheffer Maschnelles Lernen 13
Bayessche Regresson: Posteror Posteror: MAP-Hypothese: w = MAP? p L A 1 ( w ) = ( w w, ) Sawade/Landwehr/Scheffer Maschnelles Lernen 14
Bayessche Regresson: Posteror Posteror: MAP-Hypothese: w = w MAP 1 σ 2 p L A 1 ( w ) = ( w w, ) = A Xy Sawade/Landwehr/Scheffer Maschnelles Lernen 15
Sequentelles Update des Posterors Instanzen unabhängg Berechnung des Posteror als sequentelles Update: Aufmultplzeren der Lkelhood enzelner Instanzen P( w L) P( w) PL ( w) N = P( w) = Py (, ) 1 x w Lkelhood für enzeln an Pror multplzeren Se P( w) = P( w ) 0, P ( ) n w der Posteror, wenn wr nur de ersten n Instanzen n L verwenden: P( w L) P( w) Py ( 1 x1, w) Py ( 2 x2, w) Py ( 3 x3, w)... Py ( N xn, w) P1 ( w) P2 ( w) P3 ( w) P N ( w) y 16 Sawade/Landwehr/Scheffer Maschnelles Lernen
Sequentelles Update des Posterors Sequentelles Update: Datenpunkte nachenander anschauen Neue Informatonen (Datenpunkte) verändern Stück für Stück de Vertelung über w Sawade/Landwehr/Scheffer Maschnelles Lernen 17
Bespel Bayessche Regresson f( x) w wx = 0 + 1 (endmensonale Regresson) Sequentelles Update: P( w) = P( w) 0 P( w) = P( w) Sample aus P 0 0( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 18
Bespel Bayessche Regresson f( x) = w + wx 0 1 Sequentelles Update: Lkelhood Py ( x, w) 1 1 (endmensonale Regresson) P( w) P( w) Py ( x, w) 1 0 1 1 P ( w) 1 Datenpunkt x1, y1 y = f( x ) + ε 1 1 = w + wx + ε 0 1 1 w0= wx 1 1+ y1 ε Sample aus P ( w) 1 Sawade/Landwehr/Scheffer Maschnelles Lernen 19
Bespel Bayessche Regresson f( x) w wx = 0 + 1 (endmensonale Regresson) Sequentelles Update: Lkelhood Py ( x, w) 1 1 P( w) P( w) Py ( x, w) 1 0 1 1 Posteror P1 ( w) Sample aus P1 ( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 20
Bespel Bayessche Regresson f( x) = w + wx 0 1 Sequentelles Update: Py ( 2 x2, w) (endmensonale Regresson) P( w) P( w) Py ( x, w) 2 1 2 2 P ( w) Sample aus P 2 2( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 21
Bespel Bayessche Regresson f( x) = w + wx 0 1 Sequentelles Update: Py ( x, w) N N (endmensonale Regresson) P( w) P ( w) Py ( x, w) N N 1 N N P ( ) N w Sample aus PN ( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 22
Bayessche Regresson: Vorhersagevertelung Bayes sche Vorhersage: wahrschenlchstes y. Ernnerung: Berechnung mt Bayesan Model Averagng y* = arg max y Py ( x, L) Py ( x, L) = Py ( x, θ) P( θ Ld ) θ Bayesan Model Averagng Bayessche Vorhersage: Vorhersage, gegeben Modell Mtteln der Vorhersage über alle Modelle. Modell gegeben Tranngsdaten Gewchtung: we wahrschenlch st Modell a posteror. Sawade/Landwehr/Scheffer Maschnelles Lernen 23
Bayessche Regresson: Vorhersagevertelung Vorhersagevertelung weder normalvertelt: Ohne Bewes Py ( x, L) = Py ( xw, ) P( w Ld ) w mt = y xwσ w wa dw T 2 1 (, ) (, ) 1 ( T T y, A ) = xwx x 1 = σ 2 A T w Xy A σ 2 XX Optmale Vorhersage: Engabevektor multplzert: T y * = xw = +Σ 1 p x wrd mt w 24 Sawade/Landwehr/Scheffer Maschnelles Lernen
Bayessche Regresson: Vorhersagevertelung T y * = xw Bayessche Regresson lefert ncht nur optmale T Vorhersage y * = xw sondern Dchte von y und damt auch enen Konfdenzkorrdor. 1 ( T T y xwx, A x) x z.b. 95% Konfdenz 25 Sawade/Landwehr/Scheffer Maschnelles Lernen
Nchtlneare Bassfunktonen Enschränkung der bshergen Modelle: nur lneare Abhänggketen zwschen x und f(x). Lneare Daten Ncht-lneare Daten In velen Fällen nützlch: ncht-lneare Abhänggket Sawade/Landwehr/Scheffer Maschnelles Lernen 26
Nchtlneare Bassfunktonen Enfachster Weg: Lneare Regresson auf nchtlnearen Bassfunktonen Idee: Ncht auf den ursprünglchen x arbeten, sondern auf nchtlnearer Transformaton φ( x) Vortel: Berechnung von posteror und Bayes scher Vorhersage m Prnzp unverändert Bassfunktonen,..., : m m φ1 φ ursprünglcher Instanzenraum φ( x) d φ1 ( x) φ ( x)... φd ( x) 2 = d φ : m mestens d d m 27 Sawade/Landwehr/Scheffer Maschnelles Lernen
Nchtlneare Bassfunktonen Lneare Regresson n den Bassfunktonen T f ( x) = w φ( x) = w + wφ ( x) 0 d = 1 f(x) st lneare Kombnaton von Bassfunktonen Anschauung: Abbldung n höherdmensonalen Raum φ( ), lneare Regresson dort Sawade/Landwehr/Scheffer Maschnelles Lernen 28
Nchtlneare Bassfunktonen: Bespel y Bespel = φ ( x) = 1 f( x) = w + wφ ( x) + wφ ( x) Nchtlneare Funkton n x darstellbar als lneare Funkton n φ( x) f( x) 1 3x x 2 = + φ x x 0 1 1 2 2 φ ( x) = 2 y x 2 x 2 x 29 Sawade/Landwehr/Scheffer Maschnelles Lernen
Nchtlneare Bassfunktonen Bespele für ncht-lneare Bassfunktonen Polynome φ j ( x) = x j Sawade/Landwehr/Scheffer Maschnelles Lernen 30
Nchtlneare Bassfunktonen Bespele für ncht-lneare Bassfunktonen Gauss-Kurven ( x µ j ) φ j ( x) = exp 2 2s µ 1,..., µ d Mttelpunkte 2 s feste Varanz 2 Sawade/Landwehr/Scheffer Maschnelles Lernen 31
Nchtlneare Bassfunktonen Bespele für ncht-lneare Bassfunktonen Sgmode φ ( x) j x µ j = σ s 1 σ ( a) = 1 + exp( a ) µ 1,..., µ d Mttelpunkte s feste Skalerung Sawade/Landwehr/Scheffer Maschnelles Lernen 32
Regresson mt Bassfunktonen φ Funkton bldet m-dmensonalen Engabevektor x auf d-dmensonalen Merkmalsvektor ab. Regressonsmodell: f T ( ) ( ) x = w φ x Optmale Vorhersage we bsher, mt φ(x) statt x. ( T T 1 φ φ φ ) Py ( x, L) = y ( x) w, ( x) A ( x) y* = arg max py ( x, L) = φ( x) T w y φ( x) Transformerte Testnstanz A= σ ΦΦ + Σ = σ A Φ Φ = φ( X Transformerte Datenmatrx 2 T 1 1 p, w 2 y und ) 33 Sawade/Landwehr/Scheffer Maschnelles Lernen
Bespel Regresson mt Nchtlnearen Bassfunktonen Bespel für Regresson mt ncht-lnearen Bassfunktonen Generere ncht-lneare Datenpunkte durch y = x + x 2 sn(2 π ) ε ε ~ ( ε 0, σ ), [0,1] 9 Gaussche Bassfunktonen ( x µ j ) φ j ( x) = exp 2 2s We seht der Posteror P( w L) Vorhersagevertelung Py ( x, L) 2 µ = 0.1,..., µ = 0.9 1 9 und de aus? Sawade/Landwehr/Scheffer Maschnelles Lernen 34
Vorhersagevertelung f( x) N=1 N=4 Datenpunkt y = sn(2 π x) N=2 N=25 Sawade/Landwehr/Scheffer Maschnelles Lernen 35
Samples aus dem Posteror N=1 N=4 N=2 N=25 Sawade/Landwehr/Scheffer Maschnelles Lernen 36
Überblck Bayessche Lneare Regresson Modellbasertes Klassfkatonslernen: Nave Bayes Sawade/Landwehr/Scheffer Maschnelles Lernen 37
Klassfkatonsprobleme Tranngsdaten L L = ( x, y1),...,( x, y 1 N N Matrxschrebwese für Tranngsdaten L X Merkmalsvektoren X x 11 N1 = ( x1... xn ) = x Lernen: MAP Modell ) 1m x x Nm θmap = arg max θ P( θ L) = arg max PL ( θ) P( θ) θ x y Merkmalsvektoren dskrete Klassenlabels Zugehörge Klassenlabel y y1 y =... y N 38 Sawade/Landwehr/Scheffer Maschnelles Lernen
Modellbasertes und Dskrmnatves Lernen Lkelhood PLθ ( ) : welcher Tel der Daten L wrd modellert? Dskrmnatves Lernen: θ wrd so gewählt, dass es Werte der Klassenvarable y n den Daten gut modellert. Klassfkator soll nur y für jedes x gut vorhersagen. Wozu also gute Modellerung von X berückschtgen? Generatves (modellbasertes) Lernen: θmap = arg max θ P( θ) P( y X, θ) θmap = arg max θ P( θ) P( y, X θ) Dskrmnatve Lkelhood Generatve Lkelhood θ wrd so gewählt, dass es Merkmalsvektoren X und Werte der Klassenvarable y n den Daten gut modellert 39 Sawade/Landwehr/Scheffer Maschnelles Lernen
Modellbasert: Nave Bayes Nave Bayes: Modellbaserte Klassfkaton θmap = arg max θ P( θ) P( y, X θ) Lkelhood der Daten L: N unabhängge Instanzen mt Klassenlabels PL ( θ) = P( x,..., x, y,..., y θ) N = 1 1 N 1 = P( x, y θ ) N Sawade/Landwehr/Scheffer Maschnelles Lernen 40
Modellbasert: Nave Bayes We modelleren wr P( x, y θ )? Gemensame Vertelung (Produktregel) We modelleren wr P( x y, θ )? P( x, y θ)= Py ( θ) P( x y, θ) Klassenwahrschenlchket: z.b. P(spam) vs P(ncht spam). x1 x =... x m hochdmensonal, 2 m verschedene Werte (x bnär) Nave Unabhänggketsannahme x-vertelung gegeben Klasse: z.b. Wortvertelung n Spam-Emals Sawade/Landwehr/Scheffer Maschnelles Lernen 41
Nave Bayes: Unabhänggketsannahme Bedngte Unabhänggketsannahme: P( x y, θ) = Px ( y, θ) m = 1 Annahme: zwe Klassen, bnäre Attrbute x Attrbute unabhängg gegeben de Klasse y Modellerte Vertelungen (Modellparameter): y Pyθ ( ) Bernoull, mt Parameter θ = Py ( = 1 θ) Für {1,..., m} (Attrbute), c {0,1} (Klassen): Px ( y cθ, ) = Bernoull, mt Parameter θ x {0,1} xc = Px ( = 1 θ, y= c) Sawade/Landwehr/Scheffer Maschnelles Lernen 42
Nave Bayes: Lkelhood Lkelhood der Daten L mt bshergen Annahmen: N PL ( θ) = P ( x y θ) j= 1 j= 1 j, j N y m x y Py 1 j θ Px j 1 j yj θ = = j = ( ) (, ) Unabhänggket Instanzen N = Py ( j θ) P( x j yj, θ) Produktregel Bedngte Unabhänggket Attrbute, zuständge Modellparameter Sawade/Landwehr/Scheffer Maschnelles Lernen y = Klassenlabel j-te Instanz = Wert -tes Merkmal j-te Instanz j x j 43
Nave Bayes: Pror? Pror: Parametervektor θ besteht aus Pror-Vertelung: unabhängg für enzelne Parameter ( m x ) 0 x 1 =1 P y ( θ) = P ( θ ) P ( θ ) P ( θ ) Pror Klassenvertelung Konjugerter Pror Beta-Vertelung y y P( θ )~ Beta( θ α, α ) 0 1 Pror Merkmalsvertelungen, gegeben postve/negatve Klasse Für {1,..., m} (Attrbute), c {0,1} (Klassen): P Parameter für Klassenvertelung x 0 x 1 Parameter für Merkmalsvertelungen θ, θ ( = 1,..., m) x c x c ( θ )~ Beta( θ αx c, αx c) y θ 44 Sawade/Landwehr/Scheffer Maschnelles Lernen
Nave Bayes: Posteror A-posteror Vertelung weder Beta: Standardlösung für Münzwurfszenaro y A-posteror Vertelung für Parameter P( θ L) : y y P( θ L) = Beta( θ α + N, α + N ) θ mt y MAP N = 0 1 N N1+ α1 1 + α + N + α 2 0 0 1 1 0 0 1 1 : Anzahl Bespele mt Klasse 0 n N : Anzahl Bespele mt Klasse 1 n L L Sawade/Landwehr/Scheffer Maschnelles Lernen 45
Nave Bayes: Posteror A-posteror Vertelung für Parameter P( θ x c ): Für {1,..., m} (Attrbute), c {0,1} (Klassen): P L Beta N N mt xc xc ( θ ) = ( θ αxc + xc, αxc + xc ) θ xc MAP xc xc N : Anzahl Bespele mt x = 1 und Klasse c n L N : Anzahl Bespele mt x = 0 und Klasse c n L = N N + α 1 xc xc + α + N + α 2 xc xc xc xc Sawade/Landwehr/Scheffer Maschnelles Lernen 46
Nave Bayes: Lernalgorthmus Engabe: L= ( x, y ),...,( x, y ) 1 1 Schätze Klassenvertelung: θ Zähle 1 0 Für Klassen y=0 und y=1, für alle Attrbute : Zähle θ y MAP x y MAP = = N Alle Modellparameter gelernt! N N : Anzahl Bespele mt Klasse 1 n L N : Anzahl Bespele mt Klasse 0 n L x y x y x y x y x y x y x y x y N N : Anzahl Bespele mt x = 1 und Klasse y n L N : Anzahl Bespele mt x = 0 und Klasse y n L N N1+ α1 1 + α + N + α 2 0 0 1 1 N + α 1 + α + N + α 2 Sawade/Landwehr/Scheffer Maschnelles Lernen 47
Nave Bayes: Klassfkaton Engabe: Rückgabe: x1 x =... x m y* = arg max y Py ( x, θmap ) Laufzet bem Klassfzeren: Om ( ) m = Anzahl Attrbute Laufzet bem Lernen: O( Nm) y m x y arg max y Py ( θmap ) Px (, ) 1 yθmap = = Klassenvertelung Produkt der Attrbutvertelungen, gegeben Klasse N = Anzahl Tranngsnstanzen 48 Sawade/Landwehr/Scheffer Maschnelles Lernen
Nave Bayes: Egenschaften Enfach zu mplementeren, effzent, populär. Funktonert ok, wenn de Attrbute wrklch unabhängg snd. Das st aber häufg ncht der Fall. Unabhänggketsannahme und modellbasertes Tranng führen häufg zu schlechten Ergebnssen. Logstsche Regresson, Wnnow, Perzeptron snd mest besser. Sawade/Landwehr/Scheffer Maschnelles Lernen 49
Nave Bayes: Bespel Tranngsdaten: 1 2 3 x : Schufa pos. x : Student y: Rückzahlung ok? 1 2 Instanz x 1 1 1 Instanz x 1 0 1 Instanz x 0 1 0 Pror: alle Parameter α n den Beta-Vertelungen setzen wr auf α=2 (Pseudocounts: α-1=1) Gelernte Parameter/Hypothese? Sawade/Landwehr/Scheffer Maschnelles Lernen 50
Nave Bayes: Bespel Gelernte Parameter/Hypothese Merkmalsvertelungen x 1 Px ( y= 0) 0? 1? x 2 Klassenvertelung 1 0? 1? y Px ( y= 0) 2 Py ( ) 0? 1? Py ( ) Px ( y) x 1 Px ( y= 1) 1 0? 1? x 2 Px ( y= 1) 2 0? 1? 51 Sawade/Landwehr/Scheffer Maschnelles Lernen
Nave Bayes: Bespel Gelernte Parameter/Hypothese Merkmalsvertelungen x 1 Px ( y= 0) 0 2/3 1 1/3 x 2 0 1/3 1 2/3 Klassenpror y 1 Px ( y= 0) 2 Py ( ) 0 2/5 1 3/5 Py ( ) Px ( y) x 1 Px ( y= 1) 0 1/4 1 3/4 x 2 0 2/4 1 2/4 1 Px ( y= 1) 2 52 Sawade/Landwehr/Scheffer Maschnelles Lernen
Nave Bayes: Bespel Testanfrage: x = (Schufa pos = 0,Student = 0) Vorhersage: 4 3 > y* = 0 45 40 y* = arg max y Py ( x, θmap ) P( y = 0) P( x y = 0) = P( y = 0) P( x = 0 y = 0) P( x = 0 y = 0) 2 2 1 4 = = 5 3 3 45 1 2 P( y = 1) P( x y = 1) = P( y = 1) P( x = 0 y = 1) P( x = 0 y = 1) 3 1 2 3 = = 5 4 4 40 = arg max Py ( θ ) Px ( y, θ ) 1 2 m y MAP MAP = 1 53 Sawade/Landwehr/Scheffer Maschnelles Lernen