Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen

Größe: px
Ab Seite anzeigen:

Download "Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen"

Transkript

1 Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen Chrstoph Sawade/Nels Landwehr/Paul Prasse Slva Makowsk Tobas Scheffer

2 Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Bayessche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer, Maschnelles Lernen 2

3 Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Bayessche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer, Maschnelles Lernen 3

4 Statstk & Maschnelles Lernen Maschnelles Lernen: eng verwandt mt (nduktver) Statstk Zwe Gebete n der Statstk: Deskrptve Statstk: Beschrebung, Untersuchung von Egenschaften von Daten. Mttelwerte Induktve Statstk: Welche Schlussfolgerungen über de Realtät lassen sch aus Daten zehen? Erklärungen für Beobachtungen Varanzen Modellbldung Unterschede zwschen Populatonen Zusammenhänge, Muster n Daten 4 Sawade/Landwehr/Scheffer, Maschnelles Lernen

5 Thomas Bayes An essay towards solvng a problem n the doctrne of chances, 1764 veröffentlcht. Arbeten von Bayes grundlegend für nduktve Statstk. Bayessche Wahrschenlchketen wchtge Schtwese auf Unscherhet & Wahrschenlchket Sawade/Landwehr/Scheffer, Maschnelles Lernen 5

6 Frequentstsche / Bayessche Wahrschenlchket Frequentstsche Wahrschenlchketen Beschreben de Möglchket des Entretens ntrnssch stochastscher Eregnsse (z.b. Münzwurf). Defnton über relatve Häufgketen möglcher Ergebnsse enes wederholbaren Versuches Wenn man ene fare Münze 1000 Mal wrft, wrd etwa 500 Mal Kopf fallen In 1 Gramm Potassum-40 zerfallen pro Sekunde ca Atomkerne Sawade/Landwehr/Scheffer, Maschnelles Lernen 6

7 Frequentstsche / Bayessche Wahrschenlchket Bayessche, subjektve Wahrschenlchketen Grund der Unscherhet en Mangel an Informatonen We wahrschenlch st es, dass der Verdächtge X das Opfer umgebracht hat? Neue Informatonen (z.b. Fngerabdrücke) können dese subjektven Wahrschenlchketen verändern. Bayessche Schtwese m maschnellen Lernen wchtger Frequentstsche Schtwese auch manchmal verwendet, mathematsch äquvalent Sawade/Landwehr/Scheffer, Maschnelles Lernen 7

8 Bayessche Wahrschenlchketen m Maschnellen Lernen Modellbldung: Erklärungen für Beobachtungen fnden Was st das wahrschenlchste Modell? Abwägen zwschen Vorwssen (Pror über Modelle) Evdenz (Daten, Beobachtungen) Bayessche Schtwese: Evdenz (Daten) verändert subjektve Wahrschenlchketen für Modelle (Erklärungen) A-posteror Modellwahrschenlchket, MAP Hypothese Sawade/Landwehr/Scheffer, Maschnelles Lernen 8

9 Wahrschenlchketstheore, Zufallsvarablen Zufallsexperment: defnerter Prozess, n dem en Elementareregns ω erzeugt wrd. Eregnsraum Ω: Menge aller Elementareregnsse. Eregns A: Telmenge des Eregnsraums. Wahrschenlchketsfunkton p: Funkton, de Eregnssen A Ω Wahrschenlchketen zuwest. Sawade/Landwehr/Scheffer, Maschnelles Lernen 9

10 Wahrschenlchketstheore Gültge Wahrschenlchketsfunkton p (Kolmogorow-Axome) Wahrschenlchket von Eregns A Ω : Scheres Eregns: p( Ω ) = 1, und 0 pa ( ) 1 Für de Wahrschenlchket zweer nkompatbler Eregnsse A Ω, B Ω (d.h. A B= ) glt: pa ( B) = pa ( ) + pb ( ) p( ) = 0 Sawade/Landwehr/Scheffer, Maschnelles Lernen 10

11 Wahrschenlchketstheore: Bespel Würfeln Eregnsraum Ω={1, 2,3, 4,5,6} Elementareregnsse haben Wsk Eregns gerade Zahl: A = {2, 4,6} Wahrschenlchket des Eregnsses: p({ ω }) = 1/ 6 pa= ( ) 1/2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 11

12 Wahrschenlchketstheore, Zufallsvarablen Zufallsvarable X: Abbldung von Elementareregnssen auf numersche Werte Wahrschenlchket dafür, dass Eregns X=x entrtt (Zufallsvarable X wrd mt Wert x belegt). X : Ω ω x px ( = x) = p({ ω Ω X( ω) = x}) Zusammenfassen n Wahrschenlchketsvertelung, der Varable X unterlegt px ( ) Experment wesst Zufallsvarable X den Wert x= X( ω) zu Vertelung gbt an, we Wahrschenlchketen über Werte x vertelt snd X~ px ( ) X st vertelt nach p(x) 12 Sawade/Landwehr/Scheffer, Maschnelles Lernen

13 Zufallsvarable: Bespel Würfeln mt 2 Würfeln Eregnsraum Ω= {(, ) {1, 2,3, 4,5,6}} ω1 ω2 ω Elementareregnsse haben Wsk Zufallsvarable: Summe der bede Augenzahlen X (( ω, ω )) = ω + ω Wahrschenlchket für Wert der ZV: px= ( 5) =? p({( ω1, ω 2)}) = 1/ 36 Sawade/Landwehr/Scheffer, Maschnelles Lernen 13

14 Zufallsvarable: Bespel Würfeln mt 2 Würfeln Eregnsraum Ω= {(, ) {1, 2,3, 4,5,6}} ω1 ω2 ω Elementareregnsse haben Wsk Zufallsvarable: Summe der bede Würfel X (( ω, ω )) = ω + ω Wahrschenlchket für Wert der ZV: px ( = 5) = p({(1, 4),(2,3),(3, 2),(4,1)}) = 4 / 36 p({( ω1, ω 2)}) = 1/ 36 Sawade/Landwehr/Scheffer, Maschnelles Lernen 14

15 Dskrete/kontnuerlche Zufallsvarablen Dskrete Zufallsvarablen: D=X(Ω) dskret Kontnuerlche Zufallsvarablen: D=X(Ω) kontnuerlch Für dskrete Zufallsvarablen glt: x D px ( = x) = 1 D dskreter Werteberech Bespel: N Münzwürfe Zufallsvarablen X1,..., XN {0,1} Münzparameter μ gbt Wahrschenlchket für Kopf an px ( = 1) = µ px ( = 0) = 1 µ Wahrschenlchket für Kopf Wahrschenlchket für Zahl Sawade/Landwehr/Scheffer, Maschnelles Lernen X ~ Bern( X µ ) = µ (1 µ ) X X 1 Bernoull-Vertelung 15

16 Dskrete Zufallsvarablen Bespel: Anzahl Köpfe be N Münzwürfen ZV Anzahl Köpfe : Bnomal-Vertelung X ~ Bn( X N, µ ) Bn( X N, µ ) =? N X = X, X {0,..., N} = 1 Sawade/Landwehr/Scheffer, Maschnelles Lernen 16

17 Dskrete Zufallsvarablen Bespel: Anzahl Köpfe be N Münzwürfen ZV Anzahl Köpfe : Bnomal-Vertelung X ~ Bn( X N, µ ) N Bn( X N, µ ) = µ (1 µ ) X X N X N X = X, X {0,..., N} = 1 N = 10, µ = Sawade/Landwehr/Scheffer, Maschnelles Lernen

18 Kontnuerlche Zufallsvarablen Kontnuerlche Zufallsvarablen Unendlch (überabzählbar) vele Werte möglch Typscherwese Wahrschenlchket px ( = x) = 0 Statt Wahrschenlchketen für enzelne Werte: Dchtefunkton f X : Dchte der ZV X x : f X ( x) 0, ( x) = 1 f X Wahrschenlchket, dass ZV X Wert zwschen a und b annmmt b p( X [ a, b]) f ( x) dx, = a X f ( x ) > 1 möglch X 18 Sawade/Landwehr/Scheffer, Maschnelles Lernen

19 Kontnuerlche Zufallsvarablen Bespel: Körpergröße X X annähernd Gaußvertelt ( Normalvertelt ) X x µσ 2 ~ (, ) Dchte der Normalvertelung Sawade/Landwehr/Scheffer, Maschnelles Lernen z.b. µ = 170, σ = 10 19

20 Kontnuerlche Zufallsvarablen Bespel: Körpergröße We groß st de Wahrschenlchket, dass en Mensch genau 180cm groß st? px= ( 180) = 0 We groß st de Wahrschenlchket, dass en Mensch zwschen 180cm und 181cm groß st? ( [180,181]) = ( 170,10 ) 180 p X x dx Sawade/Landwehr/Scheffer, Maschnelles Lernen 20

21 Kontnuerlche Zufallsvarablen Vertelungsfunkton x F( x) p( X x) f ( z) dz, = = px ( [ ab, ]) = Fb ( ) Fa ( ) Dchte st Abletung der Vertelungsfunkton df( x) f X ( x) = dx Veranschaulchung Dchte: f ( x) = lmε X 0 X px ( [ x ε, x+ ε]) 2ε Sawade/Landwehr/Scheffer, Maschnelles Lernen 21

22 Notaton Notaton: wenn der Zusammenhang klar st, schreben wr auch manchmal px ( ) statt px ( = x) (dskrete Wahrschenlchket) px ( ) statt f ( x) (kontnuerlche Dchte) X Sawade/Landwehr/Scheffer, Maschnelles Lernen 22

23 Konjunkton von Eregnssen Wahrschenlchket für Entreten mehrerer Eregnsse: p( X= xy, = y) gemensame Wahrschenlchket f, ( xy, ) gemensame Dchte XY Gemensame Vertelung (dskret/kontnuerlch) pxy (, ) Sawade/Landwehr/Scheffer, Maschnelles Lernen 23

24 Bedngte Wahrschenlchketen We beenflusst zusätzlche Informaton de Wahrschenlchketsvertelung? Bedngte Wahrschenlchket enes Eregnsses: Bedngte Dchte: Bedngte Vertelung (dskret/kontnuerlch): px ( zusätzlche Informaton) px ( = xy = y) = f XY px ( Y) = ( x y) = pxy (, ) py ( ) p( X= xy, = y) py ( = y) f XY, f Y ( xy, ) ( y) dskret kontnuerlch 24 Sawade/Landwehr/Scheffer, Maschnelles Lernen

25 Bedngte Wahrschenlchketen Produktregel pxy (, ) = px ( Y) py ( ) dskret/kontnuerlch Summenregel px ( = x) = px ( = xy, = y) y D f X( x) = f XY, ( x, y) dy dskret kontnuerlch px ( = x) hesst auch "Randwahrschenlchket" Sawade/Landwehr/Scheffer, Maschnelles Lernen 25

26 Gemensame und bedngte Wahrschenlchketen Zufällgen Punkt auf Fläche auswählen Bedngte Wahrschenlchket = py ( = y, X= x) j px ( = x) Gemensame Wahrschenlchket Randwahrschenlchket 26 Sawade/Landwehr/Scheffer, Maschnelles Lernen

27 Wchtge Rechenregeln für Wahrschenlchketen Zufällgen Punkt auf Fläche auswählen Produktregel py ( = y, X = x ) = py ( = y X = x ) p( X = x ) j j Summenregel p( X = x ) = px ( = xy, = y ) c 1 px ( = x ) = = n N N nj nj c py ( = yj, X= x ) = = = py ( = yj X = x ) p( X = x ) N c N j j j = px ( = xy, = y) j j 27 j Sawade/Landwehr/Scheffer, Maschnelles Lernen

28 Unabhänggket Zwe Zufallsvarablen snd unabhängg, wenn: Äquvalent dazu pxy (, ) = px ( ) py ( ) p( X Y) = p( X) und py ( X) = py ( ) Bespel: wr würfeln zwemal mt farem Würfel, bekommen Augenzahlen x1, x2 ZV X snd unabhängg 1, X2 X = X X X = X 2 1 X2 ZV und snd abhängg Sawade/Landwehr/Scheffer, Maschnelles Lernen 28

29 Erwartungswert Erwartungswert ener Zufallsvarable: E( X ) = xp( X = x) E( X ) = xp( x) dx x Veranschaulchung: gewchtetes Mttel, Schwerpunkt enes Stabes mt Dchte p(x) Rechenregeln Erwartungswert E( ax + b) = ae( X ) + b EX ( + Y) = EX ( ) + EY ( ) X dskrete ZV X kontnuerlche ZV mt Dchte p(x) 29 Sawade/Landwehr/Scheffer, Maschnelles Lernen

30 Erwartungswert Erwartungswert addtv Summenregel E( X+ Y) = ( x+ y) p( X= xy, = y) xy, = xp( X = x, Y = y) + yp( X = x, Y = y) xy, xy, = x p( X= xy, = y) + y p( X= xy, = y) x y y x = xp( X = x) + yp( Y = y) x = E( X) + EY ( ) y Sawade/Landwehr/Scheffer, Maschnelles Lernen 30

31 Varanz, Standardabwechung Varanz: Erwartete quadrerte Abwechung von X von E(X) Mass für de Stärke der Streuung Var X E X E X x E X p X x 2 2 ( ) = (( ( )) ) = ( ( )) ( = ) x Standardabwechung Verschebungssatz 2 2 Var( X ) = E(( X E( X )) ) = ( x E( X )) p( x) dx σ = X Var(X ) VarX ( ) = EX ( ) EX ( ) Sawade/Landwehr/Scheffer, Maschnelles Lernen

32 Varanz, Standardabwechung Verschebungssatz Var X E X E X 2 ( ) = (( ( )) ) = EX EXX+ EX 2 2 ( 2 ( ) ( ) ) = EX ( ) 2 EXEX ( ) ( ) + EX ( ) 2 2 = EX ( ) EX ( ) 2 2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 32

33 Rechenregeln Varanz Rechenregeln Varanz/Standardabwechung Var ax b a Var X 2 ( + ) = ( ), Var( X + Y ) = Var( X ) + Var( Y ) + 2 Cov( X, Y ) Covaranz msst gemensame Schwankung der Varablen Falls Varablen unabhängg: Cov( X, Y ) = 0, σ aσ ax + b = X CovXY (, ) = E(( X EX ( ))( Y EY ( ))) = EXY ( ) EXEY ( ) ( ) Var( X + Y ) = Var( X ) + Var( Y ) Sawade/Landwehr/Scheffer, Maschnelles Lernen 33

34 Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) EX ( ) =? Sawade/Landwehr/Scheffer, Maschnelles Lernen 34

35 Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) E( X ) = xp( X = x) x {0,1} = 1µ + 0(1 µ ) = µ Sawade/Landwehr/Scheffer, Maschnelles Lernen 35

36 Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) E( X ) = xp( X = x) x {0,1} = 1µ + 0(1 µ ) = µ Erwartungswert Bnomalvertelung X ~ Bn( X N, µ ) N E( X ) = xp( X = x) x= 0 N N = x µ (1 µ ) x= 0 x =? X x N x N = X = 1 36 Sawade/Landwehr/Scheffer, Maschnelles Lernen

37 Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) E( X ) = xp( X = x) x {0,1} = 1µ + 0(1 µ ) = µ Erwartungswert Bnomalvertelung X ~ Bn( X N, µ ) N E( X ) = xp( X = x) x= 0 N N = x µ (1 µ ) x= 0 x = Nµ X x N x N = X = 1 Summe der Erwartungswerte der Bernoull-Varablen 37 Sawade/Landwehr/Scheffer, Maschnelles Lernen

38 Erwartungswert, Varanz Bnomalvertelung Varanz Bernoullvertelung? X ~ Bern( X µ ) Var( X ) =? Sawade/Landwehr/Scheffer, Maschnelles Lernen 38

39 Erwartungswert, Varanz Bnomalvertelung Varanz Bernoullvertelung? X ~ Bern( X µ ) Var( X ) =? Verschebungssatz: VarX ( ) = EX ( ) E( X ) 2 2 = = (1 2 µ µ µ µ ) ( ) Var X µ 39 Sawade/Landwehr/Scheffer, Maschnelles Lernen

40 Erwartungswert, Varanz Bnomalvertelung Varanz Bnomalvertelung X X ~ Bn( X N, µ ) Var( X ) =? N = X = 1 X 1 X X ~ Bern( X µ ) = µ (1 µ ) Var( X ) = µ (1 µ ) Var( X ) = Nµ (1 µ ) X unabhängg Sawade/Landwehr/Scheffer, Maschnelles Lernen 40

41 Erwartungswert, Varanz Normalvertelung z = x µ Erwartungswert Normalvertelung X x µσ 2 ~ (, ) 2 E( X ) = x ( x µσ, ) dx x exp ( x µ ) dx 2 1/2 2 (2 πσ ) 2σ = 1 1 = ( + ) exp (2 πσ ) 2σ 2 z µ z dz 2 1/ exp 2 1/2 2 exp 2 1/ = µ z dz + z z dz = µ (2 πσ ) 2 σ (2 πσ ) 2σ 41 Sawade/Landwehr/Scheffer, Maschnelles Lernen

42 Erwartungswert, Varanz Normalvertelung z = x µ Erwartungswert Normalvertelung X x µσ 2 ~ (, ) 2 E( X ) = x ( x µσ, ) dx x exp ( x µ ) dx 2 1/2 2 (2 πσ ) 2σ = = ( z + µ ) exp z dz 2 1/2 2 (2 πσ ) 2σ = µ exp exp 2 1/2 z dz z z dz µ /2 2 (2 πσ ) 2 σ = (2 πσ ) 2σ = 1 = 0 42 Sawade/Landwehr/Scheffer, Maschnelles Lernen

43 Erwartungswert, Varanz Normalvertelung Varanz Normalvertelung Man kann zegen dass 2 2 X ~ ( x µσ, ) Var( X ) = σ Sawade/Landwehr/Scheffer, Maschnelles Lernen 43

44 Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Sawade/Landwehr/Scheffer, Maschnelles Lernen 44

45 Ernnerung: Problemstellung Lernen Engabe Lernproblem: Tranngsdaten. L = x ( x, y1),...,( x y, y 1 N N k Merkmalsvektoren ) Ausgabe: Klassfkator (auch als Modell bezechnet). f : X Labels Y Lnearer Klassfkator mt Parametervektor w. f w spam ok spam ( x) wx+ = ok: sonst T m wx= = 1 T spam : wenn b 0 wx 45 Sawade/Landwehr/Scheffer, Maschnelles Lernen

46 Modellvorstellung Bayes sches Lernen Vele Verfahren des maschnellen Lernens baseren auf probablstschen Überlegungen Modellvorstellung bem Lernen: Jemand hat echtes Modell f * nach A-Pror Vertelung ( Pror ) p(f) gezogen f * st ncht bekannt, aber p(f) reflektert Vorwssen (was snd wahrschenlche Modelle?) Tranngsengaben x werden gezogen. * Klassenlabels y werden nach py ( x, f) gezogen. * Intuton: y = f ( x) * Um bespelswese Datenrauschen abzublden, y ~ py ( x, f) Fragestellung Lernen: Gegeben L und p(f), was st wahrschenlchstes echte Modell? Versuche, f * (ungefähr) zu rekonstrueren 46 Sawade/Landwehr/Scheffer, Maschnelles Lernen

47 Bayessche Regel Wchtgstes Werkzeug m Bayes schen Lernen: Bayes sche Regel py ( X) p( X) px ( Y) = py ( ) Bewes enfach: Defnton bedngte Vertelung pxy (, ) py ( X) px ( ) px ( Y) = = py ( ) py ( ) Produktregel Wchtge Grundenscht für das maschnelle Lernen: Erlaubt den Rückschluss auf Modellwahrschenlchketen gegeben Wahrschenlchketen von Beobachtungen Sawade/Landwehr/Scheffer, Maschnelles Lernen

48 Bayessche Regel Anwendung Bayes sche Regel: Modellwahrschenlchket gegeben Daten und Vorwssen p( Modell Daten) = Interresanter Term: we st de Wahrschenlchket für Modelle, gegeben Evdenz der Tranngsdaten? p( Daten Modell) p( Modell) p( Daten) Erlaubt de Berechnung des maxmum a-posteror (MAP) Modells Modell MAP Relatv enfach anzugeben: we hoch st de Wahrschenlchket, bestmmte Daten zu sehen, unter der Annahme dass Modell das korrekte Modell st? = arg m ax p( Modell Daten) Modell Wahrschenlchket der Daten, unabhängg von Modell A-pror Vertelung über Modelle: Vorwssen Sawade/Landwehr/Scheffer, Maschnelles Lernen

49 Bayessche Regel Wahrschenlchket der Daten unnteressant, wel unabhängg von Modell p( Daten Modell) p( Modell) p( Modell Daten) = p( Daten) 1 = p( Daten Modell) p( Modell) Z p( Daten Modell) p( Modell) Notaton Prop-To : glech bs auf multplkatve Konstante Lkelhood: we gut erklärt Modell de Daten? Pror: we wahrschenlch st Modell a pror? Sawade/Landwehr/Scheffer, Maschnelles Lernen

50 Maxmum-A-Posteror-Hypothese Wahrschenlchstes Modell gegeben de Daten f = arg max p( f L) MAP f w p( Lf w) p( fw) = arg max fw pl ( ) = arg max p( Lf ) p( f ) f w Für ncht-negatve reellwertge Funktonen glt: arg max z G ( z) arg max log G ( z) = z Wel Logarthmus monoton: w w w Anwendung Bayes sche Regel Sawade/Landwehr/Scheffer, Maschnelles Lernen 50

51 Maxmum-A-Posteror-Hypothese Wahrschenlchstes Modell gegeben de Daten f = arg max p( Lf ) p( f ) MAP f = arg max log( p( Lf ) p( f )) f = arg mn log P( Lf ) log p( f ) f w w w Log-Pror Log-Lkelhood Optmerungskrterum bestehend aus log-lkelhood und log-pror Ernnerung: Lernen als Optmerungsproblem, Summe aus Verlustfunkton und Regularserer w w w w w w Sawade/Landwehr/Scheffer, Maschnelles Lernen 51

52 Log-Lkelhood We wahrschenlch snd de Daten gegeben das Modell? log pl ( fw) = log py ( 1,..., yn, x1,..., xn fw) = log( py ( 1,..., yn x1,..., xn, fw ) p( x1,..., xn)) = log py ( 1,..., yn x1,..., xn, fw ) log p( x1,..., xn) log py (,..., y x,..., x f ) + const Produktregel Annahme: Datenpunkte unabhängg Bespel: Label ener Emal hängt nur von Merkmalsvektor und Modell ab, ncht von anderen Merkmalsvektoren oder Labels Ensetzen ergbt =, 1 N 1 N w py (,..., y x,..., x, f ) = py ( x, fw ) 1 N 1 N w = 1 log p( L f ) = log p( y x, f ) + const w N = 1 N = 1 = log p( y x, f ) + const w w N Konstanter Faktor, unabhängg von f 52 Sawade/Landwehr/Scheffer, Maschnelles Lernen

53 Log-Lkelhood Was st py ( f w, x )? Defnton mt Verlustfunkton, bespelswese Je höher der Verlust (Dfferenz zwschen Vorhersage und beobachtetem Label), desto gernger de Wahrschenlchket deser Beobachtung 1 py ( fw, x) = exp ( fw ( ), y) Z log p( y f, x ) = ( f ( x ), y ) + const Ensetzen ergbt ( f( x ), y 0: f ( x ) = c: f( x w w log p( L f ) = ( f ( ), y ) + const x w w Negatve Log-Lkelhood entsprcht Verlustterm! ) = y ) y Normalserer ( x ) Annahme: spezelle Exponentalvertelung 53 Sawade/Landwehr/Scheffer, Maschnelles Lernen

54 A-Pror-Wahrschenlchket (Pror) Was st a-pror Vertelung p( f w )? Ernnerung an Dskusson der Regularserer: Vorwssen: Modelle mt weng Attrbuten snd wahrschenlcher 2 Vorwssen: w eher klen Multvarate Normalvertelung p( f ) = ( w 0, σ w = 1 2πσ Negatver Log-Pror: 1 2 log p( fw ) = w + const e σ 2 I) Negatver Log-Pror = Regularserer! w σ 2 2 Konstante Terme, unabhängg von f Größte Dchte be w=0 54 Sawade/Landwehr/Scheffer, Maschnelles Lernen

55 A-Posteror-Wahrschenlchket (Posteror) Wahrschenlchstes Modell gegeben Vorwssen und Daten. f = arg max p( f L) MAP f w = arg mn log p( Lf ) log p( f ) f w = arg mn f l( f ( x ), y) + λ w w w 1 λ = 2 ArgMn über regularserte Verlustfunkton! Rechtfertgung für Optmerungskrterum? w Wahrschenlchste Hypothese (MAP-Hypothese). w w 2 σ 2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 55

56 Lernen und Vorhersage Bsher haben wr mt Hlfe der Bayes schen Regel das wahrschenlchste Modell gegeben de Daten bestmmt: Löst Lernproblemstellung: Gegeben: Daten L, Vorwssen p(f) Gesucht: Modell f : Vorhersagen werden mt Hlfe des gelernten Modells getroffen: Zwestufger Prozess: f arg max p( f L) MAP = f w y = f MAP ( x) x neue Testnstanz Erst Modell Lernen Dann Vorhersage mt gelerntem Modell w 56 Sawade/Landwehr/Scheffer, Maschnelles Lernen

57 Lernen und Vorhersage Wenn wr uns auf en Modell festlegen müssen, st MAP Modell snnvoll Aber egentlches Zel st Vorhersage ener Klasse! Besser, sch ncht auf en Modell festzulegen, solange noch Unscherhet über bestes Modell besteht Stattdessen Bayessche Vorhersage: drekt optmale Vorhersage ausrechnen, ohne sch auf Modell festzulegen Sawade/Landwehr/Scheffer, Maschnelles Lernen 57

58 Lernen und Vorhersage: Bespel Modellraum mt 4 Modellen: H = { f1, f2, f3, f4} Bnäres Klassfkatonsproblem, = {0,1} Tranngdaten L Wr haben a-posteror-wahrschenlchketen berechnet p( f1 L ) = 0.3 p( f L ) = MAP Modell st f1 = arg max f pfl ( ) p( f3 L ) = 0.25 p( f4 L ) = 0.2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 58

59 Lernen und Vorhersage: Bespel Modelle probablstsche Klassfkatoren: f Modell lefert Wahrschenlchket für postve Klasse py ( = 1 x, f ) [0,1] ("80% Scherhet für Klasse Spam") Vorhersage: f 1: py ( = 1 x, f ) > 0. 5 ( x) = 0: sonst Sawade/Landwehr/Scheffer, Maschnelles Lernen 59

60 Lernen und Vorhersage: Bespel Bespel für probablstschen Klassfkator: Logstsche Regresson Lneares Modell: Entschedungsfunktonswert T py ( = 1 xw, ) = σ ( wx) p(y=1) T wx w Parametervektor 1 σ ( z) = 1 + exp( z ) logstsche Regresson Sawade/Landwehr/Scheffer, Maschnelles Lernen Entschedungsfunktonswert wx 60

61 Lernen und Vorhersage: Bespel Wr wollen neues Testbespel klassfzeren py ( = 1 x, f) = 0.6 py ( = 1, ) = x f2 py x f4 Klassfkaton mt MAP Modell : Idee: ncht auf Modell festlegen, solange noch Unscherhet über Modelle besteht Alternatver Ansatz: Bestmme drekt de Wahrschenlchket für de optmale Vorhersage, gegeben de beobachteten Daten py ( = 1 x, L) =? x f 1 py ( = 1 x, f) = 0.2 ( = 1, ) = 0.3 y =1 Beobachtungen: Tranngsdaten L, Merkmalsvektor der Testnstanz x 61 Sawade/Landwehr/Scheffer, Maschnelles Lernen

62 Lernen und Vorhersage: Bespel Ausrechnen: 4 py ( = 1 x, L) = py ( = 1, f x, L) = 1 4 = 1 4 = py ( = 1 x, f) pf ( L) = 1 Vorhersage y=0, unglech MAP-Modell! = py ( = 1 f, x, Lpf ) ( x, L) Summenregel Produktregel = 0.6* * * *0.2 = Sawade/Landwehr/Scheffer, Maschnelles Lernen 62

63 Lernen und Vorhersage: Bespel Wenn Zel Vorhersage st, sollten wr verwenden py ( = 1 x, L) Ncht auf en Modell festlegen, solange noch Unscherhet über Modelle besteht Grunddee der Bayesschen Vorhersage Sawade/Landwehr/Scheffer, Maschnelles Lernen 63

64 Bayessches Lernen und Vorhersage Problemstellung Bayes sche Vorhersage Gegeben: Tranngsdaten L, neue Testnstanz x. Gesucht: Vertelung über Labels y für gegebenes x: Bayessche Vorhersage: y* = arg max y py ( x, L) Mnmert Rsko ener falschen Vorhersage. py ( x, L) Heßt auch Bayes-optmale Entschedung oder Bayes-Hypothese. Sawade/Landwehr/Scheffer, Maschnelles Lernen 64

65 Bayessches Lernen und Vorhersage Berechnung Bayessche Vorhersage Summenregel Produktregel y* = arg max y py ( x, L) = arg max py (, θ x, Ld ) θ = arg max py ( θ, x) p( θ Ld ) θ Bayesan Model Averagng Bayes sche Vorhersage: y y Vorhersage, gegeben Modell Mtteln der Vorhersage über alle Modelle. Modell Modell gegeben Tranngsdaten Gewchtung: we gut passt Modell zu Tranngsdaten. θ 65 Sawade/Landwehr/Scheffer, Maschnelles Lernen

66 Bayessches Lernen und Vorhersage Bayessche Vorhersage praktkabel? y* = arg max y py ( x, L) = arg max py ( x, θ) p( θ Ld ) θ y Bayesan Model Averagng: Mtteln über.a. unendlch vele Modelle We berechnen? Nur manchmal praktkabel, geschlossene Lösung. Kontrast zu Entschedungsbaumlernen: Fnde en Modell, das gut zu den Daten passt. Trff Vorhersagen für neue Instanzen baserend auf desem Modell. Trennt zwschen Lernen enes Modells und Vorhersage. Sawade/Landwehr/Scheffer, Maschnelles Lernen 66

67 Bayessches Lernen und Vorhersage We Bayes-Hypothese ausrechnen? y* = arg max y py ( x, L) = arg max py ( x, θ) p( θ Ld ) θ Wr brauchen: y 1) Wsk für Klassenlabel gegeben Modell, py ( x, θ ) z.b. lnearer probablstscher Klassfkator (logstsche Regresson) T py ( = 1 x, θ) = σ( wx) T py ( = 0 x, θ) = σ( wx) Sawade/Landwehr/Scheffer, Maschnelles Lernen

68 Bayessches Lernen und Vorhersage We Bayes-Hypothese ausrechnen? y* = arg max y py ( x, L) = arg max py ( x, θ) p( θ Ld ) θ Wr brauchen: y 2) Wsk für Modell gegeben Daten, a-posteror- Wahrschenlchket p( θ L) Ausrechnen mt Bayes Regel Sawade/Landwehr/Scheffer, Maschnelles Lernen

69 Bayessches Lernen und Vorhersage Berechnung der a-posteror Vertelung über Modelle Bayes Glechung Posteror, A-Posteror- Vertelung Bayessche Regel: Posteror = Lkelhood x Pror p( θ L) = pl ( θ) p( θ) pl ( ) 1 = pl ( θ) p ( θ) Z Normerungskonstante Lkelhood, We gut passt Modell zu Daten? Pror, A-Pror- Vertelung Sawade/Landwehr/Scheffer, Maschnelles Lernen 69

70 Bayessche Regel Brauchen: Lkelhood p(l θ). We wahrschenlch wären de Tranngsdaten, wenn θ das rchtge Modell wäre. We gut passt Modell zu den Daten. Typscherwese Unabhänggketsannahme: L= {( x, y ),...,( x, y )} 1 1 N pl ( θ) = py ( x, θ) = 1 N N Wahrschenlchket des n L beobachteten Klassenlabels gegeben Modell θ 70 Sawade/Landwehr/Scheffer, Maschnelles Lernen

71 Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel lneare Modelle: Sawade/Landwehr/Scheffer, Maschnelles Lernen 71

72 Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel lneare Modelle: 2 w möglchst nedrg ( w = θ ) Sawade/Landwehr/Scheffer, Maschnelles Lernen 72

73 Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel Entschedungsbaumlernen: Sawade/Landwehr/Scheffer, Maschnelles Lernen 73

74 Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel Entschedungsbaumlernen: Klene Bäume snd n velen Fällen besser als komplexe Bäume. Algorthmen bevorzugen deshalb klene Bäume. Sawade/Landwehr/Scheffer, Maschnelles Lernen 74

75 Zusammenfassung Bayessche Vorhersage Um Rsko ener Fehlentschedung zu mnmeren: wähle Bayessche Vorhersage y= arg max py ( x, L) * = arg max y py ( x, θ ) p( θ Ld ) θ Problem: In velen Fällen gbt es kene geschlossene Lösung, Integraton über alle Modelle unpraktkabel. Maxmum-A-Posteror- (MAP-)Hypothese: wähle Entsprcht Entschedungsbaumlernen. Fnde bestes Modell aus Daten, Klassfzere nur mt desem Modell. y θ* = arg max θ p( θ L) y= arg max py ( x, θ ) * y * 75 Sawade/Landwehr/Scheffer, Maschnelles Lernen

76 Zusammenfassung Bayessche Vorhersage Um MAP-Hypothese zu bestmmen müssen wr Posteror (Lkelhood x Pror) kennen. Unmöglch, wenn ken Vorwssen (Pror) exstert. Maxmum-Lkelhood- (ML-)Hypothese: θ* = arg max θ pl ( θ) y= arg max py ( x, θ ) * y * Berückschtgt nur Beobachtungen n L, ken Vorwssen. Problem der Überanpassung an Daten Sawade/Landwehr/Scheffer, Maschnelles Lernen 76

77 Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayes sche) Parameterschätzung für Wahrschenlchketsvertelungen Bayes sche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer, Maschnelles Lernen 77

78 Parameter von Vertelungen schätzen Oft können wr annehmen, dass Daten ener bestmmten Vertelung folgen Z.B. Bnomalvertelung für N Münzwürfe Z.B. Gaußvertelung für Körpergröße, IQ, Dese Vertelungen snd parametrsert Bnomalvertelung: Parameter µ st Wahrschenlchket für Kopf Gaußvertelung: Parameter µ, σ für Mttelwert und Standardabwechung Echte Wahrschenlchketen/Parameter kennen wr ne. Welche Aussagen über echte Wahrschenlchketen können wr machen, gegeben Daten? Sawade/Landwehr/Scheffer, Maschnelles Lernen 78

79 Parameter von Vertelungen schätzen Problemstellung Parameter von Vertelungen schätzen: Gegeben parametrserte Famle von Vertelungen (z.b. Bnomal, Gauß) mt Parametervektor θ Gegeben Daten L: Ausprägungen der Zufallsvarable Gesucht: a-posteror Vertelung P( θ L) bzw. maxmum a-posteror Schätzung * θ Verwende Bayessche Regel: P( θ L) = = arg max P( θ L) θ P( L θ ) P( θ ) P( L) 79 Sawade/Landwehr/Scheffer, Maschnelles Lernen

80 Bnomalvertelte Daten Schätzen Bespel: Münzwurf, schätze Parameter μ =θ N Mal Münze werfen. Daten L: N k mal Kopf, N z mal Zahl. Beste Schätzung θ gegeben L? Bayes Glechung: Lkelhood der Daten gegeben Parameter, we gut erklärt Parameter de Beobachtungen? A-posteror Vertelung über Parameter, charaktersert wahrschenlche Parameterwerte und verblebende Ungewsshet P( θ L) = P( L θ ) P( θ ) P( L) A-pror Vertelung über Parameter, repräsentert Vorwssen Wahrschenlchket der Daten, nur Normalserer Sawade/Landwehr/Scheffer, Maschnelles Lernen 80

81 Bnomalvertelte Daten Schätzen Lkelhood der Daten: (θ = μ Wahrschenlchket für Kopf ) Lkelhood st bnomalvertelt: PL ( θ) = PN (, N θ) = Bn( N N, θ) k z PLθ ( ) k Nk + Nz Nk = θ (1 θ) Nk Wahrschenlchket, be N Münzwürfen N -mal Kopf und N Z -mal Zahl zu sehen, für Münzparameter θ N z k N = N + N k z 81 Sawade/Landwehr/Scheffer, Maschnelles Lernen

82 Bnomalvertelte Daten Schätzen Was st der Pror P(θ ) m Münzwurfbespel? 1) Versuch: Ken Vorwssen Bespel: 1:0 θ 1 P( θ ) = Dchte 0: sonst Daten L = {Zahl,Zahl,Zahl} MAP Modell: * PL ( θ) P( θ) θ = arg max θ [0,1] P( θ L) = arg maxθ [0,1] PL ( ) = arg max θ [0,1] PL ( θ) = arg max θ [0,1] θ (1 θ) = 0 0 Schlussfolgerung: Münze wrd nemals Kopf zegen Schlecht, Überanpassung an Daten ( Overfttng ) 82 Sawade/Landwehr/Scheffer, Maschnelles Lernen

83 Bnomalvertelte Daten Schätzen ( θ [0,1]) Was st der Pror P(θ ) m Münzwurfbespel? Besser mt Vorwssen: Unwahrschenlch, dass Münze mmer Kopf oder mmer Zahl zegt Gutes Modell für Vorwssen über θ : Beta-Vertelung. P( θ) = Beta( θ αk, αz) Γ( αk + αz) θ k = (1 θ ) Γ( α )Γ( α ) k z α 1 α 1 Gamma-Funkton Γ(α) kontnuerlche Fortsetzung der Fakultätsfunkton z 1 t z t e dt Γ ( ) = n : Γ ( n) = ( n 1)! 0 z 0.5 Beta( θ 5,5) 83 Sawade/Landwehr/Scheffer, Maschnelles Lernen

84 Bnomalvertelte Daten Schätzen α α k und α z snd Parameter der Beta-Vertelung ( Hyperparameter ) Beta-Vertelung st Vertelung über Vertelungen K = 5, α = 5 α = 1, α = 1 α = 4, α = 2 Z Normalserte Dchte K 1 0 Z Beta( θ α, α ) dθ = 1 K Z K Z Sawade/Landwehr/Scheffer, Maschnelles Lernen 84

85 Bnomalvertelte Daten Schätzen Warum gerade dese a-pror-vertelung? Strukturelle Ähnlchket mt Lkelhood: Pror Lkelhood Γ( αk + αz) k P( θ) = Beta( θ αk, αz)= θ (1 θ) Γ( α )Γ( α ) α 1 α 1 N + N P( L θ) = Bn( Nk N, θ ) = θ k ( 1 θ) Nk k Z N N Enfach, Beobachtungen zu berückschtgen: Produkt aus Lkelhood und Pror hat weder deselbe Form we Pror P( θ L) PL ( θ) P( θ) k z z z 85 Sawade/Landwehr/Scheffer, Maschnelles Lernen

86 Bnomalvertelte Daten Schätzen Wenn wr den Beta-Pror n Bayes Glechung ensetzen, dann: PL ( θ) P( θ) P( θ L) = PL ( ) 1 = Bn( NK N, θ ) Beta ( θ αk, αz ) Z 1 Nk + Nz Nk N Γ( α z k + αz) k = θ (1 θ) θ (1 θ) Z Nk Γ( αk) Γ( αz) 1 αk+ Nk 1 α z+ Nz 1 = θ (1 θ) Z ' =? α 1 α 1 z Sawade/Landwehr/Scheffer, Maschnelles Lernen 86

87 Bnomalvertelte Daten Schätzen Wenn wr den Beta-Pror n Bayes Glechung ensetzen, dann: PL ( θ) P( θ) P( θ L) = PL ( ) 1 = Bn( NK N, θ ) Beta ( θ αk, αz ) Z 1 Nk + Nz Nk N Γ( α z k + αz) k = θ (1 θ) θ (1 θ) Z Nk Γ( αk) Γ( αz) 1 αk+ Nk 1 α z+ Nz 1 = θ (1 θ) Z ' Γ( αk + Nk + αz + Nz) αk+ Nk 1 α z+ Nz 1 = θ (1 θ) Γ( αk + Nk) Γ ( αz + Nz) = Beta( θ α + N, α + N ) k k z z α 1 α 1 Beta-Vertelung st konjugerter Pror: Posteror st weder Beta-vertelt z 87 Sawade/Landwehr/Scheffer, Maschnelles Lernen

88 Zusammenfassung Bayessche Parameterschätzung Bnomalvertelung Zusammenfassung Berechnung der a-posteror Vertelung: Bayessche Regel P( θ L) = P( L θ ) P( θ ) P( L) Posteror P(θ L): We wahrschenlch st Modell θ, nachdem wr Daten L gesehen haben? Vorwssen P(θ ) und Evdenz der Tranngsdaten L werden zu neuem Gesamtwssen P(θ L) ntegrert. Bespel Münzwurf: Vorwssen Beta(θ α k, α z ) und Beobachtungen N k, N z werden zu Posteror Beta(θ α k +N k, α z +N z ). Sawade/Landwehr/Scheffer, Maschnelles Lernen 88

89 Münzwurf: Wahrschenlchste Wahrschenlchket Wahrschenlchster Parameter θ. arg max P( θ L) = arg max Beta( θ α + N, α + N ) Für = α = 1 ergbt sch ML Schätzung Interpretaton der Hyperparameter α 1/ α 1: αz 1/ αk 1 Pseudocounts, de auf beobachtete Counts N / N aufgeschlagen werden θ Ableten, Abletung null setzen ( ) α 1, α 1 z k z α k z Γ( αk + αz + Nk + Nz) = arg max θ θ (1 θ) Γ( α + N ) Γ ( α + N ) = k N θ Nk + αk 1 + N + α + α 2 k z k z k k z z k k z z α + N 1 α + N 1 k k z z Normalserer, unabhängg von θ we oft m Leben Münzwurf mt Kopf / Zahl gesehen? z k 89 Sawade/Landwehr/Scheffer, Maschnelles Lernen

90 Münzwurf: Wahrschenlchste Wahrschenlchket Bespel MAP Schätzung Parameter Pror P( θ) = Beta( θ 5, 5) Posteror nach L={50x Kopf, 25x Zahl}: P( θ L) = Beta( θ 55, 30) N = 50, N = 25, α = 5, α = 5 k z k z * 54 MAP Schätzung: θ = arg max θ P( θ L) = Sawade/Landwehr/Scheffer, Maschnelles Lernen

91 Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen (3) Chrstoph Sawade/Nels Landwehr Tobas Scheffer

92 Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Bayessche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer Maschnelles Lernen 2

93 Überblck Bayessche Lneare Regresson Modellbasertes Klassfkatonslernen: Nave Bayes Sawade/Landwehr/Scheffer Maschnelles Lernen 3

94 Wederholung: Regresson Regressonsproblem: X Matrxschrebwese Problemstellung Vorhersage: Tranngsdaten m L = ( x 1, y 1),...,( x N, y Merkmalsvektoren N ) x y reelles Zelattrbut Merkmalsvektoren 11 N1 = ( x1... xn ) = x x 1m Gegeben L, neues Testbespel x Fnde optmale Vorhersage y für x x x Nm Zugehörge Labels (Werte Zelattrbut) y1 y =... y N 4 Sawade/Landwehr/Scheffer Maschnelles Lernen

95 Exkurs: Multvarate Normalvertelung x Zufallsvarable x mt d Dmensonen. d normalvertelt, wenn Vertelung beschreben wrd durch Dchte 1 1 ( xμ, ) = exp x( μ ) 2π Σ 2 T 1 Σ Σ d /2 1/2 Mttelwertvektor μ Kovaranzmatrx Σ ( xμ Determnante Bespel d=2 d Koaranzmatrx entschedet, we Punkte streuen ) μ Sawade/Landwehr/Scheffer Maschnelles Lernen 5

96 Wederholung: Lneare Regresson Modellraum lneare Regresson: T f ( x w ) = wx w Parametervektor, Gewchtsvektor m = w + 0 wx Zusätzlches konstantes Attrbut x = 1 = 1 0 Lneare Abhänggket von ( x) von Parametern w Lneare Abhänggket von ( x) von Engaben x f w f w Sawade/Landwehr/Scheffer Maschnelles Lernen 6

97 Bayessche Regresson: Daten Modellvorstellung bem Bayesschen Lernen: Prozess der Datengenererung Echtes Modell f * wrd aus Pror-Vertelung P( f) gezogen Merkmalsvektoren x,..., 1 xn werden unabhängg vonenander gezogen (ncht modellert) Für jedes x wrd das Label y gezogen nach Vertelung Py ( (Anschauung: ) x, f* ) y ( ) f* x Daten L fertg generert We seht Py ( x, f) für Regressonsprobleme aus? * Sawade/Landwehr/Scheffer Maschnelles Lernen 7

98 Bayessche Regresson: Daten T Annahme, dass es echtes Modell f *( x) = xw* gbt, dass de Daten perfekt erklärt, unrealstsch Daten folgen ne genau ener Regressons- Geraden/Ebene Alternatve Annahme: Daten folgen f ( x) * bs auf klene, zufällge Abwechungen (Rauschen) Sawade/Landwehr/Scheffer Maschnelles Lernen 8

99 Bayessche Regresson: Daten Alternatve Annahme: Daten folgen f ( x) * bs auf klene, zufällge Abwechungen (Rauschen) Modellvorstellung: Zelattrbut y generert aus f ( x) * normalverteltes Rauschen y = f ( x) + ε mt ε ~ ( ε 0, σ 2 * ) f ( x ) * 0 f ( x) * plus Py x f = y f x σ 2 ( 0, *) ( *( 0), ) Parameter σ modellert Stärke des Rauschens 9 Sawade/Landwehr/Scheffer Maschnelles Lernen

100 Bayessche Regresson: Vorhersagevertelung Zel: Bayessche Vorhersage y* = arg max y Py ( x, L) Ernnerung: Berechnung mt Bayesan Model Averagng Vorhersage, gegeben Modell Modell gegeben Tranngsdaten Py ( x, L) = Py ( x, θ) P( θ Ld ) θ 1 P( θ L) = PL ( θ) P( θ) Z Lkelhood:Tranngsdaten gegeben Modell Pror über Modelle 10 Sawade/Landwehr/Scheffer Maschnelles Lernen

101 Bayessche Regresson: Lkelhood Lkelhood der Daten L: Zehen der x ncht modellert Nachrechnen: Multdmensonale Normalvertelung mt Kovaranzmatrx Enhetsmatrx σ 2 I I = P( y X, w) = Py (,..., y X, w) Bespele unabhängg N 1 = Py ( x, w) = 1 N = y x w σ = 1 N T 2 (, ) ( X T, σ 2 ) = y w I X T T x1 w w =... T xn w T f ( x w ) = x w Vektor der Vorhersagen 11 Sawade/Landwehr/Scheffer Maschnelles Lernen

102 Bayessche Regresson: Pror Bayessches Lernen: Pror über Modelle f Modelle parametrsert durch Gewchtsvektor w Pror P(w) über Gewchtsvektoren Geegnete Pror-Vertelung: Normalvertelung Normalvertelung st konjugert zu sch selbst, normalvertelter Pror und normalvertelte Lkelhood ergeben weder normalvertelten Posteror Deshalb w ~ ( w 0, ) Σ p Σ p Kovaranzmatrx, oft Σ = σ I σ steuert Stärke des Prors 2 p erwarten klene Attrbutgewchte, w 2 klen p 2 p Sawade/Landwehr/Scheffer Maschnelles Lernen 12

103 Bayessche Regresson: Posteror Posteror-Vertelung über Modelle gegeben Daten Ohne Bewes 1 P( w L) = PL ( w) P( w) Bayessche Regel Z 1 = Σ Z T ( y X w, σ 2 I) ( w 0, p ) 1 (, A ) = w w mt w = σ 2 1 A X Posteror st weder normalvertelt, mt neuem Mttelwert w und Kovaranzmatrx y A T = σ 2 XX +Σ 1 p A 1 Sawade/Landwehr/Scheffer Maschnelles Lernen 13

104 Bayessche Regresson: Posteror Posteror: MAP-Hypothese: w = MAP? p L A 1 ( w ) = ( w w, ) Sawade/Landwehr/Scheffer Maschnelles Lernen 14

105 Bayessche Regresson: Posteror Posteror: MAP-Hypothese: w = w MAP 1 σ 2 p L A 1 ( w ) = ( w w, ) = A Xy Sawade/Landwehr/Scheffer Maschnelles Lernen 15

106 Sequentelles Update des Posterors Instanzen unabhängg Berechnung des Posteror als sequentelles Update: Aufmultplzeren der Lkelhood enzelner Instanzen P( w L) P( w) PL ( w) N = P( w) = Py (, ) 1 x w Lkelhood für enzeln an Pror multplzeren Se P( w) = P( w ) 0, P ( ) n w der Posteror, wenn wr nur de ersten n Instanzen n L verwenden: P( w L) P( w) Py ( 1 x1, w) Py ( 2 x2, w) Py ( 3 x3, w)... Py ( N xn, w) P1 ( w) P2 ( w) P3 ( w) P N ( w) y 16 Sawade/Landwehr/Scheffer Maschnelles Lernen

107 Sequentelles Update des Posterors Sequentelles Update: Datenpunkte nachenander anschauen Neue Informatonen (Datenpunkte) verändern Stück für Stück de Vertelung über w Sawade/Landwehr/Scheffer Maschnelles Lernen 17

108 Bespel Bayessche Regresson f( x) w wx = (endmensonale Regresson) Sequentelles Update: P( w) = P( w) 0 P( w) = P( w) Sample aus P 0 0( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 18

109 Bespel Bayessche Regresson f( x) = w + wx 0 1 Sequentelles Update: Lkelhood Py ( x, w) 1 1 (endmensonale Regresson) P( w) P( w) Py ( x, w) P ( w) 1 Datenpunkt x1, y1 y = f( x ) + ε 1 1 = w + wx + ε w0= wx 1 1+ y1 ε Sample aus P ( w) 1 Sawade/Landwehr/Scheffer Maschnelles Lernen 19

110 Bespel Bayessche Regresson f( x) w wx = (endmensonale Regresson) Sequentelles Update: Lkelhood Py ( x, w) 1 1 P( w) P( w) Py ( x, w) Posteror P1 ( w) Sample aus P1 ( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 20

111 Bespel Bayessche Regresson f( x) = w + wx 0 1 Sequentelles Update: Py ( 2 x2, w) (endmensonale Regresson) P( w) P( w) Py ( x, w) P ( w) Sample aus P 2 2( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 21

112 Bespel Bayessche Regresson f( x) = w + wx 0 1 Sequentelles Update: Py ( x, w) N N (endmensonale Regresson) P( w) P ( w) Py ( x, w) N N 1 N N P ( ) N w Sample aus PN ( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 22

113 Bayessche Regresson: Vorhersagevertelung Bayes sche Vorhersage: wahrschenlchstes y. Ernnerung: Berechnung mt Bayesan Model Averagng y* = arg max y Py ( x, L) Py ( x, L) = Py ( x, θ) P( θ Ld ) θ Bayesan Model Averagng Bayessche Vorhersage: Vorhersage, gegeben Modell Mtteln der Vorhersage über alle Modelle. Modell gegeben Tranngsdaten Gewchtung: we wahrschenlch st Modell a posteror. Sawade/Landwehr/Scheffer Maschnelles Lernen 23

114 Bayessche Regresson: Vorhersagevertelung Vorhersagevertelung weder normalvertelt: Ohne Bewes Py ( x, L) = Py ( xw, ) P( w Ld ) w mt = y xwσ w wa dw T 2 1 (, ) (, ) 1 ( T T y, A ) = xwx x 1 = σ 2 A T w Xy A σ 2 XX Optmale Vorhersage: Engabevektor multplzert: T y * = xw = +Σ 1 p x wrd mt w 24 Sawade/Landwehr/Scheffer Maschnelles Lernen

115 Bayessche Regresson: Vorhersagevertelung T y * = xw Bayessche Regresson lefert ncht nur optmale T Vorhersage y * = xw sondern Dchte von y und damt auch enen Konfdenzkorrdor. 1 ( T T y xwx, A x) x z.b. 95% Konfdenz 25 Sawade/Landwehr/Scheffer Maschnelles Lernen

116 Nchtlneare Bassfunktonen Enschränkung der bshergen Modelle: nur lneare Abhänggketen zwschen x und f(x). Lneare Daten Ncht-lneare Daten In velen Fällen nützlch: ncht-lneare Abhänggket Sawade/Landwehr/Scheffer Maschnelles Lernen 26

117 Nchtlneare Bassfunktonen Enfachster Weg: Lneare Regresson auf nchtlnearen Bassfunktonen Idee: Ncht auf den ursprünglchen x arbeten, sondern auf nchtlnearer Transformaton φ( x) Vortel: Berechnung von posteror und Bayes scher Vorhersage m Prnzp unverändert Bassfunktonen,..., : m m φ1 φ ursprünglcher Instanzenraum φ( x) d φ1 ( x) φ ( x)... φd ( x) 2 = d φ : m mestens d d m 27 Sawade/Landwehr/Scheffer Maschnelles Lernen

118 Nchtlneare Bassfunktonen Lneare Regresson n den Bassfunktonen T f ( x) = w φ( x) = w + wφ ( x) 0 d = 1 f(x) st lneare Kombnaton von Bassfunktonen Anschauung: Abbldung n höherdmensonalen Raum φ( ), lneare Regresson dort Sawade/Landwehr/Scheffer Maschnelles Lernen 28

119 Nchtlneare Bassfunktonen: Bespel y Bespel = φ ( x) = 1 f( x) = w + wφ ( x) + wφ ( x) Nchtlneare Funkton n x darstellbar als lneare Funkton n φ( x) f( x) 1 3x x 2 = + φ x x φ ( x) = 2 y x 2 x 2 x 29 Sawade/Landwehr/Scheffer Maschnelles Lernen

120 Nchtlneare Bassfunktonen Bespele für ncht-lneare Bassfunktonen Polynome φ j ( x) = x j Sawade/Landwehr/Scheffer Maschnelles Lernen 30

121 Nchtlneare Bassfunktonen Bespele für ncht-lneare Bassfunktonen Gauss-Kurven ( x µ j ) φ j ( x) = exp 2 2s µ 1,..., µ d Mttelpunkte 2 s feste Varanz 2 Sawade/Landwehr/Scheffer Maschnelles Lernen 31

122 Nchtlneare Bassfunktonen Bespele für ncht-lneare Bassfunktonen Sgmode φ ( x) j x µ j = σ s 1 σ ( a) = 1 + exp( a ) µ 1,..., µ d Mttelpunkte s feste Skalerung Sawade/Landwehr/Scheffer Maschnelles Lernen 32

123 Regresson mt Bassfunktonen φ Funkton bldet m-dmensonalen Engabevektor x auf d-dmensonalen Merkmalsvektor ab. Regressonsmodell: f T ( ) ( ) x = w φ x Optmale Vorhersage we bsher, mt φ(x) statt x. ( T T 1 φ φ φ ) Py ( x, L) = y ( x) w, ( x) A ( x) y* = arg max py ( x, L) = φ( x) T w y φ( x) Transformerte Testnstanz A= σ ΦΦ + Σ = σ A Φ Φ = φ( X Transformerte Datenmatrx 2 T 1 1 p, w 2 y und ) 33 Sawade/Landwehr/Scheffer Maschnelles Lernen

124 Bespel Regresson mt Nchtlnearen Bassfunktonen Bespel für Regresson mt ncht-lnearen Bassfunktonen Generere ncht-lneare Datenpunkte durch y = x + x 2 sn(2 π ) ε ε ~ ( ε 0, σ ), [0,1] 9 Gaussche Bassfunktonen ( x µ j ) φ j ( x) = exp 2 2s We seht der Posteror P( w L) Vorhersagevertelung Py ( x, L) 2 µ = 0.1,..., µ = und de aus? Sawade/Landwehr/Scheffer Maschnelles Lernen 34

125 Vorhersagevertelung f( x) N=1 N=4 Datenpunkt y = sn(2 π x) N=2 N=25 Sawade/Landwehr/Scheffer Maschnelles Lernen 35

126 Samples aus dem Posteror N=1 N=4 N=2 N=25 Sawade/Landwehr/Scheffer Maschnelles Lernen 36

127 Überblck Bayessche Lneare Regresson Modellbasertes Klassfkatonslernen: Nave Bayes Sawade/Landwehr/Scheffer Maschnelles Lernen 37

128 Klassfkatonsprobleme Tranngsdaten L L = ( x, y1),...,( x, y 1 N N Matrxschrebwese für Tranngsdaten L X Merkmalsvektoren X x 11 N1 = ( x1... xn ) = x Lernen: MAP Modell ) 1m x x Nm θmap = arg max θ P( θ L) = arg max PL ( θ) P( θ) θ x y Merkmalsvektoren dskrete Klassenlabels Zugehörge Klassenlabel y y1 y =... y N 38 Sawade/Landwehr/Scheffer Maschnelles Lernen

129 Modellbasertes und Dskrmnatves Lernen Lkelhood PLθ ( ) : welcher Tel der Daten L wrd modellert? Dskrmnatves Lernen: θ wrd so gewählt, dass es Werte der Klassenvarable y n den Daten gut modellert. Klassfkator soll nur y für jedes x gut vorhersagen. Wozu also gute Modellerung von X berückschtgen? Generatves (modellbasertes) Lernen: θmap = arg max θ P( θ) P( y X, θ) θmap = arg max θ P( θ) P( y, X θ) Dskrmnatve Lkelhood Generatve Lkelhood θ wrd so gewählt, dass es Merkmalsvektoren X und Werte der Klassenvarable y n den Daten gut modellert 39 Sawade/Landwehr/Scheffer Maschnelles Lernen

130 Modellbasert: Nave Bayes Nave Bayes: Modellbaserte Klassfkaton θmap = arg max θ P( θ) P( y, X θ) Lkelhood der Daten L: N unabhängge Instanzen mt Klassenlabels PL ( θ) = P( x,..., x, y,..., y θ) N = 1 1 N 1 = P( x, y θ ) N Sawade/Landwehr/Scheffer Maschnelles Lernen 40

131 Modellbasert: Nave Bayes We modelleren wr P( x, y θ )? Gemensame Vertelung (Produktregel) We modelleren wr P( x y, θ )? P( x, y θ)= Py ( θ) P( x y, θ) Klassenwahrschenlchket: z.b. P(spam) vs P(ncht spam). x1 x =... x m hochdmensonal, 2 m verschedene Werte (x bnär) Nave Unabhänggketsannahme x-vertelung gegeben Klasse: z.b. Wortvertelung n Spam-Emals Sawade/Landwehr/Scheffer Maschnelles Lernen 41

132 Nave Bayes: Unabhänggketsannahme Bedngte Unabhänggketsannahme: P( x y, θ) = Px ( y, θ) m = 1 Annahme: zwe Klassen, bnäre Attrbute x Attrbute unabhängg gegeben de Klasse y Modellerte Vertelungen (Modellparameter): y Pyθ ( ) Bernoull, mt Parameter θ = Py ( = 1 θ) Für {1,..., m} (Attrbute), c {0,1} (Klassen): Px ( y cθ, ) = Bernoull, mt Parameter θ x {0,1} xc = Px ( = 1 θ, y= c) Sawade/Landwehr/Scheffer Maschnelles Lernen 42

133 Nave Bayes: Lkelhood Lkelhood der Daten L mt bshergen Annahmen: N PL ( θ) = P ( x y θ) j= 1 j= 1 j, j N y m x y Py 1 j θ Px j 1 j yj θ = = j = ( ) (, ) Unabhänggket Instanzen N = Py ( j θ) P( x j yj, θ) Produktregel Bedngte Unabhänggket Attrbute, zuständge Modellparameter Sawade/Landwehr/Scheffer Maschnelles Lernen y = Klassenlabel j-te Instanz = Wert -tes Merkmal j-te Instanz j x j 43

134 Nave Bayes: Pror? Pror: Parametervektor θ besteht aus Pror-Vertelung: unabhängg für enzelne Parameter ( m x ) 0 x 1 =1 P y ( θ) = P ( θ ) P ( θ ) P ( θ ) Pror Klassenvertelung Konjugerter Pror Beta-Vertelung y y P( θ )~ Beta( θ α, α ) 0 1 Pror Merkmalsvertelungen, gegeben postve/negatve Klasse Für {1,..., m} (Attrbute), c {0,1} (Klassen): P Parameter für Klassenvertelung x 0 x 1 Parameter für Merkmalsvertelungen θ, θ ( = 1,..., m) x c x c ( θ )~ Beta( θ αx c, αx c) y θ 44 Sawade/Landwehr/Scheffer Maschnelles Lernen

135 Nave Bayes: Posteror A-posteror Vertelung weder Beta: Standardlösung für Münzwurfszenaro y A-posteror Vertelung für Parameter P( θ L) : y y P( θ L) = Beta( θ α + N, α + N ) θ mt y MAP N = 0 1 N N1+ α1 1 + α + N + α : Anzahl Bespele mt Klasse 0 n N : Anzahl Bespele mt Klasse 1 n L L Sawade/Landwehr/Scheffer Maschnelles Lernen 45

136 Nave Bayes: Posteror A-posteror Vertelung für Parameter P( θ x c ): Für {1,..., m} (Attrbute), c {0,1} (Klassen): P L Beta N N mt xc xc ( θ ) = ( θ αxc + xc, αxc + xc ) θ xc MAP xc xc N : Anzahl Bespele mt x = 1 und Klasse c n L N : Anzahl Bespele mt x = 0 und Klasse c n L = N N + α 1 xc xc + α + N + α 2 xc xc xc xc Sawade/Landwehr/Scheffer Maschnelles Lernen 46

137 Nave Bayes: Lernalgorthmus Engabe: L= ( x, y ),...,( x, y ) 1 1 Schätze Klassenvertelung: θ Zähle 1 0 Für Klassen y=0 und y=1, für alle Attrbute : Zähle θ y MAP x y MAP = = N Alle Modellparameter gelernt! N N : Anzahl Bespele mt Klasse 1 n L N : Anzahl Bespele mt Klasse 0 n L x y x y x y x y x y x y x y x y N N : Anzahl Bespele mt x = 1 und Klasse y n L N : Anzahl Bespele mt x = 0 und Klasse y n L N N1+ α1 1 + α + N + α N + α 1 + α + N + α 2 Sawade/Landwehr/Scheffer Maschnelles Lernen 47

138 Nave Bayes: Klassfkaton Engabe: Rückgabe: x1 x =... x m y* = arg max y Py ( x, θmap ) Laufzet bem Klassfzeren: Om ( ) m = Anzahl Attrbute Laufzet bem Lernen: O( Nm) y m x y arg max y Py ( θmap ) Px (, ) 1 yθmap = = Klassenvertelung Produkt der Attrbutvertelungen, gegeben Klasse N = Anzahl Tranngsnstanzen 48 Sawade/Landwehr/Scheffer Maschnelles Lernen

139 Nave Bayes: Egenschaften Enfach zu mplementeren, effzent, populär. Funktonert ok, wenn de Attrbute wrklch unabhängg snd. Das st aber häufg ncht der Fall. Unabhänggketsannahme und modellbasertes Tranng führen häufg zu schlechten Ergebnssen. Logstsche Regresson, Wnnow, Perzeptron snd mest besser. Sawade/Landwehr/Scheffer Maschnelles Lernen 49

140 Nave Bayes: Bespel Tranngsdaten: x : Schufa pos. x : Student y: Rückzahlung ok? 1 2 Instanz x Instanz x Instanz x Pror: alle Parameter α n den Beta-Vertelungen setzen wr auf α=2 (Pseudocounts: α-1=1) Gelernte Parameter/Hypothese? Sawade/Landwehr/Scheffer Maschnelles Lernen 50

141 Nave Bayes: Bespel Gelernte Parameter/Hypothese Merkmalsvertelungen x 1 Px ( y= 0) 0? 1? x 2 Klassenvertelung 1 0? 1? y Px ( y= 0) 2 Py ( ) 0? 1? Py ( ) Px ( y) x 1 Px ( y= 1) 1 0? 1? x 2 Px ( y= 1) 2 0? 1? 51 Sawade/Landwehr/Scheffer Maschnelles Lernen

142 Nave Bayes: Bespel Gelernte Parameter/Hypothese Merkmalsvertelungen x 1 Px ( y= 0) 0 2/3 1 1/3 x 2 0 1/3 1 2/3 Klassenpror y 1 Px ( y= 0) 2 Py ( ) 0 2/5 1 3/5 Py ( ) Px ( y) x 1 Px ( y= 1) 0 1/4 1 3/4 x 2 0 2/4 1 2/4 1 Px ( y= 1) 2 52 Sawade/Landwehr/Scheffer Maschnelles Lernen

143 Nave Bayes: Bespel Testanfrage: x = (Schufa pos = 0,Student = 0) Vorhersage: 4 3 > y* = y* = arg max y Py ( x, θmap ) P( y = 0) P( x y = 0) = P( y = 0) P( x = 0 y = 0) P( x = 0 y = 0) = = P( y = 1) P( x y = 1) = P( y = 1) P( x = 0 y = 1) P( x = 0 y = 1) = = = arg max Py ( θ ) Px ( y, θ ) 1 2 m y MAP MAP = 1 53 Sawade/Landwehr/Scheffer Maschnelles Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen Chrstoph Sawade/Nels Landwehr/Paul Prasse Domnk Lahmann Tobas Scheffer Überblck Wahrschenlchketen, Erwartungswerte,

Mehr

Bayessches Lernen (3)

Bayessches Lernen (3) Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen (3) Chrstoph Sawade/Nels Landwehr Jules Rasetaharson Tobas Scheffer Überblck Wahrschenlchketen, Erwartungswerte, Varanz

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen Chrstoph Sawade/Nels Landwehr Jules Rasetaharson Tobas Scheffer Überblck Wahrschenlchketen, Erwartungswerte, Varanz

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Graphsche Modelle els Landwehr Zusammenfassung Pfade Zusammenfassung: en Pfad --Y-Z- st B A E Blockert be Y, wenn Dvergerende Verbndung,

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Graphsche Modelle els Landwehr Überblck Graphsche Modelle: Syntax und Semantk Graphsche Modelle m Maschnellen Lernen Inferenz n Graphschen

Mehr

2 Zufallsvariable und Verteilungen

2 Zufallsvariable und Verteilungen Zufallsvarable und Vertelungen 7 Zufallsvarable und Vertelungen Wr wollen uns jetzt mt Zufallsexpermenten beschäftgen, deren Ausgänge durch (reelle) Zahlen beschreben werden können, oder be denen man jedem

Mehr

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen Übungsklausur Wahrschenlchket und Regresson De Lösungen. Welche der folgenden Aussagen treffen auf en Zufallsexperment zu? a) En Zufallsexperment st en emprsches Phänomen, das n stochastschen Modellen

Mehr

Modelle, Version Spaces, Lernen

Modelle, Version Spaces, Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Maschnelles Lernen Modelle, Verson Spaces, Lernen Chrstoph Sawade/Nels Landwehr Jules Rasetaharson Tobas Scheffer Überblck Problemstellungen:

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statstk und Wahrschenlchketsrechnung Statstk und Wahrschenlchketsrechnung 5. Vorlesung Dr. Jochen Köhler.03.0 Statstk und Wahrschenlchketsrechnung Wchtg!!! Vorlesung Do 4.03.0 HCI G3 Übung 5 D 9.03.0 Fnk

Mehr

Modelle, Version Spaces, Lernen

Modelle, Version Spaces, Lernen Unverstät Potsdam Insttut ür Inormatk Lehrstuhl Maschnelles Lernen Maschnelles Lernen Modelle Verson Spaces Lernen Tobas Scheer Mchael Brückner Klasskaton Engabe: Instanz Objekt X. Können durch Attrbut-Vektoren

Mehr

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2 ETH Arbetsgruppe Radocheme Radochemsches Praktkum P 06 Enführung n de Statstk INHALTSVERZEICHNIS Sete 1. Zählung von radoaktven Zerfällen und Statstk 2 2. Mttelwert und Varanz 2 3. Momente ener Vertelung

Mehr

z.b. Münzwurf: Kopf = 1 Zahl = 2 oder z.b. 2 Würfel: Merkmal = Summe der Augenzahlen, also hier: Bilde die Summe der Augenzahlen der beiden Würfel!

z.b. Münzwurf: Kopf = 1 Zahl = 2 oder z.b. 2 Würfel: Merkmal = Summe der Augenzahlen, also hier: Bilde die Summe der Augenzahlen der beiden Würfel! Aufgabe : Vorbemerkung: Ene Zufallsvarable st ene endeutge Funkton bzw. ene Abbldungsvorschrft, de angbt, auf welche Art aus enem Elementareregns ene reelle Zahl gewonnen wrd. x 4 (, ) z.b. Münzwurf: Kopf

Mehr

5 Gemischte Verallgemeinerte Lineare Modelle

5 Gemischte Verallgemeinerte Lineare Modelle 5 Gemschte Verallgemenerte Lneare Modelle Wr betrachten zunächst enge allgemene Aussagen für Gemschte Verallgemenerte Lneare Modelle. Se y der beobachtbare Zufallsvektor und u der Vektor der ncht-beobachtbaren

Mehr

Verteilungen eindimensionaler diskreter Zufallsvariablen

Verteilungen eindimensionaler diskreter Zufallsvariablen Vertelungen endmensonaler dskreter Zufallsvarablen Enführung Dskrete Vertelungen Dskrete Glechvertelung Bernoull-Vertelung Bnomalvertelung Bblografe: Prof. Dr. Kück Unverstät Rostock Statstk, Vorlesungsskrpt,

Mehr

Modelle, Version Spaces, Lernen

Modelle, Version Spaces, Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Maschnelles Lernen Modelle, Verson Spaces, Lernen Chrstoph Sawade/Nels Landwehr Slva Makowsk Tobas Scheffer Überblck Problemstellungen:

Mehr

An dem Ergebnis eines Zufallsexperiments interessiert oft nur eine spezielle Größe, meistens ein Messwert.

An dem Ergebnis eines Zufallsexperiments interessiert oft nur eine spezielle Größe, meistens ein Messwert. SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Ds. ZG 1 Zufallsgrößen An dem Ergebns enes Zufallsexperments nteressert oft nur ene spezelle Größe, mestens en Messwert. Bespel 1. Zufällge Auswahl enes Studenten,

Mehr

14 Schätzmethoden. Eigenschaften von Schätzungen ˆθ. Sei ˆθ n eine Schätzung eines Parameters θ, die auf n Beobachtungen beruht.

14 Schätzmethoden. Eigenschaften von Schätzungen ˆθ. Sei ˆθ n eine Schätzung eines Parameters θ, die auf n Beobachtungen beruht. 14 Schätzmethoden Egenschaften von Schätzungen ˆθ Se ˆθ n ene Schätzung enes Parameters θ, de auf n Beobachtungen beruht. ˆθn n θ Konsstenz (Mnmalforderung) Eˆθ n = θ Erwartungstreue Eˆθ n n θ Asymptotsche

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Zusammenfassung: Lernprobleme, Bayes sches Lernen, Evaluerung Chrstoph Sawade/Nels Landwehr/Paul Prasse Slva Makowsk obas Scheffer Überblck

Mehr

Kapitel 4: Unsicherheit in der Modellierung Modellierung von Unsicherheit. Machine Learning in der Medizin 104

Kapitel 4: Unsicherheit in der Modellierung Modellierung von Unsicherheit. Machine Learning in der Medizin 104 Kaptel 4: Unscherhet n der Modellerung Modellerung von Unscherhet Machne Learnng n der Medzn 104 Regresson Modellerung des Datengenerators: Dchteschätzung der gesamten Vertelung, t pt p p Lkelhood: L n

Mehr

Modelle, Version Spaces, Lernen

Modelle, Version Spaces, Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Maschnelles Lernen Modelle, Verson Spaces, Lernen Chrstoph Sawade/Nels Landwehr Domnk Lahmann Tobas Scheffer Überblck Problemstellungen:

Mehr

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz Prof. Dr. P. Kschka WS 2012/13 Lehrstuhl für Wrtschafts- und Sozalstatstk Klausur Statstsche Inferenz 15.02.2013 Name: Matrkelnummer: Studengang: Aufgabe 1 2 3 4 5 6 7 8 Summe Punkte 6 5 5 5 5 4 4 6 40

Mehr

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007 Lehrstuhl für Emprsche Wrtschaftsforschung und Ökonometre Dr Roland Füss Statstk II: Schleßende Statstk SS 007 5 Mehrdmensonale Zufallsvarablen Be velen Problemstellungen st ene solerte Betrachtung enzelnen

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Mathematische Grundlagen

INTELLIGENTE DATENANALYSE IN MATLAB. Mathematische Grundlagen INTELLIGENTE DATENANALYSE IN MATLAB Mathematsche Grundlagen Überblck Lneare Algebra: Vektoren, Matrzen, Analyss & Optmerung: Dstanzen, konvexe Funktonen, Lagrange-Ansatz, Stochastk: Wahrschenlchketstheore,

Mehr

Definition des linearen Korrelationskoeffizienten

Definition des linearen Korrelationskoeffizienten Defnton des lnearen Korrelatonskoeffzenten r xy x y y r x xy y 1 x x y y x Der Korrelatonskoeffzent st en Indkator dafür, we gut de Punkte (X,Y) zu ener Geraden passen. Sen Wert legt zwschen -1 und +1.

Mehr

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung am Bespel enes Modells der chadenverscherung Für das Modell ener chadenverscherung se gegeben: s w s. n 4 chaden enes Verscherungsnehmers, wenn der chadenfall entrtt Wahrschenlchket dafür, dass der chadenfall

Mehr

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum Abgabe: Aufgabentext und Lösungen schrftlch bs zum 15. 6. 2012 I. Thema: Zehen mt und ohne Zurücklegen Lesen Se sch zunächst folgenden Text durch! Wr haben bsher Stchprobenzehungen aus Grundgesamtheten

Mehr

Kapitel V. Parameter der Verteilungen

Kapitel V. Parameter der Verteilungen Kaptel V Parameter der Vertelungen D. 5.. (Erwartungswert) Als Erwartungswert ener Zufallsvarablen X bezechnet man: E( X ) : Dabe se vorausgesetzt: = = + p falls X dskret f d falls X stetg und = + p

Mehr

Prof. Dr. Roland Füss Statistik II SS 2008

Prof. Dr. Roland Füss Statistik II SS 2008 5. Spezelle Testverfahren Zahlreche parametrsche und nchtparametrsche Testverfahren, de nach Testvertelung (Bnomal, t-test etc.), Analysezel (Anpassungs- und Unabhänggketstest) oder Konstrukton der Prüfgröße

Mehr

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt:

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt: (Theoretsche Konfdenzntervalle für de beobachteten Werte: De Standardabwechung des Messfehlers wrd Standardmessfehler genannt: ( ε ( 1- REL( Mt Hlfe der Tschebyscheff schen Unglechung lassen sch be bekanntem

Mehr

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression Beschrebung des Zusammenhangs zweer metrscher Merkmale Streudagramme Korrelatonskoeffzenten Regresson Alter und Gewcht be Kndern bs 36 Monaten Knd Monate Gewcht 9 9 5 8 3 4 7.5 4 3 6 5 3 6 4 3.5 7 35 5

Mehr

Kapitel 7: Ensemble Methoden. Maschinelles Lernen und Neural Computation

Kapitel 7: Ensemble Methoden. Maschinelles Lernen und Neural Computation Kaptel 7: Ensemble Methoden 133 Komtees Mehrere Netze haben bessere Performanz als enzelne Enfachstes Bespel: Komtee von Netzen aus der n-fachen Kreuzvalderung (verrngert Varanz) De Computatonal Learnng

Mehr

Maschinelles Lernen (Zusammenfassung)

Maschinelles Lernen (Zusammenfassung) Unverstät Potsdam Insttut für Informatk Lehrstuhl (Zusammenfassung) Chrstoph Sawade /Nels Landwehr/Paul Prasse Domnk Lahmann Tobas Scheffer Überblck Lernprobleme Entschedungsbäume Bayes sches Lernen Lneare

Mehr

2. Wahrscheinlichkeitsrechnung

2. Wahrscheinlichkeitsrechnung . Grundlagen der Wahrschenlchketsrechnung. Wahrschenlchketsrechnung Der Wahrschenlchketstheore kommt ene wchtge Rolle als Bndegled zwschen der deskrptven und der nduktven Statstk zu. Aufgabe der nduktven

Mehr

Teil E: Qualitative abhängige Variable in Regressionsmodellen

Teil E: Qualitative abhängige Variable in Regressionsmodellen Tel E: Qualtatve abhängge Varable n Regressonsmodellen 1. Qualtatve abhängge Varable Grundlegendes Problem: In velen Fällen st de abhängge Varable nur über enen bestmmten Werteberech beobachtbar. Bsp.

Mehr

Kapitel 2: Klassifikation. Maschinelles Lernen und Neural Computation

Kapitel 2: Klassifikation. Maschinelles Lernen und Neural Computation Kaptel 2: Klassfkaton Maschnelles Lernen und Neural Computaton 28 En enfacher Fall En Feature, Hstogramme für bede Klassen (z.b. Glukosewert, Dabetes a/nen) Kene perfekte Trennung möglch Entschedung: Schwellwert

Mehr

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY)

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY) Bedngte Entrope Kaptel : Bedngte Entrope Das vorherge Theorem kann durch mehrfache Anwendung drekt verallgemenert werden H (... H ( = Ebenso kann de bedngt Entrope defnert werden Defnton: De bedngte Entrope

Mehr

Zulassungsprüfung Stochastik,

Zulassungsprüfung Stochastik, Zulassungsprüfung Stochastk, 11.5.13 Wr gehen stets von enem Maßraum (, A, µ) bzw. enem Wahrschenlchketsraum (,A,P) aus. De Borel σ-algebra auf R n wrd mt B n bezechnet, das Lebesgue Maß auf R n wrd mt

Mehr

-70- Anhang: -Lineare Regression-

-70- Anhang: -Lineare Regression- -70- Anhang: -Lneare Regressn- Für ene Messgröße y f(x) gelte flgender mathematsche Zusammenhang: y a+ b x () In der Regel läßt sch durch enen Satz vn Messwerten (x, y ) aber kene Gerade zechnen, da de

Mehr

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden. Ene kurze Enführung n EXCEL Daten snd n Tabellenform gegeben durch de Engabe von FORMELN können mt desen Daten automatserte Berechnungen durchgeführt werden. Menüleste Symbolleste Bearbetungszele aktve

Mehr

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition Informatk II Raner Schrader und Implkanten Zentrum für Angewandte Informatk Köln 27. Oktober 2005 1 / 28 2 / 28 Was bsher geschah: jede Boolesche Funkton kann durch enfache Grundfunktonen dargestellt werden

Mehr

6. Modelle mit binären abhängigen Variablen

6. Modelle mit binären abhängigen Variablen 6. Modelle mt bnären abhänggen Varablen 6.1 Lneare Wahrschenlchketsmodelle Qualtatve Varablen: Bnäre Varablen: Dese Varablen haben genau zwe möglche Kategoren und nehmen deshalb genau zwe Werte an, nämlch

Mehr

Erwartungswert, Varianz, Standardabweichung

Erwartungswert, Varianz, Standardabweichung RS 24.2.2005 Erwartungswert_Varanz_.mcd 4) Erwartungswert Erwartungswert, Varanz, Standardabwechung Be jedem Glücksspel nteresseren den Speler vor allem de Gewnnchancen. 1. Bespel: Setzen auf 1. Dutzend

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe

Mehr

Beschreibende Statistik Mittelwert

Beschreibende Statistik Mittelwert Beschrebende Statstk Mttelwert Unter dem arthmetschen Mttel (Mttelwert) x von n Zahlen verstehen wr: x = n = x = n (x +x +...+x n ) Desen Mttelwert untersuchen wr etwas genauer.. Zege für n = 3: (x x )

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Menhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzet nach Verenbarung und nach der Vorlesung. Mathematsche und statstsche Methoden II Dr. Malte Perske perske@un-manz.de

Mehr

Übung zur Vorlesung - Theorien Psychometrischer Tests II

Übung zur Vorlesung - Theorien Psychometrischer Tests II Übung zur Vorlesung - Theoren Psychometrscher Tests II N. Rose 9. Übung (15.01.2009) Agenda Agenda 3-parametrsches logstsches Modell nach Brnbaum Lnkfunktonen 3PL-Modell nach Brnbaum Modellglechung ( =

Mehr

Stochastische Prozesse

Stochastische Prozesse INSTITUT FÜR STOCHASTIK SS 009 UNIVERSITÄT KARLSRUHE Blatt 4 Prv.-Doz. Dr. D. Kadelka Dpl.-Math. W. Lao Übungen zur Vorlesung Stochastsche Prozesse Musterlösungen Aufgabe 16: (Success Run, Fortsetzung)

Mehr

Grundgedanke der Regressionsanalyse

Grundgedanke der Regressionsanalyse Grundgedanke der Regressonsanalse Bsher wurden durch Koeffzenten de Stärke von Zusammenhängen beschreben Mt der Regressonsrechnung können für ntervallskalerte Varablen darüber hnaus Modelle geschätzt werden

Mehr

Standardnormalverteilung / z-transformation

Standardnormalverteilung / z-transformation Standardnormalvertelung / -Transformaton Unter den unendlch velen Normalvertelungen gbt es ene Normalvertelung, de sch dadurch ausgeechnet st, dass se enen Erwartungswert von µ 0 und ene Streuung von σ

Mehr

Gauss sche Fehlerrrechnung

Gauss sche Fehlerrrechnung Gauss sche Fehlerrrechnung T. Ihn 24. Oktober 206 Inhaltsverzechns Modell und Lkelhood 2 Alle Standardabwechungen σ snd bekannt, bzw. de Kovaranzmatrx der Daten st bekannt: Mnmeren der χ 2 -Funkton. 6

Mehr

MASCHINELLES LERNEN TOBIAS SCHEFFER, NIELS LANDWEHR, MATTHIAS BUSSAS. Mathematische Grundlagen

MASCHINELLES LERNEN TOBIAS SCHEFFER, NIELS LANDWEHR, MATTHIAS BUSSAS. Mathematische Grundlagen MASCHINELLES LERNEN TOBIAS SCHEFFER, NIELS LANDWEHR, MATTHIAS BUSSAS Matheatsche Grundlagen Überblck Lneare Algebra: Vektoren, Matrzen, Analyss & Opterung: Dstanzen, konvexe Funktonen, Lagrange-Ansatz,

Mehr

12 UMPU Tests ( UMP unbiased )

12 UMPU Tests ( UMP unbiased ) 89 1 UMPU Tests ( UMP unbased ) Nach Bemerkung 11.8(b) exstert m Allgemenen ken zwesetger UMP- Test zu enem Nveau α. Deshalb Enschränkung auf unverfälschte Tests: ϕ Φ α heßt unverfälscht (unbased) zum

Mehr

Vorlesung: Multivariate Statistik für Psychologen

Vorlesung: Multivariate Statistik für Psychologen Vorlesung: Multvarate Statstk für Psychologen 3. Vorlesung: 14.04.2003 Agenda 1. Organsatorsches 2. Enfache Regresson. Grundlagen.. Grunddee und Zele der enfachen Regresson Bespele Statstsches Modell Modell

Mehr

Einführung in die Wahrscheinlichkeitsrechnung. Wahrscheinlichkeitsrechnung. Übersicht. Wahrscheinlichkeitsrechnung. bedinge Wahrscheinlichkeit

Einführung in die Wahrscheinlichkeitsrechnung. Wahrscheinlichkeitsrechnung. Übersicht. Wahrscheinlichkeitsrechnung. bedinge Wahrscheinlichkeit Enführung n de bednge Wahrschenlchket Laplace-Wahrschenlchket p 0.56??? Zufallsexperment Randwahrschenlchket Überscht Was st Wahrschenlchket? Rechenregeln Der Multplkatonssatz Axomatsche Herletung Unabhänggket

Mehr

Kurs Mikroökonometrie Rudolf Winter-Ebmer Thema 3: Binary Choice Models Probit & Logit. Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit

Kurs Mikroökonometrie Rudolf Winter-Ebmer Thema 3: Binary Choice Models Probit & Logit. Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit BINARY CHOICE MODELS 1 mt Pr( Y = 1) = P Y = 0 mt Pr( Y = 0) = 1 P Bespele: Wahlentschedung Kauf langlebger Konsumgüter Arbetslosgket Schätzung mt OLS? Y = X β + ε Probleme: Nonsense Predctons ( < 0, >

Mehr

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)).

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)). 44 n n F F a) b) Abbldung 3.: Besetzungszahlen enes Fermgases m Grundzustand (a)) und für ene angeregte Konfguraton (b)). 3.3 Ferm Drac Statstk In desem Abschntt wollen wr de thermodynamschen Egenschaften

Mehr

Statistik Exponentialfunktion

Statistik Exponentialfunktion ! " Statstk " Eponentalfunkton # $ % & ' $ ( )&* +, - +. / $ 00, 1 +, + ) Ensemble von radoaktven Atomkernen Zerfallskonstante λ [1/s] Lebensdauer τ 1/λ [s] Anzahl der pro Zetenhet zerfallenden Kerne:

Mehr

1.1 Beispiele zur linearen Regression

1.1 Beispiele zur linearen Regression 1.1. BEISPIELE ZUR LINEAREN REGRESSION 0 REGRESSION 1: Multple neare Regresson 1 Enführung n de statstsche Regressonsrechnung 1.1 Bespele zur lnearen Regresson b Bespel Sprengungen. Erschütterung Funkton

Mehr

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n Regressonsgerade x x x x 3... x n y y y y 3... y n Bem Auswerten von Messrehen wrd häufg ene durch theoretsche Überlegungen nahegelegte lneare Bezehung zwschen den x- und y- Werten gesucht, d.h. ene Gerade

Mehr

Rückblick Regression II: Anpassung an Polynome

Rückblick Regression II: Anpassung an Polynome Rückblck Regresson II: Anpassung an Polynome T. Keßlng: Auswertung von Messungen und Fehlerrechnung - Fehlerrechnung und Korrelaton 0.06.08 Vorlesung 0- Temperaturmessung mt Thermospannung Wr erhalten

Mehr

Konkave und Konvexe Funktionen

Konkave und Konvexe Funktionen Konkave und Konvexe Funktonen Auch wenn es n der Wrtschaftstheore mest ncht möglch st, de Form enes funktonalen Zusammenhangs explzt anzugeben, so kann man doch n velen Stuatonen de Klasse der n Frage

Mehr

Übung zur Vorlesung - Theorien Psychometrischer Tests II

Übung zur Vorlesung - Theorien Psychometrischer Tests II Übung zur Vorlesung - Theoren Psychometrscher Tests II N. Rose 8. Übung (08.01.2008) Agenda Agenda Verglech Rasch-Modell vs. 2-parametrsches logstsches Modell nach Brnbaum 2PL-Modelle n Mplus Verglech

Mehr

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung: Streuungswerte: 1) Range (R) ab metrschem Messnveau ) Quartlabstand (QA) und mttlere Quartlabstand (MQA) ab metrschem Messnveau 3) Durchschnttlche Abwechung (AD) ab metrschem Messnveau 4) Varanz (s ) ab

Mehr

Lineare Regression Teil des Weiterbildungskurses in angewandter Statistik

Lineare Regression Teil des Weiterbildungskurses in angewandter Statistik 0 Lneare Regresson Tel des Weterbldungskurses n angewandter Statstk der ETH Zürch Folen Werner Stahel, September 2017 1.1 Bespele zur lnearen Regresson 1 1 Enführung n de statstsche Regressonsrechnung

Mehr

Modul 1: Einführung und Wahrscheinlichkeitsrechnung

Modul 1: Einführung und Wahrscheinlichkeitsrechnung Modul : Enführung und Wahrschenlchketsrechnung Informatonstheore Dozent: Prof. Dr. M. Gross E-mal: grossm@nf.ethz.ch Assstenten: Danel Cottng, Rchard Keser, Martn Wcke, Cyrl Flag, Andrea Francke, Jonas

Mehr

Kapitel 4: Wahrscheinlichkeitsrechnung und Kombinatorik

Kapitel 4: Wahrscheinlichkeitsrechnung und Kombinatorik Kaptel 4: Wahrschenlchketsrechnung und Kombnatork 1 4. Wahrschenlchketsrechnung De Wahrschenlchketsrechung stellt Modelle beret zur Beschrebung und Interpretaton solcher zufällger Erschenungen, de statstsche

Mehr

Streuungs-, Schiefe und Wölbungsmaße

Streuungs-, Schiefe und Wölbungsmaße aptel IV Streuungs-, Schefe und Wölbungsmaße B... Lagemaße von äufgketsvertelungen geben allen weng Auskunft über ene äufgketsvertelung. Se beschreben zwar en Zentrum deser Vertelung, geben aber kenen

Mehr

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y 5. Probt-Modelle Ökonometre II - Peter Stalder "Bnar Choce"-Modelle - Der Probt-Ansatz Ene ncht drekt beobachtbare stochastsche Varable hängt von x ab: x u 2 u ~ N(0, ( Beobachtet wrd ene bnäre Varable

Mehr

Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler, Eidgenössische Technische Hochschule, ETH Zürich. 1. Teilprüfung FS 2008.

Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler, Eidgenössische Technische Hochschule, ETH Zürich. 1. Teilprüfung FS 2008. Dr. Jochen Köhler, Edgenösssche Technsche Hochschule, ETH Zürch. Telprüfung Statstk und Wahrschenlchketsrechnung FS 2008 Lösungen Dr. J. Köhler ETH Zürch Donnerstag 0. Aprl 2008 08:5 09:45 0BTel : Multple

Mehr

Übung zur Vorlesung - Theorien Psychometrischer Tests II

Übung zur Vorlesung - Theorien Psychometrischer Tests II Übung zur Vorlesung - Theoren Psychometrscher Tests II N. Rose 2. Übung (05.02.2009) Agenda Agenda Datenbsp. scalefactors.dat Berechnen der Varanzen der Latent Response Varablen Berechnen der modellmplzerten

Mehr

2πσ. e ax2 dx = x exp. 2πσ. 2σ 2. Die Varianz ergibt sich mit Hilfe eines weiteren bestimmten Integrals: x 2 e ax2 dx = 1 π.

2πσ. e ax2 dx = x exp. 2πσ. 2σ 2. Die Varianz ergibt sich mit Hilfe eines weiteren bestimmten Integrals: x 2 e ax2 dx = 1 π. 2.5. NORMALVERTEILUNG 27 2.5 Normalvertelung De n der Statstk am häufgsten benutzte Vertelung st de Gauss- oder Normalvertelung. Wr haben berets gesehen, dass dese Vertelung aus den Bnomal- und Posson-Vertelungen

Mehr

Kapitel 8: Kernel-Methoden. Maschinelles Lernen und Neural Computation

Kapitel 8: Kernel-Methoden. Maschinelles Lernen und Neural Computation Kaptel 8: Kernel-Methoden SS 009 Maschnelles Lernen und Neural Computaton 50 Ausgangsbass: Perceptron Learnng Rule Δw y = Kf = 0Ksonst K"target" = Kf Rosenblatt (96) Input wrd dazugezählt (abgezogen),

Mehr

Inhalt dieses Kapitels. Das Klassifikationsproblem, Bewertung von Klassifikatoren. Grundbegriffe, Parameterwahl, Anwendungen

Inhalt dieses Kapitels. Das Klassifikationsproblem, Bewertung von Klassifikatoren. Grundbegriffe, Parameterwahl, Anwendungen 3. Klassfkaton 3.1 Enletung Inhalt deses Kaptels Das Klassfkatonsproblem, Bewertung von Klassfkatoren 3.2 Bayes-Klassfkatoren Optmaler Bayes-Klassfkator, Naver Bayes-Klassfkator, Anwendungen 3.3 Nächste-Nachbarn-Klassfkatoren

Mehr

Zufallsvariable, Wahrscheinlichkeitsverteilungen und Erwartungswert

Zufallsvariable, Wahrscheinlichkeitsverteilungen und Erwartungswert R. Brnkmann http://brnkmann-du.de Sete..8 Zufallsvarable, Wahrschenlchketsvertelungen und Erwartungswert Enführungsbespel: Zwe Würfel (en blauer und en grüner) werden 4 mal zusammen geworfen. De Häufgketen

Mehr

Ökonomische und ökonometrische Evaluation. 1.3 Ökonometrische Grundkonzepte

Ökonomische und ökonometrische Evaluation. 1.3 Ökonometrische Grundkonzepte Ökonomsche und ökonometrsche Evaluaton 90 Emprsche Analyse des Arbetsangebots Zele: Bestmmung von Arbetsangebotselastztäten als Test der theoretschen Modelle Smulaton oder Evaluaton der Wrkungen von Insttutonen

Mehr

Asymptotische Stochastik (SS 2010) Übungsblatt 1 P X. 0, n.

Asymptotische Stochastik (SS 2010) Übungsblatt 1 P X. 0, n. Insttut für Stochastk PD. Dr. Deter Kadelka Danel Gentner Asymptotsche Stochastk (SS 2) Übungsblatt Aufgabe (Arten von Konvergenz reeller Zufallsvarablen und deren Zusammenhänge) Es seen X,, n N reelle

Mehr

Stochastische Prozesse

Stochastische Prozesse INSTITUT FÜR STOCHASTIK SS 2009 UNIVERSITÄT KARLSRUHE Blatt 2 Prv.-Doz. Dr. D. Kadelka Dpl.-Math. W. Lao Übungen zur Vorlesung Stochastsche Prozesse Musterlösungen Aufgabe 7: (B. Fredmans Urnenmodell)

Mehr

Grundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt

Grundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt Mathematsches Insttut der Unverstät München Wntersemester 3/4 Danel Rost Lukas-Faban Moser Grundlagen der Mathematk I Lösungsvorschlag zum. Tutorumsblatt Aufgabe. a De Formel besagt, daß de Summe der umrahmten

Mehr

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren Mehrfachregresson: Enfluss mehrerer Merkmale auf en metrsches Merkmal Desgnmatrx Bestmmthetsmaß F-Test T-Test für enzelne Regressoren Mehrfachregresson Bvarat: x b b y + = 0 ˆ k k x b x b x b b y + + +

Mehr

4. Rechnen mit Wahrscheinlichkeiten

4. Rechnen mit Wahrscheinlichkeiten 4. Rechnen mt Wahrschenlchketen 4.1 Axome der Wahrschenlchketsrechnung De Wahrschenlchketsrechnung st en Telgebet der Mathematk. Es st üblch, an den Anfang ener mathematschen Theore enge Axome zu setzen,

Mehr

P(mindestens zwei gleiche Augenzahlen) = = 0.4 = = 120. den 5 vorbereiteten Gebieten drei auszuwählen: = 10. Deshalb ist 120 =

P(mindestens zwei gleiche Augenzahlen) = = 0.4 = = 120. den 5 vorbereiteten Gebieten drei auszuwählen: = 10. Deshalb ist 120 = Hochschule Harz Fachberech Automatserung und Informatk Prof. Dr. T. Schade Ft for Ab & Study - Aprl 2014 Lösungen zu den Aufgaben zu elementarer Wahrschenlchketsrechnung 1. a 12 11 10 9 = 33 = 0.102 20

Mehr

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen arametrsche vs. nonparametrsche Testverfahren Verfahren zur Analyse nomnalskalerten Daten Thomas Schäfer SS 009 1 arametrsche vs. nonparametrsche Testverfahren nonparametrsche Tests werden auch vertelungsfree

Mehr

Erwartungswert und Varianz

Erwartungswert und Varianz Erwartungswert und Varanz Dskrete Wahrschenlchketsvertelungen J E(X p(xj x j var(x E[X ( E(X] j BespelEnpunktvertelung ε a Zähldchte: p(x I(a x E(X a var(x 0 BespelDskrete Glechvertelung G(x,,x n Zähldchte:

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Emprsche Wrtschaftsforschung Prof. Dr. Bernd Süßmuth Unverstät Lepzg Insttut für Emprsche Wrtschaftsforschung Volkswrtschaftslehre, nsbesondere Ökonometre 5. Enfaches OLS-Regressonsmodell 5.1. Herletung

Mehr

Lineare Regression (1) - Einführung I -

Lineare Regression (1) - Einführung I - Lneare Regresson (1) - Enführung I - Mttels Regressonsanalysen und kompleeren, auf Regressonsanalysen aserenden Verfahren können schenar verschedene, jedoch nenander üerführare Fragen untersucht werden:

Mehr

e dt (Gaußsches Fehlerintegral)

e dt (Gaußsches Fehlerintegral) Das Gaußsche Fehlerntegral Φ Ac 5-8 Das Gaußsche Fehlerntegral Φ st denert als das Integral über der Standard-Normalvertelung j( ) = -,5 n den Grenzen bs, also F,5 t ( ) = - e dt (Gaußsches Fehlerntegral)

Mehr

Lösungen zum 3. Aufgabenblock

Lösungen zum 3. Aufgabenblock Lösungen zum 3. Aufgabenblock 3. Aufgabenblock ewerber haben n enem Test zur sozalen Kompetenz folgende ntervallskalerte Werte erhalten: 96 131 11 1 85 113 91 73 7 a) Zegen Se für desen Datensatz, dass

Mehr

Übung zu Erwartungswert und Standardabweichung

Übung zu Erwartungswert und Standardabweichung Aufgabe Übung zu Erwartungswert und Standardabwechung In ener Lottere gewnnen 5 % der Lose 5, 0 % der Lose 0 und 5 % der Lose. En Los kostet 2,50. a)berechnen Se den Erwartungswert für den Gewnn! b)der

Mehr

Vorlesung 3 Differentialgeometrie in der Physik 13

Vorlesung 3 Differentialgeometrie in der Physik 13 Vorlesung 3 Dfferentalgeometre n der Physk 13 Bemerkung. Ist M Manngfaltgket, p M und φ : U R n Karte mt p U, so nennt man U auch Koordnatenumgebung und φ auch Koordnatensystem n p. Bespel 2.4 Seen R >

Mehr

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF Alternatve Darstellung des -Stchprobentests für Antele DCF CF Total n= 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Beobachtete Response No Response Total absolut DCF 43 68 111 CF 6 86 11 69 154

Mehr

16. Vorlesung Sommersemester

16. Vorlesung Sommersemester 16. Vorlesung Sommersemester 1 Das Egenwertproblem In allgemener Form hat das Egenwertproblem de Form A x = λ x, (1) wobe A ene n n-matrx, x en n-dmensonaler Vektor und λ der Egenwert st (n Englsch: egenvector,

Mehr

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik Grundlagen sportwssenschaftlcher Forschung Deskrptve Statstk Dr. Jan-Peter Brückner jpbrueckner@emal.un-kel.de R.6 Tel. 880 77 Deskrptve Statstk - Zele Beschreben der Daten Zusammenfassen der Daten Überblck

Mehr

1 Definition und Grundbegriffe

1 Definition und Grundbegriffe 1 Defnton und Grundbegrffe Defnton: Ene Glechung n der ene unbekannte Funkton y y und deren Abletungen bs zur n-ten Ordnung auftreten heßt gewöhnlche Dfferentalglechung n-ter Ordnung Möglche Formen snd:

Mehr

1 Finanzmathematik. 1.1 Das Modell. Sei Xt

1 Finanzmathematik. 1.1 Das Modell. Sei Xt 1.1 Das Modell Se Xt der Pres enes Assets zur Zet t und X = X ) 1 d der Rd +-dmensonale Presprozess. Das Geld kann auch zu dem rskolosen Znssatz r be ener Bank angelegt werden. Der Wert deser Anlage wrd

Mehr

Lineare Regression. Stefan Keppeler. 16. Januar Mathematik I für Biologen, Geowissenschaftler und Geoökologen

Lineare Regression. Stefan Keppeler. 16. Januar Mathematik I für Biologen, Geowissenschaftler und Geoökologen Mathematk I für Bologen, Geowssenschaftler und Geoökologen 16. Januar 2012 Problemstellung Bespel Maß für Abwechung Trck Mnmum? Exponentalfunktonen Potenzfunktonen Bespel Problemstellung: Gegeben seen

Mehr

Ökometrie I 10 Korrelation - Regression

Ökometrie I 10 Korrelation - Regression Ökometre I 10 Korrelaton - Regresson Ka Uwe Totsche LS Hydrogeologe Fredrch-Schller-Unverstät Jena Prof. Dr. Ka Uwe Totsche Ökometre I Korrelaton - Regresson 10-1 Zele und Lernnhalte Zel deser Enhet Zwedmensonale

Mehr

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i Itemanalyse und Itemkennwerte De Methoden der Analyse der Itemegenschaften st ncht m engeren Snne Bestandtel der Klassschen Testtheore Im Rahmen ener auf der KTT baserenden Testkonstrukton und -revson

Mehr

Übungsblatt 7 Lösungsvorschläge

Übungsblatt 7 Lösungsvorschläge Insttut für Theoretsche Informatk Lehrstuhl Prof. Dr. D. Wagner Übungsblatt 7 Lösungsvorschläge Vorlesung Algorthmentechnk m WS 09/10 Problem 1: Mnmale Schnttbass Approxmatonsalgos relatver Gütegarante

Mehr