Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen
|
|
- Edmund Albrecht
- vor 5 Jahren
- Abrufe
Transkript
1 Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen Chrstoph Sawade/Nels Landwehr/Paul Prasse Slva Makowsk Tobas Scheffer
2 Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Bayessche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer, Maschnelles Lernen 2
3 Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Bayessche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer, Maschnelles Lernen 3
4 Statstk & Maschnelles Lernen Maschnelles Lernen: eng verwandt mt (nduktver) Statstk Zwe Gebete n der Statstk: Deskrptve Statstk: Beschrebung, Untersuchung von Egenschaften von Daten. Mttelwerte Induktve Statstk: Welche Schlussfolgerungen über de Realtät lassen sch aus Daten zehen? Erklärungen für Beobachtungen Varanzen Modellbldung Unterschede zwschen Populatonen Zusammenhänge, Muster n Daten 4 Sawade/Landwehr/Scheffer, Maschnelles Lernen
5 Thomas Bayes An essay towards solvng a problem n the doctrne of chances, 1764 veröffentlcht. Arbeten von Bayes grundlegend für nduktve Statstk. Bayessche Wahrschenlchketen wchtge Schtwese auf Unscherhet & Wahrschenlchket Sawade/Landwehr/Scheffer, Maschnelles Lernen 5
6 Frequentstsche / Bayessche Wahrschenlchket Frequentstsche Wahrschenlchketen Beschreben de Möglchket des Entretens ntrnssch stochastscher Eregnsse (z.b. Münzwurf). Defnton über relatve Häufgketen möglcher Ergebnsse enes wederholbaren Versuches Wenn man ene fare Münze 1000 Mal wrft, wrd etwa 500 Mal Kopf fallen In 1 Gramm Potassum-40 zerfallen pro Sekunde ca Atomkerne Sawade/Landwehr/Scheffer, Maschnelles Lernen 6
7 Frequentstsche / Bayessche Wahrschenlchket Bayessche, subjektve Wahrschenlchketen Grund der Unscherhet en Mangel an Informatonen We wahrschenlch st es, dass der Verdächtge X das Opfer umgebracht hat? Neue Informatonen (z.b. Fngerabdrücke) können dese subjektven Wahrschenlchketen verändern. Bayessche Schtwese m maschnellen Lernen wchtger Frequentstsche Schtwese auch manchmal verwendet, mathematsch äquvalent Sawade/Landwehr/Scheffer, Maschnelles Lernen 7
8 Bayessche Wahrschenlchketen m Maschnellen Lernen Modellbldung: Erklärungen für Beobachtungen fnden Was st das wahrschenlchste Modell? Abwägen zwschen Vorwssen (Pror über Modelle) Evdenz (Daten, Beobachtungen) Bayessche Schtwese: Evdenz (Daten) verändert subjektve Wahrschenlchketen für Modelle (Erklärungen) A-posteror Modellwahrschenlchket, MAP Hypothese Sawade/Landwehr/Scheffer, Maschnelles Lernen 8
9 Wahrschenlchketstheore, Zufallsvarablen Zufallsexperment: defnerter Prozess, n dem en Elementareregns ω erzeugt wrd. Eregnsraum Ω: Menge aller Elementareregnsse. Eregns A: Telmenge des Eregnsraums. Wahrschenlchketsfunkton p: Funkton, de Eregnssen A Ω Wahrschenlchketen zuwest. Sawade/Landwehr/Scheffer, Maschnelles Lernen 9
10 Wahrschenlchketstheore Gültge Wahrschenlchketsfunkton p (Kolmogorow-Axome) Wahrschenlchket von Eregns A Ω : Scheres Eregns: p( Ω ) = 1, und 0 pa ( ) 1 Für de Wahrschenlchket zweer nkompatbler Eregnsse A Ω, B Ω (d.h. A B= ) glt: pa ( B) = pa ( ) + pb ( ) p( ) = 0 Sawade/Landwehr/Scheffer, Maschnelles Lernen 10
11 Wahrschenlchketstheore: Bespel Würfeln Eregnsraum Ω={1, 2,3, 4,5,6} Elementareregnsse haben Wsk Eregns gerade Zahl: A = {2, 4,6} Wahrschenlchket des Eregnsses: p({ ω }) = 1/ 6 pa= ( ) 1/2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 11
12 Wahrschenlchketstheore, Zufallsvarablen Zufallsvarable X: Abbldung von Elementareregnssen auf numersche Werte Wahrschenlchket dafür, dass Eregns X=x entrtt (Zufallsvarable X wrd mt Wert x belegt). X : Ω ω x px ( = x) = p({ ω Ω X( ω) = x}) Zusammenfassen n Wahrschenlchketsvertelung, der Varable X unterlegt px ( ) Experment wesst Zufallsvarable X den Wert x= X( ω) zu Vertelung gbt an, we Wahrschenlchketen über Werte x vertelt snd X~ px ( ) X st vertelt nach p(x) 12 Sawade/Landwehr/Scheffer, Maschnelles Lernen
13 Zufallsvarable: Bespel Würfeln mt 2 Würfeln Eregnsraum Ω= {(, ) {1, 2,3, 4,5,6}} ω1 ω2 ω Elementareregnsse haben Wsk Zufallsvarable: Summe der bede Augenzahlen X (( ω, ω )) = ω + ω Wahrschenlchket für Wert der ZV: px= ( 5) =? p({( ω1, ω 2)}) = 1/ 36 Sawade/Landwehr/Scheffer, Maschnelles Lernen 13
14 Zufallsvarable: Bespel Würfeln mt 2 Würfeln Eregnsraum Ω= {(, ) {1, 2,3, 4,5,6}} ω1 ω2 ω Elementareregnsse haben Wsk Zufallsvarable: Summe der bede Würfel X (( ω, ω )) = ω + ω Wahrschenlchket für Wert der ZV: px ( = 5) = p({(1, 4),(2,3),(3, 2),(4,1)}) = 4 / 36 p({( ω1, ω 2)}) = 1/ 36 Sawade/Landwehr/Scheffer, Maschnelles Lernen 14
15 Dskrete/kontnuerlche Zufallsvarablen Dskrete Zufallsvarablen: D=X(Ω) dskret Kontnuerlche Zufallsvarablen: D=X(Ω) kontnuerlch Für dskrete Zufallsvarablen glt: x D px ( = x) = 1 D dskreter Werteberech Bespel: N Münzwürfe Zufallsvarablen X1,..., XN {0,1} Münzparameter μ gbt Wahrschenlchket für Kopf an px ( = 1) = µ px ( = 0) = 1 µ Wahrschenlchket für Kopf Wahrschenlchket für Zahl Sawade/Landwehr/Scheffer, Maschnelles Lernen X ~ Bern( X µ ) = µ (1 µ ) X X 1 Bernoull-Vertelung 15
16 Dskrete Zufallsvarablen Bespel: Anzahl Köpfe be N Münzwürfen ZV Anzahl Köpfe : Bnomal-Vertelung X ~ Bn( X N, µ ) Bn( X N, µ ) =? N X = X, X {0,..., N} = 1 Sawade/Landwehr/Scheffer, Maschnelles Lernen 16
17 Dskrete Zufallsvarablen Bespel: Anzahl Köpfe be N Münzwürfen ZV Anzahl Köpfe : Bnomal-Vertelung X ~ Bn( X N, µ ) N Bn( X N, µ ) = µ (1 µ ) X X N X N X = X, X {0,..., N} = 1 N = 10, µ = Sawade/Landwehr/Scheffer, Maschnelles Lernen
18 Kontnuerlche Zufallsvarablen Kontnuerlche Zufallsvarablen Unendlch (überabzählbar) vele Werte möglch Typscherwese Wahrschenlchket px ( = x) = 0 Statt Wahrschenlchketen für enzelne Werte: Dchtefunkton f X : Dchte der ZV X x : f X ( x) 0, ( x) = 1 f X Wahrschenlchket, dass ZV X Wert zwschen a und b annmmt b p( X [ a, b]) f ( x) dx, = a X f ( x ) > 1 möglch X 18 Sawade/Landwehr/Scheffer, Maschnelles Lernen
19 Kontnuerlche Zufallsvarablen Bespel: Körpergröße X X annähernd Gaußvertelt ( Normalvertelt ) X x µσ 2 ~ (, ) Dchte der Normalvertelung Sawade/Landwehr/Scheffer, Maschnelles Lernen z.b. µ = 170, σ = 10 19
20 Kontnuerlche Zufallsvarablen Bespel: Körpergröße We groß st de Wahrschenlchket, dass en Mensch genau 180cm groß st? px= ( 180) = 0 We groß st de Wahrschenlchket, dass en Mensch zwschen 180cm und 181cm groß st? ( [180,181]) = ( 170,10 ) 180 p X x dx Sawade/Landwehr/Scheffer, Maschnelles Lernen 20
21 Kontnuerlche Zufallsvarablen Vertelungsfunkton x F( x) p( X x) f ( z) dz, = = px ( [ ab, ]) = Fb ( ) Fa ( ) Dchte st Abletung der Vertelungsfunkton df( x) f X ( x) = dx Veranschaulchung Dchte: f ( x) = lmε X 0 X px ( [ x ε, x+ ε]) 2ε Sawade/Landwehr/Scheffer, Maschnelles Lernen 21
22 Notaton Notaton: wenn der Zusammenhang klar st, schreben wr auch manchmal px ( ) statt px ( = x) (dskrete Wahrschenlchket) px ( ) statt f ( x) (kontnuerlche Dchte) X Sawade/Landwehr/Scheffer, Maschnelles Lernen 22
23 Konjunkton von Eregnssen Wahrschenlchket für Entreten mehrerer Eregnsse: p( X= xy, = y) gemensame Wahrschenlchket f, ( xy, ) gemensame Dchte XY Gemensame Vertelung (dskret/kontnuerlch) pxy (, ) Sawade/Landwehr/Scheffer, Maschnelles Lernen 23
24 Bedngte Wahrschenlchketen We beenflusst zusätzlche Informaton de Wahrschenlchketsvertelung? Bedngte Wahrschenlchket enes Eregnsses: Bedngte Dchte: Bedngte Vertelung (dskret/kontnuerlch): px ( zusätzlche Informaton) px ( = xy = y) = f XY px ( Y) = ( x y) = pxy (, ) py ( ) p( X= xy, = y) py ( = y) f XY, f Y ( xy, ) ( y) dskret kontnuerlch 24 Sawade/Landwehr/Scheffer, Maschnelles Lernen
25 Bedngte Wahrschenlchketen Produktregel pxy (, ) = px ( Y) py ( ) dskret/kontnuerlch Summenregel px ( = x) = px ( = xy, = y) y D f X( x) = f XY, ( x, y) dy dskret kontnuerlch px ( = x) hesst auch "Randwahrschenlchket" Sawade/Landwehr/Scheffer, Maschnelles Lernen 25
26 Gemensame und bedngte Wahrschenlchketen Zufällgen Punkt auf Fläche auswählen Bedngte Wahrschenlchket = py ( = y, X= x) j px ( = x) Gemensame Wahrschenlchket Randwahrschenlchket 26 Sawade/Landwehr/Scheffer, Maschnelles Lernen
27 Wchtge Rechenregeln für Wahrschenlchketen Zufällgen Punkt auf Fläche auswählen Produktregel py ( = y, X = x ) = py ( = y X = x ) p( X = x ) j j Summenregel p( X = x ) = px ( = xy, = y ) c 1 px ( = x ) = = n N N nj nj c py ( = yj, X= x ) = = = py ( = yj X = x ) p( X = x ) N c N j j j = px ( = xy, = y) j j 27 j Sawade/Landwehr/Scheffer, Maschnelles Lernen
28 Unabhänggket Zwe Zufallsvarablen snd unabhängg, wenn: Äquvalent dazu pxy (, ) = px ( ) py ( ) p( X Y) = p( X) und py ( X) = py ( ) Bespel: wr würfeln zwemal mt farem Würfel, bekommen Augenzahlen x1, x2 ZV X snd unabhängg 1, X2 X = X X X = X 2 1 X2 ZV und snd abhängg Sawade/Landwehr/Scheffer, Maschnelles Lernen 28
29 Erwartungswert Erwartungswert ener Zufallsvarable: E( X ) = xp( X = x) E( X ) = xp( x) dx x Veranschaulchung: gewchtetes Mttel, Schwerpunkt enes Stabes mt Dchte p(x) Rechenregeln Erwartungswert E( ax + b) = ae( X ) + b EX ( + Y) = EX ( ) + EY ( ) X dskrete ZV X kontnuerlche ZV mt Dchte p(x) 29 Sawade/Landwehr/Scheffer, Maschnelles Lernen
30 Erwartungswert Erwartungswert addtv Summenregel E( X+ Y) = ( x+ y) p( X= xy, = y) xy, = xp( X = x, Y = y) + yp( X = x, Y = y) xy, xy, = x p( X= xy, = y) + y p( X= xy, = y) x y y x = xp( X = x) + yp( Y = y) x = E( X) + EY ( ) y Sawade/Landwehr/Scheffer, Maschnelles Lernen 30
31 Varanz, Standardabwechung Varanz: Erwartete quadrerte Abwechung von X von E(X) Mass für de Stärke der Streuung Var X E X E X x E X p X x 2 2 ( ) = (( ( )) ) = ( ( )) ( = ) x Standardabwechung Verschebungssatz 2 2 Var( X ) = E(( X E( X )) ) = ( x E( X )) p( x) dx σ = X Var(X ) VarX ( ) = EX ( ) EX ( ) Sawade/Landwehr/Scheffer, Maschnelles Lernen
32 Varanz, Standardabwechung Verschebungssatz Var X E X E X 2 ( ) = (( ( )) ) = EX EXX+ EX 2 2 ( 2 ( ) ( ) ) = EX ( ) 2 EXEX ( ) ( ) + EX ( ) 2 2 = EX ( ) EX ( ) 2 2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 32
33 Rechenregeln Varanz Rechenregeln Varanz/Standardabwechung Var ax b a Var X 2 ( + ) = ( ), Var( X + Y ) = Var( X ) + Var( Y ) + 2 Cov( X, Y ) Covaranz msst gemensame Schwankung der Varablen Falls Varablen unabhängg: Cov( X, Y ) = 0, σ aσ ax + b = X CovXY (, ) = E(( X EX ( ))( Y EY ( ))) = EXY ( ) EXEY ( ) ( ) Var( X + Y ) = Var( X ) + Var( Y ) Sawade/Landwehr/Scheffer, Maschnelles Lernen 33
34 Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) EX ( ) =? Sawade/Landwehr/Scheffer, Maschnelles Lernen 34
35 Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) E( X ) = xp( X = x) x {0,1} = 1µ + 0(1 µ ) = µ Sawade/Landwehr/Scheffer, Maschnelles Lernen 35
36 Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) E( X ) = xp( X = x) x {0,1} = 1µ + 0(1 µ ) = µ Erwartungswert Bnomalvertelung X ~ Bn( X N, µ ) N E( X ) = xp( X = x) x= 0 N N = x µ (1 µ ) x= 0 x =? X x N x N = X = 1 36 Sawade/Landwehr/Scheffer, Maschnelles Lernen
37 Erwartungswert, Varanz Bnomalvertelung Erwartungswert Bernoull-Vertelung X 1 X X ~ Bern( X µ ) = µ (1 µ ) E( X ) = xp( X = x) x {0,1} = 1µ + 0(1 µ ) = µ Erwartungswert Bnomalvertelung X ~ Bn( X N, µ ) N E( X ) = xp( X = x) x= 0 N N = x µ (1 µ ) x= 0 x = Nµ X x N x N = X = 1 Summe der Erwartungswerte der Bernoull-Varablen 37 Sawade/Landwehr/Scheffer, Maschnelles Lernen
38 Erwartungswert, Varanz Bnomalvertelung Varanz Bernoullvertelung? X ~ Bern( X µ ) Var( X ) =? Sawade/Landwehr/Scheffer, Maschnelles Lernen 38
39 Erwartungswert, Varanz Bnomalvertelung Varanz Bernoullvertelung? X ~ Bern( X µ ) Var( X ) =? Verschebungssatz: VarX ( ) = EX ( ) E( X ) 2 2 = = (1 2 µ µ µ µ ) ( ) Var X µ 39 Sawade/Landwehr/Scheffer, Maschnelles Lernen
40 Erwartungswert, Varanz Bnomalvertelung Varanz Bnomalvertelung X X ~ Bn( X N, µ ) Var( X ) =? N = X = 1 X 1 X X ~ Bern( X µ ) = µ (1 µ ) Var( X ) = µ (1 µ ) Var( X ) = Nµ (1 µ ) X unabhängg Sawade/Landwehr/Scheffer, Maschnelles Lernen 40
41 Erwartungswert, Varanz Normalvertelung z = x µ Erwartungswert Normalvertelung X x µσ 2 ~ (, ) 2 E( X ) = x ( x µσ, ) dx x exp ( x µ ) dx 2 1/2 2 (2 πσ ) 2σ = 1 1 = ( + ) exp (2 πσ ) 2σ 2 z µ z dz 2 1/ exp 2 1/2 2 exp 2 1/ = µ z dz + z z dz = µ (2 πσ ) 2 σ (2 πσ ) 2σ 41 Sawade/Landwehr/Scheffer, Maschnelles Lernen
42 Erwartungswert, Varanz Normalvertelung z = x µ Erwartungswert Normalvertelung X x µσ 2 ~ (, ) 2 E( X ) = x ( x µσ, ) dx x exp ( x µ ) dx 2 1/2 2 (2 πσ ) 2σ = = ( z + µ ) exp z dz 2 1/2 2 (2 πσ ) 2σ = µ exp exp 2 1/2 z dz z z dz µ /2 2 (2 πσ ) 2 σ = (2 πσ ) 2σ = 1 = 0 42 Sawade/Landwehr/Scheffer, Maschnelles Lernen
43 Erwartungswert, Varanz Normalvertelung Varanz Normalvertelung Man kann zegen dass 2 2 X ~ ( x µσ, ) Var( X ) = σ Sawade/Landwehr/Scheffer, Maschnelles Lernen 43
44 Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Sawade/Landwehr/Scheffer, Maschnelles Lernen 44
45 Ernnerung: Problemstellung Lernen Engabe Lernproblem: Tranngsdaten. L = x ( x, y1),...,( x y, y 1 N N k Merkmalsvektoren ) Ausgabe: Klassfkator (auch als Modell bezechnet). f : X Labels Y Lnearer Klassfkator mt Parametervektor w. f w spam ok spam ( x) wx+ = ok: sonst T m wx= = 1 T spam : wenn b 0 wx 45 Sawade/Landwehr/Scheffer, Maschnelles Lernen
46 Modellvorstellung Bayes sches Lernen Vele Verfahren des maschnellen Lernens baseren auf probablstschen Überlegungen Modellvorstellung bem Lernen: Jemand hat echtes Modell f * nach A-Pror Vertelung ( Pror ) p(f) gezogen f * st ncht bekannt, aber p(f) reflektert Vorwssen (was snd wahrschenlche Modelle?) Tranngsengaben x werden gezogen. * Klassenlabels y werden nach py ( x, f) gezogen. * Intuton: y = f ( x) * Um bespelswese Datenrauschen abzublden, y ~ py ( x, f) Fragestellung Lernen: Gegeben L und p(f), was st wahrschenlchstes echte Modell? Versuche, f * (ungefähr) zu rekonstrueren 46 Sawade/Landwehr/Scheffer, Maschnelles Lernen
47 Bayessche Regel Wchtgstes Werkzeug m Bayes schen Lernen: Bayes sche Regel py ( X) p( X) px ( Y) = py ( ) Bewes enfach: Defnton bedngte Vertelung pxy (, ) py ( X) px ( ) px ( Y) = = py ( ) py ( ) Produktregel Wchtge Grundenscht für das maschnelle Lernen: Erlaubt den Rückschluss auf Modellwahrschenlchketen gegeben Wahrschenlchketen von Beobachtungen Sawade/Landwehr/Scheffer, Maschnelles Lernen
48 Bayessche Regel Anwendung Bayes sche Regel: Modellwahrschenlchket gegeben Daten und Vorwssen p( Modell Daten) = Interresanter Term: we st de Wahrschenlchket für Modelle, gegeben Evdenz der Tranngsdaten? p( Daten Modell) p( Modell) p( Daten) Erlaubt de Berechnung des maxmum a-posteror (MAP) Modells Modell MAP Relatv enfach anzugeben: we hoch st de Wahrschenlchket, bestmmte Daten zu sehen, unter der Annahme dass Modell das korrekte Modell st? = arg m ax p( Modell Daten) Modell Wahrschenlchket der Daten, unabhängg von Modell A-pror Vertelung über Modelle: Vorwssen Sawade/Landwehr/Scheffer, Maschnelles Lernen
49 Bayessche Regel Wahrschenlchket der Daten unnteressant, wel unabhängg von Modell p( Daten Modell) p( Modell) p( Modell Daten) = p( Daten) 1 = p( Daten Modell) p( Modell) Z p( Daten Modell) p( Modell) Notaton Prop-To : glech bs auf multplkatve Konstante Lkelhood: we gut erklärt Modell de Daten? Pror: we wahrschenlch st Modell a pror? Sawade/Landwehr/Scheffer, Maschnelles Lernen
50 Maxmum-A-Posteror-Hypothese Wahrschenlchstes Modell gegeben de Daten f = arg max p( f L) MAP f w p( Lf w) p( fw) = arg max fw pl ( ) = arg max p( Lf ) p( f ) f w Für ncht-negatve reellwertge Funktonen glt: arg max z G ( z) arg max log G ( z) = z Wel Logarthmus monoton: w w w Anwendung Bayes sche Regel Sawade/Landwehr/Scheffer, Maschnelles Lernen 50
51 Maxmum-A-Posteror-Hypothese Wahrschenlchstes Modell gegeben de Daten f = arg max p( Lf ) p( f ) MAP f = arg max log( p( Lf ) p( f )) f = arg mn log P( Lf ) log p( f ) f w w w Log-Pror Log-Lkelhood Optmerungskrterum bestehend aus log-lkelhood und log-pror Ernnerung: Lernen als Optmerungsproblem, Summe aus Verlustfunkton und Regularserer w w w w w w Sawade/Landwehr/Scheffer, Maschnelles Lernen 51
52 Log-Lkelhood We wahrschenlch snd de Daten gegeben das Modell? log pl ( fw) = log py ( 1,..., yn, x1,..., xn fw) = log( py ( 1,..., yn x1,..., xn, fw ) p( x1,..., xn)) = log py ( 1,..., yn x1,..., xn, fw ) log p( x1,..., xn) log py (,..., y x,..., x f ) + const Produktregel Annahme: Datenpunkte unabhängg Bespel: Label ener Emal hängt nur von Merkmalsvektor und Modell ab, ncht von anderen Merkmalsvektoren oder Labels Ensetzen ergbt =, 1 N 1 N w py (,..., y x,..., x, f ) = py ( x, fw ) 1 N 1 N w = 1 log p( L f ) = log p( y x, f ) + const w N = 1 N = 1 = log p( y x, f ) + const w w N Konstanter Faktor, unabhängg von f 52 Sawade/Landwehr/Scheffer, Maschnelles Lernen
53 Log-Lkelhood Was st py ( f w, x )? Defnton mt Verlustfunkton, bespelswese Je höher der Verlust (Dfferenz zwschen Vorhersage und beobachtetem Label), desto gernger de Wahrschenlchket deser Beobachtung 1 py ( fw, x) = exp ( fw ( ), y) Z log p( y f, x ) = ( f ( x ), y ) + const Ensetzen ergbt ( f( x ), y 0: f ( x ) = c: f( x w w log p( L f ) = ( f ( ), y ) + const x w w Negatve Log-Lkelhood entsprcht Verlustterm! ) = y ) y Normalserer ( x ) Annahme: spezelle Exponentalvertelung 53 Sawade/Landwehr/Scheffer, Maschnelles Lernen
54 A-Pror-Wahrschenlchket (Pror) Was st a-pror Vertelung p( f w )? Ernnerung an Dskusson der Regularserer: Vorwssen: Modelle mt weng Attrbuten snd wahrschenlcher 2 Vorwssen: w eher klen Multvarate Normalvertelung p( f ) = ( w 0, σ w = 1 2πσ Negatver Log-Pror: 1 2 log p( fw ) = w + const e σ 2 I) Negatver Log-Pror = Regularserer! w σ 2 2 Konstante Terme, unabhängg von f Größte Dchte be w=0 54 Sawade/Landwehr/Scheffer, Maschnelles Lernen
55 A-Posteror-Wahrschenlchket (Posteror) Wahrschenlchstes Modell gegeben Vorwssen und Daten. f = arg max p( f L) MAP f w = arg mn log p( Lf ) log p( f ) f w = arg mn f l( f ( x ), y) + λ w w w 1 λ = 2 ArgMn über regularserte Verlustfunkton! Rechtfertgung für Optmerungskrterum? w Wahrschenlchste Hypothese (MAP-Hypothese). w w 2 σ 2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 55
56 Lernen und Vorhersage Bsher haben wr mt Hlfe der Bayes schen Regel das wahrschenlchste Modell gegeben de Daten bestmmt: Löst Lernproblemstellung: Gegeben: Daten L, Vorwssen p(f) Gesucht: Modell f : Vorhersagen werden mt Hlfe des gelernten Modells getroffen: Zwestufger Prozess: f arg max p( f L) MAP = f w y = f MAP ( x) x neue Testnstanz Erst Modell Lernen Dann Vorhersage mt gelerntem Modell w 56 Sawade/Landwehr/Scheffer, Maschnelles Lernen
57 Lernen und Vorhersage Wenn wr uns auf en Modell festlegen müssen, st MAP Modell snnvoll Aber egentlches Zel st Vorhersage ener Klasse! Besser, sch ncht auf en Modell festzulegen, solange noch Unscherhet über bestes Modell besteht Stattdessen Bayessche Vorhersage: drekt optmale Vorhersage ausrechnen, ohne sch auf Modell festzulegen Sawade/Landwehr/Scheffer, Maschnelles Lernen 57
58 Lernen und Vorhersage: Bespel Modellraum mt 4 Modellen: H = { f1, f2, f3, f4} Bnäres Klassfkatonsproblem, = {0,1} Tranngdaten L Wr haben a-posteror-wahrschenlchketen berechnet p( f1 L ) = 0.3 p( f L ) = MAP Modell st f1 = arg max f pfl ( ) p( f3 L ) = 0.25 p( f4 L ) = 0.2 Sawade/Landwehr/Scheffer, Maschnelles Lernen 58
59 Lernen und Vorhersage: Bespel Modelle probablstsche Klassfkatoren: f Modell lefert Wahrschenlchket für postve Klasse py ( = 1 x, f ) [0,1] ("80% Scherhet für Klasse Spam") Vorhersage: f 1: py ( = 1 x, f ) > 0. 5 ( x) = 0: sonst Sawade/Landwehr/Scheffer, Maschnelles Lernen 59
60 Lernen und Vorhersage: Bespel Bespel für probablstschen Klassfkator: Logstsche Regresson Lneares Modell: Entschedungsfunktonswert T py ( = 1 xw, ) = σ ( wx) p(y=1) T wx w Parametervektor 1 σ ( z) = 1 + exp( z ) logstsche Regresson Sawade/Landwehr/Scheffer, Maschnelles Lernen Entschedungsfunktonswert wx 60
61 Lernen und Vorhersage: Bespel Wr wollen neues Testbespel klassfzeren py ( = 1 x, f) = 0.6 py ( = 1, ) = x f2 py x f4 Klassfkaton mt MAP Modell : Idee: ncht auf Modell festlegen, solange noch Unscherhet über Modelle besteht Alternatver Ansatz: Bestmme drekt de Wahrschenlchket für de optmale Vorhersage, gegeben de beobachteten Daten py ( = 1 x, L) =? x f 1 py ( = 1 x, f) = 0.2 ( = 1, ) = 0.3 y =1 Beobachtungen: Tranngsdaten L, Merkmalsvektor der Testnstanz x 61 Sawade/Landwehr/Scheffer, Maschnelles Lernen
62 Lernen und Vorhersage: Bespel Ausrechnen: 4 py ( = 1 x, L) = py ( = 1, f x, L) = 1 4 = 1 4 = py ( = 1 x, f) pf ( L) = 1 Vorhersage y=0, unglech MAP-Modell! = py ( = 1 f, x, Lpf ) ( x, L) Summenregel Produktregel = 0.6* * * *0.2 = Sawade/Landwehr/Scheffer, Maschnelles Lernen 62
63 Lernen und Vorhersage: Bespel Wenn Zel Vorhersage st, sollten wr verwenden py ( = 1 x, L) Ncht auf en Modell festlegen, solange noch Unscherhet über Modelle besteht Grunddee der Bayesschen Vorhersage Sawade/Landwehr/Scheffer, Maschnelles Lernen 63
64 Bayessches Lernen und Vorhersage Problemstellung Bayes sche Vorhersage Gegeben: Tranngsdaten L, neue Testnstanz x. Gesucht: Vertelung über Labels y für gegebenes x: Bayessche Vorhersage: y* = arg max y py ( x, L) Mnmert Rsko ener falschen Vorhersage. py ( x, L) Heßt auch Bayes-optmale Entschedung oder Bayes-Hypothese. Sawade/Landwehr/Scheffer, Maschnelles Lernen 64
65 Bayessches Lernen und Vorhersage Berechnung Bayessche Vorhersage Summenregel Produktregel y* = arg max y py ( x, L) = arg max py (, θ x, Ld ) θ = arg max py ( θ, x) p( θ Ld ) θ Bayesan Model Averagng Bayes sche Vorhersage: y y Vorhersage, gegeben Modell Mtteln der Vorhersage über alle Modelle. Modell Modell gegeben Tranngsdaten Gewchtung: we gut passt Modell zu Tranngsdaten. θ 65 Sawade/Landwehr/Scheffer, Maschnelles Lernen
66 Bayessches Lernen und Vorhersage Bayessche Vorhersage praktkabel? y* = arg max y py ( x, L) = arg max py ( x, θ) p( θ Ld ) θ y Bayesan Model Averagng: Mtteln über.a. unendlch vele Modelle We berechnen? Nur manchmal praktkabel, geschlossene Lösung. Kontrast zu Entschedungsbaumlernen: Fnde en Modell, das gut zu den Daten passt. Trff Vorhersagen für neue Instanzen baserend auf desem Modell. Trennt zwschen Lernen enes Modells und Vorhersage. Sawade/Landwehr/Scheffer, Maschnelles Lernen 66
67 Bayessches Lernen und Vorhersage We Bayes-Hypothese ausrechnen? y* = arg max y py ( x, L) = arg max py ( x, θ) p( θ Ld ) θ Wr brauchen: y 1) Wsk für Klassenlabel gegeben Modell, py ( x, θ ) z.b. lnearer probablstscher Klassfkator (logstsche Regresson) T py ( = 1 x, θ) = σ( wx) T py ( = 0 x, θ) = σ( wx) Sawade/Landwehr/Scheffer, Maschnelles Lernen
68 Bayessches Lernen und Vorhersage We Bayes-Hypothese ausrechnen? y* = arg max y py ( x, L) = arg max py ( x, θ) p( θ Ld ) θ Wr brauchen: y 2) Wsk für Modell gegeben Daten, a-posteror- Wahrschenlchket p( θ L) Ausrechnen mt Bayes Regel Sawade/Landwehr/Scheffer, Maschnelles Lernen
69 Bayessches Lernen und Vorhersage Berechnung der a-posteror Vertelung über Modelle Bayes Glechung Posteror, A-Posteror- Vertelung Bayessche Regel: Posteror = Lkelhood x Pror p( θ L) = pl ( θ) p( θ) pl ( ) 1 = pl ( θ) p ( θ) Z Normerungskonstante Lkelhood, We gut passt Modell zu Daten? Pror, A-Pror- Vertelung Sawade/Landwehr/Scheffer, Maschnelles Lernen 69
70 Bayessche Regel Brauchen: Lkelhood p(l θ). We wahrschenlch wären de Tranngsdaten, wenn θ das rchtge Modell wäre. We gut passt Modell zu den Daten. Typscherwese Unabhänggketsannahme: L= {( x, y ),...,( x, y )} 1 1 N pl ( θ) = py ( x, θ) = 1 N N Wahrschenlchket des n L beobachteten Klassenlabels gegeben Modell θ 70 Sawade/Landwehr/Scheffer, Maschnelles Lernen
71 Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel lneare Modelle: Sawade/Landwehr/Scheffer, Maschnelles Lernen 71
72 Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel lneare Modelle: 2 w möglchst nedrg ( w = θ ) Sawade/Landwehr/Scheffer, Maschnelles Lernen 72
73 Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel Entschedungsbaumlernen: Sawade/Landwehr/Scheffer, Maschnelles Lernen 73
74 Bayessche Regel Brauchen: Pror p(θ ). We wahrschenlch st Modell θ bevor wr rgendwelche Tranngsdaten gesehen haben. Annahmen über p(θ ) drücken datenunabhängges Vorwssen über Problem aus. Bespel Entschedungsbaumlernen: Klene Bäume snd n velen Fällen besser als komplexe Bäume. Algorthmen bevorzugen deshalb klene Bäume. Sawade/Landwehr/Scheffer, Maschnelles Lernen 74
75 Zusammenfassung Bayessche Vorhersage Um Rsko ener Fehlentschedung zu mnmeren: wähle Bayessche Vorhersage y= arg max py ( x, L) * = arg max y py ( x, θ ) p( θ Ld ) θ Problem: In velen Fällen gbt es kene geschlossene Lösung, Integraton über alle Modelle unpraktkabel. Maxmum-A-Posteror- (MAP-)Hypothese: wähle Entsprcht Entschedungsbaumlernen. Fnde bestes Modell aus Daten, Klassfzere nur mt desem Modell. y θ* = arg max θ p( θ L) y= arg max py ( x, θ ) * y * 75 Sawade/Landwehr/Scheffer, Maschnelles Lernen
76 Zusammenfassung Bayessche Vorhersage Um MAP-Hypothese zu bestmmen müssen wr Posteror (Lkelhood x Pror) kennen. Unmöglch, wenn ken Vorwssen (Pror) exstert. Maxmum-Lkelhood- (ML-)Hypothese: θ* = arg max θ pl ( θ) y= arg max py ( x, θ ) * y * Berückschtgt nur Beobachtungen n L, ken Vorwssen. Problem der Überanpassung an Daten Sawade/Landwehr/Scheffer, Maschnelles Lernen 76
77 Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayes sche) Parameterschätzung für Wahrschenlchketsvertelungen Bayes sche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer, Maschnelles Lernen 77
78 Parameter von Vertelungen schätzen Oft können wr annehmen, dass Daten ener bestmmten Vertelung folgen Z.B. Bnomalvertelung für N Münzwürfe Z.B. Gaußvertelung für Körpergröße, IQ, Dese Vertelungen snd parametrsert Bnomalvertelung: Parameter µ st Wahrschenlchket für Kopf Gaußvertelung: Parameter µ, σ für Mttelwert und Standardabwechung Echte Wahrschenlchketen/Parameter kennen wr ne. Welche Aussagen über echte Wahrschenlchketen können wr machen, gegeben Daten? Sawade/Landwehr/Scheffer, Maschnelles Lernen 78
79 Parameter von Vertelungen schätzen Problemstellung Parameter von Vertelungen schätzen: Gegeben parametrserte Famle von Vertelungen (z.b. Bnomal, Gauß) mt Parametervektor θ Gegeben Daten L: Ausprägungen der Zufallsvarable Gesucht: a-posteror Vertelung P( θ L) bzw. maxmum a-posteror Schätzung * θ Verwende Bayessche Regel: P( θ L) = = arg max P( θ L) θ P( L θ ) P( θ ) P( L) 79 Sawade/Landwehr/Scheffer, Maschnelles Lernen
80 Bnomalvertelte Daten Schätzen Bespel: Münzwurf, schätze Parameter μ =θ N Mal Münze werfen. Daten L: N k mal Kopf, N z mal Zahl. Beste Schätzung θ gegeben L? Bayes Glechung: Lkelhood der Daten gegeben Parameter, we gut erklärt Parameter de Beobachtungen? A-posteror Vertelung über Parameter, charaktersert wahrschenlche Parameterwerte und verblebende Ungewsshet P( θ L) = P( L θ ) P( θ ) P( L) A-pror Vertelung über Parameter, repräsentert Vorwssen Wahrschenlchket der Daten, nur Normalserer Sawade/Landwehr/Scheffer, Maschnelles Lernen 80
81 Bnomalvertelte Daten Schätzen Lkelhood der Daten: (θ = μ Wahrschenlchket für Kopf ) Lkelhood st bnomalvertelt: PL ( θ) = PN (, N θ) = Bn( N N, θ) k z PLθ ( ) k Nk + Nz Nk = θ (1 θ) Nk Wahrschenlchket, be N Münzwürfen N -mal Kopf und N Z -mal Zahl zu sehen, für Münzparameter θ N z k N = N + N k z 81 Sawade/Landwehr/Scheffer, Maschnelles Lernen
82 Bnomalvertelte Daten Schätzen Was st der Pror P(θ ) m Münzwurfbespel? 1) Versuch: Ken Vorwssen Bespel: 1:0 θ 1 P( θ ) = Dchte 0: sonst Daten L = {Zahl,Zahl,Zahl} MAP Modell: * PL ( θ) P( θ) θ = arg max θ [0,1] P( θ L) = arg maxθ [0,1] PL ( ) = arg max θ [0,1] PL ( θ) = arg max θ [0,1] θ (1 θ) = 0 0 Schlussfolgerung: Münze wrd nemals Kopf zegen Schlecht, Überanpassung an Daten ( Overfttng ) 82 Sawade/Landwehr/Scheffer, Maschnelles Lernen
83 Bnomalvertelte Daten Schätzen ( θ [0,1]) Was st der Pror P(θ ) m Münzwurfbespel? Besser mt Vorwssen: Unwahrschenlch, dass Münze mmer Kopf oder mmer Zahl zegt Gutes Modell für Vorwssen über θ : Beta-Vertelung. P( θ) = Beta( θ αk, αz) Γ( αk + αz) θ k = (1 θ ) Γ( α )Γ( α ) k z α 1 α 1 Gamma-Funkton Γ(α) kontnuerlche Fortsetzung der Fakultätsfunkton z 1 t z t e dt Γ ( ) = n : Γ ( n) = ( n 1)! 0 z 0.5 Beta( θ 5,5) 83 Sawade/Landwehr/Scheffer, Maschnelles Lernen
84 Bnomalvertelte Daten Schätzen α α k und α z snd Parameter der Beta-Vertelung ( Hyperparameter ) Beta-Vertelung st Vertelung über Vertelungen K = 5, α = 5 α = 1, α = 1 α = 4, α = 2 Z Normalserte Dchte K 1 0 Z Beta( θ α, α ) dθ = 1 K Z K Z Sawade/Landwehr/Scheffer, Maschnelles Lernen 84
85 Bnomalvertelte Daten Schätzen Warum gerade dese a-pror-vertelung? Strukturelle Ähnlchket mt Lkelhood: Pror Lkelhood Γ( αk + αz) k P( θ) = Beta( θ αk, αz)= θ (1 θ) Γ( α )Γ( α ) α 1 α 1 N + N P( L θ) = Bn( Nk N, θ ) = θ k ( 1 θ) Nk k Z N N Enfach, Beobachtungen zu berückschtgen: Produkt aus Lkelhood und Pror hat weder deselbe Form we Pror P( θ L) PL ( θ) P( θ) k z z z 85 Sawade/Landwehr/Scheffer, Maschnelles Lernen
86 Bnomalvertelte Daten Schätzen Wenn wr den Beta-Pror n Bayes Glechung ensetzen, dann: PL ( θ) P( θ) P( θ L) = PL ( ) 1 = Bn( NK N, θ ) Beta ( θ αk, αz ) Z 1 Nk + Nz Nk N Γ( α z k + αz) k = θ (1 θ) θ (1 θ) Z Nk Γ( αk) Γ( αz) 1 αk+ Nk 1 α z+ Nz 1 = θ (1 θ) Z ' =? α 1 α 1 z Sawade/Landwehr/Scheffer, Maschnelles Lernen 86
87 Bnomalvertelte Daten Schätzen Wenn wr den Beta-Pror n Bayes Glechung ensetzen, dann: PL ( θ) P( θ) P( θ L) = PL ( ) 1 = Bn( NK N, θ ) Beta ( θ αk, αz ) Z 1 Nk + Nz Nk N Γ( α z k + αz) k = θ (1 θ) θ (1 θ) Z Nk Γ( αk) Γ( αz) 1 αk+ Nk 1 α z+ Nz 1 = θ (1 θ) Z ' Γ( αk + Nk + αz + Nz) αk+ Nk 1 α z+ Nz 1 = θ (1 θ) Γ( αk + Nk) Γ ( αz + Nz) = Beta( θ α + N, α + N ) k k z z α 1 α 1 Beta-Vertelung st konjugerter Pror: Posteror st weder Beta-vertelt z 87 Sawade/Landwehr/Scheffer, Maschnelles Lernen
88 Zusammenfassung Bayessche Parameterschätzung Bnomalvertelung Zusammenfassung Berechnung der a-posteror Vertelung: Bayessche Regel P( θ L) = P( L θ ) P( θ ) P( L) Posteror P(θ L): We wahrschenlch st Modell θ, nachdem wr Daten L gesehen haben? Vorwssen P(θ ) und Evdenz der Tranngsdaten L werden zu neuem Gesamtwssen P(θ L) ntegrert. Bespel Münzwurf: Vorwssen Beta(θ α k, α z ) und Beobachtungen N k, N z werden zu Posteror Beta(θ α k +N k, α z +N z ). Sawade/Landwehr/Scheffer, Maschnelles Lernen 88
89 Münzwurf: Wahrschenlchste Wahrschenlchket Wahrschenlchster Parameter θ. arg max P( θ L) = arg max Beta( θ α + N, α + N ) Für = α = 1 ergbt sch ML Schätzung Interpretaton der Hyperparameter α 1/ α 1: αz 1/ αk 1 Pseudocounts, de auf beobachtete Counts N / N aufgeschlagen werden θ Ableten, Abletung null setzen ( ) α 1, α 1 z k z α k z Γ( αk + αz + Nk + Nz) = arg max θ θ (1 θ) Γ( α + N ) Γ ( α + N ) = k N θ Nk + αk 1 + N + α + α 2 k z k z k k z z k k z z α + N 1 α + N 1 k k z z Normalserer, unabhängg von θ we oft m Leben Münzwurf mt Kopf / Zahl gesehen? z k 89 Sawade/Landwehr/Scheffer, Maschnelles Lernen
90 Münzwurf: Wahrschenlchste Wahrschenlchket Bespel MAP Schätzung Parameter Pror P( θ) = Beta( θ 5, 5) Posteror nach L={50x Kopf, 25x Zahl}: P( θ L) = Beta( θ 55, 30) N = 50, N = 25, α = 5, α = 5 k z k z * 54 MAP Schätzung: θ = arg max θ P( θ L) = Sawade/Landwehr/Scheffer, Maschnelles Lernen
91 Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen (3) Chrstoph Sawade/Nels Landwehr Tobas Scheffer
92 Überblck Wahrschenlchketen, Erwartungswerte, Varanz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrschenlchketsvertelungen Bayessche Lneare Regresson, Nave Bayes Sawade/Landwehr/Scheffer Maschnelles Lernen 2
93 Überblck Bayessche Lneare Regresson Modellbasertes Klassfkatonslernen: Nave Bayes Sawade/Landwehr/Scheffer Maschnelles Lernen 3
94 Wederholung: Regresson Regressonsproblem: X Matrxschrebwese Problemstellung Vorhersage: Tranngsdaten m L = ( x 1, y 1),...,( x N, y Merkmalsvektoren N ) x y reelles Zelattrbut Merkmalsvektoren 11 N1 = ( x1... xn ) = x x 1m Gegeben L, neues Testbespel x Fnde optmale Vorhersage y für x x x Nm Zugehörge Labels (Werte Zelattrbut) y1 y =... y N 4 Sawade/Landwehr/Scheffer Maschnelles Lernen
95 Exkurs: Multvarate Normalvertelung x Zufallsvarable x mt d Dmensonen. d normalvertelt, wenn Vertelung beschreben wrd durch Dchte 1 1 ( xμ, ) = exp x( μ ) 2π Σ 2 T 1 Σ Σ d /2 1/2 Mttelwertvektor μ Kovaranzmatrx Σ ( xμ Determnante Bespel d=2 d Koaranzmatrx entschedet, we Punkte streuen ) μ Sawade/Landwehr/Scheffer Maschnelles Lernen 5
96 Wederholung: Lneare Regresson Modellraum lneare Regresson: T f ( x w ) = wx w Parametervektor, Gewchtsvektor m = w + 0 wx Zusätzlches konstantes Attrbut x = 1 = 1 0 Lneare Abhänggket von ( x) von Parametern w Lneare Abhänggket von ( x) von Engaben x f w f w Sawade/Landwehr/Scheffer Maschnelles Lernen 6
97 Bayessche Regresson: Daten Modellvorstellung bem Bayesschen Lernen: Prozess der Datengenererung Echtes Modell f * wrd aus Pror-Vertelung P( f) gezogen Merkmalsvektoren x,..., 1 xn werden unabhängg vonenander gezogen (ncht modellert) Für jedes x wrd das Label y gezogen nach Vertelung Py ( (Anschauung: ) x, f* ) y ( ) f* x Daten L fertg generert We seht Py ( x, f) für Regressonsprobleme aus? * Sawade/Landwehr/Scheffer Maschnelles Lernen 7
98 Bayessche Regresson: Daten T Annahme, dass es echtes Modell f *( x) = xw* gbt, dass de Daten perfekt erklärt, unrealstsch Daten folgen ne genau ener Regressons- Geraden/Ebene Alternatve Annahme: Daten folgen f ( x) * bs auf klene, zufällge Abwechungen (Rauschen) Sawade/Landwehr/Scheffer Maschnelles Lernen 8
99 Bayessche Regresson: Daten Alternatve Annahme: Daten folgen f ( x) * bs auf klene, zufällge Abwechungen (Rauschen) Modellvorstellung: Zelattrbut y generert aus f ( x) * normalverteltes Rauschen y = f ( x) + ε mt ε ~ ( ε 0, σ 2 * ) f ( x ) * 0 f ( x) * plus Py x f = y f x σ 2 ( 0, *) ( *( 0), ) Parameter σ modellert Stärke des Rauschens 9 Sawade/Landwehr/Scheffer Maschnelles Lernen
100 Bayessche Regresson: Vorhersagevertelung Zel: Bayessche Vorhersage y* = arg max y Py ( x, L) Ernnerung: Berechnung mt Bayesan Model Averagng Vorhersage, gegeben Modell Modell gegeben Tranngsdaten Py ( x, L) = Py ( x, θ) P( θ Ld ) θ 1 P( θ L) = PL ( θ) P( θ) Z Lkelhood:Tranngsdaten gegeben Modell Pror über Modelle 10 Sawade/Landwehr/Scheffer Maschnelles Lernen
101 Bayessche Regresson: Lkelhood Lkelhood der Daten L: Zehen der x ncht modellert Nachrechnen: Multdmensonale Normalvertelung mt Kovaranzmatrx Enhetsmatrx σ 2 I I = P( y X, w) = Py (,..., y X, w) Bespele unabhängg N 1 = Py ( x, w) = 1 N = y x w σ = 1 N T 2 (, ) ( X T, σ 2 ) = y w I X T T x1 w w =... T xn w T f ( x w ) = x w Vektor der Vorhersagen 11 Sawade/Landwehr/Scheffer Maschnelles Lernen
102 Bayessche Regresson: Pror Bayessches Lernen: Pror über Modelle f Modelle parametrsert durch Gewchtsvektor w Pror P(w) über Gewchtsvektoren Geegnete Pror-Vertelung: Normalvertelung Normalvertelung st konjugert zu sch selbst, normalvertelter Pror und normalvertelte Lkelhood ergeben weder normalvertelten Posteror Deshalb w ~ ( w 0, ) Σ p Σ p Kovaranzmatrx, oft Σ = σ I σ steuert Stärke des Prors 2 p erwarten klene Attrbutgewchte, w 2 klen p 2 p Sawade/Landwehr/Scheffer Maschnelles Lernen 12
103 Bayessche Regresson: Posteror Posteror-Vertelung über Modelle gegeben Daten Ohne Bewes 1 P( w L) = PL ( w) P( w) Bayessche Regel Z 1 = Σ Z T ( y X w, σ 2 I) ( w 0, p ) 1 (, A ) = w w mt w = σ 2 1 A X Posteror st weder normalvertelt, mt neuem Mttelwert w und Kovaranzmatrx y A T = σ 2 XX +Σ 1 p A 1 Sawade/Landwehr/Scheffer Maschnelles Lernen 13
104 Bayessche Regresson: Posteror Posteror: MAP-Hypothese: w = MAP? p L A 1 ( w ) = ( w w, ) Sawade/Landwehr/Scheffer Maschnelles Lernen 14
105 Bayessche Regresson: Posteror Posteror: MAP-Hypothese: w = w MAP 1 σ 2 p L A 1 ( w ) = ( w w, ) = A Xy Sawade/Landwehr/Scheffer Maschnelles Lernen 15
106 Sequentelles Update des Posterors Instanzen unabhängg Berechnung des Posteror als sequentelles Update: Aufmultplzeren der Lkelhood enzelner Instanzen P( w L) P( w) PL ( w) N = P( w) = Py (, ) 1 x w Lkelhood für enzeln an Pror multplzeren Se P( w) = P( w ) 0, P ( ) n w der Posteror, wenn wr nur de ersten n Instanzen n L verwenden: P( w L) P( w) Py ( 1 x1, w) Py ( 2 x2, w) Py ( 3 x3, w)... Py ( N xn, w) P1 ( w) P2 ( w) P3 ( w) P N ( w) y 16 Sawade/Landwehr/Scheffer Maschnelles Lernen
107 Sequentelles Update des Posterors Sequentelles Update: Datenpunkte nachenander anschauen Neue Informatonen (Datenpunkte) verändern Stück für Stück de Vertelung über w Sawade/Landwehr/Scheffer Maschnelles Lernen 17
108 Bespel Bayessche Regresson f( x) w wx = (endmensonale Regresson) Sequentelles Update: P( w) = P( w) 0 P( w) = P( w) Sample aus P 0 0( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 18
109 Bespel Bayessche Regresson f( x) = w + wx 0 1 Sequentelles Update: Lkelhood Py ( x, w) 1 1 (endmensonale Regresson) P( w) P( w) Py ( x, w) P ( w) 1 Datenpunkt x1, y1 y = f( x ) + ε 1 1 = w + wx + ε w0= wx 1 1+ y1 ε Sample aus P ( w) 1 Sawade/Landwehr/Scheffer Maschnelles Lernen 19
110 Bespel Bayessche Regresson f( x) w wx = (endmensonale Regresson) Sequentelles Update: Lkelhood Py ( x, w) 1 1 P( w) P( w) Py ( x, w) Posteror P1 ( w) Sample aus P1 ( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 20
111 Bespel Bayessche Regresson f( x) = w + wx 0 1 Sequentelles Update: Py ( 2 x2, w) (endmensonale Regresson) P( w) P( w) Py ( x, w) P ( w) Sample aus P 2 2( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 21
112 Bespel Bayessche Regresson f( x) = w + wx 0 1 Sequentelles Update: Py ( x, w) N N (endmensonale Regresson) P( w) P ( w) Py ( x, w) N N 1 N N P ( ) N w Sample aus PN ( w) Sawade/Landwehr/Scheffer Maschnelles Lernen 22
113 Bayessche Regresson: Vorhersagevertelung Bayes sche Vorhersage: wahrschenlchstes y. Ernnerung: Berechnung mt Bayesan Model Averagng y* = arg max y Py ( x, L) Py ( x, L) = Py ( x, θ) P( θ Ld ) θ Bayesan Model Averagng Bayessche Vorhersage: Vorhersage, gegeben Modell Mtteln der Vorhersage über alle Modelle. Modell gegeben Tranngsdaten Gewchtung: we wahrschenlch st Modell a posteror. Sawade/Landwehr/Scheffer Maschnelles Lernen 23
114 Bayessche Regresson: Vorhersagevertelung Vorhersagevertelung weder normalvertelt: Ohne Bewes Py ( x, L) = Py ( xw, ) P( w Ld ) w mt = y xwσ w wa dw T 2 1 (, ) (, ) 1 ( T T y, A ) = xwx x 1 = σ 2 A T w Xy A σ 2 XX Optmale Vorhersage: Engabevektor multplzert: T y * = xw = +Σ 1 p x wrd mt w 24 Sawade/Landwehr/Scheffer Maschnelles Lernen
115 Bayessche Regresson: Vorhersagevertelung T y * = xw Bayessche Regresson lefert ncht nur optmale T Vorhersage y * = xw sondern Dchte von y und damt auch enen Konfdenzkorrdor. 1 ( T T y xwx, A x) x z.b. 95% Konfdenz 25 Sawade/Landwehr/Scheffer Maschnelles Lernen
116 Nchtlneare Bassfunktonen Enschränkung der bshergen Modelle: nur lneare Abhänggketen zwschen x und f(x). Lneare Daten Ncht-lneare Daten In velen Fällen nützlch: ncht-lneare Abhänggket Sawade/Landwehr/Scheffer Maschnelles Lernen 26
117 Nchtlneare Bassfunktonen Enfachster Weg: Lneare Regresson auf nchtlnearen Bassfunktonen Idee: Ncht auf den ursprünglchen x arbeten, sondern auf nchtlnearer Transformaton φ( x) Vortel: Berechnung von posteror und Bayes scher Vorhersage m Prnzp unverändert Bassfunktonen,..., : m m φ1 φ ursprünglcher Instanzenraum φ( x) d φ1 ( x) φ ( x)... φd ( x) 2 = d φ : m mestens d d m 27 Sawade/Landwehr/Scheffer Maschnelles Lernen
118 Nchtlneare Bassfunktonen Lneare Regresson n den Bassfunktonen T f ( x) = w φ( x) = w + wφ ( x) 0 d = 1 f(x) st lneare Kombnaton von Bassfunktonen Anschauung: Abbldung n höherdmensonalen Raum φ( ), lneare Regresson dort Sawade/Landwehr/Scheffer Maschnelles Lernen 28
119 Nchtlneare Bassfunktonen: Bespel y Bespel = φ ( x) = 1 f( x) = w + wφ ( x) + wφ ( x) Nchtlneare Funkton n x darstellbar als lneare Funkton n φ( x) f( x) 1 3x x 2 = + φ x x φ ( x) = 2 y x 2 x 2 x 29 Sawade/Landwehr/Scheffer Maschnelles Lernen
120 Nchtlneare Bassfunktonen Bespele für ncht-lneare Bassfunktonen Polynome φ j ( x) = x j Sawade/Landwehr/Scheffer Maschnelles Lernen 30
121 Nchtlneare Bassfunktonen Bespele für ncht-lneare Bassfunktonen Gauss-Kurven ( x µ j ) φ j ( x) = exp 2 2s µ 1,..., µ d Mttelpunkte 2 s feste Varanz 2 Sawade/Landwehr/Scheffer Maschnelles Lernen 31
122 Nchtlneare Bassfunktonen Bespele für ncht-lneare Bassfunktonen Sgmode φ ( x) j x µ j = σ s 1 σ ( a) = 1 + exp( a ) µ 1,..., µ d Mttelpunkte s feste Skalerung Sawade/Landwehr/Scheffer Maschnelles Lernen 32
123 Regresson mt Bassfunktonen φ Funkton bldet m-dmensonalen Engabevektor x auf d-dmensonalen Merkmalsvektor ab. Regressonsmodell: f T ( ) ( ) x = w φ x Optmale Vorhersage we bsher, mt φ(x) statt x. ( T T 1 φ φ φ ) Py ( x, L) = y ( x) w, ( x) A ( x) y* = arg max py ( x, L) = φ( x) T w y φ( x) Transformerte Testnstanz A= σ ΦΦ + Σ = σ A Φ Φ = φ( X Transformerte Datenmatrx 2 T 1 1 p, w 2 y und ) 33 Sawade/Landwehr/Scheffer Maschnelles Lernen
124 Bespel Regresson mt Nchtlnearen Bassfunktonen Bespel für Regresson mt ncht-lnearen Bassfunktonen Generere ncht-lneare Datenpunkte durch y = x + x 2 sn(2 π ) ε ε ~ ( ε 0, σ ), [0,1] 9 Gaussche Bassfunktonen ( x µ j ) φ j ( x) = exp 2 2s We seht der Posteror P( w L) Vorhersagevertelung Py ( x, L) 2 µ = 0.1,..., µ = und de aus? Sawade/Landwehr/Scheffer Maschnelles Lernen 34
125 Vorhersagevertelung f( x) N=1 N=4 Datenpunkt y = sn(2 π x) N=2 N=25 Sawade/Landwehr/Scheffer Maschnelles Lernen 35
126 Samples aus dem Posteror N=1 N=4 N=2 N=25 Sawade/Landwehr/Scheffer Maschnelles Lernen 36
127 Überblck Bayessche Lneare Regresson Modellbasertes Klassfkatonslernen: Nave Bayes Sawade/Landwehr/Scheffer Maschnelles Lernen 37
128 Klassfkatonsprobleme Tranngsdaten L L = ( x, y1),...,( x, y 1 N N Matrxschrebwese für Tranngsdaten L X Merkmalsvektoren X x 11 N1 = ( x1... xn ) = x Lernen: MAP Modell ) 1m x x Nm θmap = arg max θ P( θ L) = arg max PL ( θ) P( θ) θ x y Merkmalsvektoren dskrete Klassenlabels Zugehörge Klassenlabel y y1 y =... y N 38 Sawade/Landwehr/Scheffer Maschnelles Lernen
129 Modellbasertes und Dskrmnatves Lernen Lkelhood PLθ ( ) : welcher Tel der Daten L wrd modellert? Dskrmnatves Lernen: θ wrd so gewählt, dass es Werte der Klassenvarable y n den Daten gut modellert. Klassfkator soll nur y für jedes x gut vorhersagen. Wozu also gute Modellerung von X berückschtgen? Generatves (modellbasertes) Lernen: θmap = arg max θ P( θ) P( y X, θ) θmap = arg max θ P( θ) P( y, X θ) Dskrmnatve Lkelhood Generatve Lkelhood θ wrd so gewählt, dass es Merkmalsvektoren X und Werte der Klassenvarable y n den Daten gut modellert 39 Sawade/Landwehr/Scheffer Maschnelles Lernen
130 Modellbasert: Nave Bayes Nave Bayes: Modellbaserte Klassfkaton θmap = arg max θ P( θ) P( y, X θ) Lkelhood der Daten L: N unabhängge Instanzen mt Klassenlabels PL ( θ) = P( x,..., x, y,..., y θ) N = 1 1 N 1 = P( x, y θ ) N Sawade/Landwehr/Scheffer Maschnelles Lernen 40
131 Modellbasert: Nave Bayes We modelleren wr P( x, y θ )? Gemensame Vertelung (Produktregel) We modelleren wr P( x y, θ )? P( x, y θ)= Py ( θ) P( x y, θ) Klassenwahrschenlchket: z.b. P(spam) vs P(ncht spam). x1 x =... x m hochdmensonal, 2 m verschedene Werte (x bnär) Nave Unabhänggketsannahme x-vertelung gegeben Klasse: z.b. Wortvertelung n Spam-Emals Sawade/Landwehr/Scheffer Maschnelles Lernen 41
132 Nave Bayes: Unabhänggketsannahme Bedngte Unabhänggketsannahme: P( x y, θ) = Px ( y, θ) m = 1 Annahme: zwe Klassen, bnäre Attrbute x Attrbute unabhängg gegeben de Klasse y Modellerte Vertelungen (Modellparameter): y Pyθ ( ) Bernoull, mt Parameter θ = Py ( = 1 θ) Für {1,..., m} (Attrbute), c {0,1} (Klassen): Px ( y cθ, ) = Bernoull, mt Parameter θ x {0,1} xc = Px ( = 1 θ, y= c) Sawade/Landwehr/Scheffer Maschnelles Lernen 42
133 Nave Bayes: Lkelhood Lkelhood der Daten L mt bshergen Annahmen: N PL ( θ) = P ( x y θ) j= 1 j= 1 j, j N y m x y Py 1 j θ Px j 1 j yj θ = = j = ( ) (, ) Unabhänggket Instanzen N = Py ( j θ) P( x j yj, θ) Produktregel Bedngte Unabhänggket Attrbute, zuständge Modellparameter Sawade/Landwehr/Scheffer Maschnelles Lernen y = Klassenlabel j-te Instanz = Wert -tes Merkmal j-te Instanz j x j 43
134 Nave Bayes: Pror? Pror: Parametervektor θ besteht aus Pror-Vertelung: unabhängg für enzelne Parameter ( m x ) 0 x 1 =1 P y ( θ) = P ( θ ) P ( θ ) P ( θ ) Pror Klassenvertelung Konjugerter Pror Beta-Vertelung y y P( θ )~ Beta( θ α, α ) 0 1 Pror Merkmalsvertelungen, gegeben postve/negatve Klasse Für {1,..., m} (Attrbute), c {0,1} (Klassen): P Parameter für Klassenvertelung x 0 x 1 Parameter für Merkmalsvertelungen θ, θ ( = 1,..., m) x c x c ( θ )~ Beta( θ αx c, αx c) y θ 44 Sawade/Landwehr/Scheffer Maschnelles Lernen
135 Nave Bayes: Posteror A-posteror Vertelung weder Beta: Standardlösung für Münzwurfszenaro y A-posteror Vertelung für Parameter P( θ L) : y y P( θ L) = Beta( θ α + N, α + N ) θ mt y MAP N = 0 1 N N1+ α1 1 + α + N + α : Anzahl Bespele mt Klasse 0 n N : Anzahl Bespele mt Klasse 1 n L L Sawade/Landwehr/Scheffer Maschnelles Lernen 45
136 Nave Bayes: Posteror A-posteror Vertelung für Parameter P( θ x c ): Für {1,..., m} (Attrbute), c {0,1} (Klassen): P L Beta N N mt xc xc ( θ ) = ( θ αxc + xc, αxc + xc ) θ xc MAP xc xc N : Anzahl Bespele mt x = 1 und Klasse c n L N : Anzahl Bespele mt x = 0 und Klasse c n L = N N + α 1 xc xc + α + N + α 2 xc xc xc xc Sawade/Landwehr/Scheffer Maschnelles Lernen 46
137 Nave Bayes: Lernalgorthmus Engabe: L= ( x, y ),...,( x, y ) 1 1 Schätze Klassenvertelung: θ Zähle 1 0 Für Klassen y=0 und y=1, für alle Attrbute : Zähle θ y MAP x y MAP = = N Alle Modellparameter gelernt! N N : Anzahl Bespele mt Klasse 1 n L N : Anzahl Bespele mt Klasse 0 n L x y x y x y x y x y x y x y x y N N : Anzahl Bespele mt x = 1 und Klasse y n L N : Anzahl Bespele mt x = 0 und Klasse y n L N N1+ α1 1 + α + N + α N + α 1 + α + N + α 2 Sawade/Landwehr/Scheffer Maschnelles Lernen 47
138 Nave Bayes: Klassfkaton Engabe: Rückgabe: x1 x =... x m y* = arg max y Py ( x, θmap ) Laufzet bem Klassfzeren: Om ( ) m = Anzahl Attrbute Laufzet bem Lernen: O( Nm) y m x y arg max y Py ( θmap ) Px (, ) 1 yθmap = = Klassenvertelung Produkt der Attrbutvertelungen, gegeben Klasse N = Anzahl Tranngsnstanzen 48 Sawade/Landwehr/Scheffer Maschnelles Lernen
139 Nave Bayes: Egenschaften Enfach zu mplementeren, effzent, populär. Funktonert ok, wenn de Attrbute wrklch unabhängg snd. Das st aber häufg ncht der Fall. Unabhänggketsannahme und modellbasertes Tranng führen häufg zu schlechten Ergebnssen. Logstsche Regresson, Wnnow, Perzeptron snd mest besser. Sawade/Landwehr/Scheffer Maschnelles Lernen 49
140 Nave Bayes: Bespel Tranngsdaten: x : Schufa pos. x : Student y: Rückzahlung ok? 1 2 Instanz x Instanz x Instanz x Pror: alle Parameter α n den Beta-Vertelungen setzen wr auf α=2 (Pseudocounts: α-1=1) Gelernte Parameter/Hypothese? Sawade/Landwehr/Scheffer Maschnelles Lernen 50
141 Nave Bayes: Bespel Gelernte Parameter/Hypothese Merkmalsvertelungen x 1 Px ( y= 0) 0? 1? x 2 Klassenvertelung 1 0? 1? y Px ( y= 0) 2 Py ( ) 0? 1? Py ( ) Px ( y) x 1 Px ( y= 1) 1 0? 1? x 2 Px ( y= 1) 2 0? 1? 51 Sawade/Landwehr/Scheffer Maschnelles Lernen
142 Nave Bayes: Bespel Gelernte Parameter/Hypothese Merkmalsvertelungen x 1 Px ( y= 0) 0 2/3 1 1/3 x 2 0 1/3 1 2/3 Klassenpror y 1 Px ( y= 0) 2 Py ( ) 0 2/5 1 3/5 Py ( ) Px ( y) x 1 Px ( y= 1) 0 1/4 1 3/4 x 2 0 2/4 1 2/4 1 Px ( y= 1) 2 52 Sawade/Landwehr/Scheffer Maschnelles Lernen
143 Nave Bayes: Bespel Testanfrage: x = (Schufa pos = 0,Student = 0) Vorhersage: 4 3 > y* = y* = arg max y Py ( x, θmap ) P( y = 0) P( x y = 0) = P( y = 0) P( x = 0 y = 0) P( x = 0 y = 0) = = P( y = 1) P( x y = 1) = P( y = 1) P( x = 0 y = 1) P( x = 0 y = 1) = = = arg max Py ( θ ) Px ( y, θ ) 1 2 m y MAP MAP = 1 53 Sawade/Landwehr/Scheffer Maschnelles Lernen
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen
Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen Chrstoph Sawade/Nels Landwehr/Paul Prasse Domnk Lahmann Tobas Scheffer Überblck Wahrschenlchketen, Erwartungswerte,
MehrBayessches Lernen (3)
Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen (3) Chrstoph Sawade/Nels Landwehr Jules Rasetaharson Tobas Scheffer Überblck Wahrschenlchketen, Erwartungswerte, Varanz
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen
Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen Chrstoph Sawade/Nels Landwehr Jules Rasetaharson Tobas Scheffer Überblck Wahrschenlchketen, Erwartungswerte, Varanz
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr
Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Graphsche Modelle els Landwehr Zusammenfassung Pfade Zusammenfassung: en Pfad --Y-Z- st B A E Blockert be Y, wenn Dvergerende Verbndung,
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr
Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Graphsche Modelle els Landwehr Überblck Graphsche Modelle: Syntax und Semantk Graphsche Modelle m Maschnellen Lernen Inferenz n Graphschen
Mehr2 Zufallsvariable und Verteilungen
Zufallsvarable und Vertelungen 7 Zufallsvarable und Vertelungen Wr wollen uns jetzt mt Zufallsexpermenten beschäftgen, deren Ausgänge durch (reelle) Zahlen beschreben werden können, oder be denen man jedem
MehrÜbungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen
Übungsklausur Wahrschenlchket und Regresson De Lösungen. Welche der folgenden Aussagen treffen auf en Zufallsexperment zu? a) En Zufallsexperment st en emprsches Phänomen, das n stochastschen Modellen
MehrModelle, Version Spaces, Lernen
Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Maschnelles Lernen Modelle, Verson Spaces, Lernen Chrstoph Sawade/Nels Landwehr Jules Rasetaharson Tobas Scheffer Überblck Problemstellungen:
MehrStatistik und Wahrscheinlichkeitsrechnung
Statstk und Wahrschenlchketsrechnung Statstk und Wahrschenlchketsrechnung 5. Vorlesung Dr. Jochen Köhler.03.0 Statstk und Wahrschenlchketsrechnung Wchtg!!! Vorlesung Do 4.03.0 HCI G3 Übung 5 D 9.03.0 Fnk
MehrModelle, Version Spaces, Lernen
Unverstät Potsdam Insttut ür Inormatk Lehrstuhl Maschnelles Lernen Maschnelles Lernen Modelle Verson Spaces Lernen Tobas Scheer Mchael Brückner Klasskaton Engabe: Instanz Objekt X. Können durch Attrbut-Vektoren
MehrArbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2
ETH Arbetsgruppe Radocheme Radochemsches Praktkum P 06 Enführung n de Statstk INHALTSVERZEICHNIS Sete 1. Zählung von radoaktven Zerfällen und Statstk 2 2. Mttelwert und Varanz 2 3. Momente ener Vertelung
Mehrz.b. Münzwurf: Kopf = 1 Zahl = 2 oder z.b. 2 Würfel: Merkmal = Summe der Augenzahlen, also hier: Bilde die Summe der Augenzahlen der beiden Würfel!
Aufgabe : Vorbemerkung: Ene Zufallsvarable st ene endeutge Funkton bzw. ene Abbldungsvorschrft, de angbt, auf welche Art aus enem Elementareregns ene reelle Zahl gewonnen wrd. x 4 (, ) z.b. Münzwurf: Kopf
Mehr5 Gemischte Verallgemeinerte Lineare Modelle
5 Gemschte Verallgemenerte Lneare Modelle Wr betrachten zunächst enge allgemene Aussagen für Gemschte Verallgemenerte Lneare Modelle. Se y der beobachtbare Zufallsvektor und u der Vektor der ncht-beobachtbaren
MehrVerteilungen eindimensionaler diskreter Zufallsvariablen
Vertelungen endmensonaler dskreter Zufallsvarablen Enführung Dskrete Vertelungen Dskrete Glechvertelung Bernoull-Vertelung Bnomalvertelung Bblografe: Prof. Dr. Kück Unverstät Rostock Statstk, Vorlesungsskrpt,
MehrModelle, Version Spaces, Lernen
Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Maschnelles Lernen Modelle, Verson Spaces, Lernen Chrstoph Sawade/Nels Landwehr Slva Makowsk Tobas Scheffer Überblck Problemstellungen:
MehrAn dem Ergebnis eines Zufallsexperiments interessiert oft nur eine spezielle Größe, meistens ein Messwert.
SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Ds. ZG 1 Zufallsgrößen An dem Ergebns enes Zufallsexperments nteressert oft nur ene spezelle Größe, mestens en Messwert. Bespel 1. Zufällge Auswahl enes Studenten,
Mehr14 Schätzmethoden. Eigenschaften von Schätzungen ˆθ. Sei ˆθ n eine Schätzung eines Parameters θ, die auf n Beobachtungen beruht.
14 Schätzmethoden Egenschaften von Schätzungen ˆθ Se ˆθ n ene Schätzung enes Parameters θ, de auf n Beobachtungen beruht. ˆθn n θ Konsstenz (Mnmalforderung) Eˆθ n = θ Erwartungstreue Eˆθ n n θ Asymptotsche
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen
Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Zusammenfassung: Lernprobleme, Bayes sches Lernen, Evaluerung Chrstoph Sawade/Nels Landwehr/Paul Prasse Slva Makowsk obas Scheffer Überblck
MehrKapitel 4: Unsicherheit in der Modellierung Modellierung von Unsicherheit. Machine Learning in der Medizin 104
Kaptel 4: Unscherhet n der Modellerung Modellerung von Unscherhet Machne Learnng n der Medzn 104 Regresson Modellerung des Datengenerators: Dchteschätzung der gesamten Vertelung, t pt p p Lkelhood: L n
MehrModelle, Version Spaces, Lernen
Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Maschnelles Lernen Modelle, Verson Spaces, Lernen Chrstoph Sawade/Nels Landwehr Domnk Lahmann Tobas Scheffer Überblck Problemstellungen:
MehrProf. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz
Prof. Dr. P. Kschka WS 2012/13 Lehrstuhl für Wrtschafts- und Sozalstatstk Klausur Statstsche Inferenz 15.02.2013 Name: Matrkelnummer: Studengang: Aufgabe 1 2 3 4 5 6 7 8 Summe Punkte 6 5 5 5 5 4 4 6 40
MehrLehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007
Lehrstuhl für Emprsche Wrtschaftsforschung und Ökonometre Dr Roland Füss Statstk II: Schleßende Statstk SS 007 5 Mehrdmensonale Zufallsvarablen Be velen Problemstellungen st ene solerte Betrachtung enzelnen
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Mathematische Grundlagen
INTELLIGENTE DATENANALYSE IN MATLAB Mathematsche Grundlagen Überblck Lneare Algebra: Vektoren, Matrzen, Analyss & Optmerung: Dstanzen, konvexe Funktonen, Lagrange-Ansatz, Stochastk: Wahrschenlchketstheore,
MehrDefinition des linearen Korrelationskoeffizienten
Defnton des lnearen Korrelatonskoeffzenten r xy x y y r x xy y 1 x x y y x Der Korrelatonskoeffzent st en Indkator dafür, we gut de Punkte (X,Y) zu ener Geraden passen. Sen Wert legt zwschen -1 und +1.
MehrDie Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung
am Bespel enes Modells der chadenverscherung Für das Modell ener chadenverscherung se gegeben: s w s. n 4 chaden enes Verscherungsnehmers, wenn der chadenfall entrtt Wahrschenlchket dafür, dass der chadenfall
MehrFallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum
Abgabe: Aufgabentext und Lösungen schrftlch bs zum 15. 6. 2012 I. Thema: Zehen mt und ohne Zurücklegen Lesen Se sch zunächst folgenden Text durch! Wr haben bsher Stchprobenzehungen aus Grundgesamtheten
MehrKapitel V. Parameter der Verteilungen
Kaptel V Parameter der Vertelungen D. 5.. (Erwartungswert) Als Erwartungswert ener Zufallsvarablen X bezechnet man: E( X ) : Dabe se vorausgesetzt: = = + p falls X dskret f d falls X stetg und = + p
MehrProf. Dr. Roland Füss Statistik II SS 2008
5. Spezelle Testverfahren Zahlreche parametrsche und nchtparametrsche Testverfahren, de nach Testvertelung (Bnomal, t-test etc.), Analysezel (Anpassungs- und Unabhänggketstest) oder Konstrukton der Prüfgröße
Mehr(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt:
(Theoretsche Konfdenzntervalle für de beobachteten Werte: De Standardabwechung des Messfehlers wrd Standardmessfehler genannt: ( ε ( 1- REL( Mt Hlfe der Tschebyscheff schen Unglechung lassen sch be bekanntem
MehrBeschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression
Beschrebung des Zusammenhangs zweer metrscher Merkmale Streudagramme Korrelatonskoeffzenten Regresson Alter und Gewcht be Kndern bs 36 Monaten Knd Monate Gewcht 9 9 5 8 3 4 7.5 4 3 6 5 3 6 4 3.5 7 35 5
MehrKapitel 7: Ensemble Methoden. Maschinelles Lernen und Neural Computation
Kaptel 7: Ensemble Methoden 133 Komtees Mehrere Netze haben bessere Performanz als enzelne Enfachstes Bespel: Komtee von Netzen aus der n-fachen Kreuzvalderung (verrngert Varanz) De Computatonal Learnng
MehrMaschinelles Lernen (Zusammenfassung)
Unverstät Potsdam Insttut für Informatk Lehrstuhl (Zusammenfassung) Chrstoph Sawade /Nels Landwehr/Paul Prasse Domnk Lahmann Tobas Scheffer Überblck Lernprobleme Entschedungsbäume Bayes sches Lernen Lneare
Mehr2. Wahrscheinlichkeitsrechnung
. Grundlagen der Wahrschenlchketsrechnung. Wahrschenlchketsrechnung Der Wahrschenlchketstheore kommt ene wchtge Rolle als Bndegled zwschen der deskrptven und der nduktven Statstk zu. Aufgabe der nduktven
MehrTeil E: Qualitative abhängige Variable in Regressionsmodellen
Tel E: Qualtatve abhängge Varable n Regressonsmodellen 1. Qualtatve abhängge Varable Grundlegendes Problem: In velen Fällen st de abhängge Varable nur über enen bestmmten Werteberech beobachtbar. Bsp.
MehrKapitel 2: Klassifikation. Maschinelles Lernen und Neural Computation
Kaptel 2: Klassfkaton Maschnelles Lernen und Neural Computaton 28 En enfacher Fall En Feature, Hstogramme für bede Klassen (z.b. Glukosewert, Dabetes a/nen) Kene perfekte Trennung möglch Entschedung: Schwellwert
MehrBedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY)
Bedngte Entrope Kaptel : Bedngte Entrope Das vorherge Theorem kann durch mehrfache Anwendung drekt verallgemenert werden H (... H ( = Ebenso kann de bedngt Entrope defnert werden Defnton: De bedngte Entrope
MehrZulassungsprüfung Stochastik,
Zulassungsprüfung Stochastk, 11.5.13 Wr gehen stets von enem Maßraum (, A, µ) bzw. enem Wahrschenlchketsraum (,A,P) aus. De Borel σ-algebra auf R n wrd mt B n bezechnet, das Lebesgue Maß auf R n wrd mt
Mehr-70- Anhang: -Lineare Regression-
-70- Anhang: -Lneare Regressn- Für ene Messgröße y f(x) gelte flgender mathematsche Zusammenhang: y a+ b x () In der Regel läßt sch durch enen Satz vn Messwerten (x, y ) aber kene Gerade zechnen, da de
MehrDaten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.
Ene kurze Enführung n EXCEL Daten snd n Tabellenform gegeben durch de Engabe von FORMELN können mt desen Daten automatserte Berechnungen durchgeführt werden. Menüleste Symbolleste Bearbetungszele aktve
MehrInformatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition
Informatk II Raner Schrader und Implkanten Zentrum für Angewandte Informatk Köln 27. Oktober 2005 1 / 28 2 / 28 Was bsher geschah: jede Boolesche Funkton kann durch enfache Grundfunktonen dargestellt werden
Mehr6. Modelle mit binären abhängigen Variablen
6. Modelle mt bnären abhänggen Varablen 6.1 Lneare Wahrschenlchketsmodelle Qualtatve Varablen: Bnäre Varablen: Dese Varablen haben genau zwe möglche Kategoren und nehmen deshalb genau zwe Werte an, nämlch
MehrErwartungswert, Varianz, Standardabweichung
RS 24.2.2005 Erwartungswert_Varanz_.mcd 4) Erwartungswert Erwartungswert, Varanz, Standardabwechung Be jedem Glücksspel nteresseren den Speler vor allem de Gewnnchancen. 1. Bespel: Setzen auf 1. Dutzend
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe
MehrBeschreibende Statistik Mittelwert
Beschrebende Statstk Mttelwert Unter dem arthmetschen Mttel (Mttelwert) x von n Zahlen verstehen wr: x = n = x = n (x +x +...+x n ) Desen Mttelwert untersuchen wr etwas genauer.. Zege für n = 3: (x x )
MehrMathematische und statistische Methoden II
Methodenlehre e e Prof. Dr. G. Menhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzet nach Verenbarung und nach der Vorlesung. Mathematsche und statstsche Methoden II Dr. Malte Perske perske@un-manz.de
MehrÜbung zur Vorlesung - Theorien Psychometrischer Tests II
Übung zur Vorlesung - Theoren Psychometrscher Tests II N. Rose 9. Übung (15.01.2009) Agenda Agenda 3-parametrsches logstsches Modell nach Brnbaum Lnkfunktonen 3PL-Modell nach Brnbaum Modellglechung ( =
MehrStochastische Prozesse
INSTITUT FÜR STOCHASTIK SS 009 UNIVERSITÄT KARLSRUHE Blatt 4 Prv.-Doz. Dr. D. Kadelka Dpl.-Math. W. Lao Übungen zur Vorlesung Stochastsche Prozesse Musterlösungen Aufgabe 16: (Success Run, Fortsetzung)
MehrGrundgedanke der Regressionsanalyse
Grundgedanke der Regressonsanalse Bsher wurden durch Koeffzenten de Stärke von Zusammenhängen beschreben Mt der Regressonsrechnung können für ntervallskalerte Varablen darüber hnaus Modelle geschätzt werden
MehrStandardnormalverteilung / z-transformation
Standardnormalvertelung / -Transformaton Unter den unendlch velen Normalvertelungen gbt es ene Normalvertelung, de sch dadurch ausgeechnet st, dass se enen Erwartungswert von µ 0 und ene Streuung von σ
MehrGauss sche Fehlerrrechnung
Gauss sche Fehlerrrechnung T. Ihn 24. Oktober 206 Inhaltsverzechns Modell und Lkelhood 2 Alle Standardabwechungen σ snd bekannt, bzw. de Kovaranzmatrx der Daten st bekannt: Mnmeren der χ 2 -Funkton. 6
MehrMASCHINELLES LERNEN TOBIAS SCHEFFER, NIELS LANDWEHR, MATTHIAS BUSSAS. Mathematische Grundlagen
MASCHINELLES LERNEN TOBIAS SCHEFFER, NIELS LANDWEHR, MATTHIAS BUSSAS Matheatsche Grundlagen Überblck Lneare Algebra: Vektoren, Matrzen, Analyss & Opterung: Dstanzen, konvexe Funktonen, Lagrange-Ansatz,
Mehr12 UMPU Tests ( UMP unbiased )
89 1 UMPU Tests ( UMP unbased ) Nach Bemerkung 11.8(b) exstert m Allgemenen ken zwesetger UMP- Test zu enem Nveau α. Deshalb Enschränkung auf unverfälschte Tests: ϕ Φ α heßt unverfälscht (unbased) zum
MehrVorlesung: Multivariate Statistik für Psychologen
Vorlesung: Multvarate Statstk für Psychologen 3. Vorlesung: 14.04.2003 Agenda 1. Organsatorsches 2. Enfache Regresson. Grundlagen.. Grunddee und Zele der enfachen Regresson Bespele Statstsches Modell Modell
MehrEinführung in die Wahrscheinlichkeitsrechnung. Wahrscheinlichkeitsrechnung. Übersicht. Wahrscheinlichkeitsrechnung. bedinge Wahrscheinlichkeit
Enführung n de bednge Wahrschenlchket Laplace-Wahrschenlchket p 0.56??? Zufallsexperment Randwahrschenlchket Überscht Was st Wahrschenlchket? Rechenregeln Der Multplkatonssatz Axomatsche Herletung Unabhänggket
MehrKurs Mikroökonometrie Rudolf Winter-Ebmer Thema 3: Binary Choice Models Probit & Logit. Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit
BINARY CHOICE MODELS 1 mt Pr( Y = 1) = P Y = 0 mt Pr( Y = 0) = 1 P Bespele: Wahlentschedung Kauf langlebger Konsumgüter Arbetslosgket Schätzung mt OLS? Y = X β + ε Probleme: Nonsense Predctons ( < 0, >
MehrAbbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)).
44 n n F F a) b) Abbldung 3.: Besetzungszahlen enes Fermgases m Grundzustand (a)) und für ene angeregte Konfguraton (b)). 3.3 Ferm Drac Statstk In desem Abschntt wollen wr de thermodynamschen Egenschaften
MehrStatistik Exponentialfunktion
! " Statstk " Eponentalfunkton # $ % & ' $ ( )&* +, - +. / $ 00, 1 +, + ) Ensemble von radoaktven Atomkernen Zerfallskonstante λ [1/s] Lebensdauer τ 1/λ [s] Anzahl der pro Zetenhet zerfallenden Kerne:
Mehr1.1 Beispiele zur linearen Regression
1.1. BEISPIELE ZUR LINEAREN REGRESSION 0 REGRESSION 1: Multple neare Regresson 1 Enführung n de statstsche Regressonsrechnung 1.1 Bespele zur lnearen Regresson b Bespel Sprengungen. Erschütterung Funkton
MehrRegressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n
Regressonsgerade x x x x 3... x n y y y y 3... y n Bem Auswerten von Messrehen wrd häufg ene durch theoretsche Überlegungen nahegelegte lneare Bezehung zwschen den x- und y- Werten gesucht, d.h. ene Gerade
MehrRückblick Regression II: Anpassung an Polynome
Rückblck Regresson II: Anpassung an Polynome T. Keßlng: Auswertung von Messungen und Fehlerrechnung - Fehlerrechnung und Korrelaton 0.06.08 Vorlesung 0- Temperaturmessung mt Thermospannung Wr erhalten
MehrKonkave und Konvexe Funktionen
Konkave und Konvexe Funktonen Auch wenn es n der Wrtschaftstheore mest ncht möglch st, de Form enes funktonalen Zusammenhangs explzt anzugeben, so kann man doch n velen Stuatonen de Klasse der n Frage
MehrÜbung zur Vorlesung - Theorien Psychometrischer Tests II
Übung zur Vorlesung - Theoren Psychometrscher Tests II N. Rose 8. Übung (08.01.2008) Agenda Agenda Verglech Rasch-Modell vs. 2-parametrsches logstsches Modell nach Brnbaum 2PL-Modelle n Mplus Verglech
Mehrwird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:
Streuungswerte: 1) Range (R) ab metrschem Messnveau ) Quartlabstand (QA) und mttlere Quartlabstand (MQA) ab metrschem Messnveau 3) Durchschnttlche Abwechung (AD) ab metrschem Messnveau 4) Varanz (s ) ab
MehrLineare Regression Teil des Weiterbildungskurses in angewandter Statistik
0 Lneare Regresson Tel des Weterbldungskurses n angewandter Statstk der ETH Zürch Folen Werner Stahel, September 2017 1.1 Bespele zur lnearen Regresson 1 1 Enführung n de statstsche Regressonsrechnung
MehrModul 1: Einführung und Wahrscheinlichkeitsrechnung
Modul : Enführung und Wahrschenlchketsrechnung Informatonstheore Dozent: Prof. Dr. M. Gross E-mal: grossm@nf.ethz.ch Assstenten: Danel Cottng, Rchard Keser, Martn Wcke, Cyrl Flag, Andrea Francke, Jonas
MehrKapitel 4: Wahrscheinlichkeitsrechnung und Kombinatorik
Kaptel 4: Wahrschenlchketsrechnung und Kombnatork 1 4. Wahrschenlchketsrechnung De Wahrschenlchketsrechung stellt Modelle beret zur Beschrebung und Interpretaton solcher zufällger Erschenungen, de statstsche
MehrStreuungs-, Schiefe und Wölbungsmaße
aptel IV Streuungs-, Schefe und Wölbungsmaße B... Lagemaße von äufgketsvertelungen geben allen weng Auskunft über ene äufgketsvertelung. Se beschreben zwar en Zentrum deser Vertelung, geben aber kenen
Mehr(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y
5. Probt-Modelle Ökonometre II - Peter Stalder "Bnar Choce"-Modelle - Der Probt-Ansatz Ene ncht drekt beobachtbare stochastsche Varable hängt von x ab: x u 2 u ~ N(0, ( Beobachtet wrd ene bnäre Varable
MehrStatistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler, Eidgenössische Technische Hochschule, ETH Zürich. 1. Teilprüfung FS 2008.
Dr. Jochen Köhler, Edgenösssche Technsche Hochschule, ETH Zürch. Telprüfung Statstk und Wahrschenlchketsrechnung FS 2008 Lösungen Dr. J. Köhler ETH Zürch Donnerstag 0. Aprl 2008 08:5 09:45 0BTel : Multple
MehrÜbung zur Vorlesung - Theorien Psychometrischer Tests II
Übung zur Vorlesung - Theoren Psychometrscher Tests II N. Rose 2. Übung (05.02.2009) Agenda Agenda Datenbsp. scalefactors.dat Berechnen der Varanzen der Latent Response Varablen Berechnen der modellmplzerten
Mehr2πσ. e ax2 dx = x exp. 2πσ. 2σ 2. Die Varianz ergibt sich mit Hilfe eines weiteren bestimmten Integrals: x 2 e ax2 dx = 1 π.
2.5. NORMALVERTEILUNG 27 2.5 Normalvertelung De n der Statstk am häufgsten benutzte Vertelung st de Gauss- oder Normalvertelung. Wr haben berets gesehen, dass dese Vertelung aus den Bnomal- und Posson-Vertelungen
MehrKapitel 8: Kernel-Methoden. Maschinelles Lernen und Neural Computation
Kaptel 8: Kernel-Methoden SS 009 Maschnelles Lernen und Neural Computaton 50 Ausgangsbass: Perceptron Learnng Rule Δw y = Kf = 0Ksonst K"target" = Kf Rosenblatt (96) Input wrd dazugezählt (abgezogen),
MehrInhalt dieses Kapitels. Das Klassifikationsproblem, Bewertung von Klassifikatoren. Grundbegriffe, Parameterwahl, Anwendungen
3. Klassfkaton 3.1 Enletung Inhalt deses Kaptels Das Klassfkatonsproblem, Bewertung von Klassfkatoren 3.2 Bayes-Klassfkatoren Optmaler Bayes-Klassfkator, Naver Bayes-Klassfkator, Anwendungen 3.3 Nächste-Nachbarn-Klassfkatoren
MehrZufallsvariable, Wahrscheinlichkeitsverteilungen und Erwartungswert
R. Brnkmann http://brnkmann-du.de Sete..8 Zufallsvarable, Wahrschenlchketsvertelungen und Erwartungswert Enführungsbespel: Zwe Würfel (en blauer und en grüner) werden 4 mal zusammen geworfen. De Häufgketen
MehrÖkonomische und ökonometrische Evaluation. 1.3 Ökonometrische Grundkonzepte
Ökonomsche und ökonometrsche Evaluaton 90 Emprsche Analyse des Arbetsangebots Zele: Bestmmung von Arbetsangebotselastztäten als Test der theoretschen Modelle Smulaton oder Evaluaton der Wrkungen von Insttutonen
MehrAsymptotische Stochastik (SS 2010) Übungsblatt 1 P X. 0, n.
Insttut für Stochastk PD. Dr. Deter Kadelka Danel Gentner Asymptotsche Stochastk (SS 2) Übungsblatt Aufgabe (Arten von Konvergenz reeller Zufallsvarablen und deren Zusammenhänge) Es seen X,, n N reelle
MehrStochastische Prozesse
INSTITUT FÜR STOCHASTIK SS 2009 UNIVERSITÄT KARLSRUHE Blatt 2 Prv.-Doz. Dr. D. Kadelka Dpl.-Math. W. Lao Übungen zur Vorlesung Stochastsche Prozesse Musterlösungen Aufgabe 7: (B. Fredmans Urnenmodell)
MehrGrundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt
Mathematsches Insttut der Unverstät München Wntersemester 3/4 Danel Rost Lukas-Faban Moser Grundlagen der Mathematk I Lösungsvorschlag zum. Tutorumsblatt Aufgabe. a De Formel besagt, daß de Summe der umrahmten
MehrMehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren
Mehrfachregresson: Enfluss mehrerer Merkmale auf en metrsches Merkmal Desgnmatrx Bestmmthetsmaß F-Test T-Test für enzelne Regressoren Mehrfachregresson Bvarat: x b b y + = 0 ˆ k k x b x b x b b y + + +
Mehr4. Rechnen mit Wahrscheinlichkeiten
4. Rechnen mt Wahrschenlchketen 4.1 Axome der Wahrschenlchketsrechnung De Wahrschenlchketsrechnung st en Telgebet der Mathematk. Es st üblch, an den Anfang ener mathematschen Theore enge Axome zu setzen,
MehrP(mindestens zwei gleiche Augenzahlen) = = 0.4 = = 120. den 5 vorbereiteten Gebieten drei auszuwählen: = 10. Deshalb ist 120 =
Hochschule Harz Fachberech Automatserung und Informatk Prof. Dr. T. Schade Ft for Ab & Study - Aprl 2014 Lösungen zu den Aufgaben zu elementarer Wahrschenlchketsrechnung 1. a 12 11 10 9 = 33 = 0.102 20
Mehrnonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen
arametrsche vs. nonparametrsche Testverfahren Verfahren zur Analyse nomnalskalerten Daten Thomas Schäfer SS 009 1 arametrsche vs. nonparametrsche Testverfahren nonparametrsche Tests werden auch vertelungsfree
MehrErwartungswert und Varianz
Erwartungswert und Varanz Dskrete Wahrschenlchketsvertelungen J E(X p(xj x j var(x E[X ( E(X] j BespelEnpunktvertelung ε a Zähldchte: p(x I(a x E(X a var(x 0 BespelDskrete Glechvertelung G(x,,x n Zähldchte:
MehrEmpirische Wirtschaftsforschung
Emprsche Wrtschaftsforschung Prof. Dr. Bernd Süßmuth Unverstät Lepzg Insttut für Emprsche Wrtschaftsforschung Volkswrtschaftslehre, nsbesondere Ökonometre 5. Enfaches OLS-Regressonsmodell 5.1. Herletung
MehrLineare Regression (1) - Einführung I -
Lneare Regresson (1) - Enführung I - Mttels Regressonsanalysen und kompleeren, auf Regressonsanalysen aserenden Verfahren können schenar verschedene, jedoch nenander üerführare Fragen untersucht werden:
Mehre dt (Gaußsches Fehlerintegral)
Das Gaußsche Fehlerntegral Φ Ac 5-8 Das Gaußsche Fehlerntegral Φ st denert als das Integral über der Standard-Normalvertelung j( ) = -,5 n den Grenzen bs, also F,5 t ( ) = - e dt (Gaußsches Fehlerntegral)
MehrLösungen zum 3. Aufgabenblock
Lösungen zum 3. Aufgabenblock 3. Aufgabenblock ewerber haben n enem Test zur sozalen Kompetenz folgende ntervallskalerte Werte erhalten: 96 131 11 1 85 113 91 73 7 a) Zegen Se für desen Datensatz, dass
MehrÜbung zu Erwartungswert und Standardabweichung
Aufgabe Übung zu Erwartungswert und Standardabwechung In ener Lottere gewnnen 5 % der Lose 5, 0 % der Lose 0 und 5 % der Lose. En Los kostet 2,50. a)berechnen Se den Erwartungswert für den Gewnn! b)der
MehrVorlesung 3 Differentialgeometrie in der Physik 13
Vorlesung 3 Dfferentalgeometre n der Physk 13 Bemerkung. Ist M Manngfaltgket, p M und φ : U R n Karte mt p U, so nennt man U auch Koordnatenumgebung und φ auch Koordnatensystem n p. Bespel 2.4 Seen R >
MehrAlternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF
Alternatve Darstellung des -Stchprobentests für Antele DCF CF Total n= 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Beobachtete Response No Response Total absolut DCF 43 68 111 CF 6 86 11 69 154
Mehr16. Vorlesung Sommersemester
16. Vorlesung Sommersemester 1 Das Egenwertproblem In allgemener Form hat das Egenwertproblem de Form A x = λ x, (1) wobe A ene n n-matrx, x en n-dmensonaler Vektor und λ der Egenwert st (n Englsch: egenvector,
MehrGrundlagen sportwissenschaftlicher Forschung Deskriptive Statistik
Grundlagen sportwssenschaftlcher Forschung Deskrptve Statstk Dr. Jan-Peter Brückner jpbrueckner@emal.un-kel.de R.6 Tel. 880 77 Deskrptve Statstk - Zele Beschreben der Daten Zusammenfassen der Daten Überblck
Mehr1 Definition und Grundbegriffe
1 Defnton und Grundbegrffe Defnton: Ene Glechung n der ene unbekannte Funkton y y und deren Abletungen bs zur n-ten Ordnung auftreten heßt gewöhnlche Dfferentalglechung n-ter Ordnung Möglche Formen snd:
Mehr1 Finanzmathematik. 1.1 Das Modell. Sei Xt
1.1 Das Modell Se Xt der Pres enes Assets zur Zet t und X = X ) 1 d der Rd +-dmensonale Presprozess. Das Geld kann auch zu dem rskolosen Znssatz r be ener Bank angelegt werden. Der Wert deser Anlage wrd
MehrLineare Regression. Stefan Keppeler. 16. Januar Mathematik I für Biologen, Geowissenschaftler und Geoökologen
Mathematk I für Bologen, Geowssenschaftler und Geoökologen 16. Januar 2012 Problemstellung Bespel Maß für Abwechung Trck Mnmum? Exponentalfunktonen Potenzfunktonen Bespel Problemstellung: Gegeben seen
MehrÖkometrie I 10 Korrelation - Regression
Ökometre I 10 Korrelaton - Regresson Ka Uwe Totsche LS Hydrogeologe Fredrch-Schller-Unverstät Jena Prof. Dr. Ka Uwe Totsche Ökometre I Korrelaton - Regresson 10-1 Zele und Lernnhalte Zel deser Enhet Zwedmensonale
MehrItemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i
Itemanalyse und Itemkennwerte De Methoden der Analyse der Itemegenschaften st ncht m engeren Snne Bestandtel der Klassschen Testtheore Im Rahmen ener auf der KTT baserenden Testkonstrukton und -revson
MehrÜbungsblatt 7 Lösungsvorschläge
Insttut für Theoretsche Informatk Lehrstuhl Prof. Dr. D. Wagner Übungsblatt 7 Lösungsvorschläge Vorlesung Algorthmentechnk m WS 09/10 Problem 1: Mnmale Schnttbass Approxmatonsalgos relatver Gütegarante
Mehr