Maschinelles Lernen (Zusammenfassung)

Größe: px
Ab Seite anzeigen:

Download "Maschinelles Lernen (Zusammenfassung)"

Transkript

1 Unverstät Potsdam Insttut für Informatk Lehrstuhl (Zusammenfassung) Chrstoph Sawade /Nels Landwehr/Paul Prasse Domnk Lahmann Tobas Scheffer

2 Überblck Lernprobleme Entschedungsbäume Bayes sches Lernen Lneare Modelle Evaluerung 2

3 Problemstellung Lernen Engabe Lernproblem: Tranngsdaten. L x ( x, y1),...,( x, y 1 N N x 1... xm ) x, y dskret (Klassfkaton) oder kontnuerlch (Regresson) Ausgabe: Hypothese, Modell f : wenn x1 x3 x6 f ( x), 1 0 1, sonst 3

4 Klassfkaton: Bespel Engabe: Instanz (Objekt) x. = Menge aller 16x16 Pxel Btmaps Attrbute Instanz x Grauwert Pxel 1 Grauwert Pxel Pxelwerte Ausgabe: y {0,1,2,3,4,5,6,7,8,9} : erkannte Zffer Klassfkator "6" 4

5 Klassfkaton: Bespel Engabe: Instanz (Objekt) x. Attrbute Wort 1 kommt vor? = Menge aller möglchen Emal-Texte Wort N kommt vor? N Instanz x Alternatve Benefcary Frend Sterlng Zoo Emal Dear Benefcary, your Emal address has been pcked onlne n ths years MICROSOFT CONSUMER AWARD as a Wnner of One Hundred and Ffty Fve Thousand Pounds Sterlng Ausgabe: y { spam, ok} Dear Benefcary, We are pleased to notfy you that your Emal address has been pcked onlne n ths second quarter's MICROSOFT CONSUMER AWARD (MCA) as a Wnner of One Hundred and Ffty Fve Thousand Pounds Sterlng Klassfkator Spam 5

6 Bespel- Kombnatonen Lernen durch Berechnung des Verson Space Verson Space: alle mt den Daten konssten Hypothesen Medkamente n der Kombnaton x 1 x 2 x 3 x 4 x 5 x 6 y x x x x L ( x, y ),( x, y ),( x, y ),( x, y ) f ( x),, wenn x v sonst jj j j x 0 x 1 x x 1 x 0 x1 0 x2 1 x1 0 x x2 1 x

7 Unscherhet Verson Space-Ansatz n der Praxs problematsch Der Hypothesenraum st mest unendlch groß. Der Verson Space st dann mest auch unendlch groß, oder leer. Alternatver Ansatz: Lernen als Optmerungsproblem 7

8 Verlustfunkton, Optmerungskrterum Alternatver Ansatz: Lernen als Optmerungsproblem ˆ(, ) ( ( ), ) 2 R w L f x y w Verlust auf Tranngsdaten w Regularserer Verlustfunkton msst, we gut Modell zu Tranngsdaten passt Regularserungsfunkton msst, ob das Modell nach unserem Vorwssen wahrschenlch st. Optmerungskrterum st Summe aus Verlust und Regularserer. Suchen Mnmum des Optmerungskrterums 8

9 Verlustfunkton Verschedene Verlustfunktonen (anwendungsspezfsch) Bespel: Verlustfunktonen n Form von Kostenmatrx y 1 y 1 ( f ( x), y) f ( x) 1 0 cfp f( x) 1 c 0 FN Zum Bespel dagnostsche Klassfkatonsprobleme, übersehene Erkrankungen (False Negatves) schlmmer als False Postves. 9

10 Regularserer Unterschedlche Regularserer möglch Häufg wrd de Annahme ausgedrückt, dass wenge der Attrbute für en gutes Modell ausrechen. Anzahl der Attrbute, L 0 -Regularserung Betrag der Attrbut-Gewchtungen, L 1 -Regularserung Quadrat der Attrbut-Gewchtungen, L 2 -Regularserung. 10

11 Optmerungsproblem Rechtfertgung für Optmerungskrterum? Mehrere Rechtfertgungen und Herletungen. Wahrschenlchste Hypothese (MAP-Hypothese). Hypothese, de Daten am stärksten komprmert (Mnmum Descrpton Length). Nedrge obere Schranke für Fehler auf zukünftgen Daten abhängg von w. (SRM). 11

12 Überblck Lernprobleme Entschedungsbäume Bayes sches Lernen Lneare Modelle Evaluerung 12

13 Entschedungsbäume Ene von velen Anwendungen: Kredtrsken ja Länger als 3 Monate beschäftgt? Schufa-Auskunft postv? nen abgelehnt nen Ja Arbetslos? Kredt - Scherheten > 5 x verfügbares Enkommen? nen ja nen ja Kredt - Scherheten > 2 x verfügbares Enkommen? abgelehnt Student? abgelehnt nen ja nen ja abgelehnt angenommen angenommen abgelehnt 13

14 Entschedungsbäume Enfach zu nterpreteren. Lefern Klassfkaton plus Begründung. Abgelehnt, wel wenger als 3 Monate beschäftgt und Kredt-Scherheten < 2 x verfügbares Enkommen. Können aus Bespelen gelernt werden. Enfacher Lernalgorthmus. Effzent, skalerbar. Klassfkatons- und Regressonsbäume. Klassfkatons-, Regressons-, Modellbäume häufg Komponenten komplexer (z.b. Rsko-)Modelle. 14

15 Anwendung von Entschedungsbäumen Testknoten: führe Test aus, wähle passende Verzwegung, rekursver Aufruf. Termnalknoten: lefere Wert als Klasse zurück. Schufa-Auskunft postv? ja nen Länger als 3 Monate beschäftgt? abgelehnt nen Ja Arbetslos? Kredt - Scherheten > 5 x verfügbares Enkommen? nen ja nen ja Kredt - Scherheten > 2 x verfügbares Enkommen? abgelehnt Student? abgelehnt nen ja nen ja abgelehnt angenommen angenommen abgelehnt 15

16 Lernen von Entschedungsbäumen Eleganter Weg: Unter den Bäumen, de mt den Tranngsdaten konsstent snd, wähle enen möglchst klenen Baum (möglchst wenge Knoten). Klene Bäume snd gut, wel: se lechter zu nterpreteren snd; se n velen Fällen besser generalseren. Es gbt mehr Bespele pro Blattknoten. De Klassenentschedungen n den Blättern stützen sch so auf mehr Bespele. 16

17 Algorthmus ID3 Voraussetzung: Klassfkatonslernen, Alle Attrbute haben festen, dskreten Werteberech. Idee: rekursver Algorthmus. Wähle das Attrbut, der de Unscherhet bzgl. der Klasse maxmal verrngert. Dann rekursver Aufruf für alle Werte des gewählten Attrbuts. Solange, bs n enem Zweg nur noch Bespele derselben Klasse snd. Orgnalreferenz: J.R. Qunlan: Inducton of Decson Trees

18 Informaton Gan / Info Gan Rato Motvaton: Vorhersage ob en Student de Prüfung besteht. We hoch st der Info Gan des Attrbutes Matrkelnummer? Informatonsgehalt des Tests st resg. Idee: Informatonsgehalt des Tests bestrafen. IG( L, x) GanRato ( L, x) SpltInfo ( L, x) SpltInfo ( L, x) v L xv L log 2 L xv L 18

19 Kontnuerlche Attrbute 19

20 Algorthmus C4.5 Weterentwcklung von ID3 Verbesserungen: auch kontnuerlche Attrbute behandelt Tranngsdaten mt fehlenden Attrbutwerten behandelt Attrbute mt Kosten Prunng Ncht der letzte Stand: sehe C5.0 Orgnalreferenz: J.R. Qunlan: C4.5: Programs for Machne Learnng

21 Prunng Problem: Blattknoten, de nur von enem (oder sehr wengen) Bespelen gestützt werden, snd lefern häufg kene gute Klassfkaton. Prunng: Entfernen von Testknoten, de Blätter mt wenger als ener Mndestzahl von Bespelen erzeugen. Dadurch entstehen Blattknoten, de dann mt der am häufgsten auftretenden Klasse beschrftet werden müssen. 21

22 Prunng mt Schwellwert Für alle Blattknoten: Wenn wenger als r Tranngsbespele n den Blattknoten fallen Entferne darüberlegenden Testknoten. Erzeuge neuen Blattknoten, sage Mehrhetsklasse vorher. Regularserungsparameter r. Enstellung mt Cross Valdaton. 22

23 Umwandlung von Bäumen n Regeln Pfad durch den Baum: Bedngung der Regel Klasse: Schlussfolgerung Prunng von Regeln: Probere aus, welche Bedngungen weggelassen werden können, ohne dass de Fehlerrate dadurch stegt. 23

24 Entschedungsbäume aus großen Datenbanken: SLIQ C4.5 terert häufg über de Tranngsmenge (we häufg?) Wenn de Tranngsmenge ncht n den Hauptspecher passt, wrd das Swappng unpraktkabel! SLIQ: Vorsorteren der Werte für jedes Attrbut Baum breadth-frst aufbauen, ncht depth-frst. Orgnalreferenz: M. Mehta et. al.: SLIQ: A Fast Scalable Classfer for Data Mnng

25 SLIQ: Gn Index 25

26 Modellbäume Entschedungsbaum, aber lneares Regressonsmodell n Blattknoten. ja x <.9 nen x <.5 x < 1.1 ja nen nen

27 Entschedungsbaum - Vortele Enfach zu nterpreteren. Können effzent aus velen Bespelen gelernt werden. Vele Anwendungen. Hohe Genaugket. 27

28 Entschedungsbaum - Nachtele Ncht robust gegenüber Rauschen Tendenz zum Overfttng Instabl 28

29 Überblck Lernprobleme Entschedungsbäume Bayes sches Lernen Lneare Modelle Evaluerung 29

30 Dskrete und kontnuerlche Zufallsvarablen Dskrete Zufallsvarablen Endlche, dskrete Menge von Werten D möglch Vertelung beschreben durch dskrete Wahrschenlchketen p( x) [0, 1] mt p( x) 1 xd Kontnuerlche Zufallsvarablen Kontnuerlche, unendlche Menge von Werten möglch Vertelung beschreben durch kontnuerlche Dchtefunkton px ( ) 0 mt p( x) dx 1 Wahrschenlchket f ür x[ a, b]: p( x[ a, b]) p( x) dx b a 30

31 Dskrete Zufallsvarablen Bnomalvertelung: Anzahl Köpfe be N Münzwürfen X ~ Bern(X ) N X X, X {0,..., N} 1 X ~ Bn( X N, ) N Bn( X N, ) (1 ) X X N X N 10,

32 Kontnuerlche Zufallsvarablen Normalvertelung (Gaußvertelung) Bespel: Körpergröße X Annähernd normalvertelt: X 2 ~ ( x, ) Dchte der Normalvertelung z.b. 170, 10 32

33 Erwartungswert und Varanz Erwartungswert ener Zufallsvarable Gewchteter Mttelwert E( X ) xp( X x) x X dskrete ZV E( X ) xp( x) dx X kontnuerlche ZV mt Dchte p(x) Varanz ener Zufallsvarable Erwartete quadrerte Abwechung der Zufallsvarable von hrem Erwartungswert Mass für de Stärke der Streuung Var X E X E X 2 ( ) (( ( )) ) Verschebungssatz: Var( X ) E( X ) E( X )

34 Bespel: Erwartungswert Normalvertelung Erwartungswert Normalvertelung X 2 ~ ( x, ) zx 2 E( X ) x ( x, ) dx x exp ( ) 2 1/2 2 (2 ) 2 x dx ( z ) exp 2 1/2 2 (2 ) 2 z dz exp exp 2 1/ /2 2 (2 ) 2 z dz z (2 ) 2 z dz

35 Bayessche Lernen Bayes sches Lernen: Anwendung probablstscher Überlegungen auf Modelle, Daten, und Vorhersagen Bayes sche Regel: Modellwahrschenlchket gegeben Daten und Vorwssen Lkelhood: We hoch st de Wahrschenlchket, bestmmte Daten zu sehen, unter der Annahme dass Modell das korrekte Modell st? p( Modell Daten) Posteror: we st de Wahrschenlchket für Modelle, gegeben Evdenz der Tranngsdaten? p( Daten Modell ) p( Modell ) p( Daten) Wahrschenlchket der Daten, unabhängg von Modell A-pror Vertelung über Modelle: Vorwssen

36 Parameter von Vertelungen schätzen Erste Anwendung Bayes scher Überlegungen: Parameterschätzung n Münzwurfexpermenten Münze mt unbekanntem Parameter wrd N Mal geworfen Daten L n Form von N K Kopfwürfen und N Z Zahlwürfen Was sagen uns dese Beobachtungen über den echten Münzwurfparameter? Wssen über echten Münzwurfparameter abgebldet n a- posteror Vertelung p( L) Ansatz mt Bayesscher Regel: p( L) p( L p( pl ( ) 36

37 Parameterschätzungen von Wahrschenlchketsvertelungen: Bnomal Geegnete Pror-Vertelung: Beta-Vertelung Kontnuerlche Vertelung über Konjugerter Pror: a-posteror Vertelung weder Beta K 5, 5 1, 1 4, 2 Z K Z K Z p( ) Beta( k k z k (1 k z z 1 1 z 1 0 Beta(, ) d 1 K Z 37

38 Parameterschätzungen von Wahrschenlchketsvertelungen: Bnomal Mt Hlfe der Bayes schen Regel werden Vorwssen (Beta- Vertelung) und Beobachtungen (N K, N Z ) zu neuem Gesamtwssen P( L) ntegrert A-pror-Vertelung Beta P( ) Beta( 5 5 Daten L: N K =50x Kopf, N z =25x Zahl Konjugerter Pror: A-posteror Vertelung weder Beta P( L) Beta(

39 Bayessche Lneare Regresson Bayes sche Lneare Regresson: Bayes sches Modell für Regressonsprobleme Lneares Modell T f ( x w ) w x w0 m 1 w x f ( x) * Annahme über datengenererenden Prozess: echtes lneares Modell f ( x) * plus Gauß sches Rauschen y ( ) f* x mt ~ ( 0, ) 39

40 Bayessche Lneare Regresson: Pror Zel zunächst Berechnung der a-posteror Vertelung mt Bayes scher Regel P( w L) P( L w) P( w) pl ( ) Geegnete (konjugerte) Pror-Vertelung: Normalvertelung über Parametervektoren w Größte Dchte be w=0 Erwarten klene Attrbutgewchte 40

41 Bayessche Lneare Regresson: Posteror Posteror-Vertelung über Modelle gegeben Daten 1 P( w L) P( L w) P( w) Bayessche Regel Z 1 Z T ( y X w, I) ( w 0, p) 1 ( w w, A ) mt w 1 A X y A XX T p Posteror st weder normalvertelt, mt neuem Mttelwert w und Kovaranzmatrx A 1 41

42 Bayes sche Vorhersage Ncht auf MAP-Modell festlegen, solange noch Unscherhet über Modelle besteht Stattdessen Bayes sche Vorhersage: berechne drekt wahrschenlchstes Label für Testnstanz Neue Testnstanz x Vorhersage y arg max p( y x, L) * y arg max p( y w, xp( w L) dw y Bayesan Model Averagng Vorhersage, gegeben Modell Modell gegeben Tranngsdaten Bayes sche Vorhersage: Mtteln der Vorhersage über alle Modelle. Gewchtung: we gut passt Modell zu Tranngsdaten. 42

43 Bayes sche Vorhersage für de Lneare Regresson Für de Bayes sche lneare Regresson kann de Bayesoptmale Vorhersage drekt berechnet werden: T 2 1 ( y x w, ) ( w w, A ) dw mt 1 A T w Xy A XX p Vorhersagevertelung weder normalvertelt 43

44 Lneare Regresson auf nchtlnearen Bassfunktonen Nchtlneare Zusammenhänge n Daten darstellbar durch lneare Regresson n nchtlnearen Bassfunktonen f ( x) w T ( x) w w ( x) 0 d 1 : Abbldung von n höherdmensonalen Raum ( ) Lneare Regresson n entsprcht nchtlnearer Regresson n. ( ) y f ( x) 1 3x x 2 x y x 2 x 44

45 Bespel nchtlneare Regresson: Vorhersagevertelung f( x) N=1 Datenpunkt N=2 y sn(2 x) N=4 N=25 45

46 Bespel nchtlneare Regresson: Samples aus dem Posteror N=1 N=2 N=4 N=25 46

47 Nave Bayes Klassfkator (Übungen) Nave Bayes Klassfkator als enfaches probablstsches Klassfkatonsmodell (bnäre Attrbute, bnäre Klassen) Defnert ene gemensame Vertelung über x und y durch Münzwürfe p( x, y ) p( y ) p( x y, ) Münzwurf für Klasse y p( y ) p( x y, m 1 x y Münzwurf für Attrbut, gegeben Klasse Konjugerter Pror Betavertelung, Lösung für MAP Parameter we be Münzwurfexpermenten 47

48 Überblck Lernprobleme Entschedungsbäume Bayes sches Lernen Lneare Modelle Evaluerung 48

49 Graphsches Modell für Klassfkaton Graphsches Modell defnert stochastschen Prozess Bldet Modellannahme über Erzeugung der Daten Zuerst wrd en Modellparameter gezogen Deses parametrsert P(y ) Und parametrsert auch p(x y,) x y p( x y, ) p( ) py ( ) n 49

50 Emprsche Inferenz Inferenz der Wahrschenlchket von y gegeben Instanz x und Tranngsdaten? P( y x, X, y) P( y x, ) p( X, y)d P( y x, ) mt arg max p( X, y) MAP MAP Bayes Glechung: Posteror = Lkelhood x Pror P( y X, p( p( X, y) p( y X P( y X, p( Faktoräquvalenz genügt, da nur argmax gesucht. 50

51 Emprsche Inferenz Bayes Glechung: Posteror = Lkelhood x Pror Unabhänggket der Tranngsdaten (aus graphschem Modell) p( X, y) p( X, y p( P( y X, P( y x, n 1 x y p( x y, ) p( ) py ( ) n Bayes Glechung auf Klassenlabel angewandt Py ( x, p( x y, P( y ) p( x y, P( y ) y 51

52 Exponentelle Famlen Wahrschenlchket für Klassenlabel st Tel des Parametervektors Bedngte Wahrschenlchket für x folgt: y y y Py ( ) p( x y, ) h( x ) e T, y, y ( x ) ln g ( ) Be Klassen 1 k zerfällt Parametervektor n,1, k y1 y yk P( y x, p( x y, Py ( ) p( x y, Py ( ) y 52

53 Exponentelle Famlen Bedngte Wahrschenlchket für x folgt: p( x y, ) h( x ) e Abbldung (x) heßt:, y, y In der Statstk: suffzente Statstk Im maschnellen Lernen: Feature Mappng T ( x ) ln g ( ) Parttonerungsfunkton, y normert de Vertelung Base Measure h(x). 1 g( ) Vertelung wrd durch h(x), (x), und g festgelegt. 53

54 Exponentelle Famlen Vektor (x) Suffzente Statstk: Abbldung, de alle Informatonen über de zu Grunde legende Wahrschenlchketsvertelung erhält. Feature Mappng: Abbldung auf Merkmale, de ene Trennung der Klassen durch en lneares Modell ermöglcht. 54

55 Suffzente Statstk, Feature Mappng Lneares Mappng: Quadratsches Mappng : Polynomelles Mappng : ( x ) x 1 Tensorprodukt ( x ) x x x 1 x ( x) x x x... x p Faktoren Häufg verwendet man auch Mappngs, de kene geschlossene Form haben, für de sch aber nnere Produkte bestmmen lassen Z.B. RBF-Kerne, Hash-Kerne 55

56 Suffzente Statstk, Feature Mappng Spezalfall: Lneares Mappng ( x ) x st suffzente Statstk, Wenn p( x y, ) [ μ y, Σ]( x) und de Kovaranzmatrx der Klassen glech st En lneares Mappng ( x ) x genügt dann für de Berechnung der Klassenwahrschenlchket. 56

57 Exponentelle Famlen: Normalvertelung Bedngte Wahrschenlchket für x folgt: Bespel: Normalvertelung p( x y, ) h( x) e 1 [ μ, Σ]( x) e m/2 1/2 (2 ) Σ T, y, y ( x) ln g( ) 1 2 T 1 x μ Σ x μ Als Exponentelle Famle: x 2 0 x ( x), 2 x , 2 1/2 h( x) 2, g( ) exp x 1 0 0,5 0,6x1, 0 0,6 1 x 2 57

58 Exponentelle Famlen Bedngte Wahrschenlchket für x folgt: ( x) ln g( ) p( x y, ) h( x) e Ensetzen n p( x y, P( y ) Py ( x, p( x y ', P( y ' ) y ' h( x) e e y ' ( x) y ' h( x) e e T T ( x), y T T, y ', y, y ( x) ln g ( ), y, y T, y', y' ( x) ln g ( ) yy' b y b y ' y y y b g y y, y ln ln ( ) 58

59 Logstsche Regresson Aus den Annahmen Datengenererungsmodell von Fole 12 p( x y, ) st ene exponentelle Famle ergbt sch de Form der bedngten Vertelung der Zelvarable: ( ) x e Py ( x, e T, y T, y ' ( x) by ' y ' b y, y Wr kennen de Parameter ncht. Wr werden bald de MAP- (Maxmum-A-Posteror-) Parameter nfereren. 59

60 Logstsche Regresson Wahrschenlchket für Klasse y : ( ) x e Py ( x, e T, y T, y ' ( x) by ' y ' b y Exponent st affn n (x) (lnear + offset) Klasse y st wahrschenlchste Klasse wenn T, y y arg max ( x ) b y y Nenner st konstant bezüglch y Lneare (+offset) Entschedungsfunkton 60

61 Lneare Modelle Hyperebene durch Normalenvektor und Verschebung gegeben: H { f ( ) ( b 0} T, b x x x) Klassenwahrschenlchket: Py ( 1 x, T ( ) b 1 x e 1 x 2 f ( x ) 0 Entschedungsfunkton: f T ( x ) ( x ) Klassfkator: b b f ( x ) 0 f ( x ) 0 y( x ) sgn( f ( x )) x 1 61

62 Generalserte Lneare Modelle Hyperebene durch Normalenvektor und Verschebung gegeben: H { f ( ) ( b 0} Klassenwahrschenlchket: T, b x x x) Py ( 1 x, T ( ) b 1 x e 1 x 2 ( x ) x 1 p( x y 1, ) x x Entschedungsfunkton: Klassfkator: f T ( x ) ( x ) y( x ) sgn( f ( x )) b p( x y 1, ) x 1 62

63 Generalserte Lneare Modelle Hyperebene durch Normalenvektor und Verschebung gegeben: H { f ( ) ( b 0} T, b x x x) ( x ) x 1 x x Klassenwahrschenlchket: Entschedungsfunkton: Klassfkator: Py ( 1 x, T ( ) b 1 x e f T ( x ) ( x ) y( x ) sgn( f ( x )) b 1 x 2 f ( x ) 0 py ( 1 x, ) x 1 63

64 Lneare Modelle Mehrklassenfall Hyperebenen durch Normalenvektoren und Verschebung gegeben: H f y b, b T y { x ( x, ) ( x) y 0} y y Klassenwahrschenlchket: Entschedungsfunkton: Klassfkator: ( ) x e Py ( x, e f x y x b T, y (, ) ( ) y y( x ) arg max f ( x, y) y T, y T, y ' ( x) by ' y' b y x 2 f ( x, y ) 0 1 f ( x, y ) 0 y 1 1 y 2 f ( x, y ) 0 y 3 f ( x, y ) x 1 64

65 Logstsche Regresson Wenn de Modellannahmen erfüllt snd: Unabhänggketsannahmen von Fole 12, p( [ 0, Σ normalvertelt, T, y, ( ) y x ln g( ) p( x y, ) h( x) e exponentelle Famle Dann st x e Py ( x, e und der Maxmum-A-Posteror-Parameter st n T, y ' ( ), T 1 y T MAP arg mn log e x ( x ) y' Σ 2 1 ( ) T, y T, y ' ( x) by ' y' b y 1 65

66 Inhalt Klassfkatonsproblem Bayes sche Klassenentschedung MAP-Modell Logstsche Regresson Regularserte Emprsche Rskomnmerung Kernel Perzeptron, Support Vector Machne Rdge Regresson, LASSO Representer Theorem Duales Perzeptron, Duale SVM Mercer Map Lernen mt strukturerter En- und Ausgabe Taxonome, Sequenzen, Rankng, Dekoder, Schnttebenenalgorthmus 66

67 Regularzed Emprcal Rsk Mnmzaton MAP-Schätzer der Logstschen Regresson: n T, y ' ( x ), T y T 1 MAP arg mn log e ( x ) y ' Σ 1 2 n arg mn ( f ( x, ), y ) 1 mt f ( x, y ) T 1 Σ ( x ) T, y ( f ( x, ), y ) e f ( x, y ') y ' 1 2 f ( x, y ) 1 67

68 Regularzed Emprcal Rsk Mnmzaton Zweklassenfall: MAP n T y ( ( ) ) arg mn log 1 x e 1 mt f ( x ) ( x ) yf ( x) ( f( x), y) log(1 e ) n arg m n ( f ( x ), y ) T T 1 Σ 1 2 T 1 Σ 68

69 Regularzed Emprcal Rsk Mnmzaton Verallgemenerung (Zweklassenfall): n arg mn f ( 1 ), y x Verlustfunkton f ( x ), y bemsst Verlust der entsteht, wenn be wrklcher Klasse y das Modell f ( x) ausgbt. Regularserer : Letet sch aus Pror p() her, drückt Hntergrundwssen über wahrschenlche Lösung aus (Bayes sche Motvaton) Sorgt für numersch stable Lösung (Tkhonov-Regularserer) Ermöglcht engere Fehlerschranken (PAC-Theore) 69

70 Lösen des Optmerungsproblems Zel: Mnmere de Funkton n L( ) f ( x ), y 1 für bestmmte Verlustfunkton und Regularserer. Analytsche Lösung exstert nur selten. Nummersche Lösungsansätze: Gradentenabsteg (z.b. Lne-Search, Newton- Verfahren). Cuttng-Plane-Verfahren. Innere-Punkt-Verfahren. 70

71 Lösen des Optmerungsproblems Zel: Mnmere de Funkton n x 1 L( ) f ( ), y für bestmmte Verlustfunkton und Regularserer. Gradentenverfahren: 0 L( ) L RegERM(Daten ( x, y ),, ( x, y )) Setze DO WHILE RETURN k 0 0 und k 0 k Berechne Gradent L( ) k Berechne Schrttwete 1 Setze k k k L( k ) Setze k k1 k k n n 1 L( ) 1 L( ) 0 Startlösung 71

72 Gradentenverfahren: Lne Search Löse RegErm-Optmerungsproblem: RegERM-LneSearch(Daten ( x, y ),, ( x, y )) Setze DO WHILE RETURN k 0 0 und k 0 k Berechne Gradent L( ) k Wähle Schrttwete : Setze Setze arg mn L( L( )) k k k k k k1 k k 1 k k L( k ) n n In der Praxs st es zu teuer optmale Schrttwete zu bestmmen. Notwendges Krterum: k k k L( L( )) L( ). 72

73 Stochastsche Gradentenverfahren Idee: Bestmme Gradenten für zufällge Telmenge der Bespele (z.b. en enzelnes Bespel). RegERM-Stoch(Daten ( x, y ),, ( x, y ) Setze DO WHILE RETURN k 0 0 und k 0 Msche Daten zufällg FOR =1,,n END k Berechne Telgradent k Berechne Schrttwete k 1 k k k Setze L( ) Setze k k1 k n 1 1 n x n x k L( ) 73

74 Stochastsche Gradentenverfahren In jedem Schrtt wrd nur en Summand des Optmerungskrterums verbessert. Das gesamte Optmerungskrterum kann sch durch enen Schrtt verschlechtern. Konvergert gegen Optmum, wenn für de Schrttwete glt: und (Robbns & Monro, 1951) 74

75 Regularzed Emprcal Rsk Mnmzaton Verallgemenerung (Zweklassenfall): n arg mn f ( x ), y 1 Verlustfunkton f ( x ), y bemsst Verlust der entsteht, wenn be wrklcher Klasse y das Modell f ( x) ausgbt. Regularserer : Letet sch aus Pror p() her, drückt Hntergrundwssen über wahrschenlche Lösung aus (Bayes sche Motvaton) Sorgt für numersch stable Lösung (Tkhonov-Regularserer) Ermöglcht engere Fehlerschranken (PAC-Theore) 75

76 ERM: Verlustfunktonen für Klassfkaton Zero-one loss: 0/1 1 yf ( x) 0 ( f( x), y) 0 yf ( x) 0 Perceptron loss: sgn( f ( x )) y y f( x ) y f( x ) 0 ( f( x ), y ) max(0, y f( x )) 0 yf ( x) 0 p Hnge loss: 1 y f( x ) 1 y f( x ) 0 h( f( x ), y ) max(0,1 y f( x )) 0 1 yf ( x) 0 Logstc loss: yf ( ) log ( f ( x ), y) log(1 e x ) w sgn( f ( x )) y w Zero-one loss st ncht konvex schwer zu mnmeren! 1 l yf ( x)

77 ERM: Verlustfunktonen für Regresson Absolute loss: ( f ( x ), y ) f ( x ) y a l 1 Squared loss: ( f ( x ), y ) f ( x ) y s f w ( x ) y -Insenstve loss: f( x ) y f( x ) y 0 ( f( x ), y ) max(0, f( x) y ) 0 f( x) y 0

78 Emprcal Rsk Mnmzaton Verallgemenerung (Zweklassenfall): n arg mn f ( 1 ), y x Verlustfunkton f ( x ), y bemsst Verlust der entsteht, wenn be wrklcher Klasse y das Modell f ( x) ausgbt. Regularserer : Letet sch aus Pror p() her, drückt Hntergrundwssen über wahrschenlche Lösung aus (Bayes sche Motvaton) Sorgt für numersch stable Lösung (Tkhonov-Regularserer) Ermöglcht engere Fehlerschranken (PAC-Theore) 78

79 ERM: Regularserer Idee: Entschedung baserend auf so wengen Attrbuten we möglch treffen. Wenge Enträge m Parametervektor unglech Null: Gernge Manhatten-Norm: Idee: Gewchte für alle Attrbute sollen möglchst gerng sen. 0 Anzahl 0 0 j m 1 1 j1 j Gernge (quadratsche) eukldsche Norm: m 2 2 j j st ncht konvex schwer zu mnmeren!

80 ERM: Regularserer Sparsty: Parametervektor hat vele Nullenträge. Warum st das gut? Regularserung der Sparsty durch Schwer zu optmeren beste Approxmaton (auch noch sparse)

81 ERM: Regularserer L1-Regularserung führt auch zu sparsen Lösungen (= Lösungen mt velen Nullenträgen n ). Optmerungsproblem st äquvalent zu mn 1 unter der Nebenbedngung: n f ( x ), 1 y d. n 1 f( x ), y c 1 mn R( ) 2 R d 1 R d 2 R d 3 De Menge R() dst konvex. d d d

82 ERM: Regularserer L2-Regularserung führt ncht zu sparsen Lösungen. Optmerungsproblem st äquvalent zu mn 2 unter der Nebenbedngung: n f ( x ), 1 y d. n 1 f( x ), y c 2 mn R( ) 2 R d 1 R d 2 R d 3 De Menge R( ) dst konvex. d d d

83 ERM: Regularserer L2-Regularserung führt ncht zu sparsen Lösungen. Optmerungsproblem st äquvalent zu mn 2 unter der Nebenbedngung: n f ( x ), 1 y d. n 1 f( x ), y c 2 mn R( ) 2 1 Sparse Lösung. 1

84 ERM: Regularserer L1-Regularserung führt auch zu sparsen Lösungen (= Lösungen mt velen Nullenträgen n ). Optmerungsproblem st äquvalent zu mn 1 unter der Nebenbedngung: n f ( x ), 1 y d. n 1 f( x ), y c 1 mn R( ) 2 1 Sparse Lösung. 1

85 ERM: Regularserer L1-Regularserung führt auch zu sparsen Lösungen (= Lösungen mt velen Nullenträgen n ). Optmerungsproblem st äquvalent zu mn 1 unter der Nebenbedngung: n f ( x ), 1 y d. n 1 f( x ), y c 1 mn R( ) 2 Regularserungsparameter: je größer c um so sparser st de Lösung. 1 Größeres c verschebt Schnttpunkt auf Bahn mt klenerem Umfang. 1 Lösungen für c

86 ERM: Perzeptron Verlustfunkton: Ken Regularserer Klassen y{-1,+1} Lneares Feature Mappng: (x)= x Stochastsches Gradentenverfahren: ( f ( x ), y ) p y f( x ) y f( x ) 0 0 yf ( x) 0 max(0, yf( x )) L x k ( ) yx y f( x ) 0 0 yf ( x) 0 1 l yf ( x) Rosenblatt,

87 ERM: Perzeptron-Algorthmus Perceptron(Instanzen (x, y )) Setze = 0 DO FOR =1,,n IF THEN END yf( x ) 0 x WHILE verändert RETURN y Stochastsches Gradentenverfahren mt 0 und Schrttwete 1 2 Termnert, obwohl 1 Daten lnear separerbar., wenn Rosenblatt,

88 ERM: Support Vector Machne Verlustfunkton: 1 y f( x ) 1 y f( x ) 0 ( f( x ), y ) 0 1 yf ( x) 0 max(0,1 yf( x )) h l 1 Regularserer: m 1 T j 1 j yf ( x) Klassen y{-1,+1} 88

89 Support Vector Machne Verlustfunkton st 0, wenn n 1 max(0,1 yf( x )) 0 : yf( x ) 1 N 1 N T 1 : y x ) 1 T ) wenn y 1 N : T 1 x y ) wenn alle Tranngsbespele enen 1 Abstand von mndestens zur Trennebene haben 1 x + 1 ( x) Abstand der Ebene vom Ursprung Hesse sche Normalform: Normalenvektor hat Länge ( x) 1 89

90 Support Vector Machne Verlustfunkton st 0, wenn alle Tranngsbespele enen 1 Abstand von mndestens 2 zur Trennebene haben Regularserer Ist null, wenn T 0 SVM wrd auch als Large-Margn-Klassfkator bezechnet, wel Optmerungskrterum von Ebene mnmert wrd, de möglchst großen Abstand von Bespelen hat. + 1 ( x) ( x) 1 90

91 Support Vector Machne Verlustfunkton als Summe von Slack-Termen n max(0,1 yf( x )) 1 1 T max(0,1 yx ) ) N Slack-Term, Margn-Verletzung 91

92 Rdge Regresson Verlustfunkton: ( f ( x ), y ) f ( x ) y s Regularserer: T 2 2 Regularserte Regresson. Regularserer macht Regresson numersch stabler, führt n der Praxs zu besseren Lösungen als unregularserte klenste Quadrate. Äquvalent zur MAP-Lösung der Bayes schen Lneare Regresson. 92

93 LASSO Verlustfunkton: ( f ( x ), y ) f ( x ) y s Regularserer: Normal(0,1) Laplace(0,1) L1-regularserte Regresson. Normalvertelungspror p( [ 0, Σ wrd durch Laplace-Pror ersetzt. Führt zu sparsen Lösungen. 93

94 Duale Form lnearer Modelle Feature Mappng ( x) kann hochdmensonal sen Anzahl zu schätzender Parameter hängt von ab. Berechnung von ( x) teuer. 94

95 Duale Form lnearer Modelle Representer Theorem: Wenn g f streng monoton 2 * stegend st, hat das Argument, das n 1 2 x L ( ) f ( ), y g f * mnmert, de Form ( x ), mt. * n T f ( x) ( x) ( x) 1 n 1 Inneres Produkt st Maß für Ähnlchlchket zwschen Bespelen 95

96 Representer Theorem Prmale Scht: Hypothese hat so vele Parameter we Dmensonen hat. Gut für vele Bespele, wenge Attrbute. Duale Scht: f * *T ( x) x) n * T f * ( x) ( x) ( x) α 1 ( x) Hypothese hat so vele Parameter we Bespele exsteren. Gut für wenge Bespele, vele Dmensonen. Repräsentaton ( x) kann unendlch vele Dmensonen haben, solange nnere Produkt effzent berechnet werden kann: Kernelfunktonen. 96

97 Duales Perzeptron Perzeptron-Verlust, ken Regularserer Duale Form der Entschedungsfunkton: Duale Form der Updateregel: Wenn n T j 1 j j f ( x ) ( x α ) ( x ) yf α ( x ) 0, dann Äquvalent zur prmalen Form des Perzeptrons Vortelhafter als prmales Perzeptron, wenn wenge Bespele vorlegen und ( x ) vele Dmensonen hat. y 97

98 Duale Support Vector Machne Hnge Loss, L2-Regularserung Duale Form der Entschedungsfunkton: Duale Form des Optmerungsproblems f β T ( x) y( x) ( x) 1 x SV n 1 max ( ) ( ) β n T j yy j x x j 2, j1 unter den Nebenbedngungen: 0. Prmale und duale Optmerungsprobleme haben dentsche Lösung, aber prmale bzw. duale Form Vortelhafter als prmale SVM, wenn wenge Bespele vorlegen und ( x) vele Dmensonen hat. 98

99 Kernel ( x) Feature Mappng kann hochdmensonal sen Anzahl zu schätzender Parameter hängt von Berechnung von ( x) teuer. T Bsher: ( x ) gegeben, ( x) ( x' ) msst Ähnlchket zwschen Bespelen. ab. Vele Verfahren können umgeformt werden, so dass Bespele nur als nnere Produkte auftauchen. Idee: Ersetze nneres Produkt durch belebges T Ähnlchketsmaß k( x, x') ( x) ( x ') und mappe Bespele nur mplzt. Für welche Funktonen k exstert en Mappng ( x), so dass k nneres Produkt darstellt? 99

100 Kerne Theorem: Für jede postv defnte Funkton exstert ene Abbldung ( x), so dass T k( x, x') ( x) ( x') glt. k Abbldung ncht endeutg. Bespel 1( x) x und 2( x) x : es glt: ( x) T ( x') x T x' ( x) T ( x' ) ( x) T ( x ') Gram-Matrx oder Kernel-Matrx K ( k( x, x )) j j Matrx der nneren Produkte = Ähnlchketen zwschen Bespelen, n x n -Matrx. 100

101 Mercer Map Feature Mappng kann für Tranngsdaten kann dann defnert werden als ( x1) ( x n ) : Kernelmatrx zwschen Tranngs- und Testdaten K UV 1/2 T X X test tran test 1/2 UV Xtest T Egenwerte bzw. -vektoren von K Umstellen ergbt Mappng der Testdaten 1/2 1 X UV K U U test X test V 1/2 U T K T 1 101

102 Kernel-Funktonen Polynomelle Kernels Radale Bassfunkton k x x x x (, ) ( T 1) p poly j j RBF ( x, x j ) e ( x Sgmode Kernels, Strng-Kernels (z.b. zum Klassfzeren von Gensequenzen). Graph-Kernels zum Lernen mt strukturerten Instanzen. k x j ) 2 Wetere Lteratur: B.Schölkopf, A.J.Smola: Learnng wth Kernels

103 Polynomelle Kernel Kernel: T k (, ) ( poly x x j x x j 1)k Welcher Transformaton entsprcht das? Bespel: 2-D Orgnalraum, t=2. 103

104 RBF-Kernel Kernel k 2 RBF ( x, x j ) exp ( x x j ) Welcher Transformaton entsprcht das? 104

105 Bnäre SVM Klassfkaton be mehr als zwe Klassen: y( x) sgn f ( x), En Parametervektor f ( x ) ( x ) T Optmerungsproblem: n 1 T mnξ, 2 1 unter den Nebenbedngungen: y f ( x) 1 und 0. Verallgemenerung für k Klassen? 105

106 Multklassen SVM Klassfkaton be mehr als zwe Klassen: y( x) arg max f ( x, y), Parametervektor für jede der möglchen k Klassen Optmerungsproblem: n k 1 T mnξ, 2 1 y 1 unter den Nebenbedngungen: y y : f ( x, y ) f ( x, y) 1 und 1,..., 0. k T f ( x, y) ( x) T y [J.Weston, C.Watkns, 1999] 106

107 Multklassen SVM Klassfkaton be mehr als zwe Klassen: y( x) arg max f ( x, y), Parametervektor für jede der möglchen k Klassen Optmerungsproblem: n 1 T mnξ, 2 1 unter den Nebenbedngungen: y und 0. y y : f ( x, y ) f ( x, y) 1 1,..., k T f y y T ( x, ) x, ) 107

108 kodert z.b. en Dokument kodert Klasse Multklassen SVM Bespel , y y y y y y y x x x x x x x 1 x y 2 x

109 kodert z.b. en Dokument st en Pfad z.b. n enem Themenbaum Klassfkaton mt Taxonomen Bespel , y v y v y v y v y v y v x x x x y x x x 1 v 1 2 v 1 2 v 2 3 v 1 3 v 2 3 v x x x ,, T v v v y x

110 Strukturerte En-/Ausgaben Ausgaberaum Y benhaltet komplexe Objekte Darstellung als Kombnaton von bnären Vorhersageproblemen? Bespele: Wortart- und Egennamenerkennung Natural Language Parsng Sequence Algnment 110

111 Lernen mt strukturerten Ausgaben Bespel: POS-Taggng (Wortarterkennung) Satz x= Curosty klls the cat Gewünscht: argmax y T ( x, y ) = <N,V,Det,N> Explzt: T (x,<n,v,det,n>) T (x,<n,n,n,n>) T (x,<n,v,det,n>) T (x,<n,n,n,v>) ZU VIELE!!! T (x,<n,v,det,n>) T (x,<n,n,v,n>) T (x,<n,v,det,n>) T (x,<n,v,n,n>) 111

112 Strukturerte En-/Ausgaben Ausgaberaum Y benhaltet komplexe Objekte. Mehrstufenverfahren propageren Fehler Exponentelle Anzahl von Klassen, aber wenger zu schätzende Parameter; effzente Vorhersage; effzenter Lernalgorthmus. Feature-Mappng: reduzert de Anzahl der Parameter für jede Klasse Schnttebenenalgorthmus Problemspezfsche Koderung 112

113 Überblck Lernprobleme Entschedungsbäume Bayes sches Lernen Lneare Modelle Evaluerung 113

114 Hypothesenbewertung Problem der Rskoschätzung für gelernte Hypothesen Rsko ener Hypothese: erwarteter Verlust auf Testbespelen R( f ) E[ ( y, f ( x))] ( y, f ( x)) p( x, y) dxdy (, x y) ~ p( x, y) Testbespel Rsko lässt sch aus Daten schätzen 1 m m Rˆ( f ) ( y, f ( x )) "Rskoschätzer, emprsches Rsko" 1 1 j1 j j T ( x, y ),...,( x, y ) ( x, y ) ~ p( x, y) m m 114

115 Der Rskoschätzer als Zufallsvarable Wert Rˆ ( f) Rskoschätzer st Zufallsvarable Charaktersert durch Bas und Varanz: systematscher Fehler und zufällge Streuung R Bas domnert R Varanz domnert Fehler des Schätzers lässt sch zerlegen n Bas und Varanz ˆ 2 ˆ 2 ˆ 2 [( ( ) ) ] [ ( ) 2 ( ) ] E R f R E R f RR f R ˆ ˆ 2 2 E[ R( f ) ] 2 RE[ R( f )] R E[ Rˆ( f )] 2 RE[ Rˆ( f )] R E[ Rˆ( f ) ] E[ Rˆ( f )] ˆ ( E[ R( f )] R) Var[ R( f )] Bas Rˆ f 2 [ ( )] Var[ R( f ) ˆ ˆ ] 115

116 Rskoschätzung auf Tranngsdaten? Rskoschätzung kann ncht auf Tranngsdaten erfolgen: optmstscher Bas E[ Rˆ ( f )] R( f ) L Problem st de Abhänggket von gewählter Hypothese und zur Fehlerschätzung verwendeten Daten Ansatz: Testdaten verwenden, de von den Tranngsdaten unabhängg snd. 116

117 Holdout-Testng Gegeben Daten Tele Daten auf n Tranngsdaten L ( x1, y1),...,( xm, ym) und Testdaten Starte Lernalgorthmus mt Daten L, gewnne so Hypothese. Rˆ ( f ) Ermttle emprsches Rsko auf Daten T. T Starte Lernalgorthmus auf Daten D, gewnne so Hypothese. f D Ausgabe: Hypothese, benutze RT fl als Schätzer für das Rsko von f D D ( x, y ),...,( x, y ) 1 1 T ( x, y ),...,( x, y ) m1 m1 d d d L d ˆ ( ) f L f D L T 117

118 Cross-Valdaton Gegeben: Daten Tele D n n glech große Blöcke Wederhole für =1..n Tranere f mt L =D \ D. Bestmme emprsches Rsko auf D. D Fehlerschätzung ( x, y1),...,( x R, y 1 d d n n 1 1 ˆ ) D,..., 1 Dn R Rˆ D ( f ) ( D f ) D1 D2 D3 D4 Tranng examples 118

119 Bas und Varanz n Holdout-Testng und Cross-Valdaton Bas und Varanz der Fehlerschätzung aus Holdout-Testng und Cross-Valdaton? Fehlerschätzungen aus Holdout-Testng und Cross-Valdaton jewels lecht pessmstsch Aber m Gegensatz zum Tranngsfehler n der Praxs brauchbar Cross-Valdaton hat gerngere Varanz als Holdout-Testng, wel wr über mehrere Holdout-Expermente mtteln 119

Modelle, Version Spaces, Lernen

Modelle, Version Spaces, Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Maschnelles Lernen Modelle, Verson Spaces, Lernen Chrstoph Sawade/Nels Landwehr Domnk Lahmann Tobas Scheffer Überblck Problemstellungen:

Mehr

Modelle, Version Spaces, Lernen

Modelle, Version Spaces, Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Maschnelles Lernen Modelle, Verson Spaces, Lernen Chrstoph Sawade/Nels Landwehr Slva Makowsk Tobas Scheffer Überblck Problemstellungen:

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Zusammenfassung: Lernprobleme, Bayes sches Lernen, Evaluerung Chrstoph Sawade/Nels Landwehr/Paul Prasse Slva Makowsk obas Scheffer Überblck

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen Chrstoph Sawade/Nels Landwehr/Paul Prasse Domnk Lahmann Tobas Scheffer Überblck Wahrschenlchketen, Erwartungswerte,

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Graphsche Modelle els Landwehr Zusammenfassung Pfade Zusammenfassung: en Pfad --Y-Z- st B A E Blockert be Y, wenn Dvergerende Verbndung,

Mehr

Modelle, Version Spaces, Lernen

Modelle, Version Spaces, Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Maschnelles Lernen Modelle, Verson Spaces, Lernen Chrstoph Sawade/Nels Landwehr Jules Rasetaharson Tobas Scheffer Überblck Problemstellungen:

Mehr

Bayessches Lernen (3)

Bayessches Lernen (3) Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen (3) Chrstoph Sawade/Nels Landwehr Jules Rasetaharson Tobas Scheffer Überblck Wahrschenlchketen, Erwartungswerte, Varanz

Mehr

Modelle, Version Spaces, Lernen

Modelle, Version Spaces, Lernen Unverstät Potsdam Insttut ür Inormatk Lehrstuhl Maschnelles Lernen Maschnelles Lernen Modelle Verson Spaces Lernen Tobas Scheer Mchael Brückner Klasskaton Engabe: Instanz Objekt X. Können durch Attrbut-Vektoren

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen Chrstoph Sawade/Nels Landwehr Jules Rasetaharson Tobas Scheffer Überblck Wahrschenlchketen, Erwartungswerte, Varanz

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Graphsche Modelle els Landwehr Überblck Graphsche Modelle: Syntax und Semantk Graphsche Modelle m Maschnellen Lernen Inferenz n Graphschen

Mehr

Kapitel 8: Kernel-Methoden. Maschinelles Lernen und Neural Computation

Kapitel 8: Kernel-Methoden. Maschinelles Lernen und Neural Computation Kaptel 8: Kernel-Methoden SS 009 Maschnelles Lernen und Neural Computaton 50 Ausgangsbass: Perceptron Learnng Rule Δw y = Kf = 0Ksonst K"target" = Kf Rosenblatt (96) Input wrd dazugezählt (abgezogen),

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statstk und Wahrschenlchketsrechnung Statstk und Wahrschenlchketsrechnung 5. Vorlesung Dr. Jochen Köhler.03.0 Statstk und Wahrschenlchketsrechnung Wchtg!!! Vorlesung Do 4.03.0 HCI G3 Übung 5 D 9.03.0 Fnk

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen Chrstoph Sawade/Nels Landwehr/Paul Prasse Slva Makowsk Tobas Scheffer Überblck Wahrschenlchketen, Erwartungswerte,

Mehr

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen Übungsklausur Wahrschenlchket und Regresson De Lösungen. Welche der folgenden Aussagen treffen auf en Zufallsexperment zu? a) En Zufallsexperment st en emprsches Phänomen, das n stochastschen Modellen

Mehr

Kapitel 7: Ensemble Methoden. Maschinelles Lernen und Neural Computation

Kapitel 7: Ensemble Methoden. Maschinelles Lernen und Neural Computation Kaptel 7: Ensemble Methoden 133 Komtees Mehrere Netze haben bessere Performanz als enzelne Enfachstes Bespel: Komtee von Netzen aus der n-fachen Kreuzvalderung (verrngert Varanz) De Computatonal Learnng

Mehr

HUMBOLDT-UNIVERSITÄT ZU BERLIN. Institut für Informatik Lehrstuhl Wissensmanagement. Textklassifikation. Tobias Scheffer Ulf Brefeld

HUMBOLDT-UNIVERSITÄT ZU BERLIN. Institut für Informatik Lehrstuhl Wissensmanagement. Textklassifikation. Tobias Scheffer Ulf Brefeld HUMBOLDTUNIVERSITÄT ZU BERLIN Insttut für Informatk Lehrstuhl Wssensmanagement Textklassfkaton Tobas Scheffer Ulf Brefeld Textklassfkaton Textklassfkator: Ordnet enen Text ener Menge von nhaltlchen Kategoren

Mehr

Kapitel 2: Klassifikation. Maschinelles Lernen und Neural Computation

Kapitel 2: Klassifikation. Maschinelles Lernen und Neural Computation Kaptel 2: Klassfkaton Maschnelles Lernen und Neural Computaton 28 En enfacher Fall En Feature, Hstogramme für bede Klassen (z.b. Glukosewert, Dabetes a/nen) Kene perfekte Trennung möglch Entschedung: Schwellwert

Mehr

Kapitel 4: Unsicherheit in der Modellierung Modellierung von Unsicherheit. Machine Learning in der Medizin 104

Kapitel 4: Unsicherheit in der Modellierung Modellierung von Unsicherheit. Machine Learning in der Medizin 104 Kaptel 4: Unscherhet n der Modellerung Modellerung von Unscherhet Machne Learnng n der Medzn 104 Regresson Modellerung des Datengenerators: Dchteschätzung der gesamten Vertelung, t pt p p Lkelhood: L n

Mehr

5 Gemischte Verallgemeinerte Lineare Modelle

5 Gemischte Verallgemeinerte Lineare Modelle 5 Gemschte Verallgemenerte Lneare Modelle Wr betrachten zunächst enge allgemene Aussagen für Gemschte Verallgemenerte Lneare Modelle. Se y der beobachtbare Zufallsvektor und u der Vektor der ncht-beobachtbaren

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Mathematische Grundlagen

INTELLIGENTE DATENANALYSE IN MATLAB. Mathematische Grundlagen INTELLIGENTE DATENANALYSE IN MATLAB Mathematsche Grundlagen Überblck Lneare Algebra: Vektoren, Matrzen, Analyss & Optmerung: Dstanzen, konvexe Funktonen, Lagrange-Ansatz, Stochastk: Wahrschenlchketstheore,

Mehr

Definition des linearen Korrelationskoeffizienten

Definition des linearen Korrelationskoeffizienten Defnton des lnearen Korrelatonskoeffzenten r xy x y y r x xy y 1 x x y y x Der Korrelatonskoeffzent st en Indkator dafür, we gut de Punkte (X,Y) zu ener Geraden passen. Sen Wert legt zwschen -1 und +1.

Mehr

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2 ETH Arbetsgruppe Radocheme Radochemsches Praktkum P 06 Enführung n de Statstk INHALTSVERZEICHNIS Sete 1. Zählung von radoaktven Zerfällen und Statstk 2 2. Mttelwert und Varanz 2 3. Momente ener Vertelung

Mehr

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz Prof. Dr. P. Kschka WS 2012/13 Lehrstuhl für Wrtschafts- und Sozalstatstk Klausur Statstsche Inferenz 15.02.2013 Name: Matrkelnummer: Studengang: Aufgabe 1 2 3 4 5 6 7 8 Summe Punkte 6 5 5 5 5 4 4 6 40

Mehr

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt:

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt: (Theoretsche Konfdenzntervalle für de beobachteten Werte: De Standardabwechung des Messfehlers wrd Standardmessfehler genannt: ( ε ( 1- REL( Mt Hlfe der Tschebyscheff schen Unglechung lassen sch be bekanntem

Mehr

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden. Ene kurze Enführung n EXCEL Daten snd n Tabellenform gegeben durch de Engabe von FORMELN können mt desen Daten automatserte Berechnungen durchgeführt werden. Menüleste Symbolleste Bearbetungszele aktve

Mehr

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung am Bespel enes Modells der chadenverscherung Für das Modell ener chadenverscherung se gegeben: s w s. n 4 chaden enes Verscherungsnehmers, wenn der chadenfall entrtt Wahrschenlchket dafür, dass der chadenfall

Mehr

Grundgedanke der Regressionsanalyse

Grundgedanke der Regressionsanalyse Grundgedanke der Regressonsanalse Bsher wurden durch Koeffzenten de Stärke von Zusammenhängen beschreben Mt der Regressonsrechnung können für ntervallskalerte Varablen darüber hnaus Modelle geschätzt werden

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Collaboratve Flterng Lteratur Benjamn Marln: Collaboratve Flterng A Machne Learnng Perspectve. Thomas Hofmann: Collaboratve Flterng wth P Prvacy va Factor Analyss. Robert

Mehr

Textklassifikation und Informationsextraktion

Textklassifikation und Informationsextraktion Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen etklassfkaton und Informatonsetrakton obas Scheffer Paul Prasse Mchael Großhans Ue Dck etklassfkaton, Informatonsetrakton etklassfkaton,

Mehr

14 Schätzmethoden. Eigenschaften von Schätzungen ˆθ. Sei ˆθ n eine Schätzung eines Parameters θ, die auf n Beobachtungen beruht.

14 Schätzmethoden. Eigenschaften von Schätzungen ˆθ. Sei ˆθ n eine Schätzung eines Parameters θ, die auf n Beobachtungen beruht. 14 Schätzmethoden Egenschaften von Schätzungen ˆθ Se ˆθ n ene Schätzung enes Parameters θ, de auf n Beobachtungen beruht. ˆθn n θ Konsstenz (Mnmalforderung) Eˆθ n = θ Erwartungstreue Eˆθ n n θ Asymptotsche

Mehr

Textklassifikation und Informationsextraktion

Textklassifikation und Informationsextraktion Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen etklassfkaton und Informatonsetrakton obas Scheffer Peter Hader Paul Prasse Scheffer/Hader/Prasse: Scheffer/Saade: Sprachtechnologe

Mehr

Rückblick Regression II: Anpassung an Polynome

Rückblick Regression II: Anpassung an Polynome Rückblck Regresson II: Anpassung an Polynome T. Keßlng: Auswertung von Messungen und Fehlerrechnung - Fehlerrechnung und Korrelaton 0.06.08 Vorlesung 0- Temperaturmessung mt Thermospannung Wr erhalten

Mehr

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition Informatk II Raner Schrader und Implkanten Zentrum für Angewandte Informatk Köln 27. Oktober 2005 1 / 28 2 / 28 Was bsher geschah: jede Boolesche Funkton kann durch enfache Grundfunktonen dargestellt werden

Mehr

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007 Lehrstuhl für Emprsche Wrtschaftsforschung und Ökonometre Dr Roland Füss Statstk II: Schleßende Statstk SS 007 5 Mehrdmensonale Zufallsvarablen Be velen Problemstellungen st ene solerte Betrachtung enzelnen

Mehr

Stützvektormethode (SVM) Erinnerung: Funktionslernen. Beispiel: Funktionenlernen. Reale Beispiele

Stützvektormethode (SVM) Erinnerung: Funktionslernen. Beispiel: Funktionenlernen. Reale Beispiele technsche unverstät Fakultät für Inforatk technsche unverstät Fakultät für Inforatk Stützvektorethode (SVM) Maxeren der Brete ener separerenden Hyperebene axu argn ethod Transforaton des Datenraus durch

Mehr

Übung zur Vorlesung - Theorien Psychometrischer Tests II

Übung zur Vorlesung - Theorien Psychometrischer Tests II Übung zur Vorlesung - Theoren Psychometrscher Tests II N. Rose 8. Übung (08.01.2008) Agenda Agenda Verglech Rasch-Modell vs. 2-parametrsches logstsches Modell nach Brnbaum 2PL-Modelle n Mplus Verglech

Mehr

-70- Anhang: -Lineare Regression-

-70- Anhang: -Lineare Regression- -70- Anhang: -Lneare Regressn- Für ene Messgröße y f(x) gelte flgender mathematsche Zusammenhang: y a+ b x () In der Regel läßt sch durch enen Satz vn Messwerten (x, y ) aber kene Gerade zechnen, da de

Mehr

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung: Streuungswerte: 1) Range (R) ab metrschem Messnveau ) Quartlabstand (QA) und mttlere Quartlabstand (MQA) ab metrschem Messnveau 3) Durchschnttlche Abwechung (AD) ab metrschem Messnveau 4) Varanz (s ) ab

Mehr

Stochastische Prozesse

Stochastische Prozesse INSTITUT FÜR STOCHASTIK SS 009 UNIVERSITÄT KARLSRUHE Blatt 4 Prv.-Doz. Dr. D. Kadelka Dpl.-Math. W. Lao Übungen zur Vorlesung Stochastsche Prozesse Musterlösungen Aufgabe 16: (Success Run, Fortsetzung)

Mehr

Resultate / "states of nature" / mögliche Zustände / möglicheentwicklungen

Resultate / states of nature / mögliche Zustände / möglicheentwicklungen Pay-off-Matrzen und Entschedung unter Rsko Es stehen verschedene Alternatven (Strategen) zur Wahl. Jede Stratege führt zu bestmmten Resultaten (outcomes). Man schätzt dese Resultate für jede Stratege und

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Menhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzet nach Verenbarung und nach der Vorlesung. Mathematsche und statstsche Methoden II Dr. Malte Perske perske@un-manz.de

Mehr

Lineare Regression. Stefan Keppeler. 16. Januar Mathematik I für Biologen, Geowissenschaftler und Geoökologen

Lineare Regression. Stefan Keppeler. 16. Januar Mathematik I für Biologen, Geowissenschaftler und Geoökologen Mathematk I für Bologen, Geowssenschaftler und Geoökologen 16. Januar 2012 Problemstellung Bespel Maß für Abwechung Trck Mnmum? Exponentalfunktonen Potenzfunktonen Bespel Problemstellung: Gegeben seen

Mehr

Sequential minimal optimization: A fast Algorithm for Training Support Vector machines

Sequential minimal optimization: A fast Algorithm for Training Support Vector machines Sequental mnmal optmzaton: A fast Algorthm for Tranng Support Vector machnes By John C. Platt (998) Referat von Joerg Ntschke Fall der ncht-trennbaren Tranngs-Daten (/) In der Realtät kommen lnear ncht-trennbare

Mehr

z.b. Münzwurf: Kopf = 1 Zahl = 2 oder z.b. 2 Würfel: Merkmal = Summe der Augenzahlen, also hier: Bilde die Summe der Augenzahlen der beiden Würfel!

z.b. Münzwurf: Kopf = 1 Zahl = 2 oder z.b. 2 Würfel: Merkmal = Summe der Augenzahlen, also hier: Bilde die Summe der Augenzahlen der beiden Würfel! Aufgabe : Vorbemerkung: Ene Zufallsvarable st ene endeutge Funkton bzw. ene Abbldungsvorschrft, de angbt, auf welche Art aus enem Elementareregns ene reelle Zahl gewonnen wrd. x 4 (, ) z.b. Münzwurf: Kopf

Mehr

2 Zufallsvariable und Verteilungen

2 Zufallsvariable und Verteilungen Zufallsvarable und Vertelungen 7 Zufallsvarable und Vertelungen Wr wollen uns jetzt mt Zufallsexpermenten beschäftgen, deren Ausgänge durch (reelle) Zahlen beschreben werden können, oder be denen man jedem

Mehr

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression Beschrebung des Zusammenhangs zweer metrscher Merkmale Streudagramme Korrelatonskoeffzenten Regresson Alter und Gewcht be Kndern bs 36 Monaten Knd Monate Gewcht 9 9 5 8 3 4 7.5 4 3 6 5 3 6 4 3.5 7 35 5

Mehr

6. Modelle mit binären abhängigen Variablen

6. Modelle mit binären abhängigen Variablen 6. Modelle mt bnären abhänggen Varablen 6.1 Lneare Wahrschenlchketsmodelle Qualtatve Varablen: Bnäre Varablen: Dese Varablen haben genau zwe möglche Kategoren und nehmen deshalb genau zwe Werte an, nämlch

Mehr

Prof. Dr. Roland Füss Statistik II SS 2008

Prof. Dr. Roland Füss Statistik II SS 2008 5. Spezelle Testverfahren Zahlreche parametrsche und nchtparametrsche Testverfahren, de nach Testvertelung (Bnomal, t-test etc.), Analysezel (Anpassungs- und Unabhänggketstest) oder Konstrukton der Prüfgröße

Mehr

Kurs Mikroökonometrie Rudolf Winter-Ebmer Thema 3: Binary Choice Models Probit & Logit. Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit

Kurs Mikroökonometrie Rudolf Winter-Ebmer Thema 3: Binary Choice Models Probit & Logit. Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit BINARY CHOICE MODELS 1 mt Pr( Y = 1) = P Y = 0 mt Pr( Y = 0) = 1 P Bespele: Wahlentschedung Kauf langlebger Konsumgüter Arbetslosgket Schätzung mt OLS? Y = X β + ε Probleme: Nonsense Predctons ( < 0, >

Mehr

Standardnormalverteilung / z-transformation

Standardnormalverteilung / z-transformation Standardnormalvertelung / -Transformaton Unter den unendlch velen Normalvertelungen gbt es ene Normalvertelung, de sch dadurch ausgeechnet st, dass se enen Erwartungswert von µ 0 und ene Streuung von σ

Mehr

Numerische Methoden II

Numerische Methoden II umersche Methoden II Tm Hoffmann 23. Januar 27 umersche Bespele umersche Methoden zur Approxmaton von Dervatpresen: - Trnomsche Gttermethode - Implzte Fnte Dfferenzen - Explzte Fnte Dfferenzen - Crank-colson

Mehr

Übung zur Vorlesung - Theorien Psychometrischer Tests II

Übung zur Vorlesung - Theorien Psychometrischer Tests II Übung zur Vorlesung - Theoren Psychometrscher Tests II N. Rose 9. Übung (15.01.2009) Agenda Agenda 3-parametrsches logstsches Modell nach Brnbaum Lnkfunktonen 3PL-Modell nach Brnbaum Modellglechung ( =

Mehr

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y 5. Probt-Modelle Ökonometre II - Peter Stalder "Bnar Choce"-Modelle - Der Probt-Ansatz Ene ncht drekt beobachtbare stochastsche Varable hängt von x ab: x u 2 u ~ N(0, ( Beobachtet wrd ene bnäre Varable

Mehr

Beschreibende Statistik Mittelwert

Beschreibende Statistik Mittelwert Beschrebende Statstk Mttelwert Unter dem arthmetschen Mttel (Mttelwert) x von n Zahlen verstehen wr: x = n = x = n (x +x +...+x n ) Desen Mttelwert untersuchen wr etwas genauer.. Zege für n = 3: (x x )

Mehr

MASCHINELLES LERNEN TOBIAS SCHEFFER, NIELS LANDWEHR, MATTHIAS BUSSAS. Mathematische Grundlagen

MASCHINELLES LERNEN TOBIAS SCHEFFER, NIELS LANDWEHR, MATTHIAS BUSSAS. Mathematische Grundlagen MASCHINELLES LERNEN TOBIAS SCHEFFER, NIELS LANDWEHR, MATTHIAS BUSSAS Matheatsche Grundlagen Überblck Lneare Algebra: Vektoren, Matrzen, Analyss & Opterung: Dstanzen, konvexe Funktonen, Lagrange-Ansatz,

Mehr

1.11 Beispielaufgaben

1.11 Beispielaufgaben . Bespelaufgaben Darstellung komplexer Zahlen Aufgabe. Man stelle de komplexe Zahl z = +e 5f n algebrascher Form, also als x + y dar. Damt man de Formel für de Dvson anwenden kann, muss zunächst der Nenner

Mehr

Diskrete Mathematik 1 WS 2008/09

Diskrete Mathematik 1 WS 2008/09 Ruhr-Unverstät Bochum Lehrstuhl für Kryptologe und IT-Scherhet Prof. Dr. Alexander May M. Rtzenhofen, M. Mansour Al Sawad, A. Meurer Lösungsblatt zur Vorlesung Dskrete Mathematk 1 WS 2008/09 Blatt 7 /

Mehr

Streuungs-, Schiefe und Wölbungsmaße

Streuungs-, Schiefe und Wölbungsmaße aptel IV Streuungs-, Schefe und Wölbungsmaße B... Lagemaße von äufgketsvertelungen geben allen weng Auskunft über ene äufgketsvertelung. Se beschreben zwar en Zentrum deser Vertelung, geben aber kenen

Mehr

Lineare Klassifikatoren

Lineare Klassifikatoren Universität Potsdam Institut für Informatik Lehrstuhl Lineare Klassifikatoren Christoph Sawade, Blaine Nelson, Tobias Scheffer Inhalt Klassifikationsproblem Bayes sche Klassenentscheidung Lineare Klassifikator,

Mehr

12 UMPU Tests ( UMP unbiased )

12 UMPU Tests ( UMP unbiased ) 89 1 UMPU Tests ( UMP unbased ) Nach Bemerkung 11.8(b) exstert m Allgemenen ken zwesetger UMP- Test zu enem Nveau α. Deshalb Enschränkung auf unverfälschte Tests: ϕ Φ α heßt unverfälscht (unbased) zum

Mehr

Technische Universität München Zentrum Mathematik Diskrete Optimierung: Fallstudien aus der Praxis. Das Cutting Stock-Problem

Technische Universität München Zentrum Mathematik Diskrete Optimierung: Fallstudien aus der Praxis. Das Cutting Stock-Problem 1 Problem Technsche Unverstät München Zentrum Mathematk Dskrete Optmerung: Fallstuden aus der Praxs Barbara Wlhelm Mchael Rtter Das Cuttng Stock-Problem Ene Paperfabrk produzert Paperrollen der Brete B.

Mehr

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY)

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY) Bedngte Entrope Kaptel : Bedngte Entrope Das vorherge Theorem kann durch mehrfache Anwendung drekt verallgemenert werden H (... H ( = Ebenso kann de bedngt Entrope defnert werden Defnton: De bedngte Entrope

Mehr

18. Dynamisches Programmieren

18. Dynamisches Programmieren 8. Dynamsches Programmeren Dynamsche Programmerung we gerge Algorthmen ene Algorthmenmethode, um Optmerungsprobleme zu lösen. We Dvde&Conquer berechnet Dynamsche Programmerung Lösung enes Problems aus

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Emprsche Wrtschaftsforschung Prof. Dr. Bernd Süßmuth Unverstät Lepzg Insttut für Emprsche Wrtschaftsforschung Volkswrtschaftslehre, nsbesondere Ökonometre 5. Enfaches OLS-Regressonsmodell 5.1. Herletung

Mehr

Kapitel V. Parameter der Verteilungen

Kapitel V. Parameter der Verteilungen Kaptel V Parameter der Vertelungen D. 5.. (Erwartungswert) Als Erwartungswert ener Zufallsvarablen X bezechnet man: E( X ) : Dabe se vorausgesetzt: = = + p falls X dskret f d falls X stetg und = + p

Mehr

Lineare Regression (1) - Einführung I -

Lineare Regression (1) - Einführung I - Lneare Regresson (1) - Enführung I - Mttels Regressonsanalysen und kompleeren, auf Regressonsanalysen aserenden Verfahren können schenar verschedene, jedoch nenander üerführare Fragen untersucht werden:

Mehr

Konkave und Konvexe Funktionen

Konkave und Konvexe Funktionen Konkave und Konvexe Funktonen Auch wenn es n der Wrtschaftstheore mest ncht möglch st, de Form enes funktonalen Zusammenhangs explzt anzugeben, so kann man doch n velen Stuatonen de Klasse der n Frage

Mehr

Inhalt dieses Kapitels. Das Klassifikationsproblem, Bewertung von Klassifikatoren. Grundbegriffe, Parameterwahl, Anwendungen

Inhalt dieses Kapitels. Das Klassifikationsproblem, Bewertung von Klassifikatoren. Grundbegriffe, Parameterwahl, Anwendungen 3. Klassfkaton 3.1 Enletung Inhalt deses Kaptels Das Klassfkatonsproblem, Bewertung von Klassfkatoren 3.2 Bayes-Klassfkatoren Optmaler Bayes-Klassfkator, Naver Bayes-Klassfkator, Anwendungen 3.3 Nächste-Nachbarn-Klassfkatoren

Mehr

Ökonomische und ökonometrische Evaluation. 1.3 Ökonometrische Grundkonzepte

Ökonomische und ökonometrische Evaluation. 1.3 Ökonometrische Grundkonzepte Ökonomsche und ökonometrsche Evaluaton 90 Emprsche Analyse des Arbetsangebots Zele: Bestmmung von Arbetsangebotselastztäten als Test der theoretschen Modelle Smulaton oder Evaluaton der Wrkungen von Insttutonen

Mehr

Teil E: Qualitative abhängige Variable in Regressionsmodellen

Teil E: Qualitative abhängige Variable in Regressionsmodellen Tel E: Qualtatve abhängge Varable n Regressonsmodellen 1. Qualtatve abhängge Varable Grundlegendes Problem: In velen Fällen st de abhängge Varable nur über enen bestmmten Werteberech beobachtbar. Bsp.

Mehr

4.6 Das Pumping-Lemma für reguläre Sprachen:

4.6 Das Pumping-Lemma für reguläre Sprachen: Theoretsche Informatk 1 Vorlesungsskrpt vom Fretag, 30 Jun 000 Index: Erstellt von: (Matrkelnummer: 70899) Sete : 46 Das Pumpng-Lemma für reguläre Sprachen 1 Satz W 1 Zugrundelegende Idee des Pumpng-Lemma

Mehr

1 Finanzmathematik. 1.1 Das Modell. Sei Xt

1 Finanzmathematik. 1.1 Das Modell. Sei Xt 1.1 Das Modell Se Xt der Pres enes Assets zur Zet t und X = X ) 1 d der Rd +-dmensonale Presprozess. Das Geld kann auch zu dem rskolosen Znssatz r be ener Bank angelegt werden. Der Wert deser Anlage wrd

Mehr

An dem Ergebnis eines Zufallsexperiments interessiert oft nur eine spezielle Größe, meistens ein Messwert.

An dem Ergebnis eines Zufallsexperiments interessiert oft nur eine spezielle Größe, meistens ein Messwert. SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Ds. ZG 1 Zufallsgrößen An dem Ergebns enes Zufallsexperments nteressert oft nur ene spezelle Größe, mestens en Messwert. Bespel 1. Zufällge Auswahl enes Studenten,

Mehr

Gauss sche Fehlerrrechnung

Gauss sche Fehlerrrechnung Gauss sche Fehlerrrechnung T. Ihn 24. Oktober 206 Inhaltsverzechns Modell und Lkelhood 2 Alle Standardabwechungen σ snd bekannt, bzw. de Kovaranzmatrx der Daten st bekannt: Mnmeren der χ 2 -Funkton. 6

Mehr

Vorlesung: Multivariate Statistik für Psychologen

Vorlesung: Multivariate Statistik für Psychologen Vorlesung: Multvarate Statstk für Psychologen 3. Vorlesung: 14.04.2003 Agenda 1. Organsatorsches 2. Enfache Regresson. Grundlagen.. Grunddee und Zele der enfachen Regresson Bespele Statstsches Modell Modell

Mehr

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum Abgabe: Aufgabentext und Lösungen schrftlch bs zum 15. 6. 2012 I. Thema: Zehen mt und ohne Zurücklegen Lesen Se sch zunächst folgenden Text durch! Wr haben bsher Stchprobenzehungen aus Grundgesamtheten

Mehr

Der Erweiterungsfaktor k

Der Erweiterungsfaktor k Der Erweterungsfaktor k Wahl des rchtgen Faktors S. Meke, PTB-Berln, 8.40 Inhalt: 1. Was macht der k-faktor? 2. Welche Parameter legen den Wert des k-faktors fest? 3. Wo trtt der k-faktor auf? 4. Zusammenhang

Mehr

6. Übung zur Linearen Algebra II

6. Übung zur Linearen Algebra II Unverstät Würzburg Mathematsches Insttut Prof. Dr. Peter Müller Dr. Peter Fleschmann SS 2006 30.05.2006 6. Übung zur Lnearen Algebra II Abgabe: Bs Mttwoch, 14.06.2006, 11:00 Uhr n de Brefkästen vor der

Mehr

Neuronale Netze. M. Gruber (1) ausgeloste Reiz ist x (1) = (1) (s (1) ) mit (1) (s) = 1 sgn(s 1 ) sgn(s 2 ) T. .

Neuronale Netze. M. Gruber (1) ausgeloste Reiz ist x (1) = (1) (s (1) ) mit (1) (s) = 1 sgn(s 1 ) sgn(s 2 ) T. . Neuronale Netze M. Gruber 7.11.015 Begnnen wr mt enem Bespel. Bespel 1 Wr konstrueren enen Klasskator auf der Menge X = [ 1; 1], dessen Wrkung man n Abb.1 rechts sehen kann. Auf der blauen Telmenge soll

Mehr

1.1 Beispiele zur linearen Regression

1.1 Beispiele zur linearen Regression 1.1. BEISPIELE ZUR LINEAREN REGRESSION 0 REGRESSION 1: Multple neare Regresson 1 Enführung n de statstsche Regressonsrechnung 1.1 Bespele zur lnearen Regresson b Bespel Sprengungen. Erschütterung Funkton

Mehr

Lösungen der Aufgaben zu Kapitel 2

Lösungen der Aufgaben zu Kapitel 2 Lösungen der Aufgaben zu Kaptel Abschntt 1 Aufgabe 1 Wr benutzen de Potenzrechenregeln, um ene Potenz von mt geradem Eponenten n oder mt ungeradem Eponenten n + 1 we folgt darzustellen: n n und n+1 n n

Mehr

Erwartungswert, Varianz, Standardabweichung

Erwartungswert, Varianz, Standardabweichung RS 24.2.2005 Erwartungswert_Varanz_.mcd 4) Erwartungswert Erwartungswert, Varanz, Standardabwechung Be jedem Glücksspel nteresseren den Speler vor allem de Gewnnchancen. 1. Bespel: Setzen auf 1. Dutzend

Mehr

Statistik Exponentialfunktion

Statistik Exponentialfunktion ! " Statstk " Eponentalfunkton # $ % & ' $ ( )&* +, - +. / $ 00, 1 +, + ) Ensemble von radoaktven Atomkernen Zerfallskonstante λ [1/s] Lebensdauer τ 1/λ [s] Anzahl der pro Zetenhet zerfallenden Kerne:

Mehr

Diskrete Logarithmen. Teil II

Diskrete Logarithmen. Teil II Dskrete Logarthmen Ron-Gerrt Vahle Hendrk Radke Unverstät Potsdam Insttut für Informatk Semnar Kryptographe SS2005 Tel II Glederung Pohlg-Hellman Index-Calculus Theoretsche Grenzen Endlche Körper Eplog

Mehr

Statistik der Extremwertverteilungen

Statistik der Extremwertverteilungen KAPITEL 6 Statstk der Extremwertvertelungen In desem Kaptel beschäftgen wr uns mt statstschen Anwendungen der Extremwertvertelungen. Wr werden zwe verschedene Zugänge zur Modellerung von Extremwerten betrachten.

Mehr

Kapitel 4: Lernen als Optimierung. Maschinelles Lernen und Neural Computation

Kapitel 4: Lernen als Optimierung. Maschinelles Lernen und Neural Computation Kaptel 4: Lernen als Optmerung 71 Lernen als Funktonsoptmerung Gegeben: Fehlerfunkton (.a. neg. log Lkelhood) n z.b.: 2 E E ( ) ( ( ) W = f x ; W t ) n = 1 ( ) ( ( ) ( = + ) ( ( W t log f x t f x ) n ;

Mehr

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren Mehrfachregresson: Enfluss mehrerer Merkmale auf en metrsches Merkmal Desgnmatrx Bestmmthetsmaß F-Test T-Test für enzelne Regressoren Mehrfachregresson Bvarat: x b b y + = 0 ˆ k k x b x b x b b y + + +

Mehr

Anwendungsmöglichkeiten von Lernverfahren

Anwendungsmöglichkeiten von Lernverfahren Künstlche Neuronale Netze Lernen n neuronalen Netzen 2 / 30 Anwendungsmöglcheten von Lernverfahren Prnzpelle Möglcheten Verbndungsorentert 1 Hnzufügen neuer Verbndungen 2 Löschen bestehender Verbndungen

Mehr

Entfaltungs-Methoden in der Datenanalyse. Matthias Bartelt Universität Dortmund

Entfaltungs-Methoden in der Datenanalyse. Matthias Bartelt Universität Dortmund Entfaltungs-Methoden n der Datenanalyse Matthas Bartelt Unverstät Dortmund bartelt@physk.un-dortmund.de Matthas Bartelt Astrotelchenphysk-Schule Erlangen 2005 1 Überscht Motvaton Mathematsches Problem

Mehr

Stochastische Prozesse

Stochastische Prozesse INSTITUT FÜR STOCHASTIK SS 2009 UNIVERSITÄT KARLSRUHE Blatt 2 Prv.-Doz. Dr. D. Kadelka Dpl.-Math. W. Lao Übungen zur Vorlesung Stochastsche Prozesse Musterlösungen Aufgabe 7: (B. Fredmans Urnenmodell)

Mehr

Inhalt: Mustererkennungsexperiment. Die Support-Vektor-Maschine (SVM)

Inhalt: Mustererkennungsexperiment. Die Support-Vektor-Maschine (SVM) Inhalt: Kaptel 0 De SupportVektorMaschne (SVM) En statstscher Ansatz der Lerntheore zum Entwurf enes optmalen Klassfkators. Problemstellung. VCDmenson und Gesamtfehlermnmerung 3. Lneare SVM Separerbare

Mehr

Dynamisches Programmieren

Dynamisches Programmieren Marco Thomas - IOI 99 -. Treffen n Bonn - Dynamsches Programmeren - Unverstät Potsdam - 8.02.999 Dynamsches Programmeren 957 R. Bellmann: Dynamc Programmng für math. Optmerungsprobleme Methode für Probleme,.

Mehr

Die Leistung von Quicksort

Die Leistung von Quicksort De Lestung von Qucsort Jae Hee Lee Zusammenfassung Der Sorteralgorthmus Qucsort st als ens der effzenten Sorterverfahren beannt. In deser Ausarbetung werden wr sene Komplextät zuerst möglchst präzse schätzen

Mehr

4. Musterlösung. Problem 1: Kreuzende Schnitte **

4. Musterlösung. Problem 1: Kreuzende Schnitte ** Unverstät Karlsruhe Algorthmentechnk Fakultät für Informatk WS 05/06 ITI Wagner 4. Musterlösung Problem 1: Kreuzende Schntte ** Zwe Schntte (S, V \ S) und (T, V \ T ) n enem Graph G = (V, E) kreuzen sch,

Mehr

Lösungen zum 3. Aufgabenblock

Lösungen zum 3. Aufgabenblock Lösungen zum 3. Aufgabenblock 3. Aufgabenblock ewerber haben n enem Test zur sozalen Kompetenz folgende ntervallskalerte Werte erhalten: 96 131 11 1 85 113 91 73 7 a) Zegen Se für desen Datensatz, dass

Mehr