Textklassifikation und Informationsextraktion

Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen etklassfkaton und Informatonsetrakton obas Scheffer Paul Prasse Mchael Großhans Ue Dck

etklassfkaton, Informatonsetrakton

etklassfkaton, Informatonsetrakton etklassfkaton: et Kategore Wrd.d.R. aus annoterten Daten gelernt. Anendungsbespel: Postengangsverarbetung. Informatonsetrakton: Identfkaton defnerter Felder n Dokument. Wrd.d.R. auch aus Daten gelernt. Anendungsbespel: Automatserung von Dokumentenverarbetungsprozessen. etklassfkaton: Dokument st ene Rechnung Informatonsetrakton: Feld enthält den Pres 3

etklassfkaton Repräsentaton Nach okenserung rd et durch Vektor repräsentert. Vektorraummodell: Vektor der Worthäufgketen für probablstsche Modelle. FIDFRepräsentaton für lneare Verfahren. Wortrehenfolge blebt unberückschtgt. Vektorraummodell mt NGrammen: Wrd für Spamerkennung verendet. Jedes NGramm durch Dmenson repräsentert, oder Sparse Bnar Polnomal Hashng oder Orthogonal Sparse NGrams. 4

etklassfkaton Repräsentaton Jedes NGramm durch Dmenson repräsentert, Nur NGramme, de auch tatsächlch auftreten. Sparse Bnar Polnomal Hashng Schebe Fenster der Brete N über den et. Jede elmenge von bs zu N oken Rehenfolge rd beachtet und das am etesten rechts stehende oken, blden ene Dmenson. Berechne 3bt Hashes für dese elmenge. Orthogonal Sparse Bgrams. Fenster der Brete N rd über et geschoben, Jedes Paar aus enem belebgen oken m Fenster und dem am lnken Fensterrand stehenden oken st en Merkmal. SBPH und OSB: NGramme mt Platzhaltern. 5

etklassfkaton Klassfkator vs. Entschedungsfunkton Für ene bnäre Klassfkaton = oder von enem Objekt rd mest ene Entschedungsfunkton f gelernt. Je größer f, desto ahrschenlcher st, dass zur Klasse gehört. Wenn f, dann entschede h =, sonst h =. Klassfkator h, Entschedungsfunkton f. Der Wert für verschebt false postves zu false negatves. Optmaler Wert hängt von Kosten ener postven oder negatven Fehlklassfkaton ab. 6

etklassfkaton Evaluaton Fehlklassfkatonsahrschenlchket Häufg ncht aussagekräftg, el P sehr klen. We gut snd 5% Fehler, enn P=3%? Idee: Ncht Klassfkator beerten, sondern Entschedungsfunkton. Wchtge Begrffe für de Evaluaton: Bespel: est auf HIV rue Postves P: h =, und Klasse von = rue Negatves N: h =, und Klasse von = False Postves FP: h =, und Klasse von = False Negatves FN: h =, und Klasse von = 7

etklassfkaton Evaluaton Precson / Recall Precson : #P #P#FP #P Recall: #P#FN PrecsonRecallKurve beertet Entschedungsfunkton, Jeder Wert für entsprcht Punkt auf PRKurve. FMeasure: Durchschntt aus Precson und Recall. FMeasure = precson recall precsonrecall Recever Operatng Characterstc ROCKurve Beertet Entschedungsfunkton, Fläche unter ROCKurve = Ppostves Bespel hat höheren fwert als negatves Bespel 8

etklassfkaton ROCAnalse Grundlage: Entschedungsfunkton Schellert = Klassfkator. h = Klassfkator, enn f θ, sonst. Entschedungsfunkton Großer Schellert: Mehr postve Bsp falsch. Klener Schellert: Mehr negatve Bsp falsch. Beertung der Entschedungsfunkton unabhängg vom konkreten Schellert. ROC = ReceverOperatngCharacterstcAnalse. Werkzeug zur Beertung der Qualtät von Entschedungsfunktonen. 9

rue Postves etklassfkaton ROCKurve Charakterseren das Verhalten des Klassfkators für alle möglchen Schellerte. XAchse: False Postves : Anzahl negatver Bespele, de als postv klassfzert erden. YAchse: rue Postves : Anzahl postver Bespele, de als postv klassfzert erden. perfekte Funkton bessere Funkton zufällges Raten False Postves 0

etklassfkaton Bestmmen der ROCKurve Algorthmus Für alle postven Bespele X p n estmenge Füge f p n abstegend sorterte Lste L p en. Für alle negatven Bespele X n n estmenge Füge f n n abstegend sorterte Lste L n en. Setze P = FP = 0. Wederhole solange L p und L n ncht leer snd: Wenn L p Element L n Element dann ncrementp und L p = L p Net. Wenn L n Element L p Element dann ncrementfp und L n = L n Net. Zechne neuen Punkt FP, P

rue Postves etklassfkaton Flächennhalt der ROCKurve Flächennhalt AUC kann durch Integreren Summeren der Flächennhalte bestmmt erden. p = zufällg gezogenes Postvbespel n = zufällg gezogenes Negatvbespel heorem: AUC = Pfp > fn. perfekte Funkton bessere Funkton zufällges Raten False Postves

etklassfkaton Precson und Recall Alternatve zur ROCAnalse. Stammt aus dem Informaton Retreval. rue postves Precson= rue postves False postves rue postves Recall= rue postve False negatves Precson: Prchtg als postv erkannt Recall: Pals postv erkannt st postv 3

etklassfkaton Precson und Recall Zusammenfassungen der Kurve n ener Zahl: Mamum FMeasure: Mamum über alle p,rpaare auf der Kurve: Precson Recall Fmeasure= Precson Recall PrecsonRecallBreakevenPont: Derjenge Wert für den glt: Precson = Recall = PRBEP. 4

etklassfkaton Precson und Recall: radeoff recall precson Precson/RecallKurven Welcher Klassfkator st der beste / schlechteste 5

etklassfkaton Bestmmen der PerformanceMaße Performance auf ranngsmenge etrem optmstscher Schätzer. Zum Schätzen der Performance Daten verenden, de ncht zum raneren verendet urden. Möglchketen: ranngundest: Verende z.b. 80% der Daten zum raneren und 0% der Daten zum Messen der ROCKurve, PRKurve, oder Fehlklassfkatonsahrschenlchket. NFoldCrossValdaton: ele Daten n N ele, ederholtes raneren mt N elen und esten auf dem restlchen el. 6

etklassfkaton Fehlerschätzung ranngandest Algorthmus: Auftelen der Datenbank m Datenpunkte n ranngsmenge p % der Daten m und estmenge 00 p % der Daten m. h = Klassfkator tranert auf der ranngsmenge. Bestmme Ê anhand der estmenge. h = Klassfkator tranert auf allen Daten. Lefere Hpothese h zusammen mt Fehlerschätzer Ê Ê Ê p% m ranngandest st für große Datenbanken gut anendbar. Problematsch für klene Datenbanken. 7

etklassfkaton NFold CrossValdaton NFold CrossValdaton Algorthmus: Blde N eta glech große Blöcke S,, S n der Datenmenge S mt S = m. Ê = 0. Für = N h = Klassfkator tranert auf Menge S\S Ê = Ê emprscher Fehler von h auf S Ê = Ê/N h = Klassfkator tranert auf Menge S. Lefere Hpothese h mt Fehlerschätzer Ê Ê Ê m Wenn S = N, hesst das Verfahren LeaveoneOut Cross Valdaton. Nur lecht pessmstscher Schätzer. 8

Lneare Klassfkatoren f 0 sgn f f 0 9

Lneare Klassfkatoren Umformulerung mt zusätzlchem, konstanten Engabeattrbut 0 =: f.. n.. n 0 f 0 sgn f 0 n 0 0 n 0.. n 0.. n =............ n n 0

Lneare Klassfkatoren Roccho : Mttelpunkt der neg. Bespele : Mttelpunkt der pos. Bespele rennebene: Normalenvektor = f 0 Zegt vom Mttelpunkt der negatven zum Mttelpunkt der postven Bespele. Bestmmung von 0 : Mttelpunkt / muss auf der Ebene legen. f / / 0 0 0

Lneare Klassfkatoren Roccho rennebenen hat mamalen Abstand von den Mttelpunkten der Klassen. ranngsbespele können falsch klassfzert erden. Dfferenz der Mttelerte kann schlechter Normalenvektor für Dskrmnaton sen.

Lneare Klassfkatoren Perzeptron Lneares Modell: Zel: f Für alle Bespele postven Bespele, : f 0 Für alle Bespele negatven Bespele, : f 0 0 n Gechtsvektor kodert. = Bespele legen auf der rchtgen Sete der Ebene. 3

Lneare Klassfkatoren Perzeptron Lneares Modell: Zel: Für alle Bespele mt Label : PerzeptronOptmerungskrterum für Daten L: Mamere f f J P 0, L mn,0 4

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 5 Lneare Klassfkatoren Perzeptron Lneares Modell: Zel: Für alle Bespele mt Label : PerzeptronOptmerungskrterum für Daten L: Subgradent für Bespel, : 0 f f L P J,,0 mn sonst 0 enn 0, P J

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 6 Lneare Klassfkatoren Perzeptron Lneares Modell: PerzeptronOptmerungskrterum: Subgradent für Bespel, : Gradentenaufsteg: Wederhole, für alle Bespele mt f L P J,,0 mn sonst 0 enn 0, P J Werden aktuell falsch klassfzert. Verschebe rennebene 0

Lneare Klassfkatoren PerzeptronAlgorthmus Lneares Modell: f Perzeptronranngsalgorthmus: Solange noch Bespele, mt der Hpothese nkonsstent snd L. 0, terere über alle Bespele: Wenn 0 dann. 7

Lneare Klassfkatoren Perzeptron Egenschaften Perzeptron fndet mmer ene rennebene, enn ene estert Optmerungskrterum st konkav. Estert mmer ene rennebene? 8

Lneare Klassfkatoren MargnPerzeptron PerzeptronKlassfkaton: Perzeptron: für alle Bespele muss gelten = Bespel legt auf der rchtgen Sete der Ebene. MargnPerzeptron: f 0 = Bespel mndestens von rennebene entfernt. 9

Lneare Klassfkatoren MargnPerzeptronAlgorthmus Lneares Modell: f MargnPerzeptronranngsalgorthmus: Solange noch Bespele, mt der Hpothese nkonsstent snd., terere über alle L Bespele: Wenn dann 30

Lneare Klassfkatoren MargnMamerung Perzeptron: für alle Bespele muss gelten 0 MargnPerzeptron: Fnde Ebene, de alle Bespele mndestens von Ebene entfernt. Fester, vorengestellter Wert. MargnMamerung: Fnde Ebene, de alle Bespele mndestens von Ebene entfernt. Für den größtmöglchen Wert. 3

Lneare Klassfkatoren MargnMamerung MargnMamerung: Fnde Ebene, de alle Bespele mndestens von Ebene entfernt. Für den größtmöglchen Wert. Mamere unter der Nebenbedngung: für alle Bespele, : = Mnmere unter der Nebenbedngung: für alle Bespele, : 3

Lneare Klassfkatoren MargnMamerung HardMargnMamerung: Mnmere unter der Nebenbedngungen: für alle Bespele, : SoftMargnMamerung: C Mnmere unter den Nebenbedngungen: für alle Bespele, : Alle 0. SoftMargnEbene estert mmer, HardMargnEbene ncht! Slack Margn / 33

Lneare Klassfkatoren SoftMargnMamerung SoftMargnMamerung: Mnmere C unter den Nebenbedngungen: für alle Bespele, : Alle 0. Ensetzen von n Optmerungskrterum ergbt Mnmere: Regularserer C ma{0, } Verlustfunkton Slack Margn / 34

Lneare Klassfkatoren Prmale Support Vector Machne SVM SoftMargnMamerung: Mnmere: ma{0, Mnmerung mt Gradentenverfahren. C } Krterum st konve, es gbt genau en Mnmum. Verfahren: Prmale Support Vector Machne. Margn / Slack 35

Lneare Klassfkatoren Prmale Support Vector Machne SVM SoftMargnMamerung: Mnmere: Mnmerung mt Gradentenverfahren. Wederhole: E H E C ma{0, } H Enthält Summe über alle Bespele 36

MultklassenKlassfkaton Bsher: Bnäre Klassfkaton Lneare Klassfkaton: Jetzt: MultklassenKlassfkaton Endlche Menge von KlassenLabels, Ansatz: Statt {, } arg ma sgn jetzt f, Bestmme Klasse mt höchstem Entschedungsfunktonsert sgn Y 37

Lernen mt strukturerten Ausgaben Klassfkaton be mehr als ze Klassen: f bekommt jetzt ze Parameter. Gemensame Merkmale von En und Ausgabe: * arg ma f, f,, Glecher Ansatz für Multklassen, Sequenz und StrukturLernen und Rankng. 38

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 39 Lernen mt strukturerten Ausgaben Constrants be normaler SVM: Für alle, : Constrants mt strukturerten Ausgaben: Für alle, : und alle :,,,,

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 40 Lernen mt strukturerten Ausgaben MultklassenSVM Klassfkaton be mehr als ze Klassen: MultklassenMerkmale:, arg ma * f,, f ]] [[... ]] [[, ]] [[... ]] [[ k k

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 4 Lernen mt strukturerten Ausgaben MultklassenSVM Jede Klasse hat prvaten Abschntt des Gechtsvektors: ]] [[... ]] [[... ]] [[... ]] [[......... ]] [[... ]] [[, k n k n n n k k k

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 4 Lernen mt strukturerten Ausgaben MultklassenSVM Jede Klasse hat prvaten Abschntt des Gechtsvektors: Bespel: 0 0 0 0 ]] [[ ]] [[ ]] [[, 3 3 3

Lernen mt strukturerten Ausgaben Klassfkaton mt aonomen Angenommen de Ähnlchketen der k Klassen snd durch ene Baumstruktur efe d gegeben: Homnn v 3 v 3 Jede Klasse entsprcht enem Pfad m Baum; =,, d. v v v Homnnae v 3 3 Gorlln Pan Homo Gorlla 43

Lernen mt strukturerten Ausgaben Klassfkaton mt aonomen Angenommen de Ähnlchketen der k Klassen snd durch ene Baumstruktur efe d gegeben: Homnn v 3 v v Jede Klasse entsprcht enem Pfad m Baum; =,, d. Chmpanzee = Homnnae, Homnn, Pan v 3 v Homnnae v 3 3 Gorlln Pan Homo Gorlla 44

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 45 Lernen mt strukturerten Ausgaben Klassfkaton mt aonomen Klassen n Baumstruktur:, arg ma * f,, f,..., d... d ]] [[... ]] [[... ]] [[... ]] [[..., d n d d d n d v 3 3 v 3 v 3 v v v

Lernen mt strukturerten Ausgaben Klassfkaton mt aonomen kodert z.b. en Dokument = v, v, v 3 3 st en Pfad z.b. n enem hemenbaum Φ, = Λ = v Λ = v Λ = v Λ 3 = v 3 Λ 3 = v 3 Λ 3 = v 3 3 = 0 0 0 v 3 v 3 v v v v 3 3 46

Lernen mt strukturerten Ausgaben Klassfkaton mt aonomen Jeder Knoten hat enen prvaten Abschntt des Gechtsvektors. Pfade telen sch Abschntte, enn se gemensame Knoten benhalten.,......... d d d [[ ]] [[ ]]......... [[ k ]] [[ ]]...... d d d d [[ ]] d [[ ]] k d k d......... d d [[ k ]] d d d d n[[ k ]] k d d n... n n d k j j 47

Lernen mt strukturerten Ausgaben Sequentelle En/Ausgaben Z.B. Wortarterkennung: Egennamenerkennung, Informatonsetrakton: Gemensame Repräsentaton von En und Ausgabe. = Curost klls the cat. = <Noun, Verb, Determner, Noun> = Barbe meets Ken. = <Person,, Person> * arg ma f, f,, 48

Lernen mt strukturerten Ausgaben Sequentelle En/Ausgaben Labellabel: Attrbut für jedes Paar benachbarter Labels t und t. 4 φ 3 t, t = [[ t = Noun t = Verb ]] 3 4 3 Curost klls the cat t φ t, t. LabelBeobachtung: t φ t, t. Gemensamer Merkmalsvektor,= t,φ 3 t, t,,φ 34 t, t,... Gechtsvektor =, 3,, 34, Attrbut für jedes Paar aus Engabe und Ausgabe. φ 34 t, t = [[ t = Noun t = cat ]] 49

Lernen mt strukturerten Ausgaben Sequentelle En/Ausgaben: Dekoderung Um ene Sequenz zu klassfzeren, muss * arg ma f, berechnet erden. Das argma geht über alle möglchen Sequenzen eponentell vele n der Länge. f,, summert über Merkmale benachbarter LabelPaare und Merkmale von Paaren. Mt dnamscher Programmerung kann argma n lnearer Zet berechnet erden Vterb. 50

Lernen mt strukturerten Ausgaben Sequentelle En/Ausgaben: Dekoderung Gemensamer Merkmalsvektor,= t,φ 3 t, t,,φ 34 t, t,... 3 4 3 4 Fnde argma, effzent mt ranstonsmatr A={a, } und Beobachtungsmatr B ={b t, },, {,N,V,D}: a,n V HM SVM benutzt best Vterb Dekoderung. V φ 3 t, t = [[ t = Noun φ 34 t, t = [[ t = Noun t = Verb ]] t = John ]] N N N N b,n D b,n D D D b 4,N b Curost klls the 3,N cat V V 5

Lernen mt strukturerten Ausgaben Bespel: POSaggng Wortarterkennung Satz = Curost klls the cat Geünscht: argma, = <N,V,Det,N> Eplzt:,<N,V,Det,N>,<N,N,N,N>,<N,V,Det,N>,<N,N,N,V>,<N,V,Det,N>,<N,N,V,N>,<N,V,Det,N>,<N,V,N,N> ZU VIELE!!! 5

Lernen mt strukturerten Ausgaben ranngsalgorthmus LargeMargnAnsatz: = /. mn ½ C ξ so dass " ",, ξ " ξ 0. Iteratves ranng. Negatve Constrants erden hnzugefügt, enn bem ranng Fehler auftrtt. 53

Lernen mt strukturerten Ausgaben ranngsalgorthmus Gegeben: L Wederhole bs alle Sequenzen korrekt vorhergesagt erden. Iterere über alle Bespele,. Bestmme arg ma Wenn,, MargnVerletzung dann füge Constrant,, dem Workng Set hnzu. Löse Optmerungsproblem für Engabe, Ausgabe, und negatve PseudoBespele orkng set. Lefere zurück.,,...,, m m, 54

Lernen mt strukturerten Ausgaben Ereterung: Verlustfunkton Problem: Alle Fehler glech. Oft ncht snnvoll bem Strutkurlernen. Lösung: Verlustfunkton. mn ½ C ξ so dass " ",, Δ, " ξ 0. Verlustfunkton Verlustfunkton: Bestraft falsche Vorhersage n Bezug auf das Zellabel. ξ 55

Lneare Klassfkatoren Logstsche Regresson SVM: großer Entschedungsfunktonsert ~ hohe Scherhet der Vorhersage. Aber: bem Lernen ncht auf korrekte Kalbrerung der Klassenahrschenlchketen optmert. f=8.3 Rsko enes Fehlers? Problem: Kene korrekt kalbrerten Entschedungsfunktonserte. Lösung: Logstsche Regresson. Logstsche Regresson: Vorhersage der Klassenahrschenlchket. 56

Lneare Klassfkatoren Logstsche Regresson Baes Regel: Logodd rato: P a ln p p p p p P p P p P P P P P a ep a 57

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 58 Lneare Klassfkatoren Logstsche Regresson Lkelhood jeder Klasse normalvertelt, gemensame Kovaranzmatr für bede Klassen. Loggodds rato: ep / / d p 0 ln ln ep ep ln / / / / d d P P P P P P a Normalvertelung

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 59 Lneare Klassfkatoren Logstsche Regresson Lkelhood jeder Klasse normalvertelt, gemensame Kovaranzmatr für bede Klassen. Loggodds rato: ep / / d p 0 ln P P a

Lneare Klassfkatoren Logstsche Regresson Wenn ze Klassen jeels normalvertelte Lkelhood mt derselben Kovaranzmatr haben, dann nmmt P dese Form an: P 0 ep 0 lnearer Klassfkator P 0 logstsche Funkton 60

Lneare Klassfkatoren Logstsche Regresson Bsher: Motvaton der Form des logstschen Klassfkatonsmodells. Falls Klassenvertelungen bekannt ären, könnten r und 0 aus, und herleten. Snd aber ncht bekannt. Vertelungsannahme muss auch ncht stmmen. Jetzt: We fnden r tatsächlch Parameter und 0? 6

Lneare Klassfkatoren Logstsche Regresson Pror über Parameter: Normalvertelung, ~ N[0, ]. Posteror: Verlustfunkton: N P L p, p N [[ ]] [[ ]] p E, L log p L N [[ ]]log [[ ]]log ' 6

Lneare Klassfkatoren Logstsche Regresson Verlustfunkton st konve und dfferenzerbar. Gradentenabsteg führt zum Mnmum. Verlustfunktonen Logstc Regresson und SVM SquaredLoss HngeLoss LogstcLoss 63

Fragen? 64