Textklassifikation und Informationsextraktion

Ähnliche Dokumente
Textklassifikation und Informationsextraktion

HUMBOLDT-UNIVERSITÄT ZU BERLIN. Institut für Informatik Lehrstuhl Wissensmanagement. Textklassifikation. Tobias Scheffer Ulf Brefeld

Kapitel 8: Kernel-Methoden. Maschinelles Lernen und Neural Computation

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Modelle, Version Spaces, Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY)

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung

Textklassifikation, Informationsextraktion

Klassifikation mit dem Perceptron von Rosenblatt. Vom Perceptron zum Multilagen-Perceptron. Error-Backpropagation Lernregel

Modelle, Version Spaces, Lernen

Modelle, Version Spaces, Lernen

Näherungsverfahren. Wiederhole den Algorithmusbegriff. Erläutere die Begriffe: Klasse der NP-Probleme. Probleme. Probleme. Approximative Algorithmen

Bayessches Lernen (3)

Kapitel 7: Ensemble Methoden. Maschinelles Lernen und Neural Computation

Streuungs-, Schiefe und Wölbungsmaße

Stützvektormethode (SVM) Erinnerung: Funktionslernen. Beispiel: Funktionenlernen. Reale Beispiele

Information Retrieval: Grundlagen & Modellierung

18. Dynamisches Programmieren

Grundgedanke der Regressionsanalyse

Kapitel 4: Unsicherheit in der Modellierung Modellierung von Unsicherheit. Machine Learning in der Medizin 104

6. Übung zur Linearen Algebra II

Dynamisches Programmieren

Sortieren. Thomas Röfer. Permutationen Naives Sortieren Sortieren durch Einfügen, Auswählen, Vertauschen, Mischen QuickSort Comparator

Kapitel 2: Klassifikation. Maschinelles Lernen und Neural Computation

Definition des linearen Korrelationskoeffizienten

Maschinelles Lernen (Zusammenfassung)

Sortieren. Thomas Röfer. Permutationen Naives Sortieren Sortieren durch Einfügen, Auswählen, Vertauschen, Mischen QuickSort Comparator

14 Schätzmethoden. Eigenschaften von Schätzungen ˆθ. Sei ˆθ n eine Schätzung eines Parameters θ, die auf n Beobachtungen beruht.

Spiele und Codes. Rafael Mechtel

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel

Facility Location Games

Sequential minimal optimization: A fast Algorithm for Training Support Vector machines

Lineare Optimierung Dualität

Resultate / "states of nature" / mögliche Zustände / möglicheentwicklungen

Lineare Regression (1) - Einführung I -

Die Leistung von Quicksort

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n

Rotation (2. Versuch)

Lineare Regression. Stefan Keppeler. 16. Januar Mathematik I für Biologen, Geowissenschaftler und Geoökologen

Konkave und Konvexe Funktionen

Beispiel: Textklassifikation

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt:

Mathematische und statistische Methoden II

Stützvektormethode (SVM)

binäre Suchbäume Informatik I 6. Kapitel binäre Suchbäume binäre Suchbäume Rainer Schrader 4. Juni 2008 O(n) im worst-case Wir haben bisher behandelt:

e dt (Gaußsches Fehlerintegral)

5. Gruppenübung zur Vorlesung. Höhere Mathematik 1. Wintersemester 2012/2013

Standardnormalverteilung / z-transformation

Analysis I. Vorlesung 17. Logarithmen. R R, x exp x,

Stochastische Prozesse

5 Gemischte Verallgemeinerte Lineare Modelle

Sei T( x ) die Tangente an den Graphen der Funktion f(x) im Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ).

Übung zur Vorlesung - Theorien Psychometrischer Tests II

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

Modelle, Version Spaces, Lernen

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2

Technische Universität München Zentrum Mathematik Diskrete Optimierung: Fallstudien aus der Praxis. Das Cutting Stock-Problem

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

1 Finanzmathematik. 1.1 Das Modell. Sei Xt

-70- Anhang: -Lineare Regression-

Multivariate Analysemethoden

Übungsblatt 7 Lösungsvorschläge

Datenaufbereitung und -darstellung III

Diskrete Logarithmen. Teil II

INTELLIGENTE DATENANALYSE IN MATLAB

Lösungen zum 3. Aufgabenblock

4. Musterlösung. Problem 1: Kreuzende Schnitte **

Vorlesung 3 Differentialgeometrie in der Physik 13

Nullstellen Suchen und Optimierung

Übersicht der Vorlesung

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

Aufgabe 8 (Gewinnmaximierung bei vollständiger Konkurrenz):

Auswertung von Umfragen und Experimenten. Umgang mit Statistiken in Maturaarbeiten Realisierung der Auswertung mit Excel 07

Gauss sche Fehlerrrechnung

Lineare Optimierung Einführung

Stochastische Prozesse

Mi , Dr. Ackermann Übungsaufgaben Gewöhnliche Differentialgleichungen Serie 13

Fachbereich Mathematik Prof. K. Grosse-Brauckmann D. Frisch WS 2007/08 10./ Gruppenübung

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

Teil XIV. Lösung linearer Gleichungssysteme. Scientific Computing in Computer Science, Technische Universität München

Beschreibende Statistik Mittelwert

Diskrete Mathematik 1 WS 2008/09

3. Lineare Algebra (Teil 2)

Grundlagen der Technischen Informatik. 12. Übung. Christian Knell Keine Garantie für Korrekt-/Vollständigkeit

2.1 Einfache lineare Regression 31

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz

50 Matrixnormen und Eigenwertabschätzungen

Sind die nachfolgenden Aussagen richtig oder falsch? (1 Punkt pro korrekter Beantwortung)

Transkript:

Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen etklassfkaton und Informatonsetrakton obas Scheffer Paul Prasse Mchael Großhans Ue Dck

etklassfkaton, Informatonsetrakton

etklassfkaton, Informatonsetrakton etklassfkaton: et Kategore Wrd.d.R. aus annoterten Daten gelernt. Anendungsbespel: Postengangsverarbetung. Informatonsetrakton: Identfkaton defnerter Felder n Dokument. Wrd.d.R. auch aus Daten gelernt. Anendungsbespel: Automatserung von Dokumentenverarbetungsprozessen. etklassfkaton: Dokument st ene Rechnung Informatonsetrakton: Feld enthält den Pres 3

etklassfkaton Repräsentaton Nach okenserung rd et durch Vektor repräsentert. Vektorraummodell: Vektor der Worthäufgketen für probablstsche Modelle. FIDFRepräsentaton für lneare Verfahren. Wortrehenfolge blebt unberückschtgt. Vektorraummodell mt NGrammen: Wrd für Spamerkennung verendet. Jedes NGramm durch Dmenson repräsentert, oder Sparse Bnar Polnomal Hashng oder Orthogonal Sparse NGrams. 4

etklassfkaton Repräsentaton Jedes NGramm durch Dmenson repräsentert, Nur NGramme, de auch tatsächlch auftreten. Sparse Bnar Polnomal Hashng Schebe Fenster der Brete N über den et. Jede elmenge von bs zu N oken Rehenfolge rd beachtet und das am etesten rechts stehende oken, blden ene Dmenson. Berechne 3bt Hashes für dese elmenge. Orthogonal Sparse Bgrams. Fenster der Brete N rd über et geschoben, Jedes Paar aus enem belebgen oken m Fenster und dem am lnken Fensterrand stehenden oken st en Merkmal. SBPH und OSB: NGramme mt Platzhaltern. 5

etklassfkaton Klassfkator vs. Entschedungsfunkton Für ene bnäre Klassfkaton = oder von enem Objekt rd mest ene Entschedungsfunkton f gelernt. Je größer f, desto ahrschenlcher st, dass zur Klasse gehört. Wenn f, dann entschede h =, sonst h =. Klassfkator h, Entschedungsfunkton f. Der Wert für verschebt false postves zu false negatves. Optmaler Wert hängt von Kosten ener postven oder negatven Fehlklassfkaton ab. 6

etklassfkaton Evaluaton Fehlklassfkatonsahrschenlchket Häufg ncht aussagekräftg, el P sehr klen. We gut snd 5% Fehler, enn P=3%? Idee: Ncht Klassfkator beerten, sondern Entschedungsfunkton. Wchtge Begrffe für de Evaluaton: Bespel: est auf HIV rue Postves P: h =, und Klasse von = rue Negatves N: h =, und Klasse von = False Postves FP: h =, und Klasse von = False Negatves FN: h =, und Klasse von = 7

etklassfkaton Evaluaton Precson / Recall Precson : #P #P#FP #P Recall: #P#FN PrecsonRecallKurve beertet Entschedungsfunkton, Jeder Wert für entsprcht Punkt auf PRKurve. FMeasure: Durchschntt aus Precson und Recall. FMeasure = precson recall precsonrecall Recever Operatng Characterstc ROCKurve Beertet Entschedungsfunkton, Fläche unter ROCKurve = Ppostves Bespel hat höheren fwert als negatves Bespel 8

etklassfkaton ROCAnalse Grundlage: Entschedungsfunkton Schellert = Klassfkator. h = Klassfkator, enn f θ, sonst. Entschedungsfunkton Großer Schellert: Mehr postve Bsp falsch. Klener Schellert: Mehr negatve Bsp falsch. Beertung der Entschedungsfunkton unabhängg vom konkreten Schellert. ROC = ReceverOperatngCharacterstcAnalse. Werkzeug zur Beertung der Qualtät von Entschedungsfunktonen. 9

rue Postves etklassfkaton ROCKurve Charakterseren das Verhalten des Klassfkators für alle möglchen Schellerte. XAchse: False Postves : Anzahl negatver Bespele, de als postv klassfzert erden. YAchse: rue Postves : Anzahl postver Bespele, de als postv klassfzert erden. perfekte Funkton bessere Funkton zufällges Raten False Postves 0

etklassfkaton Bestmmen der ROCKurve Algorthmus Für alle postven Bespele X p n estmenge Füge f p n abstegend sorterte Lste L p en. Für alle negatven Bespele X n n estmenge Füge f n n abstegend sorterte Lste L n en. Setze P = FP = 0. Wederhole solange L p und L n ncht leer snd: Wenn L p Element L n Element dann ncrementp und L p = L p Net. Wenn L n Element L p Element dann ncrementfp und L n = L n Net. Zechne neuen Punkt FP, P

rue Postves etklassfkaton Flächennhalt der ROCKurve Flächennhalt AUC kann durch Integreren Summeren der Flächennhalte bestmmt erden. p = zufällg gezogenes Postvbespel n = zufällg gezogenes Negatvbespel heorem: AUC = Pfp > fn. perfekte Funkton bessere Funkton zufällges Raten False Postves

etklassfkaton Precson und Recall Alternatve zur ROCAnalse. Stammt aus dem Informaton Retreval. rue postves Precson= rue postves False postves rue postves Recall= rue postve False negatves Precson: Prchtg als postv erkannt Recall: Pals postv erkannt st postv 3

etklassfkaton Precson und Recall Zusammenfassungen der Kurve n ener Zahl: Mamum FMeasure: Mamum über alle p,rpaare auf der Kurve: Precson Recall Fmeasure= Precson Recall PrecsonRecallBreakevenPont: Derjenge Wert für den glt: Precson = Recall = PRBEP. 4

etklassfkaton Precson und Recall: radeoff recall precson Precson/RecallKurven Welcher Klassfkator st der beste / schlechteste 5

etklassfkaton Bestmmen der PerformanceMaße Performance auf ranngsmenge etrem optmstscher Schätzer. Zum Schätzen der Performance Daten verenden, de ncht zum raneren verendet urden. Möglchketen: ranngundest: Verende z.b. 80% der Daten zum raneren und 0% der Daten zum Messen der ROCKurve, PRKurve, oder Fehlklassfkatonsahrschenlchket. NFoldCrossValdaton: ele Daten n N ele, ederholtes raneren mt N elen und esten auf dem restlchen el. 6

etklassfkaton Fehlerschätzung ranngandest Algorthmus: Auftelen der Datenbank m Datenpunkte n ranngsmenge p % der Daten m und estmenge 00 p % der Daten m. h = Klassfkator tranert auf der ranngsmenge. Bestmme Ê anhand der estmenge. h = Klassfkator tranert auf allen Daten. Lefere Hpothese h zusammen mt Fehlerschätzer Ê Ê Ê p% m ranngandest st für große Datenbanken gut anendbar. Problematsch für klene Datenbanken. 7

etklassfkaton NFold CrossValdaton NFold CrossValdaton Algorthmus: Blde N eta glech große Blöcke S,, S n der Datenmenge S mt S = m. Ê = 0. Für = N h = Klassfkator tranert auf Menge S\S Ê = Ê emprscher Fehler von h auf S Ê = Ê/N h = Klassfkator tranert auf Menge S. Lefere Hpothese h mt Fehlerschätzer Ê Ê Ê m Wenn S = N, hesst das Verfahren LeaveoneOut Cross Valdaton. Nur lecht pessmstscher Schätzer. 8

Lneare Klassfkatoren f 0 sgn f f 0 9

Lneare Klassfkatoren Umformulerung mt zusätzlchem, konstanten Engabeattrbut 0 =: f.. n.. n 0 f 0 sgn f 0 n 0 0 n 0.. n 0.. n =............ n n 0

Lneare Klassfkatoren Roccho : Mttelpunkt der neg. Bespele : Mttelpunkt der pos. Bespele rennebene: Normalenvektor = f 0 Zegt vom Mttelpunkt der negatven zum Mttelpunkt der postven Bespele. Bestmmung von 0 : Mttelpunkt / muss auf der Ebene legen. f / / 0 0 0

Lneare Klassfkatoren Roccho rennebenen hat mamalen Abstand von den Mttelpunkten der Klassen. ranngsbespele können falsch klassfzert erden. Dfferenz der Mttelerte kann schlechter Normalenvektor für Dskrmnaton sen.

Lneare Klassfkatoren Perzeptron Lneares Modell: Zel: f Für alle Bespele postven Bespele, : f 0 Für alle Bespele negatven Bespele, : f 0 0 n Gechtsvektor kodert. = Bespele legen auf der rchtgen Sete der Ebene. 3

Lneare Klassfkatoren Perzeptron Lneares Modell: Zel: Für alle Bespele mt Label : PerzeptronOptmerungskrterum für Daten L: Mamere f f J P 0, L mn,0 4

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 5 Lneare Klassfkatoren Perzeptron Lneares Modell: Zel: Für alle Bespele mt Label : PerzeptronOptmerungskrterum für Daten L: Subgradent für Bespel, : 0 f f L P J,,0 mn sonst 0 enn 0, P J

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 6 Lneare Klassfkatoren Perzeptron Lneares Modell: PerzeptronOptmerungskrterum: Subgradent für Bespel, : Gradentenaufsteg: Wederhole, für alle Bespele mt f L P J,,0 mn sonst 0 enn 0, P J Werden aktuell falsch klassfzert. Verschebe rennebene 0

Lneare Klassfkatoren PerzeptronAlgorthmus Lneares Modell: f Perzeptronranngsalgorthmus: Solange noch Bespele, mt der Hpothese nkonsstent snd L. 0, terere über alle Bespele: Wenn 0 dann. 7

Lneare Klassfkatoren Perzeptron Egenschaften Perzeptron fndet mmer ene rennebene, enn ene estert Optmerungskrterum st konkav. Estert mmer ene rennebene? 8

Lneare Klassfkatoren MargnPerzeptron PerzeptronKlassfkaton: Perzeptron: für alle Bespele muss gelten = Bespel legt auf der rchtgen Sete der Ebene. MargnPerzeptron: f 0 = Bespel mndestens von rennebene entfernt. 9

Lneare Klassfkatoren MargnPerzeptronAlgorthmus Lneares Modell: f MargnPerzeptronranngsalgorthmus: Solange noch Bespele, mt der Hpothese nkonsstent snd., terere über alle L Bespele: Wenn dann 30

Lneare Klassfkatoren MargnMamerung Perzeptron: für alle Bespele muss gelten 0 MargnPerzeptron: Fnde Ebene, de alle Bespele mndestens von Ebene entfernt. Fester, vorengestellter Wert. MargnMamerung: Fnde Ebene, de alle Bespele mndestens von Ebene entfernt. Für den größtmöglchen Wert. 3

Lneare Klassfkatoren MargnMamerung MargnMamerung: Fnde Ebene, de alle Bespele mndestens von Ebene entfernt. Für den größtmöglchen Wert. Mamere unter der Nebenbedngung: für alle Bespele, : = Mnmere unter der Nebenbedngung: für alle Bespele, : 3

Lneare Klassfkatoren MargnMamerung HardMargnMamerung: Mnmere unter der Nebenbedngungen: für alle Bespele, : SoftMargnMamerung: C Mnmere unter den Nebenbedngungen: für alle Bespele, : Alle 0. SoftMargnEbene estert mmer, HardMargnEbene ncht! Slack Margn / 33

Lneare Klassfkatoren SoftMargnMamerung SoftMargnMamerung: Mnmere C unter den Nebenbedngungen: für alle Bespele, : Alle 0. Ensetzen von n Optmerungskrterum ergbt Mnmere: Regularserer C ma{0, } Verlustfunkton Slack Margn / 34

Lneare Klassfkatoren Prmale Support Vector Machne SVM SoftMargnMamerung: Mnmere: ma{0, Mnmerung mt Gradentenverfahren. C } Krterum st konve, es gbt genau en Mnmum. Verfahren: Prmale Support Vector Machne. Margn / Slack 35

Lneare Klassfkatoren Prmale Support Vector Machne SVM SoftMargnMamerung: Mnmere: Mnmerung mt Gradentenverfahren. Wederhole: E H E C ma{0, } H Enthält Summe über alle Bespele 36

MultklassenKlassfkaton Bsher: Bnäre Klassfkaton Lneare Klassfkaton: Jetzt: MultklassenKlassfkaton Endlche Menge von KlassenLabels, Ansatz: Statt {, } arg ma sgn jetzt f, Bestmme Klasse mt höchstem Entschedungsfunktonsert sgn Y 37

Lernen mt strukturerten Ausgaben Klassfkaton be mehr als ze Klassen: f bekommt jetzt ze Parameter. Gemensame Merkmale von En und Ausgabe: * arg ma f, f,, Glecher Ansatz für Multklassen, Sequenz und StrukturLernen und Rankng. 38

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 39 Lernen mt strukturerten Ausgaben Constrants be normaler SVM: Für alle, : Constrants mt strukturerten Ausgaben: Für alle, : und alle :,,,,

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 40 Lernen mt strukturerten Ausgaben MultklassenSVM Klassfkaton be mehr als ze Klassen: MultklassenMerkmale:, arg ma * f,, f ]] [[... ]] [[, ]] [[... ]] [[ k k

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 4 Lernen mt strukturerten Ausgaben MultklassenSVM Jede Klasse hat prvaten Abschntt des Gechtsvektors: ]] [[... ]] [[... ]] [[... ]] [[......... ]] [[... ]] [[, k n k n n n k k k

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 4 Lernen mt strukturerten Ausgaben MultklassenSVM Jede Klasse hat prvaten Abschntt des Gechtsvektors: Bespel: 0 0 0 0 ]] [[ ]] [[ ]] [[, 3 3 3

Lernen mt strukturerten Ausgaben Klassfkaton mt aonomen Angenommen de Ähnlchketen der k Klassen snd durch ene Baumstruktur efe d gegeben: Homnn v 3 v 3 Jede Klasse entsprcht enem Pfad m Baum; =,, d. v v v Homnnae v 3 3 Gorlln Pan Homo Gorlla 43

Lernen mt strukturerten Ausgaben Klassfkaton mt aonomen Angenommen de Ähnlchketen der k Klassen snd durch ene Baumstruktur efe d gegeben: Homnn v 3 v v Jede Klasse entsprcht enem Pfad m Baum; =,, d. Chmpanzee = Homnnae, Homnn, Pan v 3 v Homnnae v 3 3 Gorlln Pan Homo Gorlla 44

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 45 Lernen mt strukturerten Ausgaben Klassfkaton mt aonomen Klassen n Baumstruktur:, arg ma * f,, f,..., d... d ]] [[... ]] [[... ]] [[... ]] [[..., d n d d d n d v 3 3 v 3 v 3 v v v

Lernen mt strukturerten Ausgaben Klassfkaton mt aonomen kodert z.b. en Dokument = v, v, v 3 3 st en Pfad z.b. n enem hemenbaum Φ, = Λ = v Λ = v Λ = v Λ 3 = v 3 Λ 3 = v 3 Λ 3 = v 3 3 = 0 0 0 v 3 v 3 v v v v 3 3 46

Lernen mt strukturerten Ausgaben Klassfkaton mt aonomen Jeder Knoten hat enen prvaten Abschntt des Gechtsvektors. Pfade telen sch Abschntte, enn se gemensame Knoten benhalten.,......... d d d [[ ]] [[ ]]......... [[ k ]] [[ ]]...... d d d d [[ ]] d [[ ]] k d k d......... d d [[ k ]] d d d d n[[ k ]] k d d n... n n d k j j 47

Lernen mt strukturerten Ausgaben Sequentelle En/Ausgaben Z.B. Wortarterkennung: Egennamenerkennung, Informatonsetrakton: Gemensame Repräsentaton von En und Ausgabe. = Curost klls the cat. = <Noun, Verb, Determner, Noun> = Barbe meets Ken. = <Person,, Person> * arg ma f, f,, 48

Lernen mt strukturerten Ausgaben Sequentelle En/Ausgaben Labellabel: Attrbut für jedes Paar benachbarter Labels t und t. 4 φ 3 t, t = [[ t = Noun t = Verb ]] 3 4 3 Curost klls the cat t φ t, t. LabelBeobachtung: t φ t, t. Gemensamer Merkmalsvektor,= t,φ 3 t, t,,φ 34 t, t,... Gechtsvektor =, 3,, 34, Attrbut für jedes Paar aus Engabe und Ausgabe. φ 34 t, t = [[ t = Noun t = cat ]] 49

Lernen mt strukturerten Ausgaben Sequentelle En/Ausgaben: Dekoderung Um ene Sequenz zu klassfzeren, muss * arg ma f, berechnet erden. Das argma geht über alle möglchen Sequenzen eponentell vele n der Länge. f,, summert über Merkmale benachbarter LabelPaare und Merkmale von Paaren. Mt dnamscher Programmerung kann argma n lnearer Zet berechnet erden Vterb. 50

Lernen mt strukturerten Ausgaben Sequentelle En/Ausgaben: Dekoderung Gemensamer Merkmalsvektor,= t,φ 3 t, t,,φ 34 t, t,... 3 4 3 4 Fnde argma, effzent mt ranstonsmatr A={a, } und Beobachtungsmatr B ={b t, },, {,N,V,D}: a,n V HM SVM benutzt best Vterb Dekoderung. V φ 3 t, t = [[ t = Noun φ 34 t, t = [[ t = Noun t = Verb ]] t = John ]] N N N N b,n D b,n D D D b 4,N b Curost klls the 3,N cat V V 5

Lernen mt strukturerten Ausgaben Bespel: POSaggng Wortarterkennung Satz = Curost klls the cat Geünscht: argma, = <N,V,Det,N> Eplzt:,<N,V,Det,N>,<N,N,N,N>,<N,V,Det,N>,<N,N,N,V>,<N,V,Det,N>,<N,N,V,N>,<N,V,Det,N>,<N,V,N,N> ZU VIELE!!! 5

Lernen mt strukturerten Ausgaben ranngsalgorthmus LargeMargnAnsatz: = /. mn ½ C ξ so dass " ",, ξ " ξ 0. Iteratves ranng. Negatve Constrants erden hnzugefügt, enn bem ranng Fehler auftrtt. 53

Lernen mt strukturerten Ausgaben ranngsalgorthmus Gegeben: L Wederhole bs alle Sequenzen korrekt vorhergesagt erden. Iterere über alle Bespele,. Bestmme arg ma Wenn,, MargnVerletzung dann füge Constrant,, dem Workng Set hnzu. Löse Optmerungsproblem für Engabe, Ausgabe, und negatve PseudoBespele orkng set. Lefere zurück.,,...,, m m, 54

Lernen mt strukturerten Ausgaben Ereterung: Verlustfunkton Problem: Alle Fehler glech. Oft ncht snnvoll bem Strutkurlernen. Lösung: Verlustfunkton. mn ½ C ξ so dass " ",, Δ, " ξ 0. Verlustfunkton Verlustfunkton: Bestraft falsche Vorhersage n Bezug auf das Zellabel. ξ 55

Lneare Klassfkatoren Logstsche Regresson SVM: großer Entschedungsfunktonsert ~ hohe Scherhet der Vorhersage. Aber: bem Lernen ncht auf korrekte Kalbrerung der Klassenahrschenlchketen optmert. f=8.3 Rsko enes Fehlers? Problem: Kene korrekt kalbrerten Entschedungsfunktonserte. Lösung: Logstsche Regresson. Logstsche Regresson: Vorhersage der Klassenahrschenlchket. 56

Lneare Klassfkatoren Logstsche Regresson Baes Regel: Logodd rato: P a ln p p p p p P p P p P P P P P a ep a 57

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 58 Lneare Klassfkatoren Logstsche Regresson Lkelhood jeder Klasse normalvertelt, gemensame Kovaranzmatr für bede Klassen. Loggodds rato: ep / / d p 0 ln ln ep ep ln / / / / d d P P P P P P a Normalvertelung

Scheffer/Prasse/Großhans: Sprachtechnologe Scheffer/Prasse/Großhans/Dck: Sprachtechnologe 59 Lneare Klassfkatoren Logstsche Regresson Lkelhood jeder Klasse normalvertelt, gemensame Kovaranzmatr für bede Klassen. Loggodds rato: ep / / d p 0 ln P P a

Lneare Klassfkatoren Logstsche Regresson Wenn ze Klassen jeels normalvertelte Lkelhood mt derselben Kovaranzmatr haben, dann nmmt P dese Form an: P 0 ep 0 lnearer Klassfkator P 0 logstsche Funkton 60

Lneare Klassfkatoren Logstsche Regresson Bsher: Motvaton der Form des logstschen Klassfkatonsmodells. Falls Klassenvertelungen bekannt ären, könnten r und 0 aus, und herleten. Snd aber ncht bekannt. Vertelungsannahme muss auch ncht stmmen. Jetzt: We fnden r tatsächlch Parameter und 0? 6

Lneare Klassfkatoren Logstsche Regresson Pror über Parameter: Normalvertelung, ~ N[0, ]. Posteror: Verlustfunkton: N P L p, p N [[ ]] [[ ]] p E, L log p L N [[ ]]log [[ ]]log ' 6

Lneare Klassfkatoren Logstsche Regresson Verlustfunkton st konve und dfferenzerbar. Gradentenabsteg führt zum Mnmum. Verlustfunktonen Logstc Regresson und SVM SquaredLoss HngeLoss LogstcLoss 63

Fragen? 64