KI-Kolloquium am Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk

Größe: px

Ab Seite anzeigen:

Download "KI-Kolloquium am 23.10.2006. Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk"

Kristin Siegel
vor 8 Jahren
Abrufe

1 Friedrich-Alexander-Universität Erlangen-Nürnberg Lehrstuhl für Informatik 8 (KI) Prof. Dr. H. Stoyan KI-Kolloquium am Part-of-Speech-Tagging für Deutsch Referent: Stefan Bienk

2 Übersicht Aufgabenstellung des POS-Tagging Stochastischer Tagging-Ansatz mit HMM Verwendung eines Post-Processors Ergebnisse und Ausblick 2

3 POS-Tagging Part-of-Speech-Tagging 3

4 Aufgabenstellung: Klassifizierung von Wortsequenzen Klassen: Endliche Folgen über einem Tagset von syntakischen Kategorien (Nomen, Verbinfinitiv, Verbform, etc.) Klassifizierte Objekte: Endliche Wortfolgen Finde für gegebenes Probleme Wortschöpfung 4

5 Probleme: Erfassung der Wortmenge Duden ist sehr groß ;-) Unbegrenzte Kompositabildung Neue Wortschöpfungen Lösung: Bildung von Wortklassen! z.b. nach Präfix der Länge 3: (vergessen,verschlafen...) 5

6 Probleme: Erfassung der Klassifizierung Beispiele (Tags aus dem STTS): Die /ART Tiere /NN, /$, die /PRELS wir /PPER beobachten /VVFIN, /$, sind /VAFIN gefährlich /ADJD. /$. Wir /PPER müssen /VMFIN heute /ADV gefährliche /ADJA Tiere /NN beobachten /VVINF. /$. Beobachtungen: Lexikalische Information ist i.a. nicht ausreichend für eindeutige Klassifizierung Vollständige Disambiguierung nur durch zusätzliche Betrachtung grammatikalischer Gesetzmäßigkeiten möglich Welche Tagfolgen sind zulässig? Dennoch ist die lexikalische Information sehr wertvoll und wird von allen Taggern in Form sogenannter Lexika verwendet! Aber... Essen ist toll! Eigenname oder normales Nomen: Hängt von der Intention des Sprecher/Autor ab... 6

7 Anwendungen Abgrenzung zum syntaktischen Parsen: als abstrahierende Vorstufe des syntaktischen Parsen Parser berücksichtigt Wortklassen statt konkreter Wörter als weniger rechenintensive Alternative zum syntaktischen Parsen in zeitkritischen Anwendungen wie Dialogsystemen als einfacher zu implementierende, ausreichende Alternative z.b. in Systemen zur Informationsextrahierung 7

8 HMM-Tagger POS-Tagging mit Hidden Markov Models 8

9 HMM......eine spezielle (!) Form von Wahrscheinlichkeitsverteilung Im Fall des Tagging-Problem: Verteilung über Paare der bereits wohlbekannten Form:, Tagging-Problem wird auf folgende Fragestellung zurückgeführt Geg: Finde das P( / ) maximiert Warum speziell? P(t(i)=v / t(i-1)=v(1) und... t(0)=w(i-1)) = P(t(i)=w / t(i-1)=v(1)) In Worten: Der Einfluss von i-1 Tags auf den i-ten Tag hängt nur vom (i-1)-ten Tag ab 9

10 Warum speziell? Warum speziell? P(t(i)=v / t(i-1)=v(1) und... t(0)=w(i-1)) = P(t(i)=w / t(i-1)=v(1)) In Worten: Der Einfluss von i-1 Tags auf den i-ten Tag hängt nur vom (i-1)-ten Tag ab Dies steht im Widerspruch zur grammatikalischen Regel, dass jeder deutsche Satz eine Verbform enthalten muss Übersetzung: In allen Sätzen der Länge N, deren N-1 erste Worte kein Verb enthalten, muss das N-te Wort ein Verb sein (P(t(N)=Verb/t(i)<>Verb, für alle i<n)=1) Mit Sicherheit nicht gegeben, wenn zum Beispiel der (N-1). Tag ein Nomen ist... Der große, dampfende, braune, frische Fladen stinkt. (Verbform nach omen) Ich habe den Fladen gesehen. (Partizip nach Nomen) 10

11 Post-Processor Post-Processor 11

12 Motivation konzeptionelle Schwächen von HMM-Sprachmodellen Beschränkung des Kontextes auf die Tags n vorhergehenden Wörter Wir wollen /VMFIN, falls die Sonne scheint, heute Fußball spielen /VVINF. vs Heute Nachmittag spielen /VVFIN wir Fußball. Nachgeben /VVINF wollen /VMFIN wir nicht. vs Nachgeben /NN ist manchmal klüger. Keine direkte Berücksichtigung der Abhängigkeiten zwischen Tags und (benachbarten) Wörtern Der torgefährliche /ADJ Müller /NE erreichte die Effektivität von Ballack. vs Der gelernte /ADJ Müller /NN macht eine Umschulung zum Informatiker. Keine Berücksichtigung der Wortposition im Satz Aber: Sprachen mit relativen starrem Satzbau, z.b. Englisch 12

13 Brill-Tagger (I) Tagging Tagging in 2 Schritten Erzeugen einer geeigneten initialen Tagfolge Transformation durch sequentielle Anwendung von Transformationsregeln Regeln sind Instanzen sog. Regeltemplates: Ersetze Tag durch, wenn: 1. das letzte (nächste) Wort mit getaggt ist 2. das zweitletzte (übernächste) Wort mit getaggt ist 3. eines der zwei letzten (nächsten) Wörter mit getaggt ist 4. eines der n>2 letzten (nächsten) Wörter mit getaggt ist 5. das letzte Wort mit und das nächste Wort mit getaggt ist 6. das letzte (nächste) Wort mit und das übernächste (vorletzte) Wort mit getaggt ist 7. das aktuelle Wort (nicht) groß geschrieben ist 8. das letzte Wort (nicht) groß geschrieben ist 13

14 Brill-Tagger (II) Überwachtes Training Geg.: Trainingskorpus: Zuweisung initialer Tagsequenz: für jede Fehlerart : finde optimale Transformationsregel Postprocessing mit Brill-Tagger Output des HMM-Tagger als initiale Tagsequenz Damit: z.b. auch Berücksichtigung von long distance dependencies: VVFIN VVINF: =VMFIN =VMFIN =VMFIN Ihr wollt /VMFIN wirklich schon gehen /VVFIN? /VVINF? Weitere Verbesserung durch Einschränkung des Output des HMM- Tagger auf Teilmengen von Tags VVINF VVFIN: =$, =$. Wir versuchen, das Runde mit Wucht ins Eckige zu schießen. 14

15 Ergebnisse und Ausblick Ergebnisse und Ausblick 15

16 Ergebnisse und Ausblick Plattformunabhängige Tagger-Implementierung in Java API Kommandozeilenprogramm Erkennungsquote: 97,0 % / 97,3 % / 97,2 % (39000 Trainingssätze) Inkl. Verbesserung durch den Postprocessor: 0,4 % - 0,5 % Erweiterungspotentiale Beschreibungssprache für Templates des Postprocessor Automatisches Suchen optimaler Tag-Teilmengen Möglichkeit zur anwendungsspezifischen Erweiterung d. Wörterbuchs Automatische, webbasierte Erweiterung des Wörterbuchs 16

17 Test & Evaluierung (I) 17

18 Test & Evaluierung (II) 18

19 Test & Evaluierung (III) 19

Ähnliche Dokumente

Annotation des Wittgenstein-Korpus mit Wortart-Information

Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?