Part-of-Speech-Tagging mit Transduktoren

Transkript

1 Ruprecht-Karls Universität Heidelberg Hauptseminar Computerlinguistik Endliche Automaten für die Sprachverarbeitung PD Dr. Karin Haenelt Sommersemester 2005 Part-of-Speech-Tagging mit Transduktoren Maria Andris, Elena Frick, Eva Sourjikova

2 Agenda 1. Einführung 2. Brill's Tagger 2.1 Transformationsregeln 2.2 Transformation-Based Error-Driven Learning 2.3 Ablauf des Taggings 3. Tagger nach Roche/Schabes 3.1 Brill s Regeln als Transduktor 3.2 Local Extension 3.3 Komposition 3.4 Determinisierung 4. Zusammenfassung

3 Tagging Die Zuordnung der korrekten Wortart (Nomen, Verb, Adjektiv usw.) für jedes Wort eines Satzes ( Etikettieren ) Tagset-abhängig (Definition der Wortarten, die unterschieden werden sollen)

4 Tagset - Beispiel IMS Stuttgart und SfS Tübingen 54 Part-of-Speech Tags für Deutsch ADJA attributives Adjektiv APPR Präposition ART Artikel NN normales Nomen NE Eigenname PPER Personalpronomen VVFIN finites Vollverb VAFIN finites Auxiliarverb PTKNEG Negationspartikel ITJ Interjektion $. Satz-beendende Interpunktion

5 Einsatzgebiete für Tagger Eingabe für weitere Verarbeitungsschritte (Parser, Extraktionsregeln, Übersetzung) Sprachsynthese Spracherkennung Information Retrieval Lexikographie Syntax (Vorverarbeitung)

6 Schritte der Wortartenzuweisung Tokenisieren - Segmentierung mit endlichem Automat Lexikalische Analyse (alle möglichen Wortarten für das Eingabewort bestimmen) Disambiguirung Wortart passend zum Kontext auswählen (mit statistischen Methoden)

7 Tagging-Verfahren Regelbasierte Tagger - Anhand einer vorgegebenen Menge deklarativer Regeln wird entschieden, welches Tag einem zugeordnet wird. Stochastische Tagger - Anhand eines manuell getaggten Trainingskorpus wird die Übergangsgeschwindigkeit von Wortarten gelernt

8 Der Brill-Tagger Eric Brill, Tagger und Tagger-Dokumentation Brill-Tagger für das Deutsche

9 Der Brill-Tagger Der Brill-Tagger (1992) basiert auf der Kombination von regelbasierten und statistischen Verfahren: Training Transformation-Based Error-Driven Learning (=Automatisches Erzeugen von Regeln für den Tagger auf Grundlage von manuell getaggtem Text und Fehleranalyse) Tagging Anwendung auf den zu annotierenden Text: - Zuweisung des Tags bei isolierten Wörtern - Anwendung der Transformationsregel

10 Transformationsregeln Eine Transformation besteht aus zwei Teilen: -Rewriterules: what to replace change tag a to tag b -Triggeringenvironment: when to replace Non-lexicalized templates: 1. The preceding (following) word is tagged t a. 2. The word two before (after) is tagged t a. 3. One of the two preceding (following) words is tagged t a. 4. One of the three preceding (following) words is tagged t a. 5. The preceding word is tagged t a and the following word is tagged t b. 6. The preceding (following) word is tagged t a and the word two before (after) is tagged t b. Lexicalized templates: 1. The preceding (following) word is w a. 2. The word two before (after) is w a. 3. One of the two preceding (following) words is w a. 4. The current word is w and the preceding (following) word is w b. 5. The current word is w a and the preceding (following) word is tagged t a. 6. The current word is w a. 7. The preceding (following) word is w a and the preceding (following) tag is t a. 8. The current word is w a, the preceding (following) word is w b and the preceding (following) tag is t a.

11 Kontext-Regeln Beispiel: VB NN PREVTAG DT Change the tag from VB to NN if the word is tagged VB and the preceding word is tagged DT falsche Annotation: John/Eigenname caught/verb a/artikel fly/verb./satzende nach der Anwendung der Transformation: John/Eigenname caught/verb a/artikel fly/substantiv./satzende

12 Lexikalische Regeln Beispiel: bar hassuf 3 ADJD 5 If a word has the suffix bar (of length 3 characters), tag it as ADJD z.b. brauchbar, machbar

13 Transformation-Based Error-Driven Learning

14 Transformation-Based Error-Driven Learning Lernphase des Taggers Zunächst werden POS-Wahrscheinlichkeiten aus einem getaggten Korpus ermittelt. Damit wird ein Vollformenlexikon aufgebaut. (z.b. die höchste Wahrscheinlichkeit für run ist Verb) Präffix- und Suffixwahrscheinlichkeiten werden aus einem getaggten Korpus automatisch ermittelt. (z.b. ein Wort auf ous ist wahrscheinlich Adjektiv) Generieren von Transformationsregeln Transformationen prüfen + lernen Herausfinden, welche Transformationen die besten Ergebnisse liefern Anwenden auf Korpus Transformation wird zur Liste der geordneten Transformationen hinzugefügt und auf Trainingskorpus angewendet. Iteration bis es keine Transformation mehr gibt, die Ergebnis verbessern würde

15 Ablauf des Taggings Anwendungsphase des Taggers a lexical tagger - Jedem Wort wird das nach dem Lexikon wahrscheinlichste Tag zugewiesen. an unknown word tagger - Jedes unbekannte Wort bekommt zuerst Eigenname zugewiesen, falls es mit einem Großbuchstaben beginnt - Unbekannte Wörter, die mit einem Kleinbuchstaben beginnen, werden aufgrund der lexikalischen Regeln klassifiziert. a contextual tagger - Anwendung von Kontextregeln auf bekannte Wörter

16 Zusammenfassung Brills Tagger: Lernt Regeln selbständig Kommt ohne externes Lexikon aus (baut eigenes Lexikon auf) Basiert auf einem getaggten Corpus

17 Nachteile von Brill's Tagger Im kontextuellen Tagger... jede Regel wird im Input Wort nach Wort angewendet viele Wörter werden mehrmals geprüft "naive pattern matching algorithm" alle Regeln werden Reihe nach an jeden Satz angewendet Regeln können miteinander interagieren =>grosse Verlangsammung aufgrund unnötigen Operationen

18 3. Tagger nach Roche/Schabes I. Lexical Tagger II. Contextual Tagger 1. kontextuelle Regeln als Transduktor 2. globale Regelanwendung mit Hilfe von "local extension" 3. Komposition von Transduktoren 4. Determinisierung III. Unknown-Word-Tagger

19 Tagger nach Roche/Schabes I. Lexical Tagger = der grösste Teil des gesamten Taggers (Speicherplatz) kompakte Repräsentation + schnelle Suche nötig Lösung: Wörterbuch als endlicher Automat (Aus: Roche/Schabes 1995)

20 3. Tagger nach Roche/Schabes I. Lexical Tagger II. Contextual Tagger 1. kontextuelle Regeln als Transduktor repräsentiert 2. globale Regelanwendung mit Hilfe von "local extension" 3. Komposition von Transduktoren 4. Determinisierung III. Unknown-Word-Tagger

22 Tagger nach Roche/Schabes II. Kontextueller Tagger 1.Brill s Regeln als Transduktor Jede Kontext-Regel aus dem Brill s Tagger wird als Transduktor modelliert Beispiel: "ersetze vbn durch vbd wenn der vorherige Tag np ist np/np vbn vbd PRETAG np vbn/vbd np vbn vbd proper noun past participle past tense Chapman killed John Lennon Problem: jede Regel muss in jeder Input-Position angwendet werden = nicht effizient

24 Tagger nach Roche/Schabes II. Kontextueller Tagger 2. Local Extension lokal funktionierender Transduktor (bei jedem Vorkommen der entsprechenden Zeichenkette im Input neu gestartet) global funktionierender Transduktor (Regelanwendungen auf alle aufeinanderfolgende Anwendungspositionen im Input nur einmal angewendet sein muss) Beispiel: vbn vbd PRETAG np?/? np/np np/np 0 vbn/vbd 1?/? Beispieleingabe: "pps vbd np vbd np vbn pps np vbn vbd " Ausgabe: "ppsvbdnpvbdnpvbd pps np vbd vbd "

25 Tagger nach Roche/Schabes II. Kontextueller Tagger 2. Local Extension Regeln: ab bc b d a/b 1 b/c 0 b/d 2 Input: d c a b Output1: d c b c Output2: d c a d Idee von "local extension" ist alle mögliche Outputs in einem Lauf zu erfassen!

26 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? a/b 1 b/c 0 b/d 2 Input: d c a d a a b

27 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? a/b 1 b/c 0 b/d 2 Input: d c a d a a b d

28 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? 1 a/b Transd. b/c 0 Identity b/d 2 Transd. a/a 0,1 Identity Identity-Zustände Kanten, die zu diesen Zuständen führen, machen keine Ersetzungen und stellen Alternativ- Kanten dar.

29 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? a/b 1 Transd. Transduction-Zustände Kanten, die zu diesen Zuständen führen, ersetzen Eingabezeichen durch Ausgabezeichen nach Regeln, die der "alte" Transduktor darstellt b/c 0 Identity b/d 2 Transd. a/a 0,1 Identity Identity-Zustände Kanten, die zu diesen Zuständen führen, machen keine Ersetzungen und stellen Alternativ- Kanten dar.

30 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? a/b 1 Transd. b/c 0 Identity b/d 2 Transd. a/a?/? 0,1 Input: d c a d a a b Identity

31 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? 1 a/b Transd. a/b b/c 0 Identity b/d 2 Transd. a/a?/? 0,1 Identity Input: d c a d a a b d a/a

32 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? 1 a/b Transd. a/b b/c {0} b/d 2 Identity b/d Transd. a/a?/? {0,1} Identity Input: d c a a d a a b d a/a

33 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? 1 a/b Transd. a/b b/c {0} b/d 2 Identity b/d Transd.?/? a/a {0,1} Identity b/b a/a {} Transd. Trash-Zustand verschlingt unnötige Kanten, keine Kanten führen aus dem Trash-Zustand raus ein "schwarzer Loch"

34 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? ε/ε a/b 1 Transd. a/b b/c {0} b/d 2 Identity b/d Transd.?/? a/a {0,1} Identity b/b {} Transd. a/a Input: d c a a d a a b

35 Tagger nach Roche/Schabes 2. Local Extension Eva Sourjikova (2005). Local Extension Algorithmus nach Roche und Schabes (Part-of-Speech-Tagging mit Transduktoren). Referat kontext.fraunhofer.de/haenelt/kurs/referate/andris_frick_sourjikova/localexten sion_algorithm.ppt / pdf

36 3. Tagger nach Roche/Schabes I. Lexical Tagger II. Contextual Tagger 1. kontextuelle Regeln als Transduktor 2. globale Regelanwendung mit Hilfe von "local extension" 3. Komposition von Transduktoren 4. Determinisierung III. Unknown-Word-Tagger

37 Tagger nach Roche/Schabes 3. Komposition Komposition: T3 = LocExt(T1) LocExt(T2)

38 Tagger nach Roche/Schabes 4. Determinisierung Subsequential form for T3

39 Evaluation Stochastic Tagger Rule-Based Tagger Finite- State Tagger Speed 1,200 w/s 500 w/s 10,800 w/s Space 2,158 KB 379 KB 815 KB

40 Zusammenfassung Brill-Tagger : RCn Schritte R- Regeln C- Tokens n- Wörteranzahl Tagger nach Roche/Schabes : n Schritte unabhängig von der Regelanzahl und vom Kontext

41 Literatur Helmert, Malte (2000): Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging. Freiburg. Brill, Eric (1995): Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging. In: Computational Linguistics. Bd. 21, Nr. 4, S Klabunde, Ralf (2001): Automatentheorie und formale Sprachen. In: Carstensen at al. (Hrsg.): Computerlinguistik und Sprachtechnologie. Heidelberg/Berlin: Spektrum Akademischer Verlag, Roche, Emmanuel und Schabes, Ives (1995): Deterministic Part-of- Speech Tagging with Finite-State Transducers. In: Computational Linguistics. Bd. 21, Nr. 2, S Roche, Emmanuel und Yves Schabes (Eds.) (1997): Finite-State Language Processing. Cambridge (Mass.) und London: MIT Press. S

42 Weitere Quellen Brill-Tagger für das Deutsche Eric Brill, Tagger und Tagger-Dokumentation. Gerold Schneider, Wortarten im Kontext (Tagging) TaggerVorlesung.pdf Stefan Geißler/ Anke Holler, Tagging. taggingah.pdf

43 Für weitere Fragen... Eva Sourjikova Elena Frick Maria Andris

44 Das war s!!! DANKE für Eure Aufmerksamkeit! Die Diskussion ist hiermit eröffnet!