Annotation des Wittgenstein-Korpus mit Wortart-Information

Größe: px

Ab Seite anzeigen:

Download "Annotation des Wittgenstein-Korpus mit Wortart-Information"

Dominic Rosenberg
vor 7 Jahren
Abrufe

1 Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München

2 Überblick Was ist Wortart-Tagging? Welche Methoden werden verwendet? Wie wird ein Wortart-Tagger praktisch angewendet? Annotation des Wittgenstein-Korpus

3 Was ist Wortart-Tagging? Ein Wortart-Tagger annotiert jedes Wort mit seiner Wortart: was heißt es, das zu wissen PWS VVFIN PPER $, PDS PTKZU VVINF Schwierigkeit: was kann auch ein Relativpronomen oder Indefinitpronomen sein. heißt kann auch ein Imperativ sein. das kann auch ein Artikel oder Relativpronomen sein. zu kann auch Präposition, Verbpartikel, Gradpartikel, oder Adjektiv sein. wissen kann auch ein finites Verb sein.

4 Was ist Wortart-Tagging? Ein Wortart-Tagger annotiert jedes Wort mit seiner Wortart: was heißt es, das zu wissen PWS VVFIN PPER $, PDS PTKZU VVINF Schwierigkeit: was kann auch ein Relativpronomen oder Indefinitpronomen sein. heißt kann auch ein Imperativ sein. das kann auch ein Artikel oder Relativpronomen sein. zu kann auch Präposition, Verbpartikel, Gradpartikel, oder Adjektiv sein. wissen kann auch ein finites Verb sein.

5 Methode 1: Häufigstes Tag Voraussetzung: ein manuell mit Wortart annotiertes (Trainings-)Korpus Berechne für jedes Wort-Tag-Paar seine Häufigkeit im Trainingskorpus Weise jedem Wort sein häufigstes Tag zu was heißt es, das zu wissen PWS VVFIN PPER $, ART PTKZU VVINF Kontext ist ebenfalls wichtig Mögliche Korrekturregel: Ersetze ART durch PDS falls PTKZU folgt

6 Methode 1: Häufigstes Tag Voraussetzung: ein manuell mit Wortart annotiertes (Trainings-)Korpus Berechne für jedes Wort-Tag-Paar seine Häufigkeit im Trainingskorpus Weise jedem Wort sein häufigstes Tag zu was heißt es, das zu wissen PWS VVFIN PPER $, ART PTKZU VVINF Kontext ist ebenfalls wichtig Mögliche Korrekturregel: Ersetze ART durch PDS falls PTKZU folgt

7 Transformationsbasiertes Lernen Idee: Lerne Schritt für Schritt immer weitere solche Korrekturregeln, bis alle Wörter im Trainingskorpus richtig getaggt werden. Die Menge der möglichen Regeln wird durch Regelschemata vordefiniert: Ersetze Tag X durch Tag Y falls das vorhergehende Tag Z ist falls das folgende Tag Z ist falls das vorhergehende Tag Z und das nachfolgende Tag W ist falls das aktuelle Wort w und das nächste Tag Z ist usw.

8 Transformationsbasiertes Lernen Training 1 Annotiere jedes Wort mit seinem häufigsten Tag. 2 Erstelle für jedes falsch annotierte Wort die Menge aller möglichen Korrekturregeln. 3 Berechne für jede Korrekturregel, wieviele korrekte und falsche Änderungen die Regel im Gesamtkorpus erzeugt. Regel: ART PDS nach. was heißt es, das zu wissen... Angenommen, das Bild... 4 Wähle die insgesamt beste Korrekturregel. 5 Wende die Regel auf die aktuelle Tagfolge an. 6 weiter mit 2 bis alle Wörter richtig annotiert sind. Ergebnis: eine geordnete Menge von Regeln

9 Transformationsbasiertes Lernen Annotation eines neuen Textes: 1 Text in seine Tokens zerlegen 2 jedem Wort sein häufigstes Tag zuweisen 3 alle gelernten Regeln nacheinander anwenden

10 HMM-Tagger HMM-Tagger berechnen die wahrscheinlichste Tagfolge gemäß eines Hidden-Markow-Modelles. Die Wahrscheinlichkeit der getaggten Wortfolge was heißt es, das zu wissen PWS VVFIN PPER $, PDS PTKZU VVINF ist wie folgt definiert: p(pws START) * p(was PWS) * p(vvfin PWS) * p(heißt VVFIN) * p(pper VVFIN) * p(es PPER) *... Für alle Wörter werden also die lexikalische Wahrscheinlichkeit p(tag Wort) und die Kontextwahrscheinlichkeit p(tag letztes Tag) multipliziert. Verbesserung: p(tag 2 letzte Tags) Trigramm-Tagger

11 HMM-Tagger HMM-Tagger berechnen die wahrscheinlichste Tagfolge gemäß eines Hidden-Markow-Modelles. Die Wahrscheinlichkeit der getaggten Wortfolge was heißt es, das zu wissen PWS VVFIN PPER $, PDS PTKZU VVINF ist wie folgt definiert: p(pws START) * p(was PWS) * p(vvfin PWS) * p(heißt VVFIN) * p(pper VVFIN) * p(es PPER) *... Für alle Wörter werden also die lexikalische Wahrscheinlichkeit p(tag Wort) und die Kontextwahrscheinlichkeit p(tag letztes Tag) multipliziert. Verbesserung: p(tag 2 letzte Tags) Trigramm-Tagger

12 HMM-Tagger Training Häufigkeiten aller Wort-Tag-Paare und aller Tag-Tripel im Trainingskorpus berechnen Wahrscheinlichkeiten schätzen p(haus NN) = f (Haus, NN)/f (NN) p(nn ART, ADJA) = f (ART, ADJA, NN)/ X f (ART, ADJA, X ) Die wahrscheinlichste Tagfolge für einen Satz wird mit dem Viterbi-Algorithmus berechnet.

13 Tagsets Tagset = Menge aller unterschiedlichen Wortart-Annotationen Englisch: Penn Treebank Tagset Deutsch: Stuttgart-Tübingen-Tagset Genauigkeit: Unter optimalen Bedingungen werden etwa 97-98% der Wörter richtig annotiert.

14 Tokenisierung Die Taggereingabe besteht aus tokenisiertem Text. Aufspaltung der Zeichenfolge an Leerzeichenpositionen Abtrennung von Klammern, Satzzeichen usw. Erkennung von Abkürzungen und Ordinalzahlen eventuell Zusammenfügen von Wörtern, die am Zeilenende getrennt wurden

15 TreeTagger für Forschung frei verfügbar Download von der Seite de/~schmid/tools/treetagger/ Skripte verfügbar, welche erst tokenisieren und dann den Tagger aufrufen schnell (> Wörter/Sekunde) für viele Sprachen verfügbar

16 TreeTagger Aufruf > echo "Das ist ein Satz." cmd/tree-tagger-german-utf8 Das PDS die ist VAFIN sein ein ART eine Satz NN Satz. $..

17 TreeTagger Chunking > echo "Die Axt im Haus erspart den Zimmermann." \ cmd/tagger-chunker-german-utf8 <NC> Die ART die Axt NN Axt </NC> <PC> im APPRART in Haus NN Haus </PC> <VC> erspart VVFIN ersparen </VC> <NC> den ART die Zimmermann NE Zimmermann </NC>. $..

18 Annotation des Wittgenstein-Korpus Beispiel: <satz n="ts-213">[15] 13 ) Primäre und sekundäre Zeichen. Wort und Muster. Hinweisende Defini<lb rend="hyphen"/>tion. (S. 46)</satz> Schritte: Header der XML-Datei entfernen. Textnumerierung in Klammern einschließen: <<[15] 13 )>> Leerzeichen um XML-Tags herum einfügen außer bei <lb rend="hyphen"/> Umwandlung von HTML-Entities wie & Tokenisieren (ohne XML-Tags aufzuspalten) Taggen

19 <satz n="ts-213"> <<[15] 13 )>> $( Primäre ADJA primär und KON und sekundäre ADJA sekundär Zeichen NN Zeichen $(. $.. Wort NN Wort und KON und Muster NN Muster. $.. Hinweisende ADJA hinweisend Defini<lb rend="hyphen"/>tion NN Definition. $.. ( $( ( S. NN S. 46 CARD 46 ) $( ) </satz>

20 Annotation des Wittgenstein-Korpus weitere Schritte: Umwandlung von Sonderzeichen wie & in HTML-Entities Umwandlung der Annotationen in XML-Markup Hinzufügen des Headers

21 <satz n="ts-213"> [15] 13) <w t="$(" l=" "> </w> <w t="adja" l="primär">primäre</w> <w t="kon" l="und">und</w> <w t="adja" l="sekundär">sekundäre</w> <w t="nn" l="zeichen">zeichen</w> <w t="$(" l=" "> </w> <w t="$." l=".">.</w> <w t="nn" l="wort">wort</w> <w t="kon" l="und">und</w> <w t="nn" l="muster">muster</w> <w t="$." l=".">.</w> <w t="adja" l="hinweisend">hinweisende</w> <w t="nn" l="definition">defini<lb rend="hyphen"/>tion</w> <w t="$." l=".">.</w> <w t="$(" l="(">(</w> <w t="nn" l="s.">s.</w> <w t="card" l="46">46</w> <w t="$(" l=")">)</w> </satz>

Ähnliche Dokumente

Tagger for German. Online BRILL-Tagger für das Deutsche

Tagger for German. Online BRILL-Tagger für das Deutsche Tagger for German Online BRILL-Tagger für das Deutsche Morphologie V/Ü, Anke Holler Uni Heidelberg, SS2007 Nataliya Mytyay Éva Mújdricza 19.07.2007 Designed by: Dóra Dobos Tagger for German Eric Brill