Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte

Größe: px

Ab Seite anzeigen:

Download "Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte"

Matilde Bayer
vor 7 Jahren
Abrufe

1 Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte Stefanie Dipper Sprachwissenschaftliches Institut Ruhr-Universität Bochum Historische Textkorpora für die Geistes- und Sozialwissenschaften. Fragestellungen und Nutzungsperspektiven CLARIN-D & DTA, BBAW/Berlin 18./ Stefanie Dipper Normalisierung und Tagging / 25

2 Einleitung 1 Normalisierung Abbildung auf quasi-moderne Wortformen extinkte Formen, Flexion, Groß/Kleinschreibung Frühneuhochdeutsch ( Jh) diplomatische Transkriptionen 2 Tagging Wortart (POS) Fokus hier: Genauigkeit auf manuell vs. automatisch normalisierten Texten Stefanie Dipper Normalisierung und Tagging / 25

3 Das Anselm-Korpus Das Anselm-Korpus St. Anselmi Fragen an Maria sehr beliebter Text am Ausgang des Mittelalters Inhalt: Fragen von Anselm von Canterbury an die Jungfrau Maria lateinische, deutsche und niederländische Überlieferungen insgesamt: 198 Handschriften, 33 Drucke Anselm-Korpus: 43 Handschriften, 7 Drucke (alle deutschen, vollständigen Fassungen) Paralleles Korpus: Sammlung von Texten des gleichen/ähnlichen Inhalts. Unterschiede: kurze und lange Versionen (Durchschnittslänge: 6000 Wörter) Prosa- und Versversionen verschiedene (Schreib-)Dialekte des Jh. (Fnhd) ober- und mitteldeutsch (geplant: auch niederdeutsch) Stefanie Dipper Normalisierung und Tagging / 25

4 Das Anselm-Korpus Diplomatische Transkription: Beispielfragment Stefanie Dipper Normalisierung und Tagging / 25

5 Parallelfassungen Berlin: Das Anselm-Korpus Melk: Stefanie Dipper Normalisierung und Tagging / 25

6 Varianz in der Schreibung Ruge (2005): wird (Plot von Piotrowski (2012)) Stefanie Dipper Normalisierung und Tagging / 25

7 Varianz in der Schreibung Scheible, Whitt, Durrell, and Bennett (2011): Prozentsatz unbekannter Wörter Stefanie Dipper Normalisierung und Tagging / 25

8 Normalisierung (gemeinsame Arbeiten mit Marcel Bollmann, Florian Petran, Julia Krasselt) Ref: Marcel Bollmann (2012). Automatic Normalization for Linguistic Annotation of Historical Language Data. Masterarbeit, Ruhr-Universität Bochum. Stefanie Dipper Normalisierung und Tagging / 25

9 Normalisierung (gemeinsame Arbeiten mit Marcel Bollmann, Florian Petran, Julia Krasselt) Kombination verschiedener Methoden (Kaskade): 0. (Simplifizierung: Transliteration) 1. Wortliste (Übersetzungslexikon) 2. Ersetzungsregeln 3. Gewichtete Levenshtein-Distanz Vgl. Jurish (2010): Kombination verschiedener Methoden (parallel): Identität Simplifizierung: Transliteration Phonetisierung (manuelle) Ersetzungsregeln HMM (Wort-Trigramme) wählt jeweils aus den Ergebnissen aus Stefanie Dipper Normalisierung und Tagging / 25

10 1. Normalisierung mit einer Wortliste Training (= Wortlisten-Extraktion) auf einem annotierten Text, Anwendung/Evaluation auf ungesehenem Text Vorteile: kann auch schwierige Fälle erfassen: eyme einem auch geeignet für idiosynkratische Fälle: ihus xrus Jesus Christus Nachteile: kann keine Generalisierungen ableiten kein Ergebnis für ungesehene Wörter Stefanie Dipper Normalisierung und Tagging / 25

11 2. Normalisierung mit Ersetzungsregeln Methode: Erlernen von Ersetzungsregeln aus einem Parallelkorpus Daten: Luther-Bibel von 1545 und 1892 Stefanie Dipper Normalisierung und Tagging / 25

12 Alignierung und Ersetzungsregeln FNHD AM anfang schuff Gott Himel vnd Erden MOD Am Anfang schuf Gott Himmel und Erde FNHD AM anfang schuff Gott Him el vnd Erden MOD Am Anfang schuf Gott Himmel und Erde FNHD v n d MOD u n d v u / # _ n n n / u _ d Anwendung der Regeln zum Generieren moderner Formen Ranking gemäß Regel-Frequenzen am Ende: Wortform-Abgleich gegen ein Lexikon Stefanie Dipper Normalisierung und Tagging / 25

13 Ersetzungsregeln Vorteil: Nachteil: Generalisierungen für unbekannte Wörter (Zu) spezifische Regeln wegen Kontextsensitivität oft keine passende Regel vorhanden Stefanie Dipper Normalisierung und Tagging / 25

14 3. Normalisierung mit gewichteter Levenshtein-Distanz (WLD) Erlernen von Gewichten für Ngramm-Ersetzungen Unterschied zu Ersetzungsregeln: flexibler (Tri/Bi/Unigramme) bevorzugt ähnliche Wortformen (keine Ersetzung = 0 Kosten) Top-Operationen (Melk): Edit Gewicht v u vn un vnd und c ε p b do da Stefanie Dipper Normalisierung und Tagging / 25

15 Ente Apfelmus Einige nette Normalisierungsprodukte (mit ungewichteter Levenshtein-Distanz): von chuenikleichnm geslecht von ungleichem geflecht perkch oliueti geruch polizei sente anshelmus ente apfelmus Stefanie Dipper Normalisierung und Tagging / 25

16 Evaluation (ohne Fremdwörter, Interpunktion) Ergebnisse (in %) für die Kaskade: Wortliste > Regeln > WLD: Text Baseline Kaskade Upper b. Jurish Berlin (omd, 15.Jh) Melk (oob, 15.Jh) Baseline: Anteil von Wortformen, der unverändert bleibt Kontext-freie Methode: upper bound? Training: 500 Tokens, Eval: ca Tokens Jurish: Training auf DTA-Daten Stefanie Dipper Normalisierung und Tagging / 25

17 Evaluation: Effekt der Trainingsgröße Stefanie Dipper Normalisierung und Tagging / 25

18 Tagging Tagging (v.a. Arbeiten von Marcel Bollmann) Methode: wende modernen Tagger auf normalisierten Text an moderner Tagger (RFTagger) trainiert auf modifiziertem TIGER/Tüba-DZ keine Großschreibung, keine Interpunktion 10fache Kreuzvalidierung: 95.74% normalisierter Text manuell normalisiert (= upper bound) automatisch normalisiert Evaluation (in %): Text Original Manuell Automatisch Berlin Melk Stefanie Dipper Normalisierung und Tagging / 25

19 Kontextsensitivität Tagging Idee: überlasse dem Tagger die Disambiguierung schwieriger Formen in ihn (APPR PPER) im ihm (APPR PPER) das dass (ART/PDS/PRELS KOUS) Training auf modifiziertem TIGER/Tüba-DZ: ORIG ich sah ihn in Berlin MODIF ich sah ihnin ihnin berlin STTS PPER VVFIN PPER APPR NE Stefanie Dipper Normalisierung und Tagging / 25

20 Kontextsensitivität Tagging Problem: ungleiche Verteilung in den Trainingsdaten (in %): Korpus in ihn im ihm das dass TIG/Tüba Berlin Melk Evaluation (in %): Korpus gesamt in ihn im ihm das dass TIG/Tüba orig TIG/Tüba ambig Berlin Melk Stefanie Dipper Normalisierung und Tagging / 25

21 Zusammenfassung Tagging 1 Normalisierung: noch keine zufriedenstellenden Ergebnisse rund 75% Grund: Handschriften, Frühneuhochdeutsch 2 Tagging: upper bound mit modernem Sprachmodell: rund 87% Retraining sinnvoll Stefanie Dipper Normalisierung und Tagging / 25

22 References I References Bollmann, M. (2012). Automatic normalization for linguistic annotation of historical language data. Master s thesis, Ruhr-Universität Bochum. Jurish, B. (2010). More than words: Using token context to improve canonicalization of historical German. Journal for Language Technology and Computational Linguistics 25(1), Piotrowski, M. (2012). Natural Language Processing for Historical Texts. Synthesis lectures on Human Language Technologies. Morgan & Claypool. Scheible, S., R. J. Whitt, M. Durrell, and P. Bennett (2011). A gold standard corpus of Early Modern German. In Proceedings of the Fifth Linguistic Annotation Workshop, pp Stefanie Dipper Normalisierung und Tagging / 25

Ähnliche Dokumente

Hidden Markov Models in Anwendungen

Hidden Markov Models in Anwendungen Prof Dr. Matthew Crocker Universität des Saarlandes 18. Juni 2015 Matthew Crocker (UdS) HMM Anwendungen 18. Juni 2015 1 / 26 Hidden Markov Modelle in der Computerlinguistik