Erkennung fremdsprachiger Ausdrücke im Text

Transkript

1 Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

2 Inhalt 1 Einführung 2 Theoretische Basis N-Gramm Modelle Conditional Random Fields Kombiniertes Modell 3 Daten 4 Praktische Umsetzung 5 Ergebnisse 6 Zusammenfassung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

3 Einführung Inhalt 1 Einführung 2 Theoretische Basis N-Gramm Modelle Conditional Random Fields Kombiniertes Modell 3 Daten 4 Praktische Umsetzung 5 Ergebnisse 6 Zusammenfassung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

4 Einführung Definition vom Problem und Motivation Multilinguale Texte CL Anwendungen sind auf monolinguale Daten orientiert Mögliche Fehler Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

7 Einführung Aufgabestellung Erkennung von englischen Wörtern und Ausdrücken im deutschen Text und umgekehrt Sprachidentifizierung auf der Wortebene Umsetzung und Vergleich von unterschiedlichen Ansätzen Langfristig: Vorlage für einen Übersetzungsassistenten Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

11 Theoretische Basis Inhalt 1 Einführung 2 Theoretische Basis N-Gramm Modelle Conditional Random Fields Kombiniertes Modell 3 Daten 4 Praktische Umsetzung 5 Ergebnisse 6 Zusammenfassung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

12 Theoretische Basis N-Gramm Modelle N-Gramm Modelle Markowmodelle über Vorwärts- und Rückwärtsbuchstabenfolgen p(t L) = n i=1 p L (a i a i k,...,a i 1 ) n i=1 p L (a i k a i,...,a i k+1 ) Berechnung von Wahrscheinlichkeiten von 1- bis 5-Grammen Interpolierte Kneser-Ney Glättung mit Discounting p(a n a 1...a n 1 ) = f(a 1...a n ) δ n f(a n...a n 1 ) + α(a 1...a n 1 ) p(a n a 2...a n 1 ) Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

17 Theoretische Basis N-Gramm Modelle N-Gramm Modelle Training Erkennung Vorwärts- und Rückwärtsmodelle für Deutsch und Englisch Berechnung: relative Wahrscheinlichkeiten, Discounts, Backoff-Faktoren exi Exi sugg adl tio E-4 Zerlegung von einzelnen Tokens in N-Gramme Logarithmierte Wahrscheinlichkeiten der Zugehörigkeit zu jedem Modell Kombinieren von Vorwärts- und Rückwärtswahrscheinlichkeiten Sprache des Wortes - Sprache mit höchster Wahrscheinlichkeit Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

25 Theoretische Basis Conditional Random Fields Conditional Random Fields Merkmale von einzelnen Wörtern Merkmalvektoren Freiwillig verlässt hardly anybody das Haus. Y UMLAUT IS_CAP EI DOUBLE_CONS Training: Schätzung von Gewichten der Merkmalen Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

29 Theoretische Basis Conditional Random Fields CRF Merkmale Handgeschriebene Regeln Linguistische Merkmale Sprachspezifische Kombinationen von Buchstaben, Buchstabenklassen Frequenz von Wörtern im Trainingskorpus Training: alle Merkmale berücksichtigt Erkennung: unterschiedliche Sets von Merkmalen abhängig von der Hauptsprache des Textes Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

35 Theoretische Basis Kombiniertes Modell Kombiniertes Modell Kombinieren von den N-Gramm und CRF Ansätzen Stacking Ergebnis der N-Gramm basierten Erkennung - Merkmal für das CRF Modell Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

38 Daten Inhalt 1 Einführung 2 Theoretische Basis N-Gramm Modelle Conditional Random Fields Kombiniertes Modell 3 Daten 4 Praktische Umsetzung 5 Ergebnisse 6 Zusammenfassung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

39 Daten Daten Monolinguale Trainingsdaten aus Europarl Jeweils 2 Sets von Entwicklungs- und Testdaten Gemischte Texte mit 500 fremdsprachigen Einheiten in jedem Goldstandard mit bereits annotierten fremdsprachigen Einheiten the book given as a source is a <f>richtige</f> reference Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

43 Praktische Umsetzung Inhalt 1 Einführung 2 Theoretische Basis N-Gramm Modelle Conditional Random Fields Kombiniertes Modell 3 Daten 4 Praktische Umsetzung 5 Ergebnisse 6 Zusammenfassung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

44 Praktische Umsetzung Praktische Umsetzung Anwendung: Programmiersprache Java Externe Bibliotheken: Apache OpenNLP: N-Gramm Zerlegung, Tokenisierung LingPipe: CRF Vobereitungsarbeiten: Programmiersprache Perl Reguläre Ausdrücke Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

52 Praktische Umsetzung Praktische Umsetzung Training Erkennung Evaluation Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

53 Praktische Umsetzung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

54 Ergebnisse Inhalt 1 Einführung 2 Theoretische Basis N-Gramm Modelle Conditional Random Fields Kombiniertes Modell 3 Daten 4 Praktische Umsetzung 5 Ergebnisse 6 Zusammenfassung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

55 Ergebnisse Evaluation Auswertung mittels Precision, Recall und F-Measure gegen Goldstandard Entwicklungsdaten Testdaten: bessere Ergebnisse Beste F-Measure beim kombinierten Modell Precision höher als Recall Erkennung von deutschen Ausdrücken im englischen Text genauer als umgekehrt Ausgabe von false negatives und false positives in die LOG-Datei :06:30 TRACE EvaluationUtil - False negative: in :06:30 TRACE EvaluationUtil - False positive: textilen :06:30 TRACE EvaluationUtil - False negative: design Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

62 Zusammenfassung Inhalt 1 Einführung 2 Theoretische Basis N-Gramm Modelle Conditional Random Fields Kombiniertes Modell 3 Daten 4 Praktische Umsetzung 5 Ergebnisse 6 Zusammenfassung Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

63 Zusammenfassung Zusammenfassung und Zukünftige Arbeit Strategien zur Erkennung von fremdsprachigen Ausdrücken im Text Entwickeltes System erkennt deutsche Einheiten im englischen Text englische Einheiten im deutschen Text Über 90% Genauigkeit im Durchschnitt Fehlerquellen: gemeinsame Wörter Named Entities kurze Wörter Lösen von Problemen Erweiterungen des Systems Einführung von weiteren Sprachen Verbesserungen der Benutzerschnittstelle Dynamisches Erkennen der Sprache des Wortes während der Eingabe Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

77 Zusammenfassung Danke für die Aufmerksamkeit! Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

78 Literaturverzeichnis C. Manning and H. Schütze. Foundations of statistical natural language processing. MIT Press, Cambridge, MA, Yoav Goldberg and Michael Elhadad. Identification of transliterated foreign words in hebrew script. In Alexander F. Gelbukh, editor, CICLing, volume 4919 of Lecture Notes in Computer Science, pages Springer, Stanley F. Chen and Joshua Goodman. An empirical study of smoothing techniques for language modeling. Technical Report TR-10-98, Harvard University, John D. Lafferty, Andrew McCallum, and Fernando C. N. Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In Proceedings of the Eighteenth International Conference on Machine Learning, ICML 01, pages , San Francisco, CA, USA, Morgan Kaufmann Publishers Inc. Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22

79 Literaturverzeichnis Charles Sutton and Andrew Mccallum. Introduction to Conditional Random Fields for Relational Learning. MIT Press, G. Brown. The Grammar of English Grammars. Samuel S. & William Wood, Rat für Deutsche Rechtschreibung. Deutsche Rechtschreibung: Regeln und Wörterverzeichnis ; amtliche Regelung. Narr, Lior Rokach. Ensemble methods for classifiers. In Oded Maimon and Lior Rokach, editors, Data Mining and Knowledge Discovery Handbook, pages Springer US, Jekaterina Siilivask (LMU München) Erkennung fremdsprachiger Ausdrücke im Text / 22