Maschinelle Sprachverarbeitung Tokenisierung

Größe: px

Ab Seite anzeigen:

Download "Maschinelle Sprachverarbeitung Tokenisierung"

Nicolas Frank
vor 6 Jahren
Abrufe

1 Maschinelle Sprachverarbeitung Tokenisierung Dr. Heike Zinsmeister FB Sprachwissenschaft Universität Konstanz 29. Oktober 2008

2 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die Zerlegung 4 Tokenisierungsalgorithmus 5 Zusammenfassung 6 Referenzen

3 Begriffe Token Token sind die Baussteine, aus denen Texte bestehen: Wörter im klassischen Sinn: der, Sonne, drei,.. Abkürzungen: HdM, Dr., BLZ,... Zahlzeichen: 42, 7., 2 n, 0711,... Satzzeichen:., ; :!?... Sonstiges: DINa4, (i), }, MeCR3R2((CH2CR3R2)t),... Tokenisierung (auch Segmentierung) Vorgang, bei dem die rohe Sequenz von Zeichen eines Textes in Sätze und diese wiederum in Wörter bzw. Token geteilt wird.

4 Motivation: Anwendungen Korrekturprogramme Finden und Korrigieren von Fehlern in Texten Wortabgleich Informationsextraktion Füllen von Templates Kopieren von relevanten Wörtern Textklassifikation Zuordnung von Texten zu definierten Klassen Klassenzugehörigkeit aufgrund des Wortinventars

5 Die Bäume im Wald finden... oder die Wörter im Text Ein Text Dr. House ist eine Serie über den Arzt Dr. Gregory House. Für den Rechner: Der Text als (ASCII-)String Gewünschte Zerlegung Dr. House ist eine Serie über den Arzt Dr. Gregory House.

6 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die Zerlegung 4 Tokenisierungsalgorithmus 5 Zusammenfassung 6 Referenzen

7 Zerlegung in Token Ein einfacher Tokenisierer Um die Token einer Sequenz zu identifizieren, interpretiert man die Leerstellen als Übergänge zwischen Token und trennt die Satzzeichen von den Token ab. Anwendung auf das Korpus Dr. House ist eine Serie über den Arzt Dr. Gregory House. Problem Zusätzlich zum Satzpunkt wurden auch die Abkürzungspunkte abgetrennt.

8 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die Zerlegung 4 Tokenisierungsalgorithmus 5 Zusammenfassung 6 Referenzen

9 Herausforderungen an die Zerlegung Schreibweise von Zahlen Abkürzungen Großschreibung Satzgrenzen Bindestriche Leerstellen Klitika

10 Schreibweise von Zahlen ihre Struktur ist relativ eindeutig aber je nach Sprache unterschiedlich festgelegt Sprachspezfische Regelung Englisch: 123, Französisch: ,78 Deutsch: ,78 (Geldbeträge: 3.456,78) (Quelle: wikipedia.de)

11 Abkürzungen (1) Kürzungen Tilgung am Wortanfang oder -ende Professor Prof Abkürzungen Folge von Lauten, die den Buchstaben entsprechen Arbeitsbeschaffungsmaßnahme ABM Akronyme Bildung eines neuen phonetischen Worts Deutsche Industrienorm DIN (Meibauer et al. 2007: 33)

12 Abkürzungen (2) Endlose Menge Abkürzungen sind keine geschlossene Klasse. Man kann daher nicht einfach alle möglichen Abkürzungen auflisten.

13 Großschreibung Im Englischen sind großgeschriebene Wörter normalerweise Eigennamen, man findet sie aber auch als erstes Wort im Satz als Teil eines Titels nach einem Strichpunkt oder öffnendem Anführungsstrich Frage Großgeschriebene Wörter können ambig sein continental vs. Continental (Englisch). Wie ist es im Deutschen?

14 Satzgrenzen Satzgrenzen sind normalerweise durch einen Satzpunkt, Ausrufezeichen oder ein Fragezeichen markiert Andere Funktionen des Punkts: Dezimalpunkt im Englischen Tausenderpunkt bei Geldbeträgen im Deutschen Teil einer Abkürzung Satzendezeichen und gleichzeitig Teil einer Abkürzung Beispiele (1) Anna went home late. Her father was angry. (2) Anna came back from the U. S. A. last month. (3) Anna came back from the U. S. A. She enjoyed it. (4) Anna came back from the U. S. A. Continental...

15 Bindestriche (1) Gegeben sei folgende Situation...xy... Mögliche Strings x-y Re-gierung de-facto-regierung Hin- und Rückflug

16 Bindestriche (2) Disambiguierungsaufgabe des Tokenisierers: String xy: Worttrennung Trennung um die Textbreite im Originalformal einzuhalten. aufge-baut, Re-gierung,... Sollten bei der Tokenisierung wieder (ohne Bindestrich) zusammengefügt werden (Dehyphenation). String x-y: Bindestrichkomposita de-facto-regierung, 35mm-Film,... String x- y: trunkiertes Wort Hin- (und Rückflug), be- (und entladen),...

17 Leerstellen Bisherige Annahme Token enthalten keine Leerstellen. Problem Mehrwortausdrücke enthalten Leerstellen. Repräsentieren Sie ein oder mehrere Token? Beispiele de facto Daimler Chrysler AG 1. Feb. 2004

18 Klitika Huckepack Klitika verbinden sich mit einem anderen Wort zu einem Token, meist ohne trennende Leerstelle. Beispiele Englisch: Französisch: Deutsch: Spanisch: Italienisch: isn t we ll Permettez-vous? Stimmt s? garantizarles applicarlo

19 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die Zerlegung 4 Tokenisierungsalgorithmus 5 Zusammenfassung 6 Referenzen

20 Tokenisierung Was ist ein Wort? Entfernen von Leerzeichen (whitespace) Leerzeichen, Tabulator, Umbruch Markieren von Trennungsstrichen am Zeilenende Trennen von Alternativen und/oder 1998/99 Erkennung und Markierung von Satzzeichen Punkt, Komma, Semikolon, Fragezeichen usw. Zusammenführen von Wortteilen erst-malig, (Fehler bei Bindestrichkomposita am Zeilenende) (Grefenstette & Tapanainen 1994)

21 Disambiguierungsmethoden Heuristiken und Informationsquellen Wörterbuchinformation Abkürzungslisten (manuell/automatisch) Satzposition, usw. Heuristische Ansätze Bestimme Heuristiken über die Zugehörigkeit von einem Token und einer Menge von Klassen Definiere die Heuristiken als Regeln und ordne sie nach ihrer Zuverlässigkeit Klassifikationansätze (überwacht/unüberwacht): Entscheidungsbäume, Neuronale Netze, Maximum Entropy, usw.

22 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die Zerlegung 4 Tokenisierungsalgorithmus 5 Zusammenfassung 6 Referenzen

23 Zusammenfassung Wichtigste Problemkategorien Normalisierung von großgeschriebenen Wörtern Erkennen von Abkürzungen (u.ä.) Disambiguierung von Satzgrenzen

24 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die Zerlegung 4 Tokenisierungsalgorithmus 5 Zusammenfassung 6 Referenzen

25 Referenzen (1) Daniel Jurafsky and James H. Martin (2000) Speech and Language Processing: an introduction to natural language processing, computational linguistics, and speech recognition. Kapitel: 2.1.,2.2 Sabine Schulte im Walde (2006): Tokenisation and Morpho-Syntactic Annotation. Slides of the course Introduction to Corpus Resources, Annotation and Access (zusammen mit Heike Zinsmeister) 18th European Summer School in Logic, Language and Information, Malaga, Spain. Gregory Grefenstette and Pasi Tapanainen (1994): What is a word, what is a sentence? Problems of tokenization. In Proceedings of the 3rd Conference on Computational Lexicography and Text Research, S Budapest, Hungary.

26 Referenzen (2) Andrei Mikheev (2002): Periods, Capitalized Words, etc. Computational Linguistics, 28(3): Andrei Mikheev (2003): Text segmentation. In: Ruslan Mitkov, editor: The Oxford Handbook of Computational Linguistics, S Oxford University Press. Helmut Schmid (im Druck): Tokenizing. In: Anke Lüdeling and Merja Kytö, editors: Corpus Linguistics. An International Handbook. Mouton de Gruyter, Berlin, im Erscheinen.

Ähnliche Dokumente

Maschinelle Sprachverarbeitung: Tokenisierung

Maschinelle Sprachverarbeitung: Tokenisierung BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER Gertrud Faaβ Universität StuPgart, InsRtut für maschinelle Sprachverarbeitung Azenbergstr. 12, 70174 StuPgart 0711