1. Aufgaben eines Tokenizers

Transkript

1 Lerneinheit Tokenisierung ist eine absolut notwendige Vorstufe für jede weitere computerlinguistische Verarbeitung eines Textes (u.a.: für die syntaktische Analyse). 1. Aufgaben eines Tokenizers Aufgaben eines Tokenizers Folgende Aufgaben können unterschieden werden: A. Bereinigung der Eingabekette von nicht-relevanten Zeichen (z.b. HTML- Markup) B. Aufteilung der Eingabekette in einzelne Einheiten (Token) als Voraussetzung für die syntaktische Analyse. Token sind nicht nur sprachliche Wortformen, sondern auch Zahlen und Satzzeichen sowie komplexere Einheiten (Abkürzungen etc.). C. Satzendeerkennung D. Wortnormalisierung Aufgabe A lässt sich auch in eine eigene Phase der Aufbereitung bzw. Bereinigung eines Textes vorverlagern, die nicht zur eigentlichen Tokenisierung gehört. Das ist Auffassungssache. Aufgabe B umfasst den Kern der Tokenisierung mit dem Zerlegen in Token. Aufgabe C ist ebenfalls zentral, aber notorisch schwierig. Satzendeerkennung wird daher nicht selten auch erst nach dem POS-Tagging und dem Chunking durchgeführt/vollendet. Aufgabe D ist optional und kann als eigene Phase nach der Tokenisierung und vor dem Tagging stattfinden. Sie lässt sich aber im Rahmen der Zerlegungsphase sinnvoll bewältigen. Resultat Das Resultat der Tokenisierung ist eine Liste von Tokens, z.b. als Liste im technischen Sinn 1, oder als Abfolge von durch Zeilenumbrüche getrennten Tokens (sog. vertikalisierter Text ) 2 Auf die zweite beschriebene Weise kann jedem Token 1. Z.B. wenn man Prolog verwendet. 2. Dies, wenn man Skriptsprachen wie Perl verwendet, die Text in Text überführen.

2 2 weitere relevante Information (z.b. über die Zugehörigkeit zu einer Tokenklasse, s.u.) angehängt werden. 2. Funktionsweise eines Tokenizers Grundlegendes Die grundlegende Vorgehensweise bei der Tokenisierung besteht in der Zerlegung der Eingabekette an bestimmten Zeichen. Oft werden einzelne Tokens hierzu jeweils auf eine Zeile geschrieben. Grundsätzlich müssen dafür white space characters durch Token-trenner (im zweitgenannten Fall also durch newlines ) ersetzt und Interpunktions, Satz- und Sonderzeichen (!?., ( ) "etc.) abgetrennt/isoliert werden. Die Behandlung spezieller Fälle kann entweder durch Isolieren 3 erfolgen (dann wirken die Trennungsprinzipien nicht) oder durch Re- Gruppieren getrennter Elemente (wir werden die erste Option wählen). 2.1 Textbereinigung Zur Textbereinigung sind im wesentlichen die folgenden Aufgaben zu zählen: Entfernen von Markup (z.b. HTML-Marker etc.) De-Hyphenation: Das Entfernen von Trennungsstrichen (d.h., das Zusammenfügen getrennter Wörter) Das Entfernen von Markup ist allerdings nicht immer angemessen. Soll ein Text im Hinblick auf seine Struktur analysiert werden, kann es sehr wohl sinnvoll sein, diese Information zu erhalten. In diesem Fall müssen die jeweiligen Tags als Token isoliert werden. Die Entfernung von Trennungsstrichen ist nicht trivial: Befindet sich ein zum Wort gehöriger Bindestrich zufällig am Ende einer Zeile, so kann aus einer end-of-file- Markierung leicht eine end-offile-markierung werden. Um dies zu vermeiden, kann man ein Lexikon-lookup häufiger Bindestrich enthaltender Wörter einem allgemeinen Verfahren vorschalten. Um Textund Bildverarbeitung auszuschliessen, 3. Isolieren heisst Schützen (z.b. ++Wort--) und Trennen.

3 3 muss man ausserdem koordinierte Konstruktionen erkennen und unberücksichtigt lassen. 2.2 Zerlegen des Textes Bei der Zerlegung eines Textes müssen folgende Dinge geleistet werden: 1. an den white space characters trennen 2. kontrahierte Wörter trennen (z.b. hat s) und die verkürzte Form isolieren. 3. komplexe Tokens (d.h. solche, die einen Blank enthalten), erkennen und isolieren Beispiele hierfür sind Zahlen ( ), Geldbetragsbezeichnungen ( Euro), Telefonnummern (0155) ), ordinale Ausdrücke (13. Jahrestagung)o.ä. Auch Mehr-Wort-Einheiten (en passant, im Folgenden, on line usw.), die mithilfe eines Lexikons erfasst werden können, gehören zu den hier relevanten Tokentypen. 4. Abkürzungen, Auslassungspunkte (... ) etc. erkennen und isolieren 5. Abtrennung der Interpunktionen und sonstiger Satz-/Sonderzeichen durchführen

4 4 2.3 Wortnormalisierung Die Wortnormalisierung dient vor allem dazu, in der (späteren) Phase des part-ofspeech-tagging die Erkennung der Wortart sicherzustellen. Hierfür ist es ggf. nötig, produktive Konstruktionen wie Zahlwörter auf eine einheitliche Repräsentationsform abzubilden (da sonst prinzipiell unendlich viele entsprechende Lexikoneinträge vorhanden sein müssten) in verschiedenen Formen vorkommende Wörter zu vereinheitlichen (U.S.A. USA) verkürzte Formen zu expandieren ( s es) in verschiedenen Ausprägungen erscheinende Angaben (z.b. Datumsangaben) zu vereinheitlichen 2.4 Satzendeerkennung eigentlich eine Abartigkeit der Typographen Bei der Abtrennung der Interpunktionszeichen stellt die Behandlung des Punktes aufgrund seiner Ambiguität zwischen Satzende-Kennzeichner und Abkürzungspunkt das augenfälligste Problem dar: Erstens ist es nicht-trivial, eine Abkürzung als solche zu erkennen und zweitens übernimmt der Punkt nicht selten doppelte Funktion (statt etc.. am Satzende nur etc. ). Würden die Interpunktionszeichen generell zuerst abgetrennt, müssten Abkürzungspunkte explizit wieder aufgrund bestimmter Prinzipien angefügt werden (übrig blieben per default die Satzendepunkte). Eine einfache Heuristik für eine solche Erkennung von Satzendepunkten ist die folgende: Heuristik für Satzendeerkennung Trenne Punkte nicht ab, wenn sie unmittelbar einem alfanumerisches Zeichen vorangehen (wie in URLs oder Zeitangaben (22.08)) wenn sie direkt auf eine bekannte Abkürzung folgen (wie in Dr. oder etc.) wenn ihnen ein Kleinbuchstabe oder ein Satzzeichen folgt (wie in abgegeb., oder Friedr. von).

5 5 Ansonsten trenne sie ab. Hiermit werden allerdings Punkte in Ordinalzahlen (1. Schweizer Kongress) nicht erfasst und auch die Satzendeerkennung nicht zufriedenstellend behandelt. Die oben vorgestellte Option, zunächst eine Menge verschiedener Ausdrücke zu erkennen, hat z.b. für das Erkennen von Abkürzungen den weiteren Vorteil, dass eine entsprechende Abkürzungsliste verwendet werden kann (wofür intervenierende newlines eher hinderlich sind). Die Satzendeerkennung lässt sich ausserdem verbessern, wenn das Lexikon verwendet wird: Folgt auf einen Punkt ein Wort in Grossschreibung, das im Lexikon nicht als Nomen vorkommt, so liegt sehr wahrscheinlich ein Satzende vor. Heuristik für Satzendeerkennung nach erfolgter Erkennung von Abkürzungen Disambiguierung des Abkürzungspunktes In diesem Fall kann die folgende Heuristik angenommen werden: Trenne Punkte nicht ab, wenn ihnen ein Kleinbuchstabe oder ein Satzzeichen folgt (wie in abgegeb., oder Friedr. von) und isoliere das Token als bislang nicht erkannte Abkürzung. Füge einen Satzendepunkt hinzu, wenn auf eine Abkürzung ein Wort in Grossschreibung folgt, das im Lexikon nicht als Nomen vorkommt Ansonsten trenne sie ab. Diese Heuristik leidet nur noch unter der notorischen Unvollständigkeit von Listen (in diesem Fall von der Abkürzungsliste). Schliesslich bietet sich eine statistisch basierte Behandlung dieser Aufgaben an, die zunächst Information über mögliche Abkürzungen, Satzanfänge, Wörter vor und hinter Zahlen und Endungen von Wörtern (s. z.b. Berghangstr.) anhand grosser Korpora analysiert und diese dann auf konkrete Texte anwendet.

6 6 3. Entscheidungen beim Design eines Tokenizers Kontraktionen: Sollen Zeichenketten wie gibt s in zwei Token getrennt oder als eines belassen werden (die Frage stellt sich insbesondere im Englischen mit dem häufigen Auftreten von I ve, can t usw.)? Linguistisch gesehen sind zwei Token angemessen, da es sich um eine Kontraktion handelt. Verallgemeinert führt dies allerdings zu einem Problem: trennt man im Französischen das l ab (z.b. von l addition), so stellt es für das nachfolgende Tagging eine ambige Form dar (Artikel oder Pronomen); im Englischen besteht eine ähnliche Ambiguität für s zwischen Genitivendung und Kontraktion (das ist zum Glück nicht im Deutschen der Fall). Üblicherweise wird jedoch eine Trennung in zwei Token durch den Tokenizer vorgenommen. Tokenklassen: Nicht alle Token sind Wörter im engeren Sinne. Da die Tokenisierung sowieso eine intensivere Analyse der Eingabekette erfordert, lohnt es sich, deren Ergebnis als Klassifizierung der Token anhand von Tokenklassen festzuhalten. Dies kann vor allem die Verarbeitung in nachfolgenden Modulen vereinfachen. Mögliche Kandidaten sind ABK für Abkürzungen, ZEIToderERGEBNIS z.b. für 12:15, NCOMPLEX für F18-Pilot, COM für cp. Die Vielzahl komplexer Token ist ein weiteres Argument für die Einführung von Tokenklassen.

7 7 3.1 Sequenzierung der Aufgaben im Tokenizer Die Reihenfolge, in der die verschiedenen Einzelschritte zur Tokenisierung vorgenommen werden, ist entscheidend für den Erfolg. Bitte versuchen Sie, dies anhand der folgenden P-Demo zu ermitteln. Es ist kein vollständiger Tokeniser, aber sie könnten damit folgende Dinge ausprobieren: Dabei sind v.a. folgende Aspekte zu beachten: Mögliche Testwerte, welche zu interessanten Beobachtungen führen, sind Bitte beschreiben Sie Ihre Beobachtungen hier. Das folgende ggf. als Antwort auf den SET: Eine mögliche und sinnvolle konkrete Reihenfolge der Operationen eines Tokenizers ist wie folgt: 1. Bereinigung des Textes 2. Erkennen und Isolieren von Abkürzungen und komplexen Ausdrücken, Wortnormalisierung

8 8 Konkretes Vorgehen 1. Lexikon-basiert 2. Algorithmus-basiert (u.a. Satz(-NICHT)-zu-Ende-Erkennung!) 3. Zerlegung Zerlegung an white space characters Trennung kontrahierter Wörter Abtrennung der Interpunktionen und sonstiger Satz-/Sonderzeichen 4. Beseitigen von Markierungen, die zum Schützen eingefügt wurden Auf diese Weise bleiben wortinterne Sonderzeichen per default erhalten (vgl. AT&T usw.). Gleichzeitig kann hier Wortnormalisierung stattfinden, deren Ergebnisse ebenfalls isoliert werden. Dann findet die Abtrennung der Interpunktions- und Sonderzeichen statt, bei der im wesentlichen noch die Satzendeerkennung zu leisten ist. 4. Probleme Bislang existiert noch kein optimaler Algorithmus für die Tokenisierung. Neben den bereits genannten Problemen (sichere Satzendeerkennung, Behandlung der Ambiguität von Kontraktionen) bereiten die folgenden Aspekte notorische Schwierigkeiten: Erkennung und Unterscheidung von einfachen und doppelten Anführungszeichen und Apostroph Erkennung eingebetteter Sätze (z.b. Dies ist ein eingebetteter Satz) Entscheidung über die Komplexität von Token: Aus wievielen Token besteht Euro 300,-? Können z.b. runde Klammern Teil eines Tokens sein (s. Kohlendioxid(CO2)-Problematik)?

9 Vorverarbeitung Erkenntnis: der textuellen Einheiten: Tokenisierung Tokenisierung ist das Zerlegen einer Eingabekette in Einheiten, die die weitere computerlinguistische 9 Verarbeitung ermöglichen bzw. erleichtern, z.b. indem diesen Einheiten eine Wortart (partof-speech) zugewiesen werden kann. einfache Rekonstruktion Im Deutschen gibt es noch ein besonders unangenehmes (aber häufig vorkommendes) Problem: Auslassungen wie z.b. Ein- und Ausgang. Dies sind elliptische Konstruktionen, und einer brauchbarer Tokeniser für das Deutsche muss die vollständigen Formen rekonstruieren, wobei aber oft mehrere Rekonstruktionen denkbar sind: 1. Ein- und Aus gang Eingang und Ausgang Informations beschaffung und -verarbeitung alternierende Rekonstruktion 2. Text zugriff- und -verwaltungs systeme Textzugriffsysteme und Textverwaltungssysteme ambige Auslassungen 3. Anschaffungs- und Unterhalts kostenbilanz? Anschaffungs- und Unterhaltskosten bilanz * Anschaffungs- und Unter haltskostenbilanz 1. Das erste ist gut, weil eine der Zerlegung der Expansionen ist (Unterhaltskosten)bilanz), und ((Anschaffungskosten)bilanz) und ( Anschaffungskosten wie Unterhaltskosten sind ± feste Fachtermini, und erst noch parallel gebildete. 2. Das zweite ist nicht gut, weil Anschaffungsbilanz und Unterhaltskostenbilanz weder selbst Fachtermini sind noch sich in solche zerlegen lassen. 3. Das dritte ist ausgeschlossen, weil Anschaffungshaltskostenbilanz morphologisch nicht wohlgeformt ist.

10 10 5. Demos 5.1 Tokenizing II (L-Demos)[onl] Im folgenden finden sie zwei implementierte Tokenizer. Sie unterscheiden sich v.a. in folgenden Belangen: Covingtons Tokenizer oder Toni Arnolds Tokenizer ausprobieren! Ende der Lerneinheit Michael Hess 2002

11 Michael Hess 2002