Eingabeteil des Transduktors dient dazu, spezifische Sequenzen im Text zu erkennen. Der

Transkript

1 2 Lokale Grammatiken 2.1 Was sind lokale Grammatiken? Lokale Grammatiken kann man als Landkarten der Sprache bezeichnen (Mallchok, 2004 [55]), die einerseits Sequenzen von Wörtern, welche semantische Einheiten bilden, und andererseits syntaktische Strukturen beschreiben. Überdies geben sie noch Aufschluss über die morphosyntaktischen Eigenschaften, der darin beschriebenen Elemente, welche syntaktisch (Fairon, 2000 [23]) oder semantisch (Constant, 2000 [10]) geprägt sein können. Des Weiteren können sie in den verschiedensten Varianten für automatische Sprachverarbeitung auf Textkorpora nützlich sein. Besonders auf dem Gebiet der lexikalischen Disambiguierung werden lokale Grammatiken verstärkt eingesetzt (nach Blanc & Dister, 2004 [5]). Da Wortformen isoliert gesehen oft ambig sind, kann ein Teil von ihnen aber durch die Analyse des Kontextes disambiguiert werden. Der für die Disambiguierung relevante Kontext wird durch eine lokale Grammatik (Gross, 1997 [43]) beschrieben, die durch einen endlichen Automaten bzw. einen Transduktor repräsentiert wird. Lokale Grammatiken werden nicht nur für die Disambiguierung, sondern auch für andere Aufgaben genutzt, wie die Erkennung von Mehrwortlexemen und Komposita, die Repräsentation orthographischer Varianten im Lexikon, sowie die Überprüfung der Kongruenz oder Identifikation von Zeitangaben und anderen Entitäten (vgl. Blank, 1997 [6]). Endliche Automaten bzw. Transduktoren beschreiben komplexe linguistische Strukturen, die so nicht in einer Lexikongrammatik oder in elektronischen Wörterbüchern formalisiert werden könnten. Eigentlich sind Transduktoren endliche Automaten, die zusätzlich eine Ausgabe erzeugen, wenn die in der Definition des Automaten spezifizierte(n) Sequenz(en) erkannt wurde(n). Der Eingabeteil des Transduktors dient dazu, spezifische Sequenzen im Text zu erkennen. Der Ausgabeteil führt einerseits Substitutionen im Text aus, versieht andererseits identifizierte Sequenzen mit zusätzlichen Informationen (z.b. einer Wortklasse) oder fügt linguistische Markierungen (z.b. die Annotation von Phrasen) in den Text ein (nach Blank, 1997 [6]). In der Regel werden lokale Grammatiken in Form von Graphen (Silberztein, 1993 [84]) visualisiert. Die Kombination von parametrisierten Graphen mit einer Lexikongrammatik kann beispielsweise äußerst effektiv bei der syntaktischen Analyse einfacher Sätze sein (Paumier, 2001 [73] und Laporte, 2005 [53]). 16

2 Graphen sind sehr geeignete Repräsentationen für lokale Grammatiken, denn es gibt diverse Graphikprogramme, mit denen sich diese Graphen leicht erstellen, erweitern oder abändern lassen. Die beiden Systeme INTEX und Unitex bieten u.a. solche Zeichenprogramme für Automaten an. Jeder Graph besteht aus einem Anfangszustand, der durch einen Rechtspfeil symbolisiert wird. Dieser Rechtspfeil geht von keinem Zustand aus, sondern führt lediglich zu einem der nächsten Zustände im Graphen. Außerdem enthält jeder endliche Graph einen Endzustand, welcher meist durch einen doppelt umrandeten Kreis dargestellt wird. Die Graphen werden von links nach rechts interpretiert und so werden die möglichen Pfade abgelaufen und ihre Muster im Text gesucht. Bei den Systemen INTEX und Unitex steht jeder Zustand bzw. jeder Knoten für Wörter (mit oder ohne ihrer morphologischen Informationen) oder für Klassen aller Flexionsformen von Wörtern, wenn diese in spitzen Klammern notiert wurden. Somit werden die Eingabesequenzen des Transduktors nicht an den Übergängen zu den Zuständen genannt, sondern in den Zuständen selbst. Natürlich sind auch wie bei endlichen Automaten ǫ-transitionen erlaubt. Alle Transitionen werden durch Verbindungslinien zwischen den einzelnen Zuständen dargestellt. Das leere Wort wird als <E> in den Knoten angegeben. Es wird sogar gestattet Subgraphen innerhalb eines Automaten aufzurufen, was die Übersichtlichkeit der Graphen erhöht. Diese Subgraphen werden grau unterlegt, so dass eine Unterscheidung zwischen einem einfachen Zustand und einem Zustand, der einen weiteren Graphen aufruft, möglich wird. Die eben beschriebenen Graphen sind auch als gerichtete azyklische Graphen bekannt, da sie keinerlei Zyklen enthalten. Im englischen Sprachraum werden sie als Directed Acyclic Graphs bezeichnet und werden deshalb im deutschen Sprachraum häufig nur DAGs genannt. Mathematisch gesehen repräsentiert ein DAG eine Halbordnung. 2.2 Warum werden lokale Grammatiken verwendet? Die meisten Versuche linguistische Theorien oder Grammatiken zu entwickeln, welche umfassend und stark verallgemeinert beschreiben wollen, wie eine Sprache aufgebaut ist und wie Syntax, Morphologie und Semantik zusammenwirken, waren wenig befriedigend. Denn Ziel solch einer Grammatik sollte es immer sein, alle Sätze, die in einer Sprache möglich sind, abzudecken, und kein Satz, der mit dieser Grammatik gebildet werden konnte, durfte grammatikalisch oder semantisch unstimmig sein. Anfangs ging man an dieses Problem so heran, dass jede explizite Komponente im Satz durch ihre jeweilige grammatikalische Kategorie ersetzt wurde. Noam Chomsky fasste 1957 diese Grammatiken unter dem Begriff Kontextfreie Grammatik zusammen, musste aber einräumen, dass es immer noch einige Unzulänglichkeiten in Bezug auf die formale Repräsentation natürlicher Sprache gab. Diese Grammatiken beschrieben in der Regel nur einfache Sätze und gingen kaum die Abhängigkeiten der einzelnen Satzteile untereinander ein (Gross, 1997 [43]). Dagegen waren die späteren Ansätze von Zellig Sabbetai Harris und Noam Chomsky 17

3 schon spezieller, da sie inzwischen Bildungsregeln für die einfachen Sätze definierten und diese dann untereinander kombiniert wurden, so dass komplexe Sätze geformt wurden. Im Grunde war es damals schon ein kleiner Schritt in Richtung Diskursanalyse, den die beiden vollzogen. Denn sie legten Regeln fest, welche die Satzstellung innerhalb der einfachen Sätze variierten und einfache Sätze zu komplexen Satzgefügen verbanden. Irgendwann stellte sich dann heraus, dass diese theoretische Sichtweise der natürlichen Sprache, die immer komplexer werdenden Beschreibungsformalismen und die vielen Ausnahmen, welche sich in die Bildungsregeln eingeschlichen hatten, nicht mehr zu handhaben waren. Daraufhin besonnen sich viele Linguisten darauf das Phänomen Sprache anders zu erforschen. In ihrer Herangehensweise verhielten sie sich ähnlich wie Naturwissenschaftler, denn man muss keine Sätze erfinden - es gibt sie schon und man muss das Vorhandene erst einmal untersuchen, bevor neues automatisch generiert werden kann. Laut Gross findet man eine Grammatik im Text und muss sich nicht erst eine ausdenken. Deshalb sollte man als Linguist keine Theorie in die Welt setzen, bevor man nicht Korpusmaterial gesammelt hat und seinen Ansatz auf realem Text verifiziert hat. Denn indem Satzkorpora gebildet werden, deren syntaktische und semantische Struktur analysiert wird, entstehen indirekt schon Regeln zur Beschreibung der Sprache. Des Weiteren war Zellig S. Harris davon überzeugt, dass die Untersuchung von Subsprachen in Verbindung mit lokalen Grammatiken besonders vielversprechend sein dürfte, weil Subsprachen thematisch begrenzt sind, lexikalischen, syntaktischen und semantischen Restriktionen unterliegen, in ihren grammatikalischen Eigenschaften nicht der Allgemeinsprache gleichen, gewisse lexikalische Strukturen relativ häufig wiederholen in sich strukturiert sind und eine gewisse Symbolik verwenden. So können Elemente der Sprache, die in lokalen Grammatiken erfasst werden, als kleine, aber aussagekräftige Subsprachen gesehen werden und Beschreibungsversuche von Subsprachen würden in ihrer Repräsentation erweiterten lokalen Grammatiken entsprechen. Die Einschränkung der Sprache auf eine bestimmte Bezugsdomäne wie z.b. auf Wirtschaftsnachrichten und die damit verbundene Verwendung von themenspezifischen Fachvokabular rechtfertigen gewiss den Einsatz von lokalen Grammatiken. Aufgrunddessen sind lokale Grammatiken zur syntaktischen und semantischen Analyse von Menschenbezeichnern innerhalb biographischer Relationen sicherlich die richtige Entscheidung. 18

4 2.3 Unitex - Ein System zur Anwendung lokaler Grammatiken Allgemeines Unitex ist ein Korpusverarbeitungssystem, welches es ermöglicht, mit elektronischen Ressourcen wie z.b. elektronischen Lexika umzugehen und lokale Grammatiken zu entwickeln und anzuwenden. Dabei wird auf drei Ebenen der Sprache - der Morphologie, dem Lexikon und der Syntax - gearbeitet. Die Hauptfunktionen von Unitex sind u.a das Erzeugen, sowie die Anwendung und Verarbeitung elektronischer Wörterbücher, die Benutzung von regulären Ausdrücken zum Pattern Matching, die Interpretation rekursiver Transitionsnetze zum Pattern Matching, die Anwendung von lokalen Grammatiken und Lexikongrammatiken und die Auflösung von Ambiguitäten über den Text-Automaten. Das Konzept für das System Unitex wurde am LADL (Laboratoire d Automatique Documentaire und Linguistique) unter der Leitung von Prof. Maurice Gross entwickelt, und das dazugehörige Programm wurde am Institut Gaspard-Monge (IGM) der Université de Marne la Vallée von Sébastien Paumier implementiert. Derzeit werden für Unitex Lexika in 14 verschiedene Sprachen (Deutsch, Englisch, Finnisch, Französisch, Griechisch, Italienisch, Koreanisch, Norwegisch, Polnisch, Portugiesisch, Brasilianisches Portugiesisch, Russisch, Spanisch und Thai) angeboten. Da Unitex im Gegensatz zu INTEX frei verfügbar ist und unter der GNU GPL (GNU General Public License) steht, kann es im Grunde jeder benutzen. Außerdem stellt es ganz ähnliche Funktionen wie INTEX zur Verfügung und ist auf allen gängigen Betriebssystemen (Windows, Linux, MacOS) lauffähig. 6 Vorallem bietet Unitex eine komfortable und intuitiv bedienbare Oberfläche zur Entwicklung von Grammatiken. Dabei handelt es sich um eine Java-Oberfläche, von der aus diverse C++-Programme gesteuert werden Textvorverarbeitung Unitex arbeitet mit der Kodierung UTF-16 Little Endian und unterstützt somit den Unicode 3.0 Standard. Dadurch wird selbst die Verarbeitung asiatischer Sprachen ermöglicht. Zur Konvertierung der Texte empfiehlt sich das Programm Convert von Unitex. Nachdem Unitex mit der gewählten Sprache gestartet worden ist, kann man einen Text mit der Kodierung UTF-16 LE öffnen. Dabei wird gefragt, wie der Text vorverarbeitet werden soll. Die Textvorverarbeitung von Unitex setzt sich aus den Schritten

5 Normalisierung, Satzenderkennung, Auflösung von Kontraktionen, Tokenisierung und lexikalische Analyse des Korpuses zusammen Normalisierung Es ist Aufgabe des Programms Normalize die Normalisierung des Textes vorzunehmen, indem Folgen von Leerzeichen bzw. Zeilenumbrüchen durch ein Zeichen ersetzt werden. Gleichzeitig wird die interne Syntax von eventuell lexikalisch annotierten Token überprüft Satzenderkennung und Auflösung von Kontraktionen Unitex bietet eine sprachspezifische Satzenderkennung mittels lokaler Grammatiken in Form von Graphen an. Des Weiteren werden Kontraktionen wie z.b. I m zu I am oder you re zu you are aufgelöst und verschiedene Arten von Anführungszeichen vereinheitlicht Tokenisierung Hierfür ist das Programm Tokenize von Unitex zuständig. Die Tokenisierung wird aufgrund des Alphabets der jeweiligen Sprache vorgenommen. Die daraus resultierende Tokenliste wird für spätere Zwecke im Arbeitsverzeichnis des aktuellen Textes gespeichert Lexikalische Analyse Bei der lexikalischen Analyse werden alle Standardwörterbücher der jeweiligen Sprache und eventuell noch eigene Lexika auf die Tokenliste angewandt. Dabei kommt das Programm Dico zum Einsatz, welches alle Token mit der entsprechenden grammatikalischen oder semantischen Information aus den Lexika versieht. Alle Lexika, welche vom System Unitex verwendet werden sollen, müssen formal dem Standard der DELA Wörterbücher entsprechen DELA Wörterbücher [29] Das klassische Wörterbuch ist eine Sammlung von Wörtern oder einer Kategorie von Wörtern einer Sprache, die in der Regel in alphabetischer Ordnung mit Erläuterungen in derselben Sprache oder einer Übersetzung derer in eine andere Sprache aufgelistet sind (Lexis, 1975). Dagegen ist das elektronische Wörterbuch eine formale Repräsentation eines Lexikons, welche jeder Flexionsform ihr Lemma, genauso wie die entsprechende grammatikalische, Flexions- und eventuelle semantische Information zuweist (nach Sébastien Paumier) 7. Überdies hinaus wird von einem elektronischen Wörterbuch gefordert, dass es formal 7 Übersetzung aus dem Französischen 20

6 und vollständig ist, so dass es sich maschinell verarbeiten lässt und es von Programmen automatisch verändert werden kann. Theoretisch müsste es 100% des Lexikons abdecken, was allerdings kaum realisierbar ist. DELA ist ein elektronisches Wörterbuchsystem und steht für Dictionnaires électroniques du LADL (Laboratoire d Automatique Documentaire et Linguistique). In den 60er Jahren wurde es von Prof. Maurice Gross ins Leben gerufen, und war zunächst unter dem Namen Lexikon Grammatik bekannt. Das DELA ist eine formale Repräsentation der jeweiligen Sprache; das heißt, Spracheigenschaften werden strukturiert abgespeichert, wobei sowohl Vokabular als auch Morphologie berücksichtigt werden. Die DELA-Wörterbuchfamilie gliedert sich in folgende Teillexika: DELAS mots simples : Wörterbuch für die einfachen Wörter DELAC mots composés : Wörterbuch für die komplexen Wörter DELAF formes fléchies : Wörterbuch der einfachen Wörter, deren Flexionsmerkmale kodiert sind. DELACF mots composés avec les formes fléchies : Wörterbuch der komplexen Wörter, deren Flexionsmerkmale kodiert sind. Dabei werden als einfache Wörter ( mots simples ) Sequenzen zusammenhängender Buchstaben eines Alphabets einer bestimmten Sprache verstanden, wie z.b. angry,.a oder acually,.adv oder bodies,body.n:p. Dagegen sind komplexe Wörter ( mots composés ) Sequenzen zusammengesetzter lexikalischer Einheiten wie einfache Wörter, Trennzeichen oder Ziffern. Beispiele aus dem Französischen wären hierfür coup de chance,.n+ndn:ms (Glückstreffer) oder coup de pied,.n+ndn:ms (Fußtritt) oder das ambige coup de foudre,.n+ndn:ms (Liebe auf den ersten Blick /Blitzschlag). Die eben genannten Beispiele deuteten bereits an, dass hinter einem Eintrag im DELAF eine gewisse Symbolik steht. So besteht ein Lexikoneintrag im DELAF aus 5 verschiedenen Feldern: 1. Flektierte Form des Wortes 2. Lemma des Wortes (Kanonische Form) 3. Charakteristische Informationen zur Lemmaform 4. Grammatikalische Eigenschaften der flektierten Form 5. Optionale Ergänzungen für den menschlichen Betrachter Analog dazu wird ein Eintrag im DELACF gebildet. Dabei sollte man noch anmerken, dass das zweite Feld (die Lemmaform) immer dann leer ist, wenn sie mit der flektierten Form identisch ist. Dafür wird das vierte Feld (die grammatikalische Information für die flektierte Form) nicht belegt, wenn das Wort eindeutig ist, und es nicht variiert 21

7 werden kann. Außerdem wird das fünfte und letzte Feld (die Zusatzinformation) nur besetzt, wenn die flektierte Form - das Ausgangswort - ein Kompositum ist. Genau die gleichen Regeln gelten für Lexikoneinträge im DELAS und DELAC, nur dass hier die Flexionsinformation entfällt. An einem konkreten Beispiel würde dies nun folgendes bedeuten: bodies,body.n:p bodies : flektierte Form body : Lemmaform N : grammatikalische Information (Nomen) p : grammatikalische Eigenschaft der flektierten Form (Plural) Bei der Erstellung eigener Lexika sollte darauf geachtet werden, dass Mehrwortlexeme direkt im Lexikon kodiert werden, weil sonst Fehler bei der Tokenisierung gemacht werden. Wenn man nur ein Teilformenlexikon verwenden würde, könnte beispielsweise grand-mère nicht als ein Wort erkannt werden. Oft besteht auch die Möglichkeit Mehrwortlexeme wie grand-mère (Großmutter) anstatt des Bindestrichs mit einem Leerzeichen dazwischen zu schreiben. Dafür wäre dann grand=mères,grand=mère.n:fp der entsprechende Lexikoneintrag, denn das = ist ein Metazeichen, was für einen Bindestrich - und für ein Leerzeichen steht. Je nachdem wie ausführlich die Kodierung eines Lexikons mit diversen grammatikalischen oder semantischen Angaben vorgenommen wurde, spricht man von 3 Stufen der Lexikonkodierung: DELAF-S ( short ): Es werden minimale Angaben zur grammatikalischen Analyse der einzelnen Formen gemacht. Das heißt, dass lediglich Informationen zur jeweiligen Wortart und zur Flexion kodiert werden. Hier wird ausschließlich auf die Grammatik Bezug genommen. DELAF-M ( medium ): Die Lexikoneinträge werden um semantische Informationen zu den Nomina erweitert. Dabei wird spezifiziert, welche Eigenschaften das Nomen hat, z.b. ob es ein Menschenbezeichner Hum, ein Konkreta Conc oder ein Tier Anl etc. ist. Außerdem werden Determinativa DET und Pronomina PRO durch weitere Unterkategorien versehen. Auf diese Weise wird die Semantik miteinbezogen. DELAF-L ( large ): Hierbei werden die Wörterbucheinträge um die Lexikon- Grammatik der LADL ergänzt, so dass die syntaktischen Eigenschaften der Verben im Französischen markiert werden (Berücksichtigung der Syntax). Wie ausführlich nun ein Lexikoneintrag erstellt wird, hängt ganz von seiner späteren Funktion ab und über welche Art von Informationen er später angesprochen werden soll. Das heißt nichts anderes, als dass beispielsweise Nomina, welche die semantische Funktion eines Menschenbezeichners haben, auch als solche markiert werden sollten. 22

8 Legt man allerdings nachher Wert auf Kongruenzeigenschaften, so sollte man auf keinen Fall die grammatikalische Information außer Acht lassen Prioritäten bei der Anwendung der Lexika Unitex unterscheidet drei Prioritäten bei der Anwendung der Lexika, falls der Dateiname eines Lexikons (ohne die Endung.bin) auf - bzw. + endet: 1. *-.bin (höchste Priorität - diese Lexika werden vorrangig behandelt) 2. *.bin (durchschnittliche Priorität - diese Lexika werden zweitrangig behandelt) 3. *+.bin (niedrigste Priorität - diese Lexika werden zuletzt auf den Text angewandt) Token, die einem der Lexika einer Prioritätsebene gefunden wurden, werden in keinem Lexikon mit untergeordneter Priorität mehr nachgeschlagen. So lassen sich z.b. bestimmte Lesarten für ein Token erzwingen, da das höher priorisierte Lexikon wie ein Filter andere Bedeutungen aussiebt. Innerhalb einer Prioritätsebene werden alle Lexika gleichrangig behandelt, d.h. verschiedene Lesarten eines Tokens aus unterschiedlichen Lexika werden ins Textlexikon geschrieben Mustererkennung und Konkordanzen Wie bereits erwähnt, werden lokale Grammatiken im System Unitex als Graphen (DAGs) repräsentiert. Möchte man nun eine lokale Grammatik auf einem Korpus testen, so wählt man den entsprechenden Graphen aus, und das Programm Locate wendet diesen Graphen auf den Text an und erstellt den Index für eine Konkordanz. Dabei bietet Locate dem Benutzer verschiedene Arten der Textsuche an, bei der die kürzesten Treffer, die längsten Treffer oder alle Treffer ausgegeben werden. Außerdem lässt sich das Verhalten des Graphen steuern, falls es sich um einen Transduktor handelt. Es gibt folgende Möglichkeiten: Die Ausgabe des Transduktors bleibt unberücksichtigt. Die Ausgabe des Transduktors wird links vom Treffer eingefügt. Die gefundene Sequenz wird durch die Ausgabe des Transduktors ersetzt. Für das Anfertigen einer Konkordanz ist das Programm Concord zuständig. Es gibt einerseits die Konkordanz in verschiedenen Formaten aus (HTML, Text) und andererseits lässt sich die Länge des Kontextes und die Sortierweise der Treffer spezifizieren. 8 vgl. 23