Erkennung von Teilsatzgrenzen

Erkennung von Teilsatzgrenzen Maryia Fedzechkina Universität zu Köln Institut für Linguistik Sprachliche Informationsverarbeitung SoSe 2007 Hauptseminar Maschinelle Sprachverarbeitung

Agenda Definitionen von Teilsätzen Teilsatz: NLP Anwendungen Erkennung von Teilsatzgrenzen: Existierende Verfahren Erkennung von Teilsatzgrenzen durch Pattern Matching

Teilsatz Teilsatz (eng. Clause ) - a grammatical unit that includes, at minimum, a predicate and an explicit or implied subject, and expresses a proposition (Loos et al. 2004) Das ist offensichtlich ein Irrtum. (1 Satz, 1 Teilsatz) Das Buch ist sehr begehrt, <CB> was der Verlag zufrieden feststellt. (1 Satz, 2 Teilsätze)

Teilsatz Teilsatz a group of words containing one verb phrase (Collins 1990) Problem: semantische Ambiguitäten: The professor is teaching. (1 VP) The problem is teaching. (2 VPs) (Leffa 1998)

Finite vs. Infinite Teilsätze Finite Teilsätze enthalten ein finites Verb: Zehn Soldaten starben, als eine Rakete das Hauptquartier der Armee traf. Infinite Teilsätze enthalten ein infinites Verb: Am ganzen Körper zitternd, wandte er sich um. Sie ging ins Zimmer, um über das Gehörte nachzudenken. Er hörte den Hund bellen.

Verblose Teilsätze Quirk et al. (1985) definieren verblose Teilsätze: If wet, the pipe won t give you a good smoke. (If it is wet, the pipe won t give you a good smoke.) It has little taste, unless hot. (It has little taste, unless it is hot.) (Quirk et al. 1985)

Teilsatz: NLP Anwendungen Text-to-Speech Systeme, Question- Answering Systeme Parallel Text Alignment Maschinelle Übersetzung Shallow Parsing

Text-to-Speech Systeme Durch Informationen über Teilsatzgrenzen kann die Natürlichkeit der syntetischen Sprache verbessert werden (Ejehed 1988) Idee: Teilsatzgrenzen sind die Voraussetzung für die Setzung der Grenztönen, Pausen und finalen Dehnung

Parallel Text Alingment Parallel Text Alingment das Verfahren zu paralleler Repräsentation vom Text und seiner Übersetzungen Has the cat got your tongue? Вы что, язык проглотили? Problem: keine eins-zu-eins Übereinstimmung der Teilsätze; eingebettete Strukturen, Alignment von Phrasen

Maschinelle Übersetzung Idee: Verbesserung syntaktischer Struktur generierter Sätze durch Reduktion der Telsätze zu den Part-of-Speech Kategorien (Leffa 1998) That they refused the flowers surprises me. N V

Shallow Parsing Shallow Parsing (partielles Parsing) Parsingverfahren, das umfasst regelbasierte und statistische Verfahren zur partiellen Analyse des Satzes (Abney 1996) Idee: Im ersten Schritt die oberflächliche Satzstruktur zu ermitteln (minimal: Part-of-Speech Tagging, Chunking, Teilsatz- Segmentierung) Im zweiten Schritt schon ermittelte Teilsätze an den traditionellen Parser zu übergeben

Shallow Parsing Vorteile: Robustness (Attachment Ambiguitäten) Modulare Architektur (Wiederverwendbarkeit, einfachere Wartung) Geringerer Aufwand

Erkennung von Teilsatzgrenzen vs. Teilsatzerkennung Erkennung von Teilsatzgrenzen sagt nur aus, dass es eine Grenze der satzartigen Struktur gibt: Nur ein Projekt der Volkswagen AG, <CB> die ihre europäischen Vertragswerkstätten per Satellit vernetzen will, <CB> stößt in ähnliche Dimensionen vor. Teilsatzerkennung liefert weitere Informationen: segmentiert diskontinuierliche Elemente eines Teilsatzes: <C> Nur ein Projekt der Volkswagen AG, <C> die ihre europäschen Vertragswerkstätten per Satellit vernetzen will, <\C> stößt in ähnliche Dimensionen vor <\C>.

Erkennung von Teilsatzgrenzen: Existierende Verfahren Ejerhed (1988) entwirft eine Clause Grammar, die verschiedene Teilsätze des Englischen beschreiben soll. Die Grammatik besteht aus einer Menge von regulären Ausdrücken über Part-of-Speech Tags und Interpunktion.

Erkennung von Teilsatzgrenzen: Existierende Verfahren Clause Grammar Beispiele: XX SN -> XX <CB> SN Silvia hörte, <CB> wie sie schrieen. FIN DLMID FIN -> FIN DL MID <CB> FIN Der Mann, der Birnen verkauft, <CB> war gestern da. (Ejerhed 1996) Ein finite-state Parser wird eingesetzt, um die regulären Ausdrücke gegen die Eingabe zu matchen Fehlerrate 13%

Erkennung von Teilsatzgrenzen: Existierende Verfahren Papageorgiou (1997) verfeinert Ejerheds (1988) Verfahren durch Einsetzung des Clause Marker TAGging (CMTAG) Modules Aufgaben von CMTAG: Fehlerkorrektur von POS Tagging (Adjektive in satzinitialer Position werden als NN getaggt, Verb vor worden muss VVPP sein, etc.) Extension von POS Tags für komplexe Konjuktionen (wie so as, as thought, etc.) und Präpositionen (wie in order to, etc.) Fehlerrate: 7%

Erkennung von Teilsatzgrenzen: Existierende Verfahren Volk (2002) modifiziert Brills POS Tagger (Brill 1994) zum Clause Boundary Recognizer Erkennung von Teilsätzen wird durch Pattern Matching realisiert Patterns: 34 Patterns, meistens eine Bedingung in Zusammenhang mit Verb und Komma Fehlerate: 8% (kleines Test Korpus!)

Erkennung von Teilsatzgrenzen Was erkennen? Anwendungsorientiert (Text-to-Speech vs. Maschinelle Übersetzung, Sprache, etc.) Ressourcen orientiert (Baumbanken)

Baumbanken Baumbank Kopus, der mit syntaktischer Struktur annotiert ist (meistens in Form von Bäumen, evt. auch Graphen) Beispiele: Penn Treebank fürs Englische NeGra, TIGER fürs Deutsche

TIGER Korpus Wird an der Universität des Saarlandes, Universität Stuttgart, Universität Potsdam entwickelt Enthält ca. 50.000 syntaktisch annotierte Sätze aus Frankfurter Rundschau Annotatiosmethode: semi-automatisch (LFG Parsing + manuelle Nachbearbeitung)

TIGER: Ebenen der Annotation Part-of-Speech: Information über Wortklassen Morphologische Informationen: nur die Kategorien, die für Flexion relevant sind (z.b. Genus, Numerus, Kasus, etc.) Phrasenstruktur (z.b. NP, VP, etc.) Syntaktische Funktionen (z.b., Subjekt, Objekt, etc.)

TIGER: Beispiel

TIGER Teilsatzannotation: Besonderheiten Als Teilsätze (S) werden ausschließlich finite Teilsätze annotiert Koordinierte Verben werden als separate Teilsätze annotiert: Sie entwickelt <CB> und <CB> druckt Verpackungen und Etiketten.

Mithilfe von TigerAPI wurden aus dem TIGER Korpus extrahiert: Finite Teilsätze Infinite (Infinitiv und Partizip) Teilsätze Part-of-Speech Informationen für jeden Token Der ART X Deutschen ADJA X Presse-Agentur NN X sagte VVFIN X er PPER X, $, <CB> Bonn NE X ignoriere VVFIN X Absprachen NN X von APPR X Bund NN X und KON X Ländern NN X. $. X

Aufbau des Systems Satzerkenner Teilt den Text in Sätze auf Tokenizer Teilt den Text in Tokens auf Part-of-Speech Tagger Taggt Tokens mit POS Informationen Clause Boundary Recognizer Führt Pattern Matching durch

Patterns: Beispiele subs: {PWS PWAT PWAV KOUS KOKOM} nebensatzeinleitende Konjunktionen [^^] subs -> <CB> subs Es ist wichtig, dass sie einmal kommt. Aber nicht: Dass sie einmal kommt, ist wichtig.

Quellen Loos, E. E., Anderson, S., Day, D. H. Jr., Jordan, P. C., Wingate, J. D. (2004). Glossary of Linguistic Terms. Online at: <http://www.sil.org/linguistics/glossaryoflinguisticterms/>. Quirk, R., Greenbaum, S., Leech, G., Svartvik, J. (1985). A Comprehensive Grammar of the English Language. Longman: London and New York. Collins. (1990). Collins Cobuild English Grammar. Collins: London and Glasgow. TIGER Project. (2000). TIGER Project: Online Documentation. Online at: < http://www.ims.uni-stuttgart.de/projekte/tiger/>.

Quellen Abney, S. (1996). Parsing by Chunks. Online at: <citeseer.ist.psu.edu/58210.html> Ejerhed, E. I. (1988). Finding Clauses in Unrestricted Text by Finitary and Stochastic Methods. Online at <citeseer.ist.psu.edu/eva88finding.html>. Leffa, V. J. (1998). Clause Processing in Complex Sentences. Online at <citeseer.comp.nus.edu.sg/context/1513168/0>.

Quellen Ejerhed, E. I. (1996). Finite state segmentation of discourse into Clauses. In A. Kornai (Ed.). ECAI Workshop: Extended Finite State Models of Language. Volk, M. (2001). The Automatic Resolution of Prepositional Phrase - Attachment Ambiguities in German. Habilitation thesis, University of Zurich, Faculty of Arts. Zurich. Brill, E. (1994). Some advances in rule-based part of speech tagging In Proceedings of the 12th National Conference on Artificial Intelligence (AAAI-94). Seattle, Washington, USA, pp. 722 727. Online at < citeseer.ist.psu.edu/266533.html>.

Quellen Papageorgiou, H. (1997), Clause Recognition in the Framework of Alignment. In Mitkov, R., Nicolov, R. (Eds.) Proceedings of the 2nd Conference on Recent Advances in Natural Language Processing (RANLP-97). Amsterdam/Philadelphia: John Benjamins, pp. 417 425.