Erkennung von Teilsatzgrenzen

Ähnliche Dokumente
Lösungsvorschlag für das Übungsblatt 8. Aufgabe1.

Kontextfreie Grammatiken

"What's in the news? - or: why Angela Merkel is not significant

Satz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung

Semantic Role Labeling

Part-of-Speech Tagging. Stephanie Schuldes

Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets

Analyse von Beurteilungen räumlicher Objekte in natürlich sprachlichen Texten Sarah Tauscher, Karl Neumann

Proseminar Linguistische Annotation

Tagger for German. Online BRILL-Tagger für das Deutsche

Erweiterung des STTS für gesprochene Sprache

Part of Speech Tagging. Linguistische Sicht. Carolin Deck

Part-of-Speech-Tagging mit Transduktoren

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Part-of-Speech-Tagging mit Transduktoren

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Speech Recognition Grammar Compilation in Grammatikal Framework. von Michael Heber

PROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Aux Flip in German: A Walk in the Woods

Named Entity Recognition (NER)

Maschinelle Sprachverarbeitung: Probabilistische, kontextfreie Grammatiken

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Einführung in die Computerlinguistik

Semantic Role Labeling im modernen Text-Analyse-Prozess

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Paul Prasse Michael Großhans

Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen

Chunk Linking und Chunk Attachment

Overview. Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1

Chunk Linking und Chunk Attachment

Tutorium Prolog für Linguisten 12

Annotation des Wittgenstein-Korpus mit Wortart-Information

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Uwe Dick Paul Prasse


Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik

Englisch Klasse 8 - Name:

Künstliche Intelligenz

Hidden Markov Models in Anwendungen

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Informationsextraktion

Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können

NLP Eigenschaften von Text

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Paul Prasse

German translation: technology

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)

FASTUS: Ein System zur Informationsextraktion mit Transduktoren

Seminar Sicherheit und Softwareengineering WS 2013 / Isabell Kullack FEHLERANALYSE VON REQUIREMENTS DOCUMENTS

Sprachsynthese: Part-of-Speech-Tagging

Automatentheorie und formale Sprachen reguläre Ausdrücke

FACULTY OF LANGUAGES

Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Beispiel: eine kleine kontextfreie Grammatik (cf. [BKL09], Ch. 8.

Chunk linking und Chunk attachment

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Inhalt. Topics and Worksheets Vorwort Hinweise zum ActiveBook

Formale Methoden III - Tutorium

Einführung in die Computerlinguistik

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

FACULTY OF LANGUAGES

Vorbesprechung Mathe III

8. Mai Humboldt-Universität zu Berlin. LingPipe. Mark Kibanov und Maik Lange. Index. Allgemeine Infos. Features

Improving Part-Of-Speech Tagging for Social Media via Automatic Spelling Error Correction

Kombiniertes transformations-basiertes Lernen erweiterter Chunks

Faktivität und Theory of Mind / Komplexe Syntax und Theory of mind

HEALTH Institut für Biomedizin und Gesundheitswissenschaften

Erkennung und Visualisierung attribuierter Phrasen in Poetiken

Korpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller.

Grundkurs Linguistik Wintersemester 2014/15. Syntax. Anja Latrouite

Satzklammer annotieren und Tags korrigieren Ein mehrstufiges Top-Down-Bottom-Up - System zur flachen, robusten Annotierung von Sätzen im Deutschen

Semantik und Pragmatik

Künstliche Intelligenz Sprachverarbeitung mit Prolog

Grade 12: Qualifikationsphase. My Abitur

Hidden Markov Models in Anwendungen

Einführung in die Computerlinguistik. Morphologie III

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Thomas Vanck

Institut für Informatik Lehrstuhl Maschinelles Lernen

"Niels Meyer" Definition:

Einführung in unifikationsbasierte Grammatikformalismen

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

Diskriminatives syntaktisches Reranking für SMT

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging

Textmining Wissensrohstoff Text

Terminologie-Extraktion: Beispiel

DIBELS TM. German Translations of Administration Directions

Harry gefangen in der Zeit Begleitmaterialien

Der VITERBI-Algorithmus

Tagging von Online-Blogs

Grammatikformalismen SS 2007 Ausgewählte Musterlösungen Schreiben Sie eine LFG-Grammatik, die Sätze der folgenden Form erkennt:

Probabilistische kontextfreie Grammatiken und Parsing. Sebastian Pado

FACULTY OF LANGUAGES

Im Original veränderbare Word-Dateien

Transkript:

Erkennung von Teilsatzgrenzen Maryia Fedzechkina Universität zu Köln Institut für Linguistik Sprachliche Informationsverarbeitung SoSe 2007 Hauptseminar Maschinelle Sprachverarbeitung

Agenda Definitionen von Teilsätzen Teilsatz: NLP Anwendungen Erkennung von Teilsatzgrenzen: Existierende Verfahren Erkennung von Teilsatzgrenzen durch Pattern Matching

Teilsatz Teilsatz (eng. Clause ) - a grammatical unit that includes, at minimum, a predicate and an explicit or implied subject, and expresses a proposition (Loos et al. 2004) Das ist offensichtlich ein Irrtum. (1 Satz, 1 Teilsatz) Das Buch ist sehr begehrt, <CB> was der Verlag zufrieden feststellt. (1 Satz, 2 Teilsätze)

Teilsatz Teilsatz a group of words containing one verb phrase (Collins 1990) Problem: semantische Ambiguitäten: The professor is teaching. (1 VP) The problem is teaching. (2 VPs) (Leffa 1998)

Finite vs. Infinite Teilsätze Finite Teilsätze enthalten ein finites Verb: Zehn Soldaten starben, als eine Rakete das Hauptquartier der Armee traf. Infinite Teilsätze enthalten ein infinites Verb: Am ganzen Körper zitternd, wandte er sich um. Sie ging ins Zimmer, um über das Gehörte nachzudenken. Er hörte den Hund bellen.

Verblose Teilsätze Quirk et al. (1985) definieren verblose Teilsätze: If wet, the pipe won t give you a good smoke. (If it is wet, the pipe won t give you a good smoke.) It has little taste, unless hot. (It has little taste, unless it is hot.) (Quirk et al. 1985)

Teilsatz: NLP Anwendungen Text-to-Speech Systeme, Question- Answering Systeme Parallel Text Alignment Maschinelle Übersetzung Shallow Parsing

Text-to-Speech Systeme Durch Informationen über Teilsatzgrenzen kann die Natürlichkeit der syntetischen Sprache verbessert werden (Ejehed 1988) Idee: Teilsatzgrenzen sind die Voraussetzung für die Setzung der Grenztönen, Pausen und finalen Dehnung

Parallel Text Alingment Parallel Text Alingment das Verfahren zu paralleler Repräsentation vom Text und seiner Übersetzungen Has the cat got your tongue? Вы что, язык проглотили? Problem: keine eins-zu-eins Übereinstimmung der Teilsätze; eingebettete Strukturen, Alignment von Phrasen

Maschinelle Übersetzung Idee: Verbesserung syntaktischer Struktur generierter Sätze durch Reduktion der Telsätze zu den Part-of-Speech Kategorien (Leffa 1998) That they refused the flowers surprises me. N V

Shallow Parsing Shallow Parsing (partielles Parsing) Parsingverfahren, das umfasst regelbasierte und statistische Verfahren zur partiellen Analyse des Satzes (Abney 1996) Idee: Im ersten Schritt die oberflächliche Satzstruktur zu ermitteln (minimal: Part-of-Speech Tagging, Chunking, Teilsatz- Segmentierung) Im zweiten Schritt schon ermittelte Teilsätze an den traditionellen Parser zu übergeben

Shallow Parsing Vorteile: Robustness (Attachment Ambiguitäten) Modulare Architektur (Wiederverwendbarkeit, einfachere Wartung) Geringerer Aufwand

Erkennung von Teilsatzgrenzen vs. Teilsatzerkennung Erkennung von Teilsatzgrenzen sagt nur aus, dass es eine Grenze der satzartigen Struktur gibt: Nur ein Projekt der Volkswagen AG, <CB> die ihre europäischen Vertragswerkstätten per Satellit vernetzen will, <CB> stößt in ähnliche Dimensionen vor. Teilsatzerkennung liefert weitere Informationen: segmentiert diskontinuierliche Elemente eines Teilsatzes: <C> Nur ein Projekt der Volkswagen AG, <C> die ihre europäschen Vertragswerkstätten per Satellit vernetzen will, <\C> stößt in ähnliche Dimensionen vor <\C>.

Erkennung von Teilsatzgrenzen: Existierende Verfahren Ejerhed (1988) entwirft eine Clause Grammar, die verschiedene Teilsätze des Englischen beschreiben soll. Die Grammatik besteht aus einer Menge von regulären Ausdrücken über Part-of-Speech Tags und Interpunktion.

Erkennung von Teilsatzgrenzen: Existierende Verfahren Clause Grammar Beispiele: XX SN -> XX <CB> SN Silvia hörte, <CB> wie sie schrieen. FIN DLMID FIN -> FIN DL MID <CB> FIN Der Mann, der Birnen verkauft, <CB> war gestern da. (Ejerhed 1996) Ein finite-state Parser wird eingesetzt, um die regulären Ausdrücke gegen die Eingabe zu matchen Fehlerrate 13%

Erkennung von Teilsatzgrenzen: Existierende Verfahren Papageorgiou (1997) verfeinert Ejerheds (1988) Verfahren durch Einsetzung des Clause Marker TAGging (CMTAG) Modules Aufgaben von CMTAG: Fehlerkorrektur von POS Tagging (Adjektive in satzinitialer Position werden als NN getaggt, Verb vor worden muss VVPP sein, etc.) Extension von POS Tags für komplexe Konjuktionen (wie so as, as thought, etc.) und Präpositionen (wie in order to, etc.) Fehlerrate: 7%

Erkennung von Teilsatzgrenzen: Existierende Verfahren Volk (2002) modifiziert Brills POS Tagger (Brill 1994) zum Clause Boundary Recognizer Erkennung von Teilsätzen wird durch Pattern Matching realisiert Patterns: 34 Patterns, meistens eine Bedingung in Zusammenhang mit Verb und Komma Fehlerate: 8% (kleines Test Korpus!)

Erkennung von Teilsatzgrenzen Was erkennen? Anwendungsorientiert (Text-to-Speech vs. Maschinelle Übersetzung, Sprache, etc.) Ressourcen orientiert (Baumbanken)

Baumbanken Baumbank Kopus, der mit syntaktischer Struktur annotiert ist (meistens in Form von Bäumen, evt. auch Graphen) Beispiele: Penn Treebank fürs Englische NeGra, TIGER fürs Deutsche

TIGER Korpus Wird an der Universität des Saarlandes, Universität Stuttgart, Universität Potsdam entwickelt Enthält ca. 50.000 syntaktisch annotierte Sätze aus Frankfurter Rundschau Annotatiosmethode: semi-automatisch (LFG Parsing + manuelle Nachbearbeitung)

TIGER: Ebenen der Annotation Part-of-Speech: Information über Wortklassen Morphologische Informationen: nur die Kategorien, die für Flexion relevant sind (z.b. Genus, Numerus, Kasus, etc.) Phrasenstruktur (z.b. NP, VP, etc.) Syntaktische Funktionen (z.b., Subjekt, Objekt, etc.)

TIGER: Beispiel

TIGER Teilsatzannotation: Besonderheiten Als Teilsätze (S) werden ausschließlich finite Teilsätze annotiert Koordinierte Verben werden als separate Teilsätze annotiert: Sie entwickelt <CB> und <CB> druckt Verpackungen und Etiketten.

Mithilfe von TigerAPI wurden aus dem TIGER Korpus extrahiert: Finite Teilsätze Infinite (Infinitiv und Partizip) Teilsätze Part-of-Speech Informationen für jeden Token Der ART X Deutschen ADJA X Presse-Agentur NN X sagte VVFIN X er PPER X, $, <CB> Bonn NE X ignoriere VVFIN X Absprachen NN X von APPR X Bund NN X und KON X Ländern NN X. $. X

Aufbau des Systems Satzerkenner Teilt den Text in Sätze auf Tokenizer Teilt den Text in Tokens auf Part-of-Speech Tagger Taggt Tokens mit POS Informationen Clause Boundary Recognizer Führt Pattern Matching durch

Patterns: Beispiele subs: {PWS PWAT PWAV KOUS KOKOM} nebensatzeinleitende Konjunktionen [^^] subs -> <CB> subs Es ist wichtig, dass sie einmal kommt. Aber nicht: Dass sie einmal kommt, ist wichtig.

Quellen Loos, E. E., Anderson, S., Day, D. H. Jr., Jordan, P. C., Wingate, J. D. (2004). Glossary of Linguistic Terms. Online at: <http://www.sil.org/linguistics/glossaryoflinguisticterms/>. Quirk, R., Greenbaum, S., Leech, G., Svartvik, J. (1985). A Comprehensive Grammar of the English Language. Longman: London and New York. Collins. (1990). Collins Cobuild English Grammar. Collins: London and Glasgow. TIGER Project. (2000). TIGER Project: Online Documentation. Online at: < http://www.ims.uni-stuttgart.de/projekte/tiger/>.

Quellen Abney, S. (1996). Parsing by Chunks. Online at: <citeseer.ist.psu.edu/58210.html> Ejerhed, E. I. (1988). Finding Clauses in Unrestricted Text by Finitary and Stochastic Methods. Online at <citeseer.ist.psu.edu/eva88finding.html>. Leffa, V. J. (1998). Clause Processing in Complex Sentences. Online at <citeseer.comp.nus.edu.sg/context/1513168/0>.

Quellen Ejerhed, E. I. (1996). Finite state segmentation of discourse into Clauses. In A. Kornai (Ed.). ECAI Workshop: Extended Finite State Models of Language. Volk, M. (2001). The Automatic Resolution of Prepositional Phrase - Attachment Ambiguities in German. Habilitation thesis, University of Zurich, Faculty of Arts. Zurich. Brill, E. (1994). Some advances in rule-based part of speech tagging In Proceedings of the 12th National Conference on Artificial Intelligence (AAAI-94). Seattle, Washington, USA, pp. 722 727. Online at < citeseer.ist.psu.edu/266533.html>.

Quellen Papageorgiou, H. (1997), Clause Recognition in the Framework of Alignment. In Mitkov, R., Nicolov, R. (Eds.) Proceedings of the 2nd Conference on Recent Advances in Natural Language Processing (RANLP-97). Amsterdam/Philadelphia: John Benjamins, pp. 417 425.