Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation

Überblick VL: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2004 kurze Wiederholung syntaktische phonetische/phonologische Tokenbasierte pos-tagging & Lemmatisierung ist (meistens) tokenbasiert, dh. jedes Token erhält einen Tag weitere tokenbasierte Tags könnten sich z.b. auf Betonungmuster, Bedeutung, Konzept etc. beziehen en, die sich auf kleinere Einheiten beziehen: Morpheme, phonetische en etc. en, die sich auf größere Einheiten beziehen: syntaktische en (Phrasen, Sätze), Diskursstrukturen, Mehrwortlexeme etc.

Syntaktische : Definitionen Festlegung eines Tagsets Knotenlabel Kantenlabel Festlegung von grammatischen Beziehungen NB Festlegung eines mathematischen Modells (Graph, Baum etc.) NB: syntaktische Theorien (stark vereinfacht!) es gibt viele verschiedene Syntaxtheorien mit unterschiedlichen Zielsetzungen, Grundannahmen, Beschreibungsmitteln etc. syntaktische Theorien sind Modelle man versucht, die syntaktischen (Oberflächen)strukturen komplexer Ausdrücke möglichst plausibel und konsistent darzustellen NB: syntaktische Theorien (stark vereinfacht!) 'traditionelle' Grammatik Ziel: Beschreibung der Oberflächenstrukturen, 'traditionelle' (aus der lateinischen Grammatik stammende) Begriffe generative Grammatik Ziel: zugrundeliegendes produktives Regelsystem soll beschrieben werden NB: syntaktische Theorien (stark vereinfacht!) generative Theorien können regelbasiert sein (GB) können constraintbasiert sein (HPSG) können modular aufgebaut sein (GB, LFG) können zeichenbasiert aufgebaut sein (HPSG)...

Syntaktische : Verfahren für jedes gewünschte syntaktische Ergebnis gibt es unterschiedliche sverfahren manuelle /semi-automatische ressourcenintensiv fehleranfällig (daher oft doppelte dann sehr hoher Standard) eindeutig Syntaktische : Verfahren automatische (Parsing oder Chunking) schnell, wenig ressourcenintensiv, hohe Ambiguität, fehleranfällig regelbasiert, constraintbasiert, statistisch, hybrid Baumbank (tree bank) Korpus, das mit syntaktischer Struktur annotiert ist (meist Bäume, aber evtl. auch Syntaxgraphen wie bei TIGER) dabei kann die Struktur für ganze Sätze vergeben werden oder auch nur für Teile, wie zb Nominalphrasen Wozu eine Baumbank? Suche nach bestimmten syntaktischen Strukturen (zb geschachtelten Relativsätzen) als Beispiele für quantitative Untersuchungen zur Lexikonentwicklung (Valenzinformationen, Subkategorierungsinformationen etc.) Trainingsmaterial für statistische Parser

Qualitätsmerkmale einer BB allgemein Korpussprache Korpusumfang Verfügbarkeit Qualität der Vorverarbeitung für Baumbanken zusätzlich Detailliertheit der syntaktischen Kategorien und en (funktionale Kategorien?, Koreferenzen?) stiefe Baumbanken für s Deutsche NeGra (Universität Saarbrücken) Zeitungstext Verbmobil (Universität Tübingen) Terminabsprachedialoge TIGER (Universität Stuttgart, Universität Saarbrücken, Universität Potsdam) Zeitungstext Nachfolgeprojekt von NeGra Ein Beispiel: TIGER Ziel: von ca. 50.000 Sätzen Zeitungstext (Frankfurter Rundschau, alle Domänen) mit TIGER-Graphstrukturen (TIGER Description Language) 1. TIGER-Korpus entstanden im Projekt TIGER (1999 heute) beteiligte Institute CoLi Saarbrücken (Uszkoreit) IMS Stuttgart (Rohrer) Germanistik Potsdam (Eisenberg) URL: http://www.ims.uni-stuttgart.de/projekte/tiger

TIGER-Korpus Zeitungstext (Frankfurter Rundschau) baut auf NEGRA-Korpus auf mehr Sätze detailliertere Version 1 veröffentlicht Juli 2003 40.000 Sätze (700.000 Tokens) TIGER-Korpus: sebenen Wörter/Tokens annotiert mit Wortart (POS), nach STTS Morphologie, Lemma (in Arbeit) Syntax Kategorie (Knoten) Funktion (Kantenlabel) TIGER-Korpus: Syntax- (möglichst) theorieunabhängig kreuzende Kanten für nicht-lokale Abhängigkeiten (keine Spuren) NPs: keine Kopfauszeichnung (D vs. N als Kopf) sekundäre Kanten für Ellipsen etc. platzsparend flache Strukturen (keine unären Knoten, flache PP) virtueller Wurzelknoten Bsp: NPs, flache Strukturen

Bsp: kreuzende Kanten (Topikalisierung) Bsp: kreuzende Kanten (Extraposition) Bsp: sekundäre Kanten (Subjektslücke) Bsp: sekundäre Kanten (Ellipse+Gapping)

semi-automatische mit 1. Tool annotate, statistisch (Saarbrücken) 2. LFG-Grammatik, symbolisch (IMS Stuttgart) Konsistenzsicherung 2-malige, voneinander unabhängige (ca. 2x 50 sec/satz; Satz mit Ø 17,8 Tokens) anschließend Vergleich (> 2 min/satz) via annotate 1. POS-Tagging statistischer TnT-Tagger schlägt wahrscheinlichsten POS-Tag vor korrekte Tags: 84% 2. Phrasen/Konstituenten syntaktische Struktur wird sukzessive erstellt, statistischer Parser macht Vorschläge korrekte Phrasen: 71% Abfragesprachen man braucht eine Abfragesprache, die Baum- oder Graphenstrukturen durchsuchen kann (Präzedenz, Dominanz etc.) zb TIGERSearch (Universität Stuttgart) TIGERSearch kann Bäume und Syntaxgraphen darstellen und durchsuchen textuelle und graphische Abfrage möglich Baumbanken-Zusammenfassung Baumbanken sind eine wichtige Ressource (leider sehr 'teuer', daher gibt's noch nicht so viele) man muss das zugrundeliegende Grammatikmodell kennen man muss die sweise kennen man braucht eine eigene Abfragesprache

Warum phonetische/ phonologische linguistisch Überprüfung von syntaktischen/semantischen etc. Hypothesen (zb: Unterschied von depiktiven und resultativen Strukturen, Einfluss von Hutkontur auf Quantorenskopus, Fokus, Kontrast,...) Sprachvariation: Dialektforschung, Fremdwörter innerhalb einer Sprache, Akzent,... Warum phonetische/ phonologische linguistisch phonetisch/phonologische Forschung: phonologische Phrasen, Merkmale von Stress Forschung an Phänomenen gesprochener Sprache: Häsitationen, Selbstverbesserungen, Unterbrechungen, Wortschatz, Strukturunterschiede zu geschriebener Sprache,... Warum phonetische/ phonologische computerlinguistisch Trainingsmaterial für Spracherkennung (Automatic Speech Recognition, ASR) und Synthese (Text-to- Speech, TTS) als Grundlage von komplexen computerlinguistischen Systemen (Dialogsysteme, Maschinelle Übersetzung etc.) korpuslinguistisch: Hilfe bei der Desambiguierung von ambigen Tags, Strukturen etc. (Tenor, darauf, wir müssen noch einen Termin ausmachen) Phonetische/Phonologische von Sprachkorpora Ausgangspunkt: Sprachsignal Transkription in graphemische Ausgabe phonetische phonetische Transkription phonetische von Prosodie phonologische phonologische Repräsentation von Intonation phonologische Phrasen

Einschub: verschiedene Ebenen Man sieht, dass man hier verschiedene linguistische sebenen nur getrennt annotieren kann, sie dann aber einander zuordnen möchte stand-off- (verschiedene XML-Dateien, die durch eine Zeitachse miteinander verbunden sind) phonetische Transkription Das Sprachsignal muss in eine graphemische Repräsentation umgesetzt werden. Das geschieht entweder manuell, semi-automatisch oder ganz automatisch (statistische Verfahren, HMM, siehe zb Knill & Young 1997). Die Aufgabe ist schwierig Variation zwischen SprecherInnen/bei einer Sprecherin verbundene Sprache: Segmentierung schwierig man muss zwischen mehreren Hypothesen auswählen phonetische Transkription graphemisch orthographisch phonetisch: IPA-Symbole, schweirig darzustellen, daher SAMPA phonetische von Prosodie Frequenz (f0-kontur) Lautstärke Tonhöhe Pausen

Phonologische Repräsentation von Intonation suprasegmentale viele Schemata, abhängig von der jeweiligen phonologischen Theorie zb: ToBI (Tone and Break Indices), GToBI (German Tone and Break Indices) (folgende Abbildung aus http://www.coli.unisb.de/phonetik/projects/tobi/index_training.html): Tonveränderungen werden markiert phonologische manuell: schwierig, Differenzen zwischen AnnotatorInnen, zt sehr subtile Unterschiede typische Fehler: AnnotatorInnen verbessern Fehler im Sprachsignal, Satzzeichen daher besser (weil reproduzierbar): automatische Dialoge besonderes Problem: überlappende Sprache von mehreren SprecherInnen auch hier wieder: stand-off mit Zeitachse FU Prof. Dittmar, HU Patrick Grommes

Literatur Knill, K. & Young, S. (1997) Hidden Markov Models in Speech and Language Processing. In: Young, S. & Bloothooft, G. (eds) Corpus-Based Methods in Language and Speech Processing für GToBI: http://www.coli.uni-sb.de/phonetics/ für SAMPA: Literatur Dank an Stefanie Dipper für Folien zu TIGER Lezius, Wolfgang (2001) Baumbanken. In: Carstensen et al. (eds) Computerlinguistik und Sprachtechnologie. Eine Einführung. Spektrum Verlag, Heidelberg, 377 385 zu TIGER: http://www.ims.uni-stuttgart.de/projekte/tiger/annotation/sampler/ & die dort enthaltenen Beschreibungen König & Lezius The TIGER language Smith A Brief Introduction to the TIGER Sample Corpus