Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation

Ähnliche Dokumente
Lemmatisierung. Einführung in die Korpuslinguistik. Lemmatisierung und Wortarttagging. Lemmatisierung. zum Erinnern... zum Erinnern...

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Projektseminar "Texttechnologische Informationsmodellierung"

Einführung in die Computerlinguistik

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik

Proseminar Linguistische Annotation

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Wortfinales Schwa in BeMaTaC: L1 vs. L2. Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin

Organisatorisches: Poster. Einführung in die Korpuslinguistik. Organisatorisches: Poster. Organisatorisches: Poster. Organisatorisches: Poster

Spracherkennung und Sprachsynthese

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Überblick. Hauptseminar: Einführung in die Korpuslinguistik. Wiederholung Produktivität. Wiederholung Produktivität. Fragen

Kontextfreie Grammatiken

Computerlinguistik und Sprachtechnologie

Lösungsvorschlag für das Übungsblatt 8. Aufgabe1.

Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora

Computerlinguistik und Sprachtechnologie

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Überblick. Linguistische Grundlagen für die maschinelle Sprachverarbeitung. Was ist Linguistik? Linguistik. Generative Linguistik

Sprachproduktion. Psycholinguistik (7/11; HS 2010/2011 Vilnius, den 26. Oktober 2010

Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.

Einführung Computerlinguistik. Konstituentensyntax II

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister

Syntax und Phonologie: Prosodische Phrasen

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen

Äquivokationen. In der Spracherkennung. Michael Baumann Seminar (mit Bachelorarbeit)

Vorlesung: Einführung in die Computerlinguistik. VL: Einführung in die Computerlinguistik

PROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Grundlagen empirischer Forschung. Korpuslinguistik Heike Zinsmeister WS 2009/10

Gesprochenes Deutsch

fsq Ein Abfragesystem für syntaktisch annotierte Baumbanken

Linguistische Aufbereitung. Stefanie Dipper Stefan Evert Heike Zinsmeister

Erkennung und Erzeugung gesprochener Sprache

Linguistische Grundlagen für die maschinelle Sprachverarbeitung

Part-of-Speech Tagging. Stephanie Schuldes

Programmierkurs Python II

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

Erweiterung des STTS für gesprochene Sprache

Ausgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW Subject: MTZH

2 Sprachliche Einheiten

Elementare Wahrscheinlichkeitslehre

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Was ist Statistik? Wozu dienen statistische Methoden?

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

NLP Eigenschaften von Text

Terminologie-Extraktion: Beispiel

Wortstellung nominaler Elemente im Mittelfeld

Der VITERBI-Algorithmus

. How Complex are Complex Predicates? K. Maiterth, A. Domberg. Seminar: Komplexe Verben im Germanischen Universität Leipzig Problem..

Automatentheorie und formale Sprachen

Eine nebenläufige Syntax-Semantik-Schnittstelle für Dependenzgrammatik 1

Charts. Motivation. Grundfrage. Chart als Graph

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 18/19 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistik: Ein Überblick

Sprachsynthese und SSML

Erkennung und Erzeugung gesprochener Sprache

Probabilistische kontextfreie Grammatiken

Viterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes

! Die Idee Kombination von Informatik und einem anderen Fach

NLP - Analyse des Wissensrohstoffs Text

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Wiederholung: Linguistische Daten. HS Korpuslinguistische Beschreibung von Phänomenen des Deutschen. Organisatorisches. Wiederholung: Korpusdaten

NLP - Analyse des Wissensrohstoffs Text

Sprache beginnt ohne Worte. Vorsprachliche Entwicklung und die Bedeutung der frühen Elternarbeit

Sprachsynthese - ein Überblick

Ausgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW Subject: MTZH

Computational Prosody: Symbolische Beschreibung von Intonationskonturen. Uwe D. Reichel IPSK, LMU München

Die Form der Intona.on: Das AM Modell. Jonathan Harrington

8 Fakultät für Philologie

Proseminar, wozu? Proseminar, wozu? Proseminar, wozu? Verarbeitung gesprochener Sprache

Syntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M

Einführung in die Computerlinguistik

DELA Wörterbücher ===========================================================

Satz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung

Linguistik für Kognitionswissenschaften

Florian Zipser Humboldt-Universität zu Berlin

Sprachsynthese und Spracherkennung

Technik und Arbeitsablauf für FALKO

Prosodie Variation und Inferenz Phonologische Grundlagen

Von Subjekten, Sätzen und Subjektsätzen

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko

Implementierung eines Vektormodells

Einführung in die portugiesische Sprachwissenschaft

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Transkript:

Überblick VL: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2004 kurze Wiederholung syntaktische phonetische/phonologische Tokenbasierte pos-tagging & Lemmatisierung ist (meistens) tokenbasiert, dh. jedes Token erhält einen Tag weitere tokenbasierte Tags könnten sich z.b. auf Betonungmuster, Bedeutung, Konzept etc. beziehen en, die sich auf kleinere Einheiten beziehen: Morpheme, phonetische en etc. en, die sich auf größere Einheiten beziehen: syntaktische en (Phrasen, Sätze), Diskursstrukturen, Mehrwortlexeme etc.

Syntaktische : Definitionen Festlegung eines Tagsets Knotenlabel Kantenlabel Festlegung von grammatischen Beziehungen NB Festlegung eines mathematischen Modells (Graph, Baum etc.) NB: syntaktische Theorien (stark vereinfacht!) es gibt viele verschiedene Syntaxtheorien mit unterschiedlichen Zielsetzungen, Grundannahmen, Beschreibungsmitteln etc. syntaktische Theorien sind Modelle man versucht, die syntaktischen (Oberflächen)strukturen komplexer Ausdrücke möglichst plausibel und konsistent darzustellen NB: syntaktische Theorien (stark vereinfacht!) 'traditionelle' Grammatik Ziel: Beschreibung der Oberflächenstrukturen, 'traditionelle' (aus der lateinischen Grammatik stammende) Begriffe generative Grammatik Ziel: zugrundeliegendes produktives Regelsystem soll beschrieben werden NB: syntaktische Theorien (stark vereinfacht!) generative Theorien können regelbasiert sein (GB) können constraintbasiert sein (HPSG) können modular aufgebaut sein (GB, LFG) können zeichenbasiert aufgebaut sein (HPSG)...

Syntaktische : Verfahren für jedes gewünschte syntaktische Ergebnis gibt es unterschiedliche sverfahren manuelle /semi-automatische ressourcenintensiv fehleranfällig (daher oft doppelte dann sehr hoher Standard) eindeutig Syntaktische : Verfahren automatische (Parsing oder Chunking) schnell, wenig ressourcenintensiv, hohe Ambiguität, fehleranfällig regelbasiert, constraintbasiert, statistisch, hybrid Baumbank (tree bank) Korpus, das mit syntaktischer Struktur annotiert ist (meist Bäume, aber evtl. auch Syntaxgraphen wie bei TIGER) dabei kann die Struktur für ganze Sätze vergeben werden oder auch nur für Teile, wie zb Nominalphrasen Wozu eine Baumbank? Suche nach bestimmten syntaktischen Strukturen (zb geschachtelten Relativsätzen) als Beispiele für quantitative Untersuchungen zur Lexikonentwicklung (Valenzinformationen, Subkategorierungsinformationen etc.) Trainingsmaterial für statistische Parser

Qualitätsmerkmale einer BB allgemein Korpussprache Korpusumfang Verfügbarkeit Qualität der Vorverarbeitung für Baumbanken zusätzlich Detailliertheit der syntaktischen Kategorien und en (funktionale Kategorien?, Koreferenzen?) stiefe Baumbanken für s Deutsche NeGra (Universität Saarbrücken) Zeitungstext Verbmobil (Universität Tübingen) Terminabsprachedialoge TIGER (Universität Stuttgart, Universität Saarbrücken, Universität Potsdam) Zeitungstext Nachfolgeprojekt von NeGra Ein Beispiel: TIGER Ziel: von ca. 50.000 Sätzen Zeitungstext (Frankfurter Rundschau, alle Domänen) mit TIGER-Graphstrukturen (TIGER Description Language) 1. TIGER-Korpus entstanden im Projekt TIGER (1999 heute) beteiligte Institute CoLi Saarbrücken (Uszkoreit) IMS Stuttgart (Rohrer) Germanistik Potsdam (Eisenberg) URL: http://www.ims.uni-stuttgart.de/projekte/tiger

TIGER-Korpus Zeitungstext (Frankfurter Rundschau) baut auf NEGRA-Korpus auf mehr Sätze detailliertere Version 1 veröffentlicht Juli 2003 40.000 Sätze (700.000 Tokens) TIGER-Korpus: sebenen Wörter/Tokens annotiert mit Wortart (POS), nach STTS Morphologie, Lemma (in Arbeit) Syntax Kategorie (Knoten) Funktion (Kantenlabel) TIGER-Korpus: Syntax- (möglichst) theorieunabhängig kreuzende Kanten für nicht-lokale Abhängigkeiten (keine Spuren) NPs: keine Kopfauszeichnung (D vs. N als Kopf) sekundäre Kanten für Ellipsen etc. platzsparend flache Strukturen (keine unären Knoten, flache PP) virtueller Wurzelknoten Bsp: NPs, flache Strukturen

Bsp: kreuzende Kanten (Topikalisierung) Bsp: kreuzende Kanten (Extraposition) Bsp: sekundäre Kanten (Subjektslücke) Bsp: sekundäre Kanten (Ellipse+Gapping)

semi-automatische mit 1. Tool annotate, statistisch (Saarbrücken) 2. LFG-Grammatik, symbolisch (IMS Stuttgart) Konsistenzsicherung 2-malige, voneinander unabhängige (ca. 2x 50 sec/satz; Satz mit Ø 17,8 Tokens) anschließend Vergleich (> 2 min/satz) via annotate 1. POS-Tagging statistischer TnT-Tagger schlägt wahrscheinlichsten POS-Tag vor korrekte Tags: 84% 2. Phrasen/Konstituenten syntaktische Struktur wird sukzessive erstellt, statistischer Parser macht Vorschläge korrekte Phrasen: 71% Abfragesprachen man braucht eine Abfragesprache, die Baum- oder Graphenstrukturen durchsuchen kann (Präzedenz, Dominanz etc.) zb TIGERSearch (Universität Stuttgart) TIGERSearch kann Bäume und Syntaxgraphen darstellen und durchsuchen textuelle und graphische Abfrage möglich Baumbanken-Zusammenfassung Baumbanken sind eine wichtige Ressource (leider sehr 'teuer', daher gibt's noch nicht so viele) man muss das zugrundeliegende Grammatikmodell kennen man muss die sweise kennen man braucht eine eigene Abfragesprache

Warum phonetische/ phonologische linguistisch Überprüfung von syntaktischen/semantischen etc. Hypothesen (zb: Unterschied von depiktiven und resultativen Strukturen, Einfluss von Hutkontur auf Quantorenskopus, Fokus, Kontrast,...) Sprachvariation: Dialektforschung, Fremdwörter innerhalb einer Sprache, Akzent,... Warum phonetische/ phonologische linguistisch phonetisch/phonologische Forschung: phonologische Phrasen, Merkmale von Stress Forschung an Phänomenen gesprochener Sprache: Häsitationen, Selbstverbesserungen, Unterbrechungen, Wortschatz, Strukturunterschiede zu geschriebener Sprache,... Warum phonetische/ phonologische computerlinguistisch Trainingsmaterial für Spracherkennung (Automatic Speech Recognition, ASR) und Synthese (Text-to- Speech, TTS) als Grundlage von komplexen computerlinguistischen Systemen (Dialogsysteme, Maschinelle Übersetzung etc.) korpuslinguistisch: Hilfe bei der Desambiguierung von ambigen Tags, Strukturen etc. (Tenor, darauf, wir müssen noch einen Termin ausmachen) Phonetische/Phonologische von Sprachkorpora Ausgangspunkt: Sprachsignal Transkription in graphemische Ausgabe phonetische phonetische Transkription phonetische von Prosodie phonologische phonologische Repräsentation von Intonation phonologische Phrasen

Einschub: verschiedene Ebenen Man sieht, dass man hier verschiedene linguistische sebenen nur getrennt annotieren kann, sie dann aber einander zuordnen möchte stand-off- (verschiedene XML-Dateien, die durch eine Zeitachse miteinander verbunden sind) phonetische Transkription Das Sprachsignal muss in eine graphemische Repräsentation umgesetzt werden. Das geschieht entweder manuell, semi-automatisch oder ganz automatisch (statistische Verfahren, HMM, siehe zb Knill & Young 1997). Die Aufgabe ist schwierig Variation zwischen SprecherInnen/bei einer Sprecherin verbundene Sprache: Segmentierung schwierig man muss zwischen mehreren Hypothesen auswählen phonetische Transkription graphemisch orthographisch phonetisch: IPA-Symbole, schweirig darzustellen, daher SAMPA phonetische von Prosodie Frequenz (f0-kontur) Lautstärke Tonhöhe Pausen

Phonologische Repräsentation von Intonation suprasegmentale viele Schemata, abhängig von der jeweiligen phonologischen Theorie zb: ToBI (Tone and Break Indices), GToBI (German Tone and Break Indices) (folgende Abbildung aus http://www.coli.unisb.de/phonetik/projects/tobi/index_training.html): Tonveränderungen werden markiert phonologische manuell: schwierig, Differenzen zwischen AnnotatorInnen, zt sehr subtile Unterschiede typische Fehler: AnnotatorInnen verbessern Fehler im Sprachsignal, Satzzeichen daher besser (weil reproduzierbar): automatische Dialoge besonderes Problem: überlappende Sprache von mehreren SprecherInnen auch hier wieder: stand-off mit Zeitachse FU Prof. Dittmar, HU Patrick Grommes

Literatur Knill, K. & Young, S. (1997) Hidden Markov Models in Speech and Language Processing. In: Young, S. & Bloothooft, G. (eds) Corpus-Based Methods in Language and Speech Processing für GToBI: http://www.coli.uni-sb.de/phonetics/ für SAMPA: Literatur Dank an Stefanie Dipper für Folien zu TIGER Lezius, Wolfgang (2001) Baumbanken. In: Carstensen et al. (eds) Computerlinguistik und Sprachtechnologie. Eine Einführung. Spektrum Verlag, Heidelberg, 377 385 zu TIGER: http://www.ims.uni-stuttgart.de/projekte/tiger/annotation/sampler/ & die dort enthaltenen Beschreibungen König & Lezius The TIGER language Smith A Brief Introduction to the TIGER Sample Corpus