Proseminar Linguistische Annotation

Ähnliche Dokumente
Projektseminar "Texttechnologische Informationsmodellierung"

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Einführung in die Korpuslinguistik

Proseminar Linguistische Annotation

Lösungsvorschlag für das Übungsblatt 8. Aufgabe1.

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Einführung in die Computerlinguistik

Erweiterung des STTS für gesprochene Sprache

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Was ist Statistik? Wozu dienen statistische Methoden?

Viterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Korpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller.

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz

Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs

Computerlinguistik I

Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

NLP Eigenschaften von Text

Herausforderungen in der Nutzung vorhandener Tools für arabische Daten

Einführung in die Computerlinguistik

Prof. Dr. Udo Hahn. Seminar im Modul B-GSW-12 SoSe 2018

Einführung in die Computerlinguistik

Grammatiken und linguistische Evidenz

Part-of-Speech Tagging. Stephanie Schuldes

Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik. Morphologie III

Lexikalisch-semantische Disambiguierung mit WordNet

Named Entity Recognition auf Basis von Wortlisten

Einführung in die Computerlinguistik

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Ergänzende Betrachtungen zur syntaktischen Dependenz

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

Einführung in die Computerlinguistik

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind

Tagger for German. Online BRILL-Tagger für das Deutsche

Twitter als interaktive Erweiterung des Mediums Fernsehen: Inhaltliche Analyse von Tatort- Tweets

Speech Recognition Grammar Compilation in Grammatikal Framework. von Michael Heber

Maschinelle Übersetzung

Lemmatisierung. Einführung in die Korpuslinguistik. Lemmatisierung und Wortarttagging. Lemmatisierung. zum Erinnern... zum Erinnern...

Äußerungen + Segmentierung

Hidden Markov Models in Anwendungen

Einführung in die Computerlinguistik

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Korpusannotation: Vom nachhaltigen Aufbereiten einer Ressource

Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen

Terminologie-Extraktion: Beispiel

Computerlinguistik und Sprachtechnologie

Die Geschichte der Sprachverarbeitung ist eine Geschichte voller Mißverständnisse WS 2011/2012

Lexikalisch-semantische Ressourcen für die automatische Analyse von Erziehungswissenschaftlicher Fachliteratur

Florian Zipser Humboldt-Universität zu Berlin

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.

Seminar Sicherheit und Softwareengineering WS 2013 / Isabell Kullack FEHLERANALYSE VON REQUIREMENTS DOCUMENTS

Probabilistische kontextfreie Grammatiken

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Kontextfreie Grammatiken

Deutsche Wortbildung in Grundzügen

SKOPOS Webinar 22. Mai 2018

Tutorial: Automatische Textannotation mit WebLicht

Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging

Deutsche Wortbildung in Grundzügen

Linux I II III Res WN/TT NLTK XML XLE I II Weka E. Freitag. 9 XLE Transfer. 10 Weka. Ressourcen-Vorkurs

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung

Polysemie zwischen Homonymie und Generalität

Hidden Markov Models in Anwendungen

Korpus. Was ist ein Korpus?

Agenda. Seminar: Informationsstrukturierung. SS 2007 Ulli Waltinger. Lexical Chaining Textkategorisierung und Lexical Chaining

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie

Informationsextraktion aus Stellenanzeigen

Tagging von Online-Blogs

Transition Network Parser

des ehumanities Desktops

Maschinelles Lernen lernen: Ein CRETA- Hackatorial zur reflektierten automatischen Textanalyse

Deutsche Wortbildung in Grundziigen

Automatische Textzusammenfassung

Erkennung und Visualisierung attribuierter Phrasen in Poetiken

Korpus-basierte Recherche und Analyse mit Hilfe von Data Mining:

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Semantische Technologien (M-TANI)

Korpuslinguistik mit PostgreSQL

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Morphologie. Sarah Bosch,

Visuelle Segmentierung von Webseiten mit Hilfe von Crowdsourcing. Florian Kneist. Bauhaus-Universität Weimar. Bachelor Verteidigung

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Sprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am : Stefanie Grabbe

Semantic Role Labeling

Improving Part-Of-Speech Tagging for Social Media via Automatic Spelling Error Correction

Proseminar Linguistische Annotation

2 Sprachliche Einheiten

Wiederholung: Forschungsfragen und Korpusdaten. GK C: Einführung in die Korpuslinguistik. Wiederholung: Forschungsfragen und Korpusdaten

Semantische Annotation. Hauptseminar: Einführung in die Korpuslinguistik. Lesartenannotation - Beispiel. Lesartenannotation

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010

Organisatorisches: Poster. Einführung in die Korpuslinguistik. Organisatorisches: Poster. Organisatorisches: Poster. Organisatorisches: Poster

Transkript:

Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22

Seminarplan I. Linguistische Annotation - Überblick Welche Arten von linguistischer Annotation gibt es? Wozu sind sie gut? II. Der Annotationsprozess Wie wird annotiert? Welche Probleme treten dabei auf? Welche Faktoren können die Annotation beeinflussen? III. Wie gut sind unsere Annotationen? IV. Wie bekomme ich größere Mengen an annotierten Daten? Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 2 / 22

Linguistische Annotation Hinzufügen von linguistischer Information zu einem Korpus phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora) Intonation / prosodische Annotation (ToBI/GToBI) Wortarten-Annotation (POS-Tagging) Morpho-Syntax Syntax (Baumbanken) Word Senses (WordNet) Semantische Rollen (Propbank, Framenet, SALSA) Named Entities (Person, Organisation, Datum,...) Temporale Annotation (TimeBank) Anaphor/Coreference Annotation (TüBa-D/Z, PoCos) Diskurs (Penn Discourse Treebank, Chinese Discourse Treebank) Sentiment-Annotation Meta-Information (Alter, Herkunft, Geschlecht,...)... Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 3 / 22

Linguistische Annotationen - Beispiele Text Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 4 / 22

Linguistische Annotationen - Beispiele Text + Lemmatisierung Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 5 / 22

Linguistische Annotationen - Beispiele Text + Lemmatisierung + Part-of-speech (POS) (Wortarten-Tagging) Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 6 / 22

Linguistische Annotationen - Beispiele Text + Lemmatisierung + Part-of-speech (POS) (Wortarten-Tagging) + morphologische Information Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 7 / 22

Linguistische Annotationen - Beispiele Text + Lemmatisierung + Part-of-speech (POS) (Wortarten-Tagging) + morphologische Information + Kasus Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 8 / 22

Linguistische Annotationen - Beispiele Text + Lemmatisierung + Part-of-speech (POS) (Wortarten-Tagging) + morphologische Information + Kasus + Syntax Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 9 / 22

Linguistische Annotationen - Beispiele Text + Lemmatisierung + Part-of-speech (POS) (Wortarten-Tagging) + morphologische Information + Kasus + Syntax + Grammatikalische Funktionen (GF) Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 10 / 22

Linguistische Annotationen - Beispiele Text + Lemmatisierung + Part-of-speech (POS) (Wortarten-Tagging) + morphologische Information + Kasus + Syntax + Grammatikalische Funktionen (GF) + sekundäre Kanten Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 11 / 22

Linguistische Annotationen - Beispiele Wozu das Ganze? Lemmatisierung Part-of-speech (POS) (Wortarten-Tagging) morphologische Information Syntax Grammatikalische Funktionen (GF) sekundäre Kanten Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 12 / 22

Linguistische Annotationen - Beispiele Lemmatisierung Zurückführung von flektierten Wortformen auf ihre Grundform - ermöglicht Nachschlagen im Lexikon Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker) Part-of-speech (POS) (Wortarten-Tagging) Voraussetzung für syntaktische Analyse hilft bei Information Extraction (und bei vielen anderen NLP tasks) morphologische Information Bedeutungsdisambiguierung: Syntax (1) Die Vortragenden NOM PL (2) Den Vortragenden DAT PL geben PL gibt SG der Studentin DAT SG die Studentin NOM SG Suche nach bestimmten syntaktischen Strukturen Trainingsdaten für statistische Parser das Buch. ACC das Buch. ACC Grammatikalische Funktionen (GF) Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB sekundäre Kanten vollständige semantische Interpretation einer Äußerung, Identifikation fehlender Subjekte etc. Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22

Linguistische Annotationen - Beispiele Lemmatisierung Zurückführung von flektierten Wortformen auf ihre Grundform - ermöglicht Nachschlagen im Lexikon Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker) Part-of-speech (POS) (Wortarten-Tagging) Voraussetzung für syntaktische Analyse hilft bei Information Extraction (und bei vielen anderen NLP tasks) morphologische Information Bedeutungsdisambiguierung: Syntax (3) Die Vortragenden NOM PL (4) Den Vortragenden DAT PL geben PL gibt SG der Studentin DAT SG die Studentin NOM SG Suche nach bestimmten syntaktischen Strukturen Trainingsdaten für statistische Parser das Buch. ACC das Buch. ACC Grammatikalische Funktionen (GF) Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB sekundäre Kanten vollständige semantische Interpretation einer Äußerung, Identifikation fehlender Subjekte etc. Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22

Linguistische Annotationen - Beispiele Lemmatisierung Zurückführung von flektierten Wortformen auf ihre Grundform - ermöglicht Nachschlagen im Lexikon Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker) Part-of-speech (POS) (Wortarten-Tagging) Voraussetzung für syntaktische Analyse hilft bei Information Extraction (und bei vielen anderen NLP tasks) morphologische Information Bedeutungsdisambiguierung: Syntax (5) Die Vortragenden NOM PL (6) Den Vortragenden DAT PL geben PL gibt SG der Studentin DAT SG die Studentin NOM SG Suche nach bestimmten syntaktischen Strukturen Trainingsdaten für statistische Parser das Buch. ACC das Buch. ACC Grammatikalische Funktionen (GF) Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB sekundäre Kanten vollständige semantische Interpretation einer Äußerung, Identifikation fehlender Subjekte etc. Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22

Linguistische Annotationen - Beispiele Lemmatisierung Zurückführung von flektierten Wortformen auf ihre Grundform - ermöglicht Nachschlagen im Lexikon Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker) Part-of-speech (POS) (Wortarten-Tagging) Voraussetzung für syntaktische Analyse hilft bei Information Extraction (und bei vielen anderen NLP tasks) morphologische Information Bedeutungsdisambiguierung: Syntax (7) Die Vortragenden NOM PL (8) Den Vortragenden DAT PL geben PL gibt SG der Studentin DAT SG die Studentin NOM SG Suche nach bestimmten syntaktischen Strukturen Trainingsdaten für statistische Parser das Buch. ACC das Buch. ACC Grammatikalische Funktionen (GF) Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB sekundäre Kanten vollständige semantische Interpretation einer Äußerung, Identifikation fehlender Subjekte etc. Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22

Linguistische Annotationen - Beispiele Lemmatisierung Zurückführung von flektierten Wortformen auf ihre Grundform - ermöglicht Nachschlagen im Lexikon Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker) Part-of-speech (POS) (Wortarten-Tagging) Voraussetzung für syntaktische Analyse hilft bei Information Extraction (und bei vielen anderen NLP tasks) morphologische Information Bedeutungsdisambiguierung: Syntax (9) Die Vortragenden NOM PL (10) Den Vortragenden DAT PL geben PL gibt SG der Studentin DAT SG die Studentin NOM SG Suche nach bestimmten syntaktischen Strukturen Trainingsdaten für statistische Parser das Buch. ACC das Buch. ACC Grammatikalische Funktionen (GF) Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB sekundäre Kanten vollständige semantische Interpretation einer Äußerung, Identifikation fehlender Subjekte etc. Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22

Linguistische Annotationen - Beispiele Lemmatisierung Zurückführung von flektierten Wortformen auf ihre Grundform - ermöglicht Nachschlagen im Lexikon Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker) Part-of-speech (POS) (Wortarten-Tagging) Voraussetzung für syntaktische Analyse hilft bei Information Extraction (und bei vielen anderen NLP tasks) morphologische Information Bedeutungsdisambiguierung: Syntax (11) Die Vortragenden NOM PL (12) Den Vortragenden DAT PL geben PL gibt SG der Studentin DAT SG die Studentin NOM SG Suche nach bestimmten syntaktischen Strukturen Trainingsdaten für statistische Parser das Buch. ACC das Buch. ACC Grammatikalische Funktionen (GF) Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB sekundäre Kanten vollständige semantische Interpretation einer Äußerung, Identifikation fehlender Subjekte etc. Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22

Seminarplan I. Linguistische Annotation - Wozu? mehr Information (erhöht die Interpretierbarkeit eines Korpus) Untersuchung linguistischer Phänomene Überprüfung linguistischer Theorien viele linguistische Theorien entstehen aufgrund von Introspektion Armchair linguistics aber manchmal übersieht man was... Überprüfung linguistischer Theorien mit Hilfe von realistischen Daten Läßt sich meine Theorie anhand der Daten widerlegen? Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 14 / 22

Beispiel I: Partikelverben (Müller & Meurers, 2006) Theorie: Verbpartikeln können nicht vorangestellt werden (Ausnahme: prädikative Partikeln wie auf in aufmachen) Korpusevidenz: Los PART ging es schon in dieser Woche. (taz, 11.10.1995) Vor PART hat er das jedenfalls. (taz, 15.07.1999) Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 15 / 22

Beispiel II: Idiome (Geyken et al., 2004) Theorie: klassische Ansätze betonen die Invariabilität von Idiomen (Katz, 1973; Chomsky, 1980) Korpusevidenz: ein Blatt vor den Mund nehmen Pluralisierung: ohne Blätter vor den Mund zu nehmen Quantifizierung: Hier nahm er manches Blatt vor den Mund der sich 100 Blätter vor den Mund nimmt Adjektivische Modifikation eines oder beider Nomen: mit einem postmodernen Blatt vor dem Munde kein Blatt vor seinen republikfeindlichen Mund Nomen-Modifikation: ohne das geringste (Klee-)Blatt vor den vorlauten Mund zu nehmen Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 16 / 22

Seminarplan I. Linguistische Annotation - Wozu? mehr Information (erhöht die Interpretierbarkeit eines Korpus) Untersuchung linguistischer Phänomene Überprüfung linguistischer Theorien Ressourcen zum Training von statistischen NLP-Systemen: Wortarten-Tagger Syntaktische Parser Semantische Parser / Labelling von Semantischen Rollen Systeme zur Lesarten-Disambiguierung Anaphern-Auflösung Maschinelles Übersetzen Automatische Spracherkennung... Linguistisch annotierte Daten zur Evaluation von NLP-Systemen (Goldstandard) Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 17 / 22

Linguistische Annotation erhöht die Interpretierbarkeit eines Korpus zeitaufwändig! 1 Standardisierung Standards erhöhen Konsistenz und Verwendungsbreite ermöglichen den Austausch von Daten EAGLES (Expert Advisory Group on Language Engineering Standards) TEI (Text Encoding Initiative) GrAF (A Graph-based Format for Linguistic Annotations)... 2 Interoperabilität z.b. die Übertragung von vorhandenen Annotationsschemata auf neue Sprachen Penn Chinese Treebank, Penn Arabic Treebank oder die Kombination verschiedener Annotationsebenen in eine vereinte Repräsentation (z.b. Propbank + Nombank + TimeBank + Penn Discourse treebank + Coreference) XBank Browser Aber: bevor man Annotationsschemata vereint oder überträgt Was sind die Vor- und Nachteile verschiedener Annotationsschemata? Wie vergleicht man Annotationsschemata? Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 18 / 22

Linguistische Annotation erhöht die Interpretierbarkeit eines Korpus zeitaufwändig! 1 Standardisierung Standards erhöhen Konsistenz und Verwendungsbreite ermöglichen den Austausch von Daten EAGLES (Expert Advisory Group on Language Engineering Standards) TEI (Text Encoding Initiative) GrAF (A Graph-based Format for Linguistic Annotations)... 2 Interoperabilität z.b. die Übertragung von vorhandenen Annotationsschemata auf neue Sprachen Penn Chinese Treebank, Penn Arabic Treebank oder die Kombination verschiedener Annotationsebenen in eine vereinte Repräsentation (z.b. Propbank + Nombank + TimeBank + Penn Discourse treebank + Coreference) XBank Browser Aber: bevor man Annotationsschemata vereint oder überträgt Was sind die Vor- und Nachteile verschiedener Annotationsschemata? Wie vergleicht man Annotationsschemata? Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 18 / 22

Linguistische Annotation erhöht die Interpretierbarkeit eines Korpus zeitaufwändig! 1 Standardisierung Standards erhöhen Konsistenz und Verwendungsbreite ermöglichen den Austausch von Daten EAGLES (Expert Advisory Group on Language Engineering Standards) TEI (Text Encoding Initiative) GrAF (A Graph-based Format for Linguistic Annotations)... 2 Interoperabilität z.b. die Übertragung von vorhandenen Annotationsschemata auf neue Sprachen Penn Chinese Treebank, Penn Arabic Treebank oder die Kombination verschiedener Annotationsebenen in eine vereinte Repräsentation (z.b. Propbank + Nombank + TimeBank + Penn Discourse treebank + Coreference) XBank Browser Aber: bevor man Annotationsschemata vereint oder überträgt Was sind die Vor- und Nachteile verschiedener Annotationsschemata? Wie vergleicht man Annotationsschemata? Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 18 / 22

Linguistische Annotation erhöht die Interpretierbarkeit eines Korpus zeitaufwändig! 1 Standardisierung Standards erhöhen Konsistenz und Verwendungsbreite ermöglichen den Austausch von Daten EAGLES (Expert Advisory Group on Language Engineering Standards) TEI (Text Encoding Initiative) GrAF (A Graph-based Format for Linguistic Annotations)... 2 Interoperabilität z.b. die Übertragung von vorhandenen Annotationsschemata auf neue Sprachen Penn Chinese Treebank, Penn Arabic Treebank oder die Kombination verschiedener Annotationsebenen in eine vereinte Repräsentation (z.b. Propbank + Nombank + TimeBank + Penn Discourse treebank + Coreference) XBank Browser Aber: bevor man Annotationsschemata vereint oder überträgt Was sind die Vor- und Nachteile verschiedener Annotationsschemata? Wie vergleicht man Annotationsschemata? Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 18 / 22

Seminarplan II. Der Annotationsprozess Wie wird annotiert? Erstellung von Annotationsrichtlinien Training Annotationsprozess Qualitätssicherung Welche Probleme treten dabei auf? Welche Faktoren können die Annotation beeinflussen? Annotations-Tools Richtlinien persönliche Eignung und Neigung der Annotator/innen Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 19 / 22

Seminarplan III. Evaluation - Wie gut sind unsere Annotationen? Evaluation gegen einen manuell annotierten Goldstandard Inter-Annotator Agreement Einsatz der Daten als Trainingsset für Systeme der automatischen Sprachverarbeitung (Task-based evaluation) Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 20 / 22

Seminarplan IV. Wie bekomme ich große Mengen an annotierten Daten? Halb-automatische Annotation Bootstrapping Active Learning Games with a Purpose (z.b. ESP-Game) kollaborativ erstellte Ressourcen wie Wikipedia... Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 21 / 22

Seminarplan I. Linguistische Annotation - Überblick Welche Arten von linguistischer Annotation gibt es? Wozu sind sie gut? II. Der Annotationsprozess Wie wird annotiert? Welche Probleme treten dabei auf? Welche Faktoren können die Annotation beeinflussen? III. Wie gut sind unsere Annotationen? IV. Wie bekomme ich größere Mengen an annotierten Daten? Leistungsnachweis: 5 Leistungspunkte Schein für Hausarbeit + Vortrag Beteiligung an kleinen praktischen Übungen Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 22 / 22