Automatisiertes Annotieren in CATMA

Ähnliche Dokumente
Event Recognition Engine

Gleiche Daten, unterschiedliche Erkenntnisziele?

Evelyn Gius, Janina Jacke, Jan Christoph Meister University of Hamburg

ANGEWANDTE LINGUISTISCHE DATENVERARBEITUNG PROF. DR. JÜRGEN ROLSHOVEN UTE WINKELMANN

Java für Computerlinguisten

Textanalyse mit UIMA und Hadoop.!! Hans-Peter Zorn data2day, Karlsruhe,

Softwarepraktikum. Textanalyse mit Java/Python. Franz Matthies

Softwaretechnologie für die Ressourcenlinguistik

Named Entity Recognition, Extraction, und Linking in deutschen Rechtstexten

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

GATE General Architecture for Text Engineering. Alexander Hein & Erik Dießler (VL Text Analytics )

Automatische Annotation von deutschen und französischen temporalen Ausdrücken im Text+Berg-Korpus

Die literarische Produktion in der Schweiz

Visualisierung von Entitäten. Markus John Nora Echelmeyer

I. Erste Schritte in CATMA

Titel. Hamdiye Arslan Éva Mújdricza-Maydt

Klausurtermine Sommersemester 2018

Ontologiebasierte Abhängigkeitsanalyse im Projektlastenheft. Automotive Mai 2017 Konstantin Zichler

Übertragungsanleitung Übertragung von Norman Endpoint Protection auf Avast Business Antivirus Pro Plus

Neue Erkenntnisse aus unstrukturierten Daten gewinnen

Oerlikon Trainings-Dokumentation

General Architecture for Text Engineering - GATE

Der VITERBI-Algorithmus

Informationsextraktion durch Verwendung computerlinguistischer Verfahren in Texten mit Makrostruktur

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

UTEMPL - Aufbau und Evaluierung einer UIMA basierten Textmining Pipeline für biomedizinische Literatur

Einwohnerzahlen der Ortsteile der Gemeinde Sinntal nach dem Stand vom 05. Januar 2013

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik

DARIAH-DKPro-Wrapper Nils Reimers

Big Data Textanalyse. Der Weg von unstrukturierten Daten zu quantifizierbaren Informationen

Named Entity Recognition auf Basis von Wortlisten

Optionally, an is sent : Erfahrungen mit automatisierter Erkennung schlechter Anforderungen

CLARIN-D. Überblick, Metadaten, Demo. Christoph Kuras. Abt. Automatische Sprachverarbeitung Institut für Informatik, Universität Leipzig

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten

"What's in the news? - or: why Angela Merkel is not significant

Wortfinales Schwa in BeMaTaC: L1 vs. L2. Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Korpus. Was ist ein Korpus?

Tutorial: Automatische Textannotation mit WebLicht

Auswertung Zentralabitur Übersicht Fächer

Technische Übersetzungen. Komplexe mehrsprachige Projekte. In die jeweiligen Zielsprachen bringen. Genau unser Ding.

Diana C. Messehostess Dolmetscherin Sprachen: Lettisch, Englisch, Russisch, Italienisch

Requirements basiertes Testen mit JUnit Architektur für eine Verbindung von Requirements Management und Test Management

Maschinelle Übersetzung

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Auswertung Zentralabitur Übersicht Fächer

Maschinelle Sprachverarbeitung

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN

SAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

FreiSprachen. Eine Erhebung zur Sprachenvielfalt an Freiburger Grundschulen im April 2010

Vertriebssteuerung & Kundenmanagement bei Finanzinstituten. 1. Dezember 2010, Frankfurt am Main

Eclipse Test and Performance Tools Platform (TPTP)

Implementierung eines Vektormodells

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

ehealth Composite Plattform (ehc) FormsFramework Eine Schlüsseltechnologie zur Umsetzung semantischer Interoperabilität

Außereuropäische Sprachen

WAS IST SMART WRITING SET

Grundlagen und Definitionen

Enriched Content Browsing

Ausgabe 1 DE. Nokia und Nokia Connecting People sind eingetragene Marken der Nokia Corporation

WEDKEX. Web-based Engineering Design Knowledge EXtraction. Frank Heyen, Janik M. Hager, Steffen M. Schlinger B.Sc. Informatik

Die Bedienung von LibreOffice

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010

Eine semantische Suchmaschine in der Biomedizin

Document Portal 1. Document Portal

VAADIN, SPRING BOOT & REST

5. Information Retrieval

HOSTESSENBOOKLET MESSE GIFA DÜSSELDORF AUSGEARBEITET FÜR: FRITSCH MEDIA GMBH

Transkript:

Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de DHd Leipzig 8. März 2016

Motivation Es gibt verschiedene Arten von Annotationen komplexe Annotationsaufgaben Flashbacks, Prolepsen, Analepsen,... einfache Annotationsaufgaben Sätze, Wortarten, Tempus, Zeitausdrücke,... Manuelles Erstellen von einfachen Annotationen langsam langweilig Konzentration auf komplexe Aufgaben; einfache Annotationen automatisiert DHd 16, Leipzig Automatisiertes Annotieren in CATMA c Jannik Strötgen 1 / 9

Natural Language Processing Automatisiertes Verarbeiten textueller Daten Viele Tools für zahlreiche Aufgaben: Satzgrenzen, Wortarten,... Zeitausdrücke erkennen und normalisieren UIMA UIMA: Unstructured Information Management Architecture Framework zum Verarbeiten unstrukturierter Daten (z.b. Text) hilft (unterschiedlichste) Tools miteinander zu verknüpfen alle Komponenten basieren auf der gleichen Datenstruktur (Common Analysis Structure, ) UIMA funktioniert nach dem Pipeline-Prinzip DHd 16, Leipzig Automatisiertes Annotieren in CATMA c Jannik Strötgen 2 / 9

Komponenten einer UIMA Pipeline Collection Readers Analysis Engines Consumers Zeitausdrücke Textdokumente Korpora UIMA Pipeline 3 Komponententypen Collection Readers Analysis Engines consumers DHd 16, Leipzig Automatisiertes Annotieren in CATMA c Jannik Strötgen 3 / 9

Komponenten einer UIMA Pipeline Collection Readers Analysis Engines Consumers Document Reader Zeitausdrücke Textdokumente Korpora UIMA Pipeline Collection Reader liest Dokumente von einer Quelle (z.b.: Filesystem, Datenbank) erstellt Objekt für jedes Dokument DHd 16, Leipzig Automatisiertes Annotieren in CATMA c Jannik Strötgen 3 / 9

Komponenten einer UIMA Pipeline Collection Readers Analysis Engines Consumers Document Reader Sentence Splitter Tokenizer Part-of-Speech Tagger Temporal Tagger Zeitausdrücke Textdokumente Korpora UIMA Pipeline Analysis Engines typischerweise mehrere Analysis Engines DHd 16, Leipzig Automatisiertes Annotieren in CATMA c Jannik Strötgen 3 / 9

Komponenten einer UIMA Pipeline Collection Readers Analysis Engines Consumers Document Reader Sentence Splitter Tokenizer Part-of-Speech Tagger Temporal Tagger Zeitausdrücke Textdokumente tokens tokens w. pos tokens w. pos timexes Korpora UIMA Pipeline Analysis Engines lesen den Inhalt des Objekts analysieren die Dokumente fügen Annotationen zum Objekt hinzu DHd 16, Leipzig Automatisiertes Annotieren in CATMA c Jannik Strötgen 3 / 9

Komponenten einer UIMA Pipeline Collection Readers Analysis Engines Consumers Document Reader Sentence Splitter Tokenizer Part-of-Speech Tagger Temporal Tagger Writer Zeitausdrücke Textdokumente tokens tokens w. pos tokens w. pos timexes Korpora UIMA Pipeline Consumers führen die finale Verarbeitung durch (Indexierung, Evaluation,...) DHd 16, Leipzig Automatisiertes Annotieren in CATMA c Jannik Strötgen 3 / 9

Komponenten einer UIMA Pipeline Collection Readers Analysis Engines Consumers Document Reader Sentence Splitter Tokenizer Part-of-Speech Tagger Temporal Tagger Writer Zeitausdrücke Textdokumente Korpora UIMA Pipeline Warum eine UIMA Pipeline? einzelne Komponenten sind nicht direkt miteinander verbunden DHd 16, Leipzig Automatisiertes Annotieren in CATMA c Jannik Strötgen 3 / 9

Komponenten einer UIMA Pipeline Collection Readers Analysis Engines Consumers Document Reader Sentence Splitter Tokenizer Part-of-Speech Tagger Temporal Tagger Writer Zeitausdrücke Textdokumente tokens tokens w. pos tokens w. pos timexes Korpora UIMA Pipeline Warum eine UIMA Pipeline? einzelne Komponenten sind nicht direkt miteinander verbunden verbunden über das Objekt DHd 16, Leipzig Automatisiertes Annotieren in CATMA c Jannik Strötgen 4 / 9

Beispiele für Annotationsaufgaben Zeitausdrücke Temporal Tagging: Extraktion und Normalisierung 8. März 2016 2016-03-08 heute, ( today, hoy,...) 2016-03-08 DHd 16, Leipzig Automatisiertes Annotieren in CATMA c Jannik Strötgen 5 / 9

Der Temporal Tagger HeidelTime HeidelTime: mehrsprachiger, domänen-sensitiver Temporal Tagger Domänen: u.a. news, narrative,... Sprachen: englisch, spanisch, deutsch, französisch, italienisch, niederländisch, arabisch, vietnamesisch, chinesisch, russisch, kroatisch, estnisch, portugiesisch, (plus 200 weitere) Frei verfügbar: UIMA & Standalone Versionen, online demo https://github.com/heideltime/heideltime/ DHd 16, Leipzig Automatisiertes Annotieren in CATMA c Jannik Strötgen 6 / 9

Zeitausdrücke in Literatur häufig in literarischen Texten? DHd 2015: Analyse expliziter Datumsangaben tiwoli today in world literature literarische Zitate für jeden Tag explizite Datumsangaben nicht zu häufig in CATMA: temporal signals DHd 16, Leipzig Automatisiertes Annotieren in CATMA c Jannik Strötgen 7 / 9

Temporal Signals Manuelles Annotieren schön um mit CATMA vertraut zu werden langweilig und mühsam bei viel Text DHd 16, Leipzig Automatisiertes Annotieren in CATMA c Jannik Strötgen 8 / 9

Manuelles Annotieren Temporal Signals schön um mit CATMA vertraut zu werden langweilig und mühsam bei viel Text Alternative: UIMA Workflow Collection Readers Analysis Engines Consumers Document Reader Sentence Splitter Tokenizer Part-of-Speech Tagger Temporal Tagger Writer Zeitausdrücke Textdokumente tokens tokens w. pos tokens w. pos timexes Korpora UIMA Pipeline DHd 16, Leipzig Automatisiertes Annotieren in CATMA c Jannik Strötgen 8 / 9

Manuelles Annotieren Temporal Signals schön um mit CATMA vertraut zu werden langweilig und mühsam bei viel Text Alternative II: UIMA aus CATMA starten Collection Readers Analysis Engines Consumers CATMA COLLECTION READER Sentence Splitter Tokenizer Part-of-Speech Tagger Temporal Tagger CATMA CONSUMER tokens tokens w. pos tokens w. pos timexes UIMA Pipeline DHd 16, Leipzig Automatisiertes Annotieren in CATMA c Jannik Strötgen 8 / 9