Tutorial: Automatische Textannotation mit WebLicht



Ähnliche Dokumente
Universal Dashboard auf ewon Alarmübersicht auf ewon eigener HTML Seite.

Quick-Guide Web Shop. Kurzanleitung für die Benutzer des Bernd Kraft Webshops

iphone-kontakte zu Exchange übertragen

Installation OMNIKEY 3121 USB

Tevalo Handbuch v 1.1 vom

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

YouTube: Video-Untertitel übersetzen

Leitfaden zur ersten Nutzung der R FOM Portable-Version für Windows (Version 1.0)

Wie richten Sie Ihr Web Paket bei Netpage24 ein

1. Einschränkung für Mac-User ohne Office Dokumente hochladen, teilen und bearbeiten

Anleitung zum LPI ATP Portal

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

teischl.com Software Design & Services e.u. office@teischl.com

Handbuch Fischertechnik-Einzelteiltabelle V3.7.3

Anleitung für den Zugriff auf Mitgliederdateien der AG-KiM

2. ERSTELLEN VON APPS MIT DEM ADT PLUGIN VON ECLIPSE

Export des MS Outlook-Adressbuches und Import in das Adressverzeichnis der TOSHIBA e-bridge-modelle

Registrierungsanleitung Informatik-Biber

.htaccess HOWTO. zum Schutz von Dateien und Verzeichnissen mittels Passwortabfrage

Tipps und Tricks zu den Updates

Datenaustausch mit dem BVK Data Room

LIP Formulare Anleitung zum Speichern, Öffnen und Drucken

ACDSee 10. ACDSee 10: Fotos gruppieren und schneller durchsuchen. Was ist Gruppieren? Fotos gruppieren. Das Inhaltsverzeichnis zum Gruppieren nutzen

Fotos in Tobii Communicator verwenden

LEITFADEN -ZUSTELLUNG

Windows 7 Winbuilder USB Stick

Adminer: Installationsanleitung

Microsoft PowerPoint Präsentationen in MP4 (H.264) umwandeln

Handbuch ECDL 2003 Basic Modul 3: Textverarbeitung Serienbrief erstellen - Datenquelle

! " # $ " % & Nicki Wruck worldwidewruck

Satzhilfen Publisher Seite Einrichten

Datenaustausch mit dem BVK Data Room

LSF-Anleitung für Studierende

teamsync Kurzanleitung

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Verwenden von OnlineUebungen.ch nichts einfacher als das!

In 15 Schritten zum mobilen PC mit Paragon Drive Copy 14 und VMware Player

WORKSHOP für das Programm XnView

ACDSee 10 Tutorials: Fotos herunterladen mit dem Fotoimport-Assistent

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

Step by Step Webserver unter Windows Server von Christian Bartl

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Kurzanleitung für die Import/Export Funktion Kinderleicht Produkte importieren und aktualisieren und exportieren

ACDSee Pro 2. ACDSee Pro 2 Tutorials: Übertragung von Fotos (+ Datenbank) auf einen anderen Computer. Über Metadaten und die Datenbank

Sich einen eigenen Blog anzulegen, ist gar nicht so schwer. Es gibt verschiedene Anbieter. ist einer davon.

WAWI Preiswartung Systemschulung für Einsteiger

News & RSS. Einleitung: Nachrichten er-(veröffentlichen) und bereitstellen Nachrichten erstellen und bereitstellen

Anwendungsbeispiele Buchhaltung

Werkschau Web-Präsentationen

ANWENDUNGSHINWEISE ZU SYMBOLSTIX

OS Anwendungsbeschreibung

1. Einführung. 2. Die Mitarbeiterübersicht

Kurzeinführung Excel2App. Version 1.0.0

Typo3 Tutorial Bildarchiv

SHAREPOINT Unterschiede zwischen SharePoint 2010 & 2013

ACHTUNG: Es können gpx-dateien und mit dem GP7 aufgezeichnete trc-dateien umgewandelt werden.

In 15 Schritten zum mobilen PC mit Paragon Drive Copy 11 und VMware Player

proles-login. Inhalt [Dokument: L / v1.0 vom ]

Thunderbird Portable + GPG/Enigmail

Bedienungsanleitung: Onlineverifizierung von qualifiziert signierten PDF-Dateien

Die i-tüpfelchen: Favicons

Tipps und Tricks zu Netop Vision und Vision Pro

Stapelverarbeitung Konvertieren von RAW-Bildern JPEG-Format

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

ACDSee Pro 3-Tutorials: Hochladen von Bildern auf Ihren ACDSee Online-Account

Inhaltsverzeichnis. 1. Empfängerübersicht / Empfänger hinzufügen 2. Erstellen eines neuen Newsletters / Mailings 3. Versand eines Newsletters

S TAND N OVEMBE R 2012 HANDBUCH DUDLE.ELK-WUE.DE T E R M I N A B S P R A C H E N I N D E R L A N D E S K I R C H E

LTSpice Tutorial 2: Eigene Modelle und Symbole

mit dem TeXnicCenter von Andreas Both

Benutzerhandbuch - Elterliche Kontrolle

Neue Steuererklärung 2013 erstellen

Kurzanleitung zur Bereitstellung von Sachverhalten und Lösungen zum Universitätsrepetitorium auf dem Server unirep.rewi.hu-berlin.

FORUM HANDREICHUNG (STAND: AUGUST 2013)

Serienbrief erstellen

Die Lightbox-Galerie funktioniert mit allen gängigen Webbrowsern. Zur Benutzung muss JavaScript im Browser aktiviert sein.

Artikel Schnittstelle über CSV

Ihr CMS für die eigene Facebook Page - 1

Einfügen von Bildern innerhalb eines Beitrages

Daten Sichern mit dem QNAP NetBak Replicator 4.0

FAQ Verwendung. 1. Wie kann ich eine Verbindung zu meinem virtuellen SeeZam-Tresor herstellen?

Bauteilattribute als Sachdaten anzeigen

Kurzanleitung. Nutzung des Online Office von 1&1. Zusammengestellt:

Die Installation von D-Link WLAN Karten unter Windows Vista

Die Dateiablage Der Weg zur Dateiablage

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Tutorial: Wie erstelle ich mit dem Brennprogramm Roxio Toast VideoCDs mit einem Dateien-Zusatzordner

ELO Print&Archive so nutzen Sie es richtig

Arbeiten mit UMLed und Delphi

Simple SMS SMS Gateway

Informationen zum neuen Studmail häufige Fragen

Anleitung über den Umgang mit Schildern

1. Einführung. 2. Die Abschlagsdefinition

- Frontend

WOT Skinsetter. Nun, erstens, was brauchen Sie für dieses Tool zu arbeiten:

BENCHMARK HANDBUCH VERBANDSZUGÄNGE

Tutorials für ACDSee 12: Hochladen von Fotos auf Ihren Account bei ACDSeeOnline.com

1. Zuerst muss der Artikel angelegt werden, damit später die Produktvarianten hinzugefügt werden können.

Transkript:

Tutorial: Automatische Textannotation mit WebLicht Inhalt 1. Was ist WebLicht?... 1 2. WebLicht starten... 1 3. Text importieren... 2 4. Verarbeitungsketten... 2 5. Wortarten- Tagging und Lemmatisierung... 3 6. Herunterladen der Ergebnisse... 3 7. Vorbereitung der WebLicht- Daten für die einfache Analyse mit Voyant... 5 1. Was ist WebLicht? WebLicht [ ] ist eine Service- orientierte Architektur (SOA) zur Erstellung annotierter Textcorpo- ra. Sie wird seit Oktober 2008 [ ] entwickelt. Die Weiterentwicklung von WebLicht zu einer um- fassenden virtuellen Forschungsumgebung stellt einen wichtigen Aspekt der Entwicklungsbe- mühungen innerhalb von CLARIN- D dar. Technisch wird WebLicht mittels Prozessketten von Rest- ful Web Services umgesetzt. Jeder Web Service kapselt ein sprachtechnologisches Werkzeug, etwa die Abfragekomponente eines Korpus, einen Konverter, einen Tokenizer, einen Tagger, einen Parser oder dergleichen. Außerdem muss jeweils die Übersetzung von und zu den für das Werkzeug spezischen Ein- u. Ausgabeformaten geleistet werden. Jeder Web Service fügt mindes- tens eine Annotationsebene in Form spezifisch angereicherter Information hinzu. Am Ende steht ein auf verschiedenen Ebenen analysiertes Korpus, das in Form eines XML- Dokuments vorliegt. Damit die Web Services ineinandergreifen können, muss Kompatibilität zu einem von allen Diensten "verstandenen" gemeinsamen Austauschformat sichergestellt werden. Hierbei handelt es sich um das projektintern definierte Text Corpus Format (TCF). Letzteres ist weitgehend kom- patibel mit bestehenden einschlägigen Formaten wie Negra, Paula, TüBa- D/Z etc., bzw. über spezifische Konverter jederzeit übersetzbar. Quelle: http://www.dig- hum.de/forschung/projekt/weblicht 2. WebLicht starten Login Universität Regensburg auswählen Login mit NDS- Account und NDS- Passwort https://weblicht.sfs.uni- tuebingen.de/weblicht/ 1

3. Text importieren Zunächst muss der zu verarbeitende Text hochgeladen werden. Die Angabe der Sprache, in welcher der Text vorliegt, ist relevant für die Auswahl des entsprechenden Taggers, da bspw. ein englischer Tagger für deutsche Texte wenig sinnvolle Ergebnisse liefern würde. 4. Verarbeitungsketten Bei WebLicht gibt es die Metapher der sog. Chain, also einer Kette einzelner Verarbeitungsschritte wie etwa Tokenisierung, Sentence Splitting, POS- Annotation, Lemmatisierung, u.v.m. Bei Bedarf kön- nen über New Chain beliebige eigene Verarbeitungsketten definiert werden; für den Zweck dieser Übung soll aber die Standard- Verarbeitungskette (Easy Mode) ausreichen. 2

5. Wortarten-Tagging und Lemmatisierung Nutzer haben nun die Wahl die Art der automatischen Annotation näher zu spezifizieren (Hinweis: es kann jeweils nur eine Option gewählt werden). Zur Auswahl stehen: Wortarten- Annotation und Lemmatisierung Morphologische Annotation Konstituenten- Parsing Dependenz- Parsing Annotation von Named Entities Für diese Übung soll die Option POS Tags/Lemmas ausgewählt werden. Die einzelnen Schritte der Verarbeitungskette sind am unteren Rand des Bildschirms aufgeführt: So wird zunächst der impor- tierte Text in das einheitliche WebLicht- Format TCF (text corpus format) konvertiert (To TCF Conver- ter). Als nächstes erfolgt eine automatische Segmentierung des Texts in Sätze und einzelne Tokens (Tokenizer). Schließlich erfolgt die automatische Analyse des Text durch den TreeTagger, welcher dann die entsprechend erkannten Wortarten und Grundformen für jeden einzelnen Token als Anno- tation zum Text hinzufügt. Die Verarbeitungskette wird mit Klick auf Run Tools gestartet. 6. Herunterladen der Ergebnisse Nach wenigen Sekunden werden die Ergebnisse des TreeTaggers im Browser angezeigt. Die Wortar- ten wurden nach dem Stuttgart Tübingen Tagset annotiert, eine vollständige Liste aller Wortarten- Tags finden Sie im Web 1. 1 http://www.ims.uni- stuttgart.de/forschung/ressourcen/lexika/tagsets/stts- table.html 3

Zur weiteren Analyse können die Daten in unterschiedlichen Formaten heruntergeladen werden. a) Zeilenweises, kommasepariertes Format CSV (comma sepatared values) Dieses Format kann in viele andere Formate konvertiert werden. b) Tabellarisches Excel- Format c) XML- basiertes WebLicht- Format TCF (text corpus format) Das TCF ist nach den Prinzipien des Linguistic Annotation Framework (ISO- Standard) konzipiert und dadurch sehr flexibel einsetzbar. Das Format ist XML- basiert und nach dem Grundsatz eines sog. 4

Stand- off- Formats organisiert, d.h. die eigentliche Annotation ist physisch vom Primärtext getrennt und mit diesem über Referenzen verbunden. Weitere Informationen zum TCF sowie auch Tools zur Darstellung von TCF- Daten finden sich hier: http://weblicht.sfs.uni- tuebingen.de/englisch/tutorials/html/ 7. Vorbereitung der WebLicht-Daten für die einfache Analyse mit Voyant Die Speicherung von linguistisch annotierten Korpora in einem Stand- off- Format wie TCF hat zweifel- los viele Vorteile, wirft aber für die unmittelbare Analyse mit Voyant einige technische Hürden auf, die zunächst mit einem einfachen Zwischenschritt umgangen werden sollen. Dabei sollen die Web- Licht- Daten in ein XML- Format konvertiert werden, welches in Voyant mir einfachen XPath- Ausdrücken direkt analysiert werden kann. Zu diesem Zweck laden Sie die annotierten Daten von WebLicht im CSV- Format herunter. Öffnen Sie die CSV- Datei in einem beliebigen Texteditor, und nehmen Sie die folgenden Änderungen am Dokument vor: Schritt 1 Ersetzen Sie die erste Zeile "token ID";"tokens";"POStags";"lemmas".. durch die folgende Zeile "id";"word";"pos";"lemma" Erläuterung: in der ersten Zeile werden die Namen der XML- Tags spezifiziert, die im nächsten Schritt automatisch erstellt werden. Sie können hier im Wesentlichen beliebige Namen vergeben (keine Leerzeichen), sollten aber aus Konsistenzgründen zur Analyse- Übung zunächst die vorgeschlagenen Tag- Benennungen übernehmen. Schritt 2 TreeTagger vergibt für jedes Wort bei dem kein Lemma gefunden werden konnte den Wert <unk- nown>. Bei der Transformation der Daten werden aus den spitzen Klammern jeweils Entitäten ge- bildet, d.h. <unknown> wird dann <unknown>. Aus Gründen der leichteren Verarbeitung (es soll später nach unknowns gesucht werden) entfernen wird an dieser Stelle mit einer dokument- weiten Suchen- Ersetzen- Operation einfach alle spitzen Klammern bei den unknowns; im Texteditor Sublime Text würde dies etwa so aussehen: 5

Nach diesen beiden Schritten sollte ihre CSV- Datei so aussehen: Speichern Sie die veränderte Datei unter einem beliebigen Namen, z.b. kafka- preprocessed.csv. Schritt 3 Im letzten Schritt können wir die derart vorbereiteten Daten schließlich über einen frei im Web ver- fügbaren Converter in ein einfaches XML- Format umwandeln. Navigieren Sie dazu auf die folgende Webseite: http://www.luxonsoftware.com/converter/csvtoxml Laden Sie die entsprechende CSV- Datei hoch, und wählen sie bei Column Separator das Semikolon aus, da unsere Daten in jeder Zeile jeweils durch einen Strichpunkt getrennt sind. 6

Das Ergebnis können Sie im nächsten Schritt herunterladen, und in einem beliebigen Texteditor (oder Webbrowser) anzeigen lassen. Das Ergebnis der Konvertierung liegt zunächst als ZIP- Ordner vor, den Sie entsprechend entpacken müssen. 7

Die XML- Datei sollte so aussehen: Sie können als letzten Schritt die Datei noch mit einem kürzeren Namen, z.b. kafka- XML.xml ab- speichern. Die so erstelle Datei kann nun z.b. mit Voyant weiter analysiert werden. 8