General Architecture for Text Engineering - GATE



Ähnliche Dokumente
GATE General Architecture for Text Engineering. Alexander Hein & Erik Dießler (VL Text Analytics )

Task: Nmap Skripte ausführen

Leitfaden zur ersten Nutzung der R FOM Portable-Version für Windows (Version 1.0)

Outlook - CommuniGate Pro Schnittstelle installieren. Outlook - Elemente freigeben. Outlook - Freigegebene Elemente öffnen

Installation des edu- sharing Plug- Ins für Moodle

LDAP Konfiguration nach einem Update auf Version 6.3 Version 1.2 Stand: 23. Januar 2012 Copyright MATESO GmbH

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

teischl.com Software Design & Services e.u. office@teischl.com

Anleitung zum erstellen einer PDF-Datei aus Microsoft Word

Installation OMNIKEY 3121 USB

Anleitung Captain Logfex 2013

Clientkonfiguration für Hosted Exchange 2010

Konvertieren von Settingsdateien

Einrichtung des Cisco VPN Clients (IPSEC) in Windows7

2. ERSTELLEN VON APPS MIT DEM ADT PLUGIN VON ECLIPSE

Mehrere PDF-Dokumente zu einem zusammenfügen

Medienkompass1, Lehrmittelverlag des Kantons Zürich, 1. Ausgabe 2008, Thema 13 Sicher ist sicher, S.58-61

INSTALLATION OFFICE 2013

Sichern der persönlichen Daten auf einem Windows Computer

Die Installation von D-Link WLAN Karten unter Windows Vista

GameGrid mit BlueJ Seite 1

Wasserzeichen mit Paint-Shop-Pro 9 (geht auch mit den anderen Versionen. Allerdings könnten die Bezeichnungen und Ansichten etwas anders sein)

Avira Support Collector. Kurzanleitung

Vorgehensweise bei der Installation Bob50SQL für einen unabhängigen PC.

IBM SPSS Statistics Installationsanleitung

INDEX. Öffentliche Ordner erstellen Seite 2. Offline verfügbar einrichten Seite 3. Berechtigungen setzen Seite 7. Öffentliche Ordner Offline

MetaQuotes Empfehlungen zum Gebrauch von

Kurzanleitung Installation der Zend Studio Sprachpakete

Projekte Packen, Kopieren und Versenden

Ihr CMS für die eigene Facebook Page - 1

2.1 Briefkopf Klicken Sie im Menü Einstellungen auf den Button Briefkopf. Folgendes Formular öffnet sich:

Kurzeinführung Excel2App. Version 1.0.0

Medienkompass1, Lehrmittelverlag des Kantons Zürich, 1. Ausgabe 2008, Thema 13 Sicher ist sicher, S.58-61

Über die Internetseite Hier werden unter Download/aktuelle Versionen die verschiedenen Module als zip-dateien bereitgestellt.

Gratis-Online-Speicher (z.b. <Wuala>)

KURZANLEITUNG CYBERDUCK MIT CLOUD OBJECT STORAGE

disk2vhd Wie sichere ich meine Daten von Windows XP? Vorwort 1 Sichern der Festplatte 2

Anleitung zum GUI Version 2.x

Installation des edu-sharing Plug-Ins für Moodle

KNX BAOS Gadget. Installations- und Bedienanleitung. WEINZIERL ENGINEERING GmbH. DE Burgkirchen Web:

1. Adressen für den Serienversand (Briefe Katalogdruck Werbung/Anfrage ) auswählen. Die Auswahl kann gespeichert werden.

Zertifikat in dakota einlesen Wie lese ich mein Zertifikat in dakota.le ein?

Erstellen eines Screenshot

Formular»Fragenkatalog BIM-Server«

Erstellen eines Formulars

Netzwerkeinstellungen unter Mac OS X

OS Anwendungsbeschreibung

Datenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware

Kostenstellen verwalten. Tipps & Tricks

Meine Welt auf einen Blick erleben.

Eigene Seiten erstellen

ELO Print&Archive so nutzen Sie es richtig

FTP-Server einrichten mit automatischem Datenupload für

Anleitung mtan (SMS-Authentisierung) mit SSLVPN.TG.CH

Anleitung zu T-Com Rechnungsprogramm für Excel

Installation Hardlockserver-Dongle

Anzeige von eingescannten Rechnungen

Anwenden eines Service Packs auf eine Workstation

Windows. Workshop Internet-Explorer: Arbeiten mit Favoriten, Teil 1

Updatehinweise für die Version forma 5.5.5

Informationen zur Verwendung von Visual Studio und cmake

Windows7 32/64bit Installationsanleitung der ROBO-PRO-Software

Nutzung der VDI Umgebung

Folgende Einstellungen sind notwendig, damit die Kommunikation zwischen Server und Client funktioniert:

Leitfaden zum Umgang mit Mautaufstellung und Einzelfahrtennachweis

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

Programmierung für Mathematik (HS13)

Firewalls für Lexware Info Service konfigurieren

IAWWeb PDFManager. - Kurzanleitung -

Arbeiten mit dem Outlook Add-In

Der einfache Weg zum CFX-Demokonto

Installation censhare Client. Inhaltsverzeichnis

Beispiel Shop-Eintrag Ladenlokal & Online-Shop im Verzeichnis 1

Access Grundlagen für Anwender. Susanne Weber. 1. Ausgabe, 1. Aktualisierung, Juni 2013

2. Einrichtung der ODBC-Schnittstelle aus orgamax (für 32-bit-Anwendungen)

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Kleines Handbuch zur Fotogalerie der Pixel AG

Handbuch B4000+ Preset Manager

Webservicetest mit soapui

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Verschlüsseln Sie Ihre Dateien lückenlos Verwenden Sie TrueCrypt, um Ihre Daten zu schützen.

DCCP (Data Collection Cash Processing) Schaubild Version 1.0

Anleitung zum Download und zur Bedienung des Tarifbrowsers für Microsoft Windows 7 und Mozilla Firefox

Windows 2003 Server paedml Windows 2.7 für schulische Netzwerke. Update-Anleitung: Patch 1 für paedml Windows 2.7

Lokale Installation von DotNetNuke 4 ohne IIS

Hilfe zur Urlaubsplanung und Zeiterfassung

Mobile-Szenario in der Integrationskomponente einrichten

Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me

Es sollte die MS-DOS Eingabeaufforderung starten. Geben Sie nun den Befehl javac ein.

Wählen Sie bitte START EINSTELLUNGEN SYSTEMSTEUERUNG VERWALTUNG und Sie erhalten unter Windows 2000 die folgende Darstellung:

RIS Abbild mit aktuellen Updates

12. Dokumente Speichern und Drucken

malistor Phone ist für Kunden mit gültigem Servicevertrag kostenlos.

Klicken Sie auf Extras / Serienbriefe mit Word. Im Fenster Serienbriefe können Sie nun auswählen, an wen Sie den Serienbrief schicken möchten.

Zentrale Installation

Registrierungsanleitung Informatik-Biber

Musterlösung für Schulen in Baden-Württemberg. Windows Basiskurs Windows-Musterlösung. Version 3. Stand:

SEW Übung EMFText. 1 Aufgabe. 2 Domänenbeschreibung. 3 Installation von Eclipse/EMFText. 4 Schritt-für-Schritt Anleitung. 4.

Transkript:

General Architecture for Text Engineering - GATE basierend auf dem GATE-Benutzerhandbuch sowie dem Tutorial des CLab-Teams der Universität Zürich 3. Juni 2011 1

1 Lernziele Grundkenntnisse in GATE Development Environment erlangen Erfahrungen sammeln mit einer Annotationsoberfläche zur Informationsextraktion Einfache Modifikationen an JAPE Grammatiken zur Erkennung von NER Entwicklung einer eigener einfachen NLP Applikation mithilfe der GATE Development Environment. 2 Installation Lade Dir auf der Seite http://gate.ac.uk/download/ das binary-only Package herunter. Lade die aktuelle release runter und keine Beta-Version! GATE 6.1 ist momentan die aktuelle Version. GATE 6.1 benötigt eine mindestens Java-5.0-fähige Umgebung. Falls Du das Java SE Development Kit nicht installiert hast, musst Du das vor GATE Installation machen. ACHTUNG: Falls Du ein 64bit Windows hast, nehme die 32bit-JDK! Entpacke die gezippte Datei. Starte nun GATE mit gate.exe für Windows, GA- TE.app für Mac und für Linux mit dem Skript gate.sh im Unterordner /bin. 3 Was ist GATE GATE ist eines der bekanntesten Sprachverarbeitungssysteme mit integrierten Stufen der automatischen Sprachverarbeitung wie z.b. Tokenisierung, Wortarten-Bestimmung, Named-Entity-Recognition, Koreferenzauflösung usw. GATE beinhaltet drei Komponenten: 1. GATE Document Manager (GDM): Schnittstelle zum Speichern von Informationen über Texte die eine objektorientierte Manipulierung der Datenbank zulässt 2

2. GATE Graphical Interface (GGI): Graphische Oberfläche des Systems, die es dem Benutzer erlaubt die Daten und Module zu überwachen, auszuwerten und zu manipulieren 3. Collection of Reusable Objects for Language Engineering (CREOLE): Beinhaltet Module wie Tokeniser, Tagger, Parser, welche die linguistische Verarbeitung als einheitliches System durchführt Bei GATE Komponenten handelt es sich um Java Beans die in drei Hauptkategorien aufgeteilt sind: 1. Language Resources (LR): Korpora, Lexika, Ontologien 2. Processing Resources (PR): Programme oder Algorithmen die den Text bearbeiten z.b Parser, POS, Tokeniser etc. 3. Visual Resources (VR): Visualisierung und Bearbeitung der in der GUI vorhandenen Komponenten Folgende Dokumentformate sind als Input zugelassen: einfache Text-Dokumente, HTML, XML, SGML, RTF, Email und einige PDF und Microsoft Word Dokumente. Die bearbeiteten Dateien können als XML-Datei abgespeichert werden. 3.1 Korpus erstellen Erstelle als Erstes aus den Dir zur Verfügung gestellten Texten einen Korpus. Hierzu kannst Du Dir die Instruktionsfilme Module 1-3 auf http://gate.ac.uk/demos/ developer-videos/ anschauen. Die Codierung der Dokumente ist UTF-8. 3.2 ANNIE ANNIE (A Nearly-New Information Extraction system) ist das in GATE implementiertes IE-System. Für ausführliche Informationen siehe Kapitel 6 in GATE User Guide http://gate.ac.uk/sale/tao/index.html#x1-1260006. Nachdem Du den Korpus erstellt hast, kannst Du nun ANNIE über die Texte laufen lassen. Klicke auf das ANNIE-Zeichen und wähle with Defaults. Per Doppelklick auf ANNIE unter Applikationen kannst Du rechts die ANNIE-Verarbeitungskette sehen. Die Reihenfolge der Plugins ist wichtig (Abbildung 1). 3

Abbildung 1: A NNIE 4

3.2.1 Gazatteer Klicke nun auf den Text SDA.941104.0166 00025 und schaue Dir die markierten Entitäten für Date an. Es werden nur die Entitäten gefunden, die auch in ANNIE Gazatteer vorkommen. Das Processing Ressource (das Plugin) Gazetteer ist sehr simpel und besteht aus Listen für verschiedene Bezeichnungen, zum Beispiel Namen von Personen, Organisationen, Datum, Jobtiteln etc. Sie funktioniert über Gazetteerlisten. Die Gazetteerlisten der Applikation ANNIE sind unter GATE-6.1/plugins/ANNIE/resources/gazetteer/ zu finden. Die Listen sind einfache Textdokumente und enden auf.lst. Pro Zeile ist ein Eintrag vorhanden z.b.: aqua beige black... Das Plugin benutzt eine Indexdatei, die besagt, welche Gazetteerlisten abgerufen werden sollen (GATE-6.1/plugins/ANNIE/resources/gazetteerlists.def). Der Index muss sich im selben Verzeichnis wie die einzelnen Listen befinden. Die Listen können erweitert bzw. modifiziert werden. Die Listen können entweder direkt in GATE oder in einem externen Editor bearbeitet werden. 3.2.2 JAPE - a Jolly And Pleasant Experience Java Annotation Pattern Engine ist ein regelbasierter Formalismus in GATE und enthält viele LHS (left hand side) und RHS (right hand side) Regeln, die wie folgt aufgebaut sind: { Regel: Name Muster --> Aktion} Links vor dem Pfeil steht die LHS-Regel für das gesuchte Muster und rechts vor dem Pfeil beschreibt die RHS-Regel die Aktion, die ausgeführt werden soll. Die LHS-Regeln benutzen reguläre Operationen (,?, *, + ), während die RHS- Regeln Blöcken von Java Codes zu Verfügung haben, mit denen sie die Annotationen manipulieren. Ausführlichere Informationen über Anwendung und Modifizierung von JAPE findest Du auf http://gate.ac.uk/sale/tao/splitch8.html#chap: jape. 5

In der Datei Adressen.txt sind einige Adressen aufgelistet. Wenn Du nun AN- NIE über dieses Dokument laufen läst, erkennt der NE-Transductor die meisten Locations mit englischen Adressen, die deutsche Adresse wie Baumschuhl Allee dagegen nicht. Das liegt natürlich daran, dass hier die Regel zum Erkennen der Adresse auf englischen Tokens basiert ist, und muss in unseren Fall erweitert werden. Schau Dir die Regel mit dessen Hilfe Gazatteer das Tag Adresse erstellt. Die Datei findest Du unter GATE-6.1/plugins/ANNIE/resources/NE/adress.jape. Du kannst auch GATEs eigenen UTF-8 Editor benutzen (Menüleiste tools ). Auch hier verwende bitte UTF-8 Codierung und kein unicode. Schaue Dir dazu nun die Regel StreetName1 an. Wie bereits erwähnt ist die linke Seite der Regel für das Matchen zuständig. Gesucht wird also ein Token, das einer Zahl ist. Diese kann von einem optionalen Komma gefolgt von einem Token mit Großbuchstabe, gefolgt von Token aus Street-Gazatteer sein. Rule: StreetName1 ( ({Token.kind == number} ({Token.string == ","})? )? {Token.orth == upperinitial} {Lookup.minorType == "street"} ) :streetaddress Ist das gesuchte Muster gefunden worden, führt die rechte Seite der Regel die gewünschte Aktion aus. In unserem Fall heißt das, dem gefundenen Token wird ein Label streetadress zugewiesen, dem eine Annotation (Markierung) vom Typ Street zugeordnet wird. Der Regelname StreetName1 wird als Attribut der Annotation gesetzt, um nachzuverfolgen, welche Regel für welche Annotation zuständig ist. Nun musst Du das Token Allee zu den Einträgen der street.lst hinzufügen. In der Datei stehen die von der Gazatteer street benötigten Informationen, nämlich Straßennamen. Öffne die Datei street.lst und füge das Token Allee hinzu. Lasse nun ANNIE nochmal über die Texte laufen, nachdem Du deine Änderungen abgespeichert hast. Wenn Du die gesamte Adresse samt Nummer annotieren möchtest, musst Du die JAPE-Regeln in der Datei adress.jape noch wie folgt erweitern: Rule: StreetName2 ( 6

{Token.orth == upperinitial} {Lookup.minorType == "street"} {Token.kind == number} ) :streetaddress --> :streetaddress.street = {kind = "streetaddress", rule = StreetName2} Lade per Rechtsklick nun den modifizierten NE Transducer neu ( reinitialize ). Wenn Du nun ANNIE nochmal laufen lässt, muss auch die deutsche Adresse Baumschuhl Allee 22 als Straße erkannt werden. 4 Abspeichern von Dateien und Applikationen Nach jeder Bearbeitung musst Du natürlich deine Ergebnisse abspeichern, sonst sind diese bei nächstem Neustart nicht mehr vorhanden. Klick links in der GUI auf Data Store und wähle Create datastore. Hier kannst Du deinen Korpus samt allen von Dir annotierten Dokumenten mit Save to Datastore für spätere Verarbeitungen speichern. In dem Instruktionsfilm Module 7 auf http://gate.ac.uk/demos/developer-videos/ findest Du die genaue Vorgehensweise. Du kannst in GATE auch Deine eigene Applikationspipeline bauen. Klick links in der GUI auf Applications und wähle Corpus pipeline (siehe Instruktionsfilm Module 5). Auf diese Weise kannst Du Deinen Korpus, Deine Dokumente und die von Dir zusätzlich benutzte Processing Resources in Deiner Pipeline samt ihren Laufzeitparametern abspeichern (z.b. einen von Dir geschriebenen Jape Transducer). Diese gespeicherte.gapp Datei ist auch das Abgabeformat für diesen Block. 4.1 Weitere Informationen Für eine detaillierte Einführung in GATE, schaue Dir das GATE-Benutzerhandbuch unter http://gate.ac.uk/sale/tao/split.html. an. 7