Informationsextraktion durch Verwendung computerlinguistischer Verfahren in Texten mit Makrostruktur

Ähnliche Dokumente
GATE General Architecture for Text Engineering. Alexander Hein & Erik Dießler (VL Text Analytics )

Das Informationsextraktions- System ANNIE. Anna Mazhayskaya Anna Vinenko

Verbesserte Nutzbarkeit heterogener und verteilter Geodaten durch Semantische Interoperabilität

Automatisiertes Annotieren in CATMA

Neue Erkenntnisse aus unstrukturierten Daten gewinnen

Semantic Web. Ekaterina Timofeeva & Johannes Knopp Vorlesung Information Retrieval Dr. Karin Haenelt Universität Heidelberg WS2006/07

Caliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7. Mathias Lux

Java und XML 2. Java und XML

Softwarepraktikum. Textanalyse mit Java/Python. Franz Matthies

Ontologies are us: A unified model of social networks and sema

Regelbasierte Entwicklung betrieblicher Informationssysteme

MDRE die nächste Generation des Requirements Engineerings

Dineso Software - Technische Daten

ANGEWANDTE LINGUISTISCHE DATENVERARBEITUNG PROF. DR. JÜRGEN ROLSHOVEN UTE WINKELMANN

Reporting Lösungen für APEX wähle Deine Waffen weise

Eine Untersuchung der Funktionen des Apache Wicket Webframeworks

Modellgetriebene Softwareentwicklung: Zusammenfassung und Ausblick. 7. Februar 2013

General Architecture for Text Engineering - GATE

Von der Prozessanalyse zur Prozessautomatisierung

Inaugural-Dissertation. Philosophie

Inhaltsverzeichnis. 1 Einleitung Analyse des Webprozesses in Theorie und Praxis... 11

Reasoner for the Semantic Web

Zwischenbericht Diplomarbeit Entwicklung einer Laufzeitumgebung für Komponenten mit Ressourcenanforderungen

5. Programmierschnittstellen für XML

SemTalk Services Stand: September 2015

Software- /Systemarchitektur

Midas Metadata yield by Data Analysis

IUG DRESDEN ERSTELLUNG VON ROBUSTEN NATURAL SERVICES Software AG. All rights reserved. For internal use only

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN

Projektgruppe. Thomas Kühne. Komponentenbasiertes Software Engineering mit OSGi

Entwicklungssysteme für Lernumgebungen am Beispiel des Essener-Lern-Modells

ERWEITERUNG CONTAO INDEXIERUNG - SUCHE AUF OFFICE- UND PDF-DATEIEN

Generic Interface. Einfacher Datenaustausch zwischen Drittanwendungen und OTRS.

Softwaretechnologie für die Ressourcenlinguistik

Nutzung und Erweiterung von IT-Standards zur Realisierung von Authentifizierung und Zugriffsschutz für Geo Web Services

Machen Sie Ihre Daten bereit für INSPIRE mit HALE

Vorlesungsaufzeichnungen im Kontext sozialer Netzwerke am Beispiel von Facebook

Spezifikationen und Voraussetzung

Generelle Planung Generische Entwicklung Planungen (Ausblick 2017/2018)

5. Programmierschnittstellen für XML

Templatebasierter CDA-Generator mit ART-DECOR. Vortrag im Rahmen der HL7 Austria Jahrestagung 2017, Wien Dipl.-Inform. Med.

Aufbau der INSPIRE-Dienste des Landes

Semantische Suche und Visualisierung von biomedizinischen Relationsdaten

Spezifikationen und Voraussetzung

CyMON - SDMS. Warum SDMS? Semantisches Dokumenten Management System

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Suche für Anwender in SharePoint 2013

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN

Semantic Web Praktikum..und andere Praktika... WS 2004/05

Ein Ansatz zum modellgetriebenen Integrationstest von EJB-basierten Informationssystemen

RDF-S3 und erql: RDF Technologien für Informationsportale

Spring IDE. Christian Dupuis - Spring 2.0 Release Party

Datenmodellierung im Zeitalter agiler Softwareentwicklung

KRITERIEN FÜR DIE ZERTIFIZIERUNG VON METADATENPROFILEN

Inhalt. Einführung RFC-Funktionsbausteine in ABAP Funktionsbausteine zum Lesen Aufruf per srfc 108

Grundlagen der modellgetriebenen Softwareentwicklung. Teil 2: Modellierung

XML in der Oracle Datenbank

HEALTH Institut für Biomedizin und Gesundheitswissenschaften

Geodatenbankunterstützung für die geotechnische Bewertung von Massenbewegungen mit Hilfe eines Web Geological Feature Server (WGFS)

Programmierung von verteilten Systemen und Webanwendungen mit Java EE

Common Warehouse Metamodel und Imperfektion

Semantic Role Labeling im modernen Text-Analyse-Prozess

Eclipse und EclipseLink

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

1 XML Hype oder Hoffnung? Einleitung Wie ist dieses Buch aufgebaut?... 3

UML im objektorientierten Reverse Engineering strukturierter DB-Anwendungen

Collaboration on the Outcomes of

Praktikable Lösungsansätze unter Nutzung semantischer Technologien. Ulrich Bügel

UNIVERSITÄT REGENSBURG

Der semantische Discovery Service YEWNO - ein Pilotprojekt an der Bayerischen Staatsbibliothek. Dr. Berthold Gillitzer Bayerische Staatsbibliothek

EAI - Enterprise Application Integration

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Requirements basiertes Testen mit JUnit Architektur für eine Verbindung von Requirements Management und Test Management

Technologiepark Paderborn Telefon: / XX XX XX Mobil: 01XX / XX XX XX XX XXXXXXX@mail.upb.de

Semantic Technologies

Semantic Web. Anwendungsbereiche & Entwicklungen. Dr. Michael Granitzer

Generischer Modellvergleich mit EMF Compare

Entwicklung eines E-Learning Topic-Map Rahmenwerks

Ontologien und Ontologiesprachen

Enriched Content Browsing

Web (Site) Engineering (WebSE)

XDOC Extraktion, Repräsentation und Auswertung von Informationen

Ein XML Dokument zeichnet sich im Wesentlichen durch seine baumartige Struktur aus:

Konzept und Realisierung eines Zustandsmaschinen-Editors für Interaktionen medizinischer Bildverarbeitung mit Debug-Funktionalität

Modellinteroperabilität zwischen Microsoft Visio und Eclipse EMF als Mittel zur modellgetriebenen Integration

Web Services. XML, WSDL, SOAP und UDDI Einblicke und Ausblicke J.M.Joller 1

Integration eines pneumatischen Roboters in die Robotics API

ORACLE Business Components for Java (BC4J) Marco Grawunder

Modellgetriebene Softwareentwicklung: Zusammenfassung und Ausblick. 11. Februar 2015

Oracle JDeveloper 10 g

Architecture Blueprints

Textanalyse mit UIMA und Hadoop.!! Hans-Peter Zorn data2day, Karlsruhe,

Dabei sollen die Nutzern nach einer Authentifizierung entsprechend ihren Rechten Begriffe ändern, anlegen und kommentieren können.

Integration des Graphischen Editors CISGraph für Lokale Grammatiken in die Suchmaschine WiTTFind

<Insert Picture Here> BI Publisher Berichte in eigene Anwendungen integrieren

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Klassifizierung. Kategorisierung von Daten. Frank Seefeld

Graph-basierte Modellierung in Software-Werkzeugen

Semantic Web: Das Web der nächsten Generation

Transkript:

Informationsextraktion durch Verwendung computerlinguistischer Verfahren in Texten mit Makrostruktur Frank Reinert,Patrick Waldschmitt, Sandro Leuchter &RainerSchönbein Abt. Interoperabilität und Assistenzsysteme Fraunhofer InstitutInformations-und Datenverarbeitung (IITB) Fraunhoferstraße 1 76131Karlsruhe vorname.nachname@iitb.fraunhofer.de Abstract: In diesem Beitrag wird ein System vorgestellt, mit dem semistrukturierte militärische Aufklärungsmeldungen analysiert werden können, um ontologiegestützt ein automatisches Szenenmodell aufzustellen. ImRahmen der hier vorgestellten Studie wurde untersucht, in wie weit dazu das Open Source Natural Language Processing-Framework GATE eingesetzt werden kann. Ein GATE-basierter Prototyp wurde mit J2EE als Web-Service bereitgestellt und mit einer web-basierte Oberfläche zur Interaktion mit dem System und zur Visualisierung extrahierter Modelle versehen. 1Einführung Der Aufwand für die Entwicklung komplexer IT-Anwendungen liegt neben dem Entwurf und der Implementierung von Algorithmen oft zum größeren Teil in der Erschließung und Bereitstellung von Informationen in Form strukturierter Datensammlungen. Die automatische und semiautomatische Informationsgewinnung aus offen zugänglichen Quellen (OSINT, open source intelligence) ist deshalb ein wichtiges Hilfsmittel. Zurzeit werden Verfahren der Computerlinguistik, des Information Retrievals und des maschinellen Lernens verwendet, um elektronisch vorliegende Textdokumente zu verarbeiten. Je nach Art der vorliegenden Dokumente (Format, Inhalt, Sprache, Informationsdichte) und der benötigten extrahierten Information sind unterschiedliche Verfahren nützlich. Im Rahmen der militärischen Prozesse der Nachrichtengewinnung und Aufklärung müssen aus Textmeldungen führungsrelevante Informationen extrahiert, geprüft und zu einem aktuellen Lagebild verdichtet werden. Eine Abbildung der extrahierten Inforationen auf ein Domänenmodell (Ontologie) ermöglichtdieanwendungsübergreifende Nutzung der gewonnenen Sachverhalte. 190

2System Im Rahmen der hier vorgestellten Studie wurde untersucht, in wie weit das Open Source Natural Language Processing-Framework GATE ( General Architecture for Text Engineering [GATE]) für den Vorgang der Extraktion führungsrelevanter Informationen aus textbasierten Meldungen eingesetzt werden kann. Als Framework bietet GATE wieder verwendbare Language-Engineering Komponenten und vorgefertigte Softwarebausteine. Diese können im Rahmen der spezifischen Anforderungen für spezielle Anwendungen angepasst bzw. erweitert werden und zu einer Pipeline aus einzelnen Textprozessierungsschritten integriert werden. Eine graphische Entwicklungsumgebung unterstützt diesen Prozess. Eine Java-API ermöglicht die Verwendung der Komponenten in eigenen Anwendungen. Bei der Untersuchung wurde schwerpunktmäßig die regelbasierte Verarbeitung von GATE betrachtet. Die Untersuchung stützt sich auf einen Satz (ca. 50) konkreter militärischer Aufklärungsmeldungen (Format nach [STANAG 3377]). Dieser Typ militärischer Meldung weist eine Semi-Strukturierung (Makrostruktur) mit strukturierten Inhalten und Freitextanteilen(festgelegtdurch[STANAG 3596]) auf. Für die Meldungen wurde analysiert, welche Prozessierungskomponenten in GATE geeignet sind. Daraus wurde exemplarisch eine spezifische Verarbeitungspipeline (s. Tabelle 1) abgeleitet und implementiert. Die entwickelte Pipeline liefert als Ergebnis für jede Meldung (ausgewählte) Entitäten und deren Beziehungen, die dann in einem nachgeschalteten Schritt in ein Netz aus Instanzen von Konzepten und Relationen einer Ontologie überführt werden. Der Schwerpunkt der Meldungsprozessierung liegt hierbei auf der Ableitung von Entitäten und Relationen zwischen diesen, z.b. Aktionen als Verbindung zwischen Subjekt und Objekt, räumlichen Anordnungsbeziehungen usw. Zu der Ableitung der Zusammenhänge werden zusätzlich die strukturellen Informationen über die Meldung genutzt. Die durch den Gesamtprozess gewonnene domänenspezifische formale Repräsentation kann dann inentsprechenden Anwendungen weiterverwendet werden, z.b. zusammen mit weiteren Informationen in einer automatischen Lagebildgenerierung. Die Analyse der strukturierten und der Freitextanteile der Meldung dient ausschließlich dem Zweck, Instanzen für eine existierende Ontologie auseinem Satz von Meldungen abzuleiten. Die Instanzierung erfolgt nur imkontext einer Meldung. Das Auflösen von Referenzierungen einzelner Entitäten ( Coreferencing )über mehrere Meldungen hinweg wird nicht betrachtet. Für diese Art militärischer Meldungen ist ein Wortschatz zur Beschreibung der Anwendungsdomäne aufklärungsrelevanter Objekte vorgegeben. Dazu wurde auf eine im militärischen Aufklärungswesen eingeführte Kategoriedatenbank (konform zu [STANAG 3596]) mitobjektspezifischen Angaben zu Status, Typ, Aktivität etc. mit ca. 20.000 definierten Vokabeln zurückgegriffen. Die Meldungen werden unabhängig von der Ontologie mit einem separaten operationellen Werkzeug erstellt, das auch diese Kategoriedatenbank nutzt. Die verwendete Ontologie (Ziel-Ontologie) besitzt eine geringe taxonomische Tiefe derkonzepthierarchien. Damit ist eine Flexibilität für die Abbildung auf dedizierte Domänen-/Anwendungsontologien gegeben. In Abbildung 1ist ein Ausschnitt der Ontologie mit zwei Beispielinstanzen dargestellt. Die Ontologie 191

ist in RDFS formalisiert. Die Mächtigkeit von RDFS ist für diese Anwendung ausreichend. Es soll kein Reasoning betrieben werden. Abbildung 1: Ausschnitt derziel-ontologie Abbildung 2: Client- und Server-Architektur des Prototypen Im Rahmen des hier beschriebenen Systems wird die Ontologie für zwei Aufgaben genutzt: (1) als Ziel-Ontologie für die Generierung von Instanzen, (2) zur Konsistenzprüfung der durch die Textanalyse mit GATE erhaltenen Entitäten und ihrer Abbildung aufdie Ontologie. Der Prototyp ist als verteilte Anwendung konzipiert. Er beinhaltet drei Komponenten. Die eigentliche Informationsextraktion und Generierung der Instanzen ist als Web- Service mittels J2EE umgesetzt. Damit ist die Möglichkeit der Integration in bestehenden SOAs gegeben. Eine Benutzungsschnittstelle zur Interaktion mit der Pipeline und zur Ergebnisdarstellung (Darstellung des Instanzen-Netzes) wurde als Webanwendung entwickelt. In Abbildung 2ist der prinzipielle Aufbau des Prototypen dargestellt. Die zentrale Auswertelogik ist so implementiert, dass die Pipeline der Textprozessierungsschritte offline mittels GATE entwickelt und getestet werden kann. Anschließend wird die Konfigurationsdatei in dem Web-Service deployed. Als Web- Service Framework wird Axis2 eingesetzt. Die Kommunikation zwischen dem Client und dem Server erfolgt mittels SOAP in einem LAN. Die dritte Komponente des Prototypen bildet ein Joseki-Server. Er dient als Repository für die Ontologie. Der Web- Service greiftmittels RDQL-Anfragen aufmodellund Ontologie zu. Zur Analyse einer Meldung wird diese mittels des Clients an den Server gesendet. Der Text bildet den Inhalt der SOAP-Nachricht. Der Web-Service extrahiert diesen Text und übergibt ihn GATE zur Textanalyse und zur nachfolgenden Erzeugung der Instanzen. Als Ergebnis wird eine SOAP-Nachricht an den Client zurückgesendet. Die erzeugten Instanzen können als Graph angezeigt oder mit weiteren Anwendungen verarbeitet werden. Für die Textanalyse mussten einige GATE Komponenten angepasst werden. Vor allem die Struktur der Meldungen bedingt Änderungen am Standard GATE Sentence-Splitter. Für spezielle Entitäten (z.b. für die Erkennung spezieller Koordinatenangaben) musste der Regelsatz des JAPE-Transducers anwendungsspezifisch erweitert werden. Auf das Vokabular der Meldungen angepasste Gazetteerlisten wurden aus der Kategoriedatenbank abgeleitet. Die Möglichkeit der 192

zweistufigenannotation der von GATE verwendeten Gazetteerlisten wurde genutzt, um die Transformation von Entitäten in Ontologieinstanzen zu unterstützen. Dieser Ansatz ist speziell auf die Ziel-Ontologie zugeschnitten. Die Annotationen liefern der nachgeschalteten Anwendungslogik zur Generierung der Instanzen Hinweise darauf, welchekonzepte der Ontologie zu instanzieren sind. InAbbildung 3sind einige typische Annotationen ausgewählter Regeln der textuellen Analyse einer Meldung abgebildet. Die aus dieser Analyse gewonnenen Metadaten werden zu der Generierung von Instanzen genutzt. Abbildung 3: AnnotationeninGATE 3Andere Systeme Hecking [Hec05, Hec06] beschreibt ein anderes System zur computerlinguistischen Analyse von militärischen Freitextmeldungen mit GATE mit dem Ziel, englischsprachige HUMINT Reports in graphisch navigierbare Entity-Action-Netzwerke zu überführen. Bei dem hier vorgestellten Systemprototypen geht es hingegen um die Analyse englischsprachiger RECCEXREP Reports [STANAG 3377] mit dem Ziel Instanzen einer Ontologie zu generieren und das resultierende semantische Netz graphisch darzustellen. Eine Gegenüberstellung der Arbeitsweise dieser beiden Systeme ist in Tabelle 1dargestellt. 4Ausblick Das vorgestellte System ist als Prototyp realisiert und kann in SOAs eingebunden werden, um den beschriebenen Dienst zur Verfügung zu stellen. Damit ist ein wesentlicher Schritt zur teilautomatisierten Generierung einer interoperablen Lagedarstellung erreicht. 193

Gegenwärtig werden die Gazetteerlisten anhand des Inhalts der Kategoriendatenbank erweitert,umeinen breiten Bereich des verwendeten Vokabulars abzudecken. Die Überführung der Entitäten in die Instanzen der Ontologie erfolgt bei dem vorgestellten Systemprototypen noch in einer speziell auf die Zielontologie zugeschnittenen Implementierung. Dieser Prozess ist der Informationsextraktion nachgeschaltet. Ein generischerer Ansatz auf der Basis einer deklarativen Beschreibung derabbildungsvorschriftmittels Regeln inverbindung mitderontologie wird zukünftig entwickelt. GATE- Pipeline Verarbeitung Präsentation Tabelle 1: Vergleich [Hec06] mit dem dargestellten Prototypen [Hec06] English Tokenizer Sentence Splitter PoS-Tagger Gazetteer NE-Transducer Morphological Analyser -Erfassen von Verb Phrases -Extraktionvon Aktionstypen -Extraktiondes Satzinhalts/der Semantik (durchverwendung von Semantic Frames /FrameNet) - Information Extraction and ProcessingSystem [CH05] -Darstellung mit TouchGraph -Filterung derdarstellung durch Zusammenfassen von Ergebnissen unter Verwendung von XSLT Dargestellter Prototyp English Tokenizer Sentence Splitter PoS-Tagger Morphological Analyser Flexible Gazetteer Gazetteer NE-Transducer großteils lineare Verarbeitung Annotationen zur -Extraktionvon Individuen und Relationen anhand Ontologie -Anreicherung während der Verarbeitung -Client fürwebservice -Darstellung basiert auf Prefuse -Speichern,Öffnen und ungefilterte Darstellung von RDF-Dateien Literaturverzeichnis [CH05] Casal E. X., Hecking M.: IEPS: AFramework to Manage and to Visualize Information Extraction Results. [GATE] http://gate.ac.uk/(letzter Zugriff: 29.06.2007). [Hec06] Hecking, M.: Content Analysis ofhumint Reports. In: Proc. of the 2006 Command and Control Research and Technology Symposium, June 20-22, 2006, San Diego, California. [Hec05] Hecking, M.: Domänenspezifische Informationsextraktion am Beispiel militärischer Meldungen. In: (Cremers, A.B.; Manthey, R.; Martini, P.; Steinhage, V., Hrsg.): INFORMATIK 2005, Band 2. GI(LNI; P-68), Bonn, 2005, S. 109-113. [STANAG 3377] STANAG 3377 AR (EDITION 6) Air Reconnaissance Intelligence Report Forms, 2002. [STANAG 3596] STANAG 3596 AR (EDITION 5) Air Reconnaissance Requesting and Target Reporting Guide, 2003. 194