INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN

Transkript

1 INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 14. OKTOBER Schlüsselworte Semantik, Informationsextraktion, Automatisierte Syntaxanalyse, Validierung, Chunking, Tagging, Token, Relationen, Natural Language Processing, kleine Text- Korpora, Ontologie, RDF 2. Kontext der Arbeit Das Gebiet umfasst die semantische Textanalyse von der Vorverarbeitung der Texte. Diese schließt die Annotation von Sätzen (Haupt- und Nebensätze), Wörtern und Wortarten mit ein. Des Weiteren wird eine semantische Analyse vollzogen und Named Entities, zeitliche und räumliche Ausdrücke sowie Relationen zwischen diesen erkannt und mit Hilfe einer innovativen linguistischen Methode validiert. 3. Motivation zu diesem Thema Durch die immer stärker werdende Verbreitung von Textmaterial wie Büchern, Publikationen oder Artikeln im Internet entstehen Probleme, diese gewaltige Menge an Informationen nach ihrer Relevanz und ihrer Irrelevanz korrekt zu extrahieren, um sich den Informationsgehalt effizient zu Nutze machen zu können. Eine Möglichkeit solche Informationen korrekt extrahieren zu können, bilden statistische Verfahren. Diese benötigen jedoch eine hohe Anzahl an zu analysierenden Wörtern (mehrere Wörter), um möglichst fehlerfreie Ergebnisse während der Extraktion erzielen zu können. Dieser Aspekt ist im Fall von kurzen Texten wie Nachrichtenartikeln oder E- Mails allerdings nicht mehr möglich. Sollen die relevanten Informationen beispielsweise einer in eine 120 Zeichen beschränkte SMS verpackt werden, stoßen diese Verfahren an ihre Grenzen und die Korrektheit kann nicht mehr sichergestellt werden. Demnach ist es notwendig ein Konzept zu entwickeln, das in der Lage ist, korrekte Informationen aus kurzen Texten extrahieren zu können. SEITE I

2 4. Forschungsdesign Aufbauend auf den dargestellten Problemen, soll im Rahmen dieser Arbeit eine prototypische Natural Language Processing (kurz: NLP) basierte PIM - Anwendung für kurze, ausschließlich deutsche Texte entwickelt werden. Das erfordert zunächst Grundkenntnisse auf dem Gebiet NLP zu erlangen, Grundbegriffe zu definieren und Grundschritte des NLP herauszufiltern. Anschließend müssen die auftretenden Probleme bezüglich der Extraktion von Informationen aus kurzen Texten analysiert werden. Teil der Arbeit ist es weiterhin nach existierenden Lösungen bzw. Lösungsansätzen zu suchen. Auf der einen Seite sollen Methoden gefunden werden, die zur Gewinnung von Informationen aus Texten beitragen, auf der anderen Seite jedoch ebenfalls Verfahren, die für die Validierung der Ergebnisse sorgen müssen. Danach gilt es diesen Methoden und Verfahren einzelne Schritte des NLP zuzuordnen, wodurch unzureichend abgedeckte Gebiete ermittelt und neue Herausforderungen identifiziert werden sollen. Der primäre Fokus liegt abschließend auf der Konzeption, die aus unstrukturierten Daten semantisch möglichst korrekte Informationen generieren muss. Diese soll durch die gewonnenen Erkenntnisse im Bereich Informationsextraktion aus kurzen Texten konzipiert werden. Unter einer semantischen Information ist ein Triple aus Subjekt, Prädikat und Objekt zu verstehen (Bsp.: Michael Ballack, spielt, Ball). Das Prädikat bildet demzufolge eine Relation zwischen dem Subjekt und Objekt. Für die Darstellung von Relationen zwischen gewonnenen Informationen ist es nötig, Ontologien zu nutzen. Diese sollen jedoch lediglich als Hilfsmittel dienen und nicht zum Hauptbestandteil der Konzeption der Arbeit gehören. Um das Konzept schließlich evaluieren zu können, muss die prototypische PIM-Anwendung abschließend implementiert werden. 5. Erkenntnisse Es konnte gezeigt werden, wie die Extraktion semantischer Informationen funktioniert und inwieweit Korrektheit und Vollständigkeit bei diesem Prozess eingehalten werden. Gerade bei einem Artikel mit wenigen Wörtern im Vergleich zu weitaus längeren Artikeln, bestätigen sich die Ergebnisse der Evaluierung mit den im Konzept getroffenen theoretisierten Annahmen im Praxistest weitestgehend. Der Prototyp weist noch Schwächen auf, die jedoch behebbar erscheinen. Die Annahmen, die im Konzept ge- SEITE II

3 troffen wurden, erweisen sich als stichhaltig, um korrekte semantische Informationen aus kurzen und wenigen Texten extrahieren zu können. Für den großen Korpus werden sich ähnliche Ergebnisse nachweisen lassen, da sich an den Gegebenheiten von mehreren Artikeln keine Veränderungen während der Extraktion ergeben, genauso wenig wie bei der Analyse von zwei einzelnen Sätzen. Der einzige Aspekt, der sich negativ auf die Menge mehrerer Texte auswirkt, ist die Laufzeit. Je mehr Artikel bzw. Texte zu analysieren sind, desto stärker wirkt sich das auf die Laufzeit aus. Die Named Entity Analyse sowie die Validierung nehmen viel Zeit in Anspruch, weil kontinuierlich mehr Fakten analysiert werden müssen. Da sich die Aufgabe allerdings auf die Analyse weniger, kurzer Texte beläuft, ist die Laufzeit dahingehend zu vernachlässigen. Durch die Implementierung des Prototypen ist es dennoch möglich, Analysen nacheinander auszuführen, die Zeit der Analyse zu staffeln und sich dann den erweiterten Graphen anzeigen zu lassen. 6. Weiteres Forschungspotenzial Die Extraktion semantischer Informationen aus kurzen Texten mit Hilfe von Subjekt Prädikat Objekt (kurz: SPO) Strukturen ist ein interessantes aber ebenfalls schwieriges Thema, zumindest dies automatisiert zu bewältigen. Probleme entstehen, wenn Sätze bzw. Nebensätze selbst stark verschachtelt sind. Das führt zu Fehlinterpretationen der Satzstruktur, nicht unbedingt bei der Extraktion der SPO Struktur, sondern bei der Zusammengehörigkeit von Informationen, etwa wenn Objekte einem anderen Subjekt zugeordnet werden müssten. Dort genauere Algorithmen anzuwenden, wird extrem schwer zu realisieren sein, da der Kontext jedes Teilabschnittes im Satz analysiert und dem richtigen nächsten Abschnitt zugeordnet werden muss. Allein mit der Stellung und Anzahl von Kommata wird das Problem nicht zu lösen sein. Ein weiteres schwerwiegendes Problem tritt bei der Differenzierung von Subjekt und Objekt auf, wenn diese nicht durch Präpositionen wie nach, bis oder in auftreten. Genau dann, wenn die Kenntnis der Wortarten über den Wörtern nicht mehr ausreicht und Wissen über Tempus, Kasus, Numerus und Genus der gebeugten Wörter benötigt wird. Dadurch ergeben sich viele verschiedene Modifikations- und Erweiterungsmöglichkeiten für das System der Extraktion semantischer Informationen aus kurzen Texten. Um die Erkennung von Named Entities schneller zu gewährleisten, können die bereits erkannten und extern gespeicherten dafür verwendet werden, um entsprechende Elemente bei SEITE III

4 nachfolgenden Extraktionen sofort überspringen zu können. Das hat einen lernenden Effekt und kann ebenfalls für die SPO - Analyse verwendet werden. Dort ist es ebenfalls vorstellbar, die bereits implementierten Regeln zu modularisieren und dadurch jeder Regel eine eigene Instanz zuzuordnen. Mit Hilfe solcher Module können dadurch beispielsweise neuronale Netze erzeugt und diese durch Lernphasen erweitert werden, etwa wenn während der Textanalyse eine neue Form der Wortstellung für die Erkennung von Subjekt oder Objekt gefunden wurde. Neue Regeln könnten dadurch erzeugt oder bereits bestehende modifiziert bzw. erweitert werden. Das Problem der Analyse von Haupt- und Nebensätzen ist schwer zu lösen. Die Stellung und Anzahl an Kommata kann unter Umständen zum Erfolg führen. Das setzt allerdings eine konkrete Satzstruktur voraus, das heißt, Nebensätze bzw. geteilte Nebensätze müssen sich innerhalb des Hauptsatzes befinden, um anhand der Anzahl an Kommata zu erkennen, an welcher Stelle die gesplitteten Nebensätze zusammengehören. Ist das nicht der Fall, kann nicht mehr ohne weiteres gewährleistet werden, dass der zweite Abschnitt eines Hauptsatzes nicht auch der eines Nebensatzes sein kann. Mit Hilfe des Kontextes kann auch auf die korrekte Zusammenstellung der Satzteile geschlossen werden. Der Kontext bezieht sich dann beispielsweise auf den Tempus des Abschnittes, etwa wenn ein Nebensatz das Präteritum behandelt, der Hauptsatz jedoch das Präsens. Ein weiteres kompliziert zu lösendes Problem, ist das der Differenzierung von Subjekt und Objekt ohne Hilfestellung durch Präpositionen. Um dann korrekt Subjekt und Objekt extrahieren zu können, sind Kenntnisse über Tempus, Genus, Numerus und Kasus notwendig. Diese Informationen jedoch syntaktisch beispielsweise anhand von Suffixen zu erhalten, ist nicht möglich (Bsp.: der Spieler [Singular], die Spieler [Plural]). Vorstellbar ist dafür die zusätzliche Analyse der Wortstämme (Bsp.: der Rang, die Ränge). Um die Wortstämme allerdings zu erhalten, müssen genaue linguistische Kenntnisse über Morpheme der Wörter vorhanden sein, denn auch diese müssen dementsprechend extrahiert bzw. entfernt werden. Ein solcher Morphemextraktor existiert bereits und wurde während eines Praktikums bei der T-Systems Multimedia Solutions GmbH entwickelt. Neben diesen Analysemethoden müssen ebenfalls Wörterbücher verwendet werden, die besondere Substantive enthalten, die keiner Veränderung des Wortes bei einer Pluralisierung unterliegen. Ebenfalls lexikalisch müssen Informationen über Genus gespeichert sein. Mit Hilfe dieser Informationen kann die SPO - Analyse dahingehend verbessert werden, annähernd 100% korrekte Subjekte und Objekte SEITE IV

5 zu extrahieren. Für die Erkennung von Pronomen und ihrer semantischen Ergänzungen (Bsp.: Michael Ballack spielt den Ball. Er schießt. Er = Michael Ballack) wird im aktuellen Entwicklungsstand das vorangegangene Subjekt als das aktuelle bei nachfolgenden Pronomen wie er oder der interpretiert. Für die annähernd vollständige Betrachtung dieses Aspektes, dass ebenfalls Objekte für die Interpretation zur Verfügung stehen, kann das leicht mit einer Fuzzy - Logik beschrieben werden. Ein weiterer Erweiterungs- bzw. Modifikationsaspekt ist der einer Überlegung, ob Relationen mit einem Validierungsfaktor kleiner gleich 33 Prozent für relevant befunden werden können oder nicht. Im Prinzip sind höchstwahrscheinliche Relationen zwischen Named Entities am interessantesten. Diese Überlegung gilt es zu prüfen und in zukünftigen Arbeiten zu verifizieren. Abschließend kann das System um weitere Sprachen wie Englisch, Spanisch u.a. erweitert werden. Das erfordert allerdings weitreichende Kenntnisse in der Grammatik der neuen Sprachen. 7. Die fünf wichtigsten Literaturquellen der Arbeit [Rei05] Marie-Laure Reinbergerr. Automatic extraction of spatial relations. Techn. Ber. University of Antwerp - CNTS, 2005 [SH05] From temporal expressions to temporal information: Semantic tagging of news messages. Bd. ACL 01 - Proceedings of workshop on temporal and spatial information processing [Wäc10] Thomas Wächter. Semi-Automated Ontology Generation. Diss [Sul01] Dan Sullivan. Document Warehousing and Text Mining. Techniques for Improving Business Operations, Marketings and Sales. John Wiley & Sons, 2001 [BGP95] Roberto Basili, Fabrizio Grisoli und Maria Teresa Pazienza. HIRMA: Hypertextual Information Retrieval System Managed by ARIOSTO. Techn. Ber SEITE V