Kapitel 9. Zusammenfassung & Ausblick

Transkript

1 Kapitel 9 Kapitel 9 Zusammenfassung & Ausblick In diesem Kapitel wird der Prozess der Erstellung einer Zielontologie aus einer Textkollektion zusammengefasst und herausgestellt, wie sich eine Ontologie, die mit dem beschriebenen Prozess erstellt wurde, nutzen lässt. Im Anschluss wird abschließend ein Ausblick auf zukünftige Entwicklungen gegeben. 9.1 Zusammenfassung In dieser Arbeit wurde ein System zur vollautomatischen Informationsextraktion aus natürlichsprachlichen, deutschen Texten mit anschließendem Ontologieaufbau namens Ontology On Demand (OOD) vorgestellt. Das System beinhaltet eine deutsche, Wikipedia-ähnliche Fachtextsammlung, die von Energieforschungsexperten im Rahmen eines Projekts namens EnArgus erstellt wurde und von OOD als Basis zur vollautomatischen Erstellung einer domänenspezifischen Ontologie benutzt wird. Technisch funktioniert die Verarbeitung in Form von einzelnen Modulen auf Java-Basis, die nacheinander auf die Texte angewendet werden und Annotationen mit Attribut-Wert-Paaren erzeugen. Dabei dienen Annotationen von früher laufenden Modulen als Input für später laufende Module. Zum automatischen Aufbau der Zielontologie wird eine Informationsextraktionskomponente eingesetzt, die in der Theorie zunächst syntaktische und schließlich grammatische Strukturen extrahieren, statistisch auswerten und die relevanten Strukturen dann zur Erkennung semantischer Zusammenhänge verwenden sollte. Somit sollte die Komponente

2 Ontology On Demand zunächst eine sogenannte Backbone-Ontologie mit linguistischen Informationen zur Ergänzung von Verben aufbauen, welche schließlich bei einem weiteren Verarbeitungsdurchlauf der Texte zur Erkennung der enthaltenen semantischen Strukturen verwendet worden wäre. Die praktische Umsetzung hat jedoch gezeigt, dass sich die extrahierten Verbinformationen durch Auswertung der Auftretenshäufigkeit nicht statistisch eindeutig in relevante und irrelevante Informationen unterteilen lassen. Somit konnte gezeigt werden, dass eine vollautomatische Extraktion von grammatischen Regeln in Bezug auf Verben sowie die Formalisierung dieser Regeln in einer Backbone-Ontologie nicht möglich ist. Dies liegt daran, dass Verben nicht häufiger zusammen mit den Präpositionen auftreten, die ein Präpositionalobjekt einleiten. Zwischen Verben und den umgebenden Präpositionalphrasen, die eine zum Verb kompatible semantische Rolle tragen können, kann es somit keinen statistisch belastbaren Zusammenhang geben, wenn es diesen zwischen Verben und Präpositionen ebenfalls nicht gibt. Es hat sich darüber hinaus jedoch gezeigt, dass periphäre semantische Rollen für die Informationsausbeute im Grunde nur von geringer Bedeutung sind, da Zeitrollen ohnehin stets fakultativ sind und die fakultativen Ortsrollen (insbesondere Location ) von der Informationsextraktion kaum als solche erkannt werden können. Obligatorische periphäre Rollen sind hingegen weder eindeutig qualifizierbar noch können sie ohne Interpretation des Textinhalts bzw. Wortneuschöpfung in einer Ontologie dargestellt werden. Die viel bedeutsameren primären Rollen tauchen hingegen so systematisch und vorhersagbar auf, dass sie sich ebenso gut aus der Syntax und ohne eine Backbone-Ontologie qualifizieren lassen. Die Empirie hat somit gezeigt, dass das Semantic Role Labeling insgesamt für die automatische Informationsextraktion praktisch keinen Nutzen bringt. Nachdem diese wichtigen Erkenntnisse gewonnen waren, wurde eine manuell erstellte Backbone-Ontologie in die Informationsextraktionskomponente implementiert. Die Informationsextraktionskomponente bildet die Fakten der Texte durch Annotationen und deren Attribut-Wert-Paare ab. Ein Modul zum Ontologieaufbau übersetzt die erzeugten Annotationen und Attribut-Wert-Paare in eine OWL-Datei, die schließlich die Zielontologie mit den semantischen Zusammenhängen aus den verarbeiteten Texten darstellt. Zur Beurteilung der Qualität und der Verwendbarkeit einer automatisch erstellten Ontologie wurde ein Testkorpus aus den Texten zusammengestellt. Die insgesamt 174 enthaltenen Fakten

3 Zusammenfassung & Ausblick wurden händisch in einer Vergleichsontologie modelliert. Die aus dem Testkorpus automatisch aufgebaute Zielontologie wurde anhand der manuell erstellten Vergleichsontologie ausgewertet. Es ergab sich für den automatischen Ontologieaufbau ein F1-Wert von 80,6. Dies entspricht einer mehr als 80%igen Entlastung eines menschlichen Ontologieerstellers, so dass von diesem nur noch etwas weniger als 20% korrigiert oder hinzugefügt werden muss. Ähnliche Systeme für das Englische erreichen im Mittelwert eine Verwendbarkeit von ca %. Die Evaluation einer Ontologie kann zwar stets nur einen sehr vagen Eindruck über die Güte geben. Die für OOD angestrebte Informationsausbeute von 80% konnte jedoch beim exemplarischen Vergleich für das Deutsche erreicht werden. 9.2 Applikation Es wird angestrebt, im EnArgus-Projekt eine durch OOD automatisch erstellte Ontologie aus der Fachtextsammlung als Grundlage für eine produktive, domänenspezifische Ontologie über den Fachbereich Energieforschung zu verwenden. Die Fachontologie ist für Suchanfragen von zentraler Bedeutung, da das Informationssystem EnArgus von zahlreichen Laien benutzt wird, die in einem ihnen unbekannten Fachgebiet schnell und präzise die Informationen abrufen können müssen, die sie suchen. Die Fachontologie wird hier benutzt, um dem Benutzer zu seiner Suche semantisch verwandte Begriffe vorzuschlagen, die er als Nicht-Experte im Fachgebiet Energieforschung nicht kennen kann. So wird der Benutzer durch eine semantische Suchapplikation dabei unterstützt, auch bei einer ungenauen Suche zu finden, wonach er sucht (Sikorski, Haarmann & Ohrem 2013). Die Benutzer des Informationssystems können die von OOD verwendete Textkollektion auch wiederum als Glossar zur einfachen Erklärung unbekannter Fachbegriffe benutzen. Das Ergebnis der Implementierung einer Fachontologie in das Auskunftssystem EnArgus ist eine leichtere und schnellere Suche nach präzisen Informationen für Nicht-Experten in einer fremden bzw. unvertrauten Domäne. OOD kann den Aufbau dieser Fachontologie in wesentlichem Maße erleichtern.

4 Ontology On Demand Die Technologie zum automatischen Aufbau einer Zielontologie aus natürlichsprachlichen Texten stellt somit eine große Hilfe für die semantische Interoperabilität dar. Im EnArgus-Projekt konnte mit der Implementierung dieser Technologie erfolgreich gezeigt werden, dass sich die Interoperabilität technisch herstellen lässt, auch wenn die jeweiligen Experten des Fachgebiets keine ausreichende Zeit, Willen oder Kenntnis haben, eine Ontologie manuell aufzubauen, oder hierfür nicht ausreichend personelle und finanzielle Ressourcen zur Verfügung stehen (Sikorski, Haarmann & Ohrem 2013). In anderen Anwendungsfeldern kann die entstehende Fachontologie ebenfalls als Ressource genutzt werden, um ein System, in das sie eingebettet ist, mit semantischen Informationen über das Fachgebiet Energieforschung zu versorgen. Umgekehrt kann OOD mit den Anpassungen an ein anderes Fachgebiet auch den Aufbau von domänenspezifischen Ontologien aus anderen Wissensbereichen unterstützen. 9.3 Ausblick Die praktische Realisierung von Ontology On Demand hat an vielen Stellen weiterführendes Potenzial zur Verbesserung und Weiterentwicklung der Informationsextraktion gezeigt. Es sollte versucht werden, andere Regeln aus extrahierten syntaktischen Informationen zu schließen. Die als Subjekt und Objekt erkannten Konzepte lassen sich z.b. mithilfe überlagernder Annotationen aus der Named Entitiy Recognition wie z.b. Person auf Belebtheit und Menschlichkeit untersuchen. So ergeben sich u.u. für jedes Verb Selektionsrestriktionen für dessen Subjekt- und Objektkomplemente, die sich möglicherweise auswerten und in der Backbone-Ontologie speichern lassen. In jedem Fall können die überlagernden Annotationen aber verwendet werden, um einen weiteren Ontologie-Ast z.b. mit Personen zu befüllen. Dies wurde bei OOD bisher offen gelassen, da die Texte des EnArgus-Korpus kaum Personenbezeichnungen enthielten. Die Person -Annotation enthält als Vorleistung für eine Erweiterung der Anaphernauflösung bereits die Angaben zum Vor- und Nachnamen. Später kann

5 Zusammenfassung & Ausblick vor allem durch den Nachnamen oder durch Wendungen wie z.b. "Die 42-Jährige" die Koreferenz über Pronomina hinaus weiter ausgebaut werden. Des Weiteren ist es denkbar, dass in der Vornamenliste des Gazetteers das jeweilige Geschlecht mit angegeben wird, um mit dem Genus bei der Auflösung ambiger Personalpronomen eine weitere Informationsquelle zur Disambiguierung zu haben. Weiterhin ist es denkbar, dass die einzelnen extrahierten Konzepte extern zu einer Wortsammlung zusammengestellt werden. Dies ist zumindest für einen auswertenden Zwischenschritt sinnvoll, weil sich hierdurch zwei weitere Informationsquellen ergeben: Erstens kann man die Konzepte, die jeweils entweder in Subjekt- oder in Objektposition mit einem Verb vorkommen, u.u. miteinander clustern. Hier liegt die Annahme zugrunde, dass die Konzepte, die zu demselben Verb das Subjekt (bzw. das direkte Objekt) bilden können, d.h. in paradigmatischer Stellung zueinander stehen (de Saussure ; Lommel 1967), veritable Merkmale gemeinsam haben müssen, so dass sich aus dem Clustering weitere ontologische Klassen unterhalb der Klassen Objekt und Person ergeben. Ein Problem hierbei ist jedoch sicherlich die Benennung der Unterklassen, da die Hyperonyme sich nicht direkt erschließen lassen. 51 Zweitens können die durch das Clustering entstandenen Unterklassen durch die extrahierten Modifikatoren mit Merkmalen belegt werden. Es lässt sich statistisch überprüfen, ob sich die Modifikatoren signifikant häufig auf Mitgliedskonzepte der geclusterten Unterklassen beziehen, so dass die gesamte Klasse mit einem entsprechenden Datatype Property belegt werden kann. Nach dieser Zuordnung kann man noch einen Schritt weiter gehen und Datatype Properties, die bei allen Unterklassen gleichermaßen vorkommen (oder je nach Datenmenge zumindest bei einem gewichtigen Teil 52 ), auf ihre jeweilige Oberklasse generalisieren. 51 Als Ausnahme hiervon könnte man, falls alle Mitgliedskonzepte bindestrichgetrennte Komposita mit gemeinsamem Endteil sind, den gemeinsamen letzten Bestandteil der Komposita als Oberbegriff annehmen. 52 Hierfür kann man einen Schwellenwert definieren, um auch bei geringerer Textmenge sicherzustellen, dass Merkmale auf Oberklassen generalisiert werden, auch wenn sie in den Texten nicht mit Konzepten aus allen Unterklassen erwähnt wurden.

6 Ontology On Demand Schlussbemerkungen Auch wenn der technische Fortschritt im Bereich Sprachverarbeitung in Zukunft weiter wachsen wird, bin ich davon überzeugt, dass dieser Entwicklungsprozess stets zwangsläufig von einer gewissen Fehlerrate begleitet sein muss. Allein die Bestimmung der Wortart durch einen POS Tagger hat eine geschätzte Fehlerquote von 5% bei Fachtexten. Auf der Information über die Wortart bauen jedoch fast alle folgenden Analysen der Informationsextraktion auf, so dass eine falsch zugewiesene Wortart sich zu einer ganzen Kette von Fehlinformationen ausbreiten kann. Die Ergebnisse dieser Dissertation haben erneut verdeutlicht, dass auch die Ambiguität sprachlicher Konstrukte auf fast allen Ebenen erheblich zu fehlenden oder falsch erkannten Informationen führen kann. Wenn man zusätzlich bedenkt, dass unsere Sprache stets von sehr viel Vagheit und Emotion geprägt ist und wir uns z.b. vieler unpräziser und bildlicher Ausdrücke bedienen, so wird uns bei objektiver Betrachtung klar, dass die zukünftige Sprachtechnologie vielleicht Vieles für uns effektiver machen kann, sie kann für uns jedoch niemals mehr sein als eine Arbeitserleichterung. Der technische Fortschritt im Bereich der künstlichen Intelligenz wird uns in Zukunft hoffentlich noch zahlreiche weitere, bahnbrechende Entwicklungen bescheren, die unser Leben einfacher und komfortabler machen. Die Probleme, die sich bei der Formalisierung von Fakten in eine Ontologie ergeben haben, zeigen uns jedoch auch, dass eine Ontologie niemals umfassend sein kann, dass ein Computer niemals so viel Wissen zur Verfügung haben kann wie ein Mensch und dass Maschinen auch in Zukunft weit davon entfernt sein werden, die menschliche Sprache in ebenbürtiger Weise zu beherrschen. Somit wird unsere Sprache auch in Zukunft das sein, was uns Menschen menschlich macht, so dass das populäre Zitat von Edward Sapir (1921) trotz des stolzen Alters von 92 Jahren nicht an Aktualität verlieren wird: Sprache ist eine ausschließlich dem Menschen eigene, nicht im Instinkt wurzelnde Methode zur Übermittlung von Gedanken, Gefühlen und Wünschen ( ).