Extraktion von Metadaten als Basis für eine semantische Integration heterogener Informationssysteme

Extraktion von Metadaten als Basis für eine semantische Integration heterogener Informationssysteme Liane Haak, Axel Hahn Abteilung Wirtschaftsinformatik Carl von Ossietzky Universität Oldenburg Fakultät II / Department für Informatik Ammerländer Heerstr. 114-118 26129 Oldenburg haak@wi-ol.de hahn@wi-ol.de Abstract: Dieser Beitrag beschreibt einen Ansatz für die Extraktion von Metadaten als Basis für eine semantische Integration von heterogenen Informationssystemen. Es handelt sich dabei um einen Teilbereich eines Ansatzes für die semantische Integration von strukturierten und unstrukturierten Daten am Beispiel eines Data Warehouse und eines Wissensmanagementsystems. Ziel dieses Beitrags ist es zu zeigen, wie Metadaten aus einem Wissensmanagementsystem gewonnen bzw. angereichert werden können, damit eine semantische Integration mit einem anderen System überhaupt möglich ist. 1 Motivation und Problemstellung Wissen ist zu einer bedeutenden Ressource im alltäglichen Geschäft geworden [RK96]. Aus diesem Grund sind viele Unternehmen dem Trend gefolgt und haben Wissensmanagementsysteme (WMS) zur Verbesserung ihrer Wissensversorgung verbunden mit dem Ziel des Aufbaus einer unternehmensweiten Wissensbasis eingeführt. Die Architekturen und Realisierungen dieser Systeme variieren dabei stark und weisen einen sehr unterschiedlichen Funktionsumfang aus. In der Literatur finden sich einige Referenzarchitekturen für Wissensmanagementsysteme ([GK02], [Ma02] [Ma03]), aber ein Vergleich mit existierenden Lösungen zeigt, dass es noch etliche Unterschiede zwischen der Theorie und der Realität gibt. 104

Dennoch unterscheidet sich der generelle Aufbau nur wenig: Die meisten implementierten Systeme schlagen z.b. eine Integration von verschiedenen Informationsquellen z.b. Datenbanken, Dokumentenarchive etc. vor. Ebenso gibt es i.d.r. eine zentrale Wissensbasis, zu der der Nutzer über eine Taxonomie oder mit Hilfe von Retrieval Techniken Zugriff erlangt. Zur Erhöhung der Akzeptanz durch die Benutzer und um die Lösung orts- und plattformunabhängig einsetzen zu können, sind die meisten Systeme zudem in Form eines Portals implementiert. Offen bleibt jedoch die Frage wie Quellen integriert werden und welche Tiefe diese Integration aufweist. Häufig bleibt es bei einer reinen Oberflächenintegration, eine semantische Verknüpfung zwischen den Inhalten ist kaum zu finden. Zudem ist das vollständige Integrieren der externen Quellsysteme in das WMS eine sehr unbefriedigende Lösung, eine Online Verbindung ist effizienter. Was dennoch in den meisten Systemen fehlt, ist der inhaltliche Zusammenhang zwischen den jeweiligen Inhalten, also der semantische Kontext. Diese Verknüpfungen sind ungenügend und, falls vorhanden, oft mühselig von Hand durch den Benutzter durchgeführt worden. Dieser Beitrag stellt eine Möglichkeit für die Extraktion von Metadaten aus einem Wissensmanagementsystem vor, mit dem Ziel, diese angereicherten oder erweiterten Metadaten für eine Integration mit einem Data Warehouse zu nutzen. Der Fokus liegt dabei auf den unterschiedlichen Datenformaten (unstrukturiert und strukturiert) im Hinblick auf eine semantische Integration. 2 Grundannahmen des Ansatzes Der Ausgangspunkt für diese Forschung war die Analyse der Beziehung zwischen den verschiedenen Datentypen. Dafür ist es sinnvoll, kurz die zugrundegelegte Definition der Begriffe strukturierte und unstrukturierte Daten zu geben, weil diese in der Literatur doch sehr unterschiedlich zu finden ist. Im Rahmen dieses Beitrags ist Struktur die Bezeichnung für erkennbare Regelmäßigkeit bzw. die Anordnung von Teilen eines Ganzen. Das bedeutet, dass eine bedeutende Eigenschaft von strukturierten Daten ihre Regelmäßigkeit ist und im Umkehrschluss unstrukturierte Daten diese Regelmäßigkeit nicht aufweisen. Gleichzeitig ist es aber auch möglich (z.b. durch den Benutzer dieser Systeme oder auch z.t. automatisch) einem unstrukturierten Dokument nachträglich eine Art Struktur zu geben, beispielsweise durch Kategorisierung oder Indexierung. In Wissensmanagementsystemen findet man üblicherweise beide Arten von Daten, während es sich beim Datenbestand des Data Warehouse um stark strukturierte Daten handelt. Dies macht eine semantische Integration schwierig, insbesondere dann, wenn man nur die Originaldaten betrachtet. Um diese Lücke zu schließen, werden in diesem Ansatz die Metadaten mit herangezogen, um mehr Informationen zu erhalten. Metadaten beschreiben Daten und werden als Daten über Daten ([In02], [De97]) bezeichnet. Sie enthalten ergänzenden Informationen wie z.b. das letzte Modifikationsdatum, den Autor, die Originalquelle oder das Format. Deshalb werden Metadaten zur Strukturierung von Daten benutzt. 105

3 Nutzung von Metadaten für die semantische Integration Um die unterschiedlichen Daten semantisch integrieren zu können (z.b. über Ontologien mit entsprechendem Merging ([SSN01], [Mae02]), ist es notwendig, möglichst viele Informationen zu verwenden. Je dichter das Informationsnetz letztlich ist, desto besser lassen sich die Semantiken aufeinander abbilden. Durch die Beschreibung in RDF (Resource Description Language) [W3C05] ist es dann möglich, diese Daten zu interpretieren. Gleichzeitig kann es als Grundlage für das semantische Mapping der Daten dienen [GS03]. Diese relativ einfache Methode ergibt jedoch nur unbefriedigende Ergebnisse, wenn die Ausgangsdaten gering sind. Die von den Systemen automatisch generierten Metadaten offerieren oft nur geringe Zusatzinformationen. Aus diesem Grund schlagen die Autoren den Einsatz von etablierten Retrieval Techniken vor, um die Informationsdichte zu verbessern. Drei Schritte verbunden mit der Kombination verschiedener Techniken sind notwendig, um eine Klassifikation zu erreichen: 1. Extraktion der Daten und Durchführung einer syntaktischen Analyse 2. Die semantische Analyse 3. Die Klassifikation der Daten Abbildung 1: Die Nutzung von Information Retrieval Techniken zur Generierung semantischer Informationen 106

Deutlich wird dies z.b. anhand eines Word Dokuments. Das Dokument ist normalerweise in der Wissensbasis des Wissensmanagementsystems gespeichert (in Abb. 1: X KMS ). Nach der Extraktion erfolgt im ersten Schritt also eine syntaktische Analyse des Dokuments. Dabei werden Methoden wie die Eliminierung von Stopp- oder Füllwörtern, die Reduktion der Wörter auf ihre Wortstämme und eine Analyse des Textaufbaus (z.b. Titel, Abstrakt und Kapitel) eingesetzt. Für einen Beitrag wie diesen hier würde das bedeuten, dass man die verschiedenen Textabschnitte identifiziert (z.b. 1 Motivation und Problemstellung), danach die Füll- und Stoppwörter wie und, die, eine usw. entfernt und dann die Wörter auf ihren Stamm reduziert und nominalisiert. Exemplarisch am Titel dieses Dokument verdeutlicht, bedeutet das: Vorher: Extraktion von Metadaten als Basis für eine semantische Integration heterogener Informationssysteme Nachher: Extraktion Metadaten Basis Semantik Integration Heterogenität Informationssysteme Im nächsten Schritt folgt dann eine semantische Analyse des Dokuments. Ziel ist dabei, z.b. Synonyme wie Notebook und Laptop und den Sinn der enthaltenen Worte und deren Begrifflichkeit zu identifizieren ([Li04], [Ca03]). Für die Umsetzung wurde ein Open Source Thesauri [OTI05] ausgewählt. Diese semantische Analyse ist die Voraussetzung für eine adäquate Klassifikation des Inhalts. Diese wird (semi-) automatisch erfolgen, was wiederum bedeutet, dass das System Vorschläge generiert und dem Benutzer gleichzeitig die Möglichkeit einräumt, zusätzliche eine manuelle Klassifikation durchzuführen. Darüber hinaus werden Technologien wie Clustering und der Einsatz von zusätzlichen Algorithmen zur Kategorisierung im Moment auf einen möglichen Einsatz überprüft. Nach Durchführung dieses Schrittes liegen dann genügend semantische Informationen vor, um ein Ontologie-Merging durchzuführen. 4 Fazit und Ausblick auf weitere Arbeiten Der hier beschriebene Ansatz bildet wie erwähnt nur einen Teil der angestrebten Lösung zur Integration eines Wissensmanagementsystems und eines Data Warehouse ab. Dabei ist die Spezifikationsphase abgeschlossen und eine erste prototypische Implementierung wird zurzeit durchgeführt. Für die Analyse und Integration des Data Warehouse wird der Standard der OMG (Object Management Group [OMG04]): das Common Warehouse Metamodel [Po02], [MSH03] genutzt. Basierend auf den Prinzipien der Model Driven Architecture (MDA) der OMG definiert dieser Standard einen Metadaten-Austausch auf Grundlage von XML (Extensible Markup Language) für jeden Applikationslevel. Mit Hilfe dieses Standards ist es möglich, Metadaten in XML zu extrahieren [MTH02], um sie z.b. mittels eines Wrappers in das Wissensmanagementsystem zu integrieren. Der Mediator auf der beschriebenen RDF / RDFS Schicht ist dann in der Lage, diese XML Daten zu interpretieren und in eine Ontology zu integrieren, auf deren Grundlage dann ein semantisches Mapping der heterogenen Informationssysteme erfolgt. 107

Abschließend bleibt anzumerken, dass es sich bei diesem Ansatz auch nicht um eine vollautomatische Lösung handelt. Durch den Einsatz der gewählten Technologien ist es aber möglich, den Benutzer in einem weitaus höheren Maße als bisher bei der Klassifikation zu unterstützen und den Prozess im Wissensmanagementsystem semiautomatisch durchzuführen. Literaturverzeichnis [Ca03] [De97] [GK02] Cañas, J. et al: Using WordNet for Word Sense Disambiguation to Support Concept Map Construction. In Proc. of SPIRE 2003 10th International Symposium on String Processing and Information Retrieval, Manaus/Brazil, 2003. Devlin, B.: Data Warehouse from Architecture to Implementation, Addison-Wesley, Massachusetts, 1997. Gronau, N.; Kalisch, A.: Knowledge Content Management System A Framework integrating Content Management and Knowledge Management. In (Arabnia, H. et. al. Hrsg.): Proc. of the 2002 International Conference on Information and Knowledge Engineering (IKE 02), Las Vegas/USA, 2002. [GS03] Giunchiglia, F.; Shvaiko, P.: Semantic Matching. Knowledge engineering review, 2003, V. 18, N. 3, S. 265-280. [In02] Inmon, W. H.: Building the Data Warehouse. 3.Edition, John Wiley, New York, 2002. [Li04] Liu, S. et al: An Effective Approach to Document Retrieval via Utilizing WordNet and Recognizing Phrases, In Proc. the 27th Annual International ACM SIGIR Conference, Sheffield, 2004 [Mae02] Maedche, A.: Semantikbasiertes Wissensmanagement Eine Anwendung im Human Ressource Bereich. Karlsruhe, 2002. [Ma02] Maier, R.: Knowledge Management Systems. Springer Verlag, Berlin, 2002. [Ma03] Maier, R.: Architekturen des Betrieblichen Wissensmanagements. In (Gronau, N. Hrsg.): Wissensmanagement: Potenziale Konzepte Werkzeuge. Gito Verlag, Berlin, 2003, S. 63-79. [MTH02]Meister, J.; Tapken, H.; Harren, A.: Metadatenaustausch unter Einsatz von Korespondenzmetamodellen, In (Winter, R. Hrsg.): Vom Data Warehouse zum Corporate Knowledge Center. Physica Verlag, Heidelberg,2002. [MSH03]Melchert, F.; Schwinn, A.; Hermann, C.: Das Common Warehouse Metamodel - ein Referenzmodell für Data-Warehouse-Metadaten,St. Gallen, 2003. [OMG04]Object Management Group (OMG): The CWM Specification. http://www.omg.org/cwm [OTI05] Open Thesaurus Initiative: http://www.openthesaurus.de/. [Po02] [RK96] Poole, J. et al: Common Warehouse Metamodell An Introduction to the Standard for Data Warehouse Integration. John Wiley, New York, 2002. Rehäuser, J.; Krcmar, H.: Wissensmanagement in Unternehmen. In (Schreyögg, G.; Conrad, P. Hrsg.): Managementforschung 6, Berlin, 1996, S.1-40. [SSN01] Studer, R.; Schnurr, H.-P.; Nierlich, A.: Semantik für die nächste Generation. In Proc. of Knowtech 2001, München, 2001. [W3C05] World Wide Web Consortium (W3C): The Resource Description Framework (RDF) Specification. http://www.w3c.org/rdf. 108