Extraktion von Metadaten als Basis für eine semantische Integration heterogener Informationssysteme



Ähnliche Dokumente
Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Integration, Migration und Evolution

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Begriff 1 Begriff 2 Datenbank 1

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Semantic Web Services

Qualitätsmanagement an beruflichen Schulen in Deutschland: Stand der Implementierung. Diplomarbeit

Model Driven Architecture (MDA)

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

agitat Werkzeuge kann man brauchen und missbrauchen - vom Einsatz von NLP in der Führung

!!!!T!!! Systems!() Multimedia Solutions

Thema. Intelligente Agenten im Web

Was ist das Budget für Arbeit?

Anleitung über den Umgang mit Schildern

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Was macht Layer2 eigentlich? Erfahren Sie hier ein wenig mehr über uns.

Staatssekretär Dr. Günther Horzetzky

Erfahrungen mit Hartz IV- Empfängern

Datenbanken Kapitel 2

2 Evaluierung von Retrievalsystemen

Speicher in der Cloud

Semantic Web Technologies I

Elexis-BlueEvidence-Connector

Zeichen bei Zahlen entschlüsseln

Zwischenablage (Bilder, Texte,...)

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

GI-Technologien zur Umsetzung der EU-Wasserrahmenrichtlinie (WRRL): Wissensbasen. Teil 1: Einführung: Wissensbasis und Ontologie.

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Die Zukunft der Zukunftsforschung im Deutschen Management: eine Delphi Studie

2 Wie sicher ist mein Passwort? *

Ressourcen-Beschreibung im Semantic Web

... MathML XHTML RDF

Nutzung von GiS BasePac 8 im Netzwerk

Systemen im Wandel. Autor: Dr. Gerd Frenzen Coromell GmbH Seite 1 von 5

teamsync Kurzanleitung

Anleitung zur Verwendung der VVW-Word-Vorlagen

Mind Mapping am PC. für Präsentationen, Vorträge, Selbstmanagement. von Isolde Kommer, Helmut Reinke. 1. Auflage. Hanser München 1999

Programme im Griff Was bringt Ihnen dieses Kapitel?

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Abi-Retter-Strategien: Texterörterung. Das komplette Material finden Sie hier:

Organisation des Qualitätsmanagements

User Manual Data 24. Login und Layout

SWOT Analyse zur Unterstützung des Projektmonitorings

Flyer, Sharepics usw. mit LibreOffice oder OpenOffice erstellen

Lehrer: Einschreibemethoden

HP Product Content Syndication Steigern Sie Ihre Add-to-Cart Rate in 3 einfachen Schritten

Java und XML 2. Java und XML

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Integration verteilter Datenquellen in GIS-Datenbanken

Affiliate Marketing Schnellstart Seite 1

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Integrierte Dienstleistungen regionaler Netzwerke für Lebenslanges Lernen zur Vertiefung des Programms. Lernende Regionen Förderung von Netzwerken

Text-Mining: Einführung

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Veröffentlichen von Apps, Arbeitsblättern und Storys. Qlik Sense Copyright QlikTech International AB. Alle Rechte vorbehalten.

IMS - Learning Design

Übung - Konfigurieren einer Windows 7-Firewall

Neue Medien in der Erwachsenenbildung

Hilfen zur Verwendung der Word-Dokumentvorlage des BIS-Verlags

Microsoft Access 2010 Navigationsformular (Musterlösung)

1 Mathematische Grundlagen

Webseiten sind keine Gemälde. Webstandards für ein besseres Web. Webstandards für ein besseres Web

Thematische Abfrage mit Computerlinguistik

Grundkenntnisse am PC Das Internet

ecaros2 - Accountmanager

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Beweisbar sichere Verschlüsselung

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Primzahlen und RSA-Verschlüsselung

Terminabgleich mit Mobiltelefonen

Grundbegriffe der Informatik

Mandant in den einzelnen Anwendungen löschen

Festigkeit von FDM-3D-Druckteilen

Tag des Datenschutzes

Lichtbrechung an Linsen

Meinungen zum Sterben Emnid-Umfrage 2001

Was sind Jahres- und Zielvereinbarungsgespräche?

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Professionelle Seminare im Bereich MS-Office

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche

Jederzeit Ordnung halten

Produktskizze. 28. November 2005 Projektgruppe Syspect

Effiziente Prozesse. Die Formel 1 und die Druckindustrie

Patch-Management. Leibniz-Akademie Hannover Wirtschaftsinformatik B. Sc. Praxisreflexion im Bereich Management im SS 2011

Titel. System Center Service Manager 2012 R2 Anleitung zur Installation

Installation von Druckern auf dem ZOVAS-Notebook. 1. Der Drucker ist direkt mit dem Notebook verbunden

1. Adressen für den Serienversand (Briefe Katalogdruck Werbung/Anfrage ) auswählen. Die Auswahl kann gespeichert werden.

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Skill Information System Ein Erfahrungsbericht zum Einstieg in die wissensbasierte Projektorganisation Uwe Zeithammer

Wichtiges Thema: Ihre private Rente und der viel zu wenig beachtete - Rentenfaktor

2.5.2 Primärschlüssel

Print2CAD 2017, 8th Generation. Netzwerkversionen

TYPO3-Suchmaschinenoptimierung für Redakteure

Leseprobe. Bruno Augustoni. Professionell präsentieren. ISBN (Buch): ISBN (E-Book):

VVA Webservice Online Lieferbarkeits-Abfrage

Installationshinweise für OpenOffice Portable auf einem Wechseldatenträger Stand: 27. März 2003 LS Stuttgart, Kaufmännische ZPG

Technical Note Nr. 101

Schulung Marketing Engine Thema : Einrichtung der App

Transkript:

Extraktion von Metadaten als Basis für eine semantische Integration heterogener Informationssysteme Liane Haak, Axel Hahn Abteilung Wirtschaftsinformatik Carl von Ossietzky Universität Oldenburg Fakultät II / Department für Informatik Ammerländer Heerstr. 114-118 26129 Oldenburg haak@wi-ol.de hahn@wi-ol.de Abstract: Dieser Beitrag beschreibt einen Ansatz für die Extraktion von Metadaten als Basis für eine semantische Integration von heterogenen Informationssystemen. Es handelt sich dabei um einen Teilbereich eines Ansatzes für die semantische Integration von strukturierten und unstrukturierten Daten am Beispiel eines Data Warehouse und eines Wissensmanagementsystems. Ziel dieses Beitrags ist es zu zeigen, wie Metadaten aus einem Wissensmanagementsystem gewonnen bzw. angereichert werden können, damit eine semantische Integration mit einem anderen System überhaupt möglich ist. 1 Motivation und Problemstellung Wissen ist zu einer bedeutenden Ressource im alltäglichen Geschäft geworden [RK96]. Aus diesem Grund sind viele Unternehmen dem Trend gefolgt und haben Wissensmanagementsysteme (WMS) zur Verbesserung ihrer Wissensversorgung verbunden mit dem Ziel des Aufbaus einer unternehmensweiten Wissensbasis eingeführt. Die Architekturen und Realisierungen dieser Systeme variieren dabei stark und weisen einen sehr unterschiedlichen Funktionsumfang aus. In der Literatur finden sich einige Referenzarchitekturen für Wissensmanagementsysteme ([GK02], [Ma02] [Ma03]), aber ein Vergleich mit existierenden Lösungen zeigt, dass es noch etliche Unterschiede zwischen der Theorie und der Realität gibt. 104

Dennoch unterscheidet sich der generelle Aufbau nur wenig: Die meisten implementierten Systeme schlagen z.b. eine Integration von verschiedenen Informationsquellen z.b. Datenbanken, Dokumentenarchive etc. vor. Ebenso gibt es i.d.r. eine zentrale Wissensbasis, zu der der Nutzer über eine Taxonomie oder mit Hilfe von Retrieval Techniken Zugriff erlangt. Zur Erhöhung der Akzeptanz durch die Benutzer und um die Lösung orts- und plattformunabhängig einsetzen zu können, sind die meisten Systeme zudem in Form eines Portals implementiert. Offen bleibt jedoch die Frage wie Quellen integriert werden und welche Tiefe diese Integration aufweist. Häufig bleibt es bei einer reinen Oberflächenintegration, eine semantische Verknüpfung zwischen den Inhalten ist kaum zu finden. Zudem ist das vollständige Integrieren der externen Quellsysteme in das WMS eine sehr unbefriedigende Lösung, eine Online Verbindung ist effizienter. Was dennoch in den meisten Systemen fehlt, ist der inhaltliche Zusammenhang zwischen den jeweiligen Inhalten, also der semantische Kontext. Diese Verknüpfungen sind ungenügend und, falls vorhanden, oft mühselig von Hand durch den Benutzter durchgeführt worden. Dieser Beitrag stellt eine Möglichkeit für die Extraktion von Metadaten aus einem Wissensmanagementsystem vor, mit dem Ziel, diese angereicherten oder erweiterten Metadaten für eine Integration mit einem Data Warehouse zu nutzen. Der Fokus liegt dabei auf den unterschiedlichen Datenformaten (unstrukturiert und strukturiert) im Hinblick auf eine semantische Integration. 2 Grundannahmen des Ansatzes Der Ausgangspunkt für diese Forschung war die Analyse der Beziehung zwischen den verschiedenen Datentypen. Dafür ist es sinnvoll, kurz die zugrundegelegte Definition der Begriffe strukturierte und unstrukturierte Daten zu geben, weil diese in der Literatur doch sehr unterschiedlich zu finden ist. Im Rahmen dieses Beitrags ist Struktur die Bezeichnung für erkennbare Regelmäßigkeit bzw. die Anordnung von Teilen eines Ganzen. Das bedeutet, dass eine bedeutende Eigenschaft von strukturierten Daten ihre Regelmäßigkeit ist und im Umkehrschluss unstrukturierte Daten diese Regelmäßigkeit nicht aufweisen. Gleichzeitig ist es aber auch möglich (z.b. durch den Benutzer dieser Systeme oder auch z.t. automatisch) einem unstrukturierten Dokument nachträglich eine Art Struktur zu geben, beispielsweise durch Kategorisierung oder Indexierung. In Wissensmanagementsystemen findet man üblicherweise beide Arten von Daten, während es sich beim Datenbestand des Data Warehouse um stark strukturierte Daten handelt. Dies macht eine semantische Integration schwierig, insbesondere dann, wenn man nur die Originaldaten betrachtet. Um diese Lücke zu schließen, werden in diesem Ansatz die Metadaten mit herangezogen, um mehr Informationen zu erhalten. Metadaten beschreiben Daten und werden als Daten über Daten ([In02], [De97]) bezeichnet. Sie enthalten ergänzenden Informationen wie z.b. das letzte Modifikationsdatum, den Autor, die Originalquelle oder das Format. Deshalb werden Metadaten zur Strukturierung von Daten benutzt. 105

3 Nutzung von Metadaten für die semantische Integration Um die unterschiedlichen Daten semantisch integrieren zu können (z.b. über Ontologien mit entsprechendem Merging ([SSN01], [Mae02]), ist es notwendig, möglichst viele Informationen zu verwenden. Je dichter das Informationsnetz letztlich ist, desto besser lassen sich die Semantiken aufeinander abbilden. Durch die Beschreibung in RDF (Resource Description Language) [W3C05] ist es dann möglich, diese Daten zu interpretieren. Gleichzeitig kann es als Grundlage für das semantische Mapping der Daten dienen [GS03]. Diese relativ einfache Methode ergibt jedoch nur unbefriedigende Ergebnisse, wenn die Ausgangsdaten gering sind. Die von den Systemen automatisch generierten Metadaten offerieren oft nur geringe Zusatzinformationen. Aus diesem Grund schlagen die Autoren den Einsatz von etablierten Retrieval Techniken vor, um die Informationsdichte zu verbessern. Drei Schritte verbunden mit der Kombination verschiedener Techniken sind notwendig, um eine Klassifikation zu erreichen: 1. Extraktion der Daten und Durchführung einer syntaktischen Analyse 2. Die semantische Analyse 3. Die Klassifikation der Daten Abbildung 1: Die Nutzung von Information Retrieval Techniken zur Generierung semantischer Informationen 106

Deutlich wird dies z.b. anhand eines Word Dokuments. Das Dokument ist normalerweise in der Wissensbasis des Wissensmanagementsystems gespeichert (in Abb. 1: X KMS ). Nach der Extraktion erfolgt im ersten Schritt also eine syntaktische Analyse des Dokuments. Dabei werden Methoden wie die Eliminierung von Stopp- oder Füllwörtern, die Reduktion der Wörter auf ihre Wortstämme und eine Analyse des Textaufbaus (z.b. Titel, Abstrakt und Kapitel) eingesetzt. Für einen Beitrag wie diesen hier würde das bedeuten, dass man die verschiedenen Textabschnitte identifiziert (z.b. 1 Motivation und Problemstellung), danach die Füll- und Stoppwörter wie und, die, eine usw. entfernt und dann die Wörter auf ihren Stamm reduziert und nominalisiert. Exemplarisch am Titel dieses Dokument verdeutlicht, bedeutet das: Vorher: Extraktion von Metadaten als Basis für eine semantische Integration heterogener Informationssysteme Nachher: Extraktion Metadaten Basis Semantik Integration Heterogenität Informationssysteme Im nächsten Schritt folgt dann eine semantische Analyse des Dokuments. Ziel ist dabei, z.b. Synonyme wie Notebook und Laptop und den Sinn der enthaltenen Worte und deren Begrifflichkeit zu identifizieren ([Li04], [Ca03]). Für die Umsetzung wurde ein Open Source Thesauri [OTI05] ausgewählt. Diese semantische Analyse ist die Voraussetzung für eine adäquate Klassifikation des Inhalts. Diese wird (semi-) automatisch erfolgen, was wiederum bedeutet, dass das System Vorschläge generiert und dem Benutzer gleichzeitig die Möglichkeit einräumt, zusätzliche eine manuelle Klassifikation durchzuführen. Darüber hinaus werden Technologien wie Clustering und der Einsatz von zusätzlichen Algorithmen zur Kategorisierung im Moment auf einen möglichen Einsatz überprüft. Nach Durchführung dieses Schrittes liegen dann genügend semantische Informationen vor, um ein Ontologie-Merging durchzuführen. 4 Fazit und Ausblick auf weitere Arbeiten Der hier beschriebene Ansatz bildet wie erwähnt nur einen Teil der angestrebten Lösung zur Integration eines Wissensmanagementsystems und eines Data Warehouse ab. Dabei ist die Spezifikationsphase abgeschlossen und eine erste prototypische Implementierung wird zurzeit durchgeführt. Für die Analyse und Integration des Data Warehouse wird der Standard der OMG (Object Management Group [OMG04]): das Common Warehouse Metamodel [Po02], [MSH03] genutzt. Basierend auf den Prinzipien der Model Driven Architecture (MDA) der OMG definiert dieser Standard einen Metadaten-Austausch auf Grundlage von XML (Extensible Markup Language) für jeden Applikationslevel. Mit Hilfe dieses Standards ist es möglich, Metadaten in XML zu extrahieren [MTH02], um sie z.b. mittels eines Wrappers in das Wissensmanagementsystem zu integrieren. Der Mediator auf der beschriebenen RDF / RDFS Schicht ist dann in der Lage, diese XML Daten zu interpretieren und in eine Ontology zu integrieren, auf deren Grundlage dann ein semantisches Mapping der heterogenen Informationssysteme erfolgt. 107

Abschließend bleibt anzumerken, dass es sich bei diesem Ansatz auch nicht um eine vollautomatische Lösung handelt. Durch den Einsatz der gewählten Technologien ist es aber möglich, den Benutzer in einem weitaus höheren Maße als bisher bei der Klassifikation zu unterstützen und den Prozess im Wissensmanagementsystem semiautomatisch durchzuführen. Literaturverzeichnis [Ca03] [De97] [GK02] Cañas, J. et al: Using WordNet for Word Sense Disambiguation to Support Concept Map Construction. In Proc. of SPIRE 2003 10th International Symposium on String Processing and Information Retrieval, Manaus/Brazil, 2003. Devlin, B.: Data Warehouse from Architecture to Implementation, Addison-Wesley, Massachusetts, 1997. Gronau, N.; Kalisch, A.: Knowledge Content Management System A Framework integrating Content Management and Knowledge Management. In (Arabnia, H. et. al. Hrsg.): Proc. of the 2002 International Conference on Information and Knowledge Engineering (IKE 02), Las Vegas/USA, 2002. [GS03] Giunchiglia, F.; Shvaiko, P.: Semantic Matching. Knowledge engineering review, 2003, V. 18, N. 3, S. 265-280. [In02] Inmon, W. H.: Building the Data Warehouse. 3.Edition, John Wiley, New York, 2002. [Li04] Liu, S. et al: An Effective Approach to Document Retrieval via Utilizing WordNet and Recognizing Phrases, In Proc. the 27th Annual International ACM SIGIR Conference, Sheffield, 2004 [Mae02] Maedche, A.: Semantikbasiertes Wissensmanagement Eine Anwendung im Human Ressource Bereich. Karlsruhe, 2002. [Ma02] Maier, R.: Knowledge Management Systems. Springer Verlag, Berlin, 2002. [Ma03] Maier, R.: Architekturen des Betrieblichen Wissensmanagements. In (Gronau, N. Hrsg.): Wissensmanagement: Potenziale Konzepte Werkzeuge. Gito Verlag, Berlin, 2003, S. 63-79. [MTH02]Meister, J.; Tapken, H.; Harren, A.: Metadatenaustausch unter Einsatz von Korespondenzmetamodellen, In (Winter, R. Hrsg.): Vom Data Warehouse zum Corporate Knowledge Center. Physica Verlag, Heidelberg,2002. [MSH03]Melchert, F.; Schwinn, A.; Hermann, C.: Das Common Warehouse Metamodel - ein Referenzmodell für Data-Warehouse-Metadaten,St. Gallen, 2003. [OMG04]Object Management Group (OMG): The CWM Specification. http://www.omg.org/cwm [OTI05] Open Thesaurus Initiative: http://www.openthesaurus.de/. [Po02] [RK96] Poole, J. et al: Common Warehouse Metamodell An Introduction to the Standard for Data Warehouse Integration. John Wiley, New York, 2002. Rehäuser, J.; Krcmar, H.: Wissensmanagement in Unternehmen. In (Schreyögg, G.; Conrad, P. Hrsg.): Managementforschung 6, Berlin, 1996, S.1-40. [SSN01] Studer, R.; Schnurr, H.-P.; Nierlich, A.: Semantik für die nächste Generation. In Proc. of Knowtech 2001, München, 2001. [W3C05] World Wide Web Consortium (W3C): The Resource Description Framework (RDF) Specification. http://www.w3c.org/rdf. 108