werden lokalen Schemaelemente restrukturiert und durch eine Betrachtung der Daten iterativ verfeinert. Die Bestimmung der Konfliktfreiheit der Daten k

Transkript

1 Werkzeugunterstützung für die visuelle Integration heterogener Datenbestände Ingolf Geist Otto von Guericke Universität Magdeburg Institut für Technische und Betriebliche Informationssysteme Postfach 4120, D Magdeburg, Germany geist@iti.cs.uni-magdeburg.de Zusammenfassung Während der Integration von heterogenen Datenbeständen müssen Heterogenitäten auf verschiedenen Ebenen aufgelöst werden, wobei Integrationskonflikte sowohl auf der Schemaebene als auch auf der Datenebene vorhanden sind. Somit wird für einen vollständigen Entwurf eine Behandlung von Schema und Datenkonflikten benötigt. Diese Arbeit stellt das Werkzeug VIbE vor, das aufbauend auf den Möglichkeiten der Multidatenbanksprache FraQL die Schemaintegration um die Behandlung von Datenkonflikten erweitert. Dieser Prozeß der Instanzkonfliktbehandlung wird hierbei als ein datenorientierter, interaktiver und iterativer Vorgang beschrieben, der durch die Visualisierung der Operationen, Daten und Konflikte unterstützt wird. 1 Einführung Die Integration heterogener Datenbestände ist immer noch ein aktuelles Problem. Hierbei existieren verschiedene Ansätze der Integration: virtuelle Integration mit Multidatenbanksprachen oder Föderierte Datenbanksystemen bzw. mediatorbasierte System oder physische Integration in einem Data Warehouse. In allen Fällen ist eine Integration der Schemata und der aktuell vorhandenen Instanzen notwendig. Einen Überblick über Konzepte und Verfahren zur Integration von Schemata wurden u.a. in den Arbeiten [BLN86] oder [Con97] gegeben. Diese Methoden beschäftigen sich mit der Restrukturierung und Abbildung lokaler Schemata in föderiertes Schema. Hierbei werden die verschiedenen Schemakonflikte gelöst, die aufgrund der Heterogenität der lokalen Komponentensysteme entstehen. Die Instanzintegration hingegen beschäftigt sich mit tatsächlich existierenden Dateninstanzen und versucht diese in das globale Schema zu integrieren. Ansätze zur Instanzintegration sind u.a. in [RR98] beschrieben. Hierfür müssen zwei Aufgaben gelöst werden: die Abbildung semantisch äquivalenter Datenbankobjekte zueinander und die Auflösung von Attributwertkonflikten. Die Attributwertkonflikte äußern sichinunterschiedlichen Werten in korrespondierenden Attributen semantisch äquivalenter Tupel und können durch unterschiedliche Repräsentationen oder Dateninkonsistenzen entstanden sein. Der Prozeß dieser Instanzintegration geht dabei von einem globalen Schema aus, das durch eine Schemaintegrationsmethode oder durch einen Top Down Entwurf erzeugt wurde, und erstellt eine Abbildung der lokalen Elemente auf das globale Schema. Während dieser Abbildung

2 werden lokalen Schemaelemente restrukturiert und durch eine Betrachtung der Daten iterativ verfeinert. Die Bestimmung der Konfliktfreiheit der Daten kann nur interakiv mit dem semantischen Hintergrundwissen des Entwerfers der Föderation erfolgen. Aufbauend auf diesen Überlegungen soll ein Werkzeug geschaffen werden, das die Schemaintegration um die Behandlung von Instanzkonflikten erweitert. Dieses Werkzeug muß einen Lese Zugriff auf die verschiedenen lokalen Datenquellen ermöglichen und Operationen zur Auflösung von Integrationskonflikten anbieten, welche abgeschlossen und orthogonal sind. Weiterhin ist eine Visualisierung dieser Operationen und der Daten sowie der auftretenden Konflikte notwendig. 2 Integration mit FraQL Eine Multidatenbanksprache kann die Grundlage für den erwähnten Ablauf des Prozesses bilden, da sie die notwendigen Operationen zur Restrukurierung der Typen und der Datenwerte mitbringt. In unserem Fall wurde die Multidatenbanksprache FraQL [SC99] gewählt, die eine Erweiterung von SQL darstellt. Diese Sprache ist als ein Teil eines föderierten Anfragesystems implementiert und kann über Adapter auf verschiedene Komponentensysteme zugreifen. Diese Adapter verbergen die System und Datenmodellheterogenität, indem sie die Daten der Datenquellen mit Hilfe von objektrelationalen Schemata darstellen. Das globale Schema FraQL besteht aus Objekttypen und globalen Relationen, die in Import und Integrationsrelationen unterschieden werden. Die Struktur der globalen Daten werden durch Objekttypen beschrieben, die aus einer Menge von Attributen mit ihren Wertebereichen bestehen. Diese Typen sind in einer Spezialisierungshierarchie organisiert. Eine Importrelation stellt eine Projektion auf einer lokalen Relation aus einem Komponentensystem dar und repräsentiert somit deren Daten auf der globalen Schicht. Für ihre Definition muß der globale Typ, die lokale Relation und eine eventuell nötige Abbildung der lokalen Attribute auf die globalen Attribute angegeben werden. Hierbei können zur Anpassung der Repräsentationen Umbenennungen sowie nutzerdefinierte Funktion und Abbildungstabellen benutzt werden. Somit lösen die Importrelationen Beschreibungskonflikte. Die weitere Integration erfolgt durch Integrationsrelationen, die Sichten auf globale Relationen sind, die mit Hilfe der Operationen von FraQL aufgebaut wurden. Hierbei unterstützt FraQL erweiterte Join bzw. Union Operationen sowie die Verwendung von Metadaten in Anfragen und die Standardoperationen von SQL. Dadurch können neben strukturellen und semantischen Konflikten auch Instanzkonflikte behandelt werden. Unterschiedlich vertikal partionierte korrespondierende Relationen stellen einen strukturellen Konflikt dar, der mit Hilfe der Verbundoperationen Join und OuterJoin gelöst werden kann. Hierbei erweitert FraQL diese Operatoren um die Angabe einer nutzerdefinierten Funktion in der reconciled by Klausel, die eine Auflösung von Datenkonflikten in gemeinsamen Nichtschlüselattributen ermöglicht. Bei Konflikten in den Schlüsselwerten muß entweder in der ON Klausel die Verbundbedinung verfeinert oder Beschreibungskonflikte in den Importrelationen gelöst werden. Die Vereinigungsoperation behandelt semantisch überlappende Relatione, wobei wiederum die Aufgaben der Tupelidentifikation und der Attributwertkonflikte auf der Datenebene existieren. In der On Klausel sind die Schlüsselattribute der Relationen anzugeben, hierbei muß der gemeinsame Schlüssel der beiden Relationen gefunden werden, um eine eindeutige Zuordnung der Tupel zu erreichen. Eine nutzerdefinierte Funktion behandelt Konflikte in Nichtschlüsselattribute. Sie wird äquivalent zu den Verbundoperationen in der reconciled by Klausel der

3 Operation angegeben. Eine weitere Art von Konflikte sind die Metadatenkonflikte. Diese äußern sich darin, daß korrespondierende Elemente einmal als Metadaten, zum Beispiel Attributnamen, modelliert sind und in einem zweiten Schema als Datenwerte. Dieser Umstand wurde u.a. in [KLK91] beschrieben. Zur Auflösung dieser Konflikte erlaubt FraQL die Nutzung von Metadaten in Anfragen und Variablensubstitution, die eine Abbildung von Metadaten in Datenwerte ermöglicht. Weitere strukturelle Konflikte und Möglichkeiten ihrer Auflösung sind in [KCGS95] beschrieben. Zusammenfassend ist zu sagen, daß FraQL die Grundlage für ein Entwurfswerkzeug zur Unterstützung der Instanzintegration liefert. Die Sprache ermöglicht einerseits die Restrukturierung der Schemata und zweitens die Lösung von Datenkonflikten, dabei sind ihre Operationen abgeschlossen und orthogonal. Weiterhin können die Integrationsschritte sofort durch die Ausführung der Anfrage ausgwertet werden. 3 Visuelle Integration Aufbauend auf den Möglichkeiten von FraQL wurde das visuelle Anfragewerkzeug VIbE geschaffen, daß einen interaktiven und iterativen Prozeß zur Unterstützung der Auflösung von Instanzkonflikten ermöglicht. Zunächst ist der Ausgangspunkt das bestehende globale Schema, das durch eine Schemaintegrationsmethode oder durch ein Top Down Verfahren erstellt wurde. Die Exportschemata der Datenquellen liefert die Multidatenbanksprache in einer objektrelationalen Form. Der Zugriff von VIbE auf FraQL erfolgt über die JDBC Schnittstelle, für die ein Treiber zur Verfügung steht. Das Ziel des Prozesses ist die Integration der Schemata und der Instanzen, für dessen Erreichung Heterogenitäten auf der Schema und Datenebene erkannt und aufgelöst werden müssen. Als Ausgangsidee der Visualisierung des Prozesses dient der Integrationsgraph. Dieser azyklische und gerichtete Graph beschreibt den Ablauf der Abbildung von lokalen Relationen auf die globale Relationen. Die Knoten stellen dabei die Relationen, Import und Integrationsrelationen, dar. Die Kanten zeigen, welche Relationen zum Aufbau einer Integrationsrelation benutzt wurden. Hierbei kann eine Relationen mehrere Relationen zum Aufbau benutzen bzw. von mehreren benötigt werden. Als Operationen zum Aufbau des Graphen sind zunächst die Erstellung einer Importrelation und die Erstellung einer Integrationsrelation zu nennen. Die Eingabe und Darstellung der Parameter der Operationen erfolgt durch Formulare. Bevor Integrationsrelationen erstellt werden können, ist die Erstellung von Importrelationen notwendig. Diese Erzeugung geschieht in drei Schritten: erstens Auswahl der globalen Relation (Name und Typ), zweitens Auswahl der lokalen Relation und drittens die Spezifizierung der Abbildung der Typen. Diese Zuordnung ist in der Abbildung 1 zu sehen. Diese Zuordnung geschieht durch das Zeichnen von Linien zwischen den korrespondierenden Attributen. Den Verbindungen können optional Umrechnungsfunktionen oder Abbildungstabellen hinzugefügt werden, um die verschiedene Repräsentationen der Attributwerte zu homogenisieren, aber am Beginn des Prozesses können nur offensichtliche Konflikte erkannt werden und die Abbildung muß während der Integration weiter verfeinert werden. Sind die ersten Relationen importiert, ist die Erstellung von Integrationsrelationen in dem Graphen möglich. Ein Integrationsbaum repräsentiert dabei die Sichtdefinition und zeigt damit die schrittweise Integration der Relation. Diese Darstellung ist eine Detaildarstellung des Integrationsgraphen. Die Knoten des Baumes repräsentieren globale Relationen oder Operatio-

4 Abbildung 1: Abbildung Import einer Relation nen, deren Ergebnisse ebenfalls Relationen sind. Die Kanten im Baum zeigen den Verlauf der Restrukturierung und Transformation der Daten. Die einzelnen Operationsknoten werden mit Hilfe von Formularen spezifiziert, die an die Konzepte von Query by Example [Zlo77] angelehnt sind. Als verschiedene Operationen wurden zunächst die Projektion und Selektion, der Verbund, die Vereinigung und die Metadatenbehandlung definiert. Diese Operationen benötigen eine bzw. zwei Relationen als Eingabe und liefern eine Relation als Ergebnis. Somit kann die Restrukturierung schrittweise vom Benutzer erstellt und dadurchkomplexe Integrationskonflikte in einfachere Teilprobleme aufgeteilt werden. Nachdem die Operationen spezifiziert wurden, kann eine iterative Verfeinerung stattfinden, indem die Anfrage der Operation von FraQL ausgeführt wird, die Daten analysiert werden und anschließend die Parameter der Operation angepaßt werden. Hierbei ist die Erkennung der Konflikte auf der Instanzebene wichtig, wobei im ersten Schritt die Schlüsselwerte zu betrachten sind. Eine nicht vollständige Zuordnung der Tupel kann bei bekannten extensionalen Beziehungen aus den Kardinalitäten der Ergebnisrelationen und der Ausgangsrelationen erkannt werden. Aus der Ansicht der Daten erstellt der Benutzer die geeigenete Lösung durch die Veränderung der Operationen in einem interaktive und iterativen Vorgang. Hierbei besteht die Möglichkeit der Anpassung der der benutzten Importrelationen, um einen Beschreibungkonflikt zu lösen oder die Änderung der Verbundbedingung bzw. der Vereinigungsoperation. Nach der eindeutigen Zuordnung der Tupel ist es möglich Konflikte in den Werten der Nichtschlüsselattributen zu erkennen und zu lösen. Dafür wird dem Benutzer eine Konfliktansicht gezeigt, mit dessen Hilfe er die Konflikte nach einer Join oder Union Operation erkennen kann. Diese Ansicht wird durch einen Verbund erzeugt und korrespondierende Attribute in einander zugeordneten Tupeln, die unterschiedliche Werte aufweisen, werden hervorgehoben. Hierdurch erkennt der Benutzer die Konflikte und kann zu den entsprechenden Werten in der Ergebnisrelation navigieren. Als Auflösungsmöglichkeit wird kann die Angabe einer Auflösungsfunktion in der Join oder Union Operation erfolgen, die durch den Benutzer in Java zu implementieren ist. Am Ende des Integrationsprozesses liegen die Abbildungsdaten im Katalog von FraQL und die globalen Anwendungen können die entstandenen Sichten nutzen.

5 4 Zusammenfasssung und Ausblick In dieser Arbeit wurde eine Möglichkeit beschrieben wie ein Werkzeug zur Unterstützung der Instanzintegration aussehen kann. Hierbei wird die Schemaintegration durch einen interaktiven und iterativen Prozeß ergänzt. Der Prototyp VIbE stellt mit der Multidatenbanksprache FraQL einen ersten Schritt für die Unterstützung der Instanzintegration dar. Zur Verbesserung der Interaktionsmöglichkeiten müssen einmal eine bessere Visualisierung geschaffen und ein stärkere Automatisierung implementiert werden. Als Erweiterungen sind Datenfehlererkennungsverfahren oder eine automatische Berechnung von Abbildungsfunktionen in bestimmten Fällen denkbar. Weiterhin ist durch eine Nutzung von Samplingmethoden eine Verbesserung der Interaktion und der Darstellung der Konflikte möglich. Hierbei arbeitet der Benutzer auf Samples der eigentlichen Daten und erreicht dort die Konfliktlösung, die anschließend auf die gesamte Menge angewendet und damit überprüft werden kann. Somit ist eine beispielgetrieben Integrationsmethode zur Unterstützung der Instanzkonflikte während des Entwurfes eines förderierten Systems möglich. Literatur [BLN86] [Con97] C Batini, M. Lenzerini, and S. B. Navathe. A Comparative Analysis of Methologies for Database Schema Integration. ACM Computing Surveys, 18(4): , December S. Conrad. Föderierte Datenbanksysteme: Konzepte der Datenintegration. Springer- Verlag, Berlin/Heidelberg, [KCGS95] W. Kim, I. Choi, S. Gala, and M. Scheevel. On Resolving Schematic Heterogeneity in Multidatabase Systems. pages ACM Press/ Addison Wesley Publishing, [KLK91] [RR98] [SC99] R. Krishnamurthy, W. Litwin, and W. Kent. Interoperability of Heterogenous Databases with Schematic Discrepancies. In Y. Kambayashi, M. Rusinkiewicz, and A. Sheth, editors, Proc. First Interational Workshop on Interoperability in Multidatabase Systems (IMS'91), pages IEEE, S. Ram and V. Ramesh. Schema Integration: Past, Present, and Future. In A. Elmagarmid, M. Rusinkiewicz, and A. Sheth, editors, Management of Heterogenous and Autonomous Database Systems, pages Morgan Kaufmann Publishers, San Francisco, K. Sattler and S. Conrad. Konfliktbehandlung in einer Anfragesprache für Datenbankföderationen. In R.-D. Kutsche, U. Leser, and J.Ch. Freytag, editors, 4. Workshop Föderierte Datenbanken", Berlin November 1999 (Proceedings), pages Technische Universität Berlin, Computer Science, Report No , [Zlo77] M. M. Zloof. Query by Example: a data base language. IBM Systems Journal, 16(4): , 1977.