Schema Matching und Integration

Transkript

1 und Integration Dr. Armin Roth arminroth.de Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

2 Agenda 1 Schema Matching 2 Schema Integration Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

3 Schema Matching Problemstellung Gegeben: Zwei Datenbankinstanzen mit jeweiligem Schema Gesucht: Korrespondenzen zwischen Elementen der Schemata (und optional den Daten (data-schema interplay)) (a) Source (b) Target Schema ID/IDREF Boston Hosptial + Montreal Hospital ID/IDREF Schema * Patient * Admission Progress Treat ID MedCr# Name Hist Admission * * * * Pulmonary Coronary PatRef Symptom Treatment Event AdmDate DisDate Desc Problem Date ID InsName Policy# Enter Leave Patient Date Desc ing two Heterogeneous Peer DTDs. Every unlabeled Quelle: edge [BCH is labeled + 05] Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

4 Schema Matching Motivation Große Schemas > 100 Tabellen, viele Attribute Bildschirm nicht lang genug Unübersichtliche Schemas Tiefe Schachtelungen Fremdschlüssel Bildschirm nicht breit genug XML Schema Fremde Schemas Unbekannte Synonyme Irreführende Schemas Unbekannte Homonyme Fremdsprachliche Schemas Kryptische Schemas Attributnamen < 8 Zeichen Tabellennamen < 8 Zeichen Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

5 Komplexe Schemata Schema Matching Man beachte die Scrollbar! Man beachte die Schachtelungstiefe! Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

6 Schema Matching Ansätze [RB01] Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

7 Schema Matching Klassifikation Schema Matching basierend auf Namen der Schemaelemente (label-based) Darunterliegende Daten (instance-based) Struktur des Schemas (structure-based) Mischformen Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

8 Schema Matching Label-based Gegeben: Zwei Schemata mit Attributmengen A und B Kernidee: Bilde Kreuzprodukt aller Attribute aus A und B Für jedes Paar: vergleiche Ähnlichkeit bzgl. Attributnamen (Label) anhand Ähnlichkeitsmaß (z.b. Edit distance für Zeichenketten) Ähnlichste Paare sind Matches Probleme: Effizienz Auswahl der besten Matches (globales Matching) Synonyme und Homonyme werden nicht erkannt Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

9 Schema Matching Instance-based Gegeben: Zwei Schemata mit Attributmengen A und B (jeweils mit darunterliegenden Daten) Kernidee: Für jedes Attribut: extrahiere interessante Eigenschaften der Daten (z.b. Buchstabenverteilung, Länge) Bilde Kreuzprodukt aller Attribute aus A und B Für jedes Paar: vergleiche Ähnlichkeit bzgl. der Eigenschaften Probleme: Auswahl der Eigenschaften Menge der Daten: Sampling? Vergleichsmethode (z.b. Naive Bayes) Gewichtung (Maschinelles Lernen) Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

10 Instance-based Verfahren Konventionelle Lösung: Vertikal Vergleich von Spalten Attribute classification Beispiel: [NHT + 02] Andere Lösung: Horizontal Vergleich von Tupeln Duplicate detection (trotz fehlender Attribut-Korrespondenzen) Attribut-Matching auf Basis der Duplikate Beispiel: [BN05] Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

11 Schema Matching Structure-based Gegeben: Zwei Schemata mit Attributmengen A und B Kernidee: Nutze (komplexe) Struktur des Schemas aus Hierarchieebene Elementtyp (Attribut, Relation,...) Nachbarschaftsbeziehungen Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

12 Beispiel: Similarity Flooding [MGMR02] Gegeben initiale Ähnlichkeit zwischen Schemaelementen (z.b. durch edit distance oder Instanzanalyse) Lasse Ähnlichkeiten abfärben auf die Nachbarn Nachbarn sind durch Struktur definiert Sind alle Nachbarn von x und y ähnlich zueinander, sind (vielleicht) auch x und y ein match Analogie: Man flutet das Netzwerk der Ähnlichkeiten bis ein Gleichgewicht erreicht ist Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

13 Schema Matching Mischformen Hybrid Gleichzeitige Anwendung mehrerer Techniken Beispiel: Instance-based + Datentypvergleich Composite Repertoire bekannter Techniken (inkl. hybrider Techniken) Kombination dieser unabhängigen Verfahren Beispiel: durch Gewichtung Beispiel: durch automatisches Lernen (bestes Verfahren, beste Gewichtung) Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

14 Schema Matching Weitere Anwendungen Herkömmlich: Korrespondenzen finden Schlüssel - Fremdschlüssel finden (ähnliche Attribute innerhalb eines Schemas sind gute Kandidaten) Höher-stufige Korrespondenzen finden (Ähnlichkeiten von Tabellen durch Aggregation der Matches ihrer Attribute) Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

15 Schema Matching Erweiterungen n : 1 und 1 : n Matches Viele Kombinationsmöglichkeiten Viele Funktionen denkbar (die Quell- in Zielwerte transformieren) Parsingregeln Matching in komplexen Schemata (Ziel: Finde Mapping, nicht (nur) Korrespondenzen) Globales Matching Matching von Tabellen und Schemata, nicht nur Attribute Stable Marriage bzw. Maximum Weighted Matching A B C D Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

16 Schema Matching Stable Marriage Gegeben: n Frauen (Attribute in Schema A) und m Männer (Attribute in Schema B) Monogamie: Je eine Frau kann nur mit je einem Mann verheiratet sein (nur 1:1 Matches) Jede Frau hat eine Rangliste der Männer und umgekehrt. Zum Schema Matching: Attribut-Ähnlichkeit gemäß eines der vorigen Verfahren Rangliste (normalerweise) symmetrisch Gesucht: Paarung (globales Matching), so dass niemals gilt: f 1 heiratet m 1, f 2 heiratet m 2 aber f 1 bevorzugt m 2 und m 2 bevorzugt f 1 (instabil!) Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

17 Schema Matching Stable Marriage Männer (1-4) Frauen (A-D) 1: B, D, A, C A: 2, 1, 4, 3 2: C, A, D, B B: 4, 3, 1, 2 3: B, C, A, D C: 1, 4, 3, 2 4: D, A, C, B D: 2, 1, 4, 3 1 stellt Antrag an B, sie willigt ein : (1, B) 2 stellt Antrag an C, sie willigt ein : (1, B) (2, C) 3 stellt Antrag an B, sie willigt ein und verlässt 1: (2, C) (3, B) 1 stellt Antrag an D, sie willigt ein : (1, D) (2, C) (3, B) 4 stellt Antrag an D, sie lehnt ab: (1, D) (2, C) (3, B) 4 stellt Antrag an A, sie willigt ein : (1, D) (2, C) (3, B) (4, A) Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

18 Maximum Weighted Matching Alternative zu Stable Marriage Suche Matching mit maximalem Gewicht in bipartiten Graphen Bipartit: Knoten in zwei Klassen (Quelle & Ziel) Kanten nur zwischen Knoten verschiedener Klassen (Korrespondenzen) Maximiere Summe der einzelnen Gewichte/Ähnlichkeiten Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

19 Zusammenfassung Schema Matching Schema Matching basierend auf Namen der Schemaelemente (label-based) Darunterliegende Daten (instance-based) Struktur des Schemas (structure-based) Mischformen, Meta-Matcher Globales Matching Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

20 Agenda Schema Integration 1 Schema Matching 2 Schema Integration Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

21 Schema Integration Schemaintegration Gegeben: mehrere Quellschemata Gesucht: ein integriertes Schema, das bestmöglich auf Quellschemata abbildbar ist Bottom-up-Entwurf Dazu: gemeinsames Datenmodell (evtl. Transformation der Quellschemata) Ziele [BLN86]: Vollständigkeit Minimalität Korrektheit Verständlichkeit Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

22 Schema Integration Schemaintegration Vorgehen Halbautomatischer Prozess Schritte [BLN86]: Vorintegration: Schemaauswahl, binäres oder n-äres Integrieren Schemavergleich: Schema Matching, Semantische und strukturelle Konflikte Schemaangleichung: Schema Mapping Schemafusion und Umstrukturierung Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

23 Schema Integration Korrespondenzbasierte Schemaintegration [SPD92] Korrespondenzen zwischen Elementen der zu integrierenden Schemata. Attribute, Konzepte oder Pfade Korrespondenzen geben semantische Beziehung der Elemente an: Äquivalenz, Überlapping,, Disjunktion Integrationsregeln 1 Übernehme Elemente ohne Entsprechung in anderen Schemata 2 Äquivalente Elemente mit Vereinigung der beiden Attributmengen übernehmen 3 Beziehungen zwischen äquivalenten Elementen übernehmen 4 Pfade zwischen äquivalenten Elementen übernehmen 5 Äquivalenzen zwischen Klassen und Attributen als Beziehungen übernehmen Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

24 Schema tribute Integration filmstudio und s_name. Dies liegt daran, da unterschiedlichen Beziehungen zu Filmen stehen: In de 5.1on Schemaintegration fuehrt_regie wird gespeichert, 117 wo ein Film gedreh Schema Integration Beispiel Dieses Studio muss z.b. nicht mit dem Studio überein den folgenden Abschnitten erläutern wirdas zunächst die Rechte die Zielean einem Film besitzt (oder was auch im enerellen Vorgehensweisen bei der Schemaintegration. rechte zu integrierende Dann Schema darstellte). n wir zwei ausgewählte Ansätze der Schemaintegration vor. Integriertes Schema: werden wir anhand der Schemata in Abbildung 5.2 verdeut-. Quellschemata: Abbildung 5.2 Zwei heterogene Schemata als Input zur Schemaintegration der Schemaintegration Quelle: Ulf Leser, Felix Naumann. Informationsintegration. dpunkt Verlag, 2006 [NL06] tegration Dr. Armin mehrerer Roth (arminroth.de) heterogener Schemata II Schema hat mehrere MatchingZie- und Integr / 26

25 Literatur I Schema Integration [BCH + 05] [BLN86] [BN05] [Len02] Angela Bonifati, Qing (Elaine) Chang, Terence Ho, Laks V.S. Lakshmanan, and Rachel Pottinger. HePToX: Marrying XML and heterogeneity in your P2P databases. In Proc. of the Int. Conf. on Very Large Databases (VLDB), Demo paper. C. Batini, M. Lenzerini, and S.B. Navathe. A comparative analysis of methodologies for database schema integration. ACM Computing Surveys, 18(4): , Alexander Bilke and Felix Naumann. Schema matching using duplicates. In Proc. of the Int. Conf. on Data Engineering (ICDE), Maurizio Lenzerini. Data integration: A theoretical perspective. In Proc. of the Symposium on Principles of Database Systems (PODS), (optional, sehr theoretisch). Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26

26 Literatur II Schema Integration [MGMR02] Sergey Melnik, Hector Garcia-Molina, and Erhard Rahm. Similarity flooding: A versatile graph matching algorithm and its application to schema matching. In Proc. of the Int. Conf. on Data Engineering (ICDE), [NHT + 02] [NL06] [RB01] [SPD92] Felix Naumann, Ching-Tien Ho, Xuqing Tian, Laura Haas, and Nimrod Megiddo. Attribute classification using feature analysis. In Proc. of the Int. Conf. on Data Engineering (ICDE), Felix Naumann and Ulf Leser. Informationsintegration. dpunkt.verlag, In German. E. Rahm and P.A. Bernstein. A survey of approaches to automatic schema matching. The VLDB Journal, 10(4): , S. Spaccapietra, C. Parent, and Y. Dupont. Model independent assertions for integration of heterogeneous schemas. The VLDB Jounal, 1(1):81 126, Dr. Armin Roth (arminroth.de) II Schema Matching und Integr / 26