Informationsintegration Schema Mapping Felix Naumann

Transkript

1 Informationsintegration Schema Mapping Felix Naumann

2 Erste Hälfte 2 Problemstellung Einführung in die Informationsintegration Szenarien der Informationsintegration Verteilung und Autonomie Heterogenität Architekturen Materialisierte und virtuelle Integration 5-Schichten Architektur Mediator/Wrapper-Architektur / PDMS Mapping Schema Mapping Schema Matching Modellierung Global-as-View und Lokal-as-View Modellierung Global-as-View Anfragebearbeitung

3 Zweite Hälfte 3 Anfragen Containment & Local-as-View Anfragebearbeitung Bucket Algorithmus Verteilte Anfragebearbeitung Datenintegration Duplikaterkennung Datenfusion - Union & Co. DWH, ETL & Data Lineage Informationsqualität

4 Überblick 4 Motivation Schema Mapping Schema Matching Mapping Interpretation Mapping Werkzeuge

5 Wdh: Virtuelle Integration 5 Anwendung 1 Anwendung 2 Mediator Datenfluss Anfragebearbeitung Entwicklung Top-down Schema Wrapper 1 Wrapper 2 Wrapper 3 Quelle 1 Quelle 2 Quelle 3

6 Wdh: Bottom-up oder Top-down Entwurf 6 Beim Entwurf des integrierten Systems Bottom-up Ausgelöst durch den Bedarf, mehrere (alle) Quellen integriert anzufragen Schemaintegration ist nötig. Änderungen schwierig, da neu integriert werden muss. Typisches Szenario: Data Warehouse Top-down Ausgelöst durch globalen Informationsbedarf Vorteilhaft bei labilen Quellen Schemaintegration nicht nötig, bzw. leichter

7 Schemaintegration vs. Schema Mapping 7 Beide Probleme müssen strukturelle und semantische Heterogenität überwinden. Aber: Schemaintegration liefert Schema Mapping frei Haus. Zielschema hat keine eigene Semantik. Schemaintegration ist unflexibel. Deshalb nun: Schema Mapping

8 Verwendung von Schema Mappings 8 Datentransformation View Transformationsanfrage Quellschema Mapping Zielschema Mapping Quellschema Quelldaten Transformationsanfrage Zieldaten Quelldaten Folie: Frank Legler

9 Verwendung von Schema Mappings 9 Schemaintegration integriertes Schema Mapping Mapping Schema 1 Mapping Schema 2 Daten Daten Folie: Frank Legler

10 Verwendung von Schema Mappings 10 Schemaevolution Schema Mapping verändertes Schema Schemaevolution Daten Query (Insert/Update/Delete) Folie: Frank Legler

11 Verwendung von Schema Mappings 11 Im weiteren: Datentransformation Materialisierte Integration Virtuelle Integration Quellschema Mapping Zielschema Quelldaten Transformationsanfrage Zieldaten

12 Überblick 12 Motivation Schema Mapping Schema Matching Mapping Interpretation Mapping Werkzeuge

13 Schema Mapping - Definitionen 13 (Inter-Schema) Korrespondenz Eine Zuordnung eines oder mehrerer Elemente eines (Quell-) Schemas zu einem oder mehreren Elementen eines anderen (Ziel-) Schemas Auch: Value-correspondence (High-level) Mapping Eine Menge von Korrespondenzen zwischen zwei Schemas. (Low-Level) Logisches Mapping Logische Übersetzung eines oder mehrerer Mappings, die den Integritätsbedingungen beider Schemas gehorcht und die Intention des Nutzers wiederspiegelt. Interpretation Übersetzung eines Mappings in ein oder mehrere logische Mappings Übersetzung eines logischen Mappings in eine Transformationsanfrage Transformationsanfrage Anfrage in einer Anfragesprache (z.b. SQL), die Daten des Quellschemas in die Struktur des Zielschemas überführt

14 Wdh: Schematische Heterogenität 14 Struktur Modellierung Relation vs. Attribut Attribut vs. Wert Relation vs. Wert Benennung Relationen Attribute Normalisiert vs. Denormalisiert Geschachtelt vs. Fremdschlüssel High-order Mappings hier

15 Motivation 15 Datentransformation zwischen heterogenen Schemas Altes aber immer wiederkehrendes Problem Üblicherweise schreiben Experten komplexe Anfragen oder Programme Zeitintensiv Experte für die Domäne, für Schemata und für Anfrage XML macht alles noch schwieriger XML Schema, XQuery Idee: Automatisierung Gegeben: Zwei Schemata und ein high-level Mapping dazwischen. Gesucht: Anfrage zur Datentransformation

16 Motivation Probleme 16 Generierung der richtigen Anfrage unter Berücksichtigung der Schemata und des Mappings Garantie, dass die transformierten Daten dem Zielschema entsprechen Effiziente Datentransformation Für Materialisierung (Ausführung, inkrementell) Für virtuelle Integration (query-unfolding) Hier: Nur Effektivität, nicht Effizienz

17 Motivation Weitere Probleme 17 Geschachtelte Strukturen unterstützen Geschachteltes, relationales Modell XML Geschachtelte Integritätsbedingungen Korrespondenzen Nutzerfreundlich Automatische Entdeckung (Schema Matching) Intention des Nutzers erkennen und repräsentieren Semantik der Daten erhalten Assoziationen entdecken & erhalten Schemata und deren Integritätsbedingungen nutzen Neue Datenwerte erzeugen Korrekte Gruppierungen erzeugen

18 Schema Mapping im Kontext 18 Möchte Daten aus S Versteht/Kennt T Versteht nicht immer S Quellschema S (High-level) Mapping Zielschema T entspricht Mapping Compiler entspricht Daten (Low-level) Logisches Mapping (Transformationsprogramm oder Anfrage) Quelle: [FHP+02]

19 Schema Mapping im Kontext 19 filmdb regisseure regisseur personid name studio filme film regieid filmid produzent titel Wertkorrespondenzen moviedb studios studio studio directors director dirid dirname producers producer prodid name Interpretation Quellschema Logisches Mapping Zielschema Anfragegenerierung Quelldaten Transformationsanfrage Virtuelle Zieldaten (Sichtdefinition) Materialisierte Zieldaten

20 Schema Mapping im Kontext 20 Schema Matching & Korrespondenzen Schema Mapping Mapping Interpretation Daten-transformation

21 Wdh: Schematische Heterogenität Beispiel 21 Normalisiert vs. Denormalisiert 1:n Assoziationen zwischen Werten wird unterschiedlich dargestellt Durch Vorkommen im gleichen Tupel Durch Schlüssel-Fremdschlüssel Beziehung Lösung: Schema Mapping

22 Schema Mapping Beispiel 22 ARTICLE artpk title pages AUTHOR artfk name PUBLICATION pubid title date author SELECT artpk AS pubid title AS title null AS date null AS author FROM ARTICLE UNION SELECT null AS pubid null AS title null AS date name AS author FROM AUTHOR

23 Schematische Heterogenität Lösungen 23 ARTICLE artpk title pages AUTHOR artfk name SELECT FROM WHERE PUBLICATION pubid title date author Weitere Interpretationen? artpk AS pubid title AS title null AS date name AS author ARTICLE, AUTHOR ARTICLE.artPK = AUTHOR.artFK

24 Schematische Heterogenität Lösungen 24 ARTICLE artpk title pages AUTHOR artfk name SELECT FROM ON PUBLICATION pubid title date author Gilt Schlüsseleigenschaft? artpk AS pubid title AS title null AS date name AS author ARTICLE LEFT OUTER JOIN AUTHOR ARTICLE.artPK = AUTHOR.artFK

25 Wdh: Schematische Heterogenität Lösungen 25 PUBLICATION title date author DISTINCT SELECT SK(title) AS artpk title AS title null AS pages FROM PUBLICATION ARTICLE artpk title pages AUTHOR artfk name SELECT SK(title) AS artfk author AS name FROM PUBLICATION

26 Wdh: Schematische Heterogenität Beispiel 26 Geschachtelt vs. Flach 1:n Assoziationen werden unterschiedlich dargestellt Als geschachtelte Elemente Als Schlüssel-Fremdschlüssel Beziehung Lösung: Schema Mapping

27 Wdh: Schematische Heterogenität Lösungen 27 ARTICLE artpk title pages AUTHOR name PUBLICATION pubid title author LET $doc0 := document( articles.xml") RETURN <root> { distinct-values ( FOR $x0 IN $doc0/authordb/article, $x1 IN $x0/author RETURN <publication> <pubid> { $x0/artpk/text() } </pubid> <title> { $x0/title/text() } </title> <author> { $x1/name/text() } </author> </publication> ) } </root>

28 Wdh: Schematische Heterogenität Lösungen 28 PUBLICATION title date author ARTICLE title AUTHOR name LET $doc0 := document( publication.xml") RETURN <articles> { distinct-values ( FOR $x0 IN $doc0/dblp/publication RETURN <ARTICLE> <title> { $x0/title/text() } </title> { distinct-values ( FOR $x0l1 IN $doc0/dblp/publication WHERE $x0/title/text() = $x0l1/title/text() RETURN <AUTHOR> <name> { $x0l1/author/text() } </name> </AUTHOR> )} </ARTICLE> ) } </articles>

29 Überblick 29 Motivation Schema Mapping Schema Matching Klassifikation von Schema Matching Methoden Erweiterungen Globales Matching Mapping Interpretation Mapping Werkzeuge

30 Schema Matching im Kontext 30 filmdb regisseure regisseur personid name studio filme film regieid filmid produzent titel Wertkorrespondenzen moviedb studios studio studio directors director dirid dirname producers producer prodid name Interpretation Quellschema Logisches Mapping Zielschema Anfragegenerierung Quelldaten Transformationsanfrage Virtuelle Zieldaten (Sichtdefinition) Materialisierte Zieldaten

31 Schema Matching Motivation 31 Große Schemas > 100 Tabellen, viele Attribute Bildschirm nicht lang genug Unübersichtliche Schemas Tiefe Schachtelungen Fremdschlüssel Bildschirm nicht breit genug XML Schema Fremde Schemas Unbekannte Synonyme Irreführende Schemas Unbekannte Homonyme Fremdsprachliche Schemas Kryptische Schemas Attributnamen 8 Zeichen Tabellennamen 8 Zeichen

32 32 Man beachte die Scrollbar! Man beachte die Schachtelungstiefe!

33 Schema Matching Motivation 33 Die Folgen Falsche Korrespondenzen (false positives) Fehlende Korrespondenzen (false negatives) Frustration User verlieren sich im Schema User verstehen Semantik der Schemas nicht

34 Schema Matching Classification [RB01] 34 Schema Matching Approaches Individual Approaches Combined Approaches Schema-based Instance-based Hybrid Combined Linguistic Linguistic Constraintbased Duplicatebased Manual Automatic Constraint-based

35 Schema Matching Klassifikation 35 Schema Matching basierend auf Namen der Schemaelemente (label-based) Darunterliegende Daten (instance-based) Struktur des Schemas (structure-based) Andere Matcher (composite)

36 Schema Matching Label-based 36 Gegeben zwei Schemata mit Attributmengen A und B Kernidee: Bilde Kreuzprodukt aller Attribute aus A und B. Für jedes Paar vergleiche Ähnlichkeit bezgl. Attributnamen (Label). Z.B. Edit-distance Ähnlichste Paare sind Matches Probleme: Effizienz Auswahl der besten Matches (globales Matching) Iterativ? Stable Marriage? Synonyme und Homonyme werden nicht erkannt

37 Schema Matching Label-based 37 Stand der Technik in kommerziellen Produkten Label-based Namensgleichheit Kein globales Matching Keine Ähnlichkeitsmaße Kein Instanz-basiertes Matching

38 Schema Matching Instance-based 38 Gegeben zwei Schemata mit Attributmengen A und B, jeweils mit darunterliegenden Daten. Kernidee Für jedes Attribut extrahiere interessante Eigenschaften der Daten Buchstabenverteilung, Länge, etc. Bilde Kreuzprodukt aller Attribute aus A und B. Für jedes Paar vergleiche Ähnlichkeit bzgl. der Eigenschaften Probleme Auswahl der Eigenschaften Datenmenge: Sampling Vergleichsmethode, z.b. Naive Bayes Gewichtung (Maschinelles Lernen)

39 Schema Matching Structure-based 39 Gegeben zwei Schemata mit Elementmengen A und B. Kernidee Nutze (komplexe) Struktur des Schemas aus. Hierarchieebene Elementtyp (Attribut, Relation,...) Nachbarschaftsbeziehungen

40 Schema Matching Structure-based 40 Beispiel: Similarity Flooding nach [MGMR02] Gegeben initiale Ähnlichkeit zwischen Schemaelementen (z.b. durch edit-distance oder durch Analyse der darunterliegenden Daten) Lasse Ähnlichkeiten abfärben auf die Nachbarn Nachbarn sind durch Struktur definiert Sind alle Nachbarn von x und y ähnlich zueinander, sind (vielleicht) auch x und y ein match. Analogie: Man flutet das Netzwerk der Ähnlichkeiten bis ein Gleichgewicht erreicht ist.

41 Schema Matching Mischformen 41 Schema Schema Schema Schema Basis- Matcher Basis- Matcher Basis- Matcher Hybrid Gleichzeitige Anwendung mehrerer Techniken Bsp: Instance-based + Datentypvergleich Composite Repertoire bekannter Techniken (inkl. hybrider Techniken) Kombination dieser unabhängigen Verfahren Bsp: Durch Gewichtung Bsp: Durch automatisches Lernen Des besten Verfahrens Einer guten Gewichtung Match- Kombination Match- Auswahl Matching

42 Schema Matching in Clio 42

44 44 Schema Matching Erweiterungen n:1 und 1:n Matches Viele Kombinationsmöglichkeiten Viele Funktionen denkbar Mathematische Operatoren, Konkatenation, etc. Parsingregeln n:m Matching? Matching in komplexen Title Schemata Ziel: Finde logisches Mapping, nicht nurkorrespondenzen n:1 Matching Vorname Nachname 1:n Matching Name m:n matching Name extract() extract() concat() extract() extract() concat() Name Vorname Nachname First name Last name Sigmund Freud Prof. Dr. Prof. Dr. Sigmund Freud

45 Schema Matching Erweiterungen 45 Global matching (gleich) Matche nicht nur einzelne Attribute (oder Attributmengen) Sondern komplette Tabellen oder komplette Schemata Stable Marriage Problem A B C D

46 Schema Matching Weitere Anwendungen 46 Herkömmlich: Korrespondenzen finden Schlüssel Fremdschlüssel finden Ähnliche Attribute innerhalb eines Schemas sind gute Kandidaten Höher-stufige Korrespondenzen finden Ähnlichkeiten von Tabellen durch Aggregation der Matches ihrer Attribute

47 Phil Bernstein and Sergey Melnik SIGMOD 2007 keynote 47 Past goal: Improved precision and recall Big productivity gains are unlikely Better goals Return top-k, not best overall match Avoid the tedium. Manage work. Help with scrolling HCI handle large schemas User studies what would improve productivity?

49 Schema Matching Stable Marriage 49 Gegeben n Frauen (Attribute in Schema A) und m Männer (Attribute in Schema B) Monogamie Je eine Frau kann nur mit je einem Mann verheiratet sein (nur 1:1 matches) Jede Frau hat eine Rangliste der Männer und umgekehrt Bei Schema Matching Attribut-Ähnlichkeit gemäß eines der vorigen Verfahren Rangliste ist (normalerweise) symmetrisch Gesucht: Paarung (globales Matching), so dass niemals gilt f 1 heiratet m 1, f 2 heiratet m 2, aber f 1 bevorzugt m 2 und m 2 bevorzugt f 1 (Instabil!)

50 Stable Marriage Beispiel 50 Männer (1-4) Frauen (A-D) 1: B, D, A, C A: 2, 1, 4, 3 2: C, A, D, B B: 4, 3, 1, 2 3: B, C, A, D C: 1, 4, 3, 2 4: D, A, C, B D: 2, 1, 4, 3 Beispiel aus: David Toth, "The Stable Marriage Problem: More Marital Happiness than Reality TV" April 25, 2003, Connecticut College, New London, CT, USA,

51 Stable Marriage Beispiel 51 Männer (1-4) Frauen (A-D) 1: B, D, A, C A: 2, 1, 4, 3 2: C, A, D, B B: 4, 3, 1, 2 3: B, C, A, D C: 1, 4, 3, 2 4: D, A, C, B D: 2, 1, 4, 3 1 stellt Antrag an B, sie willigt ein: (1, B)

52 Stable Marriage Beispiel 52 Männer (1-4) Frauen (A-D) 1: B, D, A, C A: 2, 1, 4, 3 2: C, A, D, B B: 4, 3, 1, 2 3: B, C, A, D C: 1, 4, 3, 2 4: D, A, C, B D: 2, 1, 4, 3 1 stellt Antrag an B, sie willigt ein: (1, B) 2 stellt Antrag an C, sie willigt ein: (1, B) (2, C)

53 Stable Marriage Beispiel 53 Männer (1-4) Frauen (A-D) 1: B, D, A, C A: 2, 1, 4, 3 2: C, A, D, B B: 4, 3, 1, 2 3: B, C, A, D C: 1, 4, 3, 2 4: D, A, C, B D: 2, 1, 4, 3 1 stellt Antrag an B, sie willigt ein: (1, B) 2 stellt Antrag an C, sie willigt ein: (1, B) (2, C) 3 stellt Antrag an B, sie willigt ein & verlässt 1: (2, C) (3, B)

54 Stable Marriage Beispiel 54 Männer (1-4) Frauen (A-D) 1: B, D, A, C A: 2, 1, 4, 3 2: C, A, D, B B: 4, 3, 1, 2 3: B, C, A, D C: 1, 4, 3, 2 4: D, A, C, B D: 2, 1, 4, 3 1 stellt Antrag an B, sie willigt ein : (1, B) 2 stellt Antrag an C, sie willigt ein : (1, B) (2, C) 3 stellt Antrag an B, sie willigt ein & verlässt 1: (2, C) (3, B) 1 stellt Antrag an D, sie willigt ein : (1, D) (2, C) (3, B)

55 Stable Marriage Beispiel 55 Männer (1-4) Frauen (A-D) 1: B, D, A, C A: 2, 1, 4, 3 2: C, A, D, B B: 4, 3, 1, 2 3: B, C, A, D C: 1, 4, 3, 2 4: D, A, C, B D: 2, 1, 4, 3 1 stellt Antrag an B, sie willigt ein : (1, B) 2 stellt Antrag an C, sie willigt ein : (1, B) (2, C) 3 stellt Antrag an B, sie willigt ein & verlässt 1: (2, C) (3, B) 1 stellt Antrag an D, sie willigt ein : (1, D) (2, C) (3, B) 4 stellt Antrag an D, sie lehnt ab : (1, D) (2, C) (3, B)

56 Stable Marriage Beispiel 56 Männer (1-4) Frauen (A-D) 1: B, D, A, C A: 2, 1, 4, 3 2: C, A, D, B B: 4, 3, 1, 2 3: B, C, A, D C: 1, 4, 3, 2 4: D, A, C, B D: 2, 1, 4, 3 1 stellt Antrag an B, sie willigt ein : (1, B) 2 stellt Antrag an C, sie willigt ein : (1, B) (2, C) 3 stellt Antrag an B, sie willigt ein & verlässt 1: (2, C) (3, B) 1 stellt Antrag an D, sie willigt ein : (1, D) (2, C) (3, B) 4 stellt Antrag an D, sie lehnt ab: (1, D) (2, C) (3, B) 4 stellt Antrag an A, sie willigt ein : (1, D) (2, C) (3, B) (4, A)

57 Maximum Weighted Matching 57 Alternative zu Stable Marriage Suche Matching mit maximalem Gewicht in bipartiten Graphen Bipartit: Knoten in zwei Klassen (Quelle & Ziel) Kanten nur zwischen Knoten verschiedener Klassen (Korrespondenzen) Maximiere Summe der einzelnen Gewichte/Ähnlichkeiten O(n³) ( Ungarische Methode )

58 Zusammenfassung Schema Matching 58 Schema Matching basierend auf Namen der Schemaelemente (label-based) Darunterliegende Daten (instance-based) Struktur des Schemas (structure-based) Mischformen, Meta-Matcher High-order Matching n:m Matching Globales Matching

59 Überblick 59 Motivation Schema Mapping Schema Matching Mapping Interpretation Aus [FHP+02] und VLDB 2002 Vortragsfolien Mapping Werkzeuge

60 Mapping Das Problem 60 Gegeben: Zwei Schemata Unabhängig voneinander erzeugt Relational Geschachtelt Mit Integritätsbedingungen (Schlüssel/Fremdschlüssel) Stellen teilweise unterschiedliche Daten dar Gegeben: Eine Menge von Korrespondenzen zwischen den Schemata Gesucht: Anfrage, die Daten des einen in Daten des anderen Schemas transformiert, wobei Semantik des Quellschemas erhalten bleibt, Integritätsbedingungen des Zielschemas berücksichtigt werden, und möglichst alle Korrespondenzen berücksichtigt werden.

61 Relationale vs. XML Schemata 61 Relationale Schemata Flach XML Schemata Flach oder geschachtelt NF2

62 Mapping Beispiel 62 spendendb firmen firma firmaid: integer name: string stadt: string spenden spende firmaid: integer spendeid: integer betrag: decimal projekt: string spender: string haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal Quelle für Beispiel: [FHP+02]

63 Mapping Beispiel 63 spendendb firmen firma firmaid: integer name: string stadt: string spenden spende firmaid: integer spendeid: integer betrag: decimal projekt: string spender: string Interpretation: - Erzeuge für jede firma in spendendb. eine org in haushaltdb. - orgid muss erfunden werden - stadt muss erfunden werden haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

64 Mapping Beispiel 64 spendendb firmen firma firmaid: integer name: string stadt: string spenden spende firmaid: integer spendeid: integer betrag: decimal projekt: string spender: string Interpretation: - Erzeuge für jede firma in spendendb. eine org in haushaltdb. - stadt muss erfunden werden haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

65 Erfinden von Werten 65 Zwei Gründe zum Erfinden: non-null und Identität non-null Werte Erfundener Wert egal Z.B. unbekannt oder null (oder Berlin ) ID Werte Skolemfunktion: Input: n Werte (beliebige Domäne) Output: bezgl. Input eindeutiger Wert (beliebiger Domäne) Beispiel: Konkatenation aller Inputwerte als String Wert für org.orgid nicht egal, sondern je nach firma.name eindeutig!

66 Mapping Beispiel 66 spendendb firmen firma firmaid: integer name: string stadt: string spenden spende firmaid: integer spendeid: integer betrag: decimal projekt: string spender: string Interpretation: - Erzeuge für jede spendendb.firma.stadt ein haushaltdb.stadthaushalt mit gleichem Namen. - Gruppiere jede firma unter den entsprechenden stadthaushalt. haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

67 Mapping Beispiel 67 spendendb firmen firma firmaid: integer name: string stadt: string spenden spende firmaid: integer spendeid: integer betrag: decimal projekt: string Interpretation: spender: string - Erzeuge für jede firma in spendendb. eine org in haushaltdb. - Erzeuge für jede spende in spendendb eine einnahme in haushaltdb - Erzeuge für jede spende in spendendb eine buchung in haushaltdb - Gruppiere korrekt: Schachtelung & Fremdschlüssel! haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

68 Mapping Beispiel 68 spendendb firmen firma firmaid: integer name: string stadt: string spenden spende firmaid: integer spendeid: integer betrag: decimal projekt: string spender: string Weitere Interpretation: & haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

69 Mapping Algorithmus 69 Drei Schritte 1. Entdeckung von intra- Schema Assoziationen 2. Entdeckung von inter- Schema logischen Mappings 3. Anfrage-erzeugung spendendb firmen firma firmaid: integer name: string stadt: string spenden spende firmaid: integer spendeid: integer betrag: decimal projekt: string spender: string haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

70 Entdeckung von Assoziationen 70 Schritt 1 Intra-schema Assoziationen zwischen Schemaelementen Relationale Sichten enthalten maximale Gruppen assoziierter Elemente Jede Sicht repräsentiert eine eigene Kategorie an Daten der Datenquelle Unabhängig vom Mapping (aber beschränkt auf gemappte Elemente) Quellschema S Ziel- schema T Assoziationen des Quellschemas Assoziationen des Zielschemas Quelle: [FHP+02]

71 Entdeckung von Assoziationen 71 Start: Alle primären Pfade (primary paths) Assoziationen im Schema ohne Integritätsbedingungen Relationale Schemas Jede Relation entspricht einem primären Pfad Geschachtelte Schemas Attribute einer Ebene Attribute geschachtelter Ebenen haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

72 Entdeckung von Assoziationen 72 Betrachte nun Schlüssel / Fremdschlüssel (ICs) Logische Relation Erweitere jeden primären Pfad durch Verfolgen der ICs (chase) haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

73 Entdeckung von Assoziationen 73 spendendb firmen firma firmaid: integer name: string stadt: string spenden spende firmaid: integer spendeid: integer betrag: decimal projekt: string spender: string Spielen noch keine Rolle. haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

74 Entdeckung von logischen Mappings 74 Schritt 2 Entdecke logische Mappings zwischen Quell- und Zielschema Betrachte alle Kombinationen aus Assoziationen des Quellschemas und Assoziationen des Zielschemas Unter Berücksichtigung aller Korrespondenzen (sofern Korrespondenzen zwischen ihnen überhaupt existieren) Quellschema S Element - Element Korrespondenzen Ziel- schema T Logische Mappings Assoziationen des Quellschemas Assoziationen des Zielschemas

75 Entdeckung von logischen Mappings 75 spendendb firmen firma firmaid: integer name: string stadt: string spenden spende firmaid: integer spendeid: integer betrag: decimal projekt: string spender: string & & & & & & & & haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal Ausgehende Korrespondenzen: Finden alle ein Ziel in der Kombination?

76 Entdeckung von logischen Mappings 76 spendendb firmen firma firmaid: integer name: string stadt: string spenden spende firmaid: integer spendeid: integer betrag: decimal projekt: string spender: string & & & haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal Eingehende Korrespondenzen: Stammen sie alle aus Assoziationen der Kombination?

77 Entdeckung von logischen Mappings 77 spendendb firmen firma firmaid: integer name: string stadt: string spenden spende firmaid: integer spendeid: integer betrag: decimal projekt: string spender: string & & haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

78 Input des Nutzers bzw. Domänenexperten 78 spendendb firmen firma firmaid: aus integer name: string stadt: string spenden spende firmaid: integer spendeid: integer betrag: decimal projekt: string spender: string 2. Nutzer wählt logische Mappings (Interpretationen) & & haushaltdb stadthaushalt stadt: string 1. Nutzer malt Korrespondenzen organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

79 Erzeugung der Anfragen 79 Schritt 3 Erzeuge für jedes (ausgewählte) logische Mapping eine Anfrage Auswahl und verknüpfen der entsprechenden Quelldaten Generierung der entsprechenden Zieldaten Quellschema S Element - Element Korrespondenzen Ziel- schema T Anfrage: - entschachteln - joinen Assoziationen des Quellschemas Logisches Mapping Assoziationen des Zielschemas Anfrage (target): - schachteln - splitten - Werte erfinden

80 Erzeugung der Anfragen 80 2 Probleme Erfinden von Werten NULL-Werte nicht immer ausreichend. Schlüssel und passende Fremdschlüssel müssen erzeugt werden. Schachtelung Es soll nicht eine logische Relation (flach) materialisiert werden, sondern geschachtelte Strukturen. Es muss entsprechend gruppiert werden.

81 Erfinden neuer Werte (Wdh.) 81 Logische Relation: buchungen Wert für buchungid wird nicht gefüllt Entweder: Egal Oder: Not-null: Dann Default-Wert, z.b. null Oder ID: Dann eindeutigen Werte erzeugen Skolemfunktion, basierend auf allen Werten des Mappings dieser logischen Relation spendendb spenden spende firmaid: integer spendeid: integer projekt: string betrag: decimal spender: string buchungid = Sk(betrag) haushaltdb einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

82 Erfinden neuer Werte 82 Logische Relation: einnahmen, buchungen buchungid-attribute haben keine Korrespondenz Assoziationen gingen verloren Also neue ID erfinden Wieder: Skolemfunktion basierend auf allen Werten des Mappings dieser logischen Relation Trick wie gehabt: Gleiche Funktion für Schlüssel und Fremdschlüssel spendendb spenden spende firmaid: integer spendeid: integer projekt: string betrag: decimal spender: string buchungid = Sk(spendeID,projekt,betrag) haushaltdb einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

83 Erfinden neuer Werte 83 spendendb firmen firma firmaid: integer name: string stadt: string spenden spende firmaid: integer spendeid: integer betrag: decimal projekt: string spender: string buchungid = Sk(betrag, projekt) haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal Frage: Warum nicht Sk(betrag,spendeID,projekt)?

84 Erfinden neuer Werte 84 spendendb firmen firma firmaid: integer name: string stadt: string spenden spende firmaid: integer spendeid: integer betrag: decimal projekt: string spender: string buchungid = Sk(betrag,projekt,name) haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal Jetzt erst recht: Warum nicht Sk(betrag,projekt,name,firmaID)?

85 Erfinden neuer Werte 85 Gegenfrage: Warum nicht gleiche ALLE ungemappten Werte? Vier Antworten (von Lucian Popa) 1. Prinzipiell ginge das, aber 2. Unerklärliche Duplikate könnten entstehen 2 Spenden, mit gleichem Betrag und gleichem Projekt aber von unterschiedlichen Firmen 3. firmenid könnte für Nutzer völlig uninteressant sein. Mapping hätte dann die Rolle einer Projektion, in der Duplikate fehl am Platz wären Sie wären sogar völlig unerklärlich für den Nutzer. 4. Minimalität Beide Varianten sind in Ordnung, aber eine ist kleiner.

86 Gruppierung 86 Alle Attribute erhalten Werte Aber: Assoziationen könnten verloren gehen. Neue (falsche) Assoziationen könnten erzeugt werden. Deshalb: Gruppierung notwendig Trick: Virtuelle ID Generierung mittels Skolemfunktion basierend auf allen (gemapten) Werten hierarchisch über der aktuellen Relation. Im Beispiel: Jedes Tupel haushaltdb erhält ID Sk(land, stadt) Jedes weitere Tupel aus firmen mit gleichen Werten für stadt und land errechnet gleiche ID und wird unter gleichem Element geschachtelt. spendendb firmen firma firmaid: integer name: string stadt: string land: string haushaltdb land: string stadthaushalt stadt: string organisationen org orgid: integer orgname: string

87 Erzeugung der Anfragen 87 Implementationsspezifisch Abhängig von Datenmodell Relational Relational: SQL Relational XML: SQL/XML Schachtelung und tagging des Ergebnisses XML Relational: XQuery oder XSLT Tags weglassen XML XML: XQuery oder XSLT In Clio Erzeugung proprietärer Regeln Dann: Übersetzung der Regeln in jeweilige Anfragesprache

88 Erzeugung der Anfragen 88 Erzeugung proprietärer Regeln in Clio for x in spenden let a = x.spende.spendeid, b = x.spende.projekt return <einnahme = <spendeid = a, proj = b, buchungid = null>> in einnahmen spendendb spenden spende firmaid: integer spendeid: integer projekt: string betrag: decimal spender: string haushaltdb einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

89 Erzeugung der Anfragen 89 Erzeugung proprietärer Regeln in Clio for x in spenden let a = x.spende.spendeid, b = x.spende.projekt, c = x.spende.betrag return <einnahme = <spendeid = a, proj = b, buchungid = Sk(a,b,c)>> in einnahmen, <buchung = <buchingid = Sk(a,b,c), datum = null, menge = c>> in buchungen spendendb spenden spende firmaid: integer spendeid: integer projekt: string betrag: decimal spender: string haushaltdb einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

90 Erzeugung der Anfragen XQuery 90 for x in spenden let a = x.spende.spendeid, b = x.spende.projekt, c = x.spende.betrag return <einnahme = <spendeid = a, proj = b, buchungid = Sk(a,b,c)>> in einnahmen, <buchung = <buchingid = Sk(a,b,c), datum = null, menge = c>> in buchungen LET $doc0 := document("input XML file goes here") RETURN <haushaltdb> { distinct-values ( FOR $x0 IN $doc0/spendendb/spende RETURN <einnahme> <spendeid> { $x0/spendeid/text() } </spendeid> <proj> { $x0/projekt/text() } </proj> <buchungid> { "Sk32(", $x0/betrag/text(), ", ", $x0/spendeid/text(), ", ", $x0/projekt/text(), ")" } </buchungid> </einnahme> ) } { distinct-values ( FOR $x0 IN $doc0/spendendb/spende RETURN <buchung> <buchungid> { "Sk32(", $x0/betrag/text(), ", ", $x0/spendeid/text(), ", ", $x0/projekt/text(), ")" } </buchungid> <menge> { $x0/betrag/text() } </menge> </buchung> ) } </haushaltdb>

91 Erzeugung der Anfragen SQL 91 for x in spenden let a = x.spende.spendeid, b = x.spende.projekt, c = x.spende.betrag return <einnahme = <spendeid = a, proj = b, buchungid = Sk(a,b,c)>> in einnahmen, <buchung = <buchingid = Sk(a,b,c), datum = null, menge = c>> in buchungen -- CREATE VIEW einnahme AS SELECT x0.spendeid AS spendeid, x0.projekt AS proj, RTRIM('Sk32(` CHAR(x0.betrag) ',' (CHAR(x0.spendeID) ',' CHAR(x0.projekt) ')') AS buchungid FROM spendendb.spende x CREATE VIEW buchung AS SELECT RTRIM('Sk32(' CHAR(x0.betrag) ',' CHAR(x0.spendeID) ',' CHAR(x0.projekt) ')') AS buchungid, x0.betrag AS menge FROM spendendb.spende x0

92 92

93 Vorschau: Global as View / Local as View 93 Global as View (GaV) Relationen des globalen Schemas werden als Sichten auf die lokalen Schemas der Quellen ausgedrückt. Local as View (LaV) Relationen der Schemas der Quellen werden als Sichten auf das globale Schema ausgedrückt.

94 Einschub: Sichten im relationalen Modell 94 Relationen aus CREATE TABLE Ausdrücken existieren tatsächlich (materialisiert, physisch) in der Datenbank. Die Daten aus Sichten (views) existieren nur virtuell. Sichten entsprechen Anfragen, denen man einen Namen gibt. Sie wirken wie physische Relationen. CREATE VIEW ParamountFilme AS SELECT Titel, Jahr FROM Filme WHERE StudioName = Paramount ; Semantik Bei jeder Anfrage an die Sicht wird die SQL Anfrage der Sicht ausgeführt. Die ursprüngliche Anfrage verwendet das Ergebnis als Relation.

95 Anfrageplanung mit Sichten 95 Baumdarstellung von Anfragen Blätter repräsentieren Relationen Basisrelationen Sichten Ersetzung der Sichten durch die Sichtdefinition Als Subanfrage V Q W Q Def. V Def. W

96 Anfragen an Sichten 96 CREATE VIEW ParamountFilme AS SELECT Titel, Jahr FROM Filme WHERE StudioName = Paramount ; SELECT Titel FROM ParamountFilme WHERE Jahr = 1979; Umwandlung der ursprünglichen Anfrage in eine Anfrage an Basisrelationen SELECT Titel FROM Filme WHERE StudioName = Paramount AND Jahr = 1979; Übersetzung durch DBMS Anfrage zugleich an Sichten und Basisrelationen möglich SELECT DISTINCT Schauspieler FROM ParamountFilme, spielt_in WHERE Titel = FilmTitel AND Jahr = FilmJahr;

97 Anfragen an Sichten 97 Filme(Titel, Jahr, Länge, infarbe, StudioName, ProduzentID) Manager(Name, Adresse, ManagerID, Gehalt) CREATE VIEW FilmeProduzenten AS SELECT Titel, Name FROM Filme, Manager WHERE ProduzentID = ManagerID; Anfrage SELECT Name FROM FilmeProduzenten WHERE Titel = Gone with the Wind Übersetzung SELECT Name FROM Filme, Manager WHERE ProduzentID = ManagerID AND Titel = Gone with the Wind ;

98 Einbettung in GaV/LaV 98 Ergebnis des Schema Mapping Prozess sind Anfragen Eine oder mehrere Anfragen pro Assoziation Relationales Modell: Jede Ziel-Relation entspricht einem primären Pfad Verwerfe Fremdschlüssel Jede Ziel-Relation entspricht einer Assoziation Jede Anfrage (oder Vereinigung von Anfrage) liefert Daten für eine Relation, also wie GaV. Schema Mapping leistet aber mehr! Erzeugung von Daten für mehrere Zielrelationen zugleich Unter Berücksichtigung von Integritätsbedingungen in Quell- und Zielschema Kombination von LaV und GaV : GLaV

99 Schematische Heterogenität 99 Struktur Modellierung Relation vs. Attribut Attribut vs. Wert Relation vs. Wert Benennung Relationen Attribute Normalisiert vs. Denormalisiert Geschachtelt vs. Fremdschlüssel Geschachtelt vs. Flach Higher-order Mappings bisher

100 High-order Mappings 100 Männer( Id, Vorname, Nachname) Frauen( Id, Vorname, Nachname) Relation vs. Attribut Relation vs. Wert Person( Id, Vorname, Nachname,männlich, weiblich) Person( Id, Vorname, Nachname, Geschlecht) Attribut vs. Wert

101 High-order Mappings 101 Männer Vorname Nachname Frauen Vorname Nachname `m `w Person Vorname Nachname Geschlecht

102 High-order Mappings 102 Person Vorname Nachname Geschlecht = `m = `w Männer Vorname Nachname Frauen Vorname Nachname

103 Zusammenfassung 103 Drei Schritte 1. Entdeckung von intra- Schema Assoziationen 2. Entdeckung von inter- Schema logischen Mappings 3. Anfrage-erzeugung spendendb firmen firma firmaid: integer name: string stadt: string spenden spende firmaid: integer spendeid: integer betrag: decimal projekt: string spender: string haushaltdb stadthaushalt stadt: string organisationen org orgid: integer orgname: string einnahmen einnahme spendeid: integer proj: string buchungid: integer buchungen buchung buchungid: integer datum: date menge: decimal

104 Literatur Schema Mapping 104 [FHP+02] Ron Fagin, Mauricio Hernandez, Lucian Popa, Renee Miller, and Yannis Velegrakis, Translating Web Data, VLDB 2002, Hong Kong, China. Zu der Problematik, ob Duplikate Teil des Outputs sein sollten: Clio: Ronald Fagin, Phokion G. Kolaitis, Renée J. Miller, Lucian Popa: Data Exchange: Semantics and Query Answering. ICDT 2003: oder

105 Literatur Schema Matching 105 Artikel mit der Klassifikation: [RB01] Erhard Rahm and Philip Bernstein, A survey of approaches to automatic schema matching, VLDB Journal 10(4), Online: plus Buch Spezielle Algorithmen [MGMR02] Sergey Melnik, Hector Garcia-Molina, Erhard Rahm: Similarity Flooding: A Versatile Graph Matching Algorithm and Its Application to Schema Matching. ICDE 2002: [BN05] Schema Matching using Duplicates Alexander Bilke and Felix Naumann: Proceedings of the International Conference on Data Engineering (ICDE 05) Tokyo, Japan. uvam.