Duplikaterkennung und Datenfusion

Transkript

1 Duplikaterkennung und Datenfusion Kolloquium Stuttgart, Felix Naumann Humboldt-Universität zu Berlin Humboldt-Universität zu Berlin Felix Naumann, Humboldt-Universität zu Berlin 2

2 Humboldt-Universität zu Berlin Wilhelm und Alexander von Humboldt Einheit von Lehre und Forschung Freiheit und Unabhängigkeit der Wissenschaft 29 Nobelpreisträger Mommsen, Hertz, Koch, Hahn, Planck, Einstein,... 38,000 Studenten, (1100 Informatik) 560 Professoren (-90) Felix Naumann, Humboldt-Universität zu Berlin 3 Forschungsgruppe Informationsintegration Leitung: Felix Naumann (naumann@informatik.hu-berlin.de) Mitarbeiter Jens Bleiholder (bleiho@informatik.hu-berlin.de) Informationsfusion in relationalen Daten Melanie Weis (mweis@informatik.hu-berlin.de) Objektidentifikation in XML Daten Affiliated Armin Roth (aroth@informatik.hu-berlin.de) Datenqualität in Peer--Management-Systemen Alexander Bilke (bilke@cs.tu-berlin.de) Matching Forschungsthemen Objektidentifikation Informationsfusion Optimierung Visualisierung Felix Naumann, Humboldt-Universität zu Berlin 4

3 Integrierte Informationssysteme Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system Felix Naumann, Humboldt-Universität zu Berlin 5 Beispiel der Informationsintegration Web Service A 1sec. <pub> <Titel> Federated base Systems </Titel> <Autoren> <Autor> Amit P. Sheth </Autor> <Autor> mes A. Larson </Autor> </Autoren> </pub> Web Service B 5sec. <publication> <title> Federated base Systems for Managing Distributed, Heterogeneous, and Autonomous bases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> Identifikation Integration Optimierung Visualisierung Felix Naumann, Humboldt-Universität zu Berlin 6

4 5 min 3 min Teil 4 Teil 3 Teil 2 Teil 1 Teil 0 User Interface HumMer Humboldt Merger Import Query Execution Visualization Tables conversion XML Fusion RDB XML Duplicate Detection RDB XML transformation RDB2XML RDB2XML Graphical Query Builder SQL XQuery Query Optimization SQL XQuery XML2RDB XML2RDB DBMS... DBMS XML... XML Metadata Services Lineage Statistics Metadata Repository Mapping Matching Samples Felix Naumann, Humboldt-Universität zu Berlin 7 HumMer Der Humboldt Merger Felix Naumann, Humboldt-Universität zu Berlin 8

5 tische Heterogenität Männer( Id, Vorname, Nachname) Frauen( Id, Vorname, Nachname) Relation vs. Attribut Relation vs. Wert Person( Id, Vorname, Nachname,männlich, weiblich) Person( Id, Vorname, Nachname, Geschlecht) Attribut vs. Wert Felix Naumann, Humboldt-Universität zu Berlin 9 Mapping Beispiel ARTICLE artpk title pages AUTHOR artfk name PUBLICATION pubid title date author SELECT artpk AS pubid title AS title null AS date null AS author FROM ARTICLE UNION SELECT null AS pubid null AS title null AS date name AS author FROM AUTHOR Mit Clio Team: Howard Ho, Lucian Popa, Mauricio Hernandez, Felix Naumann, Humboldt-Universität zu Berlin 10

6 Mapping Beispiel ARTICLE artpk title pages AUTHOR artfk name SELECT FROM WHERE PUBLICATION pubid title date author artpk AS pubid title AS title null AS date name AS author ARTICLE, AUTHOR ARTICLE.artPK = AUTHOR.artFK Felix Naumann, Humboldt-Universität zu Berlin 11 Matching Motivation Große ta > 100 Tabellen, viele Attribute Bildschirm nicht lang genug Unübersichtliche ta Tiefe Schachtelungen Fremdschlüssel Bildschirm nicht breit genug Fremde ta Irreführende ta Fremdsprachliche ta Kryptische ta XML ta Mit Clio Team: Howard Ho Felix Naumann, Humboldt-Universität zu Berlin 12

7 Man beachte die Scrollbar! Man beachte die Schachtelungstiefe! Felix Naumann, Humboldt-Universität zu Berlin 13 Matching Klassifikation Matching basierend auf Namen der elemente (label-based) Darunterliegende Daten (instance-based) Struktur des s (structure-based) Mischformen, Meta-Matcher Kernalgorithmus des Matching: später Gegeben zwei ta mit Attributmengen A und B. Bilde Kreuzprodukt aller Attribute aus A und B. Für jedes Paar vergleiche Ähnlichkeit. Ähnlichste Paare sind Matches Felix Naumann, Humboldt-Universität zu Berlin 14

8 15 min 5 min 3 min Teil 4 Teil 3 Teil 2 Teil 1 Teil 0 User Interface HumMer Humboldt Merger Import Query Execution Visualization Tables conversion XML Fusion RDB XML Duplicate Detection RDB XML transformation RDB2XML RDB2XML Graphical Query Builder SQL XQuery Query Optimization SQL XQuery XML2RDB XML2RDB DBMS... DBMS XML... XML Metadata Services Lineage Statistics Metadata Repository Mapping Matching Samples Felix Naumann, Humboldt-Universität zu Berlin 15 Duplikaterkennung Erkennung mehrere (ähnlicher) Darstellungen des gleichen Objekts Auch Duplicate Detection Cleansing Record Linkage Domänenspezifische Algorithmen Adressdaten Mikrobiologische Daten Manchmal gibt es IDs Bücher: ISBN Personen: SSN / Personalausweisnummer Webseiten: URL Felix Naumann, Humboldt-Universität zu Berlin 16

9 Duplikaterkennung in XML Daten Vergleiche <author> Mit Subelementen (<publication>)? Wie tief? Vergleiche <publication> Mit parallelen Elementen (<year>)?, oder Daten? Kurz: Was ist ein Duplikat? Mit Melanie Weis Felix Naumann, Humboldt-Universität zu Berlin 17 DELPHI - Warehouse Duplikate [AC02] ID country USA United States Unitd States Token Ähnlichkeit 2 3 ID City New York Los Angeles Now York Los Angeles New York County_ID Los Angels 3 Gemeinsame Kinder Felix Naumann, Humboldt-Universität zu Berlin 18

10 XML Duplikate Input: XML Dokument, kein Output: Alle Duplikate im Dokument Zwei Elemente sind Duplikate falls: Gleiche oder ähnliche Eltern Gleicher Name (Tag) Gleiche Tiefe im Dokument Ähnliche Daten Ähnliche Kinder Ähnlichkeit: Basiert auf edit distance mit Schwellwert Felix Naumann, Humboldt-Universität zu Berlin 19 Der Algorithmus Extraction Graph Generation Filterung Duplikaterkennung Experimente auf sauberen Länderdaten, die mit vier Fehlerarten verschmutzt wurden. 260 Länder Similar Neighbor Detection Filtering Pairwise Element Comparison Außerdem: Filmdaten, CD Daten, usw. Clustering Felix Naumann, Humboldt-Universität zu Berlin 20

11 Algorithmus - Objektextraktion Extraction Graph Generation Similar Neighbor Detection Filtering Pairwise Element Comparison Clustering Ziel: Relevante Elemente extrahieren XQuery Resultat hat festes Unterscheidung: Elementdaten Kinddaten name Paris city att Tour Eiffel atts Element att Notre Dame name Paris city Children atts att Toure Eiffel lake Lac Leman Felix Naumann, Humboldt-Universität zu Berlin 21 Algorithmus Entdeckung ähnlicher Nachbarn Extraction Graph Generation Similar Neighbor Detection Filtering Pairwise Element Comparison Clustering Ziel: Finde ähnliche Daten zwischen Elementen Edit distance. Filter um Anzahl der Vergleiche zu minimieren: Längen-Filter Dreiecksungleichung Bag distance Notre Dame Tour Eiffel Lyon Paris Toure Eiffel Selektivität der Filter (in Reihenfolge): Längenfilter: 83 % Dreiecksungleichung: 23% Bag distance Filter: 97% >99% Felix Naumann, Humboldt-Universität zu Berlin 22

12 Algorithmus - Objektfilter Extraction Graph Generation Similar Neighbor Detection Filtering Pairwise Element Comparison Clustering Ziel: Anzahl der Vergleiche zwischen Objekten minimieren Elemente filtern, die nicht Duplikate sein können Obere Schranke für Ähnlichkeitsmaß Notre Dame Paris Lyon number of filtered objects % 20% 40% 60% 80% 100% duplicate percentage (dup) Tour Eiffel Toure Eiffel Maximum Observed Felix Naumann, Humboldt-Universität zu Berlin 23 Algorithmus Elementvergleich Extraction Graph Generation Similar Neighbor Detection Filtering Pairwise Element Comparison Clustering Ziel: Identifikation von Duplikaten Ähnlichkeitsmaß basiert auf Relevanz der gemeinsamen Daten Relevanz der nichtgemeinsamen Daten Schwellwert Notre Dame Paris Tour Eiffel Toure Eiffel Felix Naumann, Humboldt-Universität zu Berlin 24

13 Algorithmus Clustering Extraction Graph Generation Similar Neighbor Detection Filtering Pairwise Element Comparison Clustering Ziel: Bestimmung von Duplikatclustern Transitivität von ist Duplikat mit Transitive Hülle bilden Felix Naumann, Humboldt-Universität zu Berlin 25 Algorithmus Top-down Mittels Duplkate in Tiefe I werden Duplikate auf Stufe i+1 ermittelt. Extraction Graph Generation Filterung Similar Neighbor Detection Filtering Pairwise Element Comparison Clustering Duplikaterkennung Felix Naumann, Humboldt-Universität zu Berlin 26

14 Ausblick Weitere Experiment Filmdaten Skalierbarkeit Speicherbedarf Geschwindigkeit nutzen Vergleiche sparen (content model, maxoccurs) Datentypen Andere Ähnlichkeitsmaße Felix Naumann, Humboldt-Universität zu Berlin 27 Duplikaterkennung in XML Daten Felix Naumann, Humboldt-Universität zu Berlin 28

15 Duplikat-gesteuertes Matching Umgekehrte Idee Matching Herkömmliche Lösungen (siehe zuvor) Namen der elemente (label-based) Darunterliegende Daten (instance-based) Insbesondere Eigenschaften von Spalten Struktur des s (structure-based) Nun Finde Duplikate (trotz mangelnder ta) Korrespondenzen zwischen gleichen Attributwerten Mit Alexander Bilke Felix Naumann, Humboldt-Universität zu Berlin 29 Duplikat-gesteuertes Matching Duplikate Felix Naumann, Humboldt-Universität zu Berlin 30

16 15 min 15 min 5 min 3 min Teil 4 Teil 3 Teil 2 Teil 1 Teil 0 User Interface HumMer Humboldt Merger Import Query Execution Visualization Tables conversion XML Fusion RDB XML Duplicate Detection RDB XML transformation RDB2XML RDB2XML Graphical Query Builder SQL XQuery Query Optimization SQL XQuery XML2RDB XML2RDB DBMS... DBMS XML... XML Metadata Services Lineage Statistics Metadata Repository Mapping Matching Samples Felix Naumann, Humboldt-Universität zu Berlin 31 Daten Fusion amazon.de H. Melville $3.98 ID max length MIN CONCAT Herman Melville Moby Dick $5.99 bol.de Felix Naumann, Humboldt-Universität zu Berlin 32

17 Relationale Datenfusion Union Duplikat-Eliminierung Outer union (Codd 1979) Union bei heterogenen ta Minimum union (Ullmann 1989, Galindo-Legaria 1994) Eliminierung subsummierter Tupel Fusion Duplikatintegration Konfliktlösung Felix Naumann, Humboldt-Universität zu Berlin 33 Wie Union integriert Quelle 1(A,B,C) Quelle 2(A,B,C) a, b, c a, b, c a, b, c Elimination identischer Tupel a, b, c a, b, c a, b, - a, b, - a, b, c a, b, c a, b, d a, c, d Keine Elimination subsummierter Tupel Keine Konfliktlösung a, -, c a, b, - a, -, c a, b, - Keine Integration komplementärer Tupel Felix Naumann, Humboldt-Universität zu Berlin 34

18 Wie Outer Union integriert Quelle 1(A,B,C) Quelle 2(A,B,D) a, b, c a, b, d a, b, -, d a, b, -, d Keine Integr. komplement. Tupel a, b, - a, b, - a, b, -, - a, b, -, - a, b, -, - Elimination identischer Tupel a, b, c a, b, - a, b, -, - a, b, -, - Keine Elimination subsummierter Tupel a, b, c a, e, d a, e, -, d a, e, -, d Keine Konfliktlösung Felix Naumann, Humboldt-Universität zu Berlin 35 Wie Minimum Union integriert Quelle 1(A,B,C) Quelle 2(A,B,D) a, b, c a, b, d a, b, -, d a, b, -, d Keine Integr. komplement. Tupel a, b, - a, b, - a, b, -, - a, b, -, - a, b, -, - Elimination identischer Tupel a, b, c a, b, - a, b, -, - Elimination subsummierter Tupel a, b, c a, e, d a, e, -, d a, e, -, d Keine Konfliktlösung Felix Naumann, Humboldt-Universität zu Berlin 36

19 Wie Fusion integrieren sollte Quelle 1(A,B,C) Quelle 2(A,B,D) a, b, c a, b, d a, b, -, d a, b, c, d Integration komplement. Tupel a, b, - a, b, - a, b, -, - a, b, -, - a, b, -, - Elimination identischer Tupel a, b, c a, b, - a, b, -, - Elimination subsummierter Tupel a, b, c a, e, d a, e, -, d a, f( b,e), c, d Konfliktlösung Felix Naumann, Humboldt-Universität zu Berlin 37 Konfliktlösungsfunktionen Numerisch: SUM, AVG, MAX, MIN, Nicht-numerisch: MAXLENGTH, CONCAT, AnnCONCAT, Spezialisiert: RANDOM, COUNT, CHOOSE, FAVOR, MaxIQ, Domänen-spezifisch Felix Naumann, Humboldt-Universität zu Berlin 38

20 Fuse By Syntaxdiagramm.----, V >>--SELECT column > +--RESOLVE (column) `--RESOLVE (column, function)--' ` * '.--, V >--FROM---table--+-->.--, , V V >--FUSE BY--(-+---column--+-+-)--ON ORDER---column--+-->< ` ' Mit Jens Bleiholder Felix Naumann, Humboldt-Universität zu Berlin 39 Fuse By Semantik Idee: Gruppierung und Outer Union Konfliktlösungsfunktionen in den Gruppen Intuitives Default-Verhalten Verwendung von Coalesce Beseitigung von Unsicherheiten Entfernung doppelter Tupel Entfernung subsummierter Tupel Felix Naumann, Humboldt-Universität zu Berlin 40

21 Fuse By Anfragen SELECT * FROM Q1 FUSE BY (Name) SELECT * FROM Q1 FUSE BY () SELECT * FROM Q1, Q2 FUSE BY () Gruppierung mit Coalesce Aggregation Subsumption Minimum Union SELECT Name, RESOLVE(Alter, max), RESOLVE(Student, vote), RESOLVE(Ort), RESOLVE(Telefon) FROM Q1, Q2 FUSE BY (Name) ON ORDER Q2.Alter DESC Felix Naumann, Humboldt-Universität zu Berlin 41 FUSE BY Beispiel Name Alter Student Ort Name Alter Student Telefon Felix Melanie Jens Christoph Sven Sven Nein Hamburg Karlsruhe Berlin Berlin Berlin Melanie Jens Christoph Melanie Karsten Karsten Nein 030/ / /98765 SELECT Name, RESOLVE(Alter,max), RESOLVE(Student,vote), RESOLVE(Ort), RESOLVE(Telefon) FROM Q1, Q2 FUSE BY (Name) ON ORDER Q2.Alter DESC Name Felix Melanie Jens Christoph Sven Karsten Alter Felix Naumann, Humboldt-Universität zu Berlin Student Nein Ort Hamburg Karlsruhe Berlin Berlin Telefon 030/ /54321

22 2 min 15 min 15 min 5 min 3 min Teil 4 Teil 3 Teil 2 Teil 1 Teil 0 User Interface HumMer Humboldt Merger Import Query Execution Visualization Tables conversion XML Fusion RDB XML Duplicate Detection RDB XML transformation RDB2XML RDB2XML Graphical Query Builder SQL XQuery Query Optimization SQL XQuery XML2RDB XML2RDB DBMS... DBMS XML... XML Metadata Services Lineage Statistics Metadata Repository Mapping Matching Samples Felix Naumann, Humboldt-Universität zu Berlin 43 Anfrageoptimierung mit Merging π(name) π(name) σ(salary > 1000) MERGE MERGE σ(salary > 1000) σ(salary > 1000)... emp_1... emp_n emp_1... emp_n Korrektheit? Vollständigkeit? Effizienz? Felix Naumann, Humboldt-Universität zu Berlin 44

23 Optimierung Ein Paradigmenwechsel Festes Ergebnis Vollständig & korrekt Optimiere Kosten Zeit & Durchsatz Feste Kosten Preis, Geduld, Optimiere Ergebnis Inhalt, Qualität Felix Naumann, Humboldt-Universität zu Berlin 45 Visualisierung Ziele Darstellung integrierter Ergebnisse Viele Quellen Viele Operationen / Transformationen Nutzerfreundliche Darstellung Drill-Down Metadaten Kein kleinster gemeinsamer Nenner! Mit Claudia Lozek Felix Naumann, Humboldt-Universität zu Berlin 46

24 Metadaten der Integration Herkunft lineage Durch Operatoren hindurch Transformationen Aggregation / Integration Konflikte Datenqualität Ranking Metadata Visualization Merging Scrubbing Extraction Analysis S1 S Felix Naumann, Humboldt-Universität zu Berlin 47 Fragen? naumann@informatik.hu-berlin.de

25 Teil 4 Teil 3 Teil 2 Teil 1 Teil 0 User Interface HumMer Humboldt Merger Import Query Execution Visualization Tables conversion XML Fusion RDB XML Duplicate Detection RDB XML transformation RDB2XML RDB2XML Graphical Query Builder SQL XQuery Query Optimization SQL XQuery XML2RDB XML2RDB DBMS... DBMS XML... XML Metadata Services Lineage Statistics Metadata Repository Mapping Matching Samples Felix Naumann, Humboldt-Universität zu Berlin 49