Duplikaterkennung. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

Größe: px

Ab Seite anzeigen:

Download "Duplikaterkennung. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17"

Linda Goldschmidt
vor 6 Jahren
Abrufe

1 Dr. Armin Roth arminroth.de Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

2 Agenda 1 Wiederholung: Datenwertintegration 2 Duplikaterkennung Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

3 Wiederholung: Datenwertintegration Datenintegration [NL06] Wenn Daten in gemeinsamem Schema vorliegen: weitere Probleme Datenfehler: Formatfehler (z.b. Datumsformate), Inkonsistenzen (z.b. PLZ und Ortsname) Duplikate: Dasselbe Realweltobjekt mehrmals repräsentiert (in mehreren Quellen), Ziel: homogene, konsolidierte Sicht Qualität: weitere Kriterien wie z.b. Glaubwürdigkeit, Relevanz, Aktualität Vollständigkeit: Alle relevanten Realweltobjekte? Alle Attribute mit Werten befüllt? Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

4 Wiederholung: Datenwertintegration Datenfehler [NL06, RD00] Datenfehler Einzelne Datenquelle Integrierte Datenquellen Schemaebene Datenebene Schemaebene Datenebene Unzulässiger Wert Attributabhängigkeit verletzt Eindeutigkeit verletzt Referenzielle Integrität verletzt Fehlende Werte Schreibfehler Falsche Werte Falsche Referenz Kryptische Werte Eingebettete Werte Falsche Zuordnung Widersprüchliche Werte Transpositionen Duplikate Strukturelle Heterogenität Semantische Heterogenität Schematische Heterogenität Widersprüchliche Werte Unterschiedliche Repräsentationen Unterschiedliche Einheiten Unterschiedliche Genauigkeit Unterschiedliche Aggregationsebenen Duplikate Datenkonflikte Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

5 Agenda Duplikaterkennung 1 Wiederholung: Datenwertintegration 2 Duplikaterkennung Quelle: Dr. Melanie Herschel, Université Paris-Sud [WN05] Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

6 Duplikaterkennung (Semi-)Automatische Erkennung verschiedener Repräsentationen eines gleichen realen Objekts Synonmye Bezeichnungen: Object identification, Record linkage, Reference reconciliation, Entity resolution, Duplicate detection, Entity matching Problemkomlexität: quadratisch (jeden Record mit jedem anderen vergleichen) Title Genre Year Director Troy Action 2004 Petersen Typo Widerspruch Fehlende Daten Troj History Petersen Quelle: Dr. Melanie Herschel, Université Paris-Sud Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

7 Verfahren zur Duplikaterkennung Duplikaterkennung Art der Daten Optimierungsfokus Methodik Einzelne relationale Tabelle Hierarchische Daten (z.b. XML) Graphen Effektivität Effizienz Skalierbarkeit Paarweise Vergleiche Clustering Learning Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

8 Iterative Algorithmen zur Duplikaterkennung Gegeben zwei Tupelmengen A und B Kernidee: Bilde Kreuzprodukt aller Tupel Für jedes Paar berechne Ähnlichkeit z.b. bzgl. Attributwerte z.b. bzgl. Fremdschlüssel Wähle Duplikatpaare aus Ähnlichste Paare bis Schwellwert Nebenbedingungen Bilde Duplikatcluster (Transitive Hülle) Probleme Anzahl Vergleiche (Effizienz) Ähnlichkeitsmaß (Effektivität) Große Datenmengen (Skalierbarkeit) Edit Distance Containment metric Sorted Neighborhood Methode Duplikaterkennung in Graphen Quelle: Dr. Melanie Herschel, Université Paris-Sud Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

9 Edit Distance [Kuk92] Maß zur Ermittlung der Ähnlichkeit zweier Zeichenketten Abstand := Anzahl an Operationen zur Überführung einer Zeichenkette S 1 in eine Zeichenkette S 2 durch Einfügung (Insert) Löschung (Delete) Ersetzung (Replace) Übereinstimmung (Match) Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

10 Edit Distance Beispiel Beispiel HASE RASEN H R durch Ersetzung (R) A A durch Match (M) S S durch Match (M) E E durch Match (M) N durch Einfügung (I) Transkript: RMMMI EditDistance(HASE, RASEN) = 2 Minimal! Aber: Woher weiß man das? Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

11 Sorted Neighborhood-Methode [HS98] Input Tabelle mit N Tupeln Ähnlichkeitsmaß (z.b. basierend auf Edit Distance) Output: Klassen (clusters) der äquivalenten Tupel (= Duplikate) Problem: Viele Tupel Vergleich eines jeden Tupelpaares zu aufwendig (Effizienz) Tabelle passt nicht in den Speicher (Skalierbarkeit) Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

12 Sorted Neighborhood Idee Daten geschickt partitionieren nur innerhalb dieser Partitionen Duplikate suchen Algorithmus nach [HS98]: 1 Create Key: Schlüssel mittels relevanter Feldern erzeugen 2 Sort: Daten nach dem Schlüssel sortieren 3 Merge: Fenster (der Größe w) über sortierte Tupel schieben Nur Tupel innerhalb des Fensters miteinander vergleichen Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

13 Sorted Neighborhood Beispiel ID Key 17 MSKAD98 ID Title Year Genre 17 Mask of Zorro 1998 Adventure 18 Addams Family 1991 Comedy 25 Rush Hour 1998 Comedy 31 Matrix 1999 Sci-Fi 52 Return of Dschafar 1994 Children Create key DDMCO91 RSHCO98 MTRSC99 RTRCH94 DMSCO91 RTRCH Adams Family 1991 Comedie 207 Return of Djaffar 1995 Children 2. Sort classify(18,113) duplicates classify(52,207) duplicates ID Key DDMCO91 DMSCO91 MSKAD98 MTRSC99 RSHCO98 RTRCH94 RTRCH95 Merge 3. ID Key DDMCO91 DMSCO91 MSKAD98 MTRSC99 RSHCO98 RTRCH94 RTRCH95 Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

14 Sorted Neighborhood Schlüsselerzeugung Schlüssel: eine Sequenz einer Teilmenge von Attributen oder der Teilketten innerhalb der Attribute Effektivität des Algorithmus ist von Schlüsselauswahl abhängig Schlüssel ist nur virtuell und nicht eindeutig: Wird nur für Sortierung benutzt. Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

15 Sorted Neighborhood Sortierung Sortierung lexikographisch nach Schlüssel Ziel: Äquivalente Tupel versammeln sich in unmittelbarer Nähe Verschiedene Methoden der Sortierung (Quicksort, AlphaSort, usw.) Insbesondere: Effiziente Sortiermethoden auf sekundärem Speicher Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

16 Sorted Neighborhood Merge Ein Fenster festgelegter Größe w wird zeilenweise durch die Liste geschoben. 2 w N Nur Tupel innerhalb eines Fensters werden verglichen. Aktuelles Fenster von Tupel w w Nächstes Fenster von Tupel Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

17 Literatur Duplikaterkennung [HS98] M. Hernandez and S. Stolfo. Real-world data is dirty: Data cleansing and the merge/purge problem. Knowledge Discovery, 2(1), 98. [Kuk92] Karen Kukich. Technique for automatically correcting words in text. ACM Computing Surveys, 24(4), [NL06] [RD00] [WN05] Felix Naumann and Ulf Leser. Informationsintegration. dpunkt.verlag, In German. Erhard Rahm and Hong-Hai Do. Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin, 23(4), M. Weis and F. Naumann. DogmatiX tracks down duplicates in XML. In Proc. of the ACM Int. Conf. on Management of Data (SIGMOD), Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

Ähnliche Dokumente

Workshop Datenreinigung Duplikaterkennung Felix Naumann

Workshop Datenreinigung Duplikaterkennung 11.10.2011 Felix Naumann Überblick 2 Das Problem der Duplikaterkennung Ähnlichkeitsmaße Edit Distance et al. Algorithmen Naiv Blocking Sorted-Neighborhood Methode