Duplikaterkennung. Fabian Panse. Universität Hamburg. Komplexe Informationssysteme

Transkript

1 Komplexe Informationssysteme Fabian Panse Universität Hamburg

2 Duplikaterkennung Fabian Panse Duplikaterkennung 2

3 Duplikaterkennung - Motivation Daten sind häufig von Qualitätsmängeln betroffen: Unvollständigkeit Fehlerhaft Quelle: Felix Naumann, Melanie Herschel [NH10] Fabian Panse Duplikaterkennung 3

4 Duplikaterkennung - Motivation Reinigung einer Datenbank/Quelle: Duplikate als Qualitätsproblem Schwerwiegende Folgen möglich tid Name Alter Wohnort t 1 Max Mustermann 27 Hamburg t 2 Maximilian Musterman 28 Hamburg - Eimsbüttel t 3 Max Muster 30 Hamburg t 4 Johannes Frisch 45 Berlin t 5 Anne Gruber 41 Harburg t 6 Kieser Klaus 53 Harburg t 7 Gruber Annemarie 41 Hamburg t 8 Christian Fabian 21 Berlin Fabian Panse Duplikaterkennung 4

5 Duplikaterkennung - Motivation Semantisch korrekte Verknüpfung verschieder Quellen: Quelle 1 tid Name Wohnort t 11 Maximilian Musterman Eimsbüttel t 12 Max Muster Hamburg t 13 Johannes Frisch Berlin t 14 Gruber Annemarie Hamburg t 15 Christian Fabian Berlin Quelle 2 tid Name Studiengang t 21 Max Mustermann Mathematik t 22 Max Muster Informatik t 23 Hannes Frisch Biologie t 24 Anne Gruber Biologie t 25 Kieser Klaus Chemie Fabian Panse Duplikaterkennung 5

6 Duplikaterkennung - Synonyme Auch bekannt als: Duplicate Elimination Merge-Purge Problem Entity Matching Entity Resolution Record Linkage Data Matching Deduplication Data Linkage Object Matching Object Reconciliation Object Identification Reference Reconciliation Fabian Panse Duplikaterkennung 6

7 Duplikaterkennung - Definition Basierend auf paarweisen Tupelvergleichen Zwischenergebnisse: Klasse der Matches (M), Klasse der Unmatches (U) Endergebnis: Partitionierung (Clustering) der Tupelmenge Eingabe (Tupelmenge) Duplikatenerkennung Ergebnis (Clustering) Fabian Panse Duplikaterkennung 7

8 Duplikaterkennung - Ziele Hohe Effektivität: Möglichst viele echte Duplikate finden Möglichst wenig falsche Duplikate als solche deklarieren Hohe Effizienz: Kurze Laufzeit (speziell bei virtueller Integration) Ressourcenschonende Berechnung (Speicher, CPU) Skalierbarkeit Fabian Panse Duplikaterkennung 8

9 Duplikaterkennung - Warum so schwer? Zielkonflikt 1: Effektivität vs. Effizienz (offline vs. online) Zielkonflikt 2: Viele Duplikate finden vs. nur richtige Duplikate als solche deklarieren Domänenspezifische Datenbeschaffenheit (z.b. Datentypen, Ähnlichkeitskonzepte) Fallspezifische Datenbeschaffenheit Komplexität (einzelne Tabelle vs. viele Tabellen) Größe (hundert vs. millionen Tupel, wenige vs. viele Attribute) Reinheitsgrad (wenige vs. viele Fehler, einfache vs. massive Fehler, einheitliche vs. uneinheitliche Darstellung) Grad der Vollständigkeit (wenige vs. viele Nullwerte) Duplikatmuster (wenige vs. viele Duplikate, kleine Duplikatcluster vs. große Duplikatcluster, Verschiedenartigkeit von Duplikaten bzw. Nichtduplikaten) Fabian Panse Duplikaterkennung 9

10 Duplikaterkennung - Warum so schwer? (Forts.) Semantische Heterogenität (Synonyme, Homonyme, etc.) Inhärente Unsicherheit von Duplikaterkennungsprozessen Anwendungsspezifische Qualitätsanforderungen (welche Fehlerart wiegt schwerer? False Positives oder False Negative) Vorhandene Ressourcen (CPU, Speicher, monolitisches vs. verteiltes System) Wenn man Datensätze über verschiedene Datenbanken hinweg betrachtet: Datenmodell-Heterogenität Schematische Heterogenität Relation vs. Attribut, Attribut vs. Wert, Relation vs. Wert Normalisiert vs. denormalisiert Fabian Panse Duplikaterkennung 10

11 Duplikaterkennung - Prozessablauf Datenreinigung (Standardisierung, Entfernung einfacher Fehler) Suchraumreduzierung (Effizienzerhöhung) Attributwertmatching (Messen von Attributwertähnlichkeiten) Entscheidungsmodell (ähnlichkeitsbasierte Entscheidungsfindung) Duplikat Clustering (Clustern der paarweisen Entscheidungen) Verifikation (Abschätzung der Ergebnisqualität) Unbereinigte Tupelmenge Tupel Partitionierung Entscheidungsmodell Datenreinigung Attributwert Matching Suchraumreduzierung Duplikat Clustering Verifikation Fabian Panse Duplikaterkennung 11

12 Verifikation Eingabe: Gold standard (korrektes Clustering C gold ) Duplikat Clustering C, Suchraum, Paarweise Entscheidungen Ausgabe: Qualitätswert q [0, 1] Unterscheidung in: Paarbasierte Verfahren Clusterbasierte Verfahren Fabian Panse Duplikaterkennung 12

13 Paarbasierte Verifikation Grundidee: Zerlegung des Clusterings in paarweise Duplikatsentscheidungen Klassifikation in Matches (M) und Unmatches (U) Qualität als die Güte einer binären Klassifikation True Positives (TP): zu Recht deklarierten Matches True Negatives (TN): zu Recht deklarierten Unmatches False Positives (FP): zu Unrecht deklarierten Matches False Negatives (FN): zu Unrecht deklarierten Unmatches Fabian Panse Duplikaterkennung 13

14 Paarbasierte Verifikation - Qualitätsmaße Recall: Anteil an gefundenen Duplikaten Recall = TP TP + FN Precision: Anteil an zu Recht deklarierten Matches Precision = TP TP + FP F 1 -score: Harmonisches Mittel von Recall und Precision F 1 -score = 2 Recall Precision Recall + Precision Fabian Panse Duplikaterkennung 14

15 Trade-Off: Recall vs. Precision Hoher Schwellwert hohe Precision, kleiner Recall Kleiner Schwellwert kleine Precision, hoher Recall UNMATCHES False Negatives POSSIBLE MATCHES Clerical Reviews MATCHES True Positives True Negatives False Positives θ U/P θ P/M 0 1 Fabian Panse Duplikaterkennung 15

16 Clusterbasierte Verifikation [MWGM10] Grundidee: Gold standard und Duplikaterkennungsergebnis sind Clusterings Qualität als Ähnlichkeit zwischen zwei Clusterings Qualitätsmaße: Closest Cluster Recall: C q C ccrec(c, C gold ) = gold max Cp Csim(C p, C q ) C gold Closest Cluster Precision: C ccprec(c, C gold ) = max p C C q C gold sim(c p, C q ) C Fabian Panse Duplikaterkennung 16

18 Suchraumreduzierung - Motivation Iterative Verfahren haben quadratische Komplexität Gegeben: n Tupel n (n 1) 2 paarweise Vergleiche Paarweiser Vergleich aller Tupel zu ineffizient Herausfiltern klarer Unmatches mit wenig Aufwand Teure Vergleiche nur für potentielle Duplikatpaare False Negatives (geminderte Effektivität) schlimmer als False Positives (geminderte Effizienz) Fabian Panse Duplikaterkennung 18

19 Suchraumreduzierung - Grundidee Fabian Panse Duplikaterkennung 19

20 Schlüsselbasierte Suchraumreduzierung Die meisten Reduzierungsverfahren basieren auf der Nutzung von Schlüsseln Eine Schlüsseldefinition ist eine Funktion die angibt wie ein Stringwert aus einem Tupel extrahiert wird Beispiel: Konkateniere die ersten drei Buchstaben des Vornamens mit den ersten zwei Buchstaben des Nachnames Mit Hilfe der Schlüsseldefinition wird von jedem Tupel ein Schlüssel extrahiert Die Schlüssel werden dann verwendet um zu bestimmen welche Tupelpaare im Suchraum verbleiben Fabian Panse Duplikaterkennung 20

21 Standard Blocking Eingabe: Schlüsseldefinition [Optional] Codierungsfunktion Vorgehensweise: Bildung eines Schlüssels für jedes Tupel [Optional] Codierung des Schlüssels (z.b. Soundex Code) Blockbildung: Ein Block pro Schlüssel (Hashing) Zwei Tupel im selben Block bilden ein Kandidatenpaar Fabian Panse Duplikaterkennung 21

22 Standard Blocking (Beispiel) Fabian Panse Duplikaterkennung 22

23 Standard Blocking Stärken: Einfach zu Implementieren Schnell ( billig ) auszuführen Schwächen: Größte Block bestimmt Größe des Suchraumes Verfahren ineffektiv sobald ein Block groß ist Entfernen großer Blöcke aber nicht möglich da jedes Tupel nur einmal vorkommt Paarvergleich nur bei Schlüsselgleichheit Langer Schlüssel: Kleine Blöcke aber viele False Negatives Kurzer Schlüssel: Wenige False Negatives aber große Blöcke Fabian Panse Duplikaterkennung 23

24 Sorted Neighborhood Method [HS95] Eingabe: Schlüsseldefinition Fenstergröße w Vorgehensweise: Bildung eines Schlüssels für jedes Tupel Sortieren aller Tupel nach Schlüssel Ein Fenster der Größe w läuft über die sortierte Tupel-Liste Zwei Tupel im selben Fenster bilden ein Kandidatenpaar Fabian Panse Duplikaterkennung 24

25 Sorted Neighborhood Method (Beispiel) Fabian Panse Duplikaterkennung 25

26 Sorted Neighborhood Method Stärken: Überlappende Blöcke (Schlüssel müssen nicht mehr gleich sein) Genaue Vorhersage über resultierende Suchraumgröße möglich Schwächen: Fenstergröße vs. Häufigkeit von Schlüsselwerten Tupel mit sehr ähnlichen Schlüsseln werden evtl. nicht verglichen (Lsg.: variable Fenstergröße) Fabian Panse Duplikaterkennung 26

27 Suffix-Array Based Blocking [dvkcc09] Eingabe: Schlüsseldefinition Minimale Suffixlänge l s Maximale Blockgröße l b Vorgehensweise: Bildung eines Schlüssels für jedes Tupel Bildung der Suffixe der Länge l l s von allen Schlüsseln Blockbildung: Ein Block pro Suffix ( mehrere Schlüssel/Blöcke pro Tupel) Entfernung aller Blöcke mit mehr als l b Einträgen Zwei Tupel im selben Block bilden ein Kandidatenpaar Fabian Panse Duplikaterkennung 27

28 Suffix-Array Based Blocking (Beispiel) Id BKV Suffixe l mbs = 3 gesetzt. R1 Die Catherine Minimumcatherine, Suffix Length atherine, wirdtherine, auf l ms herine, = 4 gesetzt. erine, Folgende rine Tabelle zeigt für jedes R2 Tupel Katherina die resultierenden katherina, Suffixe. atherina, therina, herina, erina, rina R3 Catherina catherina, atherina, therina, herina, erina, rina Id R4 BKV Catrina Suffixe catrina, trina, rina R1 R5 Catherine Katrina catherine, katrina, trina, atherine, rina therine, herine, erine, rine R2 Katherina katherina, atherina, therina, herina, erina, rina Nun werden R3 die Catherina Suffixe mit catherina, den Referenzen atherina, auf therina, ihr Quelltupel herina, erina, den rinasortierten invertierten Index R4 eingefügt. Catrina Das catrina, Suffix trina, rina rina ist zu allgemeingültig und wird, da es die R5 Katrina katrina, trina, rina Maximum Block Size überschreitet, gelöscht. Nun werden die Suffix Suffixe mit Identifier ReferenzenSuffix auf ihr Quelltupel Identifierin den sortierten invertierten Index eingefügt. atherina Das R2,R3 Suffix rina ist herine zu allgemeingültig R1 und wird, da es die Maximum Block Size atherine überschreitet, R1 gelöscht. katherina R2 atrina R4,R5 katrina R5 Suffix catherina Identifier R3 Suffix rina Identifier R2,R3,R4,R5 atherina catherine R2,R3 R1 herine R1 atherine catrina R1 R4 katherina R2,R3 atrina erina R4,R5 R2,R3 katrina therine R5 R1 catherina erine R3 R1 trina R2,R3,R4,R5 R4,R5 catherine herina R1 R2,R3 rine R1 catrina R4 therina R2,R3 Die resultierenden erinablöcke sind R2,R3alle Tupelmengen therinemit mehr R1 als einem Eintrag. Damit Fabian Panse Duplikaterkennung 28

29 Suffix-Array Based Blocking Stärken: Wie Standard Blocking, aber löst das Problem der Schlüssellänge benutzt pro Tupel den kürzesten Schlüssel der nicht zu einem großen Block führt Schwächen: Fehler am Ende der Schlüssel werden nicht kompensiert Verfahren einmal für Suffix und einmal für Präfix (der Präfix eines Strings entspricht dem Suffix des gespiegelten Strings) Mergen von Blöcken ähnlicher Suffixe Fabian Panse Duplikaterkennung 29

30 Schlüsselbasierte Suchraumreduzierung Stärken: Effiziente Berechnung Leicht an unterschiedliche Domänen anpassbar Schwächen: Große Abhängigkeit von der Wahl des Schlüssels Multi-pass Verfahren Mehrere Schlüsseldefinitionen Ein Durchlauf pro Schlüsseldefinition Vereinigung der produzierten Suchräume (Bsp. Füge dem Suchraum alle Paare hinzu die in mindestens zwei Durchläufen als Kandidat deklariert wurden) Fabian Panse Duplikaterkennung 30

31 weitere Suchraumreduzierungsverfahren Q-gram Indexing Canopy Clustering K-way Sorting Similarity-Aware Inverted Indexing String-Map basiertes Blocking LSH basiertes Blocking Sorted Blocks Priority Queue TI-similarity basiertes Blocking Spectral Neighborhood Blocking Blocking mit MFIBlocks Iteratives Blocking Fuzzy Blocking Paralleles Blocking mit Map-Reduce Fabian Panse Duplikaterkennung 31

32 Duplikaterkennung - Prozessablauf Datenreinigung (Standardisierung, Entfernung einfacher Fehler) Suchraumreduzierung (Effizienzerhöhung) Attributwert Matching (Messen von Attributwertähnlichkeiten) Entscheidungsmodell (ähnlichkeitsbasierte Entscheidungsfindung) Duplikat Clustering (Clustern der paarweisen Entscheidungen) Verifikation (Abschätzung der Ergebnisqualität) Unbereinigte Tupelmenge Tupel Partitionierung Entscheidungsmodell Datenreinigung Attributwert Matching Suchraumreduzierung Duplikat Clustering Verifikation Fabian Panse Duplikaterkennung 32

33 Attributwert Matching Für jedes Kandidatenpaar wird ein Vergleichsvektor berechnet c = c 1,..., c n, c i [0, 1] Der Vektor enthält normierte Ähnlichkeiten zwischen Attributwerten Ähnlichkeitsberechnung durch String Matching (z.b. Levenshtein, Monge-Elkan, Kosinus, etc.) Üblich: Nur Vergleiche von Werten gleicher Attribute Eine Vektorposition pro Attribut Attributübergreifende Vergleiche können nützlich sein, wenn: Attributwerte vertauscht sein können (z.b. Vor- und Nachname) der erste Wert in dem zweiten codiert sein kann (z.b. Name in ) Fabian Panse Duplikaterkennung 33

35 Entscheidungsmodell Eingabe: Ein Tupelpaar {t i, t j }, Vergleichsvektor c(t i, t j ) Ausgabe: Entscheidung ob t i und t j Duplikate sind (samt Ähnlichkeit) Grundidee: Berechnung einer Ähnlichkeit/Distanz zwischen beiden Tupeln Nutzen eines Schwellwertes um Tupelpaar als Match oder Unmatch zu klassifizieren Häufig Verwendung einer dritten Klasse: Possible Matches Possible Matches müssen später von einem Domänexperten manuell begutachtet werden Geht natürlich nur offline (d.h. materialisierte Integration) Alternativ: Crowdsourcing, probabilistische Modellierung Fabian Panse Duplikaterkennung 35

36 Entscheidungsmodell θ U/P θ P/M candidate pair UNMATCHES POSSIBLE MATCHES MATCHES 0 sim 1 1 dst 0 Fabian Panse Duplikaterkennung 36

37 Distanzbasierte Ansätze [EIV07] Ähnlichkeitsberechnung: Jedes Tupel als langen String betrachten und Stringähnlichkeitsmaß (z.b. Levenshtein) verwenden (in diesem Fall wird der Vergleichsvektor nicht genutzt) Gewichteter Durchschnitt aller Attributähnlichkeiten Maximum Weighted Matching zwischen den Attributwerten beider Tupel (wenn attributübergreifende Ähnlichkeiten existieren) Distanz im Vektorraum Fabian Panse Duplikaterkennung 37

38 Distanz im Vektorraum Vergleichsvektor c(t i, t j ) = c 1,..., c n wird als Punkt P in einem n dimensionalen Vektorraum betrachtet Der Punkt 0 = (0, 0,..., 0) steht für sichere Nichtduplikate Der Punkt 1 = (1, 1,..., 1) steht für sichere Duplikate Berechnung der Ähnlichkeit zwischen t i und t j mit Hilfe eines Distanzmaßes dst sim = 1 dst(p, 1) dst(0, 1) Wahl des Distanzmaßes dst: Euklidische Distanz Manhattan Distanz etc. = dst(0, P) dst(0, 1) Fabian Panse Duplikaterkennung 38

39 Regelbasierte Ansätze [WM89] Grundidee: Domänenexperte definiert Regeln, die bestimmen wann zwei Tupel Duplikate oder Nichtduplikate sind Formale Beschreibung: Prämisse Schlussfolgerung Die Prämisse ist gewöhnlich ein Prädikat in konjunktiver Normalform und ist entweder über den Ähnlichkeitsvektor oder die Attributwerte selber definiert: Prämisse = (term 1,1 term 1,2...)... (term n,1 term n,2...) Die Schlussfolgerung ist Match oder Unmatch Fabian Panse Duplikaterkennung 39

40 Regelbasierte Ansätze Einfacher Ansatz: Menge an positiven Regeln (Schlussfolgerung ist Match) Wenn eine Regel feuert wird das Tupelpaar als Match klassifiziert Wenn keine Regel feuert wird das Tupelpaar als Unmatch klassifiziert Reihenfolge in der die Regeln geprüft werden ist irrelevant Profilbasierter Ansatz: Positive Regeln (Schlussfolgerung ist Match) und negative Regeln (Schlussfolgerung ist Unmatch) Regeln werden der Reihe nach geprüft bis eine feuert Reihenfolge in der die Regeln geprüft werden ist relevant Fabian Panse Duplikaterkennung 40

41 Regelbasierte Ansätze (Beispiel) R 1 : ( c(fname, fname) > 0.6) ( c(lname, lname) > 0.8) ( c(dob, DoB) = 1.0) Match R 2 : ( c(fname, lname) > 0.6) ( c(lname, fname) > 0.8) ( c(dob, DoB) = 1.0) Match R 3 : ( c(lname, fname) > 0.6) ( c(fname, lname) > 0.8) ( c(dob, DoB) = 1.0) Match R 4 : ( c(lname, lname) 0.5) ( c(country, country) 1.0) Unmatch R 5 : ( c(lname, ) > 0.5) ( c(fname, ) > 0.5) Match R default : True Unmatch Fabian Panse Duplikaterkennung 41

42 Clusterbasierte Ansätze [DHI12] Grundidee: Verwendung von hierarchischen Clusteringverfahren (gegeben Ähnlichkeitsmaß und Schwellwert θ) Initialisiere alle Tupel als einelementige Cluster Bis die größte gefundene Ähnlichkeit kleiner als θ ist, tue Berechne die Ähnlichkeit zwischen allen Clustern Ist die größte gefundene Ähnlichkeit größer als θ vereine die beiden betreffenden Cluster Fabian Panse Duplikaterkennung 42

43 Clusterbasierte Ansätze 1-similarity 1 iteration step 3 iteration step 2 Θ iteration step 1 0 e 1 e 2 e 3 e 4 e 5 Fabian Panse Duplikaterkennung 43

44 Clusterbasierte Ansätze Wie definiert man die Ähnlichkeit zwischen zwei Clustern? Average Link: durchschnittliche Ähnlichkeit der Cluster-Tupel Complete Link: maximale Ähnlichkeit der Cluster-Tupel Single Link: minimale Ähnlichkeit der Cluster-Tupel Canonical Entity: bilde ein kanonisches Tupel per Cluster und nehme die Ähnlichkeit der kanonischen Tupel as Clusterähnlichkeit Fabian Panse Duplikaterkennung 44

45 Statistische Ansätze [EIV07, Tal11] Grundidee: Berechne die Wahrscheinlichkeiten, dass der Vergleichsvektor typisch für ein Match (kurz M) bzw. Unmatch (kurz U) ist Klassifiziere das Tupelpaar als Match wenn die Wahrscheinlichkeit dafür größer ist als für ein Unmatch { M, if Pr(M c) Pr(U c) classify(t i, t j ) = U, sonst. Umformung gemäß Satz des Bayes (Logarithmus hält die Wertebereiche klein): { ( M, if Pr( c M) ) ( log2 Pr( c U) Pr(U) log2 classify(t i, t j ) = Pr(M)), U, sonst. Fabian Panse Duplikaterkennung 45

46 Statistische Ansätze Vorraussetzungen: Schätzungen oder statistische Erhebungen für die einzelnen Wahrscheinlichkeiten Pr( c M) Da es unendliche viele Vergleichsvektoren gibt, lassen sich die Wahrscheinlichkeiten nicht statistisch bestimmen Benutzung eines Matching Pattern Vorgehensweise: Transformiere den Vergleichsvektor in ein Matching Pattern Ein Matching Pattern ist ein n-dimensionaler Vektor p auf einem endlichen Wertebereich p = p 1,..., p n, p i {1, 2,..., k} Fabian Panse Duplikaterkennung 46

47 Statistische Ansätze Berechne die Wahrscheinlichkeiten, dass p typisch für einen Match bzw. Unmatch ist Annahme von Unabhängigkeit zwischen verschiedenen Attributpaaren (Naive Bayes) Vorraussetzungen: Pr( p M) = p i=1 Pr( p U) = p i=1 Pr( p[i] M) Pr( p[i] U) Schätzungen oder statistische Erhebungen für die einzelnen Wahrscheinlichkeiten Pr( p[i] M) und Pr( p[i] U) Fabian Panse Duplikaterkennung 47

48 Statistische Ansätze (Beispiel) Binäres Pattern: probability patterns Fabian Panse Duplikaterkennung 48

49 Statistische Ansätze (Beispiel) Binäres Pattern: increasing false positives θ P/M θ U/P increasing false negatives probability MATCH POSSIBLE MATCH UNMATCH patterns Fabian Panse Duplikaterkennung 49

50 Statistische Ansätze (Beispiel) Ternäres Pattern: probability patterns Fabian Panse Duplikaterkennung 50

51 Statistische Ansätze (Beispiel) Ternäres Pattern: probability increasing false positives θ P/M θ U/P increasing false negatives MATCH POSSIBLE MATCH UNMATCH patterns Fabian Panse Duplikaterkennung 51

52 Statistische Ansätze (Beispiel) Vergleich: Binär vs Ternär Tupelpaar Vergleichsvektor Binäres Pattern Ternäres Pattern {t 1, t 2 } 0.4, 1.0 0, 1 1, 2 {t 1, t 3 } 0.7, 0.7 1, 1 2, 1 {t 1, t 4 } 0.9, 1.0 1, 1 2, 2 {t 1, t 5 } 0.1, 0.6 0, 1 0, 1 {t 1, t 6 } 0.6, 0.6 0, 1 1, 1 Ternäres Pattern deutlich diskriminierender als binäres Fabian Panse Duplikaterkennung 52

53 Lernbasierte Ansätze Unüberwachte Lernverfahren: keine Trainingsdaten erforderlich Überwachte Lernverfahren: Trainingsdaten erforderlich Trainingsdaten sind die Vergleichsvektoren von Tupelpaaren von denen wir wissen, ob sie Duplikate sind oder nicht labeled training vectors 2. learn classifier learned classifier 1. select & label training vectors 4. classify all unlabeled vectors 3. select all unlabeled vectors comparison vectors matching classes Fabian Panse Duplikaterkennung 53

54 Unüberwachte Lernverfahren [EIV07] Constrained Clustering: Clustern der Vergleichsvektoren in zwei Cluster (z.b. 2-Means) Markiere das Cluster das sich näher an Punkt 1 = (1, 1,..., 1) befindet als Menge der Matches (und das andere als Menge der Unmatches) Vorteil: voll automatisch Nachteil: oft keine klare Grenze zwischen den Clustern Unconstrained Clustering: Verwendung eines Verfahren das keine Clusterzahl vorgibt Domänexperte klassifiziert pro Cluster ein Tupelpaar per Hand und adoptiert das Ergebnis für alle Paare des Clusters Vorteil: klare Clustergrenzen Nachteil: semi-automatisch Fabian Panse Duplikaterkennung 54

55 Constrained Clustering - Beispiel 1 0 Fabian Panse Duplikaterkennung 55

56 Constrained Clustering - Beispiel Clustern aller Vergleichsvektoren in 2 Cluster Fabian Panse Duplikaterkennung 55

57 Constrained Clustering - Beispiel 1 MATCH UNMATCH 0 2. Automatische Klassifikation basierend auf den Abständen der Clusterzentren zu Punkt 1 Fabian Panse Duplikaterkennung 55

58 Unconstrained Clustering - Beispiel 1 0 Fabian Panse Duplikaterkennung 56

59 Unconstrained Clustering - Beispiel Cluster Vergleichsvektoren Fabian Panse Duplikaterkennung 56

60 Unconstrained Clustering - Beispiel Manuelle Klassifikation einiger Vektoren Fabian Panse Duplikaterkennung 56

61 Unconstrained Clustering - Beispiel MATCH MATCH 1 MATCH UNMATCH UNMATCH 0 3. Automatische Klassifikation aller anderen Vektoren Fabian Panse Duplikaterkennung 56

62 Unconstrained Clustering - Beispiel 1 0 Problem: Großer manueller Aufwand bei vielen Clustern Fabian Panse Duplikaterkennung 56

63 Überwachte Lernverfahren Entscheidungsbäume: Startet mit der Menge aller Trainingsvektoren Splittet diese Menge Schritt für Schritt in zwei Untermengen bis alle Vektoren einer Menge gleich gelabelt sind In jeder Runde wird versucht die Vektoreneigenschaft für den besten Split zu finden Als Splitkriterium (Berwertung von besten ) wird häufig der Information Gain oder der Giny Index verwendet Das Ergebnis kann als eine Menge von Regeln betrachtet werden (siehe regelbasierte Entscheidungsmodelle) Fabian Panse Duplikaterkennung 57

64 Einleitung Distanzbasiert Duplikaterkennung Regelbasiert Maschinelles Lernen (ML) Referenzen Entscheidungsbäume Überwachtes ML Entscheidungsbäume (Beispiel) V Beispiel: IF D Titel >= 0.55 AND D Studio >= 0.5 THEN MATCHED. Neuere Methoden zur Entscheidungsfindung in der Duplikatenerkennung Steffen Friedrich Fabian Panse Duplikaterkennung 58

65 Überwachte Lernverfahren Support-Vector Machine: Betrachtet Vergleichsvektoren als Punkte in mehrdimensionalen Vektorraum Erzeugt eine Hyperebene welche die Trainingspunkte in zwei Klassen teilt Dabei gilt: Alle gleichgelabelten Vektoren befinden sich in der selben Klasse Die Distanz zwischen dem nächsten Vektor und der Hyperebene ist maximiert Problem: Lineare Separierung der Vektoren oft nicht möglich Kernel trick: Transformation in einen höher dimensionalen Raum und Rücktransformation der Hyperebene in eine nicht lineare Funktion Fabian Panse Duplikaterkennung 59

66 Support-Vector Machine (Beispiel) berwachtes ML Support Vector Machines (SVM) II Neuere Methoden zur Entscheidungsfindung in der Duplikatenerkennung Steffen Friedrich Fabian Panse Duplikaterkennung 60

68 Duplikat Clustering - Motivation Input: Eine Menge an paarweisen Duplikatsentscheidungen Diese Entscheidungen sind unabhängig voneinander getroffen worden und können in Konflikt stehen Beispiel: {A, B} und {A, C} sind Matches aber {B, C} ist ein Unmatch. Da Identität aber transitiv ist, kann das nicht sein Ziel: Finden eines Duplikatclusterings das möglichst wenige der paarweise Entscheidungen revidiert Fabian Panse Duplikaterkennung 62

69 Duplicate-Pair Graph [HCML09, NH10] Viele Verfahren basieren auf dem Duplicate-Pair Graph Graph besitzt Tuple als Knoten Zwei Knoten sind mit einer Kante verbunden, wenn die zugehörigen Knoten als Match klassifiziert wurden Die Ähnlichkeit beider Tupel wird als Kantengewicht genutzt Fabian Panse Duplikaterkennung 63

70 Partitioning based on Connected Components Berechnet die Komponenten des Duplicate-Pair Graphs Entspricht der transitive Hülle aller gefundenen Matches Problem: Produziert große Cluster Produziert häufig eine große Zahl an False Positives Fabian Panse Duplikaterkennung 64

71 Partitioning based on Centers [HCML09, NH10] Grundidee: Wählt einige Knoten des Duplicate-Pair Graphs als Center Weist jeden Knoten seinem nächsten Center zu Problem: Produziert kleine Cluster Produziert häufig eine große Zahl an False Negatives Fabian Panse Duplikaterkennung 65

72 Partitioning based on Centers Vorgehensweise: Sortiere alle Kanten absteigend nach Gewicht Itertiere über die sortierte Liste und wählt eine Kante 1. Beide Knoten gehören schon einem Cluster an Es passiert nichts 2. Nur ein Knoten gehört einem Cluster an, aber ist kein Center Der clusterlose Knoten wird als neues Center gewählt 3. Nur ein Knoten gehört einem Cluster an und ist ein Center Der clusterlose Knoten wird dem anderen Cluster hinzugefügt 4. Keiner der Knoten gehört bereits zu einem Cluster Einer der beiden Knoten wird als neues Center gewählt und der andere Knoten wird dessem Cluster hinzugefügt Fabian Panse Duplikaterkennung 66

73 Partitioning based on Centers - Beispiel {1, 2} Fall 4 1 neuer Center { 1, 2 } {1, 4} Fall 3 - { 1, 2, 4 } {5, 6} Fall 4 5 neuer Center { 1, 2, 4, 5, 6 } {7, 8} Fall 4 7 neuer Center { 1, 2, 4, 5, 6, 7, 8 } {3, 6} Fall 2 3 neuer Center { 1, 2, 4, 3, 5, 6, 7, 8 } {6, 10} Fall 2 10 neuer Center { 1, 2, 4, 3, 5, 6, 7, 8, 10 } {2, 3} Fall 1 - { 1, 2, 4, 3, 5, 6, 7, 8, 10 } {2, 4} Fall 1 - { 1, 2, 4, 3, 5, 6, 7, 8, 10 } {3, 5} Fall 1 - { 1, 2, 4, 3, 5, 6, 7, 8, 10 } Knoten 9 hat keine Kante { 1, 2, 4, 3, 5, 6, 7, 8, 9, 10 } Fabian Panse Duplikaterkennung 67

74 Edge Removal [NH10] Grundidee: Entfernt solange die Kante mit dem kleinsten Gewicht vom Duplicate-Pair Graph bis ein Stopp Kriterium erfüllt ist Verwendet die Komponenten des modifizierten Graphen als Cluster Typisches Stopp Kriterium: Der kürzeste Pfad zwischen jedem Knotenpaar ist kleiner als n Kann für jede Komponente separat ausgeführt werden (entfernt weniger Kanten) Problem: Kann berechnungsintensiv sein Entfernte Kanten können neue längste kürzeste Pfade erzeugen Eine große Zahl von Kanten wird entfernt werden Fabian Panse Duplikaterkennung 68

75 Edge Removal - Beispiel Einfaches Beispiel: Entferne alle Kanten mit Gewicht kleiner als 0.8 Fabian Panse Duplikaterkennung 69

76 Nutzen von Beziehungsinformationen in komplexen DB Nachbarschaftsähnlichkeit: Ähnlichkeit der korrelierenden Datenobjekte Beispiel: Anteil gleicher Akteure zweier Filme Kollektive Duplikaterkennung: Duplikatsentscheidung zweier Objekte hat Einfluß auf Duplikatsentscheidungen benachbarter Objekte Beispiel: Zwei als Duplikat identifizierte Schauspieler erhöhen die Wahrscheinlichkeit, dass deren Filme auch Duplikate sind Iterativ über vollständige Duplikatclusterings Queue-basiert für einzlene Objektpaare Negative Regeln: Objektbeziehungen die auf Nichtduplikate hinweisen Beispiel: Personen die gemeinsam Autor eines Artikels sind Fabian Panse Duplikaterkennung 70

77 Fabian Panse Duplikaterkennung 71

78 Agenda Duplikaterkennung 1 Duplikaterkennung Einleitung Verifikation Suchraumreduzierung Attributwert Matching Entscheidungsmodell Duplikat Clustering Komplexe Datenbanken 2 Fabian Panse Duplikaterkennung 72

79 Completeness, Conciseness, and Correctness Vollständigkeit, Korrektheit von Integrationsergebnissen 23 Extensionale Vollständigkeit : Behebung von Unsicherheiten und Widersprüchen Intensionale Vollständigkeit Quelle: Luna Dong, Felix Naumann [DN09] Fabian Panse Duplikaterkennung 73

80 Überblick [LN06] Nach Duplikaterkennung: Kombination von Duplikaten, so dass im Ergebnis keine Entität der Realwelt mehr als einmal repräsentiert ist Ergebnisdatensätze angereichert mit Datenwerten aus unterschiedlichen Quellen (intensionale Komplementierung) Datenwerte aus unterschiedlichen Quellen können sich widersprechen (Datenkonflikte) Fabian Panse Duplikaterkennung 74

81 Überblick [DN09] Data Fusion Conflict types Resolution strategies Operators Resolution functions Uncertainty Contradiction Join-based Possible worlds Subsumption Aggregation Union-based Consistent answers Complementation Advanced functions Ignorance Avoidance Resolution Instance-based Metadata-based Instance-based Metadata-based Fabian Panse Duplikaterkennung 75

82 Datenkonflikte Duplikaterkennung amazon.de Konflikt kann auch mit NULL-Wert herrschen H. Melville $3.98 ID Herman Melville Moby Dick $5.99 bol.de Fabian Panse Duplikaterkennung 76

83 Ursachen für Konflikte innerhalb einer Datenquelle [DN09] Kein Integritäts- oder Konsistenzcheck Redundanzen im Schema (z.b. Geburtsdatum und Alter) Tippfehler, Übertragungsfehler, falsche Berechnungen Verschiedene Varianten Kantstr. / Kantstrasse / Kant Str. / Kant Strasse Kolmogorov / Kolmogoroff / Kolmogorow Typische Vertauschungen (OCR) U V, 0 o, 1 l, etc. Obsolete Werte Verschiedene Aktualisierungshäufigkeit, vergessene Aktualisierungen Fabian Panse Duplikaterkennung 77

84 Ursachen für Konflikte zwischen Datenquellen [DN09] Lokal konsistent, aber global inkonsistent (z.b. Primärschlüssel) Unterschiedliche Datentypen Lokale Schreibvarianten und Konventionen Adressen St Street, Ave Avenue, etc. R.-Breitscheid-Str. 72 a Rudolf-Breitscheid.-Str. 72A 128 Schreibweisen für Frankfurt am Main (z.b. Frankfurt a.m., Frankfurt/M, Frankfurt, Frankfurt a. Main) Namen Dr. Ing. h.c. F. Porsche AG Hewlett-Packard Development Company, L.P. Numerische Daten = 10T EURO = 10k EUR = ,00 = 10,000.- Telefonnummern, Geburtsdaten, etc. Lokal gebräuchliche Wörter (z.b. verkuzelt, rummähren) Fabian Panse Duplikaterkennung 78

85 Nullwert Semantiken unbekannt Es gibt einen Wert, den kennen wir aber nicht Zum Beispiel: Unbekannte Adresse nicht zutreffend (not applicable) Es gibt keinen sinnhaften Wert Zum Beispiel: Ehepartner bei Singles/Unverheirateten vorenthalten (withheld) Es gibt einen Wert, wir sind aber nicht authorisiert ihn zu sehen Zum Beispiel: Private Telefonnummer nicht bekannt ob fehlend, nicht zutreffend oder vorenthalten No information Semantik ANSI/X3/SPARC interim report von 1975: 14 verschiedene Nullwert Semantiken Fabian Panse Duplikaterkennung 79

86 Konfliktbeziehungen [LN06] 1 Gleichheit: Die Tupel sind in allen Attributwerten identisch. 2 Subsumption: Ein Tupel subsumiert ein anderes, wenn es weniger Nullwerte hat und in jedem Attribut mit einem Nicht-Nullwert den gleichen Wert wie das andere Tupel besitzt. 3 Komplementierung: ein Tupel komplementiert ein anderes, wenn keines der beiden das andere subsumiert und wenn es für jedes Attribut mit einem Nicht-Nullwert entweder den gleichen Wert wie das andere Tupel hat oder das andere Tupel an dieser Stelle einen Nullwert besitzt. 4 Widerspruch (contradiction): Bei Widerspruchen gibt es mindestens ein Attribut, in dem beide Tupel unterschiedliche Werte haben, die nicht NULL sind. Fabian Panse Duplikaterkennung 80

87 Konfliktbeziehungen Beispiele [LN06] Film ID titel regisseur jahr studio t 1 1 Alien Scott 1980 Fox t 2 1 Alien Scott 1980 Fox t 3 1 Alien Scott 1980 null t 4 1 Alien null 1980 null t 5 1 Alien Scott 1982 MGM t 6 1 Alien null 1980 MGM Welche Tupel sind gleich? (t 1 und t 2 ) Welches Tupel subsumiert welches andere Tupel? (t 3 und t 6 subsumieren beide t 4 ) Welche Tupel komplementieren einander? (t 3 und t 6 ) Welche Tupel widersprechen sich? (t 3 undt 5, t 1 und t 6, etc.) Fabian Panse Duplikaterkennung 81

88 Konfliktlösungsfunktion f (x, y) := null wenn x = null y = null x wenn y = null x null y wenn x = null y null g(x, y) }{{} interne Konfliktlösungsfkt. sonst Fabian Panse Duplikaterkennung 82

89 Interne Konfliktlösungsfunktionen [DN09] Function Description Examples Min, Max, Sum, Count, Avg Standard aggregation NumChildren, Salary, Height Random Random choice Shoe size Longest, Shortest Longest/shortest value First_name Choose(source) Value from a particular source DoB (DMV), CEO (SEC) ChooseDepending(val, col) Value depends on value chosen in other column Vote Majority decision Rating Coalesce First non-null value First_name Group, Concat Group or concatenate all values Book_reviews MostRecent Most recent (up-to-date) value Address MostAbstract, MostSpecific, CommonAncestor Use a taxonomy / ontology city & zip, & employer Location Escalate Export conflicting values gender Fabian Panse Duplikaterkennung 83

90 Interne Konfliktlösungsfunktionen [DN09] conflict resolution strategies conflict ignorance Escalate instance based Coalesce ChooseDepending Concat conflict avoidance metadata based Choose instance based conflict resolution metadata based deciding mediating deciding mediating MIN, MAX Random Vote AVG, SUM MostRecent MostAbstract MostSpecific CommonAncestor Fabian Panse Duplikaterkennung 84

91 Minimum Union Minimum Union [DN09] 40 A B C a b c e f g m n o A B D + a b = e f h m p A B C D a b c a b e f g e f h A B C D a b c e f g e f h m n o m n o m p m p Union: Eliminierung exakter Duplikate Minimum Union: Eliminierung subsumierter Tupel Weitere Relationale Operatoren: Full Disjunction: Minimum Union über Full-Outer Join mehrerer Quellpaare Complement Union: Outer-Union mit Komplementierung Fabian Panse Data Fusion VLDB 2009 Tutorial Duplikaterkennung Luna Dong & Felix Naumann 85

92 Weitere Aspekte Duplikaterkennung ICAR Eigenschaften binärer Konfliktlösungsfunktionen: Idempotenz (d.h. g(x, x) = x) Kommutativität (d.h. g(x, y) = g(y, x)) Assoziativität (d.h. g(z, g(x, y)) = g(x, g(y, z))) Repräsentativität (d.h. x z g(x, y) z) Lernende Verfahren zur Konfliktbehebung Erkennen von Kopiemustern zwischen Datenquellen Aufbau und Nutzen von Trust Mappings Fabian Panse Duplikaterkennung 86

93 Literatur I Duplikaterkennung [DHI12] [DN09] Anhai Doan, Alon Halevy, and Zachary Ives. Principles of Data Integration. Morgan Kaufmann, Luna Dong and Felix Naumann. Data Fusion. VLDB Tutorial, [dvkcc09] [EIV07] [HCML09] Timothy de Vries, Hui Ke, Sanjay Chawla, and Peter Christen. Robust record linkage blocking using suffix arrays. In CIKM, pages , Ahmed K. Elmagarmid, Panagiotis G. Ipeirotis, and Vassilios S. Verykios. Duplicate Record Detection: A Survey. IEEE Trans. Knowl. Data Eng., 19(1):1-16, Oktie Hassanzadeh, Fei Chiang, Renee J. Miller, and Hyun Chul Lee. Framework for evaluating clustering algorithms in duplicate detection. PVLDB,2(1): , Fabian Panse Duplikaterkennung 87

94 Literatur II Duplikaterkennung [HS95] [LN06] [MWGM10] [NH10] Mauricio A. Hernandez and Salvatore J. Stolfo. The Merge/Purge Problem for Large Databases. In SIGMOD Conference, pages , Ulf Leser and Felix Naumann. Informationsintegration. dpunkt.verlag, In German. David Menestrina, Steven Whang, and Hector Garcia-Molina. Evaluating entity resolution results. PVLDB, 3(1): , Felix Naumann and Melanie Herschel. An Introduction to Duplicate Detection. Synthesis Lectures on Data Management. Morgan & Claypool Publishers, Fabian Panse Duplikaterkennung 88

95 Literatur III Duplikaterkennung [Tal11] [WM89] John R. Talburt. Entity Resolution and Information Quality. Morgan Kaufman Publ. Inc., Y. Richard Wang and Stuart E. Madnick. The Inter-Database Instance Identification Problem in Integrating Autonomous Systems. In Proceedings of the 5th International Conference on Data Engineering (ICDE), pages 46-55, Fabian Panse Duplikaterkennung 89