Duplikaterkennung Felix Naumann

Transkript

1 Duplikaterkennung Felix Naumann

2 Quality 2 Even though quality cannot be defined, you know what it is. Robert Pirsig

3 Zoom in die Informationsqualität 3 1 Fitness for use 15 Accuracy, Objectivity, Believability, Reputation, Accessibility, Security, Relevance, Value-Added, Timeliness, Completeness, Amount of Data, Interpretability, Understandability, Consistency, Concise Representation Dimensions

4 Nachkommastellen 4

5 Deutsche Namen 5

6 Schwierige Namen 6

7 Falsche Duplikate 7

8 Unternehmensduplikate 8

9 Datenqualität: Probleme 9 Repräsentation Widersprüche Ref. Integrität KUNDE KNr Name Geb.datum Alter Geschlecht Telefon PLZ 1234 Kuhn, Mark m Anne Will f Eindeutigkeit 1235 Mark Kuhn m ADRESSE PLZ Ort Fehlende Werte Duplikate Schreibfehler Potsdam Postdam BRD Falsche Werte

10 Klassifikation von Datenfehlern 10 Datenfehler Einzelne Datenquelle Integrierte Datenquellen Schemaebene Datenebene Schemaebene Datenebene Unzulässiger Wert Attributabhängigkeit verletzt Eindeutigkeit verletzt Referentielle Integrität verletzt Fehlende Werte Schreibfehler Falsche Werte Falsche Referenz Kryptische Werte Eingebettete Werte Falsche Zuordnung Widersprüchliche Werte Transpositionen Duplikate Datenkonflikte Strukturelle Heterogenität Semantische Heterogenität Schematisch Heterogenität Widersprüchliche Werte Unterschiedliche Repräsentationen Unterschiedliche Einheiten Unterschiedliche Genauigkeit Unterschiedliche Aggregationsebenen Duplikate

11 DQ-Probleme: Auswirkungen 11 Fehlerhafte Warenpreise in Artikel-DB des US-Einzelhandels Kosten für Konsumenten 2.5 Mrd $ 80% der Barcode-Scan-Fehler zulasten der Konsumenten US-Finanzbehörde 1992: knapp Steuererstattungsbescheide unzustellbar 50-80% der Einträge im US- Vorstrafenregister ungenau, unvollständig oder fehlerhaft US-Post: von Massen- Postsendungen bis zu aufgrund von Adressfehlern unzustellbar

12 Hilfsmittel 12 Gesunder Menschenverstand Text-Editor Datenbanken und SQL ( Bordmittel ) Programmiersprachen Selbstentwickelte Tools Kommerzielle Tools Referenzdaten Orts- und PLZ-Verzeichnisse, Straßenverzeichnisse Namensverzeichnisse

13 Gesunder Menschenverstand 13

14 Standardisierung 14 Adressen Str. Straße, Ch. Chaussee, usw. R.-Breitscheid-Str. 72 a Rudolf-Breitscheid.-Str. 72A 128 Schreibweisen für Frankfurt am Main Frankfurt a.m., Frankfurt/M Frankfurt, Frankfurt a. Main, Namen Dr. Ing. h.c. F. Porsche AG Hewlett-Packard Development Company, L.P. Numerische Daten = 10T EURO = 10k EUR = ,00 = 10,000.- Telefonnummern Geburtsdaten

15 Strukturierung Personen 15 Anrede Titel Vorname Nachname Herr Prof. Dr. Peter Meier Anrede Titel Vorname Nachname Herr Prof. Dr. Peter Meier Anrede Titel Vorname Nachname Herr Prof. Dr. Peter und Marie Meier Anrede Titel Vorname Nachname Herr Prof. Dr. Peter Meier Frau Marie Meier

16 Strukturierung Straßen 16 Straße HNR Hauptstr. 7 Hauptstr. 7A Weg 17 Straße des 17. Juni 23

17 Versteckter Mehrwert 17 Quelle: Joachim Schmid, FUZZY! Informatik AG

18 Überblick 18 Das Problem der Duplikaterkennung Ähnlichkeitsmaße Edit Distance et al. Algorithmen Naiv Blocking Sorted-Neighborhood Methode Naive, Multipass Effizient Evaluierung

19 Wie entstehen Duplikate? 19 Original Zugestellt

20 Wie entstehen Duplikate? 20

21 21

22 Duplikaterkennung 22 Duplikaterkennung ist das Finden mehrerer Repräsentationen desselben Realweltobjekts. Problem 1: Repräsentationen sind nicht identisch. Fuzzy duplicates Lösung: Ähnlichkeitsmaße Wert- und Datensatzvergleiche Domänenunabhängig oder -abhängig Problem 2: Die Datenmenge ist groß. Quadratischer Aufwand: Jedes Paar muss verglichen werden. Lösung: Algorithmen Z.B. Vergleiche durch Partitionierung vermeiden

23 Duplikaterkennung 23 R 1 R 2 R 1 R 2 Ähnlichkeitsmaß Algorithmus Duplikate? Nicht- Duplikate

24 Wirkungen von Duplikaten 24 Mehrfache Zusendung von Katalogen Rechnungen werden doppelt bezahlt Banken Überschreiten des Kreditlimits wird nicht erkannt Lagerhaltung / Einkauf Zu niedriger Lagerbestand einzelner Waren wird ausgewiesen. Kein Ausnutzen von Mengenrabatten bei Bestellungen Gesamtumsatz eines Kunden bleibt unbekannt. Mehraufwand in der IT Sinkende Kundenzufriedenheit Potenziale und Gefahren nicht erkannt Inkorrekte Kennzahlen Kunde Umsatz BMW BaMoWe Bayerische Motorenwerke

25 Duplikaterkennung hat viele Duplikate 25 Household matching Dubletten Duplicate detection Mixed and split citation problem Match Object identification Record linkage Deduplication Entity resolution Identity uncertainty Hardening soft databases Object consolidation Fuzzy match Entity clustering Approximate match Reference reconciliation Merge/purge Householding Reference matching

26 Duplikaterkennung 26 Duplikaterkennung Identität Ähnlichkeitsmaß Algorithmus Evaluation Relational XML DWH Partitionierung Beziehungen Clustering / Lernen Precision/ Recall Effizienz Domänenunabhängig Domänenabhängig Filter Inkrementell / Suche Edit-basiert Token-basiert Regeln Datentypen Relationship-aware

27 Überblick 27 Das Problem der Duplikaterkennung Ähnlichkeitsmaße Edit Distance et al. Algorithmen Naiv Blocking Sorted-Neighborhood Methode Naive, Multipass Effizient Evaluierung

28 Overview Similarity Measures Jaccard 28 Damerau- Levenshtein Hamming Jaro-Winkler Levenshtein Jaro Words / n-grams Dice Smith- Waterman Edit-based Token-based Cosine Similarity Smith- Waterman-Gotoh Similarity Measures Monge-Elkan Dates Numerical attributes Domaindependent Rules Soundex Phonetic Kölner Phonetik Hybrid Metaphone Soft TF-IDF Double Metaphone

30 Levenshtein Distance 30 Minimum number of character insertions, deletions, and replacements necessary to transform s 1 into s 2 Computation based on dynamic programming 1. Initialize matrix M of size ( s 1 +1) x ( s 2 +1) 2. Fill matrix: M M i,0 i, j = i M M i 1, j 1 = 1+ min 0, j = j ( M, M, M ) i 1, j i, j 1 i 1, j 1 if s 1, i = s 2, j otherwise 3. Levenshtei ndist = M s1, s2 Levenshtein Similarity: sim Levenshtein = 1 LevenshteinDist max( s 1, s 2 )

31 M i,0 = i M 0, j = j Levenshtein Distance M i, j = M i 1, j 1 1+ min ( M, M, M ) i 1, j i, j 1 i 1, j 1 if s 1, i = s 2, j otherwise 31 J O N E S J O N E S J O N E S J 1 J J O 2 O 2 O H 3 H 3 H N 4 N 4 N S 5 S 5 S O 6 O 6 O N 7 N 7 N sim Levenshtein = 1 LevenshteinDist max( s 1, s 2 ) s 1 s 2 Levenshtein Distance sim Levenshtein Jones Johnson Paul Pual Paul Jones Jones, Paul 11 0

32 Damerau Levenshtein distance 32 Similar to Levenshtein distance, but considers additionally transposed characters M M i,0 i, j = = i M 1+ M i 1, j 1 0, j M M min M M = j i 1, j i, j 1,, i 1, j 1 i 2, j 2 if s 1, i = s 2, j 1 and s 1, i 1 = s 2, j if s 1, i = s 2, j otherwise s 1 s 2 Levenshtein Distance sim Levenshtein Jones Johnson Paul Pual Paul Jones Jones, Paul 11 0

33 Jaro 33 Search for common characters m: number of matching characters sim 1 m m = + jaro 3 s s m t m t : half the number of transpositions Search range matching characters: ( s, s ) max Example: s 1 P A U L s 1 J O N E S s 2 P U A L s 2 J O H N S O N m = 4 sim jaro 2 t = = = m = 4 sim jaro 0 t = = =

34 Jaro-Winkler 34 Extension of Jaro distance, considering a common prefix if sim jaro 0.7 : sim otherwise : sim jarowinkler jarowinkler = sim = sim jaro jaro + l p (1 sim jaro ) l : length of common prefix up to a maximum of 4 characters p : constant scaling factor for how much the score is adjusted upwards for having common prefixes (typically p=0.1) Example: s 1 sim = PAUL jaro l = 1 p = 0.1 sim = 0.92 jarowinkler s 2 = PUAL = ( ) = s 1 sim = JONES jaro l = 2 p = 0.1 sim = 0.79 jarowinkler s 2 = JOHNSON = ( ) =

36 Token-based Similarity Measures 36 Tokens ( Paul Jones ) Words / Terms ( Paul Jones ) n-grams ( _P, Pa, au, ul, l_, _J, Jo, on, ne, es, s_ ) Token similarity Jaccard coefficient sim Jaccard tokenize( s = tokenize( s 1 1 ) ) tokenize( s tokenize( s 2 2 ) ) Dice's coefficient 2 tokenize( s1) tokenize( s sim Dice = tokenize( s ) + tokenize( s ) ) s 1 s 2 Jaccard Dice Jones Johnson Paul Pual Paul Jones Jones, Paul

38 38 Soundex Soundex codes a last name based on the way a last name sounds 1. Retain first letter of the name and drop all other occurrences of A, E, H, I, O, U, W, Y 2. Replace consonants with digits 3. Two adjacent letters with the same number are coded as a single number 4. Continue until you have one letter and three numbers. If you run out of letters, fill in 0s until there are three numbers If a surname has a prefix, such as Van, Con, De, Di, La, or Le, code both with and without the prefix Digit Letters 1 B, F, P, V 2 C, G, J, K, Q, S, X, Z 3 D, T 4 L 5 M, N 6 R Example PAUL: PUAL: JONES: P400 P400 J520 JOHNSON: J525 Jenkins, Jansen, Jameson

39 39 Kölner Phonetik Like Soundex, but especially for German last names Letters get different codes based on the context Code length is not restricted Multiple occurrences of the same code and 0 are removed Example PAUL: 15 PUAL: 15 JONES: 68 JOHNSON:686 Letter Context Code A, E, I, J, O, U, Y 0 H - B P not before H D, T not before C, S, Z 2 F, V, W P G, K, Q C before H in the initial sound before A, H, K, L, O, Q, R, U, X before A, H, K, O, Q, U, X but not after S, Z X not after C, K, Q 48 L 5 M, N 6 R 7 S, Z C after S, Z D, T before C, S, Z X in the initial sound, but not before A, H, K, L, O, Q, R, U, X not before A, H, K, O, Q, U, X after C, K, Q

41 Monge-Elkan 41 Find best match for each token sim MongeElkan s1 s 1 2 = max sim' s j= 1 1 i= 1 ( s, s ) 1, i 2, j s = number of tokensin s sim' = in ternal similarity function ( e. g. Smith Waterman) Example: s 1 = Paul Jones s 2 = Jones, Paul = ( ) = Monge-Elkan is not symmetric: sim' = JaroWinkler sim MongeElkan 1 2 s 1 = aaa xaa yaa s 1 = aaa xaa yaa s 2 = aaa s 2 = aaa xxx yyy

43 Domain-dependent Similarity Measures 43 Data Types Special similarity for dates Special similarity for numerical attributes... Rules [Hernandez Stolfo 1998], [Lee et al. 2000] Given two records, r1 and r2. IF last name of r1 = last name of r2, AND first names differ slightly, AND address of r1 = address of r2 THEN r1 is equivalent to r2.

44 Classification 44 Pairwise classification 1. Use 1-n similarity functions to calculate attribute similarities 2. Aggregate attribute similarities to an overall similarity 3. Compare overall similarity with threshold Thresholds Attribute similarity thresholds Overall similarity thresholds Java Libraries Sim Metrics: Second String:

45 Überblick 45 Das Problem der Duplikaterkennung Ähnlichkeitsmaße Edit Distance et al. Algorithmen Naiv & Blocking Sorted-Neighborhood Methode Naive, Multipass Effizient Evaluierung

46 Naiver Algorithmus 46 Zwei geschachtelte Schleifen Java SQL SELECT C1.*, genid(c1,c2) FROM R as C1, R as C2 WHERE sim(c1,c2) > theta

47 Record Pairs as Matrix

48 Number of comparisons: All pairs comparisons

49 Reflexivity of Similarity comparisons

50 Symmetry of Similarity comparisons

51 Complexity 51 Still: Too many comparisons customers => comparisons (n ² n) / 2 Each comparison is expensive (complex similarity measures). Idea: Avoid comparisons by heuristics Filtering of records Partitionierung

52 Partitioning / Blocking 52 Partition the records (horizontally) and compare pairs of records only within a partition. Partitioning by first two zip-digits Ca. 100 partitions in Germany Ca. 100 customers per partition => comparisons Partition by first letter of surname Idea: Partition multiple times by different criteria. Source: wikipedia.de Then apply transitive closure on discovered duplicates.

53 Records sorted by ZIP comparisons

54 54

55 Blocking by ZIP comparisons

56 Blocking / Gruppierung / Partitionierung 56 Die Kunst: Geeignete Kriterien finden Gruppiere nach Stadt Gruppiere nach erstem Buchstaben des Nachnamen Gruppiere nach PLZ und Vorname Jede Gruppe sollte in den Hauptspeicher passen Gruppierungskriterium sollten möglichst fehlerfreie Attribute sein Praktisch: Sortierung mit SQL (nicht GROUP BY) Weiter: Mehrere Durchläufe mit unterschiedlichen Kriterien

58 Die Sorted Neighborhood Methode 58 Input: Tabelle mit N Tuplen Ähnlichkeitsmaß (basierend auf Edit distance) Output: Klassen (clusters) der äquivalenten Tupel (= Duplikate) Problem: Viele Tupel Vergleich eines jeden Tupelpaares zu aufwendig (Effizienz). Tabelle passt nicht in den Speicher (Skalierbarkeit).

59 Sorted Neighborhood 59 Idee Daten geschickt partitionieren. Nur innerhalb dieser Partitionen Duplikate suchen. Algorithmus nach [HS98] 1. Create Key: Schlüssel mittels relevanter Feldern erzeugen. Sequenz einer Teilmenge von Attributen oder der Teilketten innerhalb der Attribute. Effektivität des Algorithmus ist von Schlüsselauswahl abhängig. Schlüssel ist nur virtuell und nicht eindeutig. Wird nur für Sortierung benutzt. 2. Sort: Daten nach dem Schlüssel sortieren. 3. Merge: Fenster (der Größe w) über sortierte Tupel schieben. Nur Tupel innerhalb des Fensters miteinander vergleichen.

60 Sorted Neighborhood Methode [HS98] ID 17 Key MSKAD98 ID Title Year Genre Mask of Zorro 1998 Adventure 18 Addams Family 1991 Comedy 25 Rush Hour 1998 Comedy 31 Matrix 1999 Sci-Fi 52 Return of Dschafar 1994 Children 113 Adams Family 1991 Comedie 207 Return of Djaffar 1995 Children Create key DDMCO91 RSHCO98 MTRSC99 RTRCH94 DMSCO91 RTRCH95 2. Sort classify(18,113) duplicates classify(52,207) duplicates ID Key 18 DDMCO DMSCO91 17 MSKAD98 31 MTRSC99 25 RSHCO98 52 RTRCH RTRCH95 Merge 3. ID Key DDMCO91 DMSCO91 MSKAD98 MTRSC99 RSHCO98 RTRCH94 RTRCH95

61 SNM by ZIP (window size 4) comparisons

62 Sorted Neighborhood Aufwand 62 Aufwand N : Anzahl der Tupel, w: Fenstergröße (window) Theoretisch: O(N) + O(N logn) + O(w N) = O(N logn) bei w < logn; O(wN) sonst Praktisch: Drei Läufe über die Daten auf der Festplatte

63 Sorted Neighborhood Aufwand 63 Kommentare Wahl des Schlüssels Formulierung durch Experten Aufwändig Schwer vergleichbare Ergebnisse Für Effektivität entscheidend Wahl der Fenstergröße w = N : O(N²) max. accuracy & max. Zeit w= 2 : O(N) min. accuracy & min. Zeit Entscheidung ob ein Duplikat vorliegt, ist eine komplexe Berechnung (edit distance).

64 Sorted Neighborhood Multipass Verfahren 64 Problematische Schlüsselwahl Beispiel: Schlüssel beginnt mit ID r 1 : und r 2 : Problemlösung 1: Vergrößerung des Fensters: w N Problemlösung 2: Multipass Verfahren

65 Sorted Neighborhood Multipass Verfahren 65 Mehrmalige Durchführung von Sorted Neighborhood Methode mit verschiedenen Schlüsseln w relativ klein Transitive Hülle auf Ergebnissen jedes Durchgangs: Equivalent(a, b) && Equivalent (b, c) Equivalent (a, c) Dadurch werde neue Duplikate gefunden.

67 Precision & Recall 67 Data set False negatives True duplicates Precision = True positives Declared duplicates True positives False positives True negatives Declared duplicates Recall = True positives True duplicates F-Measure = 2 Precision Recall Precision + Recall

68 Arithmetisches Mittel ( Durchschnitt ) vs. Harmonisches Mittel ( F-Maß ) z = ½ (x + y) z = 2 (x y) / (x + y) 68

69 69 From Creating probabilistic databases from duplicated data Oktie Hassanzadeh Renée J. Miller (VLDBJ)

70 Duplikaterkennung Zielkonflikte 70 Precision Ähnlichkeitsschwellwert Recall Effizienz

71 Datenfusion 71 amazon.de H. Melville $3.98 ID max_length MIN CONCAT Herman Melville Moby Dick $5.99 bol.de