Informationsintegration II Data Cleansing 2 Duplikaterkennung

Transkript

1 Informationsintegration II Data Cleansing Duplikaterkennung Felix Naumann Überblick Motivation und Data Cleansing Prozess Datenfehler Edit Distance als Ähnlichkeitsmaß Sorted-Neighborhood Methode zur Duplikaterkennung Naive Multipass Domänen-unabhängig Effizient

2 Wdh.: Information Quality (IQ) IQ := {Understandability, Reputation, Reliability, Timeliness, Availability, Price, Consistency, Coverage, Response time, Density, Completeness, Amount, Accuracy, Relevancy,... } Wdh.: Merge IQ in many Dimensions IQ Merge Functions Availability: A B Price: A + B Response Time: max[a, B] Coverage: Sylvester (89.5,0,,,99.8,8.8,76.06,) merge (94.05,0,,,99.85,48,54.86,0) S (95,0,0.7,,99.95,60,8,) merge S (95,0,0.7,,99.95,60,48.,0) S (99,0,,0.,99.9,80,5.8,0) 4

3 Wdh.: Quality-Extended Bucket Algorithm Bucket : Lehrt(prof, kurs_id, sem) V (7) V4 () Bucket : Eingeschrieben(stud, kurs_id, sem) V (8) V (5) Bucket : Kurs(kurs_id, titel) V (8) V4 (0) Kombinationen V, V, V V4, V, V4 V, V, V4 V, V, V V, V, V4 V4, V, V V4, V, V4 V4, V, V Ø V,V Ø V,V4 V,V Ø Ø V,V4 K = Ø V (9) V4 (4) V (7) V (8) V (5) V,V,V x V4 (7) V,V,V4 V (6) V,V,V IQ-upper bound x upper bound = IQ V4 (7) V,V,V4 5 Überblick Motivation und Data Cleansing Prozess Datenfehler Edit Distance als Ähnlichkeitsmaß Sorted-Neighborhood Methode zur Duplikaterkennung Naive Multipass Domänen-unabhängig Effizient 6

4 Folien: Dank Teilnehmer des Seminars Data Cleansing im WS0/04 Heiko Sharff und Anne Wegerich für Edit Distance als Ähnlichkeitsmaß Evgeniya Ershova, Marko Pilop und Jens Kleine für Sorted-Neighborhood Methode zur Duplikaterekennung 7 Data Cleansing Reinigt verschmutze Daten Datenqualität Datenfehler Verschmutzung Bei Dateneingabe Bei Daten-transformation / -aggregation / - darstellung Bei Informationsintegration selbst wenn integrierte Quellen sauber sind 8

5 Data Cleansing Operationen Ziel: Verbesserung der Datenqualität Ergänzung fehlender Werte Korrektur durch Lookup, Neuberechnen, Runden,... Erkennen und Löschen unrettbarer Daten Optimum kaum erreichbar: 80/0 Regel DQ muss gemessen werden DQ Metriken notwendig Verbesserung quantifizierbar Data Cleansing Immer ein domänenabhängiger Prozess Produkte gibt es nur für Adressdaten Quelle: Prof. Ulf Leser (VL Data Warehouses) 9 Nachvollziehbarkeit Änderungen durch DC müssen nachvollziehbar sein Auch das Fehlen von Daten Unprotokolliertes, nicht nachvollziehbares DC Ad-Hoc DC führt aus Sicht der Anwender zu fehlenden und falschen Daten, nicht zu besseren Daten Daten im DWH müssen erklärbar sein Da fehlt ein Produkt im Report Analysewerkzeug fehlerhaft? Report falsch? Data Mart Definition falsch? Basisdatenbank unvollständig? ETL Prozeduren fehlerhaft? Übertragungsfehler?... Siehe auch VL nächste Woche: Data Lineage Quelle: Prof. Ulf Leser (VL Data Warehouses) 0

6 ... Data Cleansing In integrierten Systemen: Wo und wann? Föderierte Systeme Online Cleansing (schwierig da teuer) Beim Mediator Data Warehouses Offline (Loading) Eventl. auch bei den Quellen selbst (z.b. Dateneingabe) Data Cleansing Schritte Daten quellen Data Extraction Data Transformation Data Loading Data Warehouse Data scrubbing Lookup tables Data cleansing Similarity Functions Object Fusion ETL: Extract, Transform, Load

7 Operational sources Extraction, Transformation, Loading Extraction Integration Aggregation Data warehouse Schema extraction and translation Schema matching and integration Schema implementation 4 5 Data staging area Data warehouse Instance extraction and transformation Instance matching and integration Filtering, aggregation Scheduling, logging, monitoring, recovery, backup Legends: Metadata flow Instance characteristics (real metadata) Translation rules Data flow 4 Mappings between source and target schema Filtering and aggregation rules 5 Quelle: Folien Prof. Erhard Rahm Beispiel Data Cleansing Web Service A Web Service B <pub> <Title> MAC: Merging Autonomous Content </Titel> <First> Felix </First> <Last> Naumann </Last> <Year> 00 </Year> </pub> <pub> <Title> MAC: Merging Autonomus Content </Titel> <First> Dr. Felix</First> <Last> Naumann </Last> <Year> 00 </Year> </pub> Title First Last Year MAC: Merging Autonomous Content Felix Naumann 00 Merging Autonomus Content Dr. Felix Naumann 00 4

8 Überblick Motivation und Data Cleansing Prozess Datenfehler Edit Distance als Ähnlichkeitsmaß Sorted-Neighborhood Methode zur Duplikaterkennung Naive Multipass Domänen-unabhängig Effizient 5 Fehler in einer Datenquelle auf Schema-Ebene Scope/Problem Dirty Data Reasons/Remarks Attribute Illegal values bdate=0..70 values outside of domain range Record Violated attribute dependencies age=, bdate=.0.70 age = (current date birth date) should hold Record type Uniqueness violation emp =(name= John Smith, SSN= 456 ) emp =(name= Peter Miller, SSN= 456 ) uniqueness for SSN (social security number) violated Source Referential integrity violation emp=(name= John Smith, deptno=7) referenced department (7) not defined Quelle: [RD0] 6

9 Fehler in einer Datenquelle auf Daten-Ebene Scope/Problem Attribute Missing values Dirty Data phone= Reasons/Remarks unavailable values during data entry (dummy values or null) Misspellings city= Liipzig usually typos, phonetic errors Cryptic values, Abbreviations Embedded values Misfielded values experience= B ; occupation= DB Prog. name= J. Smith.0.70 New York city= Germany multiple values entered in one attribute (e.g. in a free-form field) Quelle: [RD0] 7 Fehler in einer Datenquelle auf Daten-Ebene Record Record type Source Violated Attribute dependencies Word transpositions Duplicated records Contradicting records Wrong references city= Redmond, zip=77777 name = J. Smith, name = Miller P. emp =(name= John Smith,...); emp =(name= J. Smith,...) emp =(name= John Smith,bdate=.0.70); emp =(name= John Smith, bdate=..70) emp=(name= John Smith, deptno=7) city and zip code should correspond usually in a free-form field same employee represented twice due to some data entry errors the same real world entity is described by different values referenced department (7) is defined but wrong Quelle: [RD0] 8

10 Fehler bei der Integration mehrerer Datenquellen CID Name Street City Se Cno x LastName FirstName Gender Address Phone/Fax 4 Kristen Smith Christian Smith Hurley Pl Hurley St South Fork, MN 4850 S Fork MN Smith Smith Christoph Kris L. M F Harley St, Chicago IL, Hurley Place, South Fork MN, / No LName FName Gender Street City State ZIP Phone Fax CID Cno Smith Kristen L. F Hurley Place South Fork MN Smith Christian M Hurley Place South Fork MN Smith Christoph M Harley Street Chicago IL Überblick Motivation und Data Cleansing Prozess Datenfehler Edit Distance als Ähnlichkeitsmaß Sorted-Neighborhood Methode zur Duplikaterkennung Naive Multipass Domänen-unabhängig Effizient 0

11 Edit Distance - Grundlagen Maß zur Ermittlung des Abstandes zweier Zeichenketten Literatur: z.b.: [Kuk9] Abstand := Anzahl an Operationen zur Überführung einer Zeichenkette S in eine Zeichenkette S durch Einfügung (Insert) Löschung (Delete) Ersetzung (Replace) Übereinstimmung (Match) Edit Distance Grundlagen Edit distance ist minimaler Abstand Fragen Wie groß ist der Abstand? Welches Transkript(e) entspricht diesem Abstand? Nicht wichtig bei Datenreinigung Kosten pro Operation festlegen Meist jeweils Kosten (Insert, Update, Delete) bzw. 0 (Match) Ggf. andere Kosten Insert, Delete, Update Auch: Abhängig von Buchstaben Typewriter distance Biologie

12 Edit Distance Beispiel Beispiel HASE RASEN triviale Umformung durch Einfügung und Löschung mittels Leerzeichen # am Anfang und Ende HASE##### ####RASEN Transkript: DDDDIIIII Kosten 9 Nicht minimal! Edit Distance Beispiel Beispiel HASE RASEN H R durch Ersetzung (R) A A durch Übereinstimmung (M) S S durch Übereinstimmung (M) E E durch Übereinstimmung (M) N durch Einfügung (I) Transkript: RMMMI EditDistance(HASE,RASEN) = Minimal! Woher weiß man das? 4

13 Edit Distance Berechnung Dynamische Programmierung Sei D(i,j) die edit-distance der Strings S und S Falls S = m und S = n ist D(m,n) die (minimale) edit-distance Berechne D(m,n) durch Berechnung von minimalen Teillösungen für alle Kombinationen i [0,m] und j [0,n] Prinzip der Optimalität: Bestes (minimales) Transkript zweier Teilstrings ist auch Teil des besten Gesamt-Transkripts. 5 Edit Distance Berechnung Rekursionsgleichungen D(i, 0) = i D(0, j) = j D(i, j) = min { D(i-, j) +, D(i, j-) +, D(i-, j-) + d(i, j)} wobei d(i, j) = 0 bei Gleichheit, sonst 6

14 Edit Distance Berechnung Edit-Distance-Matrix D(i, 0) = i R A S E N H 4 5 A 4 S E 4 4 D(0, j) = j D(i, j) = min { D(i-, j) +, D(i, j-) +, D(i-, j-) + d(i, j)} wobei d(i, j) = 0 bei Gleichheit, d(i, j) = sonst 7 Edit Distance Berechnung Transkript durch Traceback rückwärts zum kleinstmöglichen Wert nach H A S E links = DELETE 0 4 oben = INSERT R 4 diagonal = MATCH A oder REPLACE S E 4 4 N

15 Edit Distance Komplexität Komplexität: O(m x n) wobei m: Länge von S n: Länge von S Aufbau Matrix: m x n Traceback: m + n Effizient für Daten Attributwerte Tupel Andere Methoden für Texte 9 Überblick Motivation und Data Cleansing Prozess Datenfehler Edit Distance als Ähnlichkeitsmaß Sorted-Neighborhood Methode zur Duplikaterkennung Naive Multipass Domänen-unabhängig Effizient 0

16 Die Sorted Neighborhood Methode Input: Tabelle mit N Tuplen Ähnlichkeitsmaß (basierend auf Edit distance) Output: Klassen (clusters) der äquivalenten Tupel (= Duplikate) Problem: Viele Tupel Vergleich eines jeden Tupelpaares zu aufwendig. Tabelle passt nicht in den Speicher. Sorted Neighborhood Idee Daten geschickt partitionieren. Nur innerhalb dieser Partitionen Duplikate suchen. Algorithmus nach [HS98]. Create Key: Schlüssel mittels relevanter Feldern erzeugen.. Sort: Daten nach dem Schlüssel sortieren.. Merge: Fenster (der Größe w) über sortierte Tupel schieben. Nur Tupel innerhalb des Fensters miteinander vergleichen.

17 Sorted Neighborhood Schlüsselerzeugung Schlüssel: eine Sequenz einer Teilmenge von Attributen oder der Teilketten innerhalb der Attributen Effektivität des Algorithmus ist von Schlüsselauswahl abhängig. Schlüssel ist nur virtuell und nicht eindeutig. Wird nur für Sortierung benutzt. Sorted Neighborhood Schlüsselerzeugung. Create Key Vorname Nachname Adresse ID Schlüssel Sal Stolpho First St STOSALFRST456 Mauricio Hernandez Second Ave 456 HERMAUSCND Felix Naumann Hauptstr NAUFELHPTSTR987 Sal Stolfo First Street STOSALFRST456 4

18 Sorted Neighborhood Sortierung Sortierung lexikographisch nach Schlüssel Ziel: Äquivalente Tupel versammeln sich in unmittelbarer Nähe Verschiedene Methoden der Sortierung (Quicksort, AlphaSort, usw.) Insbesondere: Effiziente Sortiermethoden auf sekundärem Speicher 5 Sorted Neighborhood Sortierung. Sort Vorname Nachname Adresse ID Schlüssel Mauricio Hernandez Second Ave 456 HERMAUSCND Felix Naumann Hauptstr NAUFELHPTSTR987 Sal Stolpho First St STOSALFRST456 Sal Stolfo First Street STOSALFRST456 6

19 Sorted Neighborhood Merge Ein Fenster von festgelegter Größe w wird durch die Liste zeilenweise geschoben w N Aktuelles Fenster von Tupel w w Nächstes Fenster von Tupel 7 Sorted Neighborhood Merge. Merge Vorname Nachname Adresse ID Schlüssel Mauricio Hernandez Second Ave 456 HERMAUSCND Felix Naumann Hauptstr NAUFELHPTSTR987 Sal Stolpho First St STOSALFRST456 Sal Stolfo First Street STOSALFRST456 8

20 Sorted Neighborhood Merge Vergleichen der Tupel ist ein komplexer Prozess - Michael Smith ( First St)?= Michele Smith ( First St) - Sal Stolfo ( Forest St)?= Sall Stolpho ( Forest St) Nicht eindeutig Equational theory 9 Sorted Neighborhood Merge Equational theory (Gleichungstheorie) diktiert die Logik der Domänenäquivalenz oder Kettenäquivalenz. benutzt die deklarative regel-basierte Sprache. benutzt vordefiniertes Ähnlichkeitsmaß (Abstandsfunktion) mit vordefinierten Grenzwert. Edit distance Phonetic distance Typewriter distance 40

21 Sorted Neighborhood Merge Given two records, r and r IF last_name(r ) = last_name(r ) AND edit_distance(first_name(r ), firstname(r )) < 5, AND address(r ) = address(r ) THEN r is equivalent to r Given two records, r and r IF ( ID(r ) = ID(r ) OR last_name(r ) = last_name(r ) ) AND address(r ) = address(r ) AND city(r ) = city(r ) AND (state(r ) = state(r ) OR zip(r ) = zip(r ) ) THEN r is equivalent to r 4 Sorted Neighborhood Aufwand Aufwand N : Anzahl der Tupel, w: Fenstergröße (window) Theoretisch: O(N) + O(N logn) + O(w N) = O(N logn) (bei w < logn; O(wN) sonst) Praktisch: Drei Läufe über die Daten auf der Festplatte Kommentare Wahl des Schlüssels ist entscheidend Wahl der Fenstergröße w = N : O(N²) max. accuracy & max. Zeit w= : O(N) min. accuracy & min. Zeit Parallelisierung durch Clustering Entscheidung ob ein Duplikat vorliegt, ist eine komplexe Berechnung (edit distance). Erweiterung zum inkrementellen Algorithmus 4

22 Überblick Motivation und Data Cleansing Prozess Datenfehler Edit Distance als Ähnlichkeitsmaß Sorted-Neighborhood Methode zur Duplikaterkennung Naive Multipass Domänen-unabhängig Effizient 4 Sorted Neighborhood Multipass Verfahren Problematische Schlüsselwahl Beispiel: Schlüssel beginnt mit ID r : und r : Problemlösung : Vergrößerung des Fensters: w N Problemlösung : Multipass Verfahren 44

23 Sorted Neighborhood Multipass Verfahren Mehrmalige Durchführung von Sorted Neighborhood Methode mit verschiedenen Schlüsseln w relativ klein Transitive Hülle auf Ergebnissen jedes Durchgangs: Equivalent(a, b) && Equivalent (b, c) Equivalent (a, c) 45 Sorted Neighborhood Multipass Verfahren Die transitive Hülle kann auch bei single-pass angewandt werden. Equivalent(a, b) a,b w Equivalent(b, c) b,c w w (a w & c w) w kann relativ klein sein! Equivalent(a, c), aber Anwendung der transitiven Hülle erlaubt die Größe von w zu reduzieren. 46

24 Sorted Neighborhood - Diskussion Domänenabhängige Regeln Formulierung durch Experten Aufwändig Schwer vergleichbare Ergebnisse Hoher Vergleichsaufwand innerhalb des Fensters Unnötig, falls kein Treffer Bei großen Clustern reicht Fenstergröße eventl. nicht. 47 Überblick Motivation und Data Cleansing Prozess Datenfehler Edit Distance als Ähnlichkeitsmaß Sorted-Neighborhood Methode zur Duplikaterkennung Naive Multipass Domänen-unabhängig Effizient 48

25 Sorted Neighborhood Domänenunabhängigkeit [ME97] Zwei Durchläufe nach lexikographischer Sortierung Tupel als String interpretieren Schlüssel im ersten Durchlauf: Tupel selbst Schlüssel im zweiten Durchlauf: Tupel rückwärts Dies entspricht einer speziellen Wahl des Schlüssels in Phase. Andere Schüssel denkbar Ergebnisse nur durch erfolgreiche Messung 49 Sorted Neighborhood Effizienz [ME97] Kernidee Wähle aus jedem Cluster einen Hauptvertreter (primerepresentative). Weitere Vergleiche zunächst nur mit Hauptvertreter. Bei Unsicherheit auch Vergleich mit Nebenvertretern Strategie zur Wahl der Hauptvertreter: Random Sample N-Latest Generalisierung: Kombination/Integration mehrerer Tupel Syntaktisch: Vollstes Tupel Utility: Tupel, das am häufigsten passt Qualität: Bestes Tupel Kann auch zugleich Purge-Strategie sein. Wahl welche Daten bzw. welches der Duplikate erhalten bleibt. 50

26 Sorted Neighborhood Effizienz Gruppierung in Cluster verringert Anzahl der nötigen Vergleiche mittels Equational Theory. Darstellung der Tupel als Knoten im Graphen. ist-duplikat-von Beziehungen entsprechen Kanten. Jede Zusammenhangskomponente wird durch ein Set und ein repräsentatives Objekt des Teilgraphen vertreten. 5 Sorted Neighborhood Effizienz Einsparungen durch Transitivität der Relation ist-duplikat-von Für neues Tupel: Nur ein Vergleich pro Zusammenhangskomponente. Neue Kante fügt gegebenenfalls ganze Cluster zusammen. Fenster enthält immer nur Hauptvertreter, jedoch verknüpft mit allen Nebenvertretern. 5

27 Sorted Neighborhood Effizienz Weitere Verbesserung: Organisation von Clustern in Priority Queue. Sortiert nach Reihenfolge des Einfügens. Wird ein neuer Repräsentant in einen Priority Queue aufgenommen, kommt dieser an die Spitze des Queues, da nachfolgende Elemente diesem ähnlicher sind, als den älteren 5 Rückblick Motivation und Data Cleansing Prozess Datenfehler 54

28 Rückblick Edit Distance als Ähnlichkeitsmaß Sorted-Neighborhood Methode zur Duplikaterkennung Naive Multipass Domänen-unabhängig Effizient 55 Literatur [RD00] Data Cleaning: Problems and Current Approaches, E. Rahm and H.H. Do, IEEE Bulletin (4), 000. [Kuk9] Technique for automatically correcting words in text, ACM Computing Survey 4(4), 99, Karen Kukich [HS98] M. Hernandez and S. Stolfo Real-world data is dirty: Data cleansing and the merge/purge problem. Data Mining and Knowledge Discovery, (): 9-7. [ME97] Alvaro E. Monge, Charles Elkan: An Efficient Domain- Independent Algorithm for Detecting Approximately Duplicate Database Records. In Proceedings of the Workshop on Research Issues on Data Mining and Knowledge Discovery (DMKD'97) 56