CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. Cathleen Ramson, Stefan Lehmann LSDD SS

Größe: px

Ab Seite anzeigen:

Download "CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04."

Ingrid Berg
vor 8 Jahren
Abrufe

1 CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks Cathleen Ramson, Stefan Lehmann LSDD SS

2 Gliederung 2 Motivation Ziel Algorithmen Zusammenfassung Bewertung

3 Motivation 3 Blocking verringert Komplexität Blocking Functions automatisch erstellen Weniger manueller Aufwand Für optimales Load Balancing

4 Einordnung 4 Trainingsphase Ausführungsphase Map-Schritt Reduce-Schritt CBLOCK Blocking Algorithmus Paarweise Duplikaterkennung Duplikate Trainingsdaten Datenset

5 Ziel 5 Ein Map-Reduce Durchlauf genügt Trotz ungleichmäßiger Datenverteilung einheitliche Blockgröße A B C D E F G H I J K L M

6 Ziel 6 Ein Map-Reduce Durchlauf genügt Trotz ungleichmäßiger Datenverteilung einheitliche Blockgröße Kein Element in mehreren Blöcken

7 Blocking Tree 7 The Rolling Stones; Bridges To Babylon; 13 Artist name NULL <A A-G G-R R-Z >Z

8 Blocking Tree 8 The Rolling Stones; Bridges To Babylon; 13 Artist name NULL <A A-G G-R R-Z >Z Disk title #Tracks A-H H-S S-Z < >12

9 Erlernen optimaler Bäume 9 Voraussetzung Mögliche Hashfunktionen gegeben Trainingsdaten gegeben Artist name NULL <A A-G G-R R-Z >Z Disk title A-H H-S S-Z #Tracks < >12

10 Erlernen optimaler Bäume 10 Wähle Hashfunktion mit wenigsten getrennten Duplikaten Schätze Größe aller Kindknoten Wiederholung für alle großen Kindknoten Disk title #Tracks Watazumi Doso; Music Of Japan; 21 Watazumi Doso; The Art Of Japanese ; 21 Jennifer Lopez; J. Lo; 15 Jennifer Lopez; J. Lo; 16 Artist name

11 Erlernen optimaler Bäume 11 Wähle Hashfunktion mit wenigsten getrennten Duplikaten Schätze Größe aller Kindknoten Wiederholung für alle großen Kindknoten Artist name NULL <A A-G G-R R-Z >Z

12 Erlernen optimaler Bäume 12 Wähle Hashfunktion mit wenigsten getrennten Duplikaten Schätze Größe aller Kindknoten Wiederholung für alle großen Kindknoten Artist name NULL <A A-G G-R R-Z >Z

13 Erlernen optimaler Bäume 13 Wähle Hashfunktion mit wenigsten getrennten Duplikaten Schätze Größe aller Kindknoten Wiederholung für alle großen Kindknoten Artist name Maximale Größe: 100 NULL <A A-G G-R R-Z >Z

14 Rollup 14 Problem: es können viele kleine Blöcke entstehen Unnötig viele Duplikate getrennt Zusammenführen von Knoten kann Duplikate wieder zusammenbringen Artist name Disk title #Tracks

15 Rollup 15 Voraussetzung Kompletter Baum vorhanden Geschätzte Größe aller Blattknoten bekannt Artist name Disk title #Tracks Rolled up Rolled up

16 Rollup 16 Große Blöcke ignorieren Suche Blöcke zum Zusammenführen Maximale Größe: 5

17 Rollup 17 Große Blöcke ignorieren Suche Blöcke zum Zusammenführen Maximale Größe: 5

18 Rollup 18 Große Blöcke ignorieren Suche Blöcke zum Zusammenführen

19 Rollup 19 Große Blöcke ignorieren Suche Blöcke zum Zusammenführen

20 Rollup 20 Große Blöcke ignorieren Suche Blöcke zum Zusammenführen

21 Rollup 21 Große Blöcke ignorieren Suche Blöcke zum Zusammenführen

22 Rollup 22 Große Blöcke ignorieren Suche Blöcke zum Zusammenführen

23 Rollup 23 Große Blöcke ignorieren Suche Blöcke zum Zusammenführen Maximale Größe: 5

24 Rollup - Ergebnis 24 Artist name Disk title #Tracks Rolled up Rolled up

25 Drill-Down 25 Woher kommen die Hashfunktionen? Manuell überlegen Automatisch generieren Drill-Down Algorithmus generiert Hashfunktion basierend auf einem Attribut der Eingabedaten

26 Drill-Down 26 Attribut in Intervalle aufteilen Unterliegt Ordnungsrelation Wertebereich bekannt z.b. Jahreszahlen zwischen 1970 und Kostengrenze: 10 Jahre pro Intervall

27 Drill-Down 27 Möglichst keine Duplikate trennen Intervalle enden an einem Duplikat oder an Kostengrenze Errechne optimale Unterteilung durch rekursiven Ansatz Kostengrenze: 10 Jahre pro Intervall

28 Zusammenfassung 28 Blocking-Algorithmus zur Nutzung in parallelen Umgebungen Artist name Repräsentation der Hash- Funktion als Baumstruktur NULL <A A- G A- H Disk title H- S S-Z G- R R-Z >Z #Tracks < 4-11 >1 3 2 Artist name Vermeidung kleiner Blöcke durch Rollup Disk title #Tracks Rolled up Rolled up Automatisches Generieren von Hash-Funktionen Disk title #Tracks Artist name

29 Offene Probleme und Erweiterungen 29 Erfolg hängt von Qualität der Trainingsdaten ab Repräsentative Verteilung und Größe Möglichst alle Duplikatarten vorhanden, wie z.b. Schreibfehler komplett unterschiedliche Felder Watazumi Doso; Music Of Japan ; 21 Watazumi Doso; The Art Of Japanese Bamboo Flute ; 21

30 Offene Probleme und Erweiterungen 30 Erlernen optimaler Bäume: Größenschätzung der Knoten nicht trivial Drill-Down: Ordnungsrelation nicht immer trivial Hohe Komplexität durch viele konfigurierbare Parameter Maximale Knotengröße für Erstellung des Baumes Maximale Knotengröße für Rollup Kostengrenze für Drill Down Wahl der Hashfunktionen (wenn ohne Drill Down) Statt komplexer Optimierung des Baumes wäre auch Kombination mit Multi-pass Sorted Neighborhood Blocking -Paper denkbar

31 Referenzen 31 Sarma, Anish Das, et al. "CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks." arxiv preprint arxiv: (2011). Beispiele von

32 32 Cathleen Ramson, Stefan Lehmann

33 Übersichtsfolie zu Paper 33 Detaillierte Algorithmenbeschreibungen Baumgenerierung: Kapitel 4.4 Greedy Algorithm, Seite 7f. Rollup: Kapitel 5 Rolling up small canopies, Seite 8f. Drill-Down: Kapitel 6 Drill-Down Problem, Seite 9ff. Spezialfälle des Baumes Vorstellung: Kapitel Restricted languages, Seite 7 Vergleich der Baumarten: Kapitel 8, Seite 12 ff.

34 Umfang der Trainingsdaten 34 Beispiel im Paper Gesamtdatensatz: Tupel Trainingsdaten: 1054 Paare, also 2108 Tupel (ca. 1,5%) Unser Datensatz Gesamtdatensatz: Tupel Geeignete Trainingsdatengröße: ca Paare

35 Ausführliches Drill-Down Beispiel 35 Möglichst keine Duplikate auseinander reißen Blöcke enden nach einem Duplikat oder an Kostengrenze Bsp. Mit Wertebereich , maximale Kosten 10:

36 Rollup - Auslastung 36 Maximum der Rechenzeit durch größten Block gegeben: Node 1 Node 2 10k x 10k 2k x 2k 2k x 2k

37 Rollup - Auslastung 37 Maximum der Rechenzeit durch größten Block gegeben: Node 1 Node 2 10k x 10k 4k x 4k Zusammenführung erhöht Recall

Ähnliche Dokumente

COPPPS Software und Services seit 1972 Software und Services aus einer Hand

COPPPS Software und Services seit 1972 Software und Services aus einer Hand Voraussetzung Sie benutzen die Programmerweiterung UST-Voranmeldung und tragen in den Konten die zugehörigen Zeilennummern (KZ) laut UST-Voranmeldungsformular ein. Dazu gehört dann die Bearbeitung der