Datenintegration für Big Data. Prof. Dr. Erhard Rahm.

Größe: px

Ab Seite anzeigen:

Download "Datenintegration für Big Data. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de"

Kora Vogt
vor 8 Jahren
Abrufe

1 Datenintegration für Big Data Prof. Dr. Erhard Rahm 1

2 2 Massives Wachstum an Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten weltweit wurden in den 2 letzten Jahren erzeugt.

3 3 Datenproduzenten: Soziale Netze, Smartphones, Sensoren 12+ TBs of tweet data every day 30 billion RFID tags today (1.3B in 2005) 4.6 billion camera phones world wide? TBs of data every day 100s of millions of GPS enabled devices sold annually 25+ TBs of log data every day 76 million smart meters in M by billion people on the Web by end 2011

TBs of data every day 100s of millions of GPS enabled devices sold annually 25+ TBs of

4 Big Data Challenges Volume Variety Velocity: Veracity: Skalierbarkeit von Terabytes nach Petabytes (1K TBs) bis Zettabytes (1 Milliarde TBs) variierende Komplexität: strukturiert, teilstrukturiert, Text / Bild / Video Near-Realtime, Streaming Vertrauenswürdigkeit Value Erzielen des (wirtschaftl.) Nutzens durch Analysen 4

Komplexität: strukturiert, teilstrukturiert, Text / Bild / Video Near-Realtime,

5 5 Potentiale für Big Data-Technologien Daten sind Produktionsfaktor ähnlich Betriebsmitteln und Beschäftigten Essentiell für viele Branchen und Wissenschaftsbereiche Valide Grundlage für zahlreiche Entscheidungsprozesse Vorhersage/Bewertung/Kausalität von Ereignissen Kurzfristige Analysen von Realdaten im Geschäftsleben Beispiele Nutzungsanalyse auf Web-Sites Empfehlungsdienste (Live Recommendations) Analyse/Optimierung von Werbe-Massnahmen

Vorhersage/Bewertung/Kausalität von Ereignissen Kurzfristige Analysen von Realdaten im Geschäftsleben

6 Neuartige Anwendungen für Big Data Analytics 6

7 7 Big Data Analysis Pipeline Source: Agrawal et al: Big Data: Challenges and Opportunities, 2011

8 8 Big Data Architekturalternativen Data Warehouse Appliances Column Store, In-Memory-Optimierungen parallele DB-Vearbeitung mit vielen Knoten/Cores, Spezial-Hardware, z.b. FPGA (Netezza) und GPUs Massiv skalierbare Cloud-Architekturen Nutzung von NoSQL Data Stores Frameworks zur automatischen Parallelisierung datenintensiver Aufgaben (MapReduce / Hadoop) Kombinationen: DWH + Cloud/Hadoop

itung mit vielen Knoten/Cores, Spezial-Hardware, z.b.

9 9 Analyse-Pipeline Datenvorverarbeitung und Datenintegration S. Chaudhuri et al, CACM, Aug Unterstützung von Stream-Daten und Cloud-Infrastrukturen (Hadoop)

10 10 Gliederung Einführung Big Data Trends / Herausforderungen / Einsatz / Architektur Integration von Webdaten Matching von Produktangeboten Lösungsansatz Map-Reduce-basierte Datenintegration DeDoop Tool Lastbalancierung (BlockSplit) Ausblick

von Produktangeboten Lösungsansatz Map-Reduce-basierte

11 11 Forschungsarbeiten Web Data Integration Lab (WDI-Lab) Cloud Data Management / Big Data skalierbares Daten-Management / Last-Balancierung mit Hadoop Machine Learning auf Hadoop DeDoop: Deduplication based on Hadoop Business Analytics mit NoSQL/Graph-Daten Zwei Startups in 2012 Web Data Solutions GmbH, Data Virtuality GmbH

Learning auf Hadoop DeDoop: Deduplication based on Hadoop Business Analytics mit

12 12 Integration von Webdaten, z.b. Produktangebote Identifikation semantisch äquivalenter Objekte (Objekt-Matching) Fusion oder Datenvergleich / Analyse Herausforderungen: Schlechte Datenqualität Heterogene Repräsentationen Fehlerhafte Angaben Große Datenmengen Verarbeitung in Echtzeit

13 13 Big Data Integration Problem: Matching von Produktangeboten zahlreiche Quellen (Tausende von Shops/Händlern) zahlreiche Produkte und Produktangebote ständige Aktualisierung viele ähnliche, jedoch unterschiedliche Produkte heterogene, shop-spezifische Produktkategorisierungen geringe Datenqualität (wenige Attribute pro Angebot, teilstrukturiert) Produkt-Ids (EAN, UPC, GTIN) oft nicht verfügbar bzw fehlerhaft

unterschiedliche Produkte heterogene, shop-spezifische Produktkategorisierungen geringe Datenqualität

14 Produkttitel sind sehr heterogen number of product offers KODAK charger for rechargeable batteries K8500-C+1 KLIC8000 (Serie Z) for Z1012 IS, Z1015 IS, Z1085 IS, Z612, Z712 IS, Z812 IS, Z8612 IS string length 14

000 800 600 400 KODAK charger for rechargeable batteries K8500-C+1 KLIC8000 (Serie

15 Standard String-Matcher scheitern % match correspondences 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 60% haben similarity <= 0.5 Flat TV sets Digital Cameras Publications (DBLP-Scholar) 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 TFIDF title similarity 60% haben similarity > 0.9 Domänen-spezifische Integrations/Match- Strategien erforderlich 15

5 Flat TV sets Digital Cameras Publications (DBLP-Scholar) 0 0,1 0,2 0,3 0,4 0,5 0,6

16 16 Lösungsansatz Input: aktuelle Produktangebote; existierender Produktkatalog (mit zugeordneten Angeboten) Vorverarbeitung / Data Cleaning: Extraktion / Konsolidierung Herstellerangaben Extraktion Produkt-Codes

Angeboten) Vorverarbeitung / Data Cleaning:

17 17 Extraktion von Produkt-Codes Hahnel HL-XF51 7.2V 680mAh for Sony NP-FF51 7.2V 680mAh Features Hahnel HL-XF51 for Sony NP-FF51 Tokens Hahnel HL-XF51 Sony NP-FF51 Filtered Tokens HL-XF51 NP-FF51 Candidates Web Verification [A-Z]{2}\-[A-Z]{2}[0-9]{2}

18 18 Lösungsansatz Input: aktuelle Produktangebote; existierender Produktkatalog (mit zugeordneten Angeboten) Vorverarbeitung / Data Cleaning: Extraktion / Konsolidierung Herstellerangaben Extraktion Produkt-Codes Kategorisierung von Angeboten Nutzung bereits zugeordneter Angebote als Trainingsdaten Matching aller Angebote pro Kategorie Vor-Partitioning pro Hersteller Nutzung mehrerer Matcher auf verschiedenen Attributen sowie Kombination über lernbasierte Verfahren (zb SVM) pro Produktkategorie eigene Match-Strategie

zugeordneter Angebote als Trainingsdaten Matching aller Angebote pro Kategorie Vor-Partitioning pro Hersteller Nutzung mehrerer

19 19 Integrations-Workflow Pre-processing Training Product Code Extraction Training Data Selection Matcher Application Classifier Learning Product Offers Manufacturer Cleaning Application Classifier Automatic Classification Blocking (Manufacturer + Category) Matcher Application Classification Product Match Result Koepcke, Thor, Thomas, Rahm: Tailoring entity resolution for matching product offers. Proc. EDBT, 2012

Automatic Classification Blocking (Manufacturer + Category) Matcher Application Classification Product

20 20 Gliederung Einführung Big Data Trends / Herausforderungen / Einsatz / Architektur Integration von Webdaten Matching von Produktangeboten Lösungsansatz Map-Reduce-basierte Datenintegration DeDoop Tool Lastbalancierung (BlockSplit) Ausblick

21 21 Dedoop: Efficient Deduplication with Hadoop Parallele Ausführung von Datenintegrations/Match-Workflows mit Hadoop Browser-basiertes GUI Mächtige Funktionsbibliothek mit vielen Match-Techniken lernbasierte Konfiguration Automatische Generieren und Starten von Map/Reduce- Jobs auf unterschiedlichen Clustern Automatische Lastbalancierung Monitoring der Ausführung

22 22 Matching mit MapReduce 22 Map Phase Reduce Phase Partitioning Paralleles Einlesen und Umverteilen der Datensätze (z.b. gemäß Hersteller und Produkttyp) Grouping Grouping Grouping Paralleler Abgleich pro Gruppe

23 23 Lastbalancierung Einfacher Map/Reduce-Ansatz leidet unter Skew-Effekten ungleichmäßige Werteverteilung z.b. bzgl Hersteller/Kategorie große Partitionen verhindern Ausnutzung vieler Rechner beschränkte Skalierbarkeit Lastbalancierungsansatz (BlockSplit)* zusätzlicher MR-Job zur Analyse (Werteverteilung bzgl. Partitionierungsschlüssel) Splitting größerer Partitionen ( Blöcke ) auf mehrere Reduce- Knoten über angepasste Datenverteilungsfunktion ermöglicht in etwa gleichen Aufwand pro Reduce-Knoten bei mäßiger Mehrfachverteilung von Eingabesätzen *Kolb, Thor, Rahm: Load Balancing for MapReduce-based Entity Matching. Proc. Int. Conf. on Data Engineering 2012

24 24 BlockSplit auf 1 Folie Beispiel: 3 MP3-Player + 6 Handys 18 Produktpaare (1 Zeiteinheit) Paralleles Matching auf 2 (Reduce-) Knoten Naiver Ansatz BlockSplit 3 Paare (16%) pairs 6 pairs 9 pairs (50%) 15 Paare (84%) Speedup: 18/15= pair 8 pairs 9 pairs (50%) Speedup: 18/9=2

25 25 Evaluierung: Skalierbarkeit Evaluierung mit Hadoop auf Amazon EC Matching von Produktangeboten

26 Dedoop Überblick 26

27 27 Browser-basierte Spezifikation Graphical HDFS file manager and File-Viewer Support common file operations Simple metadata operations to facilitates workflow definition Input section Select data sources, id attributes, final output directory Attributes to appear in match result Attribute mapping in case of two sources Blocking Section Standard Blocking, Sorted Neighborhood, Cartesian, Tokenset-Similarity Blocking key generation functions Matching section Similarity Functions Match classification (learning-based, threshold-based)

28 28 Ausblick Noch viele offene Probleme für Big Data Integration Parallelisierung kompletter ETL- und Analyse-Pipelines für unterschiedlichste Daten Streaming-Daten Text-Daten Social Web Real-Time-Analysen mit dynamischer Datenbeschaffung Schemaintegration für viele Quellen Match + Merge z.b. Erstellung eines intergrierten Produktkatalogs Domänenspezifische Big Data Lösungen

29 29 Big Data in Sachsen SMWK hat Big Data als Forschungsschwerpunkt in Sachsen identifiziert Koordination Prof. Dr. W. Nagel (TUD), Prof. Dr. E. Rahm Beteiligung von Hochschulen, Forschungseinrichtungen sowie von Unternehmen erwünscht

30 Literatur Bellahsene, Z.; Bonifati, A.; Rahm, E. (eds.): Schema Matching and Mapping. Springer-Verlag, 2011 Kolb, L.; Rahm, E.: Parallel Entity Resolution with Dedoop. Datenbank-Spektrum 13 (1), 2013 Kolb, L.; Thor, A.; Rahm, E.: Dedoop: Efficient Deduplication with Hadoop. Proc. VLDB Endowment 5(12), 2012 Kolb, L.; Thor, A.; Rahm, E.: Load Balancing for MapReducebased Entity Resolution. Proc. ICDE, 2012 Kolb, L.; Thor, A.; Rahm, E.: Multi-pass Sorted Neighborhood Blocking with MapReduce. CSRD 27(1), 2012 Koepcke, H.; Thor, A.; Thomas, S., Rahm, E.: Tailoring entity resolution for matching product offers. Proc. EDBT, 2012 Rahm, E.: Der Lehrstuhl Datenbanken an der Universität Leipzig. Datenbank-Spektrum 13 (2), 2013

Ähnliche Dokumente

Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de

Big Data Analytics: Herausforderungen und Systemansätze Prof. Dr. Erhard Rahm http://dbs.uni-leipzig.de 2 Massives Wachstum an Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten