MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Größe: px

Ab Seite anzeigen:

Download "MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce"

Pia Falk
vor 8 Jahren
Abrufe

1 MapReduce Jan Kristof Nidzwetzki

2 MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation: parallel and incremental data mining with online Map-Reduce 6 Zusammenfassung

processing Beispiel 5 Beyond online aggregation: parallel and

3 MapReduce 2 / 17 Begriffe Begriffe Definition (Stromverarbeitung) Unter dem Begriff der Stromverarbeitung versteht man das fortlaufende Verarbeiten von Datenströmen. Bsp. Börsenticker Continuous-Queries Definition (Onlineverarbeitung) Unter dem Begriff der Onlineverarbeitung versteht man, dass die Verarbeitung der Daten im Dialog mit dem Benutzer erfolgt. Keine Stapelverarbeitung Bsp. Vorzeitige Ergebnisse bei lang laufenden Berechnungen

Börsenticker Continuous-Queries Definition (Onlineverarbeitung) Unter dem Begriff der Onlineverarbeitung

4 MapReduce 3 / 17 Verschiedene Arbeiten Verschiedene Arbeiten (HOP - ) DEDUCE: at the intersection of MapReduce and stream processing (Erweiterung IBM System S) Beyond online aggregation: parallel and incremental data mining with online Map-Reduce (Eigenes Framework)

(Erweiterung IBM System S) Beyond online aggregation: parallel and

5 MapReduce 4 / 17 Ziele Map Reduce Online - HOP Erweiterung von Hadoop MapReduce in der Strom- bzw. Onlineverarbeitung Online-Aggregation Continuous-Queries Erhöhung der Ausführungsgeschwindigkeit normaler MapReduce-Jobs

6 MapReduce 5 / 17 Pipelining Idee Sofortiges weiterleiten der Ausgaben des Map-Task an den Reduce-Task Pipelining ermöglicht Überlappung von Map- und Reduce-Task Schwierigkeiten Kopieren der Daten zwischen Map- und Reduce-Task benötigt viel Zeit Nicht genug TCP-Sockets verfügbar Combiner-Funktion schwierig anzuwenden

Reduce-Task Schwierigkeiten Kopieren der Daten zwischen Map- und Reduce-Task

7 MapReduce 6 / 17 Pipelining Fehlertoleranz Fehlschlag eines Map-Task Verwerfen der Ergebnisse und Neustart des Map-Task Einsatz von Checkpoints Fehlschlag eines Reduce-Task Neustart des betreffenden Reduce-Task

und Neustart des Map-Task Einsatz von Checkpoints

8 MapReduce 7 / 17 Online Aggregation Online Aggregation ermöglicht es, vorab Ergebnisse eines Jobs Snapshots zu erhalten. Snapshots enthalten alle Daten des Map-Tasks zu einem bestimmten Zeitpunkt... sind auch zwischen mehreren Jobs möglich Genauigkeit ist nur schwer zu bestimmen Reduce-Phase muss mit jedem Snapshot erneut durchgeführt werden

.. sind auch zwischen mehreren Jobs möglich Genauigkeit ist nur schwer zu bestimmen

9 MapReduce 8 / 17 Online Aggregation - Beispiel Häufigste K Wörter in 5.5 GB Text der Wikipedia. (Quelle: [CCA+09] S. 7)

10 MapReduce 9 / 17 Continuous-Queries Continuous-Queries ermöglichen es, sich verändernde Datenbestände fortlaufend auszuwerten. Beispiel: Auswertung von Logdateien Vorteil: Daten müssen nicht vollständig neu ausgewertet werden, wenn Änderungen vorgenommen werden. Fehlertoleranz teilweise schwierig zu Implementieren

Beispiel: Auswertung von Logdateien Vorteil: Daten müssen nicht vollständig

11 MapReduce 10 / 17 Beispielanwendung: Monitoring Cluster mit 7 Systemen Systeme mit höherer Last sollen ermittelt werden Einsatz von Continuous-Queries Agents (Map-Task) liefen Ihre Ergebnisse an einen Aggregator (Reduce-Task) Berechnung der Systemlast über 120 Sekunden als gleitender Durchschnitt Systeme die mehr als zwei Standardabweichungen abweichen, werden gemeldet

Ergebnisse an einen Aggregator (Reduce-Task) Berechnung der Systemlast über 120 Sekunden als

12 MapReduce 11 / 17 Performance Wordcount über 10 GB mit 20 Map-Tasks und 5 Reduce-Tasks. Links: Hadoop ohne Pipelining (561 Sekunden), Rechts: HOP mit Pipelining (462 Sekunden) (Quelle: [CCA+09] S. 11)

13 MapReduce 12 / 17 Performance Wordcount über 10 GB mit 20 Map-Tasks und 20 Reduce-Tasks. Links: Hadoop ohne Pipelining (361 Sekunden), Rechts: HOP mit Pipelining (290 Sekunden) (Quelle: [CCA+09] S. 11)

14 DEDUCE: at the intersection of MapReduce and stream processing MapReduce 13 / 17 DEDUCE: at the intersection of MapReduce and stream processing IBM System S / IBM InfoSphere Streams Software zur Stromverarbeitung Auswertung der Datenströme wird mittels Data-Flow Graphen beschrieben Auswertung kann auf mehreren Computern parallel erfolgen SPADE - Stream Processing Application Declarative Engine Sprache zum beschreiben der Data-Flow Graphen Erweiterung dieser Sprache mittels UBOPs - user-defined build-in operators

Data-Flow Graphen beschrieben Auswertung kann auf mehreren Computern parallel erfolgen SPADE - Stream Processing Application

15 DEDUCE: at the intersection of MapReduce and stream processing MapReduce 14 / 17 IBM System S / IBM InfoSphere Streams DEDUCE als Erweiterung des IBM System S MapReduce-Operator als Datenlieferant Beliefert die stream processing operators periodisch mit Daten Ziel ist es die Stromverarbeitung um statische Daten anzureichern Beispiel: Auswertung von Aktienmärkten Statische Daten: Historische Aktienkurse Datenstrom: Aktuelle Aktienkurse

die stream processing operators periodisch mit Daten Ziel ist es die Stromverarbeitung um statische Daten

16 DEDUCE: at the intersection of MapReduce and stream processing MapReduce 15 / 17 Beispiel Beispielanwendung - Auswertung von Finanzmärkten (Quelle: DEDUCE: At the intersection of MapReduce and stream processing [KAGW10] S. 5)

- Auswertung von Finanzmärkten (Quelle: DEDUCE: At the

17 Jan Kristof Nidzwetzki MapReduce 16 / 17 Beyond online aggregation: parallel and incremental data mining with online Map-Reduce Beyond online aggregation: parallel and incremental data mining with online Map-Reduce Software zur Evaluierung von Algorithmen zur Berechnung des Job-Fortschritts und der Genauigkeit von Snapshots Implementation als Shared-Memory-Architektur Primär als Software zum Testen von Algorithmen gedacht Schlechte Fehlertoleranz und keine Skalierung der Jobs über mehrere Rechner

von Algorithmen zur Berechnung des Job-Fortschritts und der Genauigkeit von Snapshots Implementation als

18 MapReduce 17 / 17 Zusammenfassung Zusammenfassung Erweiterung von Hadoop um Snapshots und Continuous-Queries Beyond online aggregation: parallel and incremental data mining with online Map-Reduce Software zur Evaluierung von Algorithmen zur Berechnung des Job-Fortschritts und der Genauigkeit von Snapshots DEDUCE als Erweiterung des IBM System S Erweiterung des IBM System S um die Möglichkeit Daten periodisch mittels MapReduce auszuwerten

Evaluierung von Algorithmen zur Berechnung des Job-Fortschritts und der Genauigkeit von Snapshots DEDUCE als

Ähnliche Dokumente

FernUniversität in Hagen - Seminar 01912 im Sommersemester 2011. MapReduce und Datenbanken

FernUniversität in Hagen - Seminar 01912 im Sommersemester 2011 MapReduce und Datenbanken Thema 15 Strom- bzw. Onlineverarbeitung mit MapReduce Referent: Jan Kristof Nidzwetzki 2 Jan Kristof Nidzwetzki,