2. Map/Reduce Programming Model. Architektur von Datenbanksystemen II

Transkript

1 2. Map/Reduce Programming Model Architektur von Datenbanksystemen II

2 Motivation PROBLEMSTELLUNG Unternehmen wie Google, Yahoo, Facebook und Twitter müssen täglich Datenmengen im Bereich von TB und PB speichern und verarbeiten Daten sind zu groß, um sie auf einer einzigen Maschine sequentiell zu bearbeiten Darum: Die Verarbeitung großer Datenmengen geschieht heute häufig mit verteilten Rechnern in Clustern Es existieren 2 grundlegende Aufgabenbereiche: - Die Daten müssen möglichst effizient gespeichert werden - Die Daten müssen möglichst effizient verarbeitet werden 2

3 Datenspeicherung und -verarbeitung DATENSPEICHERUNG zur effizienten Datenspeicherung entwickelte Google das verteilte-dateisystem Google File System (GFS) - GFS arbeitet nach dem Master-Slave-Prinzip - Fehlertoleranz bei Hardwareausfällen erreicht GFS durch Replikation - DATENVERARBEITUNG Das Standardvorgehen bei verteilten Systemen ist üblicherweise: Es findet ein Transfer der zu verarbeitenden Daten zum Programm statt - Ein Programm startet auf einem Rechner und holt die benötigten Eingabedaten von einer Quelle (z.b. FTP-Server oder Datenbank) - Dieses Vorgehen ist bei großen Datenmengen wegen des Datentransfers ein Flaschenhals und somit nicht optimal - Lösung: Die Datenverarbeitung muss dort stattfinden, wo die Daten gespeichert sind à Das ist mit dem Map/Reduce-Programmiermodell möglich 3

4 Zwei Bedeutungen von Map/Reduce MAP/REDUCE-PROGRAMMIERMODELL Für die parallele Datenverarbeitung in Clustern MAP/REDUCE-FRAMEWORK Arbeiten nach dem Map/Reduce- Programmiermodell Unterscheiden sich durch die Wahl der Programmiersprache und in den Implementierungsdetails 4

5 MapReduce-Programmiermodell Ansatz ZIEL Verstecke Komplexität der parallelen Programmierung, Datenverteilung, Fehlertoleranz vor dem Entwickler MAP/REDUCE-ANSATZ Das Map/Reduce-Programmiermodell teilt Aufgaben in kleine Teile auf und verteilt sie zur gleichzeitigen Verarbeitung auf unterschiedliche Rechnerknoten auf (Map-Phase) Das Endergebnis entsteht durch die Zusammenführung der Teilergebnisse (Reduce- Phase) Map Fold f f f f f g g g g g 5

6 Wurzeln und funktionale Progammierung WURZELN VON MAP/REDUCE Das Konzept MapReduce hat seine Wurzeln in Lisp Lisp kennt die beiden Funktionen map() und reduce() Lisps map-funktion wird mit einer Liste von Eingabewerten und einer Funktion als Parameter aufgerufen - die übergebene Funktion wird auf jeden Wert der Liste angewendet Lips reduce-funktion ruft man auch mit einer Funktion und einer Liste mit Eingabewerten auf - Reduce arbeitet ähnlich wie map, führt aber alle Ergebnisse zusammen MAP/REDUCE BASIERT AUF DEM PRINZIP FUNKTIONALE PROGRAMMIERUNG Funktionale Programmierung ist ein Programmierstil, bei dem Programme ausschließlich aus Funktionen bestehen Funktionale Programme sind eine Menge von (Funktions-)Definitionen (Funktions-)Definitionen sind partielle Abbildungen von Eingabedaten auf Ausgabedaten Die Eingabedaten werden nie verändert! Die Funktionen sind idempotent (frei von Seiteneffekten) - bei jedem identischen Aufruf wird das gleiche Ergebnis zurückgeliefert Es werden ausschließlich Berechnungen mit Eingabedaten durchgeführt und neue Zwischenergebnisse gebildet 6

7 Map/Reduce MAP/REDUCE BESTEHT AUS 3 SCHRITTEN Partitionierung der Eingabedaten Abbilden (Mappen) der Daten auf eine Datenstruktur, die aus einem Schlüssel-Wert-Paar besteht und Kombinieren der Daten map(k1, v1) à list(k2, v2) Reduzieren (Reduce) der Schlüssel-Wert-Paare zum Ergebnis reduce(k2, list(v2)) à list(v2)! 7

8 Beispiel Map MAP ERZEUGT ALS ZWISCHENERGEBNIS EINE SAMMLUNG VON (SCHLÜSSEL, WERT)-PAAREN BEISPIEL: ZÄHLE WÖRTER IN EINEM DOKUMENT Textinhalt des Dokuments map(dokumentname, wert){ for each word w in wert emit(w, "1"); } Emittiert für jedes Wort ein Paar, welches das Wort und die Häufigkeit 1 enthält. Für dasselbe Wort, das mehr als einmal vorkommt, werden mehrere Paare erzeugt Anmerkung: Die Eingabe (dokumentname, wert) ist auch ein Paar, jedoch haben dessen Elemente einen anderen Definitionsbereich als die Elemente der emittierten Paare 8

9 Beispiel Reduce REDUCE KOMBINIERT ZWISCHENERGEBNISSE Beispiel (fortgesetzt) reduce(wort, werte){ int ergebnis = 0; for each w in werte ergebnis += w; emit(wort, ergebnis); Liste mit Worthäufigkeiten: Entsteht durch Aufsammeln und Gruppieren mehrerer Paare, die dasselbe Wort als Schlüssel haben (Shuffle) Wird der Reduce-Operation als Iterator übergeben. Auf diese Weise sind große Datenmengen handhabbar, die sonst nicht vollständig in den Speicher passen würden } Summiere die Häufigkeiten aus der Werteliste auf und emittiere das Ergebnis Anmerkung: Elemente der Eingabe-Paars haben denselben Definitionsbereich wie die des Ausgabe-Paars (Yahoo s Hadoop ist hier etwas großzügiger.) Es kann mehrere Arbeiter geben, welche die Reduktionsoperation ausführen und selbst wieder Zwischenergebnisse emittieren 9

10 MapReduce Ablauf im Detail (1) User Program (1) fork (1) fork Master (1) fork (2) assign map (2) assign reduce split 0 split 1 split 2 split 3 split 4 (3) read (4) local write (5) remote read (6) write output file 0 output file 1 Input files Map phase Intermediate files (on local disk) Reduce phase Output files 10

11 MapReduce Ablauf im Detail (2) split 0 split 1 split 2 split 3 split 4 (3) read User Program Für die parallele (1) submit Ausführung der Map-Operation werden zunächst die Eingabedaten in M disjunkte Partitionen Master ("splits") zerlegt (2) Etwa schedule map MB (2) pro schedule Partition reduce (kontrollierbar durch Parameter) Können parallel auf verschiedenen Rechnern bearbeitet werden (6) write (5) remote read output file 0 (4) local write output file 1 Input files Map phase Intermediate files (on local disk) Reduce phase Output files 11

12 MapReduce Ablauf im Detail (3) User Program (1) fork (1) fork Master (1) fork (2) assign map (2) assign reduce split 0 split 1 split 2 split 3 split 4 (5) remote read (3) read Danach: Starte Kopien des (4) local write Programms auf Rechner im Cluster (1) Definiere eine Instanz als Koordinator, den Rest als Arbeiter (6) write output file 0 output file 1 Input files Map phase Intermediate files (on local disk) Reduce phase Output files 12

13 MapReduce Ablauf im Detail (4) User Program (1) fork (1) fork Master (1) fork (2) assign map (2) assign reduce split 0 split 1 (5) remote read (3) read split Koordinator 2 (Master) weist (4) local laufenden write Arbeitersplit 3 Instanzen Map- oder Reduce-Aufgabe zu (2) split (beachtet 4 Lokalitätsgesichtspunkte) Es werden M Map-Aufgaben und R Reduce-Aufgaben zugewiesen (6) write output file 0 output file 1 Input files Map phase Intermediate files (on local disk) Reduce phase Output files 13

14 MapReduce Ablauf im Detail (4) split 0 split 1 split 2 split 3 split 4 Input files (3) read Arbeiter mit Map-Aufgabe User Liest Inhalte seiner zugewiesenen Partition Program (3) (1) fork Bearbeitet alle Eingabepaare mit seiner Map- (1) fork Funktion Master (1) fork Die Ergebnisse werden im Hauptspeicher (2) assign map (2) assign gepuffert reduce In periodischen Abständen werden Puffer auf Festplatte geschrieben (4) (6) write (5) remote read Anhand einer Partitionierungsfunktion output file 0 (4) local write in R Partitionen unterteilt (z.b. hash(key) mod R) output Der Ablageort der Partitionen wird file 1 dem Koordinator gemeldet, der für die Übergabe an Reduce-Arbeiter Map Intermediate files verantwortlich ist Reduce Output phase (on local disk) phase files 14

15 MapReduce Ablauf im Detail (5) Arbeiter mit Reduce-Aufgabe Wird vom Koordinator benachrichtigt User Program Bekommt Ablageort für Zwischenergebnisse (Partitionen), die er von den (1) fork Festplatten der Worker liest (1) (5) fork Master (1) fork Shuffle: Sortierung der Paare nach Schlüssel, so dass Paare mit gleichem Schlüssel (2) assign map (2) assign reduce gruppiert werden Arbeiter split 0 iteriert darüber Jeder split Schlüssel 1 wird samt der (5) remote read (3) read zugehörigen split 2 Werte der (4) local write split 3 Reduktionsoperation übergeben Das Ergebnis split 4der Reduktionsfunktion wird in einer Ausgabedatei angefügt, die zur Partition assoziiert ist (6) (6) write output file 0 output file 1 Input files Map phase Intermediate files (on local disk) Reduce phase Output files 15

16 MapReduce Ablauf im Detail (6) split 0 split 1 split 2 split 3 split 4 (3) read Wenn alle Map- und Reduce-Aufgaben bearbeitet User wurden, kehrt der Aufruf zum Benutzer- Program Programm zurück. (1) forkdie Ausgabe des MapReduce-Programms (1) fork Master befindet sich in R Dateien (eine pro Reduktions- Aufgabe) (1) fork (2) assign map (2) assign Können reduce als Eingabe für weitere Map-Reduce- Aufrufe verwendet werden (4) local write (5) remote read (6) write output file 0 output file 1 Input files Map phase Intermediate files (on local disk) Reduce phase Output files 16

17 Fehlertoleranz WORKERS Werden periodisch abgefragt, ob noch funktionsfähig Keine Antwort: Kennzeichnung als nicht funktionsfähig Zugewiesene Aufgaben werden vom Koordinator neu verteilt Auch erfolgreich beendete Map-Aufgaben werden neu verteilt, da deren Ausgabe auf lokaler Festplatte war Reduce-Arbeiter werden über Änderung benachrichtigt KOORDINATOR Zustand wird regelmäßig gesichert ( Checkpointing ) Bei Versagen: Neustart und Wiederherstellung des letzten gesicherten Zustands FEHLERTOLERANZ IST DER ZENTRALE VORTEIL VON MAPREDUCE! Es geht bei MapReduce nicht nur darum, Rechenaufwand zu parallelisieren. 17

18 Verteiltes Dateisystem WIE GELANGEN DIE DATEN ZU DEN WORKERS? VERSCHIEBE NICHT DIE DATEN ZU DEN WORKERS, SONDERN DIE WORKERS ZU DEN DATEN! Daten sind auf den lokalen Festplatten der einzelnen Knoten im Cluster gespeichert Starten der Workers an welchendie Daten lokal vorliegen DATEN IN EINEM VERTEILTEN DATEISYSTEM GESPEICHERT GFS (Google File System) für Googles MapReduce HDFS (Hadoop Distributed File System) für Hadoop GOOGLES MAPREDUCE Map speichert Ergebnis im lokalen Dateisystem. Reduce holt sich Daten via RPC; schreibt Ergebnis in verteiltes Dateisystem (GFS). 18

19 MapReduce Beispiele WETTERDATEN 1. UNSTRUKTURIERTE WETTERDATEN EINLESEN FM V N N N ADDGF FM V N N N ADDGF :00-7,2 c 19

20 MapReduce Beispiele (2) WETTERDATEN 2. ZUORDNUNG VON DATEI-INHALT ZU POSITIONEN Jede Zeile wird anhand des Byte-Offsets identifiziert Byte-Offset verweist jeweils auf den Beginn der Zeile (k1, v1) = (long, String) 20

21 MapReduce Beispiele (3) WETTERDATEN 3. MAP: TRANSFORMIEREN DIESER SCHLÜSSEL-/WERTE-PAARE IN ZWISCHEN-SCHLÜSSEL-WERTE-PAARE Benötigte Daten werden aus den Zeilen extrahiert Es entstehen viele Key/Value-Paare Jahr Temperatur 21

22 MapReduce Beispiele (4) WETTERDATEN 4. SHUFFLE: ERZEUGEN VON GRUPPIERTEN SCHLÜSSEL-/WERTE-PAAREN Sortieren der Schlüssel Zuordnen von Werten zu einem Schlüssel Jeder Mapper schreibt den sortierten Output ins Filesystem Pro Jahr wird ein eigener Reducerauf einem Rechner im Cluster ausgeführt Jahr Temperatur

23 MapReduce Beispiele (5) WETTERDATEN 5. REDUCE Zusammenfassung der Werte (hier: Maximum finden) Pro Schlüssel nur noch ein Wert Jahr Temperatur

24 MapReduce Beispiele (6) WETTERDATEN 6. AUSGABE IN EINE DATEI 24

25 Beispiele, wo MapReduce hilfreich ist VERTEILTE HÄUFIGKEITSANALYSE Wie häufig kommen welche Wörter in einem umfangreichen Text vor? - Map-Funktion: Schreibt <Wort, 1> in einen Zwischenspeicher - Reduce-Funktion: Addiert die Werte für ein Wort zu <Wort, Summe> VERTEILTES GREP In welchen Zeilen eines Textes kommt ein Suchmuster vor? - Map-Funktion: Schreibt gefundene Zeilen in einen Zwischenspeicher - Reduce-Funktion: Reicht die Zwischenergebnisse zur Ausgabe durch BERECHNUNG VON WEBSEITEN-ANFRAGEN... Map-Funktion: Durchsucht die Webserver-Logdaten und schreibt Schlüssel-Wert-Paare <URL, 1> in einen Speicher für Zwischenergebnisse Reduce-Funktion: Addiert die Werte ür eine URL zu <URL, Summe> 25

26 Analyse Verteiltes Grep PERFORMANZ Ausführung eines auf MapReduce basierenden grep-programms (Global Regular Expression Print) Durchsucht Byte lange Datensätze (~ 1TB) nach einem seltenen, drei Zeichen langem Muster (nur in Datensätzen vorhanden) Eingabe in M= Partitionen à 64MB unterteilt, Ausgabe in einer einzigen Partition (R=1) Datentransferrate im zeitlichen Verlauf (Cluster mit Rechnern, mit je 2GHz Intel Xeon, 4GB RAM, 2x160GB HD, Gigabit Ethernet) Rate, mit der Eingabedaten gelesen werden Sekunden nach Ausführung 26

27 Analyse Verteiltes Grep (2) PERFORMANZ (FORTSETZUNG) Rate nimmt anfangs zu, wenn mehr und mehr Rechnern Arbeit zugewiesen wird Maximum bei ~30GB/s und Arbeitern Danach beginnen Map-Aufgaben fertig zu werden Gesamtdauer der Ausführung etwa 150s; Mehraufwand beim Start ~1 Minute (Programm auf verschiedenen Rechnern starten, etc.) 27

28 Map-Reduce Implementierungen DAS MAPREDUCE-KONZEPT IST NICHT AN EINE BESTIMMTE RECHNERARCHITEKTUR GEBUNDEN Die Implementierung der Schnittstelle kann z.b. auf Rechner mit verteiltem Speicher (Cluster) oder gemeinsamen Speicher (Multicore-Rechner) zugeschnitten sein Beispiel für Implementierungen - Auf Architektur mit gemeinsamen Speicher: Phoenix (Stanford, C++/PThreads) - Auf Architektur mit verteiltem Speicher: Google, Hadoop 28

29 Map-Reduce Implementierungen (2) PROPRIETÄRE ENTWICKLUNG DURCH GOOGLE Implementiert in C++ Bindings in Java, Python OPEN-SOURCE-IMPLEMENTIERUNG IN JAVA (HADOOP) Ursprünglich von Yahoo entwickelt, produktiv eingesetzt Mittlerweile Apache-Projekt VIELE FORSCHUNGSPROTOTYPEN Umsetzungen für GPUs - Bingsheng He, Wenbin Fang, Qiong Luo, Naga K. Govindaraju, and Tuyong Wang. Mars: A MapReduce Framework on Graphics Processors. PACT 2008 Cell-Prozessoren - Marc de Kruijf and Karthikeyan Sankaralingam. MapReduce for the Cell B.E. Architecture. IBM Journal of Research and Development, 53(5),

30 Hadoop

31 Hadoop - Überblick WAS IST HADOOP? Hadoop ist eine Implementierung des MapReduce-Konzepts Open Source Projekt der Apache Software Foundation Download für Unix/Linux verfügbar Programmierung mit Java, Python, C++, etc. möglich HADOOP KOMPONENTEN Hadoop Common - Stellt Grundfunktionen bereit: implementierungsneutrale File-System-Schnittstelle, Schnittstelle für die RPC-Kommunikation im Cluster Hadoop Distributed FileSystem (HDFS) - Primäre Dateisystem von Hadoop, folgt dem Vorbild des Google-Dateisystems - Eingabe-Dateien müssen erst in das HDFS kopiert werden, bevor sie verwendet werden können - Master-Slave Struktur, Fehlertoleranz durch dreifache Redundanz - Performanz auf sequentielles Lesen und Schreiben ganzer Blöcke optimiert - Es werden auch andere Dateisysteme unterstützt (z.b. CloudStore, S3) Hadoop MapReduce - Bietet alle Funktionen um nach dem MapReduce-Programmiermodell zu entwickeln 31

32 Webmap Sort benchmarks (Jim Gray contest) ~70 hours runtime ~300 TB shuffling ~200 TB output 1480 nodes 1 Terabyte sorted 209 seconds 900 nodes ~73 hours runtime ~490 TB shuffling ~280 TB output 2500 nodes 1 Terabyte sorted 62 seconds, 1500 nodes 1 Petabyte sorted hours, 3700 nodes Largest cluster 2000 nodes 6PB raw disk 16TB of RAM 16K CPUs 4000 nodes 16PB raw disk 64TB of RAM 32K CPUs (40% faster CPUs too) 32

33 Exercise

34 TPC-H Tips TPC-H: AN AD-HOC, DECISION SUPPORT BENCHMARK Consists of a schema, a data generator, and 22 analytical queries 34

35 TPC-H Tips TPC-H: AN AD-HOC, DECISION SUPPORT BENCHMARK Consists of a schema, a data generator, and 22 analytical queries INSTALLATION Download the tools, copy and edit makefile.suite, run make Example settings in makefile: - DATABASE=ORACLE - MACHINE=LINUX - WORKLOAD=TPCH - On OSX, adding -I/usr/include/malloc to CFLAGS seems necessary dbgen generates data (*.tbl) files, which are usually loaded into an RDBMS - With Hadoop, we just directly read the files from HDFS and map&reduce them line-by-line - dbgen s most interestingparameter is the scaling factor (-s) that determines the output database s size in GB (roughly). Leavingit at 1 is ok for this exercise, so a call might look like./dbgen -vf -s 1 qgen fills variables in query template, not necessary for this exercise, just have a look at the query templates in queries 35

36 TPC-H Q1 36

37 Task GENERATE A TPC-H DATABASE AND LOAD IT INTO HDFS IMPLEMENT Q1 AS A MAP/REDUCE JOB Think carefully about whichparts of the SQL query you put into map() and whichintoreduce() PREPARE 1-2 SLIDES WITH THE MOST INTERESTING/DIFFICULT PARTS OF THE IMPLEMENTATION, AND DISCUSS. IDEAS FOR DISCUSSION: How much can this query be parallelized by using Hadoop? What is the bottleneck, i.e., the most sequential part of the calculation? Is there anything that could be done about this? Is there anything specific in Hadoop that could be done? Under what conditions? 37