GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

Größe: px

Ab Seite anzeigen:

Download "GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop"

Herbert Möller
vor 8 Jahren
Abrufe

1 am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig,

2 Gliederung 1 Grundlagen 2 3

3 Gliederung 1 Grundlagen 2 3

4 Was ist? Clustersystem zur verteilten und parallelen Verarbeitung von riesigen Datenmengen seit Januar 2008 ein Top Level Project von Apache [1] Komponenten: Job-Management verteiltes Dateisystem Programmiermodell MapReduce & API

5 Aufbau Cluster Master Node (a) JobTracker (b) TaskTracker TaskTracker TaskTracker Client Slave Node 1 (c) Slave Node 2 Slave Node n DataNode DataNode DataNode HDFS (e) (d) NameNode Master Node

6 MapReduce Programmiermodell von Google 2004 vorgestellt [2] 2 aufeinanderfolgende Phasen: Map & Reduce Phase Eingabe Ausgabe Map < Key 1,Value 1 > List(< Key 2,Value 2 >) Reduce < Key 2,List(Value 2 ) > List(< Key 3,Value 3 >)

7 Datenuss HDFS* Node 1 Node 2 Node n Daten einlesen Daten Daten Daten Daten in Eingabeformat konvertieren Vorverarbeitung Vorverarbeitung Vorverarbeitung Verarbeitung der Key-Value-Paare Map-Phase Map-Phase Map-Phase Partitionierung der Daten Zwischenverarbeitung Zwischenverarbeitung Zwischenverarbeitung Shuffle-Phase Verteilung der Daten auf die Nodes Sortierung gleicher Key-Value-Paare Sortierung Sortierung Sortierung Verarbeitung aller Values eines Keys Reduce-Phase Reduce-Phase Reduce-Phase Daten in Ausgabeformat konvertieren Nachverarbeitung Nachverarbeitung Nachverarbeitung HDFS* Daten speichern Daten Daten Daten * selbe Dateisysteme

8 Gliederung 1 Grundlagen 2 3

9 Was ist? Schnittstelle für uneinheitliche Parallelrechner Standardisierung durch Khronos Group [3] General Purpose Computation on Graphics Processing Unit (GPGPU) Allgemeine Berechnung auf Grakprozessoren Technologien: OpenCL, CUDA, Direct Compute

10 Programmiermodell Programm unterteilt sich in: Host-Code in der Programmiersprache C/C++ Kernel-Code in der Programmiersprache OpenCL C Ausnutzung der Datenparallelität selber Code auf unterschiedlichen Daten Zuteilung der Daten anhand von IDs (Global, Local, Group)

11 Speichermodell Quelle: AMD

12 Gliederung 1 Grundlagen 2 3

13 Entwicklungsstand Grundlagen GPGPU hält Einzug in Supercomputer (Tianhe-1A, Platz 2 der Top500 von 06/2011 [4]) hohe Verbreitung von, produktiv bisher ohne GPU-Unterstützung [5] wenig mit Bezug auf & GPGPU [6] Vereinfachung der GPGPU-Programmierung durch spezielle MapReduce-Implementierungen für GPU-Hardware [7, 8]

14 Ziele & Vorbetrachtung Beschleunigung eines -Jobs durch GPGPU möglich? Ist die 2-stuge Parallelisierung performant? Ist der Rechenaufwand einer map- & reduce-methode hoch genug für die GPU? Wie kann ein -Job OpenCL nutzen? Gibt es Probleme durch die Datenorganisation? liest Daten nur als Stream zu verarbeitende Datenmenge eigentlich unbekannt GPU besitzt nur begrenzten Speicher eziente Aufteilung der Daten für GPU nur mit fester Datengröÿe möglich

15 Gliederung Grundlagen 1 Grundlagen 2 3

16 I Streaming Lesen und Schreiben der Daten über STDIN/STDOUT Vorteil: Anbindung vieler Sprachen möglich Nachteile: Daten nur als String, Mischung von Daten und Steuerbefehlen Pipes Anbindung von C++ mit Hilfe einer Header-Datei Java Native Access (JNA) ermöglicht Zugri auf native Programmbibliotheken aus Java heraus OpenCL-Wrapper: JOCL, JavaCL

17 II MaxTemperature mit & OpenCL JavaCL JOCL Streaming Pipes Laufzeit [s] Daten [MB]

18 Gliederung Grundlagen 1 Grundlagen 2 3

19 I Bildung von k Gruppen aus einer Eingabemenge von Objekten anhand einer Metrik Anwendungsbeispiele Data-Mining Bilderkennung

20 II Beschleunigung der Map-Phase durch GPU Software-Puer um Key-Value-Paare zu sammeln gesamten Puer auf GPU kopieren und nicht einzeln erhöhte Laufzeit durch Serialisierung & Deserialisierung Vermeidung mit Hilfe von Indizes Speedup bis zu 7

21 Gliederung Grundlagen 1 Grundlagen 2 3

22 grundsätzlich gut geeignet für MapReduce eher ungeeignet für, da nur wenig Eingabedaten: Funktion Intervall Anzahl der Teilintervalle zwei verschiedene Implementierungen

23 - Implementierung 1 Eingabedatei: Intervalle mit dazugehöriger Anzahl der Teilintervalle Map-Phase: Berechnung eines Intervalls auf GPU Reduce-Phase: Summierung aller Intervalle auf GPU Problem: beide Phasen unperformant

24 - Implementierung 2 Eingabedatei: Intervalle mit Bezeichner Map-Phase: Konvertierung in Bezeichner als Key und Intervall als Value Reduce-Phase: Berechnung mehrerer Intervalle auf GPU und Summierung auf CPU Problem: vermutlich Fehler bei Laufzeitmessung oder Implementierung der GPU

25 Gliederung Grundlagen 1 Grundlagen 2 3

26 Grundlagen Fehlersuche bei numerischer Integration Zusammenfassung der Erkenntnisse aus praktischen Teil Vor- & Nachteile von Streaming, Pipes, JNA Details der Implementierung Ausarbeitung der Masterarbeit

27 Anhang Quellen & Literatur I Chuck Lam. in Action. Manning Publications, Jerey Dean and Sanjay Ghemawat. MapReduce: Simplied Data Processing on Large Clusters. Google, Inc., Dezember Khronos Group. OpenCL Overview. URL: Abgerufen:

28 Anhang Quellen & Literatur II Top500 list - june URL: Juni Abgerufen am Who uses hadoop? URL: Oktober Abgerufen am: Koichi Shirahata, Hitoshi Sato, and Satoshi Matsuoka. Hybrid Map Task Scheduling on GPU-based Heterogeneous Clusters. Tokyo Institute of Technology, Japan Science and technology Agency, National Institute of informatics.

29 Anhang Quellen & Literatur III Je A. Stuart and John D. Owens. Multi-GPU MapReduce on GPU Clusters. University of California, Bingsheng He, Wenbin Fang, Qiong Luo, Naga K. Govindaraju, and Tuyong Wang. Mars: A MapReduce Framework on Graphics Processors, 2008.

Ähnliche Dokumente

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und