Schneller als Hadoop?

Größe: px

Ab Seite anzeigen:

Download "Schneller als Hadoop?"

Benjamin Armbruster
vor 6 Jahren
Abrufe

1 Schneller als Hadoop? Einführung in Spark Cluster Computing Dirk Reinemann 1

2 Agenda 1. Einführung 2. Motivation 3. Infrastruktur 4. Performance 5. Ausblick Dirk Reinemann 2

3 EINFÜHRUNG Dirk Reinemann 3

4 Spark In-Memory Cluster Computing System Schnelle Analyse und Verarbeitung großer Datenmengen Unterstützung von Hadoop s Speichermodulen HBase, HDFS, SequenceFiles Scala, Python und Java API s Dirk Reinemann 4

5 Entstehung 2009 Projektstart an der University of California, Berkeley 2010 Freigabe als Open Source Projekt 2013 Apache Incubator Projekt 25 Firmen mit 90 Entwicklern unterstützen die Entwicklung Dirk Reinemann 5

6 1. MOTIVATION Dirk Reinemann 6

7 Warum ein neues Programmiermodell? MapReduce hat die Verarbeitung großer Datenmengen stark vereinfacht Ineffizient für Anwendungen die Daten bei parallelen Berechnungen wiederverwenden Iteratives maschinelles Lernen Graphalgorithmen (PageRank, Logistic Regression, K-Means) Interaktives Data Mining Dirk Reinemann 7

8 Datenzugriff bei Hadoop READ WRITE READ WRITE INPUT... ITERATION ITERATION HDFS HDFS READ QUERY QUERY RESULT RESULT INPUT QUERY RESULT Dirk Reinemann 8

9 Probleme bei Hadoop Serialisierung Replikation Festplattenzugriffe Langsame Ausführung Dirk Reinemann 9

10 Datenzugriff bei Spark READ WRITE READ WRITE INPUT ITERATION ITERATION... ONE TIME PROCESSING QUERY RESULT QUERY RESULT INPUT DISTRIBUTED MEMORY QUERY... RESULT Dirk Reinemann 10

11 Lösung bei Spark Speicherzugriffe Wiederverwendung Gemeinsamer Zugriff 10x 100x schnellere Ausführung Dirk Reinemann 11

12 2. INFRASTRUKTUR Dirk Reinemann 12

13 Resilient Distributed Datasets Schreibgeschützte und Partitionierte Datensätze Keine Veränderung einzelner Datensätze Veränderung durch Transformationen Verteilt über Clusterknoten im Arbeitsspeicher Fehlertolerant Pflege einer Art Erblinie (Transformationen) Wiederherstellung nach Ausfall eines Knotens Dirk Reinemann 13

14 Operationen Transformation Definition von RDD (lazy operations) Ergebnis = RDD filter(f : T => Bool) : RDD[T] => RDD[T] Aktion Ausführung von Berechnungen Ergebnis = Wert count() => RDD[T] => Long Dirk Reinemann 14

15 Fehlertoleranz Lineage Graph Transformationen werden automatisch protokolliert Wiederherstellung Abarbeitung der Abhängigkeiten einer Partition Parallel auf verschiedenen Clusterknoten RDD Transformation RDD Transformation RDD Dirk Reinemann 15

16 Fehlertoleranz Log Mining Quelltext // Einlesen der Textdatei (Stabiler Speicherbereich) lines = spark.textfile() // Filter>ung (Transformation) error = lines.filter(.startswith( ERROR )) // Speicherung (Checkpointing) error.persist() // Filterung (Transformation) merrors = errors.filter(_.contains( MySQL )) // Zählen (Aktion) merrors.count() Lineage Graph lines filter errors filter merrors Dirk Reinemann 16

17 Iteration time (s) Fehlertoleranz 75 Clusterknoten, 100 GB Daten, 10 Iterationen 140 K-Means No Failure Failure in the 6th Iteration Iteration Dirk Reinemann 17

18 Anhängigkeiten Narrow Dependencies Elternpartition von einer Kindpartition genutzt Wide Dependencies Mehrere Kindpartition von mehreren Elternpartitionen abhängig map, filter union groupbykey Dirk Reinemann 18

19 Feintuning Individuell kontrollierte Partitionierung Schlüssel (Wie) Platzierung (Wo) Individuell kontrollierte Persistierung RDD (Was) Zeitpunkt (Wann) Ort (Wo) In-Memory Disk Dirk Reinemann 19

20 3. PERFORMANCE Dirk Reinemann 20

21 Iteration time (s) PageRank GB Daten, 10 Iterationen 2,4x 7,4x Number of machines 14 Hadoop Basic Spark Spark + Controlled Partitioning Dirk Reinemann 21

22 Iteration time (s) Logistic Regression 100 GB Daten, 10 Iterationen ,3x 20,7x Hadoop HadoopBinMem Spark Number of machines Warum ist Spark 20,7x schneller als HadoopBinMem? Dirk Reinemann 22

23 Iteration time (s) 150 Logistic Regression 100 GB Daten, 10 Iterationen Logistic Regression Hadoop HadoopBM Spark First Iteration Later Iterations HadoopBinMem wandelt Eingabedaten bei der ersten Iteration in Binärformat um Dirk Reinemann 23

24 Iteration time (s) Logistic Regression 1 Machine, 256 MB Daten, 1 Iteration Iterations Logistic Regression ,4 13, ,4 6,9 2,9 2,9 Text Input Binary Input 0 In-mem HDFS in-mem local file Spark RDD 7 Sekunden Umwandlung in Binärformat 3 Sekunden Deserialisierung = Laufzeit der Logistic Regression Dirk Reinemann 24

25 Iteration time (s) Logistic Regression 75 Machinen, 100 GB Daten, 10 Iterationen ,80 58,1 40,7 29,7 11,5 0% 25% 50% 75% 100% Percent of dataset in memory Dirk Reinemann 25

26 4. AUSBLICK Dirk Reinemann 26

27 Spark Anwender 36 Firmen! Dirk Reinemann 27

28 Shark Data Warehouse System Hive mit Spark Effiziente Speicherung Spaltenorientiert mit Arrays aus primitiven Datentypen Datengröße fast wie bei Serialisierung und 5x schnellerer Datenzugriff Row Storage 1 john mike sally 6.4 Column Storage john mike sally Dirk Reinemann 28

29 Quellen Websites K/Wiki+Homepage Forschungsbericht nsdi_spark.pdf Dirk Reinemann 29

30 Vielen Dank für Ihre Aufmerksamkeit! Haben Sie noch Fragen? Dirk Reinemann 30

Ähnliche Dokumente

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication