Cloud Data Management

Transkript

1 Cloud Data Management Kapitel 7: Large-Scale Datenanalyse Dr. Anika Groß Wintersemester 2016 Universität Leipzig Institut für Informatik 1

2 Einführung Hadoop (und darauf aufbauende Frameworks) Einfache Parallelisierung von Berechnungen in Cluster-Umgebungen Fehlertoleranz Frei verfügbar Große Community Viele Optimierungsansätze aus Forschung ( letztes Kapitel) Design-Schwächen SPOF, begrenzte horizontale Skalierbarkeit ( Hadoop 2.x.x) Nicht optimal für alle Anwendungsfälle Iterative Anwendungen z.b. maschinelle Lernverfahren ( Spark) Echtzeit-Anwendungen Ad-hoc Aggregation großer Datenmengen ( Dremel) 2

3 Inhaltsverzeichnis Apache Spark Parallele In-memory Datenanalyse in Cloud-Umgebungen Google Dremel Hierarchisches, spaltenorientiertes Echtzeit-Anfragesystem zur Aggregation verteilter, geschachtelter Datensätze 3

4 Apache Spark: Motivation MapReduce ist ungeeignet für iterative und interaktive Anwendungen Materialisierung von Map-Ergebnissen im lokalen FS Materialisierung und Replikation von Reduce-Ergebnissen im HDFS Quelle: [Spark2] Ansatz: Caching im Hauptspeicher Eine Größenordnung schneller als Externspeicherzugriff 95% aller Anfragen an Facebooks Hive Cluster könnten komplett aus HS beantwortet werden [Spark] Quelle: [Spark2] 4

5 Apache Spark: Übersicht Ursprünglich Forschungsprojekt der UC Berkely zur parallelen Analyse großer Datenmengen in Cluster-Umgebungen [Spark] Apache Top Level-Projekt (seit ) Auf Datensätze eines Datasets können verschiedene Funktionen (höherer Ordnung) angewendet werden Erzeugen neues Dataset map, flatmap, filter, groupbykey, reducebykey, join, cogroup, mapvalues, partition, In-memory Caching von Datasets für effiziente Multi-pass-Operationen Iterative Algorithmen (Machine Learning, PageRank, K-means, ) Interaktive Datenanalyse (z.b. SQL) Fehlertoleranz Keine Replikation gecacheter Daten sondern Neuberechnung verlorener Partitionen 5

6 Spark Überblick + SparkR (R on Spark) Bildquelle: APIs: Scala, Java, Python, R (Lambda-Ausdrücke) Run Spark: Standalone Mode / on YARN / on Mesos 6

7 Apache Spark: Resilient Distributed Datasets Verteilte Kollektion von Datensätzen Read-only Generiert durch Anwendung bestimmter Transformationen auf Basisdatenquelle (HDFS) oder Existierendem RDD Nutzer kann RDDs im Hauptspeicher der Worker-Nodes cachen Erlaubt Wiederverwendung in späteren Operationen Ausschreiben auf Sekundärspeicher bei HS-Mangel Lineage-Information RDD kennt seine Vater-RDDs sowie die Berechnungsvorschrift, mit welcher es aus diesen abgeleitet wurde Verlorene Partitionen können bei Bedarf neuberechnet werden 7

8 Apache Spark: Beispiel (1) In Scala: val sc = new SparkContext( spark://..., MyJob, home, jars) Resilient distributed datasets (RDDs) val file = sc.textfile( hdfs://... ) val errors = file.filter(_.contains( ERROR )) errors.cache() errors.count() Action Quelle: [Spark3] 8

9 Apache Spark: Beispiel (2) Zeitstempel (=vierte Spalte) der Log-Einträge die mit ERROR starten und HDFS enthalten 9

10 Apache Spark: Transformationen & Aktionen Beispiele: pets = sc.parallelize([(cat, 1), (dog, 1), (cat, 2)]) => [(cat,1), (dog,1), (cat,2)] //verteilt pets.sortbykey().collect() => [(cat,1), (cat,2), (dog,1)] pets.groupbykey().collect() => [(cat,[1,2]), (dog,[1])] pets.reducebykey(f(x,y)=x+y).collect(); => [(cat,3), (dog,1)] pets.mapvalues(f(x)=x+1).collect() => [(cat,2), (dog,2), (cat,3)] 10 Quelle: [Spark]

11 Apache Spark: K-means Clustering Analog zu Beispiel aus Kapitel 4 S.24/25 Lokale Ausführung 11

12 Apache Spark: K-means Clustering (2) 12

13 Apache Spark: Architektur BlockManager Write-once Key-Value Store pro Worker Caching von RDDs Bereitstellen eines Shuffle-Services Verwalten eines StorageLevels pro Block Externspeicher, RAM Auslagern gecacheter Daten auf Externspeicher 13 bei HS-Mangel Quelle: [Spark3]

14 Apache Spark: Scheduling DAGScheduler: Kind-Partition hängt von einer konst. Anzahl von Partitionen der Vater-RDDs ab Pipelining mehrerer Transformationen in 1 Task Shuffle-Operationen markieren Stage-Grenzen Parallele Ausführung der Tasks eines Stages Keine Neuberechnung von Stages, deren Ergebnis bereits im Cache vorliegt (Stage 1) TaskScheduler Berücksichtigen Datenlokalität (Cache, HDFS Blöcke) Task-Failure Neuberechnung auf anderen Knoten solange abhängige Partitionen verfügbar sind sonst: parallele RDD-Recovery 14

15 Apache Spark: RDD Recovery Lineage-Information eines RDDs Menge von Partitionen (z.b. HDFS Blöcke, Reduce-Tasks, ) Menge von Abhängigkeiten zu Vater-RDDs Funktion um eine Partition ausgehend von Vater-RDD zu berechnen Bevorzugte Knoten zur Berechnung einer Partition (HDFS block location, Knoten welcher Partition eines RDDs cached, shuffle on each parent, ) Information über Partitionierung Fehlertoleranz für Shuffle-Transformationen Join, groupbykey, reducebykey, Pufferung der Zwischenergebnisse im Haupt- bzw. Externspeicher der Erzeuger 15 Quelle: [Spark2]

16 Apache Spark: Evaluation [Spark] Logistic Regression (1Mrd Punkte, 100GB) K-Means (1Mrd. Punkte, 100GB, 10 Cluster) Knoten

17 Inhaltsverzeichnis Apache Spark Parallele In-memory Datenanalyse in Cloud-Umgebungen Google Dremel Hierarchisches, spaltenorientiertes Echtzeit-Anfragesystem zur Aggregation verteilter, geschachtelter Datensätze 17

18 Google Dremel Skalierbares System für verteilte Ausführung von Leseanfragen auf riesigen Mengen geschachtelter Daten Effizientere Bearbeitung im Vgl. zur Ausführung einer Menge von MapReduce Jobs Building Blocks Spaltenbasierte Speicherung geschachtelter Datensätze SQL-ähnliche Anfragesprache Multi-level execution trees Open Source-Implementierung: Apache Drill Quellen für die folgenden Folien: [Dremel1], [Dremel2] 18

19 Google Dremel : Datenmodell Attribute können Werte sein oder ein bis mehrere Unterattribute haben Pflichtattribute sein [1,1] required optional sein [0,1] optional wiederholt auftreten (Reihenfolge relevant) [0,*] repeated A A B B E:e 1 E:e 2 E:e 3 C:c 1 D:d 1 D:d 2 C:c 2 D:d 3 D:d 4 A.B.C=c 1 A.B.C=c 2 A.B.D=d 1 A.B.D=d 2 record-oriented A.B.D=d 3 A.B.D=d 4 19 vs. column-oriented A.E=e 1 A.E=e 2 A.E=e 3 - Bei Projektion Lesen weniger Daten - Bessere (De)kompressionseigenschaften

20 Google Dremel : Spaltenbasierte Zerlegung Sequentielle Speicherung aller Werte eines Attributes Zusätzliche Information (r,d) für jeden Wert um Datensätze rekonstruieren zu können r 2 r 1 Repetition level r: At what repeated field in the field's path the value has repeated Anzahl repeated fields im Pfadpräfix, der mit Vorgänger übereinstimmt (inkl. Element, das Record identifiziert) r 1.Name 1.Language 1.Code: en-us (r=0) r 1.Name 1.Language 2.Code: en (r=2) r 1.Name 2 (r=1) r 1.Name 3.Language 1.Code: en-gb (r=1) r 20 2.Name 1 (r=0) Definition level d: How many fields in paths that could be undefined are actually present Anzahl optionaler und repeated fields im Pfad (ohne Element, das Record identifiziert): r 1.Links.Forward 2 : 40 (d=2) NULL: wenn d kleiner als max. mögliche Anzahl optionaler und repeated fields im Pfad

21 Google Dremel : Rekonstruktion Notwendig für Interoperabilität mit satzorientierten Tools (z.b. MapReduce) Gegeben: Teilmenge der benötigten Attribute Gesucht: Ausgangsdatensätze mit originaler Schachtelung und Reihenfolge (nicht benötigte Attribute fallen weg) Endlicher Automat (Finite State Machine) Zustand entspricht einem Field Reader für entsprechendes Attribut Bei Übergang in einen Zustand liest der Field Reader den nächsten Wert und fügt diesen zum aktuellem Datensatz hinzu Anschließend wird r des darauffolgenden Wertes gelesen Entspricht Zustandsübergang 21

22 Google Dremel : Rekonstruktion (2) Wird nur eine Teilmenge der Attribute benötigt, kann ein einfacherer Automat konstruiert/verwendet werden 22

23 Google Dremel : SQL-ähnliche Anfragesprache Optimiert für select-project-aggregate auf einer Tabelle Single scan Intra-Record und Inter-Record Aggregation 23

24 Google Dremel: Anfrageausführung Serving Tree Hierarchische Anfrageausführung Jeder Knoten schreibt Anfrage in Menge von Teilanfragen um und aggregiert die resultierenden Teilergebnisse Blattknoten kommunizieren mit Storage Layer Fehlertoleranz durch Mehrfachvergabe einer Teilanfrage 24

25 Google Dremel: Evaluierung SELECT SUM(CountWords(field)) / COUNT(*) FROM T1 T1: 85 Mrd. Datensätze / 87 TB Zugriff nur auf ein Attribut MR Overhead Starten des/der Job/s Task Scheduling Lesen vollständiger Datensätze execution time (sec) on 3000 nodes (87 TB) (0.5 TB) Tiefe der Serving Tree-Topologie Q2: SELECT country, SUM(item.amount) FROM T2 GROUP BY country Q3: SELECT domain, SUM(item.amount) FROM T2 WHERE domain CONTAINS.net GROUP BY domain T2: 24 Mrd. Datensätze/ 13TB 25 (60GB, 100s of records) (180GB, 1.1 Mio records)

26 Zusammenfassung Apache Spark Parallele, fehlertolerante Datenanalyse mit In-memory Caching von Datensätzen Ausführungsumgebung für Erweiterungen Spark SQL Graph-Analyse - GraphX Machine Learning - MLlib Analyse auf kontinuierlichen Datenströmen: Spark Streaming R on Spark - SparkR Google Dremel Spaltenorientierte Speicherung geschachtelter Daten Interaktive Analyse von read-only Daten Scan & Aggregate (auf Teilmenge der Spalten) Hierarchische Anfragebearbeitung: Multi-level aggregation tree 26

27 Quellen & Literatur [Spark] Zaharia et. al.: Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In- Memory Cluster Computing. NSDI 2012 [Spark2]: [Spark3]: [Dremel1] Melnik et. al.: Dremel: Interactive Analysis of Web-Scale Datasets. Commun. ACM 2011 [Dremel2] 27