Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Transkript

1 Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München,

2 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2

3 Worum geht es? 1. Framework zur verteilten Speicherung und Verarbeitung von Daten 2. hochskalierbar: TBs und PBs 3. Konzept entstand bei Google 4. Open-Source-Implementierung: Apache Hadoop 3

4 Warum? 1. vertikale vs. horizontale Skalierbarkeit 2. zu viele Daten für eine Maschine 3. Verarbeitungsgeschwindigkeit Photo by Flo P. 4

5 The Big Picture Webserver-Farm Hadoop-Cluster logs 5

6 The Big Picture Webserver-Farm Hadoop-Cluster logs logs logs 5

7 The Big Picture Webserver-Farm Hadoop-Cluster logs logs logs 5

8 Agenda 1. HDFS (Hadoop Distributed File System) 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout 6. HBase 6

9 HDFS-Architektur name node (standby NN for failover) data node 01 data node 05 data node 09 data node 02 data node 06 data node 10 data node 03 data node 07 data node 11 data node 04 data node 08 data node 12 rack 1 rack 2 rack 3 7

10 HDFS-Architektur name node (standby NN for failover) data node 01 data node 05 data node 09 client blk 1 blk 2 blk 3 blk 4 data node 02 data node 06 data node 10 data node 03 data node 07 data node 11 data node 04 data node 08 data node 12 rack 1 rack 2 rack 3 7

11 HDFS-Architektur name node (standby NN for failover) data node 01 data node 05 data node 09 client blk 1 blk 2 blk 3 blk 4 data node 02 data node 06 data node 10 data node 03 data node 07 data node 11 data node 04 data node 08 data node 12 rack 1 rack 2 rack 3 7

12 HDFS-Architektur name node (standby NN for failover) Where do I store block 1? data nodes 03, 05, 08 data node 01 data node 05 data node 09 client blk 1 blk 2 blk 3 blk 4 data node 02 data node 06 data node 10 data node 03 data node 07 data node 11 data node 04 data node 08 data node 12 rack 1 rack 2 rack 3 7

13 HDFS-Architektur name node (standby NN for failover) Where do I store block 1? data nodes 03, 05, 08 data node 01 data node 05 data node 09 client blk 1 blk 2 blk 3 blk 4 blk 1 (03, 05, 08) data node 02 data node 03 blk 1 (03, 05, 08) blk 1 (03, 05, 08) data node 06 data node 07 data node 10 data node 11 data node 04 data node 08 data node 12 rack 1 rack 2 rack 3 7

14 HDFS-Architektur name node (standby NN for failover) Where do I store block 1? Done! Done! data nodes 03, 05, 08 Done! data node 01 data node 05 data node 09 client blk 1 blk 2 blk 3 blk 4 blk 1 (03, 05, 08) data node 02 data node 03 blk 1 (03, 05, 08) blk 1 (03, 05, 08) data node 06 data node 07 data node 10 data node 11 data node 04 data node 08 data node 12 rack 1 rack 2 rack 3 7

15 Fehlertoleranz 1. Clusterknoten fallen aus 2. MTBF sinkt 3. unvermeidbar 8

16 Fehlererkennung 1. Herzschlag-Protokol 2. Namenode setzt nicht antwortende Knoten auf Blacklist 3. automatische Replikation auf anderem Datanode 9

17 Verfügbarkeit 1. Client erfragt Speicherort bei Namenode 2. Client holt Daten direkt von Datanodes 3. hochverfügbares HDFS: 1. Standby-Namenode 2. gemeinsamer Zustandsspeicher 10

18 Dauerhaftigkeit 1. Datanodes: Replikation 2. Namenode: Edit-Log 1. schnelle Append-Operationen 2. Replay bei Neustart 3. Sekundärer Namenode: Synchronisation von FS-Image mit Edit-Log ( Standby!) 11

19 Hauptmerkmale 1. Replikation 2. Fehlererkennung 3. Hochverfügbarkeit 4. Dauerhaftigkeit... in hochgradig verteilter, skalierbarer Umgebung 12

20 Agenda 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout 6. HBase 13

21 Wie? input 14

22 Wie? 14

23 Wie? 14

24 Wie? 14

25 Wie? shuffle reduce reduce reduce 14

26 Wie? reduce shuffle reduce reduce 14

27 Wie? auf Datanodes reduce shuffle reduce reduce 14

28 Embarrassingly parallel 1. reine Map-Jobs z.b. Filterung, Extraktion 2. keinerlei Synchronisation 3. Beispiel Spaltenauswahl: " ";" ";" :26: ";"prosieben.de";"sendungen";"0"; "null";"other ; prerollad_start";"galileo"; "/sendungen/galileo/vplayer/full/ /pageplayer/ Dienstag: Sparfuchs online(1b01wissvfg A)";"full";"0" 15

29 Embarrassingly parallel 1. reine Map-Jobs z.b. Filterung, Extraktion 2. keinerlei Synchronisation 3. Beispiel Spaltenauswahl: Player-Event " ";" ";" :26: ";"prosieben.de";"sendungen";"0"; "null";"other ; prerollad_start";"galileo"; "/sendungen/galileo/vplayer/full/ /pageplayer/ Dienstag: Sparfuchs online(1b01wissvfg A)";"full";"0" 15

30 Die Shuffle-Phase task buffer in memory partition, sort and spill to disk copy phase fetch sort phase merge merge reduce task input split partitions merge on disk merge reduce mixture of in-memory and on-disk data output Other reduces Other s 16

31 Aggregation durch Reducer m m prerollad contentstart prerollad reduce prerollad, 4 midrollad3, 1 m m m m midrollad1 midrollad2 contentstart prerollad contentstart midrollad3 contentstart prerollad reduce reduce midrollad2, 1 contentstart, 4 midrollad1, 1 1. Aggregation der Map-Ausgaben 2. Synchronisation in Shuffle-Phase 17

32 Fehlertoleranz 1. auch hier: Knoten fallen aus 2. Jobtracker überwacht MR- Prozesse (Herzschlag) 3. fehlgeschlagene Prozesse werden auf anderen Knoten wiederholt 18

33 Agenda 1. MapReduce 2. HDFS 3. APIs 4. Hive & Pig 5. Mahout 6. HBase 19

34 MapReduce-APIs 1. Java 2. C++ (Pipes) 3. Python (Dumbo) 4. Streaming (sprachunabhängig) 20

35 Java: Mapper und Reducer public class WebtrekkEventMapper extends Mapper<Text, Text, Text, IntWritable> protected void ( Text key, Text value, Context context )! throws IOException, InterruptedException {! // key contains entire record! String[] fields = key.tostring().split( ";" );! // extract relevant information! String eventname = fields[12];! // emit output key and count! context.write( new Text( eventname ),!! new IntWritable( 1 )); } } public class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> protected void reduce( Text key, Iterable<IntWritable> values, Context context ) throws IOException, InterruptedException {! int sum = 0;! for ( IntWritable partialcount : values ) {! sum += partialcount.get();! }! context.write( key, new IntWritable( sum ) ); } } 21

36 Java: Mapper und Reducer Mapper Reducer public class WebtrekkEventMapper extends Mapper<Text, Text, Text, IntWritable> protected void ( Text key, Text value, Context context )! throws IOException, InterruptedException {! // key contains entire record! String[] fields = key.tostring().split( ";" );! // extract relevant information! String eventname = fields[12];! // emit output key and count! context.write( new Text( eventname ),!! new IntWritable( 1 )); } } public class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> protected void reduce( Text key, Iterable<IntWritable> values, Context context ) throws IOException, InterruptedException {! int sum = 0;! for ( IntWritable partialcount : values ) {! sum += partialcount.get();! }! context.write( key, new IntWritable( sum ) ); } } 21

37 Höhere Skriptsprachen 1. Apache Pig ( Datenfluss -Sprache) 2. Apache Hive (SQL-artige Sprache) Alternative: graphische ETL-Tools, z.b. Pentaho Data Integration (PDI, aka Kettle) 22

38 Höhere Skriptsprachen 1. Apache Pig ( Datenfluss -Sprache) FOREACH logdata GENERATE playerevent; 2. Apache Hive (SQL-artige Sprache) Alternative: graphische ETL-Tools, z.b. Pentaho Data Integration (PDI, aka Kettle) 22

39 Höhere Skriptsprachen 1. Apache Pig ( Datenfluss -Sprache) FOREACH logdata GENERATE playerevent; 2. Apache Hive (SQL-artige Sprache) SELECT playerevent FROM logdata; Alternative: graphische ETL-Tools, z.b. Pentaho Data Integration (PDI, aka Kettle) 22

40 PDI: Main, Mapper und Reducer Main Mapper Reducer 23

42 Hive & Pig 1. keine Map- und Reduce-Primitive 2. stattdessen Manipulation von Relationen 3. SQL-artige Operationen 4. Hive/Pig-Code kompiliert zu (optimierten) MapReduce-Job-Ketten 25

43 Pig-Beispiel -- load input data A = LOAD '$input1' AS ( a1, a2, a3, a4:int ); B = LOAD '$input2' AS ( b1, b2, b3 ); -- keep relevant portions of relation A A_filtered = FILTER A BY a4 > 5; A_selected = FOREACH A_filtered GENERATE a1, a4; -- join A with B joined = JOIN A_selected BY a1, B BY b2 PARALLEL 10; -- group and aggregate grouped = GROUP joined BY b3 PARALLEL 10; result = FOREACH grouped GENERATE group, SUM( a4 ) AS count:long; STORE result INTO $outdir USING PigStorage( ; ); 26

45 Mahout 1. Machine learning-algorithmen mit MapReduce 2. predictive analysis 3. Recommendations 4. Clustering 5. Klassifikation 28

46 Recommendations 29

47 Clustering y x 30

48 Clustering y x 30

49 Klassifikation 31

51 HBase 1. NoSQL-Datenbank 2. wahlfreier Zugriff auf Daten im HDFS 3. Antwortzeiten im (Sub-)Sekundenbereich bei gutem Schema-Design 5. Datenmodell 33

52 HBase-Datenmodell inbox (RF=3): accounts: billy: alice: john: keyspace column families s (compression=snappy, comparator=...): billy: columns bob: row indices 34

53 Offene Trainings Android Developer Training (3 Tage, Karlsruhe/München) Certified Scrum Developer Training (5 Tage, Köln) Hadoop Developer Training (3 Tage, Karlsruhe/Köln) Liferay Portal-Developer Training (4 Tage, Karlsruhe) Liferay Portal-Admin Training (3 Tage, Karlsruhe) Pentaho Data Integration Training (4 Tage, München/Köln) Infos und Anmeldung: 35

54 Vielen Dank für Ihre Aufmerksamkeit. Fragen? 36