MapReduce. Julia Bergbauer - Ferienakademie 2009

Transkript

1 1

2 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 2

3 1) Grundlegendes = von Google eingeführtes Framework Ausnutzen der MulticoreProzessoren ohne spezielles KnowHow bisher: wie parallelisiere ich die Berechnung? wie verteile ich die Daten auf die verschiedenen Maschinen? wie gehe ich mit Fehlern um? => alles viel zu kompliziert!! :( 3

4 1) Grundlegendes Erkenntnis: alle erstellten Programme besitzen im Grunde den selben Kern besitzen, Ziel: einfacher mit riesigen Datenmengen arbeiten können Framework nimmt dem Entwickler die Aufgabe der Verteilung komplett ab damit: wir können uns auf das wesentliche ProgrammZiel konzentrieren, ohne uns um geeignete Ausnutzung der MultiCore Funktion kümmern zu müssen 4

6 2) Map & Reduce Bsp.: map (*2) [1;2;3] = [2;4;6] map : ( a > b) > a list > b list map f [] = [] map f (x::xs) = f x :: map f xs map (fun x > x * x) [1;2;3] : int list: = [1;4;9] 6

7 2) Map & Reduce Bsp.: reduce (+) [1;2;3;4] = ((1 + 2) + 3) + 4 = 10 reduce (+) 0 [1;2;3;4] = 10 reduce : ( a > a > a) > a > a list > a reduce f y [] = y reduce f y (x::xs) = reduce f (f y x) xs reduce (fun x y > x + y) 0 [1;2;3] : int = 6 = (((0 + 1) + 2) + 3) 7

9 3) MapReduce Code Code_A Kern Code Code_A Kern Code Code Code_B Code_A... Kern Code_B Code Code_C Kern Code Code_A... Code_C Code Code_A Kern 9

10 3) MapReduce Kern Kern... Kern Kern... Kern map reduce generisches Programmgerüst 10

11 3) MapReduce User Program map: (k1, v1) > list(k2,v2) (1) fork (2) assign map (1) fork Master (2) assign reduce (1) fork reduce: (k2, list(v2)) > list(v2) worker split 0 split 1 split 2 (3) read worker (4) local write (5) remote (5) read worker (6) write output file 0 split 3 split 4 worker output file 1 worker Input files Map phasr Intermediate files (on local disks) Reduce phase Output files Fig. 1. Execution overview. 11

13 4) Anwendungsgebiete DijkstraAlgorithmus count of frequency (Wörterzählen in Dokumenten) WebseitenWichtigkeit map: <url, seiteninhalt> reduce: <url,list(starturl)> GoogleSuche weitere MapReduce Implementationen: Phoenix (Google MapReduce für kleinere Systeme) Apache Hadoop (Yahoo) Microsoft Dryad (erweiterte Funktionalität) 13

14 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele: Dijkstra count of frequency 6) Fehlerbehandlung 7) Ausblick 14

15 5) Dijkstra A B C D E A

16 5) Dijkstra A B C D E A 3 5 B

17 5) Dijkstra A B C D E A B C

18 5) Dijkstra A B C D E A B C 6 9 D 8 18

19 5) Dijkstra mit MapReduce PseudoCode: Anzahl Knoten for (int i = 0; i < n; i++) { map //falls kürzerer Pfad zu Knoten k gefunden wurde //sonst: Identität //...(Laufzeitumgebung) reduce //...(Laufzeitumgebung) } 19

20 5) Dijkstra mit MapReduce 1. Schleifendurchlauf: map(a,(0,{b,c})) > (B,3), (C,5), (A,0) sort => reduce(b,(3)) > (B,3) reduce(c,(5)) > (C,5) reduce(a,(0)) > (A,0) 20

21 5) Dijkstra mit MapReduce 2. Schleifendurchlauf: 1. Schleifendurchlauf: map(a,(0,{b,c})) > (B,3), (C,5), (A,0) sort => reduce(a,(0)) > (A,0) reduce(b,(3)) > (B,3) reduce(c,(5)) > (C,5) map(b,(3,{a,c,d,e})) > (A,6), (C,4), (D,10), (E,11), (B,3) map(c,(5,{a,b,d,e})) > (A,10), (B,6), (D,7), (E,10), (C,5) map(a,0) > (A,0) sort => reduce(a,(0,6,10)) > (A,0) reduce(b,(3,6)) > (B,3) reduce(c,(4,5)) > (C,4) reduce(d,(10)) > (D,10) reduce(e,(10,11)) > (E,10) 21

22 5) Dijkstra mit MapReduce 2. Schleifendurchlauf: 1. Schleifendurchlauf: map(a,(0,{b,c})) > (B,3), (C,5), (A,0) sort => reduce(b,(3)) > (B,3) reduce(c,(5)) > (C,5) reduce(a,(0)) > (A,0) map(b,(3,{a,c,d,e})) > (A,6), (C,4), (D,10), (E,11), (B,3) map(c,(5,{a,b,d,e})) > (A,10), (B,6), (D,7), (E,10), (C,5) map(a,0) > (A,0) sort => reduce(a,(0,6,10)) > (A,0) reduce(b,(3,6)) > (B,3) reduce(c,(4,5)) > (C,4) reduce(d,(10)) > (D,10) reduce(e,(10,11)) > (E,10) Es wurde kein kürzerer Pfad gefunden. 22

23 5) Dijkstra mit MapReduce 3. Schleifendurchlauf: 2. Schleifendurchlauf: => reduce(a,(0,6,10)) > (A,0) reduce(b,(3,6)) > (B,3) reduce(c,(4,5)) > (C,4) reduce(d,(10)) > (D,10) reduce(e,(10,11)) > (E,10) map(a,0) > (A,0) map(b,3) > (B,3) map(c,(4,{a,b,d,e})) > (A,9), (B,5), (D,6), (E,9), (C,4) map(d,(10,{b,c,e})) > (B,17), (C,12), (E,12), (D,10) map(e,(10,{b,c,d})) > (B,18), (C,15), (D,12), (E,10) sort => reduce(a,(0,9)) > (A,0) reduce(b,(3,5,17,18)) > (B,3) reduce(c,(4,12,15)) > (C,4) reduce(d,(6,10,12)) > (D,6) reduce(e,(9,10,12)) > (E,9) 23

24 5) Dijkstra mit MapReduce 3. Schleifendurchlauf: 2. Schleifendurchlauf: => reduce(a,(0,6,10)) > (A,0) reduce(b,(3,6)) > (B,3) reduce(c,(4,5)) > (C,4) reduce(d,(10)) > (D,10) reduce(e,(10,11)) > (E,10) map(a,0) > (A,0) map(b,3) > (B,3) map(c,(4,{a,b,d,e})) > (A,9), (B,5), (D,6), (E,9), (C,4) map(d,(10,{b,c,e})) > (B,17), (C,12), (E,12), (D,10) map(e,(10,{b,c,d})) > (B,18), (C,15), (D,12), (E,10) sort => reduce(a,(0,9)) > (A,0) reduce(b,(3,5,17,18)) > (B,3) reduce(c,(4,12,15)) > (C,4) reduce(d,(6,10,12)) > (D,6) reduce(e,(9,10,12)) > (E,9) 24

25 5) Dijkstra mit MapReduce 4. Schleifendurchlauf: 3. Schleifendurchlauf: => reduce(a,(0,9)) > (A,0) reduce(b,(3,5,17,18)) > (B,3) reduce(c,(4,12,15)) > (C,4) reduce(d,(6,10,12)) > (D,6) reduce(e,(9,10,12)) > (E,9) map(a,0) > (A,0) map(b,3) > (B,3) map(c,4) > (C,4) map(d,(6,{b,c,e})) > (B,13), (C,8), (E,8), (D,6) map(e,(9,{b,c,d})) > (B,17), (C,14), (D,11), (E,9) sort => reduce(a,(0)) > (A,0) reduce(b,(3,13,17)) > (B,3) reduce(c,(4,8,14)) > (C,4) reduce(d,(6,11)) > (D,6) reduce(e,(8,9)) > (E,8) 25

26 5) Dijkstra mit MapReduce 4. Schleifendurchlauf: 3. Schleifendurchlauf: => reduce(a,(0,9)) > (A,0) reduce(b,(3,5,17,18)) > (B,3) reduce(c,(4,12,15)) > (C,4) reduce(d,(6,10,12)) > (D,6) reduce(e,(9,10,12)) > (E,9) map(a,0) > (A,0) map(b,3) > (B,3) map(c,4) > (C,4) map(d,(6,{b,c,e})) > (B,13), (C,8), (E,8), (D,6) map(e,(9,{b,c,d})) > (B,17), (C,14), (D,11), (E,9) sort => reduce(a,(0)) > (A,0) reduce(b,(3,13,17)) > (B,3) reduce(c,(4,8,14)) > (C,4) reduce(d,(6,11)) > (D,6) reduce(e,(8,9)) > (E,8) 26

27 5) Dijkstra mit MapReduce 4. Schleifendurchlauf: 5. Schleifendurchlauf: keine Änderung => reduce(a,(0)) > (A,0) reduce(b,(3,13,17)) > (B,3) reduce(c,(4,8,14)) > (C,4) reduce(d,(6,11)) > (D,6) reduce(e,(8,9)) > (E,8) A B C D E A B C 6 9 D 8 27

28 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele: Dijkstra count of frequency 6) Fehlerbehandlung 7) Ausblick 28

29 5) count of frequency Text = "Das ist ein Satz. Und das ist der zweite Satz. Der dritte Satz ist der Letzte." map(string sentence, String words): for each word w in words: Emit(w, 1); reduce(string word, String values): int result = 0; for each v in values: result += ParseInt(v); return result; 29

30 5) count of frequency map(string sentence, String words): for each word w in words: Emit(w, 1); Text = "Das ist ein Satz. Und das ist der zweite Satz. Der dritte Satz ist der Letzte." A = map("satz_1", "das ist ein satz") B = map("satz_2", "und das ist der zweite satz") C = map("satz_3", "der dritte satz ist der letzte") Laufzeitumgebung 30

31 5) count of frequency map(string sentence, String words): for each word w in words: Emit(w, 1); A = map("satz_1", "das ist ein satz") B = map("satz_2", "und das ist der zweite satz") C = map("satz_3", "der dritte satz ist der letzte") Laufzeitumgebung A = [ ("das", 1), ("ist", 1), ("ein", 1), ("satz", 1)] B = [ ("und", 1), ("das", 1), ("ist", 1), ("der", 1), ("zweite", 1), ("satz", 1)] Map C = [ ("der", 1), ("dritte", 1), ("satz", 1), ("ist", 1), ("der", 1), ("letzte, 1)] 31

32 5) count of frequency A = [ ("das", 1), ("ist", 1), ("ein", 1), ("satz", 1)] B = [ ("und", 1), ("das", 1), ("ist", 1), ("der", 1), ("zweite", 1), ("satz", 1)] Map C = [ ("der", 1), ("dritte", 1), ("satz", 1), ("ist", 1), ("der", 1), ("letzte, 1)] 1. Schritt: das = [ 1 ] und = [ 1 ] der = [ 1 ] 2. Schritt: ist = [ 1 ] das = [ 1, 1 ] dritte = [ 1 ] 3. Schritt:... sortieren das = [ 1, 1 ] und = [ 1 ] der = [ 1, 1, 1 ] ist = [ 1, 1, 1 ] dritte = [ 1 ] ein = [ 1 ] satz = [ 1, 1, 1 ] zweite = [ 1 ] letzte = [ 1 ] Laufzeitumgebung 32

33 5) count of frequency das = [ 1, 1 ] > [ 2 ] und = [ 1 ] > [ 1 ] der = [ 1, 1, 1 ] > [ 3 ] ist = [ 1, 1, 1 ] > [ 3 ] dritte = [ 1 ] > [ 1 ] ein = [ 1 ] > [ 1 ] satz = [ 1, 1, 1 ] > [ 3 ] zweite = [ 1 ] > [ 1 ] letzte = [ 1 ] > [ 1 ] Laufzeitumgebung Laufzeitumgebung reduce ("das", 2) ("und", 1) ("der", 3) ("ist", 3) ("dritte", 1) ("ein", 1) ("satz", 3) ("zweite", 1) ("letzte", 1) reduce(string word, String values): int result = 0; for each v in values: result += ParseInt(v); return result; 33

34 5) count of frequency Text = "Das ist ein Satz. Und das ist der zweite Satz. Der dritte Satz ist der Letzte." A = map("satz_1", "das ist ein satz") B =... ("das", 2) ("und", 1) ("der", 3) ("ist", 3) ("dritte", 1) ("ein", 1) ("satz", 3) ("zweite", 1) ("letzte", 1) A = [ ("das", 1), ("ist", 1),...] B = Schritt: das = [ 1 ] und = [ 1 ] der = [ 1 ]... sortieren 34 das = [ 1, 1 ] > [ 2 ] und = [ 1 ] > [ 1 ] der = [ 1, 1, 1 ] > [ 3 ] ist = [ 1, 1, 1 ] > [ 3 ] dritte = [ 1 ] > [ 1 ] ein = [ 1 ] > [ 1 ] satz = [ 1, 1, 1 ] > [ 3 ] zweite = [ 1 ] > [ 1 ] letzte = [ 1 ] > [ 1 ]

36 6) Fehlerbehandlung regelmäßiges Anpingen der Worker vom Master falls sich der Worker nicht zurückmeldet: failed Zurücksetzen aller von ihm aktuell ausgeführten Map und ReduceAufgaben sowie der von ihm User erledigten MapAufgaben Program (1) fork (1) fork (1) fork (2) assign map Master (2) assign reduce worker split 0 split 1 split 2 (3) read (4) local write worker (5) remote (5) read worker (6) write output file 0 split 3 split 4 worker output file 1 worker Input files Map phasr Intermediate files (on local disks) Reduce phase Output files Fig. 1. Execution overview. 36

38 7) Straggler Straggler = Nachzügler fast alle Map und Reduce Aufgaben sind bereits erledigt noch nicht abgeschlossene Aufgaben werden zusätzlich noch weitere Worker verteilt es wird dann diejenige Ausführung verwendet, die als erstes fertig ist und die Operation gilt als beendet User Program (1) fork (1) fork Geschwindigkeitszuwachs um (1) fork bis zu 40% möglich (2) assign map Master (2) assign reduce worker split 0 split 1 split 2 (3) read (4) local write worker (5) remote (5) read worker (6) write output file 0 split 3 split 4 worker output file 1 worker Input files Map phasr Intermediate files (on local disks) Reduce phase Output files Fig. 1. Execution overview. 38

39 7) Performance MapReduceProgramm: Sortiertask, der ca. 1 TB Daten sortiert Cluster mit 1800 Rechnern à 2 GHz dualcore Xeon Prozessor, 4 GB Arbeitsspeicher und Gigabit LAN 39

40 MapReduce Quellen: [1] J. Dean, S. Ghemawat. MapReduce: Simplified Data Processing on Large Clusters, Januar 2008 [2] C. Ranger, R. Raghuraman, A. Penmetsa, G. Bradski, C. Kozyrakis. Evaluating MapReduce for MultiCore and Multiprocessor Systems, 2007 [3] M. Philippsen. Parallele und funktionale Programmierung, SS2009 [4] A. Martens. Neue Ansätze der Softwarequalitätssicherung. SS 2009 [5] R. Lämmel. Google s MapReduce programming model. Juli