MapReduce. Jens Dörre. Universität Passau Projekt MAPREDUCEFOUNDATION. Funktionale Programmierung

Transkript

1 MapReduce Jens Dörre Universität Passau Projekt MAPREDUCEFOUNDATION Funktionale Programmierung Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 1 / 25

2 Gliederung 1 MapReduce allgemein 2 MapReduce in Haskell Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 2 / 25

4 Parallele und verteilte Systeme Theorie Nischendasein: keine von-neumann-architektur Praxis Standard-Hardware In allen Maßstäben (unsichtbar) vorhanden CPU: Bit, Instruktion, Hardware-Thread, Multicore Verteilt: Cluster, Grid, Cloud Spezialfälle Itanium, Cell, GPUs Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 4 / 25

5 Parallele und verteilte Systeme: Probleme Niedrige Abstraktionsebene Lösung: Explizite Parallelität Schwierig zu schreiben: Synchronisationscode Oft geringer Parallelitätsgrad Geringe Portabilität geringe Skalierbarkeit Konzentration auf einfache Problemklasse: massive Datenparallelität Enter MapReduce! Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 5 / 25

6 MapReduce: Schematischer Überblick Allgemeiner Ablauf einer MapReduce-Berechnung partition1 partition2 partition3 partition4 partition5 Mapper Mapper Mapper Reducer Reducer output1 output2 output3 output4 partition6 Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 6 / 25

7 MapReduce: Schematischer Überblick (2) Verteilter Ablauf einer MapReduce-Berechnung partition1 partition2 output1 Mapper partition3 Reducer output2 Mapper partition4 Reducer output3 Mapper partition5 output4 partition6 Verteilte Ein- und Ausgabedaten Mapper- und Reducer-Tasks werden verteilt ausgeführt Möglichst lokale Ausführung des Mappers bei seinen Daten Entfernte Kommunikation zwischen jedem Mapper und jedem Reducer Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 7 / 25

8 MapReduce-Beispiel Google: Erzeugung eines invertierten Indexes ( invertierte Datei ) Eingabe: sehr viele Textdokumente Ausgabe: Index (Wort DokumentIDs) Abarbeitung in zwei Phasen 1 Map pro Dokument: Erzeuge Liste von Paaren (Wort, DokumentID) 2 Reduce pro Wort: Erzeuge Paar (Wort, sortierte Liste aller zugehörigen DokumentIDs) Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 8 / 25

9 MapReduce Was ist MapReduce? Ein Algorithmenskelett, vergleichbar mit Divide-and-Conquer, dem Tiefensuch-Vorgehen, Taskfarming und vielen anderen. Wie sieht MapReduce aus? Anwendungsspezifisches Eingabeformat Schlüssel/Wert-Paare als Ausgabe Anwender spezifiziert Algorithmus mittels zweier Funktionen Mapper erzeugt Zwischenergebnisse (Schlüssel/Wert-Paare) aus jedem Eingabedatum Reducer, angewendet auf alle Zwischenergebnisse mit demselben Schlüssel, erzeugt beliebig viele/wenige Endergebnisse Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 9 / 25

10 MapReduce: Eigenschaften Programmiermodell für massiv verteilte Ausführung (einige Tausend Rechner) Datenparallelität als Basis Durch Google (2004) populär Beispiel-Anwendung: Generierung des Indexes für die Web-Suche Tausende weitere Anwendungen im Einsatz mit einem Durchsatz von Petabytes pro Tag Clustering Häufigste Anfragen Extraktion semantischer Daten Framework mit zwei funktionalen Konzepten: map/concatmap und teilweise fold/scan Imperativer Benutzercode möglich Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 10 / 25

11 MapReduce: Vorteile Ermöglicht erst das Petascale-Computing Einfaches, aber breit anwendbares Programmiermodell Masse an Daten Notwendige Flexibilität Sequenzielle (=einfache) Sicht auf paralleles und verteiltes System Akzeptanz bei Mainstream-Programmierern Eingebaute Fehlertoleranz in vielen Frameworks Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 11 / 25

12 Implementierungen von MapReduce Google MapReduce Nicht erhältlich Verteilte C++-Implementierung Apache Hadoop MapReduce Open Source ( Entwickelt bei Yahoo Nutzbar bei Amazon als Elastic MapReduce -Service Verteilte Java-Implementierung Durch stdin/stdout Interface auch mit anderen Sprachen verwendbar Nokia Disco Open Source Verteilte Erlang+Python-Implementierung... Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 12 / 25

13 Erweiterungen von MapReduce Schlüssel werden sortiert verarbeitet Benutzerdefinierte Ein- und Ausgabeformate Benutzerdefinierte Splitter zur Partitionierung der Daten Combiner: zusätzlicher, Reduce-ähnlicher Schritt direkt im Anschluss an Mapper Fehlerhafte Daten werden mehrfach zu verarbeiten versucht, dann ignoriert Verschiedene Debugging- und Reporting-Möglichkeiten Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 13 / 25

14 Phasen bei der verteilten Abarbeitung Sequenzielle Sicht auf ein einzelnes Datum original map phase in split1 map split2 sorta combine original reduce phase send sortb reduce out Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 14 / 25

16 Modellierung mit Haskell Vereinfachungen 1 lokaler Thread statt verteilter Cluster Daher keine Partitionierung für verschiedene Rechenknoten Keine Ein-/Ausgabe Daher Berechnung im vorhandenen Hauptspeicher Sortier-Erweiterung ist vorhanden Combiner, Splitter,... sind nicht vorhanden Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 16 / 25

17 Das Framework in Haskell Typsignatur: mapreduce :: forall k1 k2 v1 v2 v3. (Ord k2) -- Needed for grouping and sorting => (k1 -> v1 -> [(k2,v2)]) -- The * mapper * function -> (k2 -> [v2] -> [v3]) -- The * reducer * function -> [(k1,v1)] -- An input key-value mapping -> [(k2,v3)] -- An output key-value mapping Funktion höherer Ordnung Zwei benutzerdefinierte Funktionen als Parameter Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 17 / 25

18 Die Phasen in Haskell Typsignatur: mapreduce :: forall k1 k2 v1 v2 v3. (Ord k2) -- Needed for grouping and sorting => (k1 -> v1 -> [(k2,v2)]) -- The * mapper * function -> (k2 -> [v2] -> [v3]) -- The * reducer * function -> [(k1,v1)] -- An input key-value mapping -> [(k2,v3)] -- An output key-value mapping 3 Hauptphasen in dieser Implementierung Map, Group/Shuffle, Reduce mapreduce mapper reducer = reduceperkey -- C. Apply * reducer * to each group. groupbykey -- B. Group intermediate data per key. mapperkey -- A. Apply * mapper * to each key/value pair Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 18 / 25

19 Mehr Details mapreduce mapper reducer = reduceperkey -- C. Apply * reducer * to each group. groupbykey -- B. Group intermediate data per key. mapperkey -- A. Apply * mapper * to each key/value pair where reduceperkey :: [(k2,[v2])] -> [(k2,v3)] reduceperkey = concatwithkey Concatenate per-key lists. mapwithkey (uncurry reducer) Apply * reducer * per key groupbykey :: [(k2,v2)] -> [(k2,[v2])] groupbykey = unconcatwithkey Store key only once per group. groupby fsteq Group on same key. sortby fstcmp Sort on keys (*not* on values) mapperkey :: [(k1,v1)] -> [(k2,v2)] mapperkey = concat Concatenate per-key lists. map (uncurry mapper) Map * mapper * over list of pairs Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 19 / 25

20 Beispiel-Code Invertierter Index (Anfangsbeispiel): module InvertedIndex where import MapReduce import Data.List (sort) invertedindex :: (Ord a) => [(a, String)] -> [(String, [a])] invertedindex = mapreduce mapper reducer where mapper key = (map (flip (,) key). words) -- each word with its docid reducer = const (wrap. sort) -- sort each result list wrap x = [x] simpleinput :: [(String, String)] simpleinput = ins "doc2" "appreciate the unfold" $ ins "doc1" "fold the fold" $ [] where ins k v = ((k,v) : ) Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 20 / 25

21 Zusammenfassung Parallelität und Verteiltes Rechnen schwierig MapReduce-Framework ermöglicht Konzentration auf Anwendung MapReduce erweitert Ansätze wie SETI um Group und Reduce breitere Anwendbarkeit Mit Wissen aus Funktionalprogrammierung: keine Magie dahinter Algorithmen müssen für MapReduce stark angepasst werden Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 21 / 25

22 Es folgen (optionale und alternative) Folien mit noch mehr Details der Haskell-Implementierung von MapReduce. Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 22 / 25

23 Alle Details reduceperkey :: [(k2,[v2])] -> [(k2,v3)] reduceperkey = concatwithkey Concatenate per-key lists. mapwithkey (uncurry reducer) Apply * reducer * per key where mapwithkey f = let g (k,v) = (k, f (k,v)) in map g concatwithkey k_vs_s = [(k,v) (k,vs) <- k_vs_s, v <- vs] groupbykey :: [(k2,v2)] -> [(k2,[v2])] groupbykey = unconcatwithkey Store key only once per group. groupby fsteq Group on same key. sortby fstcmp Sort on keys (*not* on values) where fsteq (k,_v) (k,_v ) = k==k fstcmp (k,_v) (k,_v ) = k compare k unconcatwithkey kv_ss = [(k, vs) kv_s <- kv_ss, let k = fst $ head kv_s, let vs = map snd kv_s] mapperkey :: [(k1,v1)] -> [(k2,v2)] mapperkey = concat Concatenate per-key lists. map (uncurry mapper) Map * mapper * over list of pairs Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 23 / 25

24 Mit fehlenden Details Allgemein: {-# LANGUAGE ScopedTypeVariables #-} module MapReduce (mapreduce) where import Data.List(groupBy, sortby) Für reduceperkey und groupbykey: reduceperkey :: [(k2,[v2])] -> [(k2,v3)] reduceperkey = concatwithkey Concatenate per-key lists. mapwithkey (uncurry reducer) Apply * reducer * per key where mapwithkey f = let g (k,v) = (k, f (k,v)) in map g concatwithkey k_vs_s = [(k,v) (k,vs) <- k_vs_s, v <- vs] groupbykey :: [(k2,v2)] -> [(k2,[v2])] groupbykey = unconcatwithkey Store key only once per group. groupby fsteq Group on same key. sortby fstcmp Sort on keys (*not* on values) where fsteq (k,_v) (k,_v ) = k==k fstcmp (k,_v) (k,_v ) = k compare k unconcatwithkey kv_ss = [(k, vs) kv_s <- kv_ss, let k = fst $ head kv_s, let vs = map snd kv_s] Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 24 / 25

25 Alle Hilfsdefinitionen Allgemein: {-# LANGUAGE ScopedTypeVariables #-} module MapReduce (mapreduce) where import Data.List(groupBy, sortby) Für reduceperkey: mapwithkey f = let g (k,v) = (k, f (k,v)) in map g concatwithkey k_vs_s = [(k,v) (k,vs) <- k_vs_s, v <- vs] Für groupbykey: fsteq (k,_v) (k,_v ) = k==k fstcmp (k,_v) (k,_v ) = k compare k unconcatwithkey kv_ss = [(k, vs) kv_s <- kv_ss, let k = fst $ head kv_s, let vs = map snd kv_s] Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 25 / 25