Data Mining und Machine Learning

Transkript

1 Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015

2 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende Betrachtungen

3 Verteiltes Rechnen Paralleles Rechnen Ziel: Effizientes Mining auf Datenmengen im TB-Bereich, z.b. Klassifizierung von Web Seiten Web Page Ranking Communities in sozialen Netzwerken Computercluster (mit konventionellen Prozessoren) statt Supercomputer Distributed File Systems (DFS): Massendatenspeicherung Map Reduce Anwendungsverbund: Framework zur Verteilung gängiger Algorithmen Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

4 Verteiltes Rechnen Ausfallsicheres paralleles Rechnen Ziel: Ausfall einer Komponente in einem parallelen Verbund darf nicht zum Abbruch des gesamten Algorithmus führen. 1 DFS: Racks mit Nodes Annahme: Datensätze ab 1 TB, nur Lesezugriff Scatter-Gather-Technik Rohdateienpartitionen: 3-fach replizierte 64 MB- Chunks 2 auf verschiedenen Racks zzgl. Master Node Konfigurierbarer Replikationsgrad Implementierungen: Hadoop, Google File System, etc 1 Ggf. würden lang andauernde Algorithmen nie erfolgreich beendet 2 Dt.: Stücke Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

5 Map Reduce Allgemeine Sicht Quelldatei partitioniert in 64MB- Portionen Chunk 1 Chunk 2 Chunk n m Map Tasks parallel Key -Value- Paare x1 x2 x3 x1 x4 x5 x2 x3 x6 x2 v1 v2 v3 v4 v5 v6 v7 v3 v4 v1 Nach Keys gruppieren und in Buckets einordnen x1 x4 x7 x10 x2 x5 X8 x11 x3 x6 x9 x12 r Buckets mit Key-Values- Paaren [v1,v4] [v5] [] [] [v2,v7,v1] [v6] [] [] [v3,v3] [v4] [] [] r Reduce Tasks parallel x1 x4 x7 x10 x2 x5 X8 x11 x3 x6 x9 x12 Key- Value- Paar- Blöcke s1 s4 s7 s10 s2 s5 s8 s11 s3 s6 s9 s12 Zusammen -fassen x1 x2 x3 x4 x5 x6 Key- Value- Paare s1 s2 s3 s4 s5 s6 Legende: Blau: Durchgeführt vom Framework Rot: Algorithmusspezifische Implementierung Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

6 Map Reduce Map Reduce Prozess Eingabe: Eine Datei mit Elementen 3 beliebigen Typs evtl. partitioniert in Chunks. Ausgabe: eine Ergebnis-Repräsentation des Algorithmus als Liste von Schlüssel-Wert-Paaren Algorithmusunabhängige Aktionen (im Framework) Verwalten von m nebenläufigen individuellen Map Tasks Gruppieren u. Hashen der Key -Value-Paare in r Buckets ( Intermediate Data ) Verwalten von r nebenläufigen individuellen Reduce Tasks Fehlerbehandlung bei abgebrochenen Tasks durch Restart Vom Algorithmiker zu implementieren: Map-Methode: Input = Ein Chunk. Output eine Liste von Schlüssel -Wert-Paaren Reduce-Methode: Input = Eine Liste von Paaren aus (wirklichem) Schlüssel und Datenliste. Output: Diese Liste, in der die zweite Komponente der Paare ausgerechnet ist 3 Elemente = Atomare Bestandteile der Eingabe-Datei, z.b. Worte eines Dokumentes, Zahlen einer Tabelle, etc. r. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

7 Map Reduce Beispiel Gegeben: Textdokument d. Gefragt: Wie oft kommt jedes Wort in d vor? Lösungsidee: 1 Partitioniere d in n Chunks c 1,..., c n 2 Map Task m i zählt Worte in c i. Ausgabe: Liste von Paaren (w, h w i ) (hw i : Häufigkeit von w in c i) 3 Reduce Tasks: Für jedes w bilde die Gesamthäufigkeit h w = n i=0 hw i und gib Liste mit Eingträgen (w, h w ) aus. Vereinfachung: Da in der Map Task Ausgabe ein Wort w (noch) mehrfach vorkommen darf, kann man statt (w, 3) auch (w, 1), (w, 1), (w, 1) ausgeben. Java Demo r. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

8 Map Reduce Exkurs Hashfunktion Eine surjektive Funktion heißt Hashfunktion. h K {0,..., r 1} Ziel: Partitioniere (eine große Menge) K in eine begrenzte Anzahl r von Buckets, so dass die Buckets ungefähr gleichgroß sind Beispiele: K = N, h(n) = (n mod r) K = String, h(w) = w.firstcharacter.asciicode Aufgabe: K = {2n n N}. Welche r verteilen gleichmäßig auf r Buckets, wenn man mod r rechnet? Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

9 Map Reduce Typische Größenordnungen und Ablauf Chunkgröße: 64 MB historisch entstanden, konfigurierbar Google-Implementation: Cluster-Topologie mit handelsüblichen PCs als Nodes, s. [DG04] 4 : w Workers (Nodes), m Map Tasks, r Reduce Tasks, 1 Master-Task: Eine typische Gesamtgröße der Eingabe ist 10 TB, damit etwa Chunks m = Map Tasks, Geht man davon aus, dass 20 GB lokale Festplatte (Platz für 100 Chunks in dreifacher Kopie) zur Verfügung stehen, ergibt sich w = m/100 = 2000 Damit auch dynamisches Load Balancing gut möglich Schnelles Wiederaufsetzen bei Worker-Ausfall: Viele kleine Tasks können auf andere Worker gleichmäßig verteilt werden r sollte kleines Vielfaches von w sein (fast vollständige Verteilung), z.b. r = 5000 Worker übernehmen sowohl Map- als auch Reduce-Tasks 4 [DG04]: J.Dean, S.Ghemamat: MapReduce: Simplified data processing on large clusters. In Proc. of the 6th conf. on Operating Systems Design and Implementation, Vol. 6, San Francisco, CA, 2004 Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

10 Map Reduce Ablauf Master verteilt Tasks auf Worker, verwaltet Task-Zustände (idle, in-progress, completed) und für jeden Map Task Speicherort, Dateiname, Größe der Reduce-Inputs Ergebnis der Map-Methode eines Map-Tasks im Hauptspeicher des Workers Regelmäßiges Speichern auf lokaler Festplatte (dabei Erzeugen der Listen pro Key) partitioniert gemäß Hash-Funktion Übermittlung dieser Speicherinfos an den Master bei Map-Task-Terminierung Jedem Reduce-Job werden die Speicherorte seiner Daten durch Master mitgeteilt Lesen dieser Daten erzeugt einzigen nennenswerten Netzverkehr Reducer-Output: r Dateien, die von einem Requester zu Gesamtergebnis zusammengesetzt werden Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

11 Anwendungen Entstehung und Einsatz Ursprung: Google s PageRank für Berechnungen auf sehr großen Matrizen (Zeilenzahl > ) Später: Operationen auf relationalen Datenbanken, z.b. Berechnung von Joins Keine Lösung für Anwendungen... mit geringer Datenmenge, wenn wenig gerechnet wird, wenn Daten manipuliert werden Grundidee: Wenn verschiedene MapTasks für ein- und denselben Ergebnisteil des Gesamtalgorithmus arbeiten, müssen Keys diese Ergebnisteile berücksichtigen. Bsp.: Ein Ergebnisteil ist ein Paar (w, h w ) Ein Key ist ein einzelnes Wort r. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

12 Anwendungen Erinnerung: Matrix-Vektor Multiplikation m 11 m 12 m 1n n j=1 m 1jv j m M v = 21 m 22 m 2n v 2 = n j=1 m 2jv j m n1 m n2 m nn v n n j=1 m njv j v 1 Bsp.: 0 1/ / /2 1/ /2 1/3 1/ /4 1/4 1/4 1/4 = 3/8 5/24 5/24 5/24 Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

13 Anwendungen Matrix-Vektor-Multiplikation M v mit Map Reduce Gesamtmatrix M ist zerlegt in Chunks, z.b. quadratische Matrizen C 1,..., C p Input für Map Task: (C k, v) C 1 C 2... M = C p Die Ergebnisteile von w = M v sind die Einträge w i von w. Da w i = (i.te Zeile von M) v, arbeiten an der Berechnung von w i mehrere Map Tasks. Um deren Ergebnisse zu w i zu kombinieren, muss i im Key sein. Map Task berechnet Paare (i, m ij v j ), Reduce Task summiert für jedes i die Produkte (zweiten Komponenten) Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

14 Anwendungen Operationen auf Relationen... Typische DB-Queries: Selektion, Projektion, Vereinigung, Join, Gruppieren, Aggregieren. Abstraktion: R T 1 T n heißt n-stellige Relation. Schreibweise mit Attributen (Projektionsnamen): R(A 1,..., A n ) Beispiele: Projektion: Sei S = {i 1,... i r } {1,..., n}. π S (R) = {(x i1, x i2,..., x ir ) (y 1,..., y n ) R mit j x ij = y ij } (Natürlicher) Join: R(A 1,..., A n ), R (A 1,..., A m). A 1 = A 1,... A k = A k für ein k min{n, m}. R R = {(x 1,..., x k, x k+1,..., x n, y k+1,... y m ) (x 1,..., x n ) R, (x 1,..., x k, y k+1,..., y m ) R } r. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

15 Anwendungen Projektion mit Map Reduce A 1 A 2 A 3 1 a b R(A 1, A 2, A 3 ) = 1 c b 2 c b 2 a d A 1 A 3 1 b mit S = {1, 3}. π S (R) =? 2 b 2 d Map-Reduce-Implementierung? Map: Für Zeile (x 1, x 2, x 3 ) R erzeuge ((x 1, x 3 ), (x 1, x 3 )). Reduce: Für jeden Input (k, [v,..., v]) erzeuge (k, v). Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

16 Anwendungen Join mit Map Reduce R(A, B, C) = A B C 1 a b 1 c b 2 c b 2 a d, R (A, B, D) = A B D 1 b b 2 c g 2 a f 2 a h R R =? A B C D 2 c b g 2 a d f 2 a d h Map-Reduce-Implementierung? Map-Outputs: ((x A, x B ), (R, x C )) bzw. ((x A, x B ), (R, x D )) Reduce: Für alle ((x A, x B ), L = [(R ( ), y 1 ),..., (R ( ), y k )]) erzeuge alle Kombinationen (x A, x B, y, y ), wenn (R, y) und (R, y ) in L waren. r. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

17 Map Reduce: Weiterführende Betrachtungen Varianten Combiners: Map-Erweiterung zur Reduktion des Netzverkehrs (z.b. (w, n) statt n mal (w, 1)) Combiner-Code im Reducer wiederverwenden Reducer-Operation muss für Combiner assoziativ und kommutativ sein (e.g. Addition) Map-Ausgaben über Queues in Reducer-Eingaben Vorgefertigte Ein- und Ausgabetypen Fortschrittsanzeigen / Analysen durch Master z.b. auf Web-Server (Überwachung, Finden performanzkritischer Bereiche) r. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

18 Map Reduce: Weiterführende Betrachtungen Workflows Klassisch: Map Reduce Verallgemeinerung a3 a1 a5 a4 Beispiel (transitiver Abschluss): MapJoin ReduceJoin Ergebnis verändert? Nein Ja Freiere Modellierung, z.b. Optimierung von Map-Reduce-Kaskaden in flexiblere Prozessmodelle (s. [RU], 2.4) Beispiel: Trans(R(X, Y )), R A A R 0 = R, R k+1 = π X,Z (R k (X, Y ) R(Y, Z)) R k (X, Z) Zusätzliche Tasks: Abbruchbedingung, Relationenaufbereitung Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22