Cloud Data Management

Transkript

1 Cloud Data Management Kapitel 5: MapReduce Dr. Michael Hartung Sommersemester 2012 Universität Leipzig Institut für Informatik 1

2 Inhaltsverzeichnis MapReduce MapReduce-Umsetzung für populäre Algorithmen Termhäufigkeit und Inverted Index Ähnlichkeitsberechnung im Vector Space Modell PageRank k-means Clustering Hadoop-Framework Lastbalancierung für MapReduce am Beispiel Entity Matching 2

3 Parallele Programmierung Effiziente Verarbeitung großer Datenmengen erfordert verteilte Berechnung auf mehreren Knoten Divide-and-Conquer: Aufteilung in kleine(re) Sub-Tasks, unabhängige Ausführung und Kombination der Ergebnisse Probleme Zerlegung des Problems in parallel ausführbare Teilprobleme (Tasks) Zuordnung von Tasks zu Knoten/Prozessen (Workers) Bereitstellen der notwendigen Daten pro Worker (Datenzugriff bei Shared Memory) Synchronisation verschiedener Worker (u.a. Deadlock-Vermeidung) Behandlung von Hardware-Ausfällen... Programmier-Frameworks: OpenMP, MPI Logische Abstraktion der Parallelisierung (u.a. durch Funktionen) Fokus auf CPU-intensive Anwendungen Datenbereitstellung muss durch Programmierer realisiert werden 3

4 MapReduce Framework zur automatischen Parallelisierung von Auswertungen auf großen Datenmengen [MapReduce] Nutzung v.a. zur Verarbeitung riesiger Mengen teilstrukturierter Daten in einem verteilten Dateisystem Konstruktion Suchmaschinenindex Clusterung von News-Artikeln Spam-Erkennung Ausnutzung vorhandener Datenpartitionierung (GFS, Bigtable) Verwenden zweier Funktionen Map und Reduce Map: Verarbeitung von Key-Value-Paaren, Generierung und dynamische Partitionierung von Zwischenergebnissen (abgeleitete Key-Value-Paare) Reduce: Mischen aller Zwischenergebnisse mit demselben Key; Datenreduktion; Generierung von Key-Value Paaren als Endergebnis 4

5 Hintergrund: Funktionale Programmierung Funktion map: (Funktion, Liste) Liste Wendet eine übergebene Funktion f: x y auf jedes Element der Liste an Bsp: map ( x*x, [1,2,3,4,5]) Funktion fold: (Funktion, Startwert, Liste) Wert Wendet eine übergebene Funktion g : x,y z sukzessive auf die Elemente der Liste an und erzeugt einen (kombinierten) Wert Bsp: fold ( x+y, 0, [1, 4, 9, 16, 25 ]) 5

6 MapReduce: Datenfluss-Beispiel Bestimmen der höchsten aufgezeichneten Temperatur pro Jahr in einem großen ASCII-Files mit Wetterdaten Zeile: N k 1 vom Typ Long (File-Offset) v 1 vom Typ String (Zeile selbst) pro (k 1,v 1 )-Paar wird ein (k 2,v 2 )-Paar erzeugt (1-elementige Liste) Sortieren der (k 2,v 2 )-Paare und gruppieren nach k 2 Zusammenfassung (Maximum) Aller v 2 zu einem k 2 (1-elementige Liste) Adaptiert von: Hadoop The Definitive Guide, 2009, Tom White, O Reilly 6

7 MapReduce: Ausführung Parallele Ausführung der Map- und Reduce-Funktionen Lokale Speicherung des partitionierten Map-Outputs Reducer holen sich ihren Input ab Quelle: course/advanceddatamanagement/ Output d. Mapper sortiert und partitioniert nach Key Output der Mapper mit selbem Key wird vom selben Reducer bearbeitet Reducer mischen sortierten Map-Output und übergeben 7(k 2,list(v 2 )) an reduce-funktion r

8 MapReduce: Programmdefinition Konfiguration der Map- und Reduce-Tasks m = Anzahl der Map-Tasks r = Anzahl der Reduce-Tasks Definition der Programm-Logik in Programmiersprache (z.b. Java) map : (key in, value in ) list (key tmp, value tmp ) reduce : (key tmp, list (value tmp )) list (key out, value out ) Funktionen zur Steuerung des Datenflusses (Optional) comp: Vergleichsfunktion zweier Keys Default: Standard-Vergleichsfunktion bei einfachen Datentypen (z.b. String, Int) part: Partitionierungsfunktion, d.h. Zuordnung von Keys zu Reduce-Tasks Default: Hashwert(Key) modulo r group: Gruppierung der Keys pro Aufruf der Reduce-Funktion Default: Key Definition des MR-Programms unabhängig von Cloud-Umgebung z.b. Anzahl Knoten, Anzahl Prozesse,... Kenntnis des Umgebung für Optimierung nützlich (z.b. m=anzahl Prozesse) 8

10 Termhäufigkeit + MapReduce Bestimmung der Häufigkeit eines Terms in einer Dokumentenkollektion Beispiel: Parallelisierbar Map Dokumente können unabhängig voneinander bearbeitet werden Termhäufigkeit = Summe der Termhäufigkeit in Dokumenten Eingabe: Dokumentenmenge Ausgabe: Für jedes Term-Auftreten Paar (Term, 1) Shuffle + Sort Sortierung und Gruppierung nach Key, d.h. Term Reduce Dokumente d1: A A B C d2: B D D d3: A B B E Termhäufigkeit A 3 B 4 C 1 D 2 E 1 Zählen der Vorkommen (Term, 1) pro Term 10

11 Termhäufigkeit + MapReduce: Beispiel d1: A A B C (A, 3) d2: B D D (B, 4) map shuffle + sort reduce (C, 1) d3: A B B E (D, 2) (E, 1) 11

12 Inverted Index + MapReduce Index-Struktur für Terme einer Dokumentenkollektion Zuordnung: Term Liste der Dokumente, die Term enthalten Erweiterungen: Termhäufigkeit im Dokument, Position im Dokument,... Suchanfrage nach Termen kann effizient durch Index realisiert werden Unterstützung von AND, OR und NOT durch Mengenoperationen Beispiel Map Ausgabe (Term, Dokument) für jeden Term Reduce Dokumente d1: A A B C d2: B D D d3: A B B E Inverted Index A d1,d3 B d1,d2,d3 C d1 D d2 E d3 Konkatenation zu Dokumentenliste für jeden Term Anfrage A AND B {d1,d3} {d1,d2,d3} = {d1,d3} 12

13 Inverted Index + MapReduce: Beispiel d1: A A B C (A, d1) (A, d3) (A,(d1,d3)) d2: B D D map shuffle + sort (B, d1) (B, d2) (B, d3) (C, d1) reduce (B,(d1,d2,d3) (C,(d1)) d3: A B B E (D, d2) (D,(d2)) (E, d3) (E,(d3)) 13

14 Vector Space Modell Repräsentation von Objekten als Vektoren Information Retrieval Dokument: Term-Vektor mit Gewicht (z.b. TF*IDF) Finden ähnlicher Dokumente: (Fast) Duplikate (Plagiate), Clustering, Anfragen,... Recommendations und soziale Netzwerke Nutzer-Präferenzen und Items (z.b. Filme) als Vektoren Finden potenziell interessanter Filme für Nutzer, potenzieller Freunde,... Ähnlichkeit = Kosinus-Ähnlichkeit der Vektoren Quelle: Wikimedia Beispiel: Dokumente d1: A A B C d2: B D D d3: A B B E Vektoren d1:[ ] d2:[ ] d3:[ ] 14 sim(d1, d3)

15 Vector Space Modell + MapReduce Vorgehen Inverted Index für Dokumente liegt vor inkl. Termhäufigkeit pro Dokument Nenner : Vektorlängen bestimmen (einfach) Zähler : Skalarprodukt (etwas schwieriger) Skalarprodukt map Eingabe: Pro Term Liste von Dokumenten (inkl. Termhäufigkeit in Dokument) es genügt die von Null verschiedenen Summanden zu bestimmen Key = Dokumenten-Paar, bei dem beide Dokumente den Term enthalten Value = Summanden ( 0) pro Term=Dimension reduce Key = Dokumenten-Paar Value = Summe der Summanden 15

16 Skalarprodukt + MapReduce: Beispiel (A,(d1:2,d3:1)) ((d1,d2), 1) (B,(d1:1, d2:1,d3:2)) (C,(d1:1)) map shuffle + sort reduce ((d1,d3), 4) (D,(d2:2)) ((d2,d3), 2) (E,(d3:1)) 16

17 PageRank Verfahren zur Gewichtung verlinkter Dokumente Basis für Ranking bei Google Rank = IR Score PageRank IR Score = Relevanz des Dokumentinhalts bzgl. Suchbegriff PageRank eines Dokumentes D abhängig von Anzahl PageRank der auf D verweisenden Dokumente Modelliert einen Zufalls-Surfer, der auf einer Seite mit Wahrscheinlichkeit d zufällig auf einen ausgehenden Link klickt mit Wahrscheinlichkeit (1-d) auf Link zu einer anderen Seite (der Website) klickt PageRank = Wahrscheinlichkeit, dass sich Nutzer auf der Seite befindet 17 Quelle: Wikimedia

18 PageRank: Algorithmus PR(p) = PageRank von p L IN (p) = Menge der Dokumente, die auf p verweisen (eingehende Links) L OUT (p) = Menge der Dokumente auf die p verweist (ausgehende Links) d = Dämpfungsfaktor (meist:0.85) ( p) = ( d ) PR 1 Berechnung + d L ( p) ( p ) i ( p) algebraisch (lineares Gleichungssystem mit N Variablen und N Gleichungen) iterativ (Potenzmethode) mit initialien PageRank-Werten p i IN PR L OUT 18

19 PageRank: Beispiel PR(A) = (1-d) + d (PR(C)) PR(B) = (1-d) + d (PR(A)/2) PR(C) = (1-d) + d (PR(A)/2+PR(B)) B A C Umwandlung in Iterations-Gleichungen mit d=0.5: PR n+1 (A) = (PR n (C)) PR n+1 (B) = (PR n (A)/2) PR n+1 (C) = (PR n (A)/2+PR n (B)) Ergebnis der Iteration mit PR 0 (A) = PR 0 (B) = PR 0 (C) = 1: PR A B C

20 PageRank + MapReduce Parallelisierbar, weil Map n+1-te Iteration hängt nur von Werten der n-ten Iteration ab Berechnung der PR-Werte für verschiedene Dokumente unabhängig Eingabe: Dokument, aktueller PageRank und ausgehende Links L OUT (A) Berechne für jeden Link A B den Summenanteil, den A für B beisteuert Ausgabe: (B, PR(A)/ L OUT (A) ) für alle B M(A) Zusatzausgabe: (A, L OUT (A)) ( durchschleifen ) Reduce Eingabe: Dokument X mit Summenanteilen der eingehenden Links sowie Liste der ausgehenden Links L OUT (X) Berechne PageRank als Summe inkl. Dämpfung Ausgabe: (X, PageRank, List der ausgehenden Links L OUT (X)) Iteration mit mehreren MR-Schritten Abbruchkriterium prüfen nach jedem Schritt (#Iteration, PR-Werte,...) 20

21 PageRank + MapReduce: Beispiel (A, (1,B,C)) Step 1 (B, (1,C)) (C, (1,A)) map shuffle + sort reduce Step 2 (A,(1,B,C)) (B,(0.75,C)) (C,(1.25,A)) map (B,0.5) (C,0.5) (A,(B,C)) (C,0.75) (B,C)) (A,1.25) (C,A)) shuffle + sort 21 (A,1.25) (A,(B,C)) (B,0.5) (B,C)) (C,0.5) (C,0.75) (C,A)) reduce (A,(1.125,B,C)) (B,(0.75,C)) (C,(1.125,(C,A))

22 Clusteranalyse Ziele automatische Identifikation einer endlichen Menge von Kategorien, Klassen oder Gruppen (Cluster) in den Daten Objekte im gleichen Cluster sollen möglichst ähnlich sein Objekte aus verschiedenen Clustern sollen möglichst unähnlich zueinander sein Ähnlichkeitsbestimmung meist: Distanzfunktion dist(x,y) für Paare von Objekten x und y z.b. Euklidische Distanz für numerische Attribute: dist ( x, y) = ( xi yi) spezielle Funktionen für kategorische Attribute oder Textdokumente d 2 i= 1 Clustering-Ansätze: partitionierend, hierarchisch, dichtebasiert,... 22

23 k-means Algorithmus Ausgangssituation Objekte besitzen Distanzfunktion für jedes Cluster kann ein Clusterzentrum bestimmt werden ( Mittelwert ) Anzahl k der Cluster wird vorgegeben Basis-Algorithmus Schritt 1 (Initialisierung): k Clusterzentren werden (zufällig) gewählt Schritt 2 (Zuordnung): Jedes Objekt wird dem nächstgelegenen Clusterzentrum zugeordnet Schritt 3 (Clusterzentren): Für jedes Cluster wird Clusterzentrum neu berechnet Schritt 4 (Wiederholung): Abbruch, wenn sich Zuordnung nicht mehr ändert, sonst zu Schritt 2 Probleme Konvergenz zu lokalem Minimum, d.h. Clustering muss nicht optimal sein Work-around: Algorithmus mehrfach starten relativ hoher Aufwand für Abstandsberechnungen, Neuberechnung der Clusterzentren 23

24 k-means + MapReduce Parallelisierbar, weil Zuordnung der Objekte zu Clustern unabhängig voneinander Berechnung der neuen Clusterzentren pro Cluster unabhängig von anderen Cluster Workflow Map Iteration mit mehreren MR-Schritten (ähnlich PageRank) bis Konvergenz Nutzung des Ergebnisses der n-ten Iteration als zusätzlichen Input in n+1-ter Iteration Eingabe: Menge der Objekte (bei jeder Iteration gleich) zusätzliche Eingabe: Liste aktueller Cluster-Zentren (pro Iteration i. Allg. verschiedenen, relativ kleine Datenmenge) Zuordnung der Objekte zu Clustern Reduce Eingabe: Alle Objekte mit gleichem Cluster-Zentrum Berechnung des neuen Cluster-Zentrums 24

25 Step 1 k-means + MapReduce: Beispiel {10,21,29} map Step initiale Clusterzentren {6,20.5,28.5} map ( 6, 1) ( 6, 3) (20.5,17) (28.5,31) ( 6, 6) (20.5,14) (20.5,24) (28.5,26) shuffle + sort shuffle + sort ( 6, 1) ( 6, 3) ( 6, 6) (20.5,17) (20.5,14) (20.5,24) (28.5,31) (28.5,26) 25 reduce reduce {3.3,18.3,28.5} Step 3...

27 Hadoop Googles MapReduce 2004 veröffentlicht Proprietär, nicht verfügbar Hadoop ist Open Source Alternative Inspiriert von Googles MR/GFS Apache Top-Level-Projekt Unterprojekte: HDFS, MapReduce, HBase, Pig, Hive et al. Unix-ähnliche OS (Shell Skripte, passwortloses SSH) Java 6 Große Community Fertige Distributionen zur Ausführung in Amazon EC2 Sieger des Terabyte Sort Benchmark 2008 & TB Integer in 173 Minuten mit 3452 nodes (2 Quadcore Xeons, 8 GB Memory, 4 SATA) 27

28 Hadoop: Beispiel k 1 v 1 map k 2 v 2 k 2 list(v 2 ) reduce k 3 v 3 28

29 Hadoop: Architektur MR-Job Submission MR- Layer über HDFS 2 Arten von Knoten Jobtracker - Koordinator Tasktracker - Ausführung der Map und Reduce-Funktionen (Tasks) Jeder Tasktracker hat feste Anzahl an Slots für Map- und Reduce Tasks Abhängig von #Cores und Hauptspeicher Tasktracker sind gleichzeitig Chunkserver des HDFS Jobtracker weist Tasks an Tasktracker mit freien Slots zu Berücksichtigung der Datenlokalität 29 Quelle: Hadoop The Definitive Guide, 2009, Tom White, O Reilly

30 Hadoop: Fehlerbehandlung Fehlschlag eines Task Abbruch/Timeout: Tasktracker meldet failed Task wird an anderen Tasktracker vergeben Nach vier Fehlschlägen wird Job als failed markiert Crash Tasktracker Abbruch/Timeout: Entfernen aus Tasktracker Pool Jobtracker weist diesem Tasktracker keine neuen Tasks mehr zu Fertige Map-Tasks laufender Jobs werden neu vergeben Ergebnisse d. Map-Tasks (im lok. FS des Tasktrackers) nicht erreichbar Neustarten aller laufenden Tasks Tasktracker Slowdown - ausstehende Tasks mehrfach vergeben Jobtracker - Single Point of Failure 30

31 Beschränkungen des MR-Modells Unabhängige Ausführung Map- und Reduce-Tasks zufällige Reihenfolge, d.h. keine Annahmen über Vorhandensein von Zwischenergebnissen kein Zugriff auf Daten eines anderen Tasks Eingabedaten müssen zu Beginn vollständig vorliegen keine Stream-Verarbeitung möglich Eingeschränkter Zugriff auf Werte in Reduce-Funktion Liste der Werte kann nur per Cursor sequentiell gelesen werden Reduce-Phase kann erst starten, wenn der letzte Map-Task beendet ist Ziel: gleichmäßige Auslastung aller Map-Prozesse Programm-Ende wenn der letzte Reduce-Task beendet ist Ziel: gleichmäßige Auslastung aller Reduce-Prozesse Fehlertoleranz erzwingt Materialisierung des Map-Outputs Knotenausfall darf nicht zu Datenverlust führen 31

32 Zusammenfassung MapReduce Framework zur einfachen, parallelen Verarbeitung großer Datenmengen Programmlogik definiert durch zwei Funktionen (map und reduce) Algorithmen z.t. mit mehreren MR-Schritten, ggf. mit zusätzlichem Input Vorteile Unterstützung heterogener Cloud-Umgebungen sowie gegebener Partitionierung fehlertolerant, skalierbar flexibles Modell, d.h. viele Algorithmen lassen sich per MapReduce darstellen Ausgangspunkt weiterer Entwicklungen im Data Management Bereich Adressierung von Performanzengpässen (u.a. Data Skew und Lastbalancierung) Automatische Generierung von MapReduce-Programmen (z.b. SQL MapReduce) Unterstützung strukturierter(er) Daten für performantere Analysen Kopplung mit relationalen Datenbanksystemen 32

33 Quellen & Literatur [MapReduce] Dean & Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. OSDI'04 Google Lectures 2007, Page et.al: The PageRank Citation Ranking: Bringing Order to the Web. TechReport, Stanford University, 1998 Brin & Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Networks,