Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Transkript

1 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014

2 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence Themenbereiche Über metafinanz Enterprise DWH Data Modeling & Integration & ETL Architecture: DWH & Data Marts Hadoop & Columnar DBs Data Quality & Data Masking Insurance Reporting Standard & Adhoc Reporting Dashboarding BI Office Integration Mobile BI & InMemory SAS Trainings for Business Analysts BI & Risk Customer Intelligence Customer based Analytics & Processes Churn Prediction and Management Insurance Analytics Segmentation and Clustering Predictive Models, Data Mining & Statistics Scorecarding Social Media Analytics Fraud & AML Risk Solvency II (Standard & internal Model) Regulatory Reporting Compliance Risk Management metafinanz gehört seit 23 Jahren zu den erfahrensten Software- und Beratungshäusern mit Fokus auf die Versicherungsbranche. Mit einem Jahresumsatz von 250 Mio. EUR und über Mitarbeitern entwickeln wir für unsere Kunden intelligente zukunftsorientierte Lösungen für komplexe Herausforderungen Carsten Herbe Referenten Slavomir Nagy Michael Prost mail: phone: Hadoop in a Nutshell Seite 2

3 Inhalt 1 Apache Hadoop 2 Hadoop Distributed File System (HDFS) 3 MapReduce 4 MapReduce im Detail Hadoop in a Nutshell Seite 3

4 2.1 Apache Hadoop

5 Apache Hadoop ist ein Framework für die verteilte Speicherung und Verarbeitung großer Datenmengen basierend auf Konzepten von Google. Hadoop MapReduce Skalierbare Rechenkapazität Hadoop Distributed FileSystem (HDFS) Skalierbare Speicherkapazität Hadoop in a Nutshell Seite 5

6 Die Apache Software hat sich mittlerweile als Quasi-Standard zur Speicherung und Verarbeitung von Big Data etabliert. Warum Hadoop? Verwaltung riesiger Datenmengen von strukturierten und unstrukturierten Daten Linear skarlierbarer Cluster (Speicher & Performance) von Standard-Servern Performance - Der Code wird zu den Daten auf die entsprechenden Knoten verteilt Ein großes Ökosystem an Tools rund um Hadoop entsteht (Graphen, SQL, ) Open Source - Kommerzielle Distributionen erhältlich (Cloudera, Hortonworks, ). Hadoop in a Nutshell Seite 6

7 Auch wenn man strukturierte Daten in Hadoop speichern kann Hadoop ist keine relationale Datenbank. Hadoop ist keine Datenbank Hadoop Verarbeitung un-, teil- oder strukturierter Daten Schema on Read Write Once Read Many Geringe Datenintegrität Linear erweiterbar Oracle Verarbeitung strukturierter Daten Schema on Write Write Read Update Many Times Hohe Datenintegrität Nicht linear erweiterbar Datenaustausch Hadoop & Oracle DB Seite 7

8 Ein Hadoop Cluster besteht aus Commodity Servern. Use Case abhängig sind Hauptspeicher, Festplattenspeicher und Netzwerk. Hardware DataNode GB Hauptspeicher (ggfs. bis zu 512GB) 2 quad-/hex-/octo-core CPUs, 2-2.5GHz TB Festplatten, JBOD-Konfiguration Bonded Gigabit Ethernet oder 10 Gigabit Ethernet Quelle: Hadoop in a Nutshell Seite 8

9 Distributionen enthalten das Hadoop Core und die wichtigsten Komponenten des Hadoop Ökosystems. Sie unterscheiden sich in zusätzlichen (teilw. kommerziellen) Komponenten. Hadoop Distributoren Elastic MapReduce Hadoop in a Nutshell Seite 9

10 2.2 HDFS

11 278 MB Das Hadoop Distributed File System (HDFS) speichert große Dateien durch Aufteilung in Blöcke und verhindert Datenverlust durch Replikation. $ hadoop fs put doc.txt NameNode 128 MB x3 3;1;5 3;7;8 6;4; MB 22 MB x3 x Client Cluster Hadoop in a Nutshell Seite 12

12 HDFS ist für die redundante Speicherung von großen Dateien ausgelegt, die write-onceread-many Daten enthalten. Eigenschaften Beste Performance bei der Speicherung von großen Dateien: Besser weniger große Dateien als viele kleine Dateien! Dateien in HDFS sind nicht änderbar (write once read many), d.h. es sind keine wahlfreien Schreibzugriffe erlaubt. Seit Hadoop 2.0 ist es möglich, Daten an Dateien anzuhängen (append). HDFS ist optimiert für das sequenzielle Lesen großer Dateien. Dateien werden in HDFS auf Blöcke aufgesplittet (Default-Blockgröße: 128 MB). Jeder Block wird redundant im Cluster gespeichert (Default: 3 fache Speicherung). Unterschiedliche Blöcke der gleichen Datei werden auf unterschiedlichen Knoten (und ggf. Racks) gespeichert. Hadoop in a Nutshell Seite 13

13 Alle Metainformationen über die Daten werden im Speicher des NameNodes verwaltet. NameNode Der NameNode hält die Metadaten (Namespaces) für das HDFS: Welche Datei besteht aus welchen Blöcken? Auf welchem Knoten liegt welcher Block? Der NameNode Daemon muss jederzeit laufen, da ohne diese Metadaten nicht auf die Daten im Cluster zugegriffen werden kann. Um schnelleren Zugriff auf diese Daten zu haben, werden alle Daten im NameNode im RAM vorgehalten. Hadoop in a Nutshell Seite 14

14 Im Cluster gibt es zwei unterschiedliche Typen von Nodes: viele DataNodes zur Datenspeicherung und -verarbeitung und wenige MasterNodes mit zentralen Diensten. MasterNodes Neben dem NameNode gibt es noch weitere Server-Dienste Diese laufen auf sogenannten MasterNodes Auf den MasterNodes werden keine HDFS Daten gespeichert Für einige dieser Server-Dienste gibt es schon Hochverfübarkeitslösungen Beispiele NameNode (ist ein Dient auf einem MasterNode) ResourceManager (für Verwaltung von Jobs) HiverServer (für SQL-Abfragen, lernen wir noch genauer kennen) Hadoop in a Nutshell Seite 15

15 2.3 MapReduce

16 In der ursprünglichen Architektur von MapReduce v1 steuerte der Job Tracker die Task Tracker auf den Data Nodes und war für Scheduling und Resourcenverwaltung zuständig. Systemarchitektur MRv1 Task Tracker Client 1 Job starten Job Tracker HDFS blocks Data Node 1 Master Node Task Tracker Client 2 HDFS blocks Data Node 2 Hadoop in a Nutshell Seite 18

17 In YARN wurde die Systemarchitektur von MRv1 überarbeitet, um die Skalierbarkeit weiter zu verbessern und Hadoop für andere Programmiermodelle als MapReduce zu öffnen. MapReduce v1 YARN (MapReduce v2) Problem Skalierbarkeit: max Nodes JobTracker konnte nur MapReduce Resourcen verwalten Ziel Skalierbarkeit: max Nodes erreicht. Verbesserung Resource-Management für alle Tools auf Hadoop Cluster Lösung Redesign der Architektur durch YARN (MRv2) Split des Job Tracker Resource Manager + Job Scheduler Hadoop in a Nutshell Seite 19

18 Die Systemkomponenten und deren Aufgaben haben sich in MRv2 im Vergleich zu MRv1 deutlich geändert. Systemarchitektur MRv2 Node Manager Client 1 HDFS blocks Data Node 1 Job starten Resource Manager Client 2 Scheduler Master Node Node Manager HDFS blocks Data Node 2 Hadoop in a Nutshell Seite 20

19 Der Code wird zu den Daten auf die entsprechende Knoten gebracht und dort lokal ausgeführt (Map). Diese Zwischenergbnisse werden im Reducer zusammengefasst. Grundidee MapReduce Resource Manager Name Node protected void map(...) throws { String line = value.tostring(); for (char character : line.tochararray()) { Client Daten 278 MB 128 MB 128 MB x3 x MB x3 Cluster Hadoop in a Nutshell Seite 22

20 2.4 MapReduce im Detail

21 Partition Sort Partition Sort Partition Hadoop besteht aus HDFS und MapReduce. HDFS ist ein Filesystem. MapReduce ist ein Framework. Mit MapReduce lassen sich Daten in HDFS verarbeiten. Hadoop ist OpenSource. Hadoop besteht aus HDFS und MapReduce. HDFS ist ein Filesystem. MapReduce ist ein Framework. Mit MapReduce lassen sich Daten in HDFS verarbeiten. Hadoop ist Open Source. Mapper 0, Hadoop besteht aus HDFS und MapReduce. 38, HDFS ist ein Filesystem. Mapper 62, MapReduce ist ein Framework. 90, Mit MapReduce lassen sich Daten in HDFS verarbeiten. Mapper 142, Hadoop ist Open Source. hadoop,1 besteht,1 aus,1 hfds,1 und,1 mapreduce,1 hdfs,1 ist,1 ein,1 filesystem,1 mapreduce,1 ist,1 ein,1 framework,1 mit,1 mapreduce,1 lassen,1 sich,1 daten,1 in,1 hdfs,1 verarbeiten,1 hadoop,1 ist,1 open,1 source,1 aus,1 besteht,1 daten,1 ein,1,1 filesystem,1 framework,1 hadoop,1,1 hdfs,1,1,1 Reducer Reducer in,1 ist,1,1,1 lassen,1 mapreduce,1,1,1 mit,1 open,1 sich,1 source,1 und,1 verarbeiten,1 aus,1 besteht,1 daten,1 ein,2 filesystem,1 framework,1 hadoop,2 hdfs,3 Ergebnis in,1 ist,3 lassen,1 mapreduce,3 mit,1 open,1 sich,1 source,1 und,1 verarbeiten,1 HDFS File HDFS Block Map Input (Key, Value): Offset, Textzeile Map Output (Key, Value): Wort, Häufigkeit Reducer Input (Key, Value): Wort, Häufigkeit Reducer Output (Key, Value): Wort, Häufigkeit Hadoop in a Nutshell Seite 24

22 Die map()-methode ist die einzige Methode der Basisklasse, die implementiert werden muss. package de.metafinanz.hadoop.charcount; 0, Hadoop besteht aus HDFS und MapReduce. import java.io.ioexception; import org.apache.hadoop.io.intwritable; map()-methode überschreiben import org.apache.hadoop.io.longwritable; Parameter: import org.apache.hadoop.io.text; Schlüssel (Byteoffset des Zeilenbeginns innerhalb der Datei) import org.apache.hadoop.mapreduce.mapper; Wert (Text-Zeile) public class CharCountMapper Context extends (z.b. für Output) Mapper<LongWritable, Text, Text, protected void map(longwritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.tostring(); for (char character : line.tochararray()) { String ucchar = String.valueOf(character).toUpperCase(); for (char singlechar: ucchar.tochararray()) { context.write( new Text(String.valueOf(singleChar)), new IntWritable(1)); Hadoop in a Nutshell Seite 25

23 In dem Mapper werden Input-Key und Value verarbeitet. Hier kann beliebige Logik implementiert werden. package de.metafinanz.hadoop.charcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.longwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.mapper; Verarbeitungslogik: Textzeile aus der Übergabe extrahieren public class CharCountMapper einzelne extends Zeichen Mapper<LongWritable, innerhalb der Zeile Text, durchgehen Text, IntWritable>{ Zeichen in Großbuchstaben Ergebnis wieder in einzelne Zeichen umsetzen protected void map(longwritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.tostring(); for (char character : line.tochararray()) { String ucchar = String.valueOf(character).toUpperCase(); for (char singlechar: ucchar.tochararray()) { context.write( new Text(String.valueOf(singleChar)), new IntWritable(1)); Hadoop in a Nutshell Seite 26

24 Als Ergebnis des Mappers werden Key-Value-Paare erzeugt. package de.metafinanz.hadoop.charcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.longwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.mapper; hadoop,1 besteht,1 aus, 1 hfds,1 und,1 mapreduce, 1 public class CharCountMapper extends Mapper<LongWritable, Text, Text, protected void map(longwritable key, Text value, Context context) throws IOException, InterruptedException { Output schreiben: context.write(schlüssel, Wert) String line = value.tostring(); Es müssen die im Klassen-Template angegebenen for (char character : line.tochararray()) { String ucchar Hadoop-Datentypen = String.valueOf(character).toUpperCase(); verwendet werden. for (char singlechar: ucchar.tochararray()) { context.write( new Text(String.valueOf(singleChar)), new IntWritable(1)); Hadoop in a Nutshell Seite 27

25 Als einzige Methode der Basisklasse muss die Methode reduce() implementiert werden. package de.metafinanz.hadoop.charcount; import java.io.ioexception; reduce-methode überschreiben Parameter: import org.apache.hadoop.io.intwritable; Schlüssel (einzelnes Wort) import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.reducer; Iterable-Objekt mit Werten, die zum Schlüssel abgelegt sind (Anzahl) public class CharCountReducer Context (z.b. extends für Output) Reducer<Text, IntWritable, Text, protected void reduce(text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int anzahl = 0; for (IntWritable value : values) { anzahl += value.get(); context.write(key, new IntWritable(anzahl)); aus, 1 besteht, 1 daten, 1 ein, 1, 1 filesystem, 1 framework, 1 hadoop, 1, 1 hdfs, 1, 1, 1 Hadoop in a Nutshell Seite 28

26 Im Reducer werden die zu jeweils einem Key gehörenden Values aggregiert. package de.metafinanz.hadoop.charcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.reducer; public class CharCountReducer extends Reducer<Text, IntWritable, Text, Verarbeitungslogik: protected void Alle Werte reduce(text zu einem key, Schlüssel Iterable<IntWritable> addieren values, Context context) throws IOException, InterruptedException { int anzahl = 0; for (IntWritable value : values) { anzahl += value.get(); context.write(key, new IntWritable(anzahl)); Hadoop in a Nutshell Seite 29

27 Auch die Ergebnisse des Reducers ist wieder ein Key-Value-Paar. Pro Reducer wird eine Ergebnis-Datei erzeugt. package de.metafinanz.hadoop.charcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.reducer; public class CharCountReducer extends Reducer<Text, IntWritable, Text, protected void reduce(text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int anzahl Output = schreiben: 0; context.write(schlüssel, Wert) for (IntWritable Es müssen die value im Klassen-Template : values) { angegebenen Hadoopanzahl Datentypen += value.get(); verwendet werden context.write(key, new IntWritable(anzahl)); aus, 1 besteht,1 daten, 1 ein, 2 filesystem, 1 framework, 1 hadoop, 2 hdfs, 3 Hadoop in a Nutshell Seite 30

28 Wir bieten offene Trainings an sowie maßgeschneiderte Trainings für individuelle Kunden. metafinanz training Einführung Hadoop (1 Tag) Hadoop Intensiv-Entwickler Training (3 Tage) Einführung Oracle in-memory Datenbank TimesTen Data Warehousing & Dimensionale Modellierung Oracle Warehousebuilder 11.2 New Features OWB Skripting mit OMB*Plus Oracle SQL Tuning Einführung in Oracle: Architektur, SQL und PL/SQL Mehr Information unter All trainings are also available in English on request. Hadoop in a Nutshell Seite 31

29 Hadoop in a Nutshell Einführung HDFS und MapReduce Fragen? Jetzt oder später? Carsten Herbe Head of Data Warehousing Downloads unter dwh.metafinanz.de mail carsten.herbe@metafinanz.de phone Hadoop in a Nutshell

30 Vielen Dank für Ihre Aufmerksamkeit! metafinanz Informationssysteme GmbH Leopoldstraße 146 D München Phone: Fax: DWH & Hadoop Expertise Besuchen Sie uns auch auf: