Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014

Transkript

1 Überblick Hadoop Einführung HDFS und MapReduce DOAG Regionaltreffen München/Südbayern Februar 2014

2 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence Themenbereiche Über metafinanz Enterprise DWH Data Modeling & Integration & ETL Architecture: DWH & Data Marts Hadoop & Columnar DBs Data Quality & Data Masking Insurance Reporting Standard & Adhoc Reporting Dashboarding BI Office Integration Mobile BI & InMemory SAS Trainings for Business Analysts BI & Risk Customer Intelligence Customer based Analytics & Processes Churn Prediction and Management Insurance Analytics Segmentation and Clustering Predictive Models, Data Mining & Statistics Scorecarding Social Media Analytics Fraud & AML Risk Solvency II (Standard & internal Model) Regulatory Reporting Compliance Risk Management metafinanz gehört seit 23 Jahren zu den erfahrensten Software- und Beratungshäusern mit Fokus auf die Versicherungsbranche. Mit einem Jahresumsatz von 250 Mio. EUR und über Mitarbeitern entwickeln wir für unsere Kunden intelligente zukunftsorientierte Lösungen für komplexe Herausforderungen Michael Prost Ihr Ansprechpartner DWH Senior Consultant Mehr als 5 Jahre DWH-Erfahrung Oracle OWB Expertise Oracle Datenbankentwicklung mail michael.prost@metafinanz.de phone Überblick Hadoop Seite 2

3 Inhalt 1 Apache Hadoop 2 Hadoop Distributed File System (HDFS) 3 MapReduce 4 MapReduce im Detail 5 Hadoop Ecosystem Überblick Hadoop Seite 3

4 2.1 Apache Hadoop

5 Apache Hadoop ist ein Framework für die verteilte Speicherung und Verarbeitung großer Datenmengen basierend auf Konzepten von Google. Hadoop MapReduce Skalierbare Rechenkapazität Hadoop Distributed FileSystem (HDFS) Skalierbare Speicherkapazität Überblick Hadoop Seite 5

6 Die Apache Software hat sich mittlerweile als Quasi-Standard zur Speicherung und Verarbeitung von Big Data etabliert. Warum Hadoop? Verwaltung riesiger Datenmengen von strukturierten und unstrukturierten Daten Linear skarlierbarer Cluster (Speicher & Performance) von Standard-Servern Performance - Der Code wird zu den Daten auf die entsprechenden Knoten verteilt Ein großes Ökosystem an Tools rund um Hadoop entsteht (Graphen, SQL, ) Open Source - Kommerzielle Distributionen erhältlich (Cloudera, Hortonworks, ). Überblick Hadoop Seite 6

7 Auch wenn man strukturierte Daten in Hadoop speichern kann Hadoop ist keine relationale Datenbank. Hadoop ist keine Datenbank Hadoop Verarbeitung un-, teil- oder strukturierter Daten Schema on Read Write Once Read Many Geringe Datenintegrität Linear erweiterbar Oracle Verarbeitung strukturierter Daten Schema on Write Write Read Update Many Times Hohe Datenintegrität Nicht linear erweiterbar Überblick Hadoop Seite 7

8 Ein Hadoop Cluster besteht aus Commodity Servern. Use Case abhängig sind Hauptspeicher, Festplattenspeicher und Netzwerk. Hardware DataNode GB Hauptspeicher (ggfs. bis zu 512GB) 2 quad-/hex-/octo-core CPUs, 2-2.5GHz TB Festplatten, JBOD-Konfiguration Bonded Gigabit Ethernet oder 10 Gigabit Ethernet Quelle: Überblick Hadoop Seite 8

9 Distributionen enthalten das Hadoop Core und die wichtigsten Komponenten des Hadoop Ökosystems. Sie unterscheiden sich in zusätzlichen (teilw. kommerziellen) Komponenten. Hadoop Distributoren Elastic MapReduce Überblick Hadoop Seite 9

10 2.2 HDFS

11 278 MB Das Hadoop Distributed File System (HDFS) speichert große Dateien durch Aufteilung in Blöcke und verhindert Datenverlust durch Replikation. $ hadoop fs put doc.txt NameNode 128 MB x3 3;1;5 3;7;8 6;4; MB x MB x Client Cluster Überblick Hadoop Seite 12

12 Alle Metainformationen über die Daten werden im Speicher des NameNodes verwaltet. NameNode Der NameNode hält die Metadaten (Namespaces) für das HDFS: Welche Datei besteht aus welchen Blöcken? Auf welchem Knoten liegt welcher Block? Der NameNode Daemon muss jederzeit laufen, da ohne diese Metadaten nicht auf die Daten im Cluster zugegriffen werden kann. Um schnelleren Zugriff auf diese Daten zu haben, werden alle Daten im NameNode im RAM vorgehalten. Überblick Hadoop Seite 14

13 Im Cluster gibt es zwei unterschiedliche Typen von Nodes: viele DataNodes zur Datenspeicherung und -verarbeitung und wenige MasterNodes mit zentralen Diensten. MasterNodes Neben dem NameNode gibt es noch weitere Server-Dienste Diese laufen auf sogenannten MasterNodes Auf den MasterNodes werden keine HDFS Daten gespeichert Für einige dieser Server-Dienste gibt es schon Hochverfübarkeitslösungen Beispiele NameNode (ist ein Dienst auf einem MasterNode) ResourceManager (für Verwaltung von Jobs) HiveServer (für SQL-Abfragen) Überblick Hadoop Seite 15

14 2.3 MapReduce

15 In der ursprünglichen Architektur von MapReduce v1 steuerte der Job Tracker die Task Tracker auf den Data Nodes und war für Scheduling und Resourcenverwaltung zuständig. Systemarchitektur MRv1 Task Tracker Client 1 Job starten Job Tracker HDFS blocks Data Node 1 Master Node Task Tracker Client 2 HDFS blocks Data Node 2 Überblick Hadoop Seite 18

16 In YARN wurde die Systemarchitektur von MRv1 überarbeitet, um die Skalierbarkeit weiter zu verbessern und Hadoop für andere Programmiermodelle als MapReduce zu öffnen. MapReduce v1 YARN (MapReduce v2) Problem Skalierbarkeit: max Nodes JobTracker konnte nur MapReduce Resourcen verwalten Ziel Skalierbarkeit: max Nodes erreicht. Verbesserung Resource-Management für alle Tools auf Hadoop Cluster Lösung Redesign der Architektur durch YARN (MRv2) Split des Job Tracker Resource Manager + Job Scheduler Überblick Hadoop Seite 19

17 Die Systemkomponenten und deren Aufgaben haben sich in MRv2 im Vergleich zu MRv1 deutlich geändert. Systemarchitektur MRv2 Node Manager Client 1 HDFS blocks Data Node 1 Job starten Resource Manager Client 2 Scheduler Master Node Node Manager HDFS blocks Data Node 2 Überblick Hadoop Seite 20

18 Der Code wird zu den Daten auf die entsprechende Knoten gebracht und dort lokal ausgeführt (Map). Diese Zwischenergebnisse werden im Reducer zusammengefasst. Grundidee MapReduce Resource Manager Name Node protected void map(...) throws { String line = value.tostring(); for (char character : line.tochararray()) { Client Daten 278 MB 128 MB 128 MB x3 x MB x3 Cluster Überblick Hadoop Seite 22

19 2.4 MapReduce im Detail

20 Partition Sort Partition Sort Partition Hadoop besteht aus HDFS und MapReduce. HDFS ist ein Filesystem. MapReduce ist ein Framework. Mit MapReduce lassen sich Daten in HDFS verarbeiten. Hadoop ist OpenSource. Hadoop besteht aus HDFS und MapReduce. HDFS ist ein Filesystem. MapReduce ist ein Framework. Mit MapReduce lassen sich Daten in HDFS verarbeiten. Hadoop ist Open Source. Mapper 0, Hadoop besteht aus HDFS und MapReduce. 38, HDFS ist ein Filesystem. Mapper 62, MapReduce ist ein Framework. 90, Mit MapReduce lassen sich Daten in HDFS verarbeiten. Mapper 142, Hadoop ist Open Source. hadoop,1 besteht,1 aus,1 hfds,1 und,1 mapreduce,1 hdfs,1 ist,1 ein,1 filesystem,1 mapreduce,1 ist,1 ein,1 framework,1 mit,1 mapreduce,1 lassen,1 sich,1 daten,1 in,1 hdfs,1 verarbeiten,1 hadoop,1 ist,1 open,1 source,1 aus,1 besteht,1 daten,1 ein,1,1 filesystem,1 framework,1 hadoop,1,1 hdfs,1,1,1 Reducer Reducer in,1 ist,1,1,1 lassen,1 mapreduce,1,1,1 mit,1 open,1 sich,1 source,1 und,1 verarbeiten,1 aus,1 besteht,1 daten,1 ein,2 filesystem,1 framework,1 hadoop,2 hdfs,3 Ergebnis in,1 ist,3 lassen,1 mapreduce,3 mit,1 open,1 sich,1 source,1 und,1 verarbeiten,1 HDFS File HDFS Block Map Input (Key, Value): Offset, Textzeile Map Output (Key, Value): Wort, Häufigkeit Reducer Input (Key, Value): Wort, Häufigkeit Reducer Output (Key, Value): Wort, Häufigkeit Überblick Hadoop Seite 24

21 Die map()-methode ist die einzige Methode der Basisklasse, die implementiert werden muss. package de.metafinanz.hadoop.charcount; 0, Hadoop besteht aus HDFS und MapReduce. import java.io.ioexception; import org.apache.hadoop.io.intwritable; map()-methode überschreiben import org.apache.hadoop.io.longwritable; Parameter: import org.apache.hadoop.io.text; Schlüssel (Byteoffset des Zeilenbeginns innerhalb der Datei) import org.apache.hadoop.mapreduce.mapper; Wert (Text-Zeile) public class CharCountMapper Context extends (z.b. für Output) Mapper<LongWritable, Text, Text, protected void map(longwritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.tostring(); for (char character : line.tochararray()) { String ucchar = String.valueOf(character).toUpperCase(); for (char singlechar: ucchar.tochararray()) { context.write( new Text(String.valueOf(singleChar)), new IntWritable(1)); Überblick Hadoop Seite 25

22 In dem Mapper werden Input-Key und Value verarbeitet. Hier kann beliebige Logik implementiert werden. package de.metafinanz.hadoop.charcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.longwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.mapper; Verarbeitungslogik: Textzeile aus der Übergabe extrahieren public class CharCountMapper einzelne extends Zeichen Mapper<LongWritable, innerhalb der Zeile Text, durchgehen Text, IntWritable>{ Zeichen in Großbuchstaben Ergebnis wieder in einzelne Zeichen umsetzen protected void map(longwritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.tostring(); for (char character : line.tochararray()) { String ucchar = String.valueOf(character).toUpperCase(); for (char singlechar: ucchar.tochararray()) { context.write( new Text(String.valueOf(singleChar)), new IntWritable(1)); Überblick Hadoop Seite 26

23 Als Ergebnis des Mappers werden Key-Value-Paare erzeugt. package de.metafinanz.hadoop.charcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.longwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.mapper; hadoop,1 besteht,1 aus, 1 hfds,1 und,1 mapreduce, 1 public class CharCountMapper extends Mapper<LongWritable, Text, Text, protected void map(longwritable key, Text value, Context context) throws IOException, InterruptedException { Output schreiben: context.write(schlüssel, Wert) String line = value.tostring(); Es müssen die im Klassen-Template angegebenen for (char character : line.tochararray()) { String ucchar Hadoop-Datentypen = String.valueOf(character).toUpperCase(); verwendet werden. for (char singlechar: ucchar.tochararray()) { context.write( new Text(String.valueOf(singleChar)), new IntWritable(1)); Überblick Hadoop Seite 27

24 Als einzige Methode der Basisklasse muss die Methode reduce() implementiert werden. package de.metafinanz.hadoop.charcount; import java.io.ioexception; reduce-methode überschreiben Parameter: import org.apache.hadoop.io.intwritable; Schlüssel (einzelnes Wort) import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.reducer; Iterable-Objekt mit Werten, die zum Schlüssel abgelegt sind (Anzahl) public class CharCountReducer Context (z.b. extends für Output) Reducer<Text, IntWritable, Text, protected void reduce(text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int anzahl = 0; for (IntWritable value : values) { anzahl += value.get(); context.write(key, new IntWritable(anzahl)); aus, 1 besteht, 1 daten, 1 ein, 1, 1 filesystem, 1 framework, 1 hadoop, 1, 1 hdfs, 1, 1, 1 Überblick Hadoop Seite 28

25 Im Reducer werden die zu jeweils einem Key gehörenden Values aggregiert. package de.metafinanz.hadoop.charcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.reducer; public class CharCountReducer extends Reducer<Text, IntWritable, Text, Verarbeitungslogik: protected void Alle Werte reduce(text zu einem key, Schlüssel Iterable<IntWritable> addieren values, Context context) throws IOException, InterruptedException { int anzahl = 0; for (IntWritable value : values) { anzahl += value.get(); context.write(key, new IntWritable(anzahl)); Überblick Hadoop Seite 29

26 Auch die Ergebnisse des Reducers ist wieder ein Key-Value-Paar. Pro Reducer wird eine Ergebnis-Datei erzeugt. package de.metafinanz.hadoop.charcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.reducer; public class CharCountReducer extends Reducer<Text, IntWritable, Text, protected void reduce(text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int anzahl Output = schreiben: 0; context.write(schlüssel, Wert) for (IntWritable Es müssen die value im Klassen-Template : values) { angegebenen Hadoopanzahl Datentypen += value.get(); verwendet werden context.write(key, new IntWritable(anzahl)); aus, 1 besteht,1 daten, 1 ein, 2 filesystem, 1 framework, 1 hadoop, 2 hdfs, 3 Überblick Hadoop Seite 30

27 2.5 Hadoop Ecosystem

28 Das Hadoop-Ökosystem besteht aus einer Vielzahl von Tools und Frameworks und wird ständig durch neue Projekte erweitert. HCatalog Ambari Drill Cloudera Manager Parquet SequenceFiles Überblick Hadoop Seite 32

29 Wir bieten offene Trainings an sowie maßgeschneiderte Trainings für individuelle Kunden. metafinanz training Einführung Hadoop (1 Tag) Hadoop Intensiv-Entwickler Training (3 Tage) Einführung Oracle in-memory Datenbank TimesTen Data Warehousing & Dimensionale Modellierung Oracle Warehousebuilder 11.2 New Features OWB Skripting mit OMB*Plus Oracle SQL Tuning Einführung in Oracle: Architektur, SQL und PL/SQL Mehr Information unter All trainings are also available in English on request. Überblick Hadoop Seite 33

30 Hadoop in a Nutshell Einführung HDFS und MapReduce Fragen? Jetzt oder später? Michael Prost DWH Senior Consultant Downloads unter dwh.metafinanz.de mail michael.prost@metafinanz.de phone Überblick Hadoop Seite 35

31 Vielen Dank für Ihre Aufmerksamkeit! metafinanz Informationssysteme GmbH Leopoldstraße 146 D München Phone: Fax: DWH & Hadoop Expertise Besuchen Sie uns auch auf: