metafinanz Business & IT Consulting Hadoop in a Nutshell

Transkript

1 metafinanz Business & IT Consulting Hadoop in a Nutshell

2 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum Daten & Fakten 25 Jahre am Markt 1990 Gründung in St. Georgen/Schwarzwald 1995 Management-Buy-In durch die Allianz Group Gründung des Münchner Standorts 2000 München wird Headquarter 2015 metafinanz feiert 25-jähriges Jubiläum 220 Umsatz in Mio. EUR Je komplexer die Prozesse werden, desto flexibler wird metafinanz. Die gelieferte Qualität war hervorragend." (Kundenstimme im Rahmen der Zufriedenheitsumfrage 2014) 1400 Berater Referenzen (Auszug): Allianz Group Aioi Nissay Dowa Life Insurance Europe ARD.ZDF medienakademie AXA Versicherungen BayWoBau Bürklin Commerzbank COR & FJA ESPRIT Europe Euler Hermes Frankfurter Fondsbank Generali HSH Nordbank AG IKEA KVB O2 Germany Ratioform Verpackungen R+V Versicherung Sächsische Aufbaubank Swiss Life Versicherungskammer Bayern u.a. 2

3 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Themenbereiche Über metafinanz Enterprise DWH Data modeling and integration and ETL Architecture: DWH and data marts Hadoop and Columnar DBs Data quality and data masking Analytics Predictive models, data mining and statistics Social media analytics Customer intelligence Scorecarding Fraud and AML metafinanz steht für branchenübergreifendes, ganzheitliches Business & IT Consulting. Gemeinsam mit unseren Kunden gestalten wir ihren Weg in eine digitale Welt. Wir transformieren Geschäftsprozesse und übersetzen strategische Ziele in effektive IT-Lösungen. Unsere Kunden schätzen uns seit 25 Jahren als flexiblen und lösungsorientierten Partner. Als unabhängiges Unternehmen der Allianz Group sind wir in komplexen Abläufen und Veränderungsprozessen in Großkonzernen zu Hause. BI & Risk Ihr Kontakt: Mathias Höreth Insurance reporting Standard and adhoc Reporting Dashboarding BI office integration Mobile BI and in-memory SAS trainings for business analysts Risk Solvency II (Standard & internal model) Regulatory reporting Compliance Risk management BI Consultant Certified Oracle Developer Certified Hadoop Developer Mail: Phone:

4 BigData

5 Einführung in Big Data Prognose für die Datenentwicklung Die Analysten und großen IT-Firmen sind sich einig: das Datenwachstum ist ungebremst. IBM Jeden Tag erzeugen wir 2,5 Trillionen Bytes an Daten. 90% der heute existierenden Daten wurde allein in den letzten beiden Jahren erzeugt. Quelle: Gartner Die in Unternehmen gespeicherte Datenmenge wächst innerhalb der kommenden 5 Jahre um 800%. 80% der Steigerung entfallen auf unstrukturierte Daten. Quelle: EMC Die weltweit vorhandenen Daten verdoppeln sich alle 2 Jahre Quelle: 5

6 Datenvolumen in Exabyte Einführung in Big Data Prognose für die Datenentwicklung Abbildung: EMC Corporation. n.d. Prognose zum Volumen der jährlich generierten digitalen Datenmenge weltweit in den Jahren 2005 bis 2020 (in Exabyte). Statista. Verfügbar unter (letzter Zugriff: 27. Juli 2015). 6

7 Einführung in Big Data Definition: Die 4 V s Big Data wird durch die 4 Dimensionen Volume, Variety, Velocity und Veracity charakterisiert. nicht einheitlich strukturiert bzw. die Struktur ändert sich Volume sehr große Datenmengen Variety Velocity schnell erzeugt und zeitnah benötigt Verwendbarkeit der Daten unterschiedlich Veracity 7

8 Einführung in Big Data Big Data - Anwendungsfälle 1. Datenerweiterung durch Big Data - Exploration 2. Erhöhung der Effizienz und Skalierbarkeit der IT durch die Erweiterung des DWH mit Big Data - Technologie 3. Betriebsoptimierung durch die Auswertung von Maschinendaten 4. Verbesserung der Kundeninteraktion durch die verbesserte Sicht auf den Kunden 5. Betrugserkennung durch die Anwendung von Regeln 8

9 Apache Hadoop

10 Hadoop Ökosystem Cascalog Oryx Crunch Hadoop MapReduce Skalierbare Rechenkapazität ORCFiles Big Data Connectors Kafka Big SQL 1 2 SequenceFiles Hadoop Distributed FileSystem (HDFS) Skalierbare Speicherkapazität HttpFS FuseDFS Se

11 Die Apache Software hat sich mittlerweile als Quasi-Standard zur Speicherung und Verarbeitung von Big Data etabliert. Verwaltung riesiger Datenmengen von strukturierten und unstrukturierten Daten Linear skarlierbarer Cluster (Speicher & Performance) von Standard-Servern Performance - Der Code wird zu den Daten auf die entsprechenden Knoten verteilt Ein großes Ökosystem an Tools rund um Hadoop Open Source - Kommerzielle Distributionen erhältlich 11

12 Hadoop ist keine Datenbank Auch wenn man strukturierte Daten in Hadoop speichern kann Hadoop ist keine relationale Datenbank. Hadoop Verarbeitung un-, teil- oder strukturierter Daten Schema on Read Write Once Read Many Geringe Datenintegrität Linear erweiterbar Oracle Verarbeitung strukturierter Daten Schema on Write Write Read Update Many Times Hohe Datenintegrität Nicht linear erweiterbar 12

13 Ein Hadoop Cluster besteht aus Commodity Servern. Use Case abhängig sind Hauptspeicher, Festplattenspeicher und Netzwerk Hardware (Datanode) GB Hauptspeicher (ggfs. bis zu 512GB) 2 quad-/hex-/octo-core CPUs, 2-2.5GHz TB Festplatten, JBOD-Konfiguration Bonded Gigabit Ethernet oder 10 Gigabit Ethernet Quelle: 13

14 HDFS

15 Hadoop Distributed File System (HDFS) Das HDFS ist ein verteiltes Dateisystem und bildet die Basis für die BigData-Verarbeitung mit Hadoop. Definition Zuständig für die redundante Speicherung großer Datenmengen in einem Cluster unter Nutzung von Commodity- Hardware Implementiert in Java auf Grundlage von Google s GFS. Liegt über einem nativen Dateisystem (wie ext3, ext4 oder xfs) 15

16 HDFS - Eigenschaften HDFS ist für die redundante Speicherung von großen Dateien ausgelegt, die write-once-read-many Daten enthalten. Beste Performance bei der Speicherung von großen Dateien: Besser weniger große Dateien als viele kleine Dateien! Dateien in HDFS sind nicht änderbar (write-once-read-many), d. h. es sind keine wahlfreien Schreibzugriffe erlaubt. Seit Hadoop 2.0 ist es möglich, Daten an Dateien anzuhängen (append). HDFS ist optimiert für das sequenzielle Lesen großer Dateien. Dateien werden im HDFS in Blöcke aufgeteilt (Default-Blockgröße: 128MB). Jeder Block wird redundant im Cluster gespeichert (Default: dreifache Speicherung). Unterschiedliche Blöcke der gleichen Datei werden auf unterschiedlichen Knoten (und ggf. Racks) gespeichert. 16

17 HDFS - Systemarchitektur Das HDFS besteht aus verschiedenen Systemkomponenten mit dedizierten Aufgaben. Client NameNode CheckpointNode / BackupNode Masternodes DataNode DataNode DataNode Slavenodes HDFS HDFS Cluster 17

18 300 MB HDFS - Funktionsweise Das Hadoop Distributed File System (HDFS) speichert große Dateien durch Aufteilung in Blöcke und verhindert Datenverlust durch Replikation. $ hdfs dfs put doc.txt Client 128 MB 128 MB 44MB x3 x3 x3 3;1;5 3;7;8 6;4; Cluster 18

19 MapReduce

20 MapReduce Systemarchitektur Data Node 1 Node Manager Client 1 Client 2 Job starten Master Node Resource Manager Scheduler HDFS blocks Data Node 2 Node Manager HDFS blocks 20

21 Der MapReduce-Algorithmus Die Map-Operation liest ein Key-/ Value-Paar ein und gibt beliebig viele Key-/Value-Paare aus. Shuffle & Sort gruppiert alle Werte nach dem Schlüssel. Die Reduce-Operation verarbeitet alle Werte eines Schlüssels und gibt ebenfalls beliebig viele Key-/Value-Paare aus. 0 das ist ein beispiel text mit 240 scheinbar unsinnigem inhalt 488 der sich über mehrere zeilen 736 erstreckt und so groß ist das [1,1,1,1,1,1,1,1] ist [1,1,1,1] ein [1,1,1,1,1,1,1,1,1,1,1,1] beispiel [1,1] [ ] for (word : line.split("\\s+")) { } write(word, 1); das 1 ist 1 ein 1 beispiel 1 1 sum = 0; for (value : values) { sum = sum + value; } write(key, sum); das 8 ist 4 ein 12 beispiel 2 [ ] Mapper Shuffle & Sort Reducer 21

22 Mapper-Code WordCount package de.metafinanz.hadoop.wordcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.longwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.mapper; public class WordCount { public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(longwritable key, Text value, Context context) throws IOException, InterruptedException { } } String line = value.tostring(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasmoretokens()) { } word.set(tokenizer.nexttoken()); context.write(word, one); 22

23 Reducer-Code WordCount package de.metafinanz.hadoop.wordcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.reducer; public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> { } public void reduce(text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); } 23

24 Driver-Code WordCount package de.metafinanz.hadoop.wordcount; import org.apache.hadoop.fs.path; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.job; import org.apache.hadoop.mapreduce.lib.input.fileinputformat; import org.apache.hadoop.mapreduce.lib.output.fileoutputformat; public static void main(string[] args) throws Exception { Configuration conf = new Configuration(); Job job = new Job(conf, "wordcount"); job.setoutputkeyclass(text.class); job.setoutputvalueclass(intwritable.class); job.setmapperclass(map.class); job.setreducerclass(reduce.class); job.setinputformatclass(textinputformat.class); job.setoutputformatclass(textoutputformat.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); } } job.waitforcompletion(true); 24

25 Hive

26 Apache Hive Die SQL-"Datenbank" von Hadoop. Factsheet (Stand ) ) Architektur Homepage Komponenten HCatalog für Metadaten Hive Hadoop Beeswax WebUI in Hue integriert HiveServer2 und beeline als CLI Aktuelles Release 2.0 vom 15. Februar 2016 Lizenzmodell Apache, OpenSource HiveQL (SQL) CLI Thrif t Driver Job Tracker Distributionen Alleinstellungsmerkmale Wettbewerbsprodukte Sonstiges Cloudera, MapR, Hortonworks, Pivotal, SQL mit MapReduce Impala, SparkSQL, HAWQ metastore /... /user/hive/warehous e FAZIT: HiveQL Dialekt bietet gute Kompatibilität mit standard ANSI-SQL. Problematisch ist die Performanz, welche durch MapReduce eingeschränkt ist. Als Alternative für die Zukunft ist SparkSQL vielverprechend, bzw. Hive on Tez, Hive on Spark Seite 26 Had oop Ecos yste

27 SQL Abfragen mit HIVE Der Beeline Client ist eine simple SQL-Shell, welche es erlaubt HiveQL zu nutzen. Details hierzu siehe Anlegen einer managed-table > CREATE TABLE EMPLOYEES( EMPLOYEE_ID INT, FIRST_NAME STRING, LAST_NAME STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; Laden lokaler Daten > LOAD DATA LOCAL INPATH 'home/data/employee_data.csv' INTO TABLE EMPLOYEES; Durchführen einer Abfrage > SELECT * FROM EMPLOYEES; 27

28 Pig

29 Pig Philosophie (1) Ein Schwein frisst alles Pig kann Daten verarbeiten, ob Metadaten vorliegen oder nicht. Pig kann relationale, verschachtelte oder unstrukturierte Daten verarbeiten. Pig kann einfach erweitert werden, um Daten aus anderen Quellen als Dateien zu verarbeiten (z.b. Datenbanken). Schweine leben überall: Pig ist eine Sprache für die parallele Datenverarbeitung. Es wurde zwar zuerst auf Hadoop implementiert, kann jedoch auch auf andere Plattformen übertragen werden.

30 Pig Philosophie (2) Schweine sind Haustiere: Pig ist so designed, dass es von seinen Anwendern einfach kontrolliert und geändert werden kann. Pig erlaubt viele Eingriffsmöglichkeiten und an vielen Stellen die Verwendung von eigenen Implementierungen. Schweine fliegen: Pig verarbeitet Daten schnell. Es wird ständig daran gearbeitet, die Performanz zu verbessern und es werden keine Funktionalitäten implementiert, die Pig so schwergewichtig machen, dass es nicht mehr fliegen kann.

31 Pig-Skript: Wordcount eingabe = load '/path/to/data/blaukraut.txt' as (zeile); woerter = foreach eingabe generate flatten (TOKENIZE(zeile)) as wort; gruppe = group woerter by wort; anzahl = foreach gruppe generate group, COUNT(woerter.wort); DUMP anzahl; (und,1) (bleibt,2) (Blaukraut,2) (Brautkleid,2)

32 Apache Spark

33 Apache Spark Ursprünglich ein Forschungsprojekt der UC Berkeley in 2009 Open Source Letzte stabile Version: v (März 2016) CDH 5.4.2: Version Zeilen Code (~ 75% Scala) Größter Mitwirker: databricks (~75%) Entwickelt von fast 1000 Entwicklern aus über 200 Firmen Quelle: Brian Clapper (2015): Spark Essentials: Scala, Amsterdam 33

34 Spark Komponenten Spark SQL Spark streaming MLib GraphX Spark Core (API) Cluster Manager Standalone scheduler YARN 34

35 Resilient distributed dataset (RDD) RDD Partition 1 Record Block 1 Record HDFS File Partition 2 Record Block 2 Record 35

36 Viele Tools generieren MapReduce Jobs-Ketten oder oder oder oder... Map Reduce Map Reduce... 36

37 Tools wie Impala und Spark reduzieren I/O Impala oder oder... Operation Operation Operation... 37

38 Grundlegende Unterschiede Hadoop Map Reduce Batch-orientiert (lange Intitierungsphase) MapReduce-Job-Ketten mit viel I/O Trennung von Logik in Mapper und Reducer (und mehrere Jobs) Viel Boilerplate -Code Java-API Apache Spark Viel in-memory Verarbeitung (aber nicht nur!) Reduziertes I/O Kompakter Code, einfache API Zugriff auf verschiedenste Datenquellen Scala-, Java-, Python-, R- API 38

39 Laden von Daten aus HDFS scala> val filerdd = sc.textfile("hdfs://...") Dies ist die erste Textzeile... sc = Spark Context = vordefinierte Variable in der Spark Shell 39

40 Funktionen als Argumente scala> val filerdd = spark.textfile("hdfs://...") scala> val resultrdd = filerdd.flatmap(line => line.split(" ")) Dies ist die erste Textzeile ParameterName (beliebig) Ausdruck (letztes Ergebnis = Return-Wert) 40

41 Funktionen als Argumente scala> val filerdd = spark.textfile("hdfs://...") scala> val resultrdd = filerdd.flatmap(line => line.split(" ")).map(word => (word, 1)) Dies, 1 ist, 1 die, 1 erste, 1 Textzeile, 1 41

42 Spark Wordcount kompletter Code scala> val filerdd = spark.textfile("hdfs://...") scala> val resultrdd = filerdd.flatmap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((value1,value2) => value1+value2) aber, 2 das, 3... scala> resultrdd.saveastextfile("hdfs://...") 42

43 DataFrames & Spark SQL

44 Mit Spark SQL wird ein Interface zur Verfügung gestellt, um mit strukturierten, d.h. schemagestützten Daten zu arbeiten. Spark SQL ermöglicht es Daten aus einer Vielzahl von strukturierten Quellen (JSON, Hive, Parquet) zu laden. Daten durch SQL und HiveQL abzufragen Hierfür bietet Spark ein spezielles RDD an, SELECT COUNT(*) FROM hivetable WHERE hive_column = hivedata das sogenannte DataFrame, welches ein RDD von Row-Objects darstellt. DataFrames können aus externen Datenquellen, aus dem Ergebnis einer Abfrage oder aus regulären RDDs erzeugt werden und bieten neue Operationen an. Quelle: Karau et al. 2015: Learning Spark: Lightning-Fast Big Data Analysis 44

45 DataFrame Features DataFrames sind die bevorzugte Abstraktion in Spark Dataframes sind immutable sobald konstruiert Unterstützen zahlreiche Datenformate und Speichersysteme Skalieren von extrem kleinen Datenmengen bis hin zu extrem großen Datenmengen Nutzen den Spark SQL Optimizer Catalyst (CodeGeneration & Optimierung) Vereinfachte API für Scala, Python, Java, R 45

46 DataFrames API val df = sqlcontext. Spark 1.4 read. format( json ). option( samplingratio, 0.1 ). load( /path/to/file ) df.write. format( parquet ). mode( append ). partitionyby( columnxy ). saveastable( outputtbl ) 46

47 DataFrames & Spark SQL df.registertemptable( mytable ) sqlcontext.sql( SELECT COUNT(*) FROM mytable ) 47

48 DataFrames Performance Zeit um 10 Millionen Integerpaare zu aggregieren (in Sekunden) Quelle: Brian Clapper (2015): Spark Essentials: Scala, Amsterdam 48

49 Wir bieten offene Trainings, sowie maßgeschneiderte Trainings für individuelle Kunden an. Einführung Hadoop (1 Tag) Hadoop Intensiv-Entwickler Training (3 Tage) Einführung Apache Spark Datenverarbeitung in Hadoop mit Pig und Hive Data Warehousing & Dimensionale Modellierung OWB Skripting mit OMB*Plus Oracle SQL Tuning Einführung in Oracle: Architektur, SQL und PL/SQL 49

50 Danke! metafinanz Informationssysteme GmbH Leopoldstraße 146 D München Phone: Fax: