metafinanz Business & IT Consulting Hadoop in a Nutshell

Größe: px
Ab Seite anzeigen:

Download "metafinanz Business & IT Consulting Hadoop in a Nutshell"

Transkript

1 metafinanz Business & IT Consulting Hadoop in a Nutshell

2 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum Daten & Fakten 25 Jahre am Markt 1990 Gründung in St. Georgen/Schwarzwald 1995 Management-Buy-In durch die Allianz Group Gründung des Münchner Standorts 2000 München wird Headquarter 2015 metafinanz feiert 25-jähriges Jubiläum 220 Umsatz in Mio. EUR Je komplexer die Prozesse werden, desto flexibler wird metafinanz. Die gelieferte Qualität war hervorragend." (Kundenstimme im Rahmen der Zufriedenheitsumfrage 2014) 1400 Berater Referenzen (Auszug): Allianz Group Aioi Nissay Dowa Life Insurance Europe ARD.ZDF medienakademie AXA Versicherungen BayWoBau Bürklin Commerzbank COR & FJA ESPRIT Europe Euler Hermes Frankfurter Fondsbank Generali HSH Nordbank AG IKEA KVB O2 Germany Ratioform Verpackungen R+V Versicherung Sächsische Aufbaubank Swiss Life Versicherungskammer Bayern u.a. 2

3 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Themenbereiche Über metafinanz Enterprise DWH Data modeling and integration and ETL Architecture: DWH and data marts Hadoop and Columnar DBs Data quality and data masking Analytics Predictive models, data mining and statistics Social media analytics Customer intelligence Scorecarding Fraud and AML metafinanz steht für branchenübergreifendes, ganzheitliches Business & IT Consulting. Gemeinsam mit unseren Kunden gestalten wir ihren Weg in eine digitale Welt. Wir transformieren Geschäftsprozesse und übersetzen strategische Ziele in effektive IT-Lösungen. Unsere Kunden schätzen uns seit 25 Jahren als flexiblen und lösungsorientierten Partner. Als unabhängiges Unternehmen der Allianz Group sind wir in komplexen Abläufen und Veränderungsprozessen in Großkonzernen zu Hause. BI & Risk Ihr Kontakt: Mathias Höreth Insurance reporting Standard and adhoc Reporting Dashboarding BI office integration Mobile BI and in-memory SAS trainings for business analysts Risk Solvency II (Standard & internal model) Regulatory reporting Compliance Risk management BI Consultant Certified Oracle Developer Certified Hadoop Developer Mail: Phone:

4 BigData

5 Einführung in Big Data Prognose für die Datenentwicklung Die Analysten und großen IT-Firmen sind sich einig: das Datenwachstum ist ungebremst. IBM Jeden Tag erzeugen wir 2,5 Trillionen Bytes an Daten. 90% der heute existierenden Daten wurde allein in den letzten beiden Jahren erzeugt. Quelle: Gartner Die in Unternehmen gespeicherte Datenmenge wächst innerhalb der kommenden 5 Jahre um 800%. 80% der Steigerung entfallen auf unstrukturierte Daten. Quelle: EMC Die weltweit vorhandenen Daten verdoppeln sich alle 2 Jahre Quelle: 5

6 Datenvolumen in Exabyte Einführung in Big Data Prognose für die Datenentwicklung Abbildung: EMC Corporation. n.d. Prognose zum Volumen der jährlich generierten digitalen Datenmenge weltweit in den Jahren 2005 bis 2020 (in Exabyte). Statista. Verfügbar unter (letzter Zugriff: 27. Juli 2015). 6

7 Einführung in Big Data Definition: Die 4 V s Big Data wird durch die 4 Dimensionen Volume, Variety, Velocity und Veracity charakterisiert. nicht einheitlich strukturiert bzw. die Struktur ändert sich Volume sehr große Datenmengen Variety Velocity schnell erzeugt und zeitnah benötigt Verwendbarkeit der Daten unterschiedlich Veracity 7

8 Einführung in Big Data Big Data - Anwendungsfälle 1. Datenerweiterung durch Big Data - Exploration 2. Erhöhung der Effizienz und Skalierbarkeit der IT durch die Erweiterung des DWH mit Big Data - Technologie 3. Betriebsoptimierung durch die Auswertung von Maschinendaten 4. Verbesserung der Kundeninteraktion durch die verbesserte Sicht auf den Kunden 5. Betrugserkennung durch die Anwendung von Regeln 8

9 Apache Hadoop

10 Hadoop Ökosystem Cascalog Oryx Crunch Hadoop MapReduce Skalierbare Rechenkapazität ORCFiles Big Data Connectors Kafka Big SQL 1 2 SequenceFiles Hadoop Distributed FileSystem (HDFS) Skalierbare Speicherkapazität HttpFS FuseDFS Se

11 Die Apache Software hat sich mittlerweile als Quasi-Standard zur Speicherung und Verarbeitung von Big Data etabliert. Verwaltung riesiger Datenmengen von strukturierten und unstrukturierten Daten Linear skarlierbarer Cluster (Speicher & Performance) von Standard-Servern Performance - Der Code wird zu den Daten auf die entsprechenden Knoten verteilt Ein großes Ökosystem an Tools rund um Hadoop Open Source - Kommerzielle Distributionen erhältlich 11

12 Hadoop ist keine Datenbank Auch wenn man strukturierte Daten in Hadoop speichern kann Hadoop ist keine relationale Datenbank. Hadoop Verarbeitung un-, teil- oder strukturierter Daten Schema on Read Write Once Read Many Geringe Datenintegrität Linear erweiterbar Oracle Verarbeitung strukturierter Daten Schema on Write Write Read Update Many Times Hohe Datenintegrität Nicht linear erweiterbar 12

13 Ein Hadoop Cluster besteht aus Commodity Servern. Use Case abhängig sind Hauptspeicher, Festplattenspeicher und Netzwerk Hardware (Datanode) GB Hauptspeicher (ggfs. bis zu 512GB) 2 quad-/hex-/octo-core CPUs, 2-2.5GHz TB Festplatten, JBOD-Konfiguration Bonded Gigabit Ethernet oder 10 Gigabit Ethernet Quelle: 13

14 HDFS

15 Hadoop Distributed File System (HDFS) Das HDFS ist ein verteiltes Dateisystem und bildet die Basis für die BigData-Verarbeitung mit Hadoop. Definition Zuständig für die redundante Speicherung großer Datenmengen in einem Cluster unter Nutzung von Commodity- Hardware Implementiert in Java auf Grundlage von Google s GFS. Liegt über einem nativen Dateisystem (wie ext3, ext4 oder xfs) 15

16 HDFS - Eigenschaften HDFS ist für die redundante Speicherung von großen Dateien ausgelegt, die write-once-read-many Daten enthalten. Beste Performance bei der Speicherung von großen Dateien: Besser weniger große Dateien als viele kleine Dateien! Dateien in HDFS sind nicht änderbar (write-once-read-many), d. h. es sind keine wahlfreien Schreibzugriffe erlaubt. Seit Hadoop 2.0 ist es möglich, Daten an Dateien anzuhängen (append). HDFS ist optimiert für das sequenzielle Lesen großer Dateien. Dateien werden im HDFS in Blöcke aufgeteilt (Default-Blockgröße: 128MB). Jeder Block wird redundant im Cluster gespeichert (Default: dreifache Speicherung). Unterschiedliche Blöcke der gleichen Datei werden auf unterschiedlichen Knoten (und ggf. Racks) gespeichert. 16

17 HDFS - Systemarchitektur Das HDFS besteht aus verschiedenen Systemkomponenten mit dedizierten Aufgaben. Client NameNode CheckpointNode / BackupNode Masternodes DataNode DataNode DataNode Slavenodes HDFS HDFS Cluster 17

18 300 MB HDFS - Funktionsweise Das Hadoop Distributed File System (HDFS) speichert große Dateien durch Aufteilung in Blöcke und verhindert Datenverlust durch Replikation. $ hdfs dfs put doc.txt Client 128 MB 128 MB 44MB x3 x3 x3 3;1;5 3;7;8 6;4; Cluster 18

19 MapReduce

20 MapReduce Systemarchitektur Data Node 1 Node Manager Client 1 Client 2 Job starten Master Node Resource Manager Scheduler HDFS blocks Data Node 2 Node Manager HDFS blocks 20

21 Der MapReduce-Algorithmus Die Map-Operation liest ein Key-/ Value-Paar ein und gibt beliebig viele Key-/Value-Paare aus. Shuffle & Sort gruppiert alle Werte nach dem Schlüssel. Die Reduce-Operation verarbeitet alle Werte eines Schlüssels und gibt ebenfalls beliebig viele Key-/Value-Paare aus. 0 das ist ein beispiel text mit 240 scheinbar unsinnigem inhalt 488 der sich über mehrere zeilen 736 erstreckt und so groß ist das [1,1,1,1,1,1,1,1] ist [1,1,1,1] ein [1,1,1,1,1,1,1,1,1,1,1,1] beispiel [1,1] [ ] for (word : line.split("\\s+")) { } write(word, 1); das 1 ist 1 ein 1 beispiel 1 1 sum = 0; for (value : values) { sum = sum + value; } write(key, sum); das 8 ist 4 ein 12 beispiel 2 [ ] Mapper Shuffle & Sort Reducer 21

22 Mapper-Code WordCount package de.metafinanz.hadoop.wordcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.longwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.mapper; public class WordCount { public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(longwritable key, Text value, Context context) throws IOException, InterruptedException { } } String line = value.tostring(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasmoretokens()) { } word.set(tokenizer.nexttoken()); context.write(word, one); 22

23 Reducer-Code WordCount package de.metafinanz.hadoop.wordcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.reducer; public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> { } public void reduce(text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); } 23

24 Driver-Code WordCount package de.metafinanz.hadoop.wordcount; import org.apache.hadoop.fs.path; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.job; import org.apache.hadoop.mapreduce.lib.input.fileinputformat; import org.apache.hadoop.mapreduce.lib.output.fileoutputformat; public static void main(string[] args) throws Exception { Configuration conf = new Configuration(); Job job = new Job(conf, "wordcount"); job.setoutputkeyclass(text.class); job.setoutputvalueclass(intwritable.class); job.setmapperclass(map.class); job.setreducerclass(reduce.class); job.setinputformatclass(textinputformat.class); job.setoutputformatclass(textoutputformat.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); } } job.waitforcompletion(true); 24

25 Hive

26 Apache Hive Die SQL-"Datenbank" von Hadoop. Factsheet (Stand ) ) Architektur Homepage Komponenten HCatalog für Metadaten Hive Hadoop Beeswax WebUI in Hue integriert HiveServer2 und beeline als CLI Aktuelles Release 2.0 vom 15. Februar 2016 Lizenzmodell Apache, OpenSource HiveQL (SQL) CLI Thrif t Driver Job Tracker Distributionen Alleinstellungsmerkmale Wettbewerbsprodukte Sonstiges Cloudera, MapR, Hortonworks, Pivotal, SQL mit MapReduce Impala, SparkSQL, HAWQ metastore /... /user/hive/warehous e FAZIT: HiveQL Dialekt bietet gute Kompatibilität mit standard ANSI-SQL. Problematisch ist die Performanz, welche durch MapReduce eingeschränkt ist. Als Alternative für die Zukunft ist SparkSQL vielverprechend, bzw. Hive on Tez, Hive on Spark Seite 26 Had oop Ecos yste

27 SQL Abfragen mit HIVE Der Beeline Client ist eine simple SQL-Shell, welche es erlaubt HiveQL zu nutzen. Details hierzu siehe Anlegen einer managed-table > CREATE TABLE EMPLOYEES( EMPLOYEE_ID INT, FIRST_NAME STRING, LAST_NAME STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; Laden lokaler Daten > LOAD DATA LOCAL INPATH 'home/data/employee_data.csv' INTO TABLE EMPLOYEES; Durchführen einer Abfrage > SELECT * FROM EMPLOYEES; 27

28 Pig

29 Pig Philosophie (1) Ein Schwein frisst alles Pig kann Daten verarbeiten, ob Metadaten vorliegen oder nicht. Pig kann relationale, verschachtelte oder unstrukturierte Daten verarbeiten. Pig kann einfach erweitert werden, um Daten aus anderen Quellen als Dateien zu verarbeiten (z.b. Datenbanken). Schweine leben überall: Pig ist eine Sprache für die parallele Datenverarbeitung. Es wurde zwar zuerst auf Hadoop implementiert, kann jedoch auch auf andere Plattformen übertragen werden.

30 Pig Philosophie (2) Schweine sind Haustiere: Pig ist so designed, dass es von seinen Anwendern einfach kontrolliert und geändert werden kann. Pig erlaubt viele Eingriffsmöglichkeiten und an vielen Stellen die Verwendung von eigenen Implementierungen. Schweine fliegen: Pig verarbeitet Daten schnell. Es wird ständig daran gearbeitet, die Performanz zu verbessern und es werden keine Funktionalitäten implementiert, die Pig so schwergewichtig machen, dass es nicht mehr fliegen kann.

31 Pig-Skript: Wordcount eingabe = load '/path/to/data/blaukraut.txt' as (zeile); woerter = foreach eingabe generate flatten (TOKENIZE(zeile)) as wort; gruppe = group woerter by wort; anzahl = foreach gruppe generate group, COUNT(woerter.wort); DUMP anzahl; (und,1) (bleibt,2) (Blaukraut,2) (Brautkleid,2)

32 Apache Spark

33 Apache Spark Ursprünglich ein Forschungsprojekt der UC Berkeley in 2009 Open Source Letzte stabile Version: v (März 2016) CDH 5.4.2: Version Zeilen Code (~ 75% Scala) Größter Mitwirker: databricks (~75%) Entwickelt von fast 1000 Entwicklern aus über 200 Firmen Quelle: Brian Clapper (2015): Spark Essentials: Scala, Amsterdam 33

34 Spark Komponenten Spark SQL Spark streaming MLib GraphX Spark Core (API) Cluster Manager Standalone scheduler YARN 34

35 Resilient distributed dataset (RDD) RDD Partition 1 Record Block 1 Record HDFS File Partition 2 Record Block 2 Record 35

36 Viele Tools generieren MapReduce Jobs-Ketten oder oder oder oder... Map Reduce Map Reduce... 36

37 Tools wie Impala und Spark reduzieren I/O Impala oder oder... Operation Operation Operation... 37

38 Grundlegende Unterschiede Hadoop Map Reduce Batch-orientiert (lange Intitierungsphase) MapReduce-Job-Ketten mit viel I/O Trennung von Logik in Mapper und Reducer (und mehrere Jobs) Viel Boilerplate -Code Java-API Apache Spark Viel in-memory Verarbeitung (aber nicht nur!) Reduziertes I/O Kompakter Code, einfache API Zugriff auf verschiedenste Datenquellen Scala-, Java-, Python-, R- API 38

39 Laden von Daten aus HDFS scala> val filerdd = sc.textfile("hdfs://...") Dies ist die erste Textzeile... sc = Spark Context = vordefinierte Variable in der Spark Shell 39

40 Funktionen als Argumente scala> val filerdd = spark.textfile("hdfs://...") scala> val resultrdd = filerdd.flatmap(line => line.split(" ")) Dies ist die erste Textzeile ParameterName (beliebig) Ausdruck (letztes Ergebnis = Return-Wert) 40

41 Funktionen als Argumente scala> val filerdd = spark.textfile("hdfs://...") scala> val resultrdd = filerdd.flatmap(line => line.split(" ")).map(word => (word, 1)) Dies, 1 ist, 1 die, 1 erste, 1 Textzeile, 1 41

42 Spark Wordcount kompletter Code scala> val filerdd = spark.textfile("hdfs://...") scala> val resultrdd = filerdd.flatmap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((value1,value2) => value1+value2) aber, 2 das, 3... scala> resultrdd.saveastextfile("hdfs://...") 42

43 DataFrames & Spark SQL

44 Mit Spark SQL wird ein Interface zur Verfügung gestellt, um mit strukturierten, d.h. schemagestützten Daten zu arbeiten. Spark SQL ermöglicht es Daten aus einer Vielzahl von strukturierten Quellen (JSON, Hive, Parquet) zu laden. Daten durch SQL und HiveQL abzufragen Hierfür bietet Spark ein spezielles RDD an, SELECT COUNT(*) FROM hivetable WHERE hive_column = hivedata das sogenannte DataFrame, welches ein RDD von Row-Objects darstellt. DataFrames können aus externen Datenquellen, aus dem Ergebnis einer Abfrage oder aus regulären RDDs erzeugt werden und bieten neue Operationen an. Quelle: Karau et al. 2015: Learning Spark: Lightning-Fast Big Data Analysis 44

45 DataFrame Features DataFrames sind die bevorzugte Abstraktion in Spark Dataframes sind immutable sobald konstruiert Unterstützen zahlreiche Datenformate und Speichersysteme Skalieren von extrem kleinen Datenmengen bis hin zu extrem großen Datenmengen Nutzen den Spark SQL Optimizer Catalyst (CodeGeneration & Optimierung) Vereinfachte API für Scala, Python, Java, R 45

46 DataFrames API val df = sqlcontext. Spark 1.4 read. format( json ). option( samplingratio, 0.1 ). load( /path/to/file ) df.write. format( parquet ). mode( append ). partitionyby( columnxy ). saveastable( outputtbl ) 46

47 DataFrames & Spark SQL df.registertemptable( mytable ) sqlcontext.sql( SELECT COUNT(*) FROM mytable ) 47

48 DataFrames Performance Zeit um 10 Millionen Integerpaare zu aggregieren (in Sekunden) Quelle: Brian Clapper (2015): Spark Essentials: Scala, Amsterdam 48

49 Wir bieten offene Trainings, sowie maßgeschneiderte Trainings für individuelle Kunden an. Einführung Hadoop (1 Tag) Hadoop Intensiv-Entwickler Training (3 Tage) Einführung Apache Spark Datenverarbeitung in Hadoop mit Pig und Hive Data Warehousing & Dimensionale Modellierung OWB Skripting mit OMB*Plus Oracle SQL Tuning Einführung in Oracle: Architektur, SQL und PL/SQL 49

50 Danke! metafinanz Informationssysteme GmbH Leopoldstraße 146 D München Phone: Fax:

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015 Hadoop & Spark Carsten Herbe 8. CC-Partner Fachtagung 2015 29.04.2015 Daten & Fakten 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum 25 Jahre am Markt

Mehr

Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014

Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014 Überblick Hadoop Einführung HDFS und MapReduce DOAG Regionaltreffen München/Südbayern Februar 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business

Mehr

Hadoop in a Nutshell HDFS, MapReduce & Ecosystem. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop in a Nutshell HDFS, MapReduce & Ecosystem. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop in a Nutshell HDFS, MapReduce & Ecosystem Oracle DWH Konferenz 2014 Carsten Herbe Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

Spark das neue MapReduce?

Spark das neue MapReduce? Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche

Mehr

Spark das neue MapReduce?

Spark das neue MapReduce? Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche

Mehr

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Herzlich Willkommen bei Webinar@Lunchtime Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Xing-Profil:

Mehr

Einführung in die Hadoop-Welt HDFS, MapReduce & Ökosystem. Big Data für Oracle Entwickler September 2014 Carsten Herbe

Einführung in die Hadoop-Welt HDFS, MapReduce & Ökosystem. Big Data für Oracle Entwickler September 2014 Carsten Herbe HDFS, MapReduce & Ökosystem Big Data für Oracle Entwickler September 2014 Carsten Herbe Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence

Mehr

Big Data: Apache Hadoop Grundlagen

Big Data: Apache Hadoop Grundlagen Seminarunterlage Version: 1.07 Version 1.07 vom 5. September 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Map Reduce. Programmiermodell. Prof. Dr. Ingo Claÿen. Motivation. Modell. Verarbeitungsablauf. Algorithmen-Entwurf. Map-Reduce in Java

Map Reduce. Programmiermodell. Prof. Dr. Ingo Claÿen. Motivation. Modell. Verarbeitungsablauf. Algorithmen-Entwurf. Map-Reduce in Java Map Reduce Programmiermodell Prof. Dr. Ingo Claÿen Hochschule für Technik und Wirtschaft Berlin Motivation Modell Verarbeitungsablauf Algorithmen-Entwurf Map-Reduce in Java Motivation Was ist Map-Reduce

Mehr

BIG UNIVERSITÄTSRECHENZENTRUM

BIG UNIVERSITÄTSRECHENZENTRUM UNIVERSITÄTS RECHENZENTRUM LEIPZIG BIG DATA @ UNIVERSITÄTSRECHENZENTRUM Forschung und Entwicklung Entwicklung eines E-Science-Angebots für die Forschenden an der Universität Leipzig Stefan Kühne Axel Ngonga

Mehr

metafinanz Business & IT Consulting

metafinanz Business & IT Consulting metafinanz Business & IT Consulting Agile BI-Architecture 19-NOV-2015 peter.schneider@metafinanz.de Daten & Fakten metafinanz. Big enough to deliver, small enough to care. 25 Jahre am Markt 1990 Gründung

Mehr

Datenaustausch Hadoop & Oracle DB Carsten Herbe metafinanz Informationssysteme GmbH München

Datenaustausch Hadoop & Oracle DB Carsten Herbe metafinanz Informationssysteme GmbH München Datenaustausch Hadoop & Oracle DB Carsten Herbe metafinanz Informationssysteme GmbH München Schlüsselworte Hadoop, Sqoop, Sqoop 2, Hive, Oracle Big Data Konnektoren Einleitung Neben der klassischen Data

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Big Data Technologien

Big Data Technologien Big Data Technologien - Ein Überblick - Prof. Dr. Jens Albrecht jens.albrecht@th-nuernberg.de Big Data Landscape 2016 Prof. Dr. Jens Albrecht Big Data 3 Systemarchitektur im Wandel Gestern und heute Strukturierte

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Big Data. Professional IT Master. Prof. Dr. Ingo Claßen. Überblick. Verarbeitungsmodell. Verarbeitungsablauf. Verteilte Daten. Ressourcenmanagement

Big Data. Professional IT Master. Prof. Dr. Ingo Claßen. Überblick. Verarbeitungsmodell. Verarbeitungsablauf. Verteilte Daten. Ressourcenmanagement Big Data Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Überblick Verarbeitungsmodell Verarbeitungsablauf Verteilte Daten Ressourcenmanagement Koordination Überblick

Mehr

Schneller als Hadoop?

Schneller als Hadoop? Schneller als Hadoop? Einführung in Spark Cluster Computing 19.11.2013 Dirk Reinemann 1 Agenda 1. Einführung 2. Motivation 3. Infrastruktur 4. Performance 5. Ausblick 19.11.2013 Dirk Reinemann 2 EINFÜHRUNG

Mehr

Big Data in der Praxis

Big Data in der Praxis Jonas Freiknecht Big Data in der Praxis Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren HANSER Vorwort XI 1 Einleitung 1 2 Big-Data 7 2.1 Historische Entstehung 8 2.2 Big-Data

Mehr

S3 your Datacenter. Software Defined Object Storage. Die kostengünstige und skalierbare Lösung für Ihre unstrukturierten Daten

S3 your Datacenter. Software Defined Object Storage. Die kostengünstige und skalierbare Lösung für Ihre unstrukturierten Daten S3 your Datacenter Software Defined Object Storage Die kostengünstige und skalierbare Lösung für Ihre unstrukturierten Daten Unstrukturierte Daten explodieren Volume in Exabytes Sensors & Devices Social

Mehr

BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY

BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY 08.03.2017 REWE Systems GmbH Jonas Freiknecht inovex GmbH Bernhard Schäfer AGENDA 1 / Vorstellung REWE Systems GmbH und inovex

Mehr

Big Data Konnektoren: Hadoop und die Oracle DB

Big Data Konnektoren: Hadoop und die Oracle DB Big Data Konnektoren: Hadoop und die Oracle DB Philipp Loer ORDIX AG, Paderborn Schlüsselwörter Hadoop, Hive, OLH, OSCH Einleitung Der Vortrag beginnt mit einer Einführung in die Big Data Welt mit Apache

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

metafinanz Business & IT Consulting Einführung in Apache Spark

metafinanz Business & IT Consulting Einführung in Apache Spark metafinanz Business & IT Consulting Einführung in Apache Spark 25.09.2015 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum Daten & Fakten 25 Jahre

Mehr

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel Carsten Herbe metafinanz Informationssysteme GmbH In unserer Business Line Business Intelligence & Risk gibt es fünf Bereiche: Risk,

Mehr

Datenaustausch Hadoop & Oracle DB. DOAG Konferenz 2013 Nürnberg, 19.-21. November 2013 Carsten Herbe metafinanz Informationssysteme GmbH

Datenaustausch Hadoop & Oracle DB. DOAG Konferenz 2013 Nürnberg, 19.-21. November 2013 Carsten Herbe metafinanz Informationssysteme GmbH DOAG Konferenz 2013 Nürnberg, 19.-21. November 2013 Carsten Herbe metafinanz Informationssysteme GmbH Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT.

Mehr

Hadoop Projekte Besonderheiten & Vorgehensweise. Oracle/metafinanz Roadshow Februar 2014

Hadoop Projekte Besonderheiten & Vorgehensweise. Oracle/metafinanz Roadshow Februar 2014 Hadoop Projekte Besonderheiten & Vorgehensweise Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

einfach. gut. beraten. Oracle Big Data Konnektoren: Hadoop und die Oracle DB DOAG Konferenz + Ausstellung 2016 Nürnberg Philipp Loer

einfach. gut. beraten. Oracle Big Data Konnektoren: Hadoop und die Oracle DB DOAG Konferenz + Ausstellung 2016 Nürnberg Philipp Loer einfach. gut. beraten. Oracle Big Data Konnektoren: Hadoop und die Oracle DB DOAG Konferenz + Ausstellung 2016 Nürnberg Philipp Loer info@ordix.de www.ordix.de Agenda Hadoop Hive OLH: Oracle Loader for

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

Fast Analytics on Fast Data

Fast Analytics on Fast Data Fast Analytics on Fast Data Kudu als Storage Layer für Banking Applikationen Problem Klassischer Kreditprozess Beantragung in der Filiale Aufwendiger Prozess Nachweis durch Dokumente Manuelle Bewilligung

Mehr

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern

Mehr

Hadoop & SQL Wie Hadoop um SQL erweitert werden kann. Oracle/metafinanz Roadshow 11./18. Februar

Hadoop & SQL Wie Hadoop um SQL erweitert werden kann. Oracle/metafinanz Roadshow 11./18. Februar Hadoop & SQL Wie Hadoop um SQL erweitert werden kann Oracle/metafinanz Roadshow 11./18. Februar Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services

Mehr

!! Waldemar Reger Köln,

!! Waldemar Reger Köln, Analyse und Evaluierung von Parameterabhängigkeiten anhand der Laufzeit von MapReduce-Jobs zur Konzeptionierung von Hadoop-Clustern Waldemar Reger Köln, 23.07.2014 Agenda 1. Hadoop Grundlagen 2. Cluster

Mehr

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied

Mehr

Data Mart Offload nach Hadoop Star Schema in HDFS anstatt RDBMS. Carsten Herbe DOAG Konferenz November 2014

Data Mart Offload nach Hadoop Star Schema in HDFS anstatt RDBMS. Carsten Herbe DOAG Konferenz November 2014 Data Mart Offload nach Hadoop Star Schema in HDFS anstatt RDBMS Carsten Herbe DOAG Konferenz November 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und

Mehr

PL/SQL vs. Spark Umsteigertipps für's DWH

PL/SQL vs. Spark Umsteigertipps für's DWH PL/SQL vs. Spark Umsteigertipps für's DWH Christopher Thomsen Hamburg Jens Bleiholder Berlin Schlüsselworte Big Data, Spark, PL/SQL, SQL, ETL, Hadoop, DWH Einleitung Mit Hadoop 2.0 öffnete sich die Big

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Cloud Data Management Kapitel 4: MapReduce(Teil3)

Cloud Data Management Kapitel 4: MapReduce(Teil3) Cloud Data Management Kapitel 4: MapReduce(Teil3) Dr. Eric Peukert Wintersemester 2017 Universität Leipzig, Institut für Informatik http://dbs.uni-leipzig.de Inhaltsverzeichnis MapReduce MapReduce-Umsetzung

Mehr

ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover

ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover Schlüsselworte Oracle Data Integrator ODI, Big Data, Hadoop, MapReduce,, HDFS, PIG,

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

QUNIS 360 was war, was wird? BI, Big Data, Cloud, Predictive & Advanced Analytics, Streaming. Referent: Steffen Vierkorn

QUNIS 360 was war, was wird? BI, Big Data, Cloud, Predictive & Advanced Analytics, Streaming. Referent: Steffen Vierkorn QUNIS 360 was war, was wird? BI, Big Data, Cloud, Predictive & Advanced Analytics, Streaming Referent: Steffen Vierkorn Agenda 10.00 10.30 Begrüßung & aktuelle Entwicklungen bei QUNIS 10.30 11.00 11.00

Mehr

Schneller als Hadoop? Einführung in Spark Cluster Computing

Schneller als Hadoop? Einführung in Spark Cluster Computing Schneller als Hadoop? Einführung in Spark Cluster Computing Dirk Reinemann Oracle Deutschland B.V. & Co. KG Potsdam Schlüsselworte Big Data, Cluster Computing, Spark, Shark, Resilient Distributed Datasets,

Mehr

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan

Mehr

Data Mart (Star Schema) Offload nach Hadoop

Data Mart (Star Schema) Offload nach Hadoop Data Mart (Star Schema) Offload nach Hadoop Carsten Herbe Metafinanz-Informationssysteme GmbH München Schlüsselworte Data Mart, Hadoop, HDFS, Hive, Impala, Parquet, Kompression, Snappy, Star Schema, Performance

Mehr

OXO³ technische Aspekte der Oracle EMEA internen BI Implementierung

OXO³ technische Aspekte der Oracle EMEA internen BI Implementierung OXO³ technische Aspekte der Oracle EMEA internen BI Implementierung Bojan Milijaš (bojan.milijas@oracle.com) Senior Business Analyst (OCP) ORACLE Deutschland GmbH Kennen Sie das Sprichwort

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

Exadata und In-Memory Datenbewirtschaftung und Analyse Extrem mit Exadata und InMemory (Erfahrungsbericht)

Exadata und In-Memory Datenbewirtschaftung und Analyse Extrem mit Exadata und InMemory (Erfahrungsbericht) Exadata und In-Memory Datenbewirtschaftung und Analyse Extrem mit Exadata und InMemory (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team Inhalt Thematik (Einordnung

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Einleitung Big Data... Hadoop...

Einleitung Big Data... Hadoop... 1 Einleitung 1 2 Big Data... 7 2.1 Historische Entstehung... 9 2.2 Big Data - ein passender Begriff?... 10 2.2.1 Die drei V... 11 2.2.2 Weitere V s... 14 2.2.3 Der Verarbeitungsaufwand ist big... 14 2.2.4

Mehr

Microsoft Azure Deutschland ist jetzt verfügbar -

Microsoft Azure Deutschland ist jetzt verfügbar - Einordnung und Überblick Data Scientist Operationalisierung IT-Abteilung Anwendungsentwickler Der Data Scientist agil Tool seiner Wahl möglichst wenig Zeit Skalierung Code für die Operationalisierung Der

Mehr

Neues aus der nicht-, semi- und relationalen Welt

Neues aus der nicht-, semi- und relationalen Welt Neues aus der nicht-, semi- und relationalen Welt Information Management Thomas Klughardt Senior System Consultant Das Big Data Problem Was bedeutet Big Data? Performancekritisch Echtzeit Cold Storage

Mehr

Data Science als Treiber für Innovation Neue Anforderungen und Chancen für Ausbildung und Wirtschaft

Data Science als Treiber für Innovation Neue Anforderungen und Chancen für Ausbildung und Wirtschaft Data Science als Treiber für Innovation Neue Anforderungen und Chancen für Ausbildung und Wirtschaft b Univ-Prof. Dr. Stefanie Lindstaedt b www.know-center.at Know-Center GmbH Know-Center: Austria s Research

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Hadoop Ecosystem Vorstellung der Komponenten. Oracle/metafinanz Roadshow Februar 2014

Hadoop Ecosystem Vorstellung der Komponenten. Oracle/metafinanz Roadshow Februar 2014 Hadoop Ecosystem Vorstellung der Komponenten Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die Herausforderungen

Mehr

Die IBM Netezza Architektur für fortgeschrittene Analysen

Die IBM Netezza Architektur für fortgeschrittene Analysen Michael Sebald IT Architect Netezza Die IBM Netezza Architektur für fortgeschrittene Analysen 2011 IBM Corporation Was ist das Problem aller Data Warehouse Lösungen? I / O Transaktionaler und analytischer

Mehr

Big Data Management Thema 14: Cassandra

Big Data Management Thema 14: Cassandra Thema 14: Cassandra Jan Kristof Nidzwetzki Thema 14: Cassandra 1 / 25 Übersicht 1 Grundlagen Überblick Geschichte Datenmodel 2 Architektur Der logische Ring Persistenz der Daten Tunable Consistency Read

Mehr

Deployment mit OMB*Plus Carsten Herbe & Oliver Gehlert metafinanz Informationssysteme GmbH

Deployment mit OMB*Plus Carsten Herbe & Oliver Gehlert metafinanz Informationssysteme GmbH Deployment mit OMB*Plus Carsten Herbe & Oliver Gehlert metafinanz Informationssysteme GmbH Stand: 01.12.2008 Gliederung I. Kurzprofil II. OMB und Experts Über OMB Über Experts Einsatzgebiete von OMB und

Mehr

NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE

NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE Was bedeutet NoSQL? Ein Sammelbegriff für alternative Datenbanklösungen, die

Mehr

Big Data im Retail-Sektor am Beispiel Kassenbondaten

Big Data im Retail-Sektor am Beispiel Kassenbondaten Big Data im Retail-Sektor am Beispiel Kassenbondaten REWE Systems GmbH Jonas Freiknecht inovex GmbH Bernhard Schäfer Business Analytics Day, 08.03.2017 AGENDA 1. Vorstellung REWE Systems GmbH und inovex

Mehr

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? Hans-Peter Zorn Inovex GmbH Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? War nicht BigData das gleiche NoSQL? Data Lake = Keine Struktur? flickr/matthewthecoolguy Oder gar ein Hadump? flickr/autohistorian

Mehr

Universität Karlsruhe (TH)

Universität Karlsruhe (TH) Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Software Engineering für moderne, parallele Plattformen 10. MapReduce Dr. Victor Pankratius Agenda Motivation Der MapReduce-Ansatz Map- und

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics DATA WAREHOUSE Oracle BI&W Referenz Architektur Big Data und High Performance Analytics Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen

Mehr

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN? HANS-JOACHIM EDERT WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT EBINAR@LUNCHTIME

Mehr

Berechnung von Kennzahlen mit der SQL Model Clause

Berechnung von Kennzahlen mit der SQL Model Clause Berechnung von Kennzahlen mit der Thomas Mauch 12.07.2018 DOAG BASEL BERN LAUSANNE ZÜRICH DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. HAMBURG MÜNCHEN STUTTGART WIEN 1 AGENDA 1. Einführung 2. Syntax 3. Performance

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Big Data: Die ersten Schritte eines Oracle Experten

Big Data: Die ersten Schritte eines Oracle Experten Big Data: Die ersten Schritte eines Oracle Experten Schlüsselworte Jan Ott Senior Consultant Business Intelligence Trivadis AG Glattbrugg Big Data, Oracle Connectoren, Hadoop, Claudera, Oracle Einleitung

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired make connections share ideas be inspired Data Guido Oswald Solution Architect @SAS Switzerland BIG Data.. Wer? BIG Data.. Wer? Wikipedia sagt: Als Big Data werden besonders große Datenmengen bezeichnet,

Mehr

Software Engineering Software Frameworks. am Beispiel Ruby on Rails Hendrik Volkmer WWI2010G

Software Engineering Software Frameworks. am Beispiel Ruby on Rails Hendrik Volkmer WWI2010G Software Engineering Software Frameworks am Beispiel Ruby on Rails Hendrik Volkmer WWI2010G Vorstellung Plan für heute Donnerstag Freitag Montag Softwareframeworks Wiederholung Wiederholung Webframeworks

Mehr

A Big Data Change Detection System. Carsten Lanquillon und Sigurd Schacht

A Big Data Change Detection System. Carsten Lanquillon und Sigurd Schacht A Big Data Change Detection System Carsten Lanquillon und Sigurd Schacht Digitale Transformation in Unternehmen u Umfassende Erfassung, Speicherung und Verfügbarkeit von Daten à Big Data Quelle: Rolland

Mehr

H E R Z L I C H W I L L K O M M E N Z U R D O A G K O N F E R E N Z

H E R Z L I C H W I L L K O M M E N Z U R D O A G K O N F E R E N Z H E R Z L I C H W I L L K O M M E N Z U R D O A G K O N F E R E N Z 2 0 1 6 A D V A N C E D A N A L Y T I C S : V O N S E M I - S T R U K T U R I E R T E N D A T E N Z U W I S S E N T O M S E I D E L &

Mehr

Oracle-Legitimation mit einer Standard-BI Lösung (SAS) in der Praxis. Christian Schütze metafinanz - Informationssysteme GmbH

Oracle-Legitimation mit einer Standard-BI Lösung (SAS) in der Praxis. Christian Schütze metafinanz - Informationssysteme GmbH Oracle-Legitimation mit einer Standard-BI Lösung (SAS) in der Praxis Christian Schütze metafinanz - Informationssysteme GmbH Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden

Mehr

Big Data Neue Erkenntnisse aus Daten gewinnen

Big Data Neue Erkenntnisse aus Daten gewinnen Big Data Neue Erkenntnisse aus Daten gewinnen Thomas Klughardt Senior Systems Consultant 0 Software Dell Software Lösungsbereiche Transform Inform Connect Data center and cloud management Foglight APM,

Mehr

Hadoop Eine Erweiterung für die Oracle DB?

Hadoop Eine Erweiterung für die Oracle DB? Hadoop Eine Erweiterung für die Oracle DB? Nürnberg, 18.11.2015, Matthias Fuchs Sensitive Über mich 10+ Jahre Erfahrung mit Oracle Oracle Certified Professional Exadata Certified Oracle Engineered Systems

Mehr

Oracle Data Warehouse Integrator Builder Ein Selbstversuch

Oracle Data Warehouse Integrator Builder Ein Selbstversuch Oracle Data Warehouse Integrator Builder Ein Selbstversuch DOAG Konferenz 2013, Nürnberg Dani Schnider, Trivadis AG BASEL BERN BRUGG LAUSANNE ZÜRICH DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. HAMBURG MÜNCHEN

Mehr

einfach. gut. beraten. Big Data und SQL - das passt! DOAG Konferenz + Ausstellung , Nürnberg Philipp Loer

einfach. gut. beraten. Big Data und SQL - das passt! DOAG Konferenz + Ausstellung , Nürnberg Philipp Loer einfach. gut. beraten. Big Data und SQL - das passt! DOAG Konferenz + Ausstellung 2015 19.11.2015, Nürnberg Philipp Loer info@ordix.de www.ordix.de Agenda Einführung in Hadoop Big Data und SQL passt das

Mehr

SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database

SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database Carsten Czarski Oracle Deutschland B.V. & Co KG Agenda NoSQL: Was ist das und wozu ist das gut? Anwendungsbereiche für NoSQL-Technologien,

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Jürgen Vester Oracle Deutschland B.V. & Co KG Um was geht es bei Big Data? Bei Big Data sprechen wir eine Klasse von Daten an, die in der

Mehr

NoSQL mit Postgres 15. Juni 2015

NoSQL mit Postgres 15. Juni 2015 Tag der Datenbanken 15. Juni 2015 Dipl.-Wirt.-Inform. Agenda l Vorstellung l Marktübersicht l Warum PostgreSQL? l Warum NoSQL? l Beispielanwendung Seite: 2 Vorstellung Dipl.-Wirt.-Inform. [1990] Erste

Mehr

Produktionscontrolling auf dem Weg zur Industrie 4.0

Produktionscontrolling auf dem Weg zur Industrie 4.0 Produktionscontrolling auf dem Weg zur Industrie 4.0 Intelligente Produktion durch Real-Time-Big-Data-Analyse von Sensordaten & Bern, 27.05.2016 Jörg Rieth Jedox vereinfacht Planung, Reporting & Analyse

Mehr

Infrastruktur & Datenarchitekturen für Big-Data-Szenarien Hadoop & Co. Im Detail. Referent: Steffen Vierkorn

Infrastruktur & Datenarchitekturen für Big-Data-Szenarien Hadoop & Co. Im Detail. Referent: Steffen Vierkorn Infrastruktur & Datenarchitekturen für Big-Data-Szenarien Hadoop & Co. Im Detail Referent: Steffen Vierkorn Agenda 10.00 10.30 Begrüßung & aktuelle Entwicklungen bei QUNIS 10.30 11.00 11.00 11.30 11.30

Mehr

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen.

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. 1 In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. Zunächst stellt sich die Frage: Warum soll ich mich mit der Architektur eines DBMS beschäftigen?

Mehr

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team

Mehr

Einführung in Big Data und Hadoop (mit verschiedenen Live Demos) Eintägiges Intensivseminar

Einführung in Big Data und Hadoop (mit verschiedenen Live Demos) Eintägiges Intensivseminar Einführung in Big Data und Hadoop (mit verschiedenen Live Demos) Eintägiges Intensivseminar Die Referenten sind keine exklusiven Trainer, sondern Berater aus dem Projektgeschäft, die auch Trainings durchführen.

Mehr

Javaaktuell. Java ist vielseitig. ijug. Praxis. Wissen. Networking. Das Magazin für Entwickler Aus der Community für die Community

Javaaktuell. Java ist vielseitig. ijug. Praxis. Wissen. Networking. Das Magazin für Entwickler Aus der Community für die Community 04-2016 Winter www. ijug.eu Praxis. Wissen. Networking. Das Magazin für Entwickler Aus der Community für die Community Java ist vielseitig Javaaktuell 4 191978 304903 04 D: 4,90 EUR A: 5,60 EUR CH: 9,80

Mehr

MapReduce mit Hadoop 08.11.12 1

MapReduce mit Hadoop 08.11.12 1 MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung

Mehr

PostgreSQL in großen Installationen

PostgreSQL in großen Installationen PostgreSQL in großen Installationen Cybertec Schönig & Schönig GmbH Hans-Jürgen Schönig Wieso PostgreSQL? - Die fortschrittlichste Open Source Database - Lizenzpolitik: wirkliche Freiheit - Stabilität,

Mehr

Analytic im Einsatz! Betrugserkennung auf Basis von Big Data. Karol Sobiech

Analytic im Einsatz! Betrugserkennung auf Basis von Big Data. Karol Sobiech Analytic im Einsatz! Betrugserkennung auf Basis von Big Data Karol Sobiech 2 ACCENTURE GLOBAL DELIVERY NETWORK 3 4 AGENDA 1 MOTIVATION & ZIEL 2 METHODEN FRAUD MANAGEMENT SYSTEM 4 ARCHITEKTUR & TOOLS 3

Mehr

Charakteristika von Unternehmensanwendungen

Charakteristika von Unternehmensanwendungen Charakteristika von Unternehmensanwendungen Wozu werden Unternehmensanwendungen genutzt? Enterprise applications are about the display, manipulation, and storage of large amounts of often complex data

Mehr

DWH Automation - Steigerung von Qualität, Effektivität und Transparenz in der DWH Implementierung und dem Betrieb. Referent: Raphael Henneke

DWH Automation - Steigerung von Qualität, Effektivität und Transparenz in der DWH Implementierung und dem Betrieb. Referent: Raphael Henneke DWH Automation - Steigerung von Qualität, Effektivität und Transparenz in der DWH Implementierung und dem Betrieb Referent: Raphael Henneke Agenda 10.00 10.30 Begrüßung & aktuelle Entwicklungen bei QUNIS

Mehr

Steffen Bischoff Senior Sales Engineer

Steffen Bischoff Senior Sales Engineer CLOUD FÜR DUMMIES Steffen Bischoff Senior Sales Engineer sbischoff@talend.com 4 WAS CLOUD-LÖSUNGEN BIETEN Keine Anfangsinvestition Geringe Betriebskosten Zahlung nach Gebrauch Überall zugänglich Einfache

Mehr

SODA. Die Datenbank als Document Store. Rainer Willems. Master Principal Sales Consultant Oracle Deutschland B.V. & Co. KG

SODA. Die Datenbank als Document Store. Rainer Willems. Master Principal Sales Consultant Oracle Deutschland B.V. & Co. KG SODA Die Datenbank als Document Store Rainer Willems Master Principal Sales Consultant Oracle Deutschland B.V. & Co. KG vs No Anforderungskonflikte Agile Entwicklung Häufige Schema-Änderungen Relationales

Mehr

Übersicht Streams nach Liste Produkte/Themen

Übersicht Streams nach Liste Produkte/Themen Stream Datenbank: DB Oracle 9i bis 12c In-Memory Datenbanken Enterprise Manager Appliances EXADATA RAC DataGuard Upgrades, Konsolidierungen Implementationen Administration / Monitoring Performance Tuning

Mehr

Realtime Daten-Rückschreibung in Tableau mit der Extensions API //

Realtime Daten-Rückschreibung in Tableau mit der Extensions API // Was wir vorhersagen, soll auch eintreffen! Realtime Daten-Rückschreibung in Tableau mit der Extensions API // Pascal Muth Zusammenfassung In diesem Whitepaper wird die Tableau Extensions API von Tableau

Mehr

Oracle9i Designer. Rainer Willems. Page 1. Leitender Systemberater Server Technology Competence Center Frankfurt Oracle Deutschland GmbH

Oracle9i Designer. Rainer Willems. Page 1. Leitender Systemberater Server Technology Competence Center Frankfurt Oracle Deutschland GmbH Oracle9i Designer Rainer Willems Leitender Systemberater Server Technology Competence Center Frankfurt Oracle Deutschland GmbH Page 1 1 Agenda 9i Designer & 9i SCM in 9i DS Design Server Generierung &

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr