Spark das neue MapReduce?

Größe: px
Ab Seite anzeigen:

Download "Spark das neue MapReduce?"

Transkript

1 Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe

2 Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche Über metafinanz Enterprise DWH Data modeling and integration and ETL Architecture: DWH and data marts Hadoop and Columnar DBs Data quality and data masking Analytics Predictive models, data mining and statistics Social media analytics Customer intelligence Scorecarding Fraud and AML metafinanz steht für branchenübergreifendes, ganzheitliches Business & IT Consulting. Gemeinsam mit unseren Kunden gestalten wir ihren Weg in eine digitale Welt. Wir transformieren Geschäftsprozesse und übersetzen strategische Ziele in effektive IT-Lösungen. Unsere Kunden schätzen uns seit 25 Jahren als flexiblen und lösungsorientierten Partner. Als unabhängiges Unternehmen der Allianz Group sind wir in komplexen Abläufen und Veränderungs-prozessen in Großkonzernen zu Hause. BI & Risk Ihr Kontakt : Carsten Herbe Insurance reporting Standard and adhoc Reporting Dashboarding BI office integration Mobile BI and in-memory SAS trainings for business analysts Risk Solvency II (Standard & internal model) Regulatory reporting Compliance Risk management Head of Data Warehousing Mehr als 10 Jahre DWH-Erfahrung Oracle & OWB Expertise Certified Hadoop Developer Mail: Phone:

3 Inhalt 01 Grenzen von Hadoop und MapReduce 02 Überblick Spark 03 Programmierung mit Spark 04 Spark SQL 05 Fazit 3

4 Inhalt 01 Grenzen von Hadoop und MapReduce 02 Überblick Spark 03 Programmierung mit Spark 04 Spark SQL 05 Fazit 4

5 Grenzen von Hadoop und MapReduce Was ist Hadoop? Hadoop MapReduce Skalierbare Rechenkapazität Hadoop Distributed FileSystem (HDFS) Skalierbare Speicherkapazität

6 Nachteile MapReduce Performance Batch-orientiert (lange Intitierungsphase) MapReduce-Job-Ketten mit viel I/O Entwicklung Trennung von Logik in Mapper und Reducer (und mehrere Jobs) Viel Boilerplate -Code 6

7 Grenzen von Hadoop und MapReduce Viele Tools generieren MapReduce Jobs-Ketten oder oder oder oder... Map Reduce Map Reduce... 7

8 Grenzen von Hadoop und MapReduce MapReduce Mapper- und Reducer-Klasse. Driver-Klasse fehlt public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ private final static IntWritable one = new IntWritable(1); private Text word = new protected void map(longwritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.tostring(); StringTokenizer tokenizer = new StringTokenizer(line, " \t\n\r\f,.:;?![]')("); while (tokenizer.hasmoretokens()) { word.set(tokenizer.nexttoken()); context.write(word, one); }}} public class WordCountReducer extends Reducer<Text, IntWritable, Text, protected void reduce(text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); }} 8

9 Was verspricht Spark? Performance Viel in-memory Verarbeitung (aber nicht nur!) Reduziertes I/O Interaktives Arbeiten Entwicklung Kompakterer Code Entwicklung in einem Fluss 9

10 Grenzen von Hadoop und MapReduce Tools wie Impala und Spark reduzieren I/O Impala oder oder... Operation Operation Operation... 10

11 Überblick Spark Spark Wordcount Beispiel in Scala val filerdd = spark.textfile("hdfs://...") val resultrdd = filerdd.flatmap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _) resultrdd.saveastextfile("hdfs://...") 11

12 Inhalt 01 Die Grenzen von Hadoop und MapReduce 02 Überblick Spark 03 Programmierung mit Spark 04 Spark SQL 05 Fazit 12

13 Überblick Spark Spark Geschichte 2009 Matei Zaharia startet Spark in UC Berkeley AMPLab 2010 Spark wird Open Source unter BSD Lizenz 2013 Projekt wurde der Apache Software Foundation gespendet; Lizenz nun Apache Spark wird Apache Top-Level Project Weltrekord im Large Scale Sorting von Databricks-Team 13

14 Überblick Spark Spark Komponenten Spark SQL Spark streaming MLib GraphX Spark Core (API) Cluster Manager Standalone scheduler YARN 14

15 Überblick Spark Resilient distributed dataset (RDD) RDD Partition 1 Record Block 1 Record HDFS File Partition 2 Record Block 2 record 15

16 Überblick Spark Spark Komponenten Client Spark driver Spark Context Worker Node Spark executor Task Task Cluster Manager (Standalone, YARN, Mesos)... Worker Node Spark executor Task Task 16

17 Überblick Spark Transformations & Actions Transformation RDD RDD... RDD Load Action: Lazy computation File Context Spark driver File Spark driver 17

18 Überblick Spark Direct Acyclic Graph (DAG) RDD File File RDD RDD RDD RDD File File RDD RDD RDD File Disk RAM 18

19 Inhalt 01 Grenzen von Hadoop und MapReduce 02 Überblick Spark 03 Programmierung mit Spark 04 Spark SQL 05 Fazit 19

20 Programmierung mit Spark Spark Shell (REPL*): Scala und Python kein Java *read evaluate print loop bash$ pyspark Welcome to / / / / \ \/ _ \/ _ `/ / '_/ / /. /\_,_/_/ /_/\_\ bash$ spark-shell version /_/ Welcome to Using Python version / SparkContext / / / available as sc. >>> _\ \/ _ \/ _ `/ / '_/ / /. /\_,_/_/ /_/\_\ version /_/ Using Scala version Spark context available as sc. scala> 20

21 Programmierung mit Spark RDD erstellen scala> val employeefile = sc.textfile("data/employees.txt") employeefile: org.apache.spark.rdd.rdd[string] = data/employees.txt MappedRDD[1] at textfile at <console>:12 sc = Spark Context = vordefinierte Variable in der Spark Shell 21

22 Programmierung mit Spark RDD Transformations (Auszug) map(func) filter(func) flatmap(func) mappartitions(func) mappartitionswithindex(func) sample(withreplacement, fraction, seed) union(otherdataset) intersection(otherdataset) distinct([numtasks]) cogroup(otherdataset, [numtasks]) cartesian(otherdataset) pipe(command, [envvars]) coalesce(numpartitions) repartition(numpartitions) repartitionandsortwithinpartitions(partitioner) 22

23 Programmierung mit Spark Transformation map() scala> val numberpairs = sc.parallelize( Array((1,10), (1,11), (2,20), (3,30), (3,31))) numberpairs: org.apache.spark.rdd.rdd[(int, Int)] = ParallelCollectionRDD[0] at parallelize at <console>:12 scala> numberpairs.map( func ) 23

24 Programmierung mit Spark Funktionen als Argumente scala> val numberpairs = sc.parallelize( Array((1,10), (1,11), (2,20), (3,30), (3,31))) numberpairs: org.apache.spark.rdd.rdd[(int, Int)] = ParallelCollectionRDD[0] at parallelize at <console>:12 scala> object MyLib { } def myfunc(x: (Int, Int)): (Int) = { } x._1 + x._2 defined module MyLib scala> numberpairs.map(mylib.myfunc).collect res0: Array[Int] = Array(11, 12, 22, 33, 34) 24

25 Programmierung mit Spark Anonyme Funktionen als Argumente scala> val numberpairs = sc.parallelize( Array((1,10), (1,11), (2,20), (3,30), (3,31))) numbers: org.apache.spark.rdd.rdd[(int, Int)] = ParallelCollectionRDD[0] at parallelize at <console>:12 scala> numberpairs.map(x => (x._1 + x._2)).collect res1: Array[Int] = Array(11, 12, 22, 33, 34) 25

26 Programmierung mit Spark RDD Actions (Auszug) reduce(func) collect() count() first() take(n) takesample(withreplacement, num, [seed]) takeordered(n, [ordering]) saveastextfile(path) saveassequencefile(path) saveasobjectfile(path) foreach(func) 1) Nur Java und Scala 26

27 Programmierung mit Spark RDD Actions: Beispiele scala> val numberpairs = sc.parallelize( Array((1,10), (1,11), (2,20), (3,30), (3,31))) scala> numberpairs.count res0: Long = 5 scala> numberpairs.take(2) res1: Array[(Int, Int)] = Array((1,10), (1,11)) scala> numberpairs.reduce((x: (Int, Int), y: (Int, Int)) => (x._1 + y._1, x._2 + y._2)) res2: (Int, Int) = (10,102) 27

28 Programmierung mit Spark Pair RDD: Key & Value RDD aus 2-Tuples Pair RDD Key: erstes Attribute, Value: zweites Attribut Manche Load-Routinen erzeugen direkt PairRDDs (z.b. für Sequence Files) Bieten mehr Funktionalität (Transformations & Actions) val pairrdd = linerdd.map(x => (x.split(" ")(0), x)) 28

29 Programmierung mit Spark Pair RDD Transformations & Actions (Auszug) join(rdd) rightouterjoin(rdd) leftouterjoin(rdd) cogroup(rdd) combinebykey(createcombiner, mergevalue, mergecombiners,partitioner) groupbykey() reducebykey(func) mapvalues(func) flatmapvalues(func) keys() values() sortbykey() countbykey() collectasmap() lookup(key) 29

30 Programmierung mit Spark Pair RDD Transformations: Beispiele scala> val numberpairs = sc.parallelize(array((1,10), (1,11), (2,20), (3,30), (3,31))) scala> numberpairs.groupbykey.collect res16: Array[(Int, Iterable[Int])] = Array( (1,CompactBuffer(10, 11)), (3,CompactBuffer(30, 31)), (2,CompactBuffer(20))) scala> numberpairs.reducebykey( (x, y) => (x + y) ) Array[(Int, Int)] = Array((1,21), (3,61), (2,20)) 30

31 Programmierung mit Spark Pair RDD Transformations: Joins scala> val numberpairs = sc.parallelize(array((1,10), (1,11), (2,20), (3,30), (3,31))) scala> val numbernames = sc.parallelize(array((1,"eins"), (2,"zwei"), (3,"drei"))) scala> numberpairs.join(numbernames) res2: Array[(Int, (Int, String))] = Array( (1,(10,eins)), (1,(11,eins)), (3,(30,drei)), (3,(31,drei)), (2,(20,zwei)) ) 31

32 Inhalt 01 Grenzen von Hadoop und MapReduce 02 Überblick Spark 03 Programmierung mit Spark 04 Spark SQL 05 Fazit 32

33 Spark SQL Schema RDD scala> val sqlcontext = new org.apache.spark.sql.sqlcontext(sc) scala> import sqlcontext.createschemardd scala> val myrdd = sc.parallelize( Array((1,10), (1,11), (2,20), (3,30), (3,31)) scala> myrdd.printschema root -- _1: integer (nullable = false) -- _2: integer (nullable = false) scala> myrdd.registertemptable("t") scala> sqlcontext.sql("select _1, SUM(_2) FROM t GROUP BY _1").collect res6: Array[org.apache.spark.sql.Row] = Array([1,21], [2,20], [3,61]) 33

34 Spark SQL Schema Definition durch Reflection (1/2) scala> val sqlcontext = new org.apache.spark.sql.sqlcontext(sc) scala> import sqlcontext.createschemardd scala> case class Numbers(a: Int, b: Int) scala> val myrdd = sc.parallelize( Array((1,10), (1,11), (2,20), (3,30), (3,31)) ).map(x => NumberPair(x._1, x._2)) scala> myrdd.collect res0: Array[Numbers] = Array(Numbers(1,10), Numbers(1,11), Numbers(2,20), Numbers(3,30), Numbers(3,31)) scala> myrdd.printschema root -- a: integer (nullable = false) -- b: integer (nullable = false) 34

35 Spark SQL Schema Definition durch Reflection (2/2) scala> myrdd.registertemptable("t") scala> sqlcontext.sql("select a, SUM(b) FROM t GROUP BY a").collect res1: Array[org.apache.spark.sql.Row] = Array([1,21], [2,20], [3,61]) 35

36 Spark SQL Spark & Parquet Speichern eines SchemaRDD als Parquet Files scala> val sqlcontext = new org.apache.spark.sql.sqlcontext(sc) scala> import sqlcontext.createschemardd scala> val myrdd = sc.parallelize(array((1,10), (1,11), (2,20), (3,30),(3,31))) np: org.apache.spark.rdd.rdd[(int, Int)] = ParallelCollectionRDD[0] at parallelize at <console>:12 scala> myrdd.saveasparquetfile("/home/cloudera/data/numbers") 36

37 Spark SQL Spark & Parquet Lesen aus Parquet Files scala> val sqlcontext = new org.apache.spark.sql.sqlcontext(sc) scala> val parquetfile = sqlcontext.parquetfile("/home/cloudera/data/numbers") scala> parquetfile.collect res0: Array[org.apache.spark.sql.Row] = Array([1,10], [1,11], [2,20], [3,30], [3,31]) 37

38 Inhalt 01 Grenzen von Hadoop und MapReduce 02 Überblick Spark 03 Programmierung mit Spark 04 Spark SQL 05 Fazit 38

39 Fazit Spark Ökosystem : im Wachstum Hive on Spark https://issues.apache.org/jira/browse/hive-7292 Pig on Spark: Spork https://github.com/sigmoidanalytics/spork Spark Scalding https://github.com/tresata/spark-scalding Mahout on Spark (nur noch Fokus auf Spark) https://mahout.apache.org/users/sparkbindings/play-with-shell.html H 2 O: Sparkling water Oryx: (nutzt Spark MLib) https://github.com/cloudera/oryx 39

40 Fazit Ist Spark das neue MapReduce? Aktuell Alternative zu MapReduce aber kein Ersatz! Funktionalität Vollwertige Programmiersprache (Scala/Java/Python) Arbeit mit RDDs analog zu lokalen Collections REPL exploratives Arbeiten Iterative Algorithmen (Machine Learning) gut umsetzbar Tools Spark Aufsätze wie SparkSQL teilweise noch sehr jung Wachsendes Ökosystem Performance Sehr gute Performance Noch nicht ganz die Stabilität von MapReduce

41 metafinanz unterstützt Ihre Kunden bei Einführung von Hadoop end-to-end DECIDE PLAN BUILD OPTIMIZE Business Analyse, Systemauswahl und Integrationskonzept Gesamtheitliche IT Architektur Strategie und Designkonzeption (IT Strategie) Customizing von Big Data Lösungen für Ihre besonderen Business Anforderungen (Zukunftsfähigkeit) Configuration & Optimierung für mehr Leistungsfähigkeit (Effizienzpotential) Vorstudie Hadoop-Strategie DWH Cost Savings Dokumentenverarbeitung Log-File-Analysen Identifikation Use Cases Tool-/Distributor-Auswahl and Architektur Projekt- und Betriebs-Setup Data Mart Offload (hist. Daten) ETL-Offload: Staging Calculation Offload Dokumentenarchivierung Volltextsuche Textanalyse Click-Stream-Analyse Web-Anwendungen Security Analytics (Server-Logs, Firewall-Logs, ) 41

42 Fragen? Jetzt, am Stand oder später? Carsten Herbe Downloads Mail: Phone: dwh.metafinanz.de 42

43 Danke! metafinanz Informationssysteme GmbH Leopoldstraße 146 D München Phone: Fax: DWH & Handoop Expertise

Spark das neue MapReduce?

Spark das neue MapReduce? Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche

Mehr

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015 Hadoop & Spark Carsten Herbe 8. CC-Partner Fachtagung 2015 29.04.2015 Daten & Fakten 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum 25 Jahre am Markt

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Einführung in die Hadoop-Welt HDFS, MapReduce & Ökosystem. Big Data für Oracle Entwickler September 2014 Carsten Herbe

Einführung in die Hadoop-Welt HDFS, MapReduce & Ökosystem. Big Data für Oracle Entwickler September 2014 Carsten Herbe HDFS, MapReduce & Ökosystem Big Data für Oracle Entwickler September 2014 Carsten Herbe Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence

Mehr

Map Reduce. Programmiermodell. Prof. Dr. Ingo Claÿen. Motivation. Modell. Verarbeitungsablauf. Algorithmen-Entwurf. Map-Reduce in Java

Map Reduce. Programmiermodell. Prof. Dr. Ingo Claÿen. Motivation. Modell. Verarbeitungsablauf. Algorithmen-Entwurf. Map-Reduce in Java Map Reduce Programmiermodell Prof. Dr. Ingo Claÿen Hochschule für Technik und Wirtschaft Berlin Motivation Modell Verarbeitungsablauf Algorithmen-Entwurf Map-Reduce in Java Motivation Was ist Map-Reduce

Mehr

Data Mart Offload nach Hadoop Star Schema in HDFS anstatt RDBMS. Carsten Herbe DOAG Konferenz November 2014

Data Mart Offload nach Hadoop Star Schema in HDFS anstatt RDBMS. Carsten Herbe DOAG Konferenz November 2014 Data Mart Offload nach Hadoop Star Schema in HDFS anstatt RDBMS Carsten Herbe DOAG Konferenz November 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Hadoop Projekte Besonderheiten & Vorgehensweise. Oracle/metafinanz Roadshow Februar 2014

Hadoop Projekte Besonderheiten & Vorgehensweise. Oracle/metafinanz Roadshow Februar 2014 Hadoop Projekte Besonderheiten & Vorgehensweise Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

DWH-Metadaten Wie und wozu. Clemens Albrecht metafinanz Informationssysteme GmbH

DWH-Metadaten Wie und wozu. Clemens Albrecht metafinanz Informationssysteme GmbH DWH-Metadaten Wie und wozu Clemens Albrecht metafinanz Informationssysteme GmbH Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence

Mehr

MapReduce mit Hadoop 08.11.12 1

MapReduce mit Hadoop 08.11.12 1 MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung

Mehr

Hadoop & IT-Strategie Ein Spagat zwischen Innovation und Kosten Geht das überhaupt? DOAG 2014

Hadoop & IT-Strategie Ein Spagat zwischen Innovation und Kosten Geht das überhaupt? DOAG 2014 Hadoop & IT-Strategie Ein Spagat zwischen Innovation und Kosten Geht das überhaupt? DOAG 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied

Mehr

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien

Mehr

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel Carsten Herbe metafinanz Informationssysteme GmbH In unserer Business Line Business Intelligence & Risk gibt es fünf Bereiche: Risk,

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Hadoop & SQL Wie Hadoop um SQL erweitert werden kann. Oracle/metafinanz Roadshow 11./18. Februar

Hadoop & SQL Wie Hadoop um SQL erweitert werden kann. Oracle/metafinanz Roadshow 11./18. Februar Hadoop & SQL Wie Hadoop um SQL erweitert werden kann Oracle/metafinanz Roadshow 11./18. Februar Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services

Mehr

Verteilte Systeme. Map Reduce. Secure Identity Research Group

Verteilte Systeme. Map Reduce. Secure Identity Research Group Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Hadoop Ecosystem Vorstellung der Komponenten. Oracle/metafinanz Roadshow Februar 2014

Hadoop Ecosystem Vorstellung der Komponenten. Oracle/metafinanz Roadshow Februar 2014 Hadoop Ecosystem Vorstellung der Komponenten Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die Herausforderungen

Mehr

OWB Referenzarchitektur, Releasemanagement und Deployment. Carsten Herbe metafinanz - Informationssysteme GmbH

OWB Referenzarchitektur, Releasemanagement und Deployment. Carsten Herbe metafinanz - Informationssysteme GmbH OWB Referenzarchitektur, Releasemanagement und Deployment Carsten Herbe metafinanz - Informationssysteme GmbH Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch

Mehr

Datenaustausch Hadoop & Oracle DB. DOAG Konferenz 2013 Nürnberg, 19.-21. November 2013 Carsten Herbe metafinanz Informationssysteme GmbH

Datenaustausch Hadoop & Oracle DB. DOAG Konferenz 2013 Nürnberg, 19.-21. November 2013 Carsten Herbe metafinanz Informationssysteme GmbH DOAG Konferenz 2013 Nürnberg, 19.-21. November 2013 Carsten Herbe metafinanz Informationssysteme GmbH Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT.

Mehr

Datawarehouse Architekturen. Einheitliche Unternehmenssicht

Datawarehouse Architekturen. Einheitliche Unternehmenssicht Datawarehouse Architekturen Einheitliche Unternehmenssicht Was ist Datawarehousing? Welches sind die Key Words? Was bedeuten sie? DATA PROFILING STAGING AREA OWB ETL OMB*PLUS SAS DI DATA WAREHOUSE DATA

Mehr

Historisierung mit Flashback Database Archive (FDA)

Historisierung mit Flashback Database Archive (FDA) Historisierung mit Flashback Database Archive (FDA) DOAG Konferenz 2013 Nürnberg, 19.-21. November 2013 Wolfgang Tanzer metafinanz Informationssysteme GmbH Wir fokussieren mit unseren Services die Herausforderungen

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

SAS Education. Grow with us. Anmeldung bei SAS Education. Kurstermine Juli Dezember 2015 für Deutschland, Österreich und die Schweiz

SAS Education. Grow with us. Anmeldung bei SAS Education. Kurstermine Juli Dezember 2015 für Deutschland, Österreich und die Schweiz 2015 SAS Education Kurstermine Juli Dezember 2015 für Deutschland, Österreich und die Schweiz Anmeldung bei SAS Education Deutschland www.sas.de/education Tel. +49 6221 415-300 education@ger.sas.com Fax

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Überblick. Einführung Graphentheorie

Überblick. Einführung Graphentheorie Überblick Einführung Graphentheorie Graph-Algorithmen mit Map Kurzeinführung Graphentheorie Algorithmus zum Finden von Cliquen Graphen bestehen aus Knoten (englisch: Node, Vertex, Mehrzahl Vertices) Kanten

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence

Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence IBM Netezza Roadshow 30. November 2011 Carsten Bange Gründer & Geschäftsführer BARC Die Krise hat die Anforderungen

Mehr

Universität Karlsruhe (TH)

Universität Karlsruhe (TH) Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Software Engineering für moderne, parallele Plattformen 10. MapReduce Dr. Victor Pankratius Agenda Motivation Der MapReduce-Ansatz Map- und

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Datenanalyse mit Hadoop

Datenanalyse mit Hadoop Gideon Zenz Frankfurter Entwicklertag 2014 19.02.2014 Datenanalyse mit Hadoop Quelle: Apache Software Foundation Agenda Hadoop Intro Map/Reduce Parallelisierung des Datenflows Exkurs: M/R mit Java, Python,

Mehr

Symbiose hybrider Architekturen im Zeitalter digitaler Transformation. Hannover, 18.03.2015

Symbiose hybrider Architekturen im Zeitalter digitaler Transformation. Hannover, 18.03.2015 Symbiose hybrider Architekturen im Zeitalter digitaler Transformation Hannover, 18.03.2015 Business Application Research Center (BARC) B (Analystengruppe Europas führendes IT-Analysten- und -Beratungshaus

Mehr

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN? HANS-JOACHIM EDERT WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT EBINAR@LUNCHTIME

Mehr

Datenbanktechnologien für Big Data

Datenbanktechnologien für Big Data Datenbanktechnologien für Big Data Oktober 2013 Prof. Dr. Uta Störl Hochschule Darmstadt Big Data Technologien Motivation Big Data Technologien NoSQL-Datenbanksysteme Spaltenorientierte Datenbanksysteme

Mehr

Big Data - Chancen für die Energiewirtschaft

Big Data - Chancen für die Energiewirtschaft Big Data - Chancen für die Energiewirtschaft Dr. Roger Knorr - Leader Business Development Big Data (Email: Roger.Knorr@de.ibm.com, Mobil: 0160 885 1584) Agenda Big Data und die Energiewende Big Data -

Mehr

Komplexität der Information - Ausgangslage

Komplexität der Information - Ausgangslage Intuition, verlässliche Information, intelligente Entscheidung ein Reisebericht Stephan Wietheger Sales InfoSphere/Information Management Komplexität der Information - Ausgangslage Liefern von verlässlicher

Mehr

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004 BIW - Überblick Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004 Annegret Warnecke Senior Sales Consultant Oracle Deutschland GmbH Berlin Agenda Überblick

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Andreas Emhart Geschäftsführer Alegri International Group

Andreas Emhart Geschäftsführer Alegri International Group Andreas Emhart Geschäftsführer Alegri International Group Agenda Vorstellung Alegri International Überblick Microsoft Business Intelligence Sharepoint Standard Business Intelligence Tool Excel Service

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

25.06.2014 TDWI Konferenz DWH Architektur Agilität durch Data Vault Modeling. Twitter: #TDWI #DataVault @DV_Modeling @BLUEFORTE @TDWI_EU

25.06.2014 TDWI Konferenz DWH Architektur Agilität durch Data Vault Modeling. Twitter: #TDWI #DataVault @DV_Modeling @BLUEFORTE @TDWI_EU BLUEFORTE GmbH Dirk Lerner 25.06.2014 TDWI Konferenz DWH Architektur Agilität durch Data Vault Modeling Twitter: #TDWI #DataVault @DV_Modeling @BLUEFORTE @TDWI_EU 1 Elemente des Data Vault (Basic) HUB

Mehr

Semantik und konzeptionelle Modellierung

Semantik und konzeptionelle Modellierung Semantik und konzeptionelle Modellierung Verteilte Datenbanken Christoph Walesch Fachbereich MNI der FH Gieÿen-Friedberg 18.1.2011 1 / 40 Inhaltsverzeichnis 1 Verteiltes Rechnen MapReduce MapReduce Beispiel

Mehr

Big Data in der industriellen Praxis. Gunnar Fabritius Business Intelligence & Big Data Consulting T-Systems Multimedia Solutions

Big Data in der industriellen Praxis. Gunnar Fabritius Business Intelligence & Big Data Consulting T-Systems Multimedia Solutions Big Data in der industriellen Praxis Gunnar Fabritius Business Intelligence & Big Data Consulting T-Systems Multimedia Solutions Über T-Systems Multimedia Solutions Wir begleiten Großkonzerne und mittelständische

Mehr

Big Data - Datenquellen und Anwendungen

Big Data - Datenquellen und Anwendungen Big Data - Datenquellen und Anwendungen AW1 Präsentation Gerrit Thede Fakultät Technik und Informatik Department Informatik HAW Hamburg 18. November 2013 Outline 1 Einleitung 2 Datenquellen 3 Data Science

Mehr

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick Volker.Hinz@microsoft.com Was sagt der Markt? Fakten Meinung der Analysten zu Microsofts Angeboten Nutzen

Mehr

Big Data für die Internet Sicherheit

Big Data für die Internet Sicherheit Big Data für die Internet Sicherheit Ralph Kemperdick Hans Wieser Microsoft 1 Mobile-first Data-driven Cloud-first 2 2 3 Messenger Wi nd ow s Liv e 4 5 Anwendung: Das Microsoft Cybercrime Center 6 Betrug

Mehr

Evaluation von Hadoop mit der Talend Big Data Sandbox. Michael Pretsch Pre-Sales Talend Germany GmbH

Evaluation von Hadoop mit der Talend Big Data Sandbox. Michael Pretsch Pre-Sales Talend Germany GmbH Evaluation von Hadoop mit der Talend Big Data Sandbox Michael Pretsch Pre-Sales Talend Germany GmbH 2015 Talend Inc. 1 Talend Überblick Die wichtigsten Fakten Gegründet im Jahr 2006 480+ Mitarbeiter in

Mehr

Stratosphere. Next-Generation Big Data Analytics Made in Germany

Stratosphere. Next-Generation Big Data Analytics Made in Germany Stratosphere Next-Generation Big Data Analytics Made in Germany Robert Metzger Stratosphere Core Developer Technische Universität Berlin Ronald Fromm Head of Big Data Science Telekom Innovation Laboratories

Mehr

Mit Big Data zum Touchpoint- übergreifenden Echtzeit- Kundendialog

Mit Big Data zum Touchpoint- übergreifenden Echtzeit- Kundendialog Mit Big Data zum Touchpoint- übergreifenden Echtzeit- Kundendialog Big Data im Marke

Mehr

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg Review Freelancer-Workshop: Fit für Big Data Mittwoch, 29.04.2015 in Hamburg Am Mittwoch, den 29.04.2015, hatten wir von productive-data in Zusammenarbeit mit unserem langjährigen Partner Informatica zu

Mehr

MATERNA GmbH 2014 www.materna.de 1

MATERNA GmbH 2014 www.materna.de 1 MATERNA GmbH 2014 www.materna.de 1 Agenda Herausforderungen BigData Größeres Pferd oder Pferdegespann? Apache Hadoop Geschichte, Versionen, Ökosystem Produkte HDFS Daten speichern und verteilen Map/Reduce

Mehr

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller Was ist? Hannover, CeBIT 2014 Patrick Keller Business Application Research Center Historie 1994: Beginn der Untersuchung von Business-Intelligence-Software am Lehrstuhl Wirtschaftsinformatik der Universität

Mehr

Partitionierung im Data Warehouse mit ORACLE 11g und 12c. Reinhard Wahl DOAG Konferenz Nürnberg, 18.-20. November 2014

Partitionierung im Data Warehouse mit ORACLE 11g und 12c. Reinhard Wahl DOAG Konferenz Nürnberg, 18.-20. November 2014 Partitionierung im Data Warehouse mit ORACLE 11g und 12c Reinhard Wahl DOAG Konferenz Nürnberg, 18.-20. November 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden

Mehr

Agile Analytics Neue Anforderungen an die Systemarchitektur

Agile Analytics Neue Anforderungen an die Systemarchitektur www.immobilienscout24.de Agile Analytics Neue Anforderungen an die Systemarchitektur Kassel 20.03.2013 Thorsten Becker & Bianca Stolz ImmobilienScout24 Teil einer starken Gruppe Scout24 ist der führende

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

EHCache und Terracotta. Jochen Wiedmann, Software AG

EHCache und Terracotta. Jochen Wiedmann, Software AG EH und Terracotta Jochen Wiedmann, Software AG Autor Perl-Contributor DBD::mySQL 2, DBI::Proxy, DBI::Shell, DBD::CSV, Net::Daemon, RPC::Pl(Client Server) (Autor) DBI (Developer) ASF-Member (Apache Software

Mehr

Business Intelligence Center of Excellence

Business Intelligence Center of Excellence Center of Excellence Eine Businessinitiative von Systematika und Kybeidos Werner Bundschuh Was ist das? In der Praxis versteht man in den meisten Fällen unter die Automatisierung des Berichtswesens (Reporting).

Mehr

Java Batch Der Standard für's Stapeln

Java Batch Der Standard für's Stapeln Java Batch Der Standard für's Stapeln Berlin Expert Days 18.09.2015 Dirk Weil, GEDOPLAN GmbH Dirk Weil GEDOPLAN GmbH, Bielefeld GEDOPLAN IT Consulting Konzeption und Realisierung von IT-Lösungen GEDOPLAN

Mehr

Lessons learned in Big Data Projekten mit Hadoop. Dominik Benz, Inovex GmbH 2014/09/25, Java User Group Hessen

Lessons learned in Big Data Projekten mit Hadoop. Dominik Benz, Inovex GmbH 2014/09/25, Java User Group Hessen Lessons learned in Big Data Projekten mit Hadoop Dominik Benz, Inovex GmbH 2014/09/25, Java User Group Hessen Motivation Big is beautiful! Class A extends Mapper ROI, $$, Big Data is like Teenagesex: Everyone

Mehr

Bachelorarbeit. Birger Kamp. Stream Processing in einem Spark Cluster. Fakultät Technik und Informatik Studiendepartment Informatik

Bachelorarbeit. Birger Kamp. Stream Processing in einem Spark Cluster. Fakultät Technik und Informatik Studiendepartment Informatik Bachelorarbeit Birger Kamp Stream Processing in einem Spark Cluster Fakultät Technik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer Science Department of Computer Science

Mehr

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Hadoop und SAS Status und Ausblick WIEN, JUNI 2015 GERNOT ENGEL, CLIENT SERVICE MANAGER SAS AUSTRIA

Hadoop und SAS Status und Ausblick WIEN, JUNI 2015 GERNOT ENGEL, CLIENT SERVICE MANAGER SAS AUSTRIA Copyright o p y r i g h t 2012, 2 0 1 2, SAS S A S Institute s t i t u tinc e In. c All. Arights l l r i g hreserved. t s r e s e r ve d. Hadoop und SAS Status und Ausblick WIEN, JUNI 2015 GERNOT ENGEL,

Mehr

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan

Mehr

Step 0: Bestehende Analyse-Plattform

Step 0: Bestehende Analyse-Plattform Die Themen 09:30-09:45 Einführung in das Thema (Oracle) 09:45-10:15 Hadoop in a Nutshell (metafinanz) 10:15-10:45 Hadoop Ecosystem (metafinanz) 10:45-11:00 Pause 11:00-11:30 BigData Architektur-Szenarien

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 7: Large-Scale Datenanalyse Dr. Anika Groß Sommersemester 2015 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Einführung Hadoop (und darauf aufbauende

Mehr

Bachelorarbeit. Birger Kamp. Stream Processing in einem Spark Cluster. Fakultät Technik und Informatik Studiendepartment Informatik

Bachelorarbeit. Birger Kamp. Stream Processing in einem Spark Cluster. Fakultät Technik und Informatik Studiendepartment Informatik Bachelorarbeit Birger Kamp Stream Processing in einem Spark Cluster Fakultät Technik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer Science Department of Computer Science

Mehr

Medienbruchfrei analysieren und dabei Karten als Visualisierungselement in BI anbieten

Medienbruchfrei analysieren und dabei Karten als Visualisierungselement in BI anbieten Medienbruchfrei analysieren und dabei Karten als Visualisierungselement in BI anbieten 4 Handeln 1 Überwachen 3 Alternativen modellieren/simulieren 2 Analysieren. Copyright 2012 Oracle and/or its affiliates.

Mehr

Logical Data Warehouse SQL mit Oracle DB und Hadoop

Logical Data Warehouse SQL mit Oracle DB und Hadoop Logical Data Warehouse SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky Senior Consultant Opitz Consulting Deutschland GmbH ISE Information

Mehr

CS2101 Nebenläufige und Verteilte Programme Bachelor of Science (Informatik)

CS2101 Nebenläufige und Verteilte Programme Bachelor of Science (Informatik) Prof. Dr. Th. Letschert CS2101 Nebenläufige und Verteilte Programme Bachelor of Science (Informatik) Vorlesung 4 Th Letschert FH Gießen-Friedberg Nebenläufige und verteilte Programme 2 : Thread-Pools Motivation:

Mehr

Bachelor of Eng. (Wirtschafts-Ing.-wesen)

Bachelor of Eng. (Wirtschafts-Ing.-wesen) Persönliche Daten Name Philipp Müller Geburtsdatum 21.11.1982 Berufsausbildung Studium Industriekaufmann Bachelor of Eng. (Wirtschafts-Ing.-wesen) Kompetenzen Methodisch Datenmodellierung Fachlich Allgemeines

Mehr

Business Intelligence Architektur im Umfeld von Big Data (IDAREF) [D2] Bernd Meister Uetliberg, 16.09.2014 www.boak.ch

Business Intelligence Architektur im Umfeld von Big Data (IDAREF) [D2] Bernd Meister Uetliberg, 16.09.2014 www.boak.ch Business Intelligence Architektur im Umfeld von Big Data (IDAREF) [D2] Bernd Meister Uetliberg, 16.09.2014 www.boak.ch In dieser Session wird IDAREF, ein Framework, dass auf logischer Ebene eine analytische

Mehr

Die Bedeutung der Prozessmodellierung bei der Weiterentwicklung des DWHs der DAK Der Innovator als Missing Link

Die Bedeutung der Prozessmodellierung bei der Weiterentwicklung des DWHs der DAK Der Innovator als Missing Link Die Bedeutung der Prozessmodellierung bei der Weiterentwicklung des DWHs der DAK Der Innovator als Missing Link Konrad Linner, solvistas GmbH Nürnberg, 20.November 2012 Inhaltsverzeichnis Vorstellung solvistas

Mehr

Bachelorarbeit. Birger Kamp. Stream Processing in einem Spark Cluster. Fakultät Technik und Informatik Studiendepartment Informatik

Bachelorarbeit. Birger Kamp. Stream Processing in einem Spark Cluster. Fakultät Technik und Informatik Studiendepartment Informatik Bachelorarbeit Birger Kamp Stream Processing in einem Spark Cluster Fakultät Technik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer Science Department of Computer Science

Mehr

Software EMEA Performance Tour 2013. 17.-19 Juni, Berlin

Software EMEA Performance Tour 2013. 17.-19 Juni, Berlin Software EMEA Performance Tour 2013 17.-19 Juni, Berlin Accenture s High Performance Analytics Demo-Umgebung Dr, Holger Muster (Accenture), 18. Juni 2013 Copyright 2012 Hewlett-Packard Development Company,

Mehr

Big Data Modewort oder echter Mehrwert. freenet Group Dr. Florian Johannsen

Big Data Modewort oder echter Mehrwert. freenet Group Dr. Florian Johannsen Big Data Modewort oder echter Mehrwert freenet Group Dr. Florian Johannsen freenet Group 2 Titel der Präsentation 07.07.2015 Mobilfunkgeschäft der freenet Group Austausch von Daten und Informationen Im

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden Neue Beziehungen finden...

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Marketing Intelligence Architektur und Konzepte. Josef Kolbitsch Manuela Reinisch

Marketing Intelligence Architektur und Konzepte. Josef Kolbitsch Manuela Reinisch Marketing Intelligence Architektur und Konzepte Josef Kolbitsch Manuela Reinisch Übersicht Mehrstufiges BI-System Architektur eines Data Warehouses Architektur eines Reporting-Systems Benutzerrollen in

Mehr

TRACK II Datenmanagement Strategien & Big Data Speicherkonzepte. TRACK I Big Data Analytics & Self Service BI

TRACK II Datenmanagement Strategien & Big Data Speicherkonzepte. TRACK I Big Data Analytics & Self Service BI 9.30 10.15 Kaffee & Registrierung 10.15 10.45 Begrüßung & aktuelle Entwicklungen bei QUNIS 10.45 11.15 11.15 11.45 Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics

Mehr

Grundlagen zur nebenläufigen Programmierung in Java

Grundlagen zur nebenläufigen Programmierung in Java Grundlagen zur nebenläufigen Programmierung in Java Karlsruher Entwicklertag 2013 5. Juni 2013 Referent: Christian Kumpe Inhalt des Vortrags Was zeigt dieser Vortrag? Ein einfaches Beispiel mit allerlei

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Programmentwicklung ohne BlueJ

Programmentwicklung ohne BlueJ Objektorientierte Programmierung in - Eine praxisnahe Einführung mit Bluej Programmentwicklung BlueJ 1.0 Ein BlueJ-Projekt Ein BlueJ-Projekt ist der Inhalt eines Verzeichnisses. das Projektname heißt wie

Mehr

Textanalyse mit UIMA und Hadoop.!! Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014

Textanalyse mit UIMA und Hadoop.!! Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014 Textanalyse mit UIMA und Hadoop Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014 Über mich seit 2014: Big Data Scientist @ Inovex 2011-2013: TU Darmstadt, UKP Lab Etablierung der Hadoop-Infrastruktur Unterstützung

Mehr

SHAREPOINT NEXT GENERATION EIN AUSBLICK

SHAREPOINT NEXT GENERATION EIN AUSBLICK Ihr starker IT-Partner. Heute und morgen SHAREPOINT NEXT GENERATION EIN AUSBLICK Bechtle IT-Forum Nord 27.09.2012 Emporio Tower, DE 20355 Hamburg Vorstellung Christoph Hannappel Consultant Seit 2009 bei

Mehr

Christian Meder inovex. Sauberes Grün QS für Android

Christian Meder inovex. Sauberes Grün QS für Android Konferenz Christian Meder inovex Sauberes Grün QS für Android Sauberes Grün: QS für Android W-JAX, 2011 Christian Meder inovex GmbH Chief Technology Officer 09.11.2011 1 Speaker Christian Meder Schwerpunkte

Mehr

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,

Mehr