Einführung in die Hadoop-Welt HDFS, MapReduce & Ökosystem. Big Data für Oracle Entwickler September 2014 Carsten Herbe

Größe: px
Ab Seite anzeigen:

Download "Einführung in die Hadoop-Welt HDFS, MapReduce & Ökosystem. Big Data für Oracle Entwickler September 2014 Carsten Herbe"

Transkript

1 HDFS, MapReduce & Ökosystem Big Data für Oracle Entwickler September 2014 Carsten Herbe

2 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence Themenbereiche Über metafinanz Enterprise DWH Data Modeling & Integration & ETL Architecture: DWH & Data Marts Hadoop & Columnar DBs Data Quality & Data Masking Insurance Reporting Standard & Adhoc Reporting Dashboarding BI Office Integration Mobile BI & InMemory SAS Trainings for Business Analysts BI & Risk Customer Intelligence Customer based Analytics & Processes Churn Prediction and Management Insurance Analytics Segmentation and Clustering Predictive Models, Data Mining & Statistics Scorecarding Social Media Analytics Fraud & AML Risk Solvency II (Standard & internal Model) Regulatory Reporting Compliance Risk Management metafinanz gehört fast 25 Jahren zu den erfahrensten Software- und Beratungshäusern mit Fokus auf die Versicherungsbranche. Mit einem Jahresumsatz von 270 Mio. EUR und 450 Mitarbeitern entwickeln wir für unsere Kunden intelligente zukunftsorientierte Lösungen für komplexe Herausforderungen Carsten Herbe Ihr Ansprechpartner Head of Data Warehousing Mehr als 10 Jahre DWH-Erfahrung Oracle & OWB Expertise Certified Hadoop Developer mail phone Seite 2

3 Inhalt 1 Was ist Hadoop? 2 Hadoop Distributed File System (HDFS) 3 MapReduce 4 Hadoop Ökosystem 5 Architektur & Projekte 6 Fazit Seite 3

4 1 Apache Hadoop

5 Seite 5

6 Die Apache Software hat sich mittlerweile als Quasi-Standard zur Speicherung und Verarbeitung von Big Data etabliert. Warum Hadoop? Verwaltung riesiger Datenmengen von strukturierten und unstrukturierten Daten Linear skarlierbarer Cluster (Speicher & Performance) von Standard-Servern Performance - Der Code wird zu den Daten auf die entsprechenden Knoten verteilt Ein großes Ökosystem an Tools rund um Hadoop entsteht (Graphen, SQL, ) Open Source - Kommerzielle Distributionen erhältlich (Cloudera, Hortonworks, ) Seite 6

7 Apache Hadoop ist ein Framework für die verteilte Speicherung und Verarbeitung großer Datenmengen basierend auf Konzepten von Google. Was ist Hadoop? Hadoop MapReduce Skalierbare Rechenkapazität Hadoop Distributed FileSystem (HDFS) Skalierbare Speicherkapazität Seite 7

8 Distributionen enthalten das Hadoop Core und die wichtigsten Komponenten des Hadoop Ökosystems. Sie unterscheiden sich in zusätzlichen (teilw. kommerziellen) Komponenten. Hadoop Distributoren Elastic MapReduce Seite 8

9 Ein Hadoop Cluster besteht aus Commodity Servern. Use Case abhängig sind Hauptspeicher, Festplattenspeicher und Netzwerk. Hardware DataNode GB Hauptspeicher (ggfs. bis zu 512GB) 2 quad-/hex-/octo-core CPUs, 2-2.5GHz TB Festplatten, JBOD-Konfiguration Bonded Gigabit Ethernet oder 10 Gigabit Ethernet Quelle: Seite 9

10 Auch wenn man strukturierte Daten in Hadoop speichern kann Hadoop ist keine relationale Datenbank. Hadoop ist keine Datenbank Hadoop Verarbeitung un-, teil- oder strukturierter Daten Schema on Read Write Once Read Many Geringe Datenintegrität Beliebig linear erweiterbar Oracle Verarbeitung strukturierter Daten Schema on Write Write Read Update Many Times Hohe Datenintegrität Eingeschränkt linear erweiterbar Seite 10

11 2 HDFS

12 Das HDFS ist ein verteiltes Dateisystem und bildet die Basis für die BigData-Verarbeitung mit Hadoop. Definition HDFS = Hadoop Distributed File System Zuständig für die redundante Speicherung großer Datenmengen in einem Cluster unter Nutzung von Commodity-Hardware (einfache, günstige Rechner) Implementiert in Java auf Grundlage von Google s GFS. Liegt über einem nativen Dateisystem (wie ext3, ext4 oder xfs) Seite 12

13 278 MB Das Hadoop Distributed File System (HDFS) speichert große Dateien durch Aufteilung in Blöcke und verhindert Datenverlust durch Replikation. $ hadoop fs put doc.txt NameNode 128 MB x3 3;1;5 3;7;8 6;4; MB 22 MB x3 x Client Cluster Seite 13

14 HDFS ist für die redundante Speicherung von großen Dateien ausgelegt, die write-onceread-many Daten enthalten. Eigenschaften Beste Performance bei der Speicherung von großen Dateien: Besser weniger große Dateien als viele kleine Dateien! Dateien in HDFS sind nicht änderbar (write once read many), d.h. es sind keine wahlfreien Schreibzugriffe erlaubt. Seit Hadoop 2.0 ist es möglich, Daten an Dateien anzuhängen (append). HDFS ist optimiert für das sequenzielle Lesen großer Dateien. Dateien werden in HDFS auf Blöcke aufgesplittet (Default-Blockgröße: 128 MB). Jeder Block wird redundant im Cluster gespeichert (Default: 3 fache Speicherung). Unterschiedliche Blöcke der gleichen Datei werden auf unterschiedlichen Knoten (und ggf. Racks) gespeichert Seite 14

15 Alle Metainformationen über die Daten werden im Speicher des NameNodes verwaltet. NameNode Der NameNode hält die Metadaten (Namespaces) für das HDFS: Welche Datei besteht aus welchen Blöcken? Auf welchem Knoten liegt welcher Block? Der NameNode Daemon muss jederzeit laufen, da ohne diese Metadaten nicht auf die Daten im Cluster zugegriffen werden kann. Um schnelleren Zugriff auf diese Daten zu haben, werden alle Daten im NameNode im RAM vorgehalten Seite 15

16 Im Cluster gibt es zwei unterschiedliche Typen von Nodes: viele DataNodes zur Datenspeicherung und -verarbeitung und wenige MasterNodes mit zentralen Diensten. MasterNodes Neben dem NameNode gibt es noch weitere Server-Dienste Diese laufen auf sogenannten MasterNodes Auf den MasterNodes werden keine HDFS Daten gespeichert Für einige dieser Server-Dienste gibt es schon Hochverfügbarkeitslösungen Beispiele: NameNode (ist ein Dienst auf einem MasterNode) ResourceManager (für die Verwaltung von Jobs) HiveServer (für SQL-Abfragen, lernen wir noch genauer kennen) Seite 16

17 Auf den DataNodes werden die Daten in Form von Blöcken gespeichert. DataNode In einem typischen Hadoop-Cluster gibt es sehr viele DataNodes. Auf den DataNodes werden die Daten in Form von Blöcken gespeichert ein Block wird bei Verwendung der Standardkonfiguration auf drei Knoten redundant abgelegt. Die DataNodes laufen typischerweise auf Commodity-Hardware. Um ein Rebalancing zu ermöglichen (z.b. bei Ausfall eines DataNodes), sollte die Gesamtgröße des HDFS 80% des insgesamt vorhandenen Speicherplatzes nicht überschreiten Seite 17

18 3 MapReduce

19 Der Code wird zu den Daten auf die entsprechende Knoten gebracht und dort lokal ausgeführt (Map). Diese Zwischenergebnisse werden im Reducer zusammengefasst. Grundidee MapReduce Resource Manager Name Node protected void map(...) throws { String line = value.tostring(); for (char character : line.tochararray()) { Client Daten 278 MB 128 MB 128 MB x3 x MB x3 Cluster Seite 19

20 Partition Sort Partition Sort Partition Hadoop besteht aus HDFS und MapReduce. HDFS ist ein Filesystem. MapReduce ist ein Framework. Mit MapReduce lassen sich Daten in HDFS verarbeiten. Hadoop ist OpenSource. Hadoop besteht aus HDFS und MapReduce. HDFS ist ein Filesystem. MapReduce ist ein Framework. Mit MapReduce lassen sich Daten in HDFS verarbeiten. Hadoop ist Open Source. Mapper 0, Hadoop besteht aus HDFS und MapReduce. 38, HDFS ist ein Filesystem. Mapper 62, MapReduce ist ein Framework. 90, Mit MapReduce lassen sich Daten in HDFS verarbeiten. Mapper 142, Hadoop ist Open Source. hadoop,1 besteht,1 aus,1 hfds,1 und,1 mapreduce,1 hdfs,1 ist,1 ein,1 filesystem,1 mapreduce,1 ist,1 ein,1 framework,1 mit,1 mapreduce,1 lassen,1 sich,1 daten,1 in,1 hdfs,1 verarbeiten,1 hadoop,1 ist,1 open,1 source,1 aus,1 besteht,1 daten,1 ein,1,1 filesystem,1 framework,1 hadoop,1,1 hdfs,1,1,1 Reducer Reducer in,1 ist,1,1,1 lassen,1 mapreduce,1,1,1 mit,1 open,1 sich,1 source,1 und,1 verarbeiten,1 aus,1 besteht,1 daten,1 ein,2 filesystem,1 framework,1 hadoop,2 hdfs,3 Ergebnis in,1 ist,3 lassen,1 mapreduce,3 mit,1 open,1 sich,1 source,1 und,1 verarbeiten,1 HDFS File HDFS Block Map Input (Key, Value): Offset, Textzeile Map Output (Key, Value): Wort, Häufigkeit Reducer Input (Key, Values): Wort, Häufigkeit Reducer Output (Key, Value): Wort, Häufigkeit Seite 20

21 Die map()-methode ist die einzige Methode der Mapper-Basisklasse, die implementiert werden muss. package de.metafinanz.hadoop.wordcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.longwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.mapper; import java.util.*; public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ private final static IntWritable one = new IntWritable(1); private Text word = new protected void map(longwritable key, Text value, Context context) throws IOException, InterruptedException { } } String line = value.tostring(); StringTokenizer tokenizer = new StringTokenizer(line, " \t\n\r\f,.:;?![]')("); while (tokenizer.hasmoretokens()) { word.set(tokenizer.nexttoken()); context.write(word, one); } Seite 21

22 Als einzige Methode der Basisklasse muss die Methode reduce() implementiert werden. package de.metafinanz.hadoop.wordcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.reducer; public class WordCountReducer extends Reducer<Text, IntWritable, Text, protected void reduce(text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { } } int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); Seite 22

23 4 Hadoop Ökosystem

24 Classic Stack SQL für Hadoop - HiveQL Workflow Engine RDBMS-like Metadaten SQL-Abfragen Generiert MR-Job(- Ketten): Batch Anbindung BI-Tools Workflows mit MapReduce, Hive, Pig, Sqoop, RDBMS Datenaustausch Data Mining Datenaustausch Hadoop und SQL Datenbanken Machine learning library PIG - Skripting Einfache High Level Skript Sprache Fokus auf ETL Erweiterbar durch eigene Funktionalitäten Log File Verarbeitung Sammeln von Log Files Laden von log files nach Hadoop Seite 24

25 HIVE Hadoop mit SQL Hive Hadoop HiveQL (SQL) CLI Thrift Driver Job tracker / Relationale DB: Metadata-Store /user/hive/warehouse "Tabellen"-Metadaten für Files SQL ähnliche Abfragesprache HiveQL Generiert MapReduce Jobs SELECT FROM JOIN GROUP BY WHERE ; INSERT INTO AS SELECT Seite 25

26 Metadaten können für bestehende Dateien definiert werden. Per INSERT werden neue Daten hinzugefügt und per SELECT abgefragt. UPDATE und DELETE gibt es nicht. Hive Beispiele CREATE EXTERNAL TABLE mytab( stations_id STRING, stations_hoehe STRING, geograph_breite FLOAT, geograph_laenge FLOAT, von FLOAT, bis FLOAT, stationsname STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\;' LOCATION '/data/my_loc'; INSERT INTO TABLE targettable SELECT... FROM sourcetable; SELECT stations_id, sum(sonnenscheindauer), min(mess_datum), max(mess_datum) FROM weather_data WHERE year(mess_datum) = 2007 GROUP BY stations_id HAVING sum(sonnenscheindauer) > 100 ; Seite 26

27 Sqoop Datenaustausch Hadoop und RDBMS Datentransfertool Datenaustausch zwischen Hadoop und SQL- Datenbanken Paralleler Datentransfer Unterstützt gängige Datenbanksysteme Sqoop client 1 Relational DB Sqoop client 2 Hadoop Map Job Reads metadata Defines and submits job Seite 27

28 Pig Programmierplattform Highlevel-Programmierplattform PigLatin für Beschreibung von Datenflüssen Generiert MapReduce Jobs eingabe = load '/projects/beispiel.txt' as(zeile); woerter = foreach eingabe generate flatten (TOKENIZE(zeile)) as wort; gruppe = group woerter by wort; anzahl = foreach gruppe generate group, COUNT(woerter.wort); DUMP anzahl; Pig Latin Map-Reduce Cluster Blaukraut bleibt Blaukraut und Brautkleid bleibt Brautkleid (und,1) (bleibt,2) (Blaukraut,2) (Brautkleid,2) Seite 28

29 Flume Log File Verarbeitung Sammlung Log Daten / Events Zusammenfügen von Daten aus verschiedenen Quellen Filtern und Anreichern von Events Zusammengefasste Daten werden in HDFS abgelegt Source Sink Web Server Channel HDFS Agent Seite 29

30 Mahout Bibliothek für maschinelles Lernen Data Mining in Hadoop Collaborative Filtering Clustering Classification Warenkorbanalysen Klassifizierung von Kunden Kundenwechselwahrscheinlichkeit u.v.m. Mahout Hadoop Collaborative Filtering Clustering Classification Laptop MapReduce HDFS Cluster Seite 30

31 Oozie <workflow-app name='charcount-workflow' xmlns="uri:oozie:workflow:0.1"> <start to='charcount'/> <action name='charcount'> <map-reduce> [ ] </map-reduce> <ok to='end'/> <error to='kill'/> </action> <kill name='kill'> <message>something went wrong: ${wf:errorcode('charcount')}</message> </kill> <end name='end'/> </workflow-app> Start Start MapReduce CharCount Abbruch Fehler OK Ende Seite 31

32 Pig und Hive sind keine vollständigen Programmiersprachen (Schleifen, Kontrollstrukturen etc.). Zudem ist bei der Entwicklung von UDFs ein Kontextwechsel nach Java notwendig. Beispiel Use Case & Programmiersprachen Load Function UDF UDF Seite 32

33 Cascading verarbeitet Tuples, die durch Pipes fließen. Aus dem Cascading Code werden dann MapReduce Jobs generiert. Cascading Sink Tap Source Tap Pipes Seite 33

34 Die einzelnen Taps und Pipes werden als Java Objekte erstellt und dann in einer Flow Definition zusammengefügt. Cascading Word Count Tap doctap = new Hfs( new TextDelimited( true, "\t" ), docpath ); Tap wctap = new Hfs( new TextDelimited( true, "\t" ), wcpath ); Fields token = new Fields( "token" ); Fields text = new Fields( "text" ); RegexSplitGenerator splitter = new RegexSplitGenerator( token, "[ \\[\\]\\(\\),.]" ); Pipe docpipe = new Each( "token", text, splitter, Fields.RESULTS ); Pipe wcpipe = new Pipe( "wc", docpipe ); wcpipe = new GroupBy( wcpipe, token ); wcpipe = new Every( wcpipe, Fields.ALL, new Count(), Fields.ALL ); FlowDef flowdef = FlowDef.flowDef().setName( "wc" ).addsource( docpipe, doctap ).addtailsink( wcpipe, wctap ); Flow wcflow = flowconnector.connect( flowdef ); wcflow.writedot( "dot/wc.dot" ); wcflow.complete(); Seite 34

35 Scalding ist eine Scala API auf Cascading ohne Boilerplate -Code. Scalding Source Pipes Sink Monitoring mit Driven (Web-Oberfäche) MATRIX API für Machine Learning Unterstützung für Spark ist gepant TextLine( args("input") ).flatmap('line -> 'word) { line : String => line.split("""\s+""") }.groupby('word) { _.size }.write( Tsv( args("output") ) ) Seite 35

36 Die klassischen Tools generieren MapReduce Jobs. Oft muss mehr als ein Job generiert werden, was zu eigentlich unnötigen I/O führt. MapReduce Job Ketten oder oder oder oder... Map Reduce Map Reduce Seite 36

37 Tools wie Impala und Spark generieren kein MapReduce. Sie verarbeiten die Daten auf den Knoten in-memory. Dazu ist entsprechende Software auf allen Knoten zu installieren. In-Memory Tools Impala oder oder... Operation Operation Operation Seite 37

38 Impala ist eine Open Source Lösung von Cloudera für SQL-Echtzeitabfragen mit UDFs in C oder Java. Impala nutzt eigene Komponenten für in-memory Verarbeitung. Impala Client Statestore Hive Metastore SQL query cluster monitoring table/ database metadata impalad impalad impalad Query Planner Query Planner Query Planner Query Coordinator Query Coordinator Query Coordinator Query Executor Query Executor Query Executor HDFS DataNode HBase RegionServer HDFS DataNode HBase RegionServer HDFS DataNode HBase RegionServer Seite 38

39 Spark setzt auf in-memory Verarbeitung und lehnt sich von der Syntax her an Scala-Collections an. Einige Tools wechseln schon von MR auf Spark. Spark Architektur oder oder Spark SQL Spark Streaming MLib GraphX Spark Core Beispiel WordCount in Scala val file = spark.textfile("hdfs://...") val result= file.flatmap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _) result.saveastextfile("hdfs://...") Seite 39

40 Das Hadoop-Ökosystem besteht aus einer Vielzahl von Tools und Frameworks und wird ständig durch neue Projekte erweitert. Cascalog Oryx Crunch ORCFiles Big Data Connectors Big SQL SequenceFiles Kafaka HttpFS FuseDFS Seite 40

41 5 Projekte & Architektur

42 Je nach Projekttyp ähneln Hadoop Projekte mehr oder weniger klassischen BI-Projekten. Hadoop Projekttypen RDBMS Offload Offload ETL-Prozesse Offload Analysen Online Archivierung von Daten DWH Extension Verdichtung von neuen Big Data Informationen Weiterleitung der Ergebnisse an das DWH Big Data Exploration Sammlung von Daten aus unterschiedlichsten Quellen Verknüpfung verschiedenster Datentypen Data Mining ( Data Scientist) Seite 42

43 Landing area Enhanced area DB area Oracle DB als Data Warehouse und Hadoop als Big Data Store sind nicht isoliert zu sehen sondern ergänzen sich. Aus der Verknüpfung beider Welten entstehen Mehrwerte. Beispiel Big Data Architektur OLTP DWH OLAP Datamart APPs Reporting Applications Hadoop Analytics Documents, APPs files, Data mining In memory BI Unstructured data In memory BI Machine generated data Analytics Data mining Seite 43

44 Aus dem gesamten Master Dataset werden periodisch (eventually consistent) Batch Views generiert und diese mit aktuellsten Daten aus dem Speed Layer ergänzt. Lambda Architecture Hadoop Batch Layer Master Dataset Serving Layer Batch View Batch View APPs new data Query Speed Layer queue / stream Realtime View Realtime View Kafaka Seite 44

45 Unterschiedliche Ansätze und Vorgehensweisen von DWH/BI und Big Data. Quelle: IBM Corporation Seite 45

46 Die aktuellen Stellenangebote geben ein gutes Bild über die hohen Anforderungen an die Position eines Data Scientists ab. Sie sind nicht alleine auf der Suche nach Talenten Wer sucht? Mit welchen Skills? Und was bieten Sie? Hadoop, MapReduce, Hive, HBase Couch Perl, Bash, C#, Ruby, Python, Octave Java, C++ XML, JSON Matlab, R Oracle, MS SQL, MySQL, Teradata, NoSQL Cognos, SAS, Microstrategy, Business Objects, QlikView, Tableau TextMining, DataMining? mit überdurchschittlichem Hochschulabschluss, mit ausgeprägtem analytischem Bezug Seite 46

47 Für Hadoop braucht man Data-Management- und Java/Scala-Skill in einer Person! Die richtigen Mitarbeiter Programmierung Objektorientierung/Functional MapReduce Parallelität Unstrukturierte Daten Ökosystem Neugierde Wenig Doku Viel Recherche Neuland begehen SQL Data Management ETL/DWH Classic BI Seite 47

48 6 Fazit

49 Aus neuen Datenquellen, mit neuen Technologien und mit neuen Projektansätzen erfolgreich neue Business Cases umsetzen und in das Unternehmen integrieren Seite 49

50 Wir bieten offene Trainings an sowie maßgeschneiderte Trainings für individuelle Kunden. Unsere Referenten sind Experten aus der Praxis. metafinanz training Einführung Hadoop (1 Tag) Hadoop Intensiv-Entwickler Training (3 Tage) Einführung Oracle in-memory Datenbank TimesTen Data Warehousing & Dimensionale Modellierung Oracle Warehousebuilder 11.2 New Features OWB Skripting mit OMB*Plus Oracle SQL Tuning Einführung in Oracle: Architektur, SQL und PL/SQL Mehr Information unter All trainings are also available in English on request Seite 50

51 : HDFS, MapReduce & Ökosystem Fragen? Jetzt oder später? Carsten Herbe Head of Data Warehousing Downloads unter dwh.metafinanz.de mail phone Seite 51

52 Vielen Dank für Ihre Aufmerksamkeit! metafinanz Informationssysteme GmbH Leopoldstraße 146 D München Phone: Fax: DWH & Hadoop Expertise Besuchen Sie uns auch auf:

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

Hadoop in a Nutshell HDFS, MapReduce & Ecosystem. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop in a Nutshell HDFS, MapReduce & Ecosystem. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop in a Nutshell HDFS, MapReduce & Ecosystem Oracle DWH Konferenz 2014 Carsten Herbe Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence

Mehr

Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014

Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014 Überblick Hadoop Einführung HDFS und MapReduce DOAG Regionaltreffen München/Südbayern Februar 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business

Mehr

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015 Hadoop & Spark Carsten Herbe 8. CC-Partner Fachtagung 2015 29.04.2015 Daten & Fakten 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum 25 Jahre am Markt

Mehr

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

Hadoop Projekte Besonderheiten & Vorgehensweise. Oracle/metafinanz Roadshow Februar 2014

Hadoop Projekte Besonderheiten & Vorgehensweise. Oracle/metafinanz Roadshow Februar 2014 Hadoop Projekte Besonderheiten & Vorgehensweise Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Hadoop Ecosystem Vorstellung der Komponenten. Oracle/metafinanz Roadshow Februar 2014

Hadoop Ecosystem Vorstellung der Komponenten. Oracle/metafinanz Roadshow Februar 2014 Hadoop Ecosystem Vorstellung der Komponenten Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die Herausforderungen

Mehr

Spark das neue MapReduce?

Spark das neue MapReduce? Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche

Mehr

Spark das neue MapReduce?

Spark das neue MapReduce? Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

Hadoop & SQL Wie Hadoop um SQL erweitert werden kann. Oracle/metafinanz Roadshow 11./18. Februar

Hadoop & SQL Wie Hadoop um SQL erweitert werden kann. Oracle/metafinanz Roadshow 11./18. Februar Hadoop & SQL Wie Hadoop um SQL erweitert werden kann Oracle/metafinanz Roadshow 11./18. Februar Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Datenaustausch Hadoop & Oracle DB. DOAG Konferenz 2013 Nürnberg, 19.-21. November 2013 Carsten Herbe metafinanz Informationssysteme GmbH

Datenaustausch Hadoop & Oracle DB. DOAG Konferenz 2013 Nürnberg, 19.-21. November 2013 Carsten Herbe metafinanz Informationssysteme GmbH DOAG Konferenz 2013 Nürnberg, 19.-21. November 2013 Carsten Herbe metafinanz Informationssysteme GmbH Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT.

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel Carsten Herbe metafinanz Informationssysteme GmbH In unserer Business Line Business Intelligence & Risk gibt es fünf Bereiche: Risk,

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller Was ist? Hannover, CeBIT 2014 Patrick Keller Business Application Research Center Historie 1994: Beginn der Untersuchung von Business-Intelligence-Software am Lehrstuhl Wirtschaftsinformatik der Universität

Mehr

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Herzlich Willkommen bei Webinar@Lunchtime Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Xing-Profil:

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

PostgreSQL in großen Installationen

PostgreSQL in großen Installationen PostgreSQL in großen Installationen Cybertec Schönig & Schönig GmbH Hans-Jürgen Schönig Wieso PostgreSQL? - Die fortschrittlichste Open Source Database - Lizenzpolitik: wirkliche Freiheit - Stabilität,

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Prof. Dr.-Ing. Rainer Schmidt 1

Prof. Dr.-Ing. Rainer Schmidt 1 Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2

Mehr

Datenaustausch Hadoop & Oracle DB Carsten Herbe metafinanz Informationssysteme GmbH München

Datenaustausch Hadoop & Oracle DB Carsten Herbe metafinanz Informationssysteme GmbH München Datenaustausch Hadoop & Oracle DB Carsten Herbe metafinanz Informationssysteme GmbH München Schlüsselworte Hadoop, Sqoop, Sqoop 2, Hive, Oracle Big Data Konnektoren Einleitung Neben der klassischen Data

Mehr

Data Mart Offload nach Hadoop Star Schema in HDFS anstatt RDBMS. Carsten Herbe DOAG Konferenz November 2014

Data Mart Offload nach Hadoop Star Schema in HDFS anstatt RDBMS. Carsten Herbe DOAG Konferenz November 2014 Data Mart Offload nach Hadoop Star Schema in HDFS anstatt RDBMS Carsten Herbe DOAG Konferenz November 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und

Mehr

ETL in den Zeiten von Big Data

ETL in den Zeiten von Big Data ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse

Mehr

SQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar

SQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar Qt-Seminar Dienstag, 10.2.2009 SQL ist......die Abkürzung für Structured Query Language (früher sequel für Structured English Query Language )...ein ISO und ANSI Standard (aktuell SQL:2008)...eine Befehls-

Mehr

metafinanz Business & IT Consulting Hadoop in a Nutshell

metafinanz Business & IT Consulting Hadoop in a Nutshell metafinanz Business & IT Consulting Hadoop in a Nutshell 15.03.2016 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum Daten & Fakten 25 Jahre am Markt

Mehr

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr.

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr. Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr. Florian Johannsen AGENDA 1. Big Data Projekt der freenet Group Dr. Florian Johannsen

Mehr

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics DATA WAREHOUSE Oracle BI&W Referenz Architektur Big Data und High Performance Analytics Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen

Mehr

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen Open Source professionell einsetzen 1 Mein Background Ich bin überzeugt von Open Source. Ich verwende fast nur Open Source privat und beruflich. Ich arbeite seit mehr als 10 Jahren mit Linux und Open Source.

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Einrichtung des Cisco VPN Clients (IPSEC) in Windows7

Einrichtung des Cisco VPN Clients (IPSEC) in Windows7 Einrichtung des Cisco VPN Clients (IPSEC) in Windows7 Diese Verbindung muss einmalig eingerichtet werden und wird benötigt, um den Zugriff vom privaten Rechner oder der Workstation im Home Office über

Mehr

Big Data Technologien

Big Data Technologien Big Data Technologien - Ein Überblick - Prof. Dr. Jens Albrecht jens.albrecht@th-nuernberg.de Big Data Landscape 2016 Prof. Dr. Jens Albrecht Big Data 3 Systemarchitektur im Wandel Gestern und heute Strukturierte

Mehr

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired make connections share ideas be inspired Data Guido Oswald Solution Architect @SAS Switzerland BIG Data.. Wer? BIG Data.. Wer? Wikipedia sagt: Als Big Data werden besonders große Datenmengen bezeichnet,

Mehr

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten

Mehr

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004 BIW - Überblick Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004 Annegret Warnecke Senior Sales Consultant Oracle Deutschland GmbH Berlin Agenda Überblick

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

NoSQL mit Postgres 15. Juni 2015

NoSQL mit Postgres 15. Juni 2015 Tag der Datenbanken 15. Juni 2015 Dipl.-Wirt.-Inform. Agenda l Vorstellung l Marktübersicht l Warum PostgreSQL? l Warum NoSQL? l Beispielanwendung Seite: 2 Vorstellung Dipl.-Wirt.-Inform. [1990] Erste

Mehr

Map Reduce. Programmiermodell. Prof. Dr. Ingo Claÿen. Motivation. Modell. Verarbeitungsablauf. Algorithmen-Entwurf. Map-Reduce in Java

Map Reduce. Programmiermodell. Prof. Dr. Ingo Claÿen. Motivation. Modell. Verarbeitungsablauf. Algorithmen-Entwurf. Map-Reduce in Java Map Reduce Programmiermodell Prof. Dr. Ingo Claÿen Hochschule für Technik und Wirtschaft Berlin Motivation Modell Verarbeitungsablauf Algorithmen-Entwurf Map-Reduce in Java Motivation Was ist Map-Reduce

Mehr

MySQL Installation. AnPr

MySQL Installation. AnPr Name Klasse Datum 1 Allgemeiner Aufbau Relationale Datenbank Management Systeme (RDBMS) werden im Regelfall als Service installiert. Der Zugriff kann über mehrere Kanäle durchgeführt werden, wobei im Regelfall

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Lokale Installation von DotNetNuke 4 ohne IIS

Lokale Installation von DotNetNuke 4 ohne IIS Lokale Installation von DotNetNuke 4 ohne IIS ITM GmbH Wankelstr. 14 70563 Stuttgart http://www.itm-consulting.de Benjamin Hermann hermann@itm-consulting.de 12.12.2006 Agenda Benötigte Komponenten Installation

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH

Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH Dani Schnider Principal Consultant Business Intelligence BI Trilogie, Zürich/Basel 25./26. November 2009 Basel Baden Bern Lausanne Zürich

Mehr

Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG VISUAL ANALYTICS

Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG VISUAL ANALYTICS HERZLICH WILLKOMMEN ZUR VERANSTALTUNG VISUAL ANALYTICS AGENDA VISUAL ANALYTICS 9:00 09:30 Das datengetriebene Unternehmen: Big Data Analytics mit SAS die digitale Transformation: Handlungsfelder für IT

Mehr

Big Data: Apache Hadoop Grundlagen

Big Data: Apache Hadoop Grundlagen Seminarunterlage Version: 1.07 Version 1.07 vom 5. September 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg Review Freelancer-Workshop: Fit für Big Data Mittwoch, 29.04.2015 in Hamburg Am Mittwoch, den 29.04.2015, hatten wir von productive-data in Zusammenarbeit mit unserem langjährigen Partner Informatica zu

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

SAP NetWeaver Gateway. Connectivity@SNAP 2013

SAP NetWeaver Gateway. Connectivity@SNAP 2013 SAP NetWeaver Gateway Connectivity@SNAP 2013 Neue Wege im Unternehmen Neue Geräte und Usererfahrungen Technische Innovationen in Unternehmen Wachsende Gemeinschaft an Entwicklern Ausdehnung der Geschäftsdaten

Mehr

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem Fachbericht zum Thema: Anforderungen an ein Datenbanksystem von André Franken 1 Inhaltsverzeichnis 1 Inhaltsverzeichnis 1 2 Einführung 2 2.1 Gründe für den Einsatz von DB-Systemen 2 2.2 Definition: Datenbank

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

vinsight BIG DATA Solution

vinsight BIG DATA Solution vinsight BIG DATA Solution München, November 2014 BIG DATA LÖSUNG VINSIGHT Datensilos erschweren eine einheitliche Sicht auf die Daten...... und machen diese teilweise unmöglich einzelne individuelle Konnektoren,

Mehr

Mission. TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden

Mission. TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden Mission TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden Der Weg zu einem datengesteuerten Unternehmen # Datenquellen x Größe der Daten Basic BI & Analytics Aufbau eines

Mehr

3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner

3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner 3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner Gliederung Das Problem: Skalierbarkeit LAMP Tuning Mehr als ein Server Stud.IP und shared nothing

Mehr

DataSpace 2.0 Die sichere Kommunikations-Plattform für Unternehmen und Organisationen. Your Data. Your Control

DataSpace 2.0 Die sichere Kommunikations-Plattform für Unternehmen und Organisationen. Your Data. Your Control DataSpace 2.0 Die sichere Kommunikations-Plattform für Unternehmen und Organisationen Your Data. Your Control WebGUI CMIS GW (JSON) GDS2 API (JSON) WebDAV GDS core Moderne Software Architektur Object-Store

Mehr

WEBINAR@LUNCHTIME THEMA: "SAS STORED PROCESSES - SCHNELL GEZAUBERT" HELENE SCHMITZ

WEBINAR@LUNCHTIME THEMA: SAS STORED PROCESSES - SCHNELL GEZAUBERT HELENE SCHMITZ WEBINAR@LUNCHTIME THEMA: "SAS STORED PROCESSES - SCHNELL GEZAUBERT" HELENE SCHMITZ HERZLICH WILLKOMMEN BEI WEBINAR@LUNCHTIME Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Training

Mehr

Operational Big Data effektiv nutzen TIBCO LogLogic. Martin Ulmer, Tibco LogLogic Deutschland

Operational Big Data effektiv nutzen TIBCO LogLogic. Martin Ulmer, Tibco LogLogic Deutschland Operational Big Data effektiv nutzen TIBCO LogLogic Martin Ulmer, Tibco LogLogic Deutschland LOGS HINTERLASSEN SPUREN? Wer hat wann was gemacht Halten wir interne und externe IT Richtlinien ein Ist die

Mehr

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller 2002 131

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller 2002 131 Architekturen Von der DB basierten zur Multi-Tier Anwendung DB/CRM (C) J.M.Joller 2002 131 Lernziele Sie kennen Design und Architektur Patterns, welche beim Datenbankzugriff in verteilten Systemen verwendet

Mehr

Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me

Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me Bevor Sie die Platte zum ersten Mal benutzen können, muss sie noch partitioniert und formatiert werden! Vorher zeigt sich die Festplatte

Mehr

Wichtige Hinweise zu den neuen Orientierungshilfen der Architekten-/Objektplanerverträge

Wichtige Hinweise zu den neuen Orientierungshilfen der Architekten-/Objektplanerverträge Wichtige Hinweise zu den neuen Orientierungshilfen der Architekten-/Objektplanerverträge Ab der Version forma 5.5 handelt es sich bei den Orientierungshilfen der Architekten-/Objektplanerverträge nicht

Mehr

Senden von strukturierten Berichten über das SFTP Häufig gestellte Fragen

Senden von strukturierten Berichten über das SFTP Häufig gestellte Fragen Senden von strukturierten Berichten über das SFTP Häufig gestellte Fragen 1 Allgemeines Was versteht man unter SFTP? Die Abkürzung SFTP steht für SSH File Transfer Protocol oder Secure File Transfer Protocol.

Mehr

Whitepaper. Produkt: combit Relationship Manager. Einbindung externer FiBu-/Warenwirtschaftsdaten. combit GmbH Untere Laube 30 78462 Konstanz

Whitepaper. Produkt: combit Relationship Manager. Einbindung externer FiBu-/Warenwirtschaftsdaten. combit GmbH Untere Laube 30 78462 Konstanz combit GmbH Untere Laube 30 78462 Konstanz Whitepaper Produkt: combit Relationship Manager Einbindung externer FiBu-/Warenwirtschaftsdaten Einbindung externer FiBu-/Warenwirtschaftsdaten - 2 - Inhalt Ausgangssituation

Mehr

Installation SQL- Server 2012 Single Node

Installation SQL- Server 2012 Single Node Installation SQL- Server 2012 Single Node Dies ist eine Installationsanleitung für den neuen SQL Server 2012. Es beschreibt eine Single Node Installation auf einem virtuellen Windows Server 2008 R2 mit

Mehr

Predictive Modeling Markup Language. Thomas Morandell

Predictive Modeling Markup Language. Thomas Morandell Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML

Mehr

ORM & OLAP. Object-oriented Enterprise Application Programming Model for In-Memory Databases. Sebastian Oergel

ORM & OLAP. Object-oriented Enterprise Application Programming Model for In-Memory Databases. Sebastian Oergel ORM & OLAP Object-oriented Enterprise Application Programming Model for In-Memory Databases Sebastian Oergel Probleme 2 Datenbanken sind elementar für Business-Anwendungen Gängiges Datenbankparadigma:

Mehr

2. ERSTELLEN VON APPS MIT DEM ADT PLUGIN VON ECLIPSE

2. ERSTELLEN VON APPS MIT DEM ADT PLUGIN VON ECLIPSE 2. ERSTELLEN VON APPS MIT DEM ADT PLUGIN VON ECLIPSE 2.1 Die Einrichtung der Benutzeroberfläche Das Einrichten einer Android-Eclipse-Entwicklungsumgebung zur Android-Entwicklung ist grundsätzlich nicht

Mehr

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? Hans-Peter Zorn Inovex GmbH Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? War nicht BigData das gleiche NoSQL? Data Lake = Keine Struktur? flickr/matthewthecoolguy Oder gar ein Hadump? flickr/autohistorian

Mehr

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH Lars Priebe Senior Systemberater ORACLE Deutschland GmbH Data Mining als Anwendung des Data Warehouse Konzepte und Beispiele Agenda Data Warehouse Konzept und Data Mining Data Mining Prozesse Anwendungs-Beispiele

Mehr

Lizenzen auschecken. Was ist zu tun?

Lizenzen auschecken. Was ist zu tun? Use case Lizenzen auschecken Ihr Unternehmen hat eine Netzwerk-Commuterlizenz mit beispielsweise 4 Lizenzen. Am Freitag wollen Sie Ihren Laptop mit nach Hause nehmen, um dort am Wochenende weiter zu arbeiten.

Mehr

5. Programmierschnittstellen für XML

5. Programmierschnittstellen für XML 5. Programmierschnittstellen für für Medientechnologen Dr. E. Schön Wintersemester 2015/16 Seite 146 Notwendigkeit: Programmierschnittstelle Zugriff auf -Daten durch Applikationen wiederverwendbare Schnittstellen

Mehr

EMC. Data Lake Foundation

EMC. Data Lake Foundation EMC Data Lake Foundation 180 Wachstum unstrukturierter Daten 75% 78% 80% 71 EB 106 EB 133 EB Weltweit gelieferte Gesamtkapazität Unstrukturierte Daten Quelle März 2014, IDC Structured vs. Unstructured

Mehr

Big Data in der Praxis

Big Data in der Praxis Jonas Freiknecht Big Data in der Praxis Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren HANSER Vorwort XI 1 Einleitung 1 2 Big-Data 7 2.1 Historische Entstehung 8 2.2 Big-Data

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Hadoop-as-a-Service (HDaaS)

Hadoop-as-a-Service (HDaaS) Hadoop-as-a-Service (HDaaS) Flexible und skalierbare Referenzarchitektur Arnold Müller freier IT Mitarbeiter und Geschäftsführer Lena Frank Systems Engineer @ EMC Marius Lohr Systems Engineer @ EMC Fallbeispiel:

Mehr

ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover

ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover Schlüsselworte Oracle Data Integrator ODI, Big Data, Hadoop, MapReduce,, HDFS, PIG,

Mehr

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Ein Beispiel Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Dipl.-Kfm. Claus Häberle WS 2015 /16 # 42 XML (vereinfacht) visa

Mehr

EINSATZ VON MICROSOFT TERMINAL-SERVICES ODER CITRIX METAFRAME

EINSATZ VON MICROSOFT TERMINAL-SERVICES ODER CITRIX METAFRAME ALLGEMEINES Für die Mehrplatzinstallation von PLATO wird der Einsatz eines dedizierten Servers und ein funktionierendes Netzwerk mit Vollzugriff auf den PLATO-Ordner (Empfehlung: mit separatem, logischem

Mehr

5. Programmierschnittstellen für XML

5. Programmierschnittstellen für XML 5. Programmierschnittstellen für Grundlagen Dr. E. Schön FH Erfurt Sommersemester 2015 Seite 135 Programmierschnittstelle Notwendigkeit: Zugriff auf -Daten durch Applikationen wiederverwendbare Schnittstellen

Mehr

Kommunikationsübersicht XIMA FORMCYCLE Inhaltsverzeichnis

Kommunikationsübersicht XIMA FORMCYCLE Inhaltsverzeichnis Kommunikationsübersicht Inhaltsverzeichnis Kommunikation bei Einsatz eines MasterServer... 2 Installation im... 2 Installation in der... 3 Kommunikation bei Einsatz eines MasterServer und FrontendServer...

Mehr

Zeitlich abhängig von OWB?

Zeitlich abhängig von OWB? Zeitlich abhängig von OWB? 24. April 2007 Beat Flühmann Trivadis AG > IT Lösungsanbieter» Application Development, Application Performance Management, Business Communication, Business Intelligence, Managed

Mehr

Big Data Konnektoren: Hadoop und die Oracle DB

Big Data Konnektoren: Hadoop und die Oracle DB Big Data Konnektoren: Hadoop und die Oracle DB Philipp Loer ORDIX AG, Paderborn Schlüsselwörter Hadoop, Hive, OLH, OSCH Einleitung Der Vortrag beginnt mit einer Einführung in die Big Data Welt mit Apache

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Configuration Management mit Verbosy 17.04.2013 OSDC 2013. Eric Lippmann www.netways.de

Configuration Management mit Verbosy 17.04.2013 OSDC 2013. Eric Lippmann www.netways.de Configuration Management mit Verbosy 17.04.2013 OSDC 2013 Eric Lippmann Kurzvorstellung NETWAYS Expertise OPEN SOURCE SYSTEMS MANAGEMENT OPEN SOURCE DATA CENTER Monitoring & Reporting Configuration Management

Mehr

Excel beschleunigen mit dem mit Windows HPC Server 2008 R2

Excel beschleunigen mit dem mit Windows HPC Server 2008 R2 Excel beschleunigen mit dem mit Windows HPC Server 2008 R2 Steffen Krause Technical Evangelist Microsoft Deutschland GmbH http://blogs.technet.com/steffenk Haftungsausschluss Microsoft kann für die Richtigkeit

Mehr

Übung: Verwendung von Java-Threads

Übung: Verwendung von Java-Threads Übung: Verwendung von Java-Threads Ziel der Übung: Diese Übung dient dazu, den Umgang mit Threads in der Programmiersprache Java kennenzulernen. Ein einfaches Java-Programm, das Threads nutzt, soll zum

Mehr