Einführung in die Hadoop-Welt HDFS, MapReduce & Ökosystem. Big Data für Oracle Entwickler September 2014 Carsten Herbe
|
|
- Bettina Baumgartner
- vor 8 Jahren
- Abrufe
Transkript
1 HDFS, MapReduce & Ökosystem Big Data für Oracle Entwickler September 2014 Carsten Herbe
2 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence Themenbereiche Über metafinanz Enterprise DWH Data Modeling & Integration & ETL Architecture: DWH & Data Marts Hadoop & Columnar DBs Data Quality & Data Masking Insurance Reporting Standard & Adhoc Reporting Dashboarding BI Office Integration Mobile BI & InMemory SAS Trainings for Business Analysts BI & Risk Customer Intelligence Customer based Analytics & Processes Churn Prediction and Management Insurance Analytics Segmentation and Clustering Predictive Models, Data Mining & Statistics Scorecarding Social Media Analytics Fraud & AML Risk Solvency II (Standard & internal Model) Regulatory Reporting Compliance Risk Management metafinanz gehört fast 25 Jahren zu den erfahrensten Software- und Beratungshäusern mit Fokus auf die Versicherungsbranche. Mit einem Jahresumsatz von 270 Mio. EUR und 450 Mitarbeitern entwickeln wir für unsere Kunden intelligente zukunftsorientierte Lösungen für komplexe Herausforderungen Carsten Herbe Ihr Ansprechpartner Head of Data Warehousing Mehr als 10 Jahre DWH-Erfahrung Oracle & OWB Expertise Certified Hadoop Developer mail phone Seite 2
3 Inhalt 1 Was ist Hadoop? 2 Hadoop Distributed File System (HDFS) 3 MapReduce 4 Hadoop Ökosystem 5 Architektur & Projekte 6 Fazit Seite 3
4 1 Apache Hadoop
5 Seite 5
6 Die Apache Software hat sich mittlerweile als Quasi-Standard zur Speicherung und Verarbeitung von Big Data etabliert. Warum Hadoop? Verwaltung riesiger Datenmengen von strukturierten und unstrukturierten Daten Linear skarlierbarer Cluster (Speicher & Performance) von Standard-Servern Performance - Der Code wird zu den Daten auf die entsprechenden Knoten verteilt Ein großes Ökosystem an Tools rund um Hadoop entsteht (Graphen, SQL, ) Open Source - Kommerzielle Distributionen erhältlich (Cloudera, Hortonworks, ) Seite 6
7 Apache Hadoop ist ein Framework für die verteilte Speicherung und Verarbeitung großer Datenmengen basierend auf Konzepten von Google. Was ist Hadoop? Hadoop MapReduce Skalierbare Rechenkapazität Hadoop Distributed FileSystem (HDFS) Skalierbare Speicherkapazität Seite 7
8 Distributionen enthalten das Hadoop Core und die wichtigsten Komponenten des Hadoop Ökosystems. Sie unterscheiden sich in zusätzlichen (teilw. kommerziellen) Komponenten. Hadoop Distributoren Elastic MapReduce Seite 8
9 Ein Hadoop Cluster besteht aus Commodity Servern. Use Case abhängig sind Hauptspeicher, Festplattenspeicher und Netzwerk. Hardware DataNode GB Hauptspeicher (ggfs. bis zu 512GB) 2 quad-/hex-/octo-core CPUs, 2-2.5GHz TB Festplatten, JBOD-Konfiguration Bonded Gigabit Ethernet oder 10 Gigabit Ethernet Quelle: Seite 9
10 Auch wenn man strukturierte Daten in Hadoop speichern kann Hadoop ist keine relationale Datenbank. Hadoop ist keine Datenbank Hadoop Verarbeitung un-, teil- oder strukturierter Daten Schema on Read Write Once Read Many Geringe Datenintegrität Beliebig linear erweiterbar Oracle Verarbeitung strukturierter Daten Schema on Write Write Read Update Many Times Hohe Datenintegrität Eingeschränkt linear erweiterbar Seite 10
11 2 HDFS
12 Das HDFS ist ein verteiltes Dateisystem und bildet die Basis für die BigData-Verarbeitung mit Hadoop. Definition HDFS = Hadoop Distributed File System Zuständig für die redundante Speicherung großer Datenmengen in einem Cluster unter Nutzung von Commodity-Hardware (einfache, günstige Rechner) Implementiert in Java auf Grundlage von Google s GFS. Liegt über einem nativen Dateisystem (wie ext3, ext4 oder xfs) Seite 12
13 278 MB Das Hadoop Distributed File System (HDFS) speichert große Dateien durch Aufteilung in Blöcke und verhindert Datenverlust durch Replikation. $ hadoop fs put doc.txt NameNode 128 MB x3 3;1;5 3;7;8 6;4; MB 22 MB x3 x Client Cluster Seite 13
14 HDFS ist für die redundante Speicherung von großen Dateien ausgelegt, die write-onceread-many Daten enthalten. Eigenschaften Beste Performance bei der Speicherung von großen Dateien: Besser weniger große Dateien als viele kleine Dateien! Dateien in HDFS sind nicht änderbar (write once read many), d.h. es sind keine wahlfreien Schreibzugriffe erlaubt. Seit Hadoop 2.0 ist es möglich, Daten an Dateien anzuhängen (append). HDFS ist optimiert für das sequenzielle Lesen großer Dateien. Dateien werden in HDFS auf Blöcke aufgesplittet (Default-Blockgröße: 128 MB). Jeder Block wird redundant im Cluster gespeichert (Default: 3 fache Speicherung). Unterschiedliche Blöcke der gleichen Datei werden auf unterschiedlichen Knoten (und ggf. Racks) gespeichert Seite 14
15 Alle Metainformationen über die Daten werden im Speicher des NameNodes verwaltet. NameNode Der NameNode hält die Metadaten (Namespaces) für das HDFS: Welche Datei besteht aus welchen Blöcken? Auf welchem Knoten liegt welcher Block? Der NameNode Daemon muss jederzeit laufen, da ohne diese Metadaten nicht auf die Daten im Cluster zugegriffen werden kann. Um schnelleren Zugriff auf diese Daten zu haben, werden alle Daten im NameNode im RAM vorgehalten Seite 15
16 Im Cluster gibt es zwei unterschiedliche Typen von Nodes: viele DataNodes zur Datenspeicherung und -verarbeitung und wenige MasterNodes mit zentralen Diensten. MasterNodes Neben dem NameNode gibt es noch weitere Server-Dienste Diese laufen auf sogenannten MasterNodes Auf den MasterNodes werden keine HDFS Daten gespeichert Für einige dieser Server-Dienste gibt es schon Hochverfügbarkeitslösungen Beispiele: NameNode (ist ein Dienst auf einem MasterNode) ResourceManager (für die Verwaltung von Jobs) HiveServer (für SQL-Abfragen, lernen wir noch genauer kennen) Seite 16
17 Auf den DataNodes werden die Daten in Form von Blöcken gespeichert. DataNode In einem typischen Hadoop-Cluster gibt es sehr viele DataNodes. Auf den DataNodes werden die Daten in Form von Blöcken gespeichert ein Block wird bei Verwendung der Standardkonfiguration auf drei Knoten redundant abgelegt. Die DataNodes laufen typischerweise auf Commodity-Hardware. Um ein Rebalancing zu ermöglichen (z.b. bei Ausfall eines DataNodes), sollte die Gesamtgröße des HDFS 80% des insgesamt vorhandenen Speicherplatzes nicht überschreiten Seite 17
18 3 MapReduce
19 Der Code wird zu den Daten auf die entsprechende Knoten gebracht und dort lokal ausgeführt (Map). Diese Zwischenergebnisse werden im Reducer zusammengefasst. Grundidee MapReduce Resource Manager Name Node protected void map(...) throws { String line = value.tostring(); for (char character : line.tochararray()) { Client Daten 278 MB 128 MB 128 MB x3 x MB x3 Cluster Seite 19
20 Partition Sort Partition Sort Partition Hadoop besteht aus HDFS und MapReduce. HDFS ist ein Filesystem. MapReduce ist ein Framework. Mit MapReduce lassen sich Daten in HDFS verarbeiten. Hadoop ist OpenSource. Hadoop besteht aus HDFS und MapReduce. HDFS ist ein Filesystem. MapReduce ist ein Framework. Mit MapReduce lassen sich Daten in HDFS verarbeiten. Hadoop ist Open Source. Mapper 0, Hadoop besteht aus HDFS und MapReduce. 38, HDFS ist ein Filesystem. Mapper 62, MapReduce ist ein Framework. 90, Mit MapReduce lassen sich Daten in HDFS verarbeiten. Mapper 142, Hadoop ist Open Source. hadoop,1 besteht,1 aus,1 hfds,1 und,1 mapreduce,1 hdfs,1 ist,1 ein,1 filesystem,1 mapreduce,1 ist,1 ein,1 framework,1 mit,1 mapreduce,1 lassen,1 sich,1 daten,1 in,1 hdfs,1 verarbeiten,1 hadoop,1 ist,1 open,1 source,1 aus,1 besteht,1 daten,1 ein,1,1 filesystem,1 framework,1 hadoop,1,1 hdfs,1,1,1 Reducer Reducer in,1 ist,1,1,1 lassen,1 mapreduce,1,1,1 mit,1 open,1 sich,1 source,1 und,1 verarbeiten,1 aus,1 besteht,1 daten,1 ein,2 filesystem,1 framework,1 hadoop,2 hdfs,3 Ergebnis in,1 ist,3 lassen,1 mapreduce,3 mit,1 open,1 sich,1 source,1 und,1 verarbeiten,1 HDFS File HDFS Block Map Input (Key, Value): Offset, Textzeile Map Output (Key, Value): Wort, Häufigkeit Reducer Input (Key, Values): Wort, Häufigkeit Reducer Output (Key, Value): Wort, Häufigkeit Seite 20
21 Die map()-methode ist die einzige Methode der Mapper-Basisklasse, die implementiert werden muss. package de.metafinanz.hadoop.wordcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.longwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.mapper; import java.util.*; public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ private final static IntWritable one = new IntWritable(1); private Text word = new protected void map(longwritable key, Text value, Context context) throws IOException, InterruptedException { } } String line = value.tostring(); StringTokenizer tokenizer = new StringTokenizer(line, " \t\n\r\f,.:;?![]')("); while (tokenizer.hasmoretokens()) { word.set(tokenizer.nexttoken()); context.write(word, one); } Seite 21
22 Als einzige Methode der Basisklasse muss die Methode reduce() implementiert werden. package de.metafinanz.hadoop.wordcount; import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.reducer; public class WordCountReducer extends Reducer<Text, IntWritable, Text, protected void reduce(text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { } } int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); Seite 22
23 4 Hadoop Ökosystem
24 Classic Stack SQL für Hadoop - HiveQL Workflow Engine RDBMS-like Metadaten SQL-Abfragen Generiert MR-Job(- Ketten): Batch Anbindung BI-Tools Workflows mit MapReduce, Hive, Pig, Sqoop, RDBMS Datenaustausch Data Mining Datenaustausch Hadoop und SQL Datenbanken Machine learning library PIG - Skripting Einfache High Level Skript Sprache Fokus auf ETL Erweiterbar durch eigene Funktionalitäten Log File Verarbeitung Sammeln von Log Files Laden von log files nach Hadoop Seite 24
25 HIVE Hadoop mit SQL Hive Hadoop HiveQL (SQL) CLI Thrift Driver Job tracker / Relationale DB: Metadata-Store /user/hive/warehouse "Tabellen"-Metadaten für Files SQL ähnliche Abfragesprache HiveQL Generiert MapReduce Jobs SELECT FROM JOIN GROUP BY WHERE ; INSERT INTO AS SELECT Seite 25
26 Metadaten können für bestehende Dateien definiert werden. Per INSERT werden neue Daten hinzugefügt und per SELECT abgefragt. UPDATE und DELETE gibt es nicht. Hive Beispiele CREATE EXTERNAL TABLE mytab( stations_id STRING, stations_hoehe STRING, geograph_breite FLOAT, geograph_laenge FLOAT, von FLOAT, bis FLOAT, stationsname STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\;' LOCATION '/data/my_loc'; INSERT INTO TABLE targettable SELECT... FROM sourcetable; SELECT stations_id, sum(sonnenscheindauer), min(mess_datum), max(mess_datum) FROM weather_data WHERE year(mess_datum) = 2007 GROUP BY stations_id HAVING sum(sonnenscheindauer) > 100 ; Seite 26
27 Sqoop Datenaustausch Hadoop und RDBMS Datentransfertool Datenaustausch zwischen Hadoop und SQL- Datenbanken Paralleler Datentransfer Unterstützt gängige Datenbanksysteme Sqoop client 1 Relational DB Sqoop client 2 Hadoop Map Job Reads metadata Defines and submits job Seite 27
28 Pig Programmierplattform Highlevel-Programmierplattform PigLatin für Beschreibung von Datenflüssen Generiert MapReduce Jobs eingabe = load '/projects/beispiel.txt' as(zeile); woerter = foreach eingabe generate flatten (TOKENIZE(zeile)) as wort; gruppe = group woerter by wort; anzahl = foreach gruppe generate group, COUNT(woerter.wort); DUMP anzahl; Pig Latin Map-Reduce Cluster Blaukraut bleibt Blaukraut und Brautkleid bleibt Brautkleid (und,1) (bleibt,2) (Blaukraut,2) (Brautkleid,2) Seite 28
29 Flume Log File Verarbeitung Sammlung Log Daten / Events Zusammenfügen von Daten aus verschiedenen Quellen Filtern und Anreichern von Events Zusammengefasste Daten werden in HDFS abgelegt Source Sink Web Server Channel HDFS Agent Seite 29
30 Mahout Bibliothek für maschinelles Lernen Data Mining in Hadoop Collaborative Filtering Clustering Classification Warenkorbanalysen Klassifizierung von Kunden Kundenwechselwahrscheinlichkeit u.v.m. Mahout Hadoop Collaborative Filtering Clustering Classification Laptop MapReduce HDFS Cluster Seite 30
31 Oozie <workflow-app name='charcount-workflow' xmlns="uri:oozie:workflow:0.1"> <start to='charcount'/> <action name='charcount'> <map-reduce> [ ] </map-reduce> <ok to='end'/> <error to='kill'/> </action> <kill name='kill'> <message>something went wrong: ${wf:errorcode('charcount')}</message> </kill> <end name='end'/> </workflow-app> Start Start MapReduce CharCount Abbruch Fehler OK Ende Seite 31
32 Pig und Hive sind keine vollständigen Programmiersprachen (Schleifen, Kontrollstrukturen etc.). Zudem ist bei der Entwicklung von UDFs ein Kontextwechsel nach Java notwendig. Beispiel Use Case & Programmiersprachen Load Function UDF UDF Seite 32
33 Cascading verarbeitet Tuples, die durch Pipes fließen. Aus dem Cascading Code werden dann MapReduce Jobs generiert. Cascading Sink Tap Source Tap Pipes Seite 33
34 Die einzelnen Taps und Pipes werden als Java Objekte erstellt und dann in einer Flow Definition zusammengefügt. Cascading Word Count Tap doctap = new Hfs( new TextDelimited( true, "\t" ), docpath ); Tap wctap = new Hfs( new TextDelimited( true, "\t" ), wcpath ); Fields token = new Fields( "token" ); Fields text = new Fields( "text" ); RegexSplitGenerator splitter = new RegexSplitGenerator( token, "[ \\[\\]\\(\\),.]" ); Pipe docpipe = new Each( "token", text, splitter, Fields.RESULTS ); Pipe wcpipe = new Pipe( "wc", docpipe ); wcpipe = new GroupBy( wcpipe, token ); wcpipe = new Every( wcpipe, Fields.ALL, new Count(), Fields.ALL ); FlowDef flowdef = FlowDef.flowDef().setName( "wc" ).addsource( docpipe, doctap ).addtailsink( wcpipe, wctap ); Flow wcflow = flowconnector.connect( flowdef ); wcflow.writedot( "dot/wc.dot" ); wcflow.complete(); Seite 34
35 Scalding ist eine Scala API auf Cascading ohne Boilerplate -Code. Scalding Source Pipes Sink Monitoring mit Driven (Web-Oberfäche) MATRIX API für Machine Learning Unterstützung für Spark ist gepant TextLine( args("input") ).flatmap('line -> 'word) { line : String => line.split("""\s+""") }.groupby('word) { _.size }.write( Tsv( args("output") ) ) Seite 35
36 Die klassischen Tools generieren MapReduce Jobs. Oft muss mehr als ein Job generiert werden, was zu eigentlich unnötigen I/O führt. MapReduce Job Ketten oder oder oder oder... Map Reduce Map Reduce Seite 36
37 Tools wie Impala und Spark generieren kein MapReduce. Sie verarbeiten die Daten auf den Knoten in-memory. Dazu ist entsprechende Software auf allen Knoten zu installieren. In-Memory Tools Impala oder oder... Operation Operation Operation Seite 37
38 Impala ist eine Open Source Lösung von Cloudera für SQL-Echtzeitabfragen mit UDFs in C oder Java. Impala nutzt eigene Komponenten für in-memory Verarbeitung. Impala Client Statestore Hive Metastore SQL query cluster monitoring table/ database metadata impalad impalad impalad Query Planner Query Planner Query Planner Query Coordinator Query Coordinator Query Coordinator Query Executor Query Executor Query Executor HDFS DataNode HBase RegionServer HDFS DataNode HBase RegionServer HDFS DataNode HBase RegionServer Seite 38
39 Spark setzt auf in-memory Verarbeitung und lehnt sich von der Syntax her an Scala-Collections an. Einige Tools wechseln schon von MR auf Spark. Spark Architektur oder oder Spark SQL Spark Streaming MLib GraphX Spark Core Beispiel WordCount in Scala val file = spark.textfile("hdfs://...") val result= file.flatmap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _) result.saveastextfile("hdfs://...") Seite 39
40 Das Hadoop-Ökosystem besteht aus einer Vielzahl von Tools und Frameworks und wird ständig durch neue Projekte erweitert. Cascalog Oryx Crunch ORCFiles Big Data Connectors Big SQL SequenceFiles Kafaka HttpFS FuseDFS Seite 40
41 5 Projekte & Architektur
42 Je nach Projekttyp ähneln Hadoop Projekte mehr oder weniger klassischen BI-Projekten. Hadoop Projekttypen RDBMS Offload Offload ETL-Prozesse Offload Analysen Online Archivierung von Daten DWH Extension Verdichtung von neuen Big Data Informationen Weiterleitung der Ergebnisse an das DWH Big Data Exploration Sammlung von Daten aus unterschiedlichsten Quellen Verknüpfung verschiedenster Datentypen Data Mining ( Data Scientist) Seite 42
43 Landing area Enhanced area DB area Oracle DB als Data Warehouse und Hadoop als Big Data Store sind nicht isoliert zu sehen sondern ergänzen sich. Aus der Verknüpfung beider Welten entstehen Mehrwerte. Beispiel Big Data Architektur OLTP DWH OLAP Datamart APPs Reporting Applications Hadoop Analytics Documents, APPs files, Data mining In memory BI Unstructured data In memory BI Machine generated data Analytics Data mining Seite 43
44 Aus dem gesamten Master Dataset werden periodisch (eventually consistent) Batch Views generiert und diese mit aktuellsten Daten aus dem Speed Layer ergänzt. Lambda Architecture Hadoop Batch Layer Master Dataset Serving Layer Batch View Batch View APPs new data Query Speed Layer queue / stream Realtime View Realtime View Kafaka Seite 44
45 Unterschiedliche Ansätze und Vorgehensweisen von DWH/BI und Big Data. Quelle: IBM Corporation Seite 45
46 Die aktuellen Stellenangebote geben ein gutes Bild über die hohen Anforderungen an die Position eines Data Scientists ab. Sie sind nicht alleine auf der Suche nach Talenten Wer sucht? Mit welchen Skills? Und was bieten Sie? Hadoop, MapReduce, Hive, HBase Couch Perl, Bash, C#, Ruby, Python, Octave Java, C++ XML, JSON Matlab, R Oracle, MS SQL, MySQL, Teradata, NoSQL Cognos, SAS, Microstrategy, Business Objects, QlikView, Tableau TextMining, DataMining? mit überdurchschittlichem Hochschulabschluss, mit ausgeprägtem analytischem Bezug Seite 46
47 Für Hadoop braucht man Data-Management- und Java/Scala-Skill in einer Person! Die richtigen Mitarbeiter Programmierung Objektorientierung/Functional MapReduce Parallelität Unstrukturierte Daten Ökosystem Neugierde Wenig Doku Viel Recherche Neuland begehen SQL Data Management ETL/DWH Classic BI Seite 47
48 6 Fazit
49 Aus neuen Datenquellen, mit neuen Technologien und mit neuen Projektansätzen erfolgreich neue Business Cases umsetzen und in das Unternehmen integrieren Seite 49
50 Wir bieten offene Trainings an sowie maßgeschneiderte Trainings für individuelle Kunden. Unsere Referenten sind Experten aus der Praxis. metafinanz training Einführung Hadoop (1 Tag) Hadoop Intensiv-Entwickler Training (3 Tage) Einführung Oracle in-memory Datenbank TimesTen Data Warehousing & Dimensionale Modellierung Oracle Warehousebuilder 11.2 New Features OWB Skripting mit OMB*Plus Oracle SQL Tuning Einführung in Oracle: Architektur, SQL und PL/SQL Mehr Information unter All trainings are also available in English on request Seite 50
51 : HDFS, MapReduce & Ökosystem Fragen? Jetzt oder später? Carsten Herbe Head of Data Warehousing Downloads unter dwh.metafinanz.de mail phone Seite 51
52 Vielen Dank für Ihre Aufmerksamkeit! metafinanz Informationssysteme GmbH Leopoldstraße 146 D München Phone: Fax: DWH & Hadoop Expertise Besuchen Sie uns auch auf:
Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014
Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die
MehrHadoop in a Nutshell HDFS, MapReduce & Ecosystem. Oracle DWH Konferenz 2014 Carsten Herbe
Hadoop in a Nutshell HDFS, MapReduce & Ecosystem Oracle DWH Konferenz 2014 Carsten Herbe Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence
MehrÜberblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014
Überblick Hadoop Einführung HDFS und MapReduce DOAG Regionaltreffen München/Südbayern Februar 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business
MehrHadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015
Hadoop & Spark Carsten Herbe 8. CC-Partner Fachtagung 2015 29.04.2015 Daten & Fakten 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum 25 Jahre am Markt
MehrHadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes
Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)
MehrHadoop Projekte Besonderheiten & Vorgehensweise. Oracle/metafinanz Roadshow Februar 2014
Hadoop Projekte Besonderheiten & Vorgehensweise Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die
MehrHadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe
Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern
MehrHadoop. Simon Prewo. Simon Prewo
Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert
MehrHadoop Ecosystem Vorstellung der Komponenten. Oracle/metafinanz Roadshow Februar 2014
Hadoop Ecosystem Vorstellung der Komponenten Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die Herausforderungen
MehrSpark das neue MapReduce?
Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche
MehrSpark das neue MapReduce?
Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche
MehrBeratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting
Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis
MehrHadoop & SQL Wie Hadoop um SQL erweitert werden kann. Oracle/metafinanz Roadshow 11./18. Februar
Hadoop & SQL Wie Hadoop um SQL erweitert werden kann Oracle/metafinanz Roadshow 11./18. Februar Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services
MehrJune 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration
June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen
MehrEinführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer
Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum
MehrDatenaustausch Hadoop & Oracle DB. DOAG Konferenz 2013 Nürnberg, 19.-21. November 2013 Carsten Herbe metafinanz Informationssysteme GmbH
DOAG Konferenz 2013 Nürnberg, 19.-21. November 2013 Carsten Herbe metafinanz Informationssysteme GmbH Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT.
MehrBig Data Informationen neu gelebt
Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen
MehrHadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH
Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel Carsten Herbe metafinanz Informationssysteme GmbH In unserer Business Line Business Intelligence & Risk gibt es fünf Bereiche: Risk,
MehrSQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh
SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?
MehrWas ist Analyse? Hannover, CeBIT 2014 Patrick Keller
Was ist? Hannover, CeBIT 2014 Patrick Keller Business Application Research Center Historie 1994: Beginn der Untersuchung von Business-Intelligence-Software am Lehrstuhl Wirtschaftsinformatik der Universität
MehrDie wichtigsten Hadoop-Komponenten für Big Data mit SAS
Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Herzlich Willkommen bei Webinar@Lunchtime Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Xing-Profil:
MehrBig-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht
Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik
MehrApache HBase. A BigTable Column Store on top of Hadoop
Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,
MehrPostgreSQL in großen Installationen
PostgreSQL in großen Installationen Cybertec Schönig & Schönig GmbH Hans-Jürgen Schönig Wieso PostgreSQL? - Die fortschrittlichste Open Source Database - Lizenzpolitik: wirkliche Freiheit - Stabilität,
MehrOracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension
MehrEXASOL Anwendertreffen 2012
EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2
MehrNoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse
NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden
MehrBig Data Hype und Wirklichkeit Bringtmehrauchmehr?
Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or
MehrAnalyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria
Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards
MehrProf. Dr.-Ing. Rainer Schmidt 1
Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2
MehrDatenaustausch Hadoop & Oracle DB Carsten Herbe metafinanz Informationssysteme GmbH München
Datenaustausch Hadoop & Oracle DB Carsten Herbe metafinanz Informationssysteme GmbH München Schlüsselworte Hadoop, Sqoop, Sqoop 2, Hive, Oracle Big Data Konnektoren Einleitung Neben der klassischen Data
MehrData Mart Offload nach Hadoop Star Schema in HDFS anstatt RDBMS. Carsten Herbe DOAG Konferenz November 2014
Data Mart Offload nach Hadoop Star Schema in HDFS anstatt RDBMS Carsten Herbe DOAG Konferenz November 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und
MehrETL in den Zeiten von Big Data
ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse
MehrSQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar
Qt-Seminar Dienstag, 10.2.2009 SQL ist......die Abkürzung für Structured Query Language (früher sequel für Structured English Query Language )...ein ISO und ANSI Standard (aktuell SQL:2008)...eine Befehls-
Mehrmetafinanz Business & IT Consulting Hadoop in a Nutshell
metafinanz Business & IT Consulting Hadoop in a Nutshell 15.03.2016 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum Daten & Fakten 25 Jahre am Markt
MehrBig Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr.
Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr. Florian Johannsen AGENDA 1. Big Data Projekt der freenet Group Dr. Florian Johannsen
MehrOracle BI&W Referenz Architektur Big Data und High Performance Analytics
DATA WAREHOUSE Oracle BI&W Referenz Architektur Big Data und High Performance Analytics Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen
MehrAlbert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen
Open Source professionell einsetzen 1 Mein Background Ich bin überzeugt von Open Source. Ich verwende fast nur Open Source privat und beruflich. Ich arbeite seit mehr als 10 Jahren mit Linux und Open Source.
MehrHadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen
Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und
MehrEinrichtung des Cisco VPN Clients (IPSEC) in Windows7
Einrichtung des Cisco VPN Clients (IPSEC) in Windows7 Diese Verbindung muss einmalig eingerichtet werden und wird benötigt, um den Zugriff vom privaten Rechner oder der Workstation im Home Office über
MehrBig Data Technologien
Big Data Technologien - Ein Überblick - Prof. Dr. Jens Albrecht jens.albrecht@th-nuernberg.de Big Data Landscape 2016 Prof. Dr. Jens Albrecht Big Data 3 Systemarchitektur im Wandel Gestern und heute Strukturierte
MehrBig Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen
Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien
MehrDATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle
DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell
MehrBig Data Mythen und Fakten
Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher
MehrData. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired
make connections share ideas be inspired Data Guido Oswald Solution Architect @SAS Switzerland BIG Data.. Wer? BIG Data.. Wer? Wikipedia sagt: Als Big Data werden besonders große Datenmengen bezeichnet,
MehrANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik
ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten
MehrBIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004
BIW - Überblick Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004 Annegret Warnecke Senior Sales Consultant Oracle Deutschland GmbH Berlin Agenda Überblick
MehrDateisysteme und Datenverwaltung in der Cloud
Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1
MehrNoSQL mit Postgres 15. Juni 2015
Tag der Datenbanken 15. Juni 2015 Dipl.-Wirt.-Inform. Agenda l Vorstellung l Marktübersicht l Warum PostgreSQL? l Warum NoSQL? l Beispielanwendung Seite: 2 Vorstellung Dipl.-Wirt.-Inform. [1990] Erste
MehrMap Reduce. Programmiermodell. Prof. Dr. Ingo Claÿen. Motivation. Modell. Verarbeitungsablauf. Algorithmen-Entwurf. Map-Reduce in Java
Map Reduce Programmiermodell Prof. Dr. Ingo Claÿen Hochschule für Technik und Wirtschaft Berlin Motivation Modell Verarbeitungsablauf Algorithmen-Entwurf Map-Reduce in Java Motivation Was ist Map-Reduce
MehrMySQL Installation. AnPr
Name Klasse Datum 1 Allgemeiner Aufbau Relationale Datenbank Management Systeme (RDBMS) werden im Regelfall als Service installiert. Der Zugriff kann über mehrere Kanäle durchgeführt werden, wobei im Regelfall
MehrBigTable. 11.12.2012 Else
BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012
MehrPeter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr
Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit
MehrLokale Installation von DotNetNuke 4 ohne IIS
Lokale Installation von DotNetNuke 4 ohne IIS ITM GmbH Wankelstr. 14 70563 Stuttgart http://www.itm-consulting.de Benjamin Hermann hermann@itm-consulting.de 12.12.2006 Agenda Benötigte Komponenten Installation
MehrHadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011
High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten
MehrData Warehouse schnell gemacht Performanceaspekte im Oracle DWH
Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH Dani Schnider Principal Consultant Business Intelligence BI Trilogie, Zürich/Basel 25./26. November 2009 Basel Baden Bern Lausanne Zürich
MehrCopyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG VISUAL ANALYTICS
HERZLICH WILLKOMMEN ZUR VERANSTALTUNG VISUAL ANALYTICS AGENDA VISUAL ANALYTICS 9:00 09:30 Das datengetriebene Unternehmen: Big Data Analytics mit SAS die digitale Transformation: Handlungsfelder für IT
MehrBig Data: Apache Hadoop Grundlagen
Seminarunterlage Version: 1.07 Version 1.07 vom 5. September 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen
MehrEinführung in Hadoop
Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian
MehrReview Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg
Review Freelancer-Workshop: Fit für Big Data Mittwoch, 29.04.2015 in Hamburg Am Mittwoch, den 29.04.2015, hatten wir von productive-data in Zusammenarbeit mit unserem langjährigen Partner Informatica zu
MehrNeue Ansätze der Softwarequalitätssicherung
Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik
MehrSAP NetWeaver Gateway. Connectivity@SNAP 2013
SAP NetWeaver Gateway Connectivity@SNAP 2013 Neue Wege im Unternehmen Neue Geräte und Usererfahrungen Technische Innovationen in Unternehmen Wachsende Gemeinschaft an Entwicklern Ausdehnung der Geschäftsdaten
MehrFachbericht zum Thema: Anforderungen an ein Datenbanksystem
Fachbericht zum Thema: Anforderungen an ein Datenbanksystem von André Franken 1 Inhaltsverzeichnis 1 Inhaltsverzeichnis 1 2 Einführung 2 2.1 Gründe für den Einsatz von DB-Systemen 2 2.2 Definition: Datenbank
MehrBig Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer
Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs
Mehron Azure mit HDInsight & Script Ac2ons
Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu
Mehrvinsight BIG DATA Solution
vinsight BIG DATA Solution München, November 2014 BIG DATA LÖSUNG VINSIGHT Datensilos erschweren eine einheitliche Sicht auf die Daten...... und machen diese teilweise unmöglich einzelne individuelle Konnektoren,
MehrMission. TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden
Mission TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden Der Weg zu einem datengesteuerten Unternehmen # Datenquellen x Größe der Daten Basic BI & Analytics Aufbau eines
Mehr3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner
3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner Gliederung Das Problem: Skalierbarkeit LAMP Tuning Mehr als ein Server Stud.IP und shared nothing
MehrDataSpace 2.0 Die sichere Kommunikations-Plattform für Unternehmen und Organisationen. Your Data. Your Control
DataSpace 2.0 Die sichere Kommunikations-Plattform für Unternehmen und Organisationen Your Data. Your Control WebGUI CMIS GW (JSON) GDS2 API (JSON) WebDAV GDS core Moderne Software Architektur Object-Store
MehrWEBINAR@LUNCHTIME THEMA: "SAS STORED PROCESSES - SCHNELL GEZAUBERT" HELENE SCHMITZ
WEBINAR@LUNCHTIME THEMA: "SAS STORED PROCESSES - SCHNELL GEZAUBERT" HELENE SCHMITZ HERZLICH WILLKOMMEN BEI WEBINAR@LUNCHTIME Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Training
MehrOperational Big Data effektiv nutzen TIBCO LogLogic. Martin Ulmer, Tibco LogLogic Deutschland
Operational Big Data effektiv nutzen TIBCO LogLogic Martin Ulmer, Tibco LogLogic Deutschland LOGS HINTERLASSEN SPUREN? Wer hat wann was gemacht Halten wir interne und externe IT Richtlinien ein Ist die
MehrArchitekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller 2002 131
Architekturen Von der DB basierten zur Multi-Tier Anwendung DB/CRM (C) J.M.Joller 2002 131 Lernziele Sie kennen Design und Architektur Patterns, welche beim Datenbankzugriff in verteilten Systemen verwendet
MehrEinrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me
Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me Bevor Sie die Platte zum ersten Mal benutzen können, muss sie noch partitioniert und formatiert werden! Vorher zeigt sich die Festplatte
MehrWichtige Hinweise zu den neuen Orientierungshilfen der Architekten-/Objektplanerverträge
Wichtige Hinweise zu den neuen Orientierungshilfen der Architekten-/Objektplanerverträge Ab der Version forma 5.5 handelt es sich bei den Orientierungshilfen der Architekten-/Objektplanerverträge nicht
MehrSenden von strukturierten Berichten über das SFTP Häufig gestellte Fragen
Senden von strukturierten Berichten über das SFTP Häufig gestellte Fragen 1 Allgemeines Was versteht man unter SFTP? Die Abkürzung SFTP steht für SSH File Transfer Protocol oder Secure File Transfer Protocol.
MehrWhitepaper. Produkt: combit Relationship Manager. Einbindung externer FiBu-/Warenwirtschaftsdaten. combit GmbH Untere Laube 30 78462 Konstanz
combit GmbH Untere Laube 30 78462 Konstanz Whitepaper Produkt: combit Relationship Manager Einbindung externer FiBu-/Warenwirtschaftsdaten Einbindung externer FiBu-/Warenwirtschaftsdaten - 2 - Inhalt Ausgangssituation
MehrInstallation SQL- Server 2012 Single Node
Installation SQL- Server 2012 Single Node Dies ist eine Installationsanleitung für den neuen SQL Server 2012. Es beschreibt eine Single Node Installation auf einem virtuellen Windows Server 2008 R2 mit
MehrPredictive Modeling Markup Language. Thomas Morandell
Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML
MehrORM & OLAP. Object-oriented Enterprise Application Programming Model for In-Memory Databases. Sebastian Oergel
ORM & OLAP Object-oriented Enterprise Application Programming Model for In-Memory Databases Sebastian Oergel Probleme 2 Datenbanken sind elementar für Business-Anwendungen Gängiges Datenbankparadigma:
Mehr2. ERSTELLEN VON APPS MIT DEM ADT PLUGIN VON ECLIPSE
2. ERSTELLEN VON APPS MIT DEM ADT PLUGIN VON ECLIPSE 2.1 Die Einrichtung der Benutzeroberfläche Das Einrichten einer Android-Eclipse-Entwicklungsumgebung zur Android-Entwicklung ist grundsätzlich nicht
MehrHans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
Hans-Peter Zorn Inovex GmbH Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? War nicht BigData das gleiche NoSQL? Data Lake = Keine Struktur? flickr/matthewthecoolguy Oder gar ein Hadump? flickr/autohistorian
MehrLars Priebe Senior Systemberater. ORACLE Deutschland GmbH
Lars Priebe Senior Systemberater ORACLE Deutschland GmbH Data Mining als Anwendung des Data Warehouse Konzepte und Beispiele Agenda Data Warehouse Konzept und Data Mining Data Mining Prozesse Anwendungs-Beispiele
MehrLizenzen auschecken. Was ist zu tun?
Use case Lizenzen auschecken Ihr Unternehmen hat eine Netzwerk-Commuterlizenz mit beispielsweise 4 Lizenzen. Am Freitag wollen Sie Ihren Laptop mit nach Hause nehmen, um dort am Wochenende weiter zu arbeiten.
Mehr5. Programmierschnittstellen für XML
5. Programmierschnittstellen für für Medientechnologen Dr. E. Schön Wintersemester 2015/16 Seite 146 Notwendigkeit: Programmierschnittstelle Zugriff auf -Daten durch Applikationen wiederverwendbare Schnittstellen
MehrEMC. Data Lake Foundation
EMC Data Lake Foundation 180 Wachstum unstrukturierter Daten 75% 78% 80% 71 EB 106 EB 133 EB Weltweit gelieferte Gesamtkapazität Unstrukturierte Daten Quelle März 2014, IDC Structured vs. Unstructured
MehrBig Data in der Praxis
Jonas Freiknecht Big Data in der Praxis Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren HANSER Vorwort XI 1 Einleitung 1 2 Big-Data 7 2.1 Historische Entstehung 8 2.2 Big-Data
MehrApache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org
Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software
MehrHadoop-as-a-Service (HDaaS)
Hadoop-as-a-Service (HDaaS) Flexible und skalierbare Referenzarchitektur Arnold Müller freier IT Mitarbeiter und Geschäftsführer Lena Frank Systems Engineer @ EMC Marius Lohr Systems Engineer @ EMC Fallbeispiel:
MehrODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover
ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover Schlüsselworte Oracle Data Integrator ODI, Big Data, Hadoop, MapReduce,, HDFS, PIG,
MehrEin Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?
Ein Beispiel Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Dipl.-Kfm. Claus Häberle WS 2015 /16 # 42 XML (vereinfacht) visa
MehrEINSATZ VON MICROSOFT TERMINAL-SERVICES ODER CITRIX METAFRAME
ALLGEMEINES Für die Mehrplatzinstallation von PLATO wird der Einsatz eines dedizierten Servers und ein funktionierendes Netzwerk mit Vollzugriff auf den PLATO-Ordner (Empfehlung: mit separatem, logischem
Mehr5. Programmierschnittstellen für XML
5. Programmierschnittstellen für Grundlagen Dr. E. Schön FH Erfurt Sommersemester 2015 Seite 135 Programmierschnittstelle Notwendigkeit: Zugriff auf -Daten durch Applikationen wiederverwendbare Schnittstellen
MehrKommunikationsübersicht XIMA FORMCYCLE Inhaltsverzeichnis
Kommunikationsübersicht Inhaltsverzeichnis Kommunikation bei Einsatz eines MasterServer... 2 Installation im... 2 Installation in der... 3 Kommunikation bei Einsatz eines MasterServer und FrontendServer...
MehrZeitlich abhängig von OWB?
Zeitlich abhängig von OWB? 24. April 2007 Beat Flühmann Trivadis AG > IT Lösungsanbieter» Application Development, Application Performance Management, Business Communication, Business Intelligence, Managed
MehrBig Data Konnektoren: Hadoop und die Oracle DB
Big Data Konnektoren: Hadoop und die Oracle DB Philipp Loer ORDIX AG, Paderborn Schlüsselwörter Hadoop, Hive, OLH, OSCH Einleitung Der Vortrag beginnt mit einer Einführung in die Big Data Welt mit Apache
MehrSpark, Impala und Hadoop in der Kreditrisikoberechnung
Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort
MehrConfiguration Management mit Verbosy 17.04.2013 OSDC 2013. Eric Lippmann www.netways.de
Configuration Management mit Verbosy 17.04.2013 OSDC 2013 Eric Lippmann Kurzvorstellung NETWAYS Expertise OPEN SOURCE SYSTEMS MANAGEMENT OPEN SOURCE DATA CENTER Monitoring & Reporting Configuration Management
MehrExcel beschleunigen mit dem mit Windows HPC Server 2008 R2
Excel beschleunigen mit dem mit Windows HPC Server 2008 R2 Steffen Krause Technical Evangelist Microsoft Deutschland GmbH http://blogs.technet.com/steffenk Haftungsausschluss Microsoft kann für die Richtigkeit
MehrÜbung: Verwendung von Java-Threads
Übung: Verwendung von Java-Threads Ziel der Übung: Diese Übung dient dazu, den Umgang mit Threads in der Programmiersprache Java kennenzulernen. Ein einfaches Java-Programm, das Threads nutzt, soll zum
Mehr