MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Größe: px
Ab Seite anzeigen:

Download "MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce"

Transkript

1 MapReduce Jan Kristof Nidzwetzki

2 MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation: parallel and incremental data mining with online Map-Reduce 6 Zusammenfassung

3 MapReduce 2 / 17 Begriffe Begriffe Definition (Stromverarbeitung) Unter dem Begriff der Stromverarbeitung versteht man das fortlaufende Verarbeiten von Datenströmen. Bsp. Börsenticker Continuous-Queries Definition (Onlineverarbeitung) Unter dem Begriff der Onlineverarbeitung versteht man, dass die Verarbeitung der Daten im Dialog mit dem Benutzer erfolgt. Keine Stapelverarbeitung Bsp. Vorzeitige Ergebnisse bei lang laufenden Berechnungen

4 MapReduce 3 / 17 Verschiedene Arbeiten Verschiedene Arbeiten (HOP - ) DEDUCE: at the intersection of MapReduce and stream processing (Erweiterung IBM System S) Beyond online aggregation: parallel and incremental data mining with online Map-Reduce (Eigenes Framework)

5 MapReduce 4 / 17 Ziele Map Reduce Online - HOP Erweiterung von Hadoop MapReduce in der Strom- bzw. Onlineverarbeitung Online-Aggregation Continuous-Queries Erhöhung der Ausführungsgeschwindigkeit normaler MapReduce-Jobs

6 MapReduce 5 / 17 Pipelining Idee Sofortiges weiterleiten der Ausgaben des Map-Task an den Reduce-Task Pipelining ermöglicht Überlappung von Map- und Reduce-Task Schwierigkeiten Kopieren der Daten zwischen Map- und Reduce-Task benötigt viel Zeit Nicht genug TCP-Sockets verfügbar Combiner-Funktion schwierig anzuwenden

7 MapReduce 6 / 17 Pipelining Fehlertoleranz Fehlschlag eines Map-Task Verwerfen der Ergebnisse und Neustart des Map-Task Einsatz von Checkpoints Fehlschlag eines Reduce-Task Neustart des betreffenden Reduce-Task

8 MapReduce 7 / 17 Online Aggregation Online Aggregation ermöglicht es, vorab Ergebnisse eines Jobs Snapshots zu erhalten. Snapshots enthalten alle Daten des Map-Tasks zu einem bestimmten Zeitpunkt... sind auch zwischen mehreren Jobs möglich Genauigkeit ist nur schwer zu bestimmen Reduce-Phase muss mit jedem Snapshot erneut durchgeführt werden

9 MapReduce 8 / 17 Online Aggregation - Beispiel Häufigste K Wörter in 5.5 GB Text der Wikipedia. (Quelle: [CCA+09] S. 7)

10 MapReduce 9 / 17 Continuous-Queries Continuous-Queries ermöglichen es, sich verändernde Datenbestände fortlaufend auszuwerten. Beispiel: Auswertung von Logdateien Vorteil: Daten müssen nicht vollständig neu ausgewertet werden, wenn Änderungen vorgenommen werden. Fehlertoleranz teilweise schwierig zu Implementieren

11 MapReduce 10 / 17 Beispielanwendung: Monitoring Cluster mit 7 Systemen Systeme mit höherer Last sollen ermittelt werden Einsatz von Continuous-Queries Agents (Map-Task) liefen Ihre Ergebnisse an einen Aggregator (Reduce-Task) Berechnung der Systemlast über 120 Sekunden als gleitender Durchschnitt Systeme die mehr als zwei Standardabweichungen abweichen, werden gemeldet

12 MapReduce 11 / 17 Performance Wordcount über 10 GB mit 20 Map-Tasks und 5 Reduce-Tasks. Links: Hadoop ohne Pipelining (561 Sekunden), Rechts: HOP mit Pipelining (462 Sekunden) (Quelle: [CCA+09] S. 11)

13 MapReduce 12 / 17 Performance Wordcount über 10 GB mit 20 Map-Tasks und 20 Reduce-Tasks. Links: Hadoop ohne Pipelining (361 Sekunden), Rechts: HOP mit Pipelining (290 Sekunden) (Quelle: [CCA+09] S. 11)

14 DEDUCE: at the intersection of MapReduce and stream processing MapReduce 13 / 17 DEDUCE: at the intersection of MapReduce and stream processing IBM System S / IBM InfoSphere Streams Software zur Stromverarbeitung Auswertung der Datenströme wird mittels Data-Flow Graphen beschrieben Auswertung kann auf mehreren Computern parallel erfolgen SPADE - Stream Processing Application Declarative Engine Sprache zum beschreiben der Data-Flow Graphen Erweiterung dieser Sprache mittels UBOPs - user-defined build-in operators

15 DEDUCE: at the intersection of MapReduce and stream processing MapReduce 14 / 17 IBM System S / IBM InfoSphere Streams DEDUCE als Erweiterung des IBM System S MapReduce-Operator als Datenlieferant Beliefert die stream processing operators periodisch mit Daten Ziel ist es die Stromverarbeitung um statische Daten anzureichern Beispiel: Auswertung von Aktienmärkten Statische Daten: Historische Aktienkurse Datenstrom: Aktuelle Aktienkurse

16 DEDUCE: at the intersection of MapReduce and stream processing MapReduce 15 / 17 Beispiel Beispielanwendung - Auswertung von Finanzmärkten (Quelle: DEDUCE: At the intersection of MapReduce and stream processing [KAGW10] S. 5)

17 Jan Kristof Nidzwetzki MapReduce 16 / 17 Beyond online aggregation: parallel and incremental data mining with online Map-Reduce Beyond online aggregation: parallel and incremental data mining with online Map-Reduce Software zur Evaluierung von Algorithmen zur Berechnung des Job-Fortschritts und der Genauigkeit von Snapshots Implementation als Shared-Memory-Architektur Primär als Software zum Testen von Algorithmen gedacht Schlechte Fehlertoleranz und keine Skalierung der Jobs über mehrere Rechner

18 MapReduce 17 / 17 Zusammenfassung Zusammenfassung Erweiterung von Hadoop um Snapshots und Continuous-Queries Beyond online aggregation: parallel and incremental data mining with online Map-Reduce Software zur Evaluierung von Algorithmen zur Berechnung des Job-Fortschritts und der Genauigkeit von Snapshots DEDUCE als Erweiterung des IBM System S Erweiterung des IBM System S um die Möglichkeit Daten periodisch mittels MapReduce auszuwerten

FernUniversität in Hagen - Seminar 01912 im Sommersemester 2011. MapReduce und Datenbanken

FernUniversität in Hagen - Seminar 01912 im Sommersemester 2011. MapReduce und Datenbanken FernUniversität in Hagen - Seminar 01912 im Sommersemester 2011 MapReduce und Datenbanken Thema 15 Strom- bzw. Onlineverarbeitung mit MapReduce Referent: Jan Kristof Nidzwetzki 2 Jan Kristof Nidzwetzki,

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

Data Mining und Machine Learning

Data Mining und Machine Learning Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

MapReduce-Konzept. Thomas Findling, Thomas König

MapReduce-Konzept. Thomas Findling, Thomas König MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce

Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Timo Bingmann, Peter Sanders und Sebastian Schlag 21. Oktober 2014 @ PdF Vorstellung INSTITUTE OF THEORETICAL INFORMATICS ALGORITHMICS KIT Universität

Mehr

CEPaaS. Complex Event Processing as a Service. Bernhard Seeger Philipps-Universität Marburg RTM Realtime Monitoring GmbH

CEPaaS. Complex Event Processing as a Service. Bernhard Seeger Philipps-Universität Marburg RTM Realtime Monitoring GmbH CEPaaS Complex Event Processing as a Service Bernhard Seeger Philipps-Universität Marburg RTM Realtime Monitoring GmbH Daniar Achakeyev, Daniel Schäfer, Philip Schmiegelt CEP-Forschung in Marburg: aus

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Schlüsselworte Hadoop, Hive, Sqoop, SQL Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Einleitung In diesem Vortrag werden, nach einer kurzen Einführung in Apache Hadoop, die beiden Werkzeuge

Mehr

Seminar Map/Reduce Algorithms on Hadoop. Topics. Alex, Christoph

Seminar Map/Reduce Algorithms on Hadoop. Topics. Alex, Christoph Seminar Map/Reduce Algorithms on Hadoop Topics Alex, Christoph Organisatorisches Prioritisierte Liste mit allen vorgestellten Themen bis heute 23:59 an Alexander.Albrecht@hpi.uni-potsdam.de Vergabe der

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 6: Optimierungs- Dr. Anika Groß Sommersemester 2015 techniken für MapReduce Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de Optimierungstechniken (MR-Job-Parametrisierung)

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012 MapReduce Vereinfachte Datenverarbeitung in großen Rechnerverbünden Igor Marijanovic 794894 Fachvortrag WAR 19.12.2012 Beuth Hochschule für Technik Berlin Inhalt Einleitung Hauptteil Abschluss MapReduce

Mehr

Living Lab Big Data Konzeption einer Experimentierplattform

Living Lab Big Data Konzeption einer Experimentierplattform Living Lab Big Data Konzeption einer Experimentierplattform Dr. Michael May Berlin, 10.12.2012 Fraunhofer-Institut für Intelligente Analyseund Informationssysteme IAIS www.iais.fraunhofer.de Agenda n Ziele

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Zabbix 2.4. What's new? What's new in Zabbix 2.4. 1 of

Zabbix 2.4. What's new? What's new in Zabbix 2.4. 1 of Zabbix 2.4 What's new? 1 of What's new in Zabbix 2.4 About me Name: Pascal Schmiel Email: Schmiel@dv-loesungen.de WEB: www.dv-loesungen.de Senior Consultant Zabbix Certified Professional 2 of What's new

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Cloud Data Management

Cloud Data Management 1 Cloud Data Management Dr. Martin Grund 2 Die Evolution des Web Web 1.0: Entstehung des World Wide Web 1989 (CERN) Tim Berners-Lee. 1991 weltweite Verbreitung Navigation zwischen statischen Seiten Keine

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Echtzeiterkennung von Cyber-Angriffen auf IT-Infrastrukturen. Frank Irnich SAP Deutschland

Echtzeiterkennung von Cyber-Angriffen auf IT-Infrastrukturen. Frank Irnich SAP Deutschland Echtzeiterkennung von Cyber-Angriffen auf IT-Infrastrukturen Frank Irnich SAP Deutschland SAP ist ein globales Unternehmen... unser Fokusgebiet... IT Security für... 1 globales Netzwerk > 70 Länder, >

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

Oracle GridControl Tuning Pack. best Open Systems Day April 2010. Unterföhring. Marco Kühn best Systeme GmbH marco.kuehn@best.de

Oracle GridControl Tuning Pack. best Open Systems Day April 2010. Unterföhring. Marco Kühn best Systeme GmbH marco.kuehn@best.de Oracle GridControl Tuning Pack best Open Systems Day April 2010 Unterföhring Marco Kühn best Systeme GmbH marco.kuehn@best.de Agenda GridControl Overview Tuning Pack 4/26/10 Seite 2 Overview Grid Control

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Dokumentenorientierte Datenbanken - MongoDB

Dokumentenorientierte Datenbanken - MongoDB Dokumentenorientierte Datenbanken - MongoDB Jan Hentschel Ultra Tendency UG Übersicht Dokumente sind unabhängige Einheiten Bessere Performance (zusammengehörige Daten werden gemeinsam gelesen) Objektmodell

Mehr

MapReduce mit Hadoop 08.11.12 1

MapReduce mit Hadoop 08.11.12 1 MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung

Mehr

Quick Cluster Overview

Quick Cluster Overview Physikalische Fakultät der Universtät Heidelberg Projektpraktikum Informatik, SS 06 Aufgabenstellung Problem: von Clusterdaten Vermeidung der schwächen von Ganglia und Lemon Nutzung von Ganglia bzw. Lemon

Mehr

Big Data Performance Management

Big Data Performance Management Big Data Performance Management Überblick Big Data Im Kontext der Performance Relevanz Big Data Big Data Big data is a buzzword and a "vague term", but at the same time an "obsession" with entrepreneurs,

Mehr

Überblick. Verarbeitung großer Datenmengen. MapReduce. Herausforderungen

Überblick. Verarbeitung großer Datenmengen. MapReduce. Herausforderungen Überblick Verarbeitung großer Datenmengen Verarbeitung großer Datenmengen Motivation MapReduce Zusammenfassung Problemstellungen (e) Indexierung des World Wide Web PageRank-Berechnungen für Web-Seiten

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

vinsight BIG DATA Solution

vinsight BIG DATA Solution vinsight BIG DATA Solution München, November 2014 BIG DATA LÖSUNG VINSIGHT Datensilos erschweren eine einheitliche Sicht auf die Daten...... und machen diese teilweise unmöglich einzelne individuelle Konnektoren,

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

RAID Redundant Array of Independent [Inexpensive] Disks

RAID Redundant Array of Independent [Inexpensive] Disks RAID Redundant Array of Independent [Inexpensive] Disks Stefan Wexel Proseminar Algorithms and Data Structures im WS 2011/2012 Rheinisch-Westfälische Technische Hochschule Aachen Lehrstuhl für Informatik

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Big Data Anwendungen Chancen und Risiken

Big Data Anwendungen Chancen und Risiken Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data

Mehr

cretis service & software GmbH

cretis service & software GmbH Datei-Versionierung, Daten-Refresh, Filesystem-, Medien- und Technologiemigration mit cdlm für SAM/QFS Joachim.Daniel@.de Agenda Datei-Versionierung Daten-Refresh Filesystem-Migration Medien- und Technologiemigration

Mehr

Monitoringvon Workflows in einer BPEL-Engine

Monitoringvon Workflows in einer BPEL-Engine Monitoringvon Workflows in einer BPEL-Engine Autor: Stefan Berntheisel Datum: 23. Februar 2010 Stefan Berntheisel Hochschule RheinMain Management Verteilter Systeme und Anwendungen WS 09/10 Agenda Was

Mehr

USER CASE: SCOUT ALS FRAMEWORK FÜR FINANCIAL TECH

USER CASE: SCOUT ALS FRAMEWORK FÜR FINANCIAL TECH USER CASE: 2. Scout User Group Meeting eclipsecon Unconference 2015 LUDWIGSBURG, 2. NOVEMBER 2015» DAVID KLEIN, ENRION GMBH Content 1. Kurzvorstellung Enrion 2. Die Suche nach einem passenden Framework

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Mercury Data Scanner. Daten-Extraktion Dynamische Barcodes Dokumentenarchivierung Re-Formatierung Print On Demand

Mercury Data Scanner. Daten-Extraktion Dynamische Barcodes Dokumentenarchivierung Re-Formatierung Print On Demand Mercury Daten-Extraktion Dynamische Barcodes Dokumentenarchivierung Re-Formatierung Print On Demand Mercury & 22 2 Schematische Übersicht Overlays PCL5... PCL Postscript CSV... Overlay Manager Job Separator

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Web Services. 1. Quelle. Brian Connel The Seven Pillars of Web Services Management. Erschienen September 2002 im eai Journal

Web Services. 1. Quelle. Brian Connel The Seven Pillars of Web Services Management. Erschienen September 2002 im eai Journal Web Services - Brian Connel: The Seven Pillars of Web Services Management - IBM: IBM Strategy for management of the WebServices infrastrucutre Seminarvortrag von Lukasz Kidawski im Rahmen der Lehrveranstaltung

Mehr

Systems Management bei ZFLS

Systems Management bei ZFLS ZF Lenksysteme GmbH ZF Lenksysteme GmbH FIR Thilo Helmig & Stefan Zeul 02.10.2009 Systems Management bei ZFLS Abt.: Design 29.09.2009 1 vorlage.ppt ZF Lenksysteme GmbH Agenda ZF Lenksysteme stellt sich

Mehr

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,

Mehr

Gerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2

Gerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2 Gerrit Thede Big and Fast Data - Verarbeitung von Streaming Data Grundlagen Vertiefung und Anwendungen 2 Fakultät Technik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN? HANS-JOACHIM EDERT WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT EBINAR@LUNCHTIME

Mehr

Anwendungen von MapReduce

Anwendungen von MapReduce Anwendungen von MapReduce Hauptseminar: Multicore-Programmierung Jakob Wasserthal 17. November 2011 1 Abstract Nachdem das Framework MapReduce in der letzten Zeit stark an Popularität gewonnen hat, stellt

Mehr

Big Data: Solaranlagen reparieren Waschmaschinen? 2014 IBM Corporation

Big Data: Solaranlagen reparieren Waschmaschinen? 2014 IBM Corporation Big Data: Solaranlagen reparieren Waschmaschinen? Agenda Kurze Vorstellung Der Kunde und der ursprüngliche Ansatz Bisherige Architektur Vorgeschlagene Architektur Neue Aspekte der vorgeschlagenen Architektur

Mehr

Bernd Fondermann brainlounge. Blaue oder rote Pille: SQL oder MapReduce?

Bernd Fondermann brainlounge. Blaue oder rote Pille: SQL oder MapReduce? Bernd Fondermann brainlounge Blaue oder rote Pille: SQL oder MapReduce? TODOs pills on all pages upd source code 1 Blaue oder rote Pille - SQL oder MapReduce? Bernd Fondermann, BigDataCon/JAX 2012 2 Rote

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

InfoSphere Change Data Capture/Change Data Delivery

InfoSphere Change Data Capture/Change Data Delivery InfoSphere Change Data Capture/Change Data Delivery Aktuellste Daten für Ihr Datawarehouse 1 Information Management ist eine Wertschöpfungskette für die RICHTIGE Information zu jeder Zeit, am richtigen

Mehr

StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha. Vorgetragen von Matthias Altmann

StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha. Vorgetragen von Matthias Altmann StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha Vorgetragen von Matthias Altmann Mehrfache Datenströme Beispiel Luft und Raumfahrttechnik: Space Shuttle

Mehr

Installation SQL- Server 2012 Single Node

Installation SQL- Server 2012 Single Node Installation SQL- Server 2012 Single Node Dies ist eine Installationsanleitung für den neuen SQL Server 2012. Es beschreibt eine Single Node Installation auf einem virtuellen Windows Server 2008 R2 mit

Mehr

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Datenmanagement und einfache Automatisierungen in Ingenieursanwendungen mit dem DataFinder Eike Hoffmann 5. April 2006 Frankfurt a.m.

Datenmanagement und einfache Automatisierungen in Ingenieursanwendungen mit dem DataFinder Eike Hoffmann 5. April 2006 Frankfurt a.m. Datenmanagement und einfache Automatisierungen in Ingenieursanwendungen mit dem DataFinder Eike Hoffmann 5. April 2006 Frankfurt a.m. Folie 1 > DataFinder Organize your data > Eike Hoffmann Datenmanagement

Mehr

IMPORTIEREN TRANSFORMIEREN SELEKTIEREN EXPORTIEREN. Konsolidierte Kursaufbereitung im Handumdrehen

IMPORTIEREN TRANSFORMIEREN SELEKTIEREN EXPORTIEREN. Konsolidierte Kursaufbereitung im Handumdrehen DE IMPORTIEREN TRANSFORMIEREN SELEKTIEREN EXPORTIEREN Konsolidierte Kursaufbereitung im Handumdrehen xx Finanzinformationen auf sicherer Basis «Die CFIDB (Consolidated Financial Instruments Data Base)

Mehr

WORKSHOP REDWOOD INTELLIGENCE & SLA JAN DIRK ZIJLSTRA CHRISTOPH KIMMESKAMP

WORKSHOP REDWOOD INTELLIGENCE & SLA JAN DIRK ZIJLSTRA CHRISTOPH KIMMESKAMP WORKSHOP REDWOOD INTELLIGENCE & SLA JAN DIRK ZIJLSTRA CHRISTOPH KIMMESKAMP AGENDA Neue SLA Module Redwood Intelligence Portfolio Das Problem Die Lösung Verändern der alltäglichen Brandbekämpfung zu einem

Mehr

Mobile Application Management Mobile Usability Nutzen-Kosten-Analysen bei Usability Engineering

Mobile Application Management Mobile Usability Nutzen-Kosten-Analysen bei Usability Engineering Mobile Application Management Mobile Usability Nutzen-Kosten-Analysen bei Usability Engineering Bruno Borer, BorCon 1 Agenda Kosten / Nutzen Kosten pro Fehler: 10-er Regel Ansätze zur Kostenrechnung Beispiele

Mehr

Step 0: Bestehende Analyse-Plattform

Step 0: Bestehende Analyse-Plattform Die Themen 09:30-09:45 Einführung in das Thema (Oracle) 09:45-10:15 Hadoop in a Nutshell (metafinanz) 10:15-10:45 Hadoop Ecosystem (metafinanz) 10:45-11:00 Pause 11:00-11:30 BigData Architektur-Szenarien

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Frederik Wagner Leibniz-Rechenzentrum der Bayerischen Akademie der Wissenschaften

Frederik Wagner Leibniz-Rechenzentrum der Bayerischen Akademie der Wissenschaften Erfahrungen mit Single-Namespace NFS im HPC-Umfeld Frederik Wagner Leibniz-Rechenzentrum der Bayerischen Akademie der Wissenschaften Das Linux-Cluster am LRZ 2 Speichersysteme am Linux-Cluster Homeverzeichnisse

Mehr

Mission. TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden

Mission. TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden Mission TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden Der Weg zu einem datengesteuerten Unternehmen # Datenquellen x Größe der Daten Basic BI & Analytics Aufbau eines

Mehr

Planung auf Aufbau von SharePoint-Suchinfrastrukturen

Planung auf Aufbau von SharePoint-Suchinfrastrukturen Building & Connecting Know-how 16.-17. Februar 2011, München Planung auf Aufbau von SharePoint-Suchinfrastrukturen Fabian Moritz SharePoint MVP Partner: Veranstalter: Aufbau von Suchplattformen Planung

Mehr

Die Technologie- Landschaft für Big-Data-Analyse

Die Technologie- Landschaft für Big-Data-Analyse Die Technologie- Landschaft für Big-Data-Analyse Die Verwaltung großer Datenmengen wird durch neue Technologien einfacher und vor allem preiswerter. Dadurch ergeben sich nicht nur eine bessere Kosteneffizienz,

Mehr

Thema: Das MapReduce-Framework

Thema: Das MapReduce-Framework Software as a Service Cloud Computing und aktuelle Entwicklungen Seminararbeit Thema: Das MapReduce-Framework Betreuer: Prof. Dr. Klaus Küspert Dipl.-Inf. Andreas Göbel Nicky Kuhnt Friedrich-Schiller-Universität

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

Teamprojekt & Projekt

Teamprojekt & Projekt 2. November 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Alexander Schätzle, Martin Przjyaciel-Zablocki, Thomas Hornung dbis Studienordnung Master: 16 ECTS 480 Semesterstunden

Mehr

PRODATIS CONSULTING AG. Folie 1

PRODATIS CONSULTING AG. Folie 1 Folie 1 Führend im Gartner Magic Quadranten für verteilte, interagierende SOA Projekte Oracle ist weltweit auf Rang 1 auf dem Markt der Enterprise Service Bus Suiten (ESB) für SOA Software 2010 26,3 %

Mehr

HANA. TOBA-Team Dresden 19.05.2012

HANA. TOBA-Team Dresden 19.05.2012 HANA TOBA-Team Dresden 19.05.2012 Kunde droht mit Auftrag! Ein großer Discounter schickt Anfrage: Bis wann und zu welchem Preis können Sie 30.000 Stück liefern? Die Hektik beginnt! Bis wann Welche und

Mehr

Parallele und funktionale Programmierung Wintersemester 2013/14. 8. Übung Abgabe bis 20.12.2013, 16:00 Uhr

Parallele und funktionale Programmierung Wintersemester 2013/14. 8. Übung Abgabe bis 20.12.2013, 16:00 Uhr 8. Übung Abgabe bis 20.12.2013, 16:00 Uhr Aufgabe 8.1: Zeigerverdopplung Ermitteln Sie an folgendem Beispiel den Rang für jedes Listenelement sequentiell und mit dem in der Vorlesung vorgestellten parallelen

Mehr

Internet Briefing. Developer Konferenz. Clientseitige Last- & Performancetesting. Namics.

Internet Briefing. Developer Konferenz. Clientseitige Last- & Performancetesting. Namics. Internet Briefing. Developer Konferenz. Clientseitige Last- & Performancetesting. Jürg Stuker. CEO. Partner. 8. Dezember 2011 Thema 1 Verstehen was zwischen User Agent und Server geschwatzt wird... 8.

Mehr

Sozio- Technische Systeme

Sozio- Technische Systeme Soziotechnische Informationssysteme 7. Skalierbarkeit 2013 757 Millionen melden sich täglich an (12/2013) 802 DAUs laut FB (1 Quartal 2014) 1.23 Milliarden Nutzer im Monat (12/2013) 556 Millionen täglich

Mehr

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? Hans-Peter Zorn Inovex GmbH Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? War nicht BigData das gleiche NoSQL? Data Lake = Keine Struktur? flickr/matthewthecoolguy Oder gar ein Hadump? flickr/autohistorian

Mehr

Stratosphere. Next-Generation Big Data Analytics Made in Germany

Stratosphere. Next-Generation Big Data Analytics Made in Germany Stratosphere Next-Generation Big Data Analytics Made in Germany Robert Metzger Stratosphere Core Developer Technische Universität Berlin Ronald Fromm Head of Big Data Science Telekom Innovation Laboratories

Mehr

Vorwort zur 5. Auflage... 15 Über den Autor... 16

Vorwort zur 5. Auflage... 15 Über den Autor... 16 Vorwort zur 5. Auflage...................................... 15 Über den Autor............................................ 16 Teil I Grundlagen.............................................. 17 1 Einführung

Mehr

Einführung des ESVG 2010 in die deutsche FinR 8. Berliner VGR-Kolloquium, 18. Juni 2015

Einführung des ESVG 2010 in die deutsche FinR 8. Berliner VGR-Kolloquium, 18. Juni 2015 Einführung des ESVG 2010 in die deutsche FinR 8. Berliner VGR-Kolloquium, Dr. Manuel Rupprecht, Zentralbereich Volkswirtschaft, Deutsche Bundesbank Einführung des ESVG 2010 in die dt. Finanzierungsrechnung

Mehr

Big Data in Business use cases. strategien. implementierungen. Twitter: @eschmiegelow

Big Data in Business use cases. strategien. implementierungen. Twitter: @eschmiegelow Big Data in Business use cases. strategien. implementierungen Twitter: @eschmiegelow Agenda I. Intro was ist big data eigentlich? II. Industry Use Cases - big data at work III. Deep Dive - big data für

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH Lars Priebe Senior Systemberater ORACLE Deutschland GmbH Data Mining als Anwendung des Data Warehouse Konzepte und Beispiele Agenda Data Warehouse Konzept und Data Mining Data Mining Prozesse Anwendungs-Beispiele

Mehr

Sizing von WebForms-Umgebungen

Sizing von WebForms-Umgebungen Sizing von WebForms-Umgebungen Torsten Schlautmann OPITZ CONSULTING Gummersbach GmbH Seite 1 Agenda Probemdarstellung Grundlegendes Sizing Lasttests zur Validierung Fazit Seite 2 Agenda Probemdarstellung

Mehr

IBM SPSS Modeler 14.2 Batch-Installation für Windows

IBM SPSS Modeler 14.2 Batch-Installation für Windows IBM SPSS Modeler 14.2 Batch-Installation für Windows Die folgenden Anweisungen gelten für die Installation von IBM SPSS Modeler Batch Version 14.2. IBM SPSS Modeler Batch bietet sämtliche Analysefunktionen

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Complex Event Processing als Schlüsselfaktor für effizientes Wissensmanagement in der Energiewirtschaft

Complex Event Processing als Schlüsselfaktor für effizientes Wissensmanagement in der Energiewirtschaft Complex Event Processing als Schlüsselfaktor für effizientes Wissensmanagement in der Energiewirtschaft Inhalt Herausforderungen innerhalb der Energiewirtschaft Complex Event Processing zur Unterstützung

Mehr

Mining top-k frequent itemsets from data streams

Mining top-k frequent itemsets from data streams Seminar: Maschinelles Lernen Mining top-k frequent itemsets from data streams R.C.-W. Wong A.W.-C. Fu 1 Gliederung 1. Einleitung 2. Chernoff-basierter Algorithmus 3. top-k lossy counting Algorithmus 4.

Mehr

Prof. Dr.-Ing. Rainer Schmidt 1

Prof. Dr.-Ing. Rainer Schmidt 1 Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2

Mehr

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

Hadoop-as-a-Service (HDaaS)

Hadoop-as-a-Service (HDaaS) Hadoop-as-a-Service (HDaaS) Flexible und skalierbare Referenzarchitektur Arnold Müller freier IT Mitarbeiter und Geschäftsführer Lena Frank Systems Engineer @ EMC Marius Lohr Systems Engineer @ EMC Fallbeispiel:

Mehr

BIG DATA HYPE ODER CHANCE

BIG DATA HYPE ODER CHANCE BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu

Mehr

Dr. Uwe Jasnoch Intergraph SG&I Deutschland GmbH

Dr. Uwe Jasnoch Intergraph SG&I Deutschland GmbH Dr. Uwe Jasnoch Intergraph SG&I Deutschland GmbH Definition Cloud Computing Was ist cloud computing? on demand Computer Center mit pay as you go Konzepten Direkte Verfügbarkeit von Rechenkapazitäten, die

Mehr