DduP - Towards a Deduplication Framework utilising Apache Spark

Größe: px
Ab Seite anzeigen:

Download "DduP - Towards a Deduplication Framework utilising Apache Spark"

Transkript

1 - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik

2 Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication Framework 2

3 Duplikaterkennung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication Framework 3

4 Duplikaterkennung - Beispiel Corpus: Set[Tuple] Herbert Maier Hebert Maier Jan Müller Joachim Gause Herbert Mayer Peter Wüst Joachim Gausse 4

5 Duplikaterkennung - Beispiel Result: Set[Entity], Entity: Set[Tuple] Herbert Maier Hebert Maier Jan Müller Joachim Gause Herbert Mayer Peter Wüst Joachim Gausse 4

6 Motivation Probleme Quadratische Komplexität Große Datenmengen sind auf einem Standardrechner nicht handhabbar Lange Laufzeiten auf Standardrechner Hadoop MapReduce Projekt Dedoop der Uni Leipzig Duplikaterkennung bis dato Batchverarbeitung Keine relevanten Open Source Projekte vorhanden Entstehung Projekt im Rahmen meiner Masterarbeit - Interactive Big Data Deduplication Framework 5

7 Apache Spark 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication Framework 6

8 Apache Hadoop MapReduce - Wordcount Beispiel Partition Map Shuffle Reduce Merge Lion Goose (Lion, 1) (Goose, 1) (Lion, 1) (Lion, 1) (Lion, 2) Lion Goose Goose Lion Mouse Goose Lion Goose (Lion, 1) (Goose, 1) (Goose, 1) (Goose, 1) (Goose, 1) (Goose, 3) (Lion, 2) (Goose, 3) (Mouse, 1) Disk load Mouse Goose (Mouse, 1) (Goose, 1) (Mouse, 1) (Mouse, 1) write Disk Disk I/O Overhead Einschränkung auf Map Reduce API Batchverarbeitung 7

9 Apache Spark - Übersicht Cluster Computing Framework offizieller Nachfolger von Apache Hadoop relativ jung (erstes Paper 2009; Version 1.0 Mai 2014) Deployment-Alternativen: Standalone, Hadoop (YARN), Mesos, Amazon EC2 mögliche Datenquellen: HDFS, HBase, Cassandra benutzbar über API (Scala, Java, Python) oder Spark-Shell 8

10 Apache Spark - Cluster Aufbau Spark Grundsatz: Versende Code, nicht die Daten Master Spark Driver Spark Master HDFS Namenode task result Worker 1 Worker 2 Worker 3 Worker 4 Apache Spark Executors HDFS Datanodes 9

11 RDD - Resilient Distributed Dataset RDD: Kernkonzept von Spark Resilient - Fehlertolerant Disitributed - Partitioniert (A1,..., A4) Dataset - Generische Collection Readonly Lazy - Transformations, Actions Versch. Persistenz-Strategien (in-memory, on-disk, persistence-priority) Versch. Partitions-Strategien um Datenlokalität zu optimieren A: A1 A2 A3 A4 10

12 RDD Lineage Lineage (Abstammungslinie): Gerichteter Azyklischer Graph A: A1 C: C1 A2 A3 A4 filter C2 C3 C4 E: E1 E2 E3 count B: B1 D: D1 E4 B2 D2 join groupbykey 11

13 Spark Shell - Interactive Big Data Mining Scala Shell SparkContext 12

14 Spark Word-Count Beispiel package de. unihamburg. v s i s. ddup. exe. t e s t i n g import org. apache. s p a r k. SparkConf import org. apache. s p a r k. SparkContext import org. apache. s p a r k. SparkContext. _ o b j e c t WordCount extends App { p r i v a t e v a l c o n f = new SparkConf ( ). setappname ( " WordCount " ). s e t M a s t e r ( " l o c a l " ) v a l s c = new SparkContext ( c o n f ) // h d f s : / / master :9000/ t e s t. t x t v a l f i l e = s c. t e x t F i l e ( " / lorem ipsum. t x t " ) v a l words = f i l e. flatmap ( l i n e => l i n e. s p l i t ( " " ) ) v a l wordnumbers = words. map( word => ( word, 1 ) ) v a l c o u n t s = wordnumbers. reducebykey (_ + _) c o u n t s. f o r e a c h ( p r i n t l n (_) ) } 13

15 - Interactive Big Data Deduplication Framework 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication Framework 14

16 Duplikaterkennung - Prozessübersicht Parsing / Preprocessing <<File>> Tuple Source RDD[Tuple] Gold Standard <<File>> Goldstandard RDD[Tuple] Blocking RDD[SymPair[Tuple]] Similarity RDD[(SymPair[Tuple], Array[Double])] Decision Model RDD[SymPair[Tuple]] Clustering Duplikatcluster RDD[Set[Tuple]] 15

17 Ziel Design einer Bibliothek bzw. eines Toolkits zur interaktiven Duplikaterkennung in großen Datenmengen. Anforderungen Modular Erweiterbar Performant In-Memory Skalierbar Flexibel Interaktiv einsetzbar (z.b. Shell) Batch-fähig (configurierbare Pipelines) Explorativ einsetzbar Rapid Prototyping von Pipeline Konfigurationen 16

18 Warum Apache Spark? In-Memory obwohl kein iterativer Prozess Viele Prozessschritte Hadoop Tradeoff: Modularität <-> Effizienz (Disk I/O) Mehrfache Verwendung von Zwischenergebnissen (z.b. Multiblocking) Interaktive Shell Alternativen Apache Pig - keine interaktive Shell 17

19 PipE - Linear Pipelining Framework Eigenschaften Pipes and Filter Pattern Typsicher Modular Linear PipeContext (nicht lineare Pipelines) List[String] PipeParser List[Tuple] List[Tuple] PipeBlocker List[(Tuple, Tuple)] 18

20 PipE - Linear Pipelining Framework Eigenschaften Pipes and Filter Pattern Typsicher Modular Linear PipeContext (nicht lineare Pipelines) List[String] PipeParser List[Tuple] List[Tuple] PipeBlocker List[(Tuple, Tuple)] 18

21 PipE - Linear Pipelining Framework Eigenschaften Pipes and Filter Pattern Typsicher Modular Linear PipeContext (nicht lineare Pipelines) List[String] PipeParser List[Tuple] PipeBlocker List[(Tuple, Tuple)] 18

22 PipE - Linear Pipelining Framework Eigenschaften Pipes and Filter Pattern Typsicher Modular Linear PipeContext (nicht lineare Pipelines) List[String] PipeParser List[Tuple] PipeBlocker List[(Tuple, Tuple)] Scala Code Beispiel v a l i n p u t = s c. t e x t F i l e ( " t e s t f i l e. c s v " ) v a l p i p e = P i p e P a r s e r ( ) append P i p e B l o c k e r ( param1, param2 ) v a l pc = new DdupPipeContext ( ) v a l r e s u l t = p i p e. run ( pc, i n p u t ) 18

23 - Pipe Typen Parsing / Preprocessing RDD[Tuple] Gold Standard RDD[Tuple] Blocking RDD[SymPair[Tuple]] Similarity Analyse Print Write Optimise RDD[(SymPair[Tuple], Array[Double])] Decision Model RDD[SymPair[Tuple]] Clustering 19

24 - Pipe Implementierungen Parsing / Preprocessing RDD[Tuple] Gold Standard CSV-Parser Regex-Removal Trim, etc. Analyse Recall Precision Anzahlen RDD[Tuple] Blocking Standard Blocking Sorted Neighbourhood Suffix Array Print Generic False Negatives False Positives RDD[SymPair[Tuple]] Similarity Lib: StringMetrics Write Clustering Result RDD[(SymPair[Tuple], Array[Double])] Decision Model RDD[SymPair[Tuple]] Threshold Machine Learning: Decision Tree SVM, Naive Bayes Lib: MLlib Optimise Cache / Persist Clustering Transitive Hülle Lib: GraphX 20

25 Vorläufiges Fazit Pro Framework skaliert (10 6 Tuple, 4,5 Min, 5 Knoten Cluster) Framework ist interaktiv nutzbar Modular und Erweiterbar durch Pipelines schlanker Entwicklungsworkflow dank Apache Spark (Test, Ausführung) Contra Spark Librarys (GraphX, MLlib) erschweren das Debuggen und Optimieren Scala IDE 21

26 Q &hopefullya 22

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015 Hadoop & Spark Carsten Herbe 8. CC-Partner Fachtagung 2015 29.04.2015 Daten & Fakten 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum 25 Jahre am Markt

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Spark das neue MapReduce?

Spark das neue MapReduce? Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Spark das neue MapReduce?

Spark das neue MapReduce? Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 7: Large-Scale Datenanalyse Dr. Anika Groß Sommersemester 2015 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Einführung Hadoop (und darauf aufbauende

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de

Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de Big Data Analytics: Herausforderungen und Systemansätze Prof. Dr. Erhard Rahm http://dbs.uni-leipzig.de 2 Massives Wachstum an Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg Review Freelancer-Workshop: Fit für Big Data Mittwoch, 29.04.2015 in Hamburg Am Mittwoch, den 29.04.2015, hatten wir von productive-data in Zusammenarbeit mit unserem langjährigen Partner Informatica zu

Mehr

Gerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2

Gerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2 Gerrit Thede Big and Fast Data - Verarbeitung von Streaming Data Grundlagen Vertiefung und Anwendungen 2 Fakultät Technik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer

Mehr

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Bachelorarbeit. Daniel Kirchner. Skalierbare Datenanalyse mit Apache Spark

Bachelorarbeit. Daniel Kirchner. Skalierbare Datenanalyse mit Apache Spark Bachelorarbeit Daniel Kirchner Skalierbare Datenanalyse mit Apache Spark Implementation einer Text-Mining-Anwendung und Testbetrieb auf einem Low-End-Cluster Fakultät Technik und Informatik Studiendepartment

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 6: Large-Scale Datenanalyse Lars Kolb Sommersemester 2014 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Einführung Hadoop (und darauf aufbauende

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Predictive Modeling Markup Language. Thomas Morandell

Predictive Modeling Markup Language. Thomas Morandell Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Datenanalyse mit Hadoop

Datenanalyse mit Hadoop Gideon Zenz Frankfurter Entwicklertag 2014 19.02.2014 Datenanalyse mit Hadoop Quelle: Apache Software Foundation Agenda Hadoop Intro Map/Reduce Parallelisierung des Datenflows Exkurs: M/R mit Java, Python,

Mehr

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN? HANS-JOACHIM EDERT WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT EBINAR@LUNCHTIME

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

Einführung in die Hadoop-Welt HDFS, MapReduce & Ökosystem. Big Data für Oracle Entwickler September 2014 Carsten Herbe

Einführung in die Hadoop-Welt HDFS, MapReduce & Ökosystem. Big Data für Oracle Entwickler September 2014 Carsten Herbe HDFS, MapReduce & Ökosystem Big Data für Oracle Entwickler September 2014 Carsten Herbe Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence

Mehr

MapReduce mit Hadoop 08.11.12 1

MapReduce mit Hadoop 08.11.12 1 MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Vorstellung IBM Cognos 10.2. Oliver Linder Client Technical Professional Business Analytics

Vorstellung IBM Cognos 10.2. Oliver Linder Client Technical Professional Business Analytics Vorstellung IBM Cognos 10.2 Oliver Linder Client Technical Professional Business Analytics Agenda IBM Cognos 10.2 Architektur User Interfaces IBM Cognos Workspace IBM Cognos Workspace Advanced IBM Cognos

Mehr

Algorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1

Algorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1 Algorithmen Consistent Hashing Bloom Filter MapReduce Distributed Hash Tables Einführung 1 Consistent Hashing Problem: Wie finde ich den Speicherort für ein Objekt in einem verteilten System mit n Knoten?

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

Hadoop-as-a-Service (HDaaS)

Hadoop-as-a-Service (HDaaS) Hadoop-as-a-Service (HDaaS) Flexible und skalierbare Referenzarchitektur Arnold Müller freier IT Mitarbeiter und Geschäftsführer Lena Frank Systems Engineer @ EMC Marius Lohr Systems Engineer @ EMC Fallbeispiel:

Mehr

Big Data - Datenquellen und Anwendungen

Big Data - Datenquellen und Anwendungen Big Data - Datenquellen und Anwendungen AW1 Präsentation Gerrit Thede Fakultät Technik und Informatik Department Informatik HAW Hamburg 18. November 2013 Outline 1 Einleitung 2 Datenquellen 3 Data Science

Mehr

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,

Mehr

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH Big Data Lösungen mit Apache Hadoop Gunnar Schröder, T-Systems Multimedia Solutions GmbH Was ist Big Data? 2 Charakteristiken von Big Data Three Vs of Big Data VOLUME Terabytes Petabytes Exabytes Zettabytes

Mehr

Managed Cloud Services

Managed Cloud Services Managed Cloud Services Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Cloud Services

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Step 0: Bestehende Analyse-Plattform

Step 0: Bestehende Analyse-Plattform Die Themen 09:30-09:45 Einführung in das Thema (Oracle) 09:45-10:15 Hadoop in a Nutshell (metafinanz) 10:15-10:45 Hadoop Ecosystem (metafinanz) 10:45-11:00 Pause 11:00-11:30 BigData Architektur-Szenarien

Mehr

HDInsight on Azure. Verteilte Datenanalyse mit Apache Hadoop Hans- Peter Grahsl, FH CAMPUS 02 @hpgrahsl on TwiDer. Willkommen beim #GWAB 2014!

HDInsight on Azure. Verteilte Datenanalyse mit Apache Hadoop Hans- Peter Grahsl, FH CAMPUS 02 @hpgrahsl on TwiDer. Willkommen beim #GWAB 2014! Willkommen beim #GWAB 2014! HDInsight on Azure Lokale Sponsoren: Verteilte Datenanalyse mit Apache Hadoop Hans- Peter Grahsl, FH CAMPUS 02 @hpgrahsl on TwiDer Einführung Was ist HDInsight? 100% auf Apache

Mehr

BIG DATA HYPE ODER CHANCE

BIG DATA HYPE ODER CHANCE BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu

Mehr

Textanalyse mit UIMA und Hadoop.!! Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014

Textanalyse mit UIMA und Hadoop.!! Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014 Textanalyse mit UIMA und Hadoop Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014 Über mich seit 2014: Big Data Scientist @ Inovex 2011-2013: TU Darmstadt, UKP Lab Etablierung der Hadoop-Infrastruktur Unterstützung

Mehr

Datenintegration für Big Data. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de

Datenintegration für Big Data. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de Datenintegration für Big Data Prof. Dr. Erhard Rahm http://dbs.uni-leipzig.de 1 2 Massives Wachstum an Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten weltweit wurden in den

Mehr

Persönlichkeiten bei bluehands

Persönlichkeiten bei bluehands Persönlichkeiten bei Technologien bei Skalierbare Anwendungen mit Windows Azure GmbH & co.mmunication KG am@.de; posts..de/am 1 2 3 4 5 6 7 8 9 Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit

Mehr

Cloud Computing mit mathematischen Anwendungen

Cloud Computing mit mathematischen Anwendungen Cloud Computing mit mathematischen Anwendungen Vorlesung SoSe 2009 Dr. Marcel Kunze Karlsruhe Institute of Technology (KIT) Steinbuch Centre for Computing (SCC) KIT the cooperation of Forschungszentrum

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Erweiterbare Architekturen

Erweiterbare Architekturen 1 Florian Deißenböck Erweiterbare Architekturen 23. September 2005 Architektenworkshop 2 Gliederung Hintergrund Persönliches, Software-Qualität, Wartbarkeit ConQATs Architektur Entwurf, Prototypen, Konfiguration

Mehr

Sprecher. Stephan Krauß Enterprise Portale E-Commerce. Dipl.-Phys. Johannes Knauf Business Analytics Data Science

Sprecher. Stephan Krauß Enterprise Portale E-Commerce. Dipl.-Phys. Johannes Knauf Business Analytics Data Science Sprecher Stephan Krauß Enterprise Portale E-Commerce T +49 (0)911 25 25 68 0 F +49 (0)911 25 25 68 68 info@ancud.de http://www.ancud.de Dipl.-Phys. Johannes Knauf Business Analytics Data Science T +49

Mehr

Seminar Map/Reduce Algorithms on Hadoop. Topics. Alex, Christoph

Seminar Map/Reduce Algorithms on Hadoop. Topics. Alex, Christoph Seminar Map/Reduce Algorithms on Hadoop Topics Alex, Christoph Organisatorisches Prioritisierte Liste mit allen vorgestellten Themen bis heute 23:59 an Alexander.Albrecht@hpi.uni-potsdam.de Vergabe der

Mehr

NoSQL für Anwendungen

NoSQL für Anwendungen NoSQL für Anwendungen Hochschule Mannheim Fakultät für Informatik Cluster Grid Computing Seminar SS 2012 Lemmy Tauer (729400) lemmy.coldlemonade.tauer@gmail.com NoSQL CAP / ACID / Kompromisse Key-Value

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Big Data. Hype oder Chance? Sebastian Kraubs

Big Data. Hype oder Chance? Sebastian Kraubs Big Data Hype oder Chance? Sebastian Kraubs Heute reden alle über Big Data Quellen: http://blogs.sybase.com/sybaseiq/2011/09/big-data-big-opportunity/ und McKinsey Studie 2011 Anwendungen Daten Technologien

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

Der Weg zum datengetriebenen Unternehmen

Der Weg zum datengetriebenen Unternehmen Der Weg zum datengetriebenen Unternehmen Big Data als Chance und Herausforderung mainit Keynote 25.9.2014 Alexander Kagoshima Alexander Kagoshima Data Scientist Big Data Trend Wachsende Daten 40.000 Quelle:

Mehr

MapReduce-Konzept. Thomas Findling, Thomas König

MapReduce-Konzept. Thomas Findling, Thomas König MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel

Mehr

Teamprojekt & Projekt

Teamprojekt & Projekt 18. Oktober 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Thomas Hordnung, Alexander Schätzle, Martin Przjyaciel-Zablocki dbis Studienordnung Master: 16 ECTS 480 Semesterstunden

Mehr

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel Carsten Herbe metafinanz Informationssysteme GmbH In unserer Business Line Business Intelligence & Risk gibt es fünf Bereiche: Risk,

Mehr

WEBINAR@LUNCHTIME THEMA: WAS MACHT EIGENTLICH EIN DATA SCIENTIST?" BERNADETTE FABITS

WEBINAR@LUNCHTIME THEMA: WAS MACHT EIGENTLICH EIN DATA SCIENTIST? BERNADETTE FABITS WEBINAR@LUNCHTIME THEMA: WAS MACHT EIGENTLICH EIN DATA SCIENTIST?" BERNADETTE FABITS HINEIN GEHÖRT DATA SCIENTIST, STATISTIKER, DATA MINER, ANALYST,. Gibt es noch mehr von denen. die arbeiten mit Big Data

Mehr

Hybride Cloud Datacenter

Hybride Cloud Datacenter Hybride Cloud Datacenter Enterprise und KMU Kunden Daniel Jossen Geschäftsführer (CEO) dipl. Ing. Informatik FH, MAS IT Network Amanox Solutions Dynamisches IT-Startup Unternehmen mit Sitz in Bern Mittlerweile

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013 Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien Berlin, Mai 2013 The unbelievable Machine Company? 06.05.13 The unbelievable Machine Company

Mehr

Low-Latency-Anwendungen mit Hadoop

Low-Latency-Anwendungen mit Hadoop Low-Latency-Anwendungen mit Hadoop TDWI-Konferenz 2014 München, 24. Juni 2014 Dr. Henrik Behrens Principal Big Data Analytics Business Unit DWH/BI & Big Data Henrik.Behrens@SHS-VIVEON.com Marcus Held Senior

Mehr

Java Forum Stuttgart 2013 Kai.Spichale@adesso.de twitter.com/kspichale spichale.blogspot.de

Java Forum Stuttgart 2013 Kai.Spichale@adesso.de twitter.com/kspichale spichale.blogspot.de NoSQL für Java-Entwickler Java Forum Stuttgart 2013 Kai.Spichale@adesso.de twitter.com/kspichale spichale.blogspot.de 23.06.2013 Agenda Datengröße Key-value Stores 1. Wide Column 2. Cassandra Document

Mehr

Revolution Analytics eine kommerzielle Erweiterung zu R

Revolution Analytics eine kommerzielle Erweiterung zu R Revolution Analytics eine kommerzielle Erweiterung zu R Webinar am 17.07.2014 F. Schuster (HMS) Dr. E. Nicklas (HMS) Von der Einzelplatzlösung zur strategischen Unternehmens- Software Zur Einführung Was

Mehr

collectd the statistics collection & monitoring daemon

collectd the statistics collection & monitoring daemon collectd the statistics collection & monitoring daemon Sebastian Harl / Linux User Schwabach LUG Camp Flensburg, 03. Mai 2008 Inhalt Was ist collectd? Architektur Implementierung

Mehr

Überblick. Einführung Graphentheorie

Überblick. Einführung Graphentheorie Überblick Einführung Graphentheorie Graph-Algorithmen mit Map Kurzeinführung Graphentheorie Algorithmus zum Finden von Cliquen Graphen bestehen aus Knoten (englisch: Node, Vertex, Mehrzahl Vertices) Kanten

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Vorbesprechung Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2015 Vorbesprechung, SS 2015 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source:

Mehr

Neuerungen im Enterprise Miner 5.2 & Text Miner 2.3

Neuerungen im Enterprise Miner 5.2 & Text Miner 2.3 Neuerungen im Enterprise Miner 5.2 & Text Miner 2.3 Copyright 2005, SAS Institute Inc. All rights reserved. Ulrich Reincke, SAS Deutschland Agenda Der Neue Enterprise Miner 5.2 Der Neue Text Miner 2.3

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden Neue Beziehungen finden...

Mehr

SQL PASS Treffen RG KA. Überblick Microsoft Power BI Tools. Stefan Kirner Karlsruhe, 27.05.2014

SQL PASS Treffen RG KA. Überblick Microsoft Power BI Tools. Stefan Kirner Karlsruhe, 27.05.2014 SQL PASS Treffen RG KA Überblick Microsoft Power BI Tools Stefan Kirner Karlsruhe, 27.05.2014 Agenda Die wichtigsten Neuerungen in SQL 2012 und Power BI http://office.microsoft.com/en-us/office365-sharepoint-online-enterprise-help/power-bi-for-office-365-overview-andlearning-ha104103581.aspx

Mehr

Bachelorarbeit. Birger Kamp. Stream Processing in einem Spark Cluster. Fakultät Technik und Informatik Studiendepartment Informatik

Bachelorarbeit. Birger Kamp. Stream Processing in einem Spark Cluster. Fakultät Technik und Informatik Studiendepartment Informatik Bachelorarbeit Birger Kamp Stream Processing in einem Spark Cluster Fakultät Technik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer Science Department of Computer Science

Mehr

EHCache und Terracotta. Jochen Wiedmann, Software AG

EHCache und Terracotta. Jochen Wiedmann, Software AG EH und Terracotta Jochen Wiedmann, Software AG Autor Perl-Contributor DBD::mySQL 2, DBI::Proxy, DBI::Shell, DBD::CSV, Net::Daemon, RPC::Pl(Client Server) (Autor) DBI (Developer) ASF-Member (Apache Software

Mehr

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution EXASOL @ Symposium on Scalable Analytics Skalierbare Analysen mit EXASolution EXASOL AG Wer sind wir R&D: + seit 2000 + laufend Forschungsprojekte Produkt: Analytische Datenbank EXASolution Focus auf Komplexität

Mehr

Ohne Build geht's besser: Makeloses Java mit dem z 2 -Environment. Henning Blohm 5.7.2012

Ohne Build geht's besser: Makeloses Java mit dem z 2 -Environment. Henning Blohm 5.7.2012 Ohne Build geht's besser: Makeloses Java mit dem z 2 -Environment Henning Blohm 5.7.2012 1 Z2 ist ein radikal neuer* Ansatz für System Life-Cycle Management in Java * jedenfalls für Java Ein Builtool?

Mehr

Das Interceptor Muster

Das Interceptor Muster Das Interceptor Muster Implementierung des Interceptor Musters basierend auf OSGi and Friends Benjamin Friedrich Hochschule für Technik und Wirtschaft des Saarlandes Praktische Informatik - Entwurfsmuster

Mehr

Buildfrei skalieren für Big Data mit Z2

Buildfrei skalieren für Big Data mit Z2 Buildfrei skalieren für Big Data mit Z2 Henning Blohm ZFabrik Software KG 5.6.2013 1 Teil 1: Buildfrei entwickeln und skalieren Teil 2: Big Data, Cloud, und wie es zusammenpasst 2 1. Teil BUILDFREI ENTWICKELN

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Big Data in der industriellen Praxis. Gunnar Fabritius Business Intelligence & Big Data Consulting T-Systems Multimedia Solutions

Big Data in der industriellen Praxis. Gunnar Fabritius Business Intelligence & Big Data Consulting T-Systems Multimedia Solutions Big Data in der industriellen Praxis Gunnar Fabritius Business Intelligence & Big Data Consulting T-Systems Multimedia Solutions Über T-Systems Multimedia Solutions Wir begleiten Großkonzerne und mittelständische

Mehr

SQL SERVER 2005 IM VERGLEICH ZU ORACLE 10G. Alexander Bittner, 07MIM Datenbanken II HTWK Leipzig, FbIMN

SQL SERVER 2005 IM VERGLEICH ZU ORACLE 10G. Alexander Bittner, 07MIM Datenbanken II HTWK Leipzig, FbIMN SQL SERVER 2005 IM VERGLEICH ZU ORACLE 10G Alexander Bittner, 07MIM Datenbanken II HTWK Leipzig, FbIMN Gliederung Rechnerarchitekturen Datenspeicherung Verbindungen / Instanzen SQL Standards Nebenläufigkeit

Mehr

Verteilte Systeme. Map Reduce. Secure Identity Research Group

Verteilte Systeme. Map Reduce. Secure Identity Research Group Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

Information Integration in Zeiten von BigData mit IBM Information Server 9.1. Christian Lenke IBM Software Group InfoSphere Specialist

Information Integration in Zeiten von BigData mit IBM Information Server 9.1. Christian Lenke IBM Software Group InfoSphere Specialist Information Integration in Zeiten von BigData mit IBM Information Server 9.1 Christian Lenke IBM Software Group InfoSphere Specialist Trusted Data Bereitstellung zuverlässiger Informationen transaktionale

Mehr

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering 11.12.2012 Vortrag zum Paper Results of the Active Learning Challenge von Isabelle

Mehr