Cloud Data Management

Größe: px
Ab Seite anzeigen:

Download "Cloud Data Management"

Transkript

1 Cloud Data Management Kapitel 7: Large-Scale Datenanalyse Dr. Anika Groß Wintersemester 2016 Universität Leipzig Institut für Informatik 1

2 Einführung Hadoop (und darauf aufbauende Frameworks) Einfache Parallelisierung von Berechnungen in Cluster-Umgebungen Fehlertoleranz Frei verfügbar Große Community Viele Optimierungsansätze aus Forschung ( letztes Kapitel) Design-Schwächen SPOF, begrenzte horizontale Skalierbarkeit ( Hadoop 2.x.x) Nicht optimal für alle Anwendungsfälle Iterative Anwendungen z.b. maschinelle Lernverfahren ( Spark) Echtzeit-Anwendungen Ad-hoc Aggregation großer Datenmengen ( Dremel) 2

3 Inhaltsverzeichnis Apache Spark Parallele In-memory Datenanalyse in Cloud-Umgebungen Google Dremel Hierarchisches, spaltenorientiertes Echtzeit-Anfragesystem zur Aggregation verteilter, geschachtelter Datensätze 3

4 Apache Spark: Motivation MapReduce ist ungeeignet für iterative und interaktive Anwendungen Materialisierung von Map-Ergebnissen im lokalen FS Materialisierung und Replikation von Reduce-Ergebnissen im HDFS Quelle: [Spark2] Ansatz: Caching im Hauptspeicher Eine Größenordnung schneller als Externspeicherzugriff 95% aller Anfragen an Facebooks Hive Cluster könnten komplett aus HS beantwortet werden [Spark] Quelle: [Spark2] 4

5 Apache Spark: Übersicht Ursprünglich Forschungsprojekt der UC Berkely zur parallelen Analyse großer Datenmengen in Cluster-Umgebungen [Spark] Apache Top Level-Projekt (seit ) Auf Datensätze eines Datasets können verschiedene Funktionen (höherer Ordnung) angewendet werden Erzeugen neues Dataset map, flatmap, filter, groupbykey, reducebykey, join, cogroup, mapvalues, partition, In-memory Caching von Datasets für effiziente Multi-pass-Operationen Iterative Algorithmen (Machine Learning, PageRank, K-means, ) Interaktive Datenanalyse (z.b. SQL) Fehlertoleranz Keine Replikation gecacheter Daten sondern Neuberechnung verlorener Partitionen 5

6 Spark Überblick + SparkR (R on Spark) Bildquelle: APIs: Scala, Java, Python, R (Lambda-Ausdrücke) Run Spark: Standalone Mode / on YARN / on Mesos 6

7 Apache Spark: Resilient Distributed Datasets Verteilte Kollektion von Datensätzen Read-only Generiert durch Anwendung bestimmter Transformationen auf Basisdatenquelle (HDFS) oder Existierendem RDD Nutzer kann RDDs im Hauptspeicher der Worker-Nodes cachen Erlaubt Wiederverwendung in späteren Operationen Ausschreiben auf Sekundärspeicher bei HS-Mangel Lineage-Information RDD kennt seine Vater-RDDs sowie die Berechnungsvorschrift, mit welcher es aus diesen abgeleitet wurde Verlorene Partitionen können bei Bedarf neuberechnet werden 7

8 Apache Spark: Beispiel (1) In Scala: val sc = new SparkContext( spark://..., MyJob, home, jars) Resilient distributed datasets (RDDs) val file = sc.textfile( hdfs://... ) val errors = file.filter(_.contains( ERROR )) errors.cache() errors.count() Action Quelle: [Spark3] 8

9 Apache Spark: Beispiel (2) Zeitstempel (=vierte Spalte) der Log-Einträge die mit ERROR starten und HDFS enthalten 9

10 Apache Spark: Transformationen & Aktionen Beispiele: pets = sc.parallelize([(cat, 1), (dog, 1), (cat, 2)]) => [(cat,1), (dog,1), (cat,2)] //verteilt pets.sortbykey().collect() => [(cat,1), (cat,2), (dog,1)] pets.groupbykey().collect() => [(cat,[1,2]), (dog,[1])] pets.reducebykey(f(x,y)=x+y).collect(); => [(cat,3), (dog,1)] pets.mapvalues(f(x)=x+1).collect() => [(cat,2), (dog,2), (cat,3)] 10 Quelle: [Spark]

11 Apache Spark: K-means Clustering Analog zu Beispiel aus Kapitel 4 S.24/25 Lokale Ausführung 11

12 Apache Spark: K-means Clustering (2) 12

13 Apache Spark: Architektur BlockManager Write-once Key-Value Store pro Worker Caching von RDDs Bereitstellen eines Shuffle-Services Verwalten eines StorageLevels pro Block Externspeicher, RAM Auslagern gecacheter Daten auf Externspeicher 13 bei HS-Mangel Quelle: [Spark3]

14 Apache Spark: Scheduling DAGScheduler: Kind-Partition hängt von einer konst. Anzahl von Partitionen der Vater-RDDs ab Pipelining mehrerer Transformationen in 1 Task Shuffle-Operationen markieren Stage-Grenzen Parallele Ausführung der Tasks eines Stages Keine Neuberechnung von Stages, deren Ergebnis bereits im Cache vorliegt (Stage 1) TaskScheduler Berücksichtigen Datenlokalität (Cache, HDFS Blöcke) Task-Failure Neuberechnung auf anderen Knoten solange abhängige Partitionen verfügbar sind sonst: parallele RDD-Recovery 14

15 Apache Spark: RDD Recovery Lineage-Information eines RDDs Menge von Partitionen (z.b. HDFS Blöcke, Reduce-Tasks, ) Menge von Abhängigkeiten zu Vater-RDDs Funktion um eine Partition ausgehend von Vater-RDD zu berechnen Bevorzugte Knoten zur Berechnung einer Partition (HDFS block location, Knoten welcher Partition eines RDDs cached, shuffle on each parent, ) Information über Partitionierung Fehlertoleranz für Shuffle-Transformationen Join, groupbykey, reducebykey, Pufferung der Zwischenergebnisse im Haupt- bzw. Externspeicher der Erzeuger 15 Quelle: [Spark2]

16 Apache Spark: Evaluation [Spark] Logistic Regression (1Mrd Punkte, 100GB) K-Means (1Mrd. Punkte, 100GB, 10 Cluster) Knoten

17 Inhaltsverzeichnis Apache Spark Parallele In-memory Datenanalyse in Cloud-Umgebungen Google Dremel Hierarchisches, spaltenorientiertes Echtzeit-Anfragesystem zur Aggregation verteilter, geschachtelter Datensätze 17

18 Google Dremel Skalierbares System für verteilte Ausführung von Leseanfragen auf riesigen Mengen geschachtelter Daten Effizientere Bearbeitung im Vgl. zur Ausführung einer Menge von MapReduce Jobs Building Blocks Spaltenbasierte Speicherung geschachtelter Datensätze SQL-ähnliche Anfragesprache Multi-level execution trees Open Source-Implementierung: Apache Drill Quellen für die folgenden Folien: [Dremel1], [Dremel2] 18

19 Google Dremel : Datenmodell Attribute können Werte sein oder ein bis mehrere Unterattribute haben Pflichtattribute sein [1,1] required optional sein [0,1] optional wiederholt auftreten (Reihenfolge relevant) [0,*] repeated A A B B E:e 1 E:e 2 E:e 3 C:c 1 D:d 1 D:d 2 C:c 2 D:d 3 D:d 4 A.B.C=c 1 A.B.C=c 2 A.B.D=d 1 A.B.D=d 2 record-oriented A.B.D=d 3 A.B.D=d 4 19 vs. column-oriented A.E=e 1 A.E=e 2 A.E=e 3 - Bei Projektion Lesen weniger Daten - Bessere (De)kompressionseigenschaften

20 Google Dremel : Spaltenbasierte Zerlegung Sequentielle Speicherung aller Werte eines Attributes Zusätzliche Information (r,d) für jeden Wert um Datensätze rekonstruieren zu können r 2 r 1 Repetition level r: At what repeated field in the field's path the value has repeated Anzahl repeated fields im Pfadpräfix, der mit Vorgänger übereinstimmt (inkl. Element, das Record identifiziert) r 1.Name 1.Language 1.Code: en-us (r=0) r 1.Name 1.Language 2.Code: en (r=2) r 1.Name 2 (r=1) r 1.Name 3.Language 1.Code: en-gb (r=1) r 20 2.Name 1 (r=0) Definition level d: How many fields in paths that could be undefined are actually present Anzahl optionaler und repeated fields im Pfad (ohne Element, das Record identifiziert): r 1.Links.Forward 2 : 40 (d=2) NULL: wenn d kleiner als max. mögliche Anzahl optionaler und repeated fields im Pfad

21 Google Dremel : Rekonstruktion Notwendig für Interoperabilität mit satzorientierten Tools (z.b. MapReduce) Gegeben: Teilmenge der benötigten Attribute Gesucht: Ausgangsdatensätze mit originaler Schachtelung und Reihenfolge (nicht benötigte Attribute fallen weg) Endlicher Automat (Finite State Machine) Zustand entspricht einem Field Reader für entsprechendes Attribut Bei Übergang in einen Zustand liest der Field Reader den nächsten Wert und fügt diesen zum aktuellem Datensatz hinzu Anschließend wird r des darauffolgenden Wertes gelesen Entspricht Zustandsübergang 21

22 Google Dremel : Rekonstruktion (2) Wird nur eine Teilmenge der Attribute benötigt, kann ein einfacherer Automat konstruiert/verwendet werden 22

23 Google Dremel : SQL-ähnliche Anfragesprache Optimiert für select-project-aggregate auf einer Tabelle Single scan Intra-Record und Inter-Record Aggregation 23

24 Google Dremel: Anfrageausführung Serving Tree Hierarchische Anfrageausführung Jeder Knoten schreibt Anfrage in Menge von Teilanfragen um und aggregiert die resultierenden Teilergebnisse Blattknoten kommunizieren mit Storage Layer Fehlertoleranz durch Mehrfachvergabe einer Teilanfrage 24

25 Google Dremel: Evaluierung SELECT SUM(CountWords(field)) / COUNT(*) FROM T1 T1: 85 Mrd. Datensätze / 87 TB Zugriff nur auf ein Attribut MR Overhead Starten des/der Job/s Task Scheduling Lesen vollständiger Datensätze execution time (sec) on 3000 nodes (87 TB) (0.5 TB) Tiefe der Serving Tree-Topologie Q2: SELECT country, SUM(item.amount) FROM T2 GROUP BY country Q3: SELECT domain, SUM(item.amount) FROM T2 WHERE domain CONTAINS.net GROUP BY domain T2: 24 Mrd. Datensätze/ 13TB 25 (60GB, 100s of records) (180GB, 1.1 Mio records)

26 Zusammenfassung Apache Spark Parallele, fehlertolerante Datenanalyse mit In-memory Caching von Datensätzen Ausführungsumgebung für Erweiterungen Spark SQL Graph-Analyse - GraphX Machine Learning - MLlib Analyse auf kontinuierlichen Datenströmen: Spark Streaming R on Spark - SparkR Google Dremel Spaltenorientierte Speicherung geschachtelter Daten Interaktive Analyse von read-only Daten Scan & Aggregate (auf Teilmenge der Spalten) Hierarchische Anfragebearbeitung: Multi-level aggregation tree 26

27 Quellen & Literatur [Spark] Zaharia et. al.: Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In- Memory Cluster Computing. NSDI 2012 [Spark2]: [Spark3]: [Dremel1] Melnik et. al.: Dremel: Interactive Analysis of Web-Scale Datasets. Commun. ACM 2011 [Dremel2] 27

Schneller als Hadoop?

Schneller als Hadoop? Schneller als Hadoop? Einführung in Spark Cluster Computing 19.11.2013 Dirk Reinemann 1 Agenda 1. Einführung 2. Motivation 3. Infrastruktur 4. Performance 5. Ausblick 19.11.2013 Dirk Reinemann 2 EINFÜHRUNG

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 6: Large-Scale Datenanalyse Lars Kolb Sommersemester 2014 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Einführung Hadoop (und darauf aufbauende

Mehr

Fast Analytics on Fast Data

Fast Analytics on Fast Data Fast Analytics on Fast Data Kudu als Storage Layer für Banking Applikationen Problem Klassischer Kreditprozess Beantragung in der Filiale Aufwendiger Prozess Nachweis durch Dokumente Manuelle Bewilligung

Mehr

Schneller als Hadoop? Einführung in Spark Cluster Computing

Schneller als Hadoop? Einführung in Spark Cluster Computing Schneller als Hadoop? Einführung in Spark Cluster Computing Dirk Reinemann Oracle Deutschland B.V. & Co. KG Potsdam Schlüsselworte Big Data, Cluster Computing, Spark, Shark, Resilient Distributed Datasets,

Mehr

Big and Fast Data - Verarbeitung von Streaming Data

Big and Fast Data - Verarbeitung von Streaming Data Big and Fast Data - Verarbeitung von Streaming Data AW2 Präsentation Gerrit Thede Fakultät Technik und Informatik Department Informatik HAW Hamburg 17. April 2014 Outline 1 Einleitung 2 Incoop: MapReduce

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Big Data: Apache Hadoop Grundlagen

Big Data: Apache Hadoop Grundlagen Seminarunterlage Version: 1.07 Version 1.07 vom 5. September 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

PL/SQL vs. Spark Umsteigertipps für's DWH

PL/SQL vs. Spark Umsteigertipps für's DWH PL/SQL vs. Spark Umsteigertipps für's DWH Christopher Thomsen Hamburg Jens Bleiholder Berlin Schlüsselworte Big Data, Spark, PL/SQL, SQL, ETL, Hadoop, DWH Einleitung Mit Hadoop 2.0 öffnete sich die Big

Mehr

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Herzlich Willkommen bei Webinar@Lunchtime Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Xing-Profil:

Mehr

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

Big Data Technologien

Big Data Technologien Big Data Technologien - Ein Überblick - Prof. Dr. Jens Albrecht jens.albrecht@th-nuernberg.de Big Data Landscape 2016 Prof. Dr. Jens Albrecht Big Data 3 Systemarchitektur im Wandel Gestern und heute Strukturierte

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

Skalierbare Webanwendungen

Skalierbare Webanwendungen Skalierbare Webanwendungen Thomas Bachmann Lead Software Architect & CIO Mambu GmbH Twitter: @thobach Anwendungsbeispiel Hohe Nichtfunktionale Anforderungen Sicherheit Vertraulichkeit Integrität Verfügbarkeit

Mehr

MapReduce. Jens Dörre. Universität Passau Projekt MAPREDUCEFOUNDATION. Funktionale Programmierung

MapReduce. Jens Dörre. Universität Passau Projekt MAPREDUCEFOUNDATION. Funktionale Programmierung MapReduce Jens Dörre Universität Passau Projekt MAPREDUCEFOUNDATION Funktionale Programmierung Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 1 / 25 Gliederung 1 MapReduce allgemein 2 MapReduce

Mehr

Big Data. Professional IT Master. Prof. Dr. Ingo Claßen. Überblick. Verarbeitungsmodell. Verarbeitungsablauf. Verteilte Daten. Ressourcenmanagement

Big Data. Professional IT Master. Prof. Dr. Ingo Claßen. Überblick. Verarbeitungsmodell. Verarbeitungsablauf. Verteilte Daten. Ressourcenmanagement Big Data Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Überblick Verarbeitungsmodell Verarbeitungsablauf Verteilte Daten Ressourcenmanagement Koordination Überblick

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

1 Einführung Ziele der Vorlesung Die Idee Lernkarte Selbsttest-Frage 3 Literaturhinweise 3

1 Einführung Ziele der Vorlesung Die Idee Lernkarte Selbsttest-Frage 3 Literaturhinweise 3 1 Einführung 1 1.1 Ziele der Vorlesung 1 1.2 Die Idee 1 1.3 Lernkarte 2 1.4 Selbsttest-Frage 3 Literaturhinweise 3 Teilt Die Zukunft von Enterprise-Computing 5 2 Neue Anforderungen an Enterprise Computing

Mehr

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015 Hadoop & Spark Carsten Herbe 8. CC-Partner Fachtagung 2015 29.04.2015 Daten & Fakten 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum 25 Jahre am Markt

Mehr

Big Data in der Praxis

Big Data in der Praxis Jonas Freiknecht Big Data in der Praxis Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren HANSER Vorwort XI 1 Einleitung 1 2 Big-Data 7 2.1 Historische Entstehung 8 2.2 Big-Data

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

TensorFlow Open-Source Bibliothek für maschinelles Lernen. Matthias Täschner Seminar Deep Learning WS1718 Abteilung Datenbanken Universität Leipzig

TensorFlow Open-Source Bibliothek für maschinelles Lernen. Matthias Täschner Seminar Deep Learning WS1718 Abteilung Datenbanken Universität Leipzig TensorFlow Open-Source Bibliothek für maschinelles Lernen Seminar Deep Learning WS1718 Abteilung Datenbanken Universität Leipzig Motivation Renaissance bei ML und KNN Forschung bei DNN fortgeschrittene

Mehr

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce. c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce. c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1 Überblick Verarbeitung großer Datenmengen Motivation MapReduce c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele) Indexierung des World

Mehr

MapReduce: Simplified Data Processing on Large Clusters

MapReduce: Simplified Data Processing on Large Clusters MapReduce: Simplified Data Processing on Large Clusters Hardware-Software-Co-Design Universität Erlangen-Nürnberg Tobias.Schwarzer@e-technik.stud.uni-erlangen.de Michael.Theil@mathe.stud.uni-erlangen.de

Mehr

BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY

BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY 08.03.2017 REWE Systems GmbH Jonas Freiknecht inovex GmbH Bernhard Schäfer AGENDA 1 / Vorstellung REWE Systems GmbH und inovex

Mehr

!"#$"%&'()*$+()',!-+.'/',

!#$%&'()*$+()',!-+.'/', Soziotechnische Informationssysteme 5. Facebook, Google+ u.ä. Inhalte Historisches Relevanz Relevante Technologien Anwendungsarchitekturen 4(5,12316,7'.'0,!.80/6,9*$:'0+$.;.,&0$'0, 3, Historisches Facebook

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark. c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark. c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1 Überblick Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele) Indexierung

Mehr

Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19

Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 7: Advertising on the Web Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 7-1 7-2 Data Mining Übersicht Hochdimension.

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Jürgen Vester Oracle Deutschland B.V. & Co KG Um was geht es bei Big Data? Bei Big Data sprechen wir eine Klasse von Daten an, die in der

Mehr

Cloud Data Management Kapitel 4: MapReduce(Teil3)

Cloud Data Management Kapitel 4: MapReduce(Teil3) Cloud Data Management Kapitel 4: MapReduce(Teil3) Dr. Eric Peukert Wintersemester 2017 Universität Leipzig, Institut für Informatik http://dbs.uni-leipzig.de Inhaltsverzeichnis MapReduce MapReduce-Umsetzung

Mehr

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Wir unternehmen IT. Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Karlsruhe, 30.09.2015 $id thgreiner Thorsten Greiner Teamleiter Software Development ConSol* Software GmbH, Düsseldorf

Mehr

Data Cubes PG Wissensmangement Seminarphase

Data Cubes PG Wissensmangement Seminarphase PG 402 - Wissensmangement Seminarphase 23.10.2001-25.10.2001 Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund Übersicht 1. Einführung 2. Aggregation in SQL, GROUP BY 3. Probleme mit

Mehr

!! Waldemar Reger Köln,

!! Waldemar Reger Köln, Analyse und Evaluierung von Parameterabhängigkeiten anhand der Laufzeit von MapReduce-Jobs zur Konzeptionierung von Hadoop-Clustern Waldemar Reger Köln, 23.07.2014 Agenda 1. Hadoop Grundlagen 2. Cluster

Mehr

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten

Mehr

Informationssysteme für Ingenieure

Informationssysteme für Ingenieure Informationssysteme für Ingenieure Vorlesung Herbstsemester 2016 Überblick und Organisation R. Marti Organisation Web Site: http://isi.inf.ethz.ch Dozent: Robert Marti, martir ethz.ch Assistenz:??

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

Large-scale Incremental Processing Using Distributed Transactions and Notifications

Large-scale Incremental Processing Using Distributed Transactions and Notifications Percolator Large-scale Incremental Processing Using Distributed Transactions and Notifications Daniel Peng and Frank Dabek 1 Ausgangslage 10 12 10 16 10 9 Webseiten Byte Daten Updates/Tag 2 MapReduce Batch-Job

Mehr

Berechnung von Kennzahlen mit der SQL Model Clause

Berechnung von Kennzahlen mit der SQL Model Clause Berechnung von Kennzahlen mit der Thomas Mauch 12.07.2018 DOAG BASEL BERN LAUSANNE ZÜRICH DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. HAMBURG MÜNCHEN STUTTGART WIEN 1 AGENDA 1. Einführung 2. Syntax 3. Performance

Mehr

Exadata und In-Memory Datenbewirtschaftung und Analyse Extrem mit Exadata und InMemory (Erfahrungsbericht)

Exadata und In-Memory Datenbewirtschaftung und Analyse Extrem mit Exadata und InMemory (Erfahrungsbericht) Exadata und In-Memory Datenbewirtschaftung und Analyse Extrem mit Exadata und InMemory (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team Inhalt Thematik (Einordnung

Mehr

NoSQL Datenbanken am Beispiel von HBase. Daniel Georg

NoSQL Datenbanken am Beispiel von HBase. Daniel Georg NoSQL Datenbanken am Beispiel von HBase Daniel Georg No to SQL at all sondern Not only SQL Open- Source Community Erst im Jahr 2009 gestartet Community bietet verschiede Lösungen: Casandra, CouchDD, HBase,

Mehr

Nutzung der Scientific Computing Cluster. Lars-Peter Meyer

Nutzung der Scientific Computing Cluster. Lars-Peter Meyer Nutzung der Scientific Computing Cluster Lars-Peter Meyer Cluster Hardware Galaxy (shared nothing) 90 Worker mit jeweils 2 Cores (2x6 Cores, Intel Haswell E5 2620v3 @2,4 GHz) 28 GByte DDR4 ECC RAM RAM

Mehr

Überblick und Vergleich von NoSQL. Datenbanksystemen

Überblick und Vergleich von NoSQL. Datenbanksystemen Fakultät Informatik Hauptseminar Technische Informationssysteme Überblick und Vergleich von NoSQL Christian Oelsner Dresden, 20. Mai 2011 1 1. Einführung 2. Historisches & Definition 3. Kategorien von

Mehr

Cloud Data Management Kapitel 7: Big Data Streaming -Apache Flink- (Teil 2)

Cloud Data Management Kapitel 7: Big Data Streaming -Apache Flink- (Teil 2) Cloud Data Management Kapitel 7: Big Data Streaming -Apache Flink- (Teil 2) Dr. Eric Peukert Wintersemester 2017 Universität Leipzig, Institut für Informatik http://dbs.uni-leipzig.de Spark - Streaming

Mehr

Neues aus der nicht-, semi- und relationalen Welt

Neues aus der nicht-, semi- und relationalen Welt Neues aus der nicht-, semi- und relationalen Welt Information Management Thomas Klughardt Senior System Consultant Das Big Data Problem Was bedeutet Big Data? Performancekritisch Echtzeit Cold Storage

Mehr

Big Data Konnektoren: Hadoop und die Oracle DB

Big Data Konnektoren: Hadoop und die Oracle DB Big Data Konnektoren: Hadoop und die Oracle DB Philipp Loer ORDIX AG, Paderborn Schlüsselwörter Hadoop, Hive, OLH, OSCH Einleitung Der Vortrag beginnt mit einer Einführung in die Big Data Welt mit Apache

Mehr

BIG UNIVERSITÄTSRECHENZENTRUM

BIG UNIVERSITÄTSRECHENZENTRUM UNIVERSITÄTS RECHENZENTRUM LEIPZIG BIG DATA @ UNIVERSITÄTSRECHENZENTRUM Forschung und Entwicklung Entwicklung eines E-Science-Angebots für die Forschenden an der Universität Leipzig Stefan Kühne Axel Ngonga

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

volume velocity variety cost-effective innovative enhanced insight and decision making

volume velocity variety cost-effective innovative enhanced insight and decision making BIG DATA Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making. -- Gartner

Mehr

MapReduce. Julia Bergbauer - Ferienakademie 2009

MapReduce. Julia Bergbauer - Ferienakademie 2009 1 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 2 1) Grundlegendes = von Google eingeführtes Framework Ausnutzen der MulticoreProzessoren

Mehr

Abgabe am

Abgabe am Anwendungsspezifische proaktive Behandlung von Prozessen im Bereich Big Data Im Rahmen des Grundseminars im Studiengang Master Informatik am Department Informatik der Fakultät Technik und Informatik der

Mehr

Laptop A location aware peer-to-peer overlay network

Laptop A location aware peer-to-peer overlay network Laptop A location aware peer-to-peer overlay network Chi-Jen Wu, De-Kai Liu and Ren-Hung Hwang Seminar peer-to-peer Netzwerke Prof. Dr. Christian Schindelhauer 29. Juli 2009 Überblick Was ist Laptop? Aufbau

Mehr

Einleitung Big Data... Hadoop...

Einleitung Big Data... Hadoop... 1 Einleitung 1 2 Big Data... 7 2.1 Historische Entstehung... 9 2.2 Big Data - ein passender Begriff?... 10 2.2.1 Die drei V... 11 2.2.2 Weitere V s... 14 2.2.3 Der Verarbeitungsaufwand ist big... 14 2.2.4

Mehr

OO Programmiersprache vs relationales Model. DBIS/Dr. Karsten Tolle

OO Programmiersprache vs relationales Model. DBIS/Dr. Karsten Tolle OO Programmiersprache vs relationales Model Vorgehen bisher Erstellen eines ER-Diagramms Übersetzen in das relationale Datenmodell Zugriff auf das relationale Datenmodell aus z.b. Java ER rel. Modell OO

Mehr

Inhaltsverzeichnis. Teil I Die Zukunft von Enterprise-Computing... 1 I I 2 3 3

Inhaltsverzeichnis. Teil I Die Zukunft von Enterprise-Computing... 1 I I 2 3 3 Inhaltsverzeichnis 1 Einführung... 1.1 Ziele der Vorlesung. 1.2 Die Idee 1.3 Lemkarte... 1.4 Selbsttest-Frage. Literaturhinweise.. 1 I I 2 3 3 Teil I Die Zukunft von Enterprise-Computing... 2 Neue Anforderungen

Mehr

Big Data Management Thema 14: Cassandra

Big Data Management Thema 14: Cassandra Thema 14: Cassandra Jan Kristof Nidzwetzki Thema 14: Cassandra 1 / 25 Übersicht 1 Grundlagen Überblick Geschichte Datenmodel 2 Architektur Der logische Ring Persistenz der Daten Tunable Consistency Read

Mehr

Big Data im Retail-Sektor am Beispiel Kassenbondaten

Big Data im Retail-Sektor am Beispiel Kassenbondaten Big Data im Retail-Sektor am Beispiel Kassenbondaten REWE Systems GmbH Jonas Freiknecht inovex GmbH Bernhard Schäfer Business Analytics Day, 08.03.2017 AGENDA 1. Vorstellung REWE Systems GmbH und inovex

Mehr

Analytic im Einsatz! Betrugserkennung auf Basis von Big Data. Karol Sobiech

Analytic im Einsatz! Betrugserkennung auf Basis von Big Data. Karol Sobiech Analytic im Einsatz! Betrugserkennung auf Basis von Big Data Karol Sobiech 2 ACCENTURE GLOBAL DELIVERY NETWORK 3 4 AGENDA 1 MOTIVATION & ZIEL 2 METHODEN FRAUD MANAGEMENT SYSTEM 4 ARCHITEKTUR & TOOLS 3

Mehr

Überblick. Multi-Cloud Computing Motivation Redundant Array of Cloud Storage (RACS) c td MWCC (WS16/17) Multi-Cloud Computing 13 1

Überblick. Multi-Cloud Computing Motivation Redundant Array of Cloud Storage (RACS) c td MWCC (WS16/17) Multi-Cloud Computing 13 1 Überblick Multi-Cloud Computing Motivation Redundant Array of Cloud Storage (RACS) c td MWCC (WS16/17) Multi-Cloud Computing 13 1 Vendor Lock-In -Problem Typische Vorgehensweise bei der Migration eines

Mehr

Big Data Anwendungen Chancen und Risiken

Big Data Anwendungen Chancen und Risiken Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data

Mehr

Charakteristika von Unternehmensanwendungen

Charakteristika von Unternehmensanwendungen Charakteristika von Unternehmensanwendungen Wozu werden Unternehmensanwendungen genutzt? Enterprise applications are about the display, manipulation, and storage of large amounts of often complex data

Mehr

A Big Data Change Detection System. Carsten Lanquillon und Sigurd Schacht

A Big Data Change Detection System. Carsten Lanquillon und Sigurd Schacht A Big Data Change Detection System Carsten Lanquillon und Sigurd Schacht Digitale Transformation in Unternehmen u Umfassende Erfassung, Speicherung und Verfügbarkeit von Daten à Big Data Quelle: Rolland

Mehr

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,

Mehr

HANA Solution Manager als Einstieg

HANA Solution Manager als Einstieg Markus Stockhausen HANA Solution Manager als Einstieg Collogia Solution Day Hamburg 28.04.2016 Agenda HANA Solution Manager als Einstieg 1 Überblick 2 Techniken 3 Sizing Collogia Unternehmensberatung AG,

Mehr

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken 12. NoSQL Inhalt 12.1 NoSQL? 12.2 MapReduce & Co 12.3 Key-Value Stores 12.4 Extensible Record Stores 12.5 Dokumentorientierte Datenbanken 12.6 Graphdatenbanken 2 12.1 NoSQL? Relationale Datenbanksysteme

Mehr

RavenDB, schnell und skalierbar

RavenDB, schnell und skalierbar RavenDB, schnell und skalierbar Big Data & NoSQL, Aydin Mir Mohammadi bluehands GmbH & Co.mmunication KG am@bluehands.de Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit Skalierung http://www.flickr.com/photos/39901968@n04/4864698533/

Mehr

Data Pipelines mit zentralem Kosmos Kafka. Markus Bente

Data Pipelines mit zentralem Kosmos Kafka. Markus Bente Data Pipelines mit zentralem Kosmos Kafka Markus Bente @trivadis doag2018 Mit über 650 IT- und Fachexperten bei Ihnen vor Ort. 16 Trivadis Niederlassungen mit über 650 Mitarbeitenden. Erfahrung aus mehr

Mehr

Dynamische Datenstrukturen

Dynamische Datenstrukturen Dynamische Datenstrukturen B-Bäume größere Datenmengen verwalten Extern speichern Art der Speicherung berücksichtigen sonst kein optimaler Datenzugriff möglich Art der Speicherung großer Datenmengen Magnetplatten

Mehr

Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten. von Florian Eiteljörge

Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten. von Florian Eiteljörge Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten von Florian Eiteljörge 1. Was ist Bigtable? 2. Datenmodell Übersicht 3. Implementierung/Architektur von Bigtable 4. Vergleich mit

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database

SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database Carsten Czarski Oracle Deutschland B.V. & Co KG Agenda NoSQL: Was ist das und wozu ist das gut? Anwendungsbereiche für NoSQL-Technologien,

Mehr

NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE

NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE Was bedeutet NoSQL? Ein Sammelbegriff für alternative Datenbanklösungen, die

Mehr

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution EXASOL @ Symposium on Scalable Analytics Skalierbare Analysen mit EXASolution EXASOL AG Wer sind wir R&D: + seit 2000 + laufend Forschungsprojekte Produkt: Analytische Datenbank EXASolution Focus auf Komplexität

Mehr

ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover

ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover Schlüsselworte Oracle Data Integrator ODI, Big Data, Hadoop, MapReduce,, HDFS, PIG,

Mehr

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken 7. NoSQL Inhalt 12.1 NoSQL? 12.2 MapReduce & Co 12.3 Key-Value Stores 12.4 Extensible Record Stores 12.5 Dokumentorientierte Datenbanken 12.6 Graphdatenbanken 2 12.1 NoSQL? Relationale Datenbanksysteme

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014

Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014 Überblick Hadoop Einführung HDFS und MapReduce DOAG Regionaltreffen München/Südbayern Februar 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business

Mehr

Überraschend mehr Möglichkeiten. Lambda-Architektur in der Praxis. Das wichtigste Architektur-Konzept für Big Data am konkreten Beispiel.

Überraschend mehr Möglichkeiten. Lambda-Architektur in der Praxis. Das wichtigste Architektur-Konzept für Big Data am konkreten Beispiel. Überraschend mehr Möglichkeiten Lambda-Architektur in der Praxis Das wichtigste Architektur-Konzept für Big Data am konkreten Beispiel Whitepaper OPITZ CONSULTING Deutschland GmbH 2017 WHITEPAPER Lambda-Architektur

Mehr

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied

Mehr

Spark das neue MapReduce?

Spark das neue MapReduce? Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche

Mehr

Vorlesung Wissensentdeckung in Datenbanken

Vorlesung Wissensentdeckung in Datenbanken Vorlesung Wissensentdeckung in Datenbanken Data Cube Katharina Morik, Uwe Ligges Informatik LS 8 22.04.2010 1 von 26 Gliederung 1 Einführung 2 Aggregation in SQL, GROUP BY 3 Probleme mit GROUP BY 4 Der

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. Blatt Nr. 07 Übung zur Vorlesung Einsatz und Realisierung von Datenbanksystemen im SoSe16 Moritz Kaufmann

Mehr

Grundlagen der Künstlichen Intelligenz

Grundlagen der Künstlichen Intelligenz Grundlagen der Künstlichen Intelligenz 6. Klassische Suche: Datenstrukturen für Suchalgorithmen Malte Helmert Universität Basel 7. März 2014 Klassische Suche: Überblick Kapitelüberblick klassische Suche:

Mehr

ML Deployment. Vom Prototyp zur Produktion

ML Deployment. Vom Prototyp zur Produktion ML Deployment Vom Prototyp zur Produktion Marcel Spitzer Karlsruhe, 15.3.2018 Marcel Spitzer Big Data Scientist @ inovex Wi.-Mathematik (B.Sc.), Wi.-Informatik (M.Sc.) Data Science mit Python und R Deployment

Mehr

GridMate The Grid Matlab Extension

GridMate The Grid Matlab Extension GridMate The Grid Matlab Extension Forschungszentrum Karlsruhe, Institute for Data Processing and Electronics T. Jejkal, R. Stotzka, M. Sutter, H. Gemmeke 1 What is the Motivation? Graphical development

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Visualizing multiple Last.fm listening histories

Visualizing multiple Last.fm listening histories Visualizing multiple Last.fm listening histories Abschlussvortrag Bachelorarbeit - 14.09.2010 Roman Graebsch www.lastloop.de LFE Medieninformatik Betreuer: Dominikus Baur Verantwortlicher Hochschullehrer:

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Datenbanksysteme Kapitel 6: Neue Konzepte der Datenbanktechnologie

Datenbanksysteme Kapitel 6: Neue Konzepte der Datenbanktechnologie Datenbanksysteme Kapitel 6: Neue Konzepte der Datenbanktechnologie Prof. Dr. Peter Chamoni Mercator School of Management Lehrstuhl für Wirtschaftsinformatik, insb. Business Intelligence Prof. Dr. Peter

Mehr