Cloud Data Management Kapitel 4: MapReduce(Teil3)

Größe: px
Ab Seite anzeigen:

Download "Cloud Data Management Kapitel 4: MapReduce(Teil3)"

Transkript

1 Cloud Data Management Kapitel 4: MapReduce(Teil3) Dr. Eric Peukert Wintersemester 2017 Universität Leipzig, Institut für Informatik

2 Inhaltsverzeichnis MapReduce MapReduce-Umsetzung für populäre Algorithmen Termhäufigkeit und Inverted Index Ähnlichkeitsberechnung im Vector Space Modell PageRank k-means Clustering Hadoop-Framework MR-Ausführungsmodell Architektur Hadoop 2.x, YARN

3 News

4 4 Titelzeile alle Folien

5 5 Titelzeile alle Folien

6 Hadoop Googles MapReduce 2004 veröffentlicht Proprietär, nicht verfügbar Hadoop ist Open Source Alternative Inspiriert von Googles MR/GFS Apache Top-Level-Projekt Unix-ähnliche OS (Shell Skripte, passwortloses SSH) Java 6 Große Community Fertige Distributionen zur Ausführung in Amazon EC2 Sieger des Terabyte Sort Benchmark 2008 & TB Integer in 173 Minuten mit 3452 nodes (2 Quadcore Xeons, 8 GB Memory, 4 SATA)

7 Hadoop Ökosystem Relevante Systeme: Bildquelle:

8 Hadoop Ecosystem (2) 8 Titelzeile alle Folien

9 Hadoop MapReduce: Beispiel jobconf.setinputformat(textinputformat.class); TextInputFormat.setInputPath(jobConf, new Path( /usr/xyz/abc.txt )); public void map(longwritable key, Text val, Context context ) throws IOException{ String line = val.tostring(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasmoretokens()) { word.set(tokenizer.nexttoken()); context.write(word, new IntWritable(1)); }} public void reduce(text key, Iterable<IntWritable> vals, Context context ) throws IOException { int sum = 0; for (IntWritable val : vals) { sum += val.get(); } context.write(key, new IntWritable(sum)); } k 1 v 1 map k 2 v 2 k 2 list(v 2 ) reduce k 3 v 3

10 MR-Ausführung - Beziehung zu HDFS Job Tracker versucht Datenlokalität auszunutzen Reduce profitiert (meist) nicht von Datenlokalität da er von verschiedenen Map-Tasks Daten bezieht. JobTracker TaskTracker TaskTracker TaskTracker NameNode DataNode 0 DataNode 1 DataNode 2 B1-> 0,1 B3 -> 1,2 B1, B2 TCP/IP Communication B2, B3, B1 B1, B3 Master (Metadata) Workers (Data)

11 Hadoop: Ausführungsmodell Tasktracker (TT) startet beim Hochfahren eine statisch konfigurierte Anzahl an Map- bzw. Reduce-Prozessen ( Slots ) Jeder Map/Reduce-Prozess kann zu einem Zeitpunkt einen Map-Task (=Eingabepartition) bzw. Reduce-Task (=Key-Gruppe) bearbeiten Die Summe aller Map-Slots entspricht max. Anzahl von Map-Tasks, die im Cluster gleichzeitig bearbeitet werden können Die Summe aller Reduce-Slots entspricht max. Anzahl von Reduce- Tasks, die im Cluster gleichzeitig bearbeitet werden können Jobtracker (JT) verwaltet Menge der erfolgreichen, fehlgeschlagenen und ausstehenden Map- und Reduce-Tasks Jeder HDFS-Block (InputSplit) wird durch einen Map-Task bearbeitet Pro MR-Job ist Anzahl an Reduce-Tasks vorgegeben (r) JT wählt einen TT zur Bearbeitung ausstehender Tasks aus (Datenlokalität)

12 Hadoop: Ausführungsmodell (2) Map-Task Anwenden von map auf jedes Eingabe-Key-Value-Paar Ausgabepaare werden mittels part(key) partitioniert und mittels sort(key) sortiert (Sortierte) Partitionen werden im lokalen Dateisystem des TTs gespeichert Quelle: Hadoop The Definitive Guide, 2009, Tom White, O Reilly

13 Hadoop: Ausführungsmodell (2) Reduce-Task (Index i [0, r-1]) Zuständiger TT kopiert die Partition i der Zwischenergebnisse von allen TT Zusammenführen der eingehenden (sortierten) Key-Value-Paare mit sort(key) Gruppieren der sortierten Key-Value-Paare Aufruf von reduce je Gruppe (Ergebnis HDFS) Quelle: Hadoop The Definitive Guide, 2009, Tom White, O Reilly

14 Hadoop: Ausführungsmodell (2)

15 Hadoop: Ausführungsmodell - Beispiel Map Reduce Prozesse Tasks (m) part group Prozesse Tasks (r)

16 Hadoop: Ausführungsmodell - Beispiel Map Reduce Prozesse Tasks (m) part group Prozesse Tasks (r) 1 2 nach Farbe nach Farbe und Form 2 3

17 Hadoop: MR-Job Submission 2 Arten von Knoten Jobtracker - Koordinator Tasktracker - Ausführung der Map und Reduce-Funktionen (Tasks) Jeder Tasktracker hat feste Anzahl an Slots für Map- und Reduce Tasks Abhängig von #Cores und Hauptspeicher Tasktracker sind gleichzeitig Datanodes (=Chunkserver) des HDFS Jobtracker weist Tasks an Tasktracker mit freien Slots zu Berücksichtigung der Datenlokalität Quelle: Hadoop The Definitive Guide, 2009, Tom White, O Reilly

18 Hadoop: Distributionen Vorkonfigurierte stabile Distributionen für Produktivbetrieb z.b. Hadoop, HBase, Hive, Pig, Mahout,Spark, Regelmäßige Update- und Releasezyklen Support, Lizensierung und Consulting, Paketierung für verschiedene Plattformen Beispiele Hortonworks Data Platform (HDP) Aktuell 2.6 (Hadoop 2.7.3) Cloudera Distribution Including Apache Hadoop (CDH) Aktuell CDH 5.x releases (basiert auf Hadoop und später)

19 Hortonworks Data Platform

20 Cloudera 20 Titelzeile alle Folien

21 21 Titelzeile alle Folien

22 Beschränkungen des MR-Modells Unabhängige Ausführung Map- und Reduce-Tasks zufällige Reihenfolge, d.h. keine Annahmen über Vorhandensein von Zwischenergebnissen kein Zugriff auf Daten eines anderen Tasks Eingeschränkter Zugriff auf Werte in Reduce-Funktion Liste der Werte kann nur per Cursor sequentiell gelesen werden (Iterator- Interface) Reduce-Phase kann erst starten, wenn der letzte Map-Task beendet keine Stream-Verarbeitung möglich Ziel: gleichmäßige Auslastung aller Map-Prozesse Programm-Ende wenn der letzte Reduce-Task beendet ist Ziel: gleichmäßige Auslastung aller Reduce-Prozesse Fehlertoleranz erzwingt Materialisierung des Map-Outputs Knotenausfall darf nicht zu Datenverlust führen à Checkpointing Keine Indexierung der Eingabedaten

23 Hadoop 2.x Aktuell Hadoop 2.8.x (3.0 Beta) Einführung von YARN für Cluster Ressource Management

24 YARN (=MRv2=MapReduce 2.0): Motivation Schlechte Auslastung der Cluster-Ressourcen Statische Konfiguration der Slots für Map-/Reduce-Tasks pro Tasktracker Map-Slots können nicht für Reduce-Tasks genutzt werden (und umgekehrt) Engpass JT - Skalierbarkeit nur bis zu paralleler Tasks Resource Management Überwachung Trasktracker (Heartbeats, Blacklisting, Cluster Capacity) Zuteilung von Slots zu Tasks Job Scheduling und Monitoring Ausführen von MapReduce Jobs Überwachen laufender und ausstehender Tasks (Speculative Execution, Neustart fehlgeschlagener Tasks, Aggregieren der Counter) Hadoop 1: Kein Support für andere Programmiermodelle als MapReduce Quelle: [YARN]

25 YARN: Grundidee Dezentralisierung Quelle:

26 Apache Hadoop YARN

27 YARN: Dezentralisierung Globaler Resource Manager (RM) Applications Manager (AsM) Submission von Anwendungen Start/Monitoring/Neustart von App. Masters Überwachen des Fortschritt aller Anwendungen Scheduler: Zuteilung von Ressourcen zu Anwendungen Application Master (AM) Mini-Jobtracker für eine Anwendung (z.b. 1 MapReduce Job) Leichtgewichtiger Prozess auf Slave-Node Task Scheduling und Monitoring Anforderung der benötigten Ressourcen (RAM, CPU, Bandbreite, Disk) vom RM Allokation und Monitoring aller gewährten Container auf zugewiesenen NMs Fortschrittsbericht an AsM Node Manager (NM) Slave-Prozess, Ausführung und Überwachen von abstrakten Containern Fortschrittsbericht an AM Bericht über belegte Ressourcen an RM

28 YARN: Application Submission Priority,Hostname,Resources,#Containers 1, host1, 1GB, 1 1, host2, 2GB, 1 host1 host2 Quelle:[YARN] RM kann neugestartet werden ohne dass laufende Anwendungen neugestartet werden müssen Abstraktion (Ressourcen, Container) erlaubt Implementierung verschiedener verteilter Frameworks auf Basis von HDFS und YARN MapReduce, Apache HAMA, Apache Giraph, Open MPI, Apache Spark

29 Resource Manager - High Availability Active/Standby Architektur (immer nur ein RM aktiv) Automatic Failover : Zookeeper-based ActiveStandbyElector automatische Wahl, welcher RM der neue aktive wird, falls aktiver RM ausfällt

30 Resource Manager - High Availability (2) Client, AM, NMs verbinden zu RMs in round-robin fashion bis aktiver RM erreicht Wiederherstellen des Zustands von aktivem RM: neuer aktiver lädt internen RM-Status und arbeitet weiter, wo vorheriger aufgehört hat - soweit möglich; regelmäßige Checkpoints von Applikationen, um Wiederholen der Arbeit zu vermeiden ZKRMStateStore: WriteAccess nur FÜR EINEN RM (kein split brain scenario ) alternativ FileSystem-RMStateStore

31 Zusammenfassung MapReduce Framework zur einfachen, parallelen Verarbeitung großer Datenmengen Programmlogik definiert durch zwei Funktionen (map und reduce) Algorithmen z.t. mit mehreren MR-Schritten, ggf. mit zusätzl. Input Vorteile Unterstützung heterogener Cloud-Umgebungen sowie gegebener Partitionierung fehlertolerant, skalierbar flexibles Modell, d.h. viele Algorithmen in MapReduce umsetzbar Ausgangspunkt weiterer Entwicklungen Adressierung von Performanzengpässen (u.a. Fehlerbehandlung, Data Skew und Lastbalancierung, Indexierung) Autom. Generierung von MapReduce-Jobs (z.b. SQL MapReduce) Kopplung mit relationalen Datenbanksystemen Hadoop: Open Source MapReduce + Resource Management (YARN)

32 Quellen & Literatur [MapReduce] Dean & Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. OSDI'04 Page et.al: The PageRank Citation Ranking: Bringing Order to the Web. TechReport, Stanford University, 1998 Brin & Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Networks, 1998

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014

Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014 Überblick Hadoop Einführung HDFS und MapReduce DOAG Regionaltreffen München/Südbayern Februar 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business

Mehr

!! Waldemar Reger Köln,

!! Waldemar Reger Köln, Analyse und Evaluierung von Parameterabhängigkeiten anhand der Laufzeit von MapReduce-Jobs zur Konzeptionierung von Hadoop-Clustern Waldemar Reger Köln, 23.07.2014 Agenda 1. Hadoop Grundlagen 2. Cluster

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce. c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce. c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1 Überblick Verarbeitung großer Datenmengen Motivation MapReduce c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele) Indexierung des World

Mehr

Map Reduce. Programmiermodell. Prof. Dr. Ingo Claÿen. Motivation. Modell. Verarbeitungsablauf. Algorithmen-Entwurf. Map-Reduce in Java

Map Reduce. Programmiermodell. Prof. Dr. Ingo Claÿen. Motivation. Modell. Verarbeitungsablauf. Algorithmen-Entwurf. Map-Reduce in Java Map Reduce Programmiermodell Prof. Dr. Ingo Claÿen Hochschule für Technik und Wirtschaft Berlin Motivation Modell Verarbeitungsablauf Algorithmen-Entwurf Map-Reduce in Java Motivation Was ist Map-Reduce

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Big Data. Professional IT Master. Prof. Dr. Ingo Claßen. Überblick. Verarbeitungsmodell. Verarbeitungsablauf. Verteilte Daten. Ressourcenmanagement

Big Data. Professional IT Master. Prof. Dr. Ingo Claßen. Überblick. Verarbeitungsmodell. Verarbeitungsablauf. Verteilte Daten. Ressourcenmanagement Big Data Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Überblick Verarbeitungsmodell Verarbeitungsablauf Verteilte Daten Ressourcenmanagement Koordination Überblick

Mehr

Big Data: Apache Hadoop Grundlagen

Big Data: Apache Hadoop Grundlagen Seminarunterlage Version: 1.07 Version 1.07 vom 5. September 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

Schneller als Hadoop?

Schneller als Hadoop? Schneller als Hadoop? Einführung in Spark Cluster Computing 19.11.2013 Dirk Reinemann 1 Agenda 1. Einführung 2. Motivation 3. Infrastruktur 4. Performance 5. Ausblick 19.11.2013 Dirk Reinemann 2 EINFÜHRUNG

Mehr

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015 Hadoop & Spark Carsten Herbe 8. CC-Partner Fachtagung 2015 29.04.2015 Daten & Fakten 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum 25 Jahre am Markt

Mehr

Hadoop in a Nutshell HDFS, MapReduce & Ecosystem. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop in a Nutshell HDFS, MapReduce & Ecosystem. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop in a Nutshell HDFS, MapReduce & Ecosystem Oracle DWH Konferenz 2014 Carsten Herbe Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence

Mehr

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Herzlich Willkommen bei Webinar@Lunchtime Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Xing-Profil:

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied

Mehr

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan

Mehr

Big Data in der Praxis

Big Data in der Praxis Jonas Freiknecht Big Data in der Praxis Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren HANSER Vorwort XI 1 Einleitung 1 2 Big-Data 7 2.1 Historische Entstehung 8 2.2 Big-Data

Mehr

Verteilte Systeme. Map Reduce. Secure Identity Research Group

Verteilte Systeme. Map Reduce. Secure Identity Research Group Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 5: MapReduce Dr. Michael Hartung Sommersemester 2012 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhaltsverzeichnis MapReduce MapReduce-Umsetzung

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 6: Optimierungs- Dr. Anika Groß Sommersemester 2015 techniken für MapReduce Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de Optimierungstechniken (MR-Job-Parametrisierung)

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

MapReduce. Julia Bergbauer - Ferienakademie 2009

MapReduce. Julia Bergbauer - Ferienakademie 2009 1 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 2 1) Grundlegendes = von Google eingeführtes Framework Ausnutzen der MulticoreProzessoren

Mehr

MapReduce mit Hadoop 08.11.12 1

MapReduce mit Hadoop 08.11.12 1 MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung

Mehr

Nutzung der Scientific Computing Cluster. Lars-Peter Meyer

Nutzung der Scientific Computing Cluster. Lars-Peter Meyer Nutzung der Scientific Computing Cluster Lars-Peter Meyer Cluster Hardware Galaxy (shared nothing) 90 Worker mit jeweils 2 Cores (2x6 Cores, Intel Haswell E5 2620v3 @2,4 GHz) 28 GByte DDR4 ECC RAM RAM

Mehr

Universität Karlsruhe (TH)

Universität Karlsruhe (TH) Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Software Engineering für moderne, parallele Plattformen 10. MapReduce Dr. Victor Pankratius Agenda Motivation Der MapReduce-Ansatz Map- und

Mehr

MapReduce. Jens Dörre. Universität Passau Projekt MAPREDUCEFOUNDATION. Funktionale Programmierung

MapReduce. Jens Dörre. Universität Passau Projekt MAPREDUCEFOUNDATION. Funktionale Programmierung MapReduce Jens Dörre Universität Passau Projekt MAPREDUCEFOUNDATION Funktionale Programmierung Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 1 / 25 Gliederung 1 MapReduce allgemein 2 MapReduce

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark. c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark. c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1 Überblick Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele) Indexierung

Mehr

MapReduce: Simplified Data Processing on Large Clusters

MapReduce: Simplified Data Processing on Large Clusters MapReduce: Simplified Data Processing on Large Clusters Hardware-Software-Co-Design Universität Erlangen-Nürnberg Tobias.Schwarzer@e-technik.stud.uni-erlangen.de Michael.Theil@mathe.stud.uni-erlangen.de

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

MATERNA GmbH

MATERNA GmbH MATERNA GmbH 2013 www.materna.de 1 MATERNA-Unternehmensgruppe Dr. Winfried Materna Helmut an de Meulen Bremen Hamburg Berlin FI Gesellschafter DK S Dortmund Düsseldorf Dresden GB NL CH D I CZ A PL SK RO

Mehr

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Wir unternehmen IT. Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Karlsruhe, 30.09.2015 $id thgreiner Thorsten Greiner Teamleiter Software Development ConSol* Software GmbH, Düsseldorf

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

BIG UNIVERSITÄTSRECHENZENTRUM

BIG UNIVERSITÄTSRECHENZENTRUM UNIVERSITÄTS RECHENZENTRUM LEIPZIG BIG DATA @ UNIVERSITÄTSRECHENZENTRUM Forschung und Entwicklung Entwicklung eines E-Science-Angebots für die Forschenden an der Universität Leipzig Stefan Kühne Axel Ngonga

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Hadoop Administrator Training Viertägiges Intensivseminar

Hadoop Administrator Training Viertägiges Intensivseminar Hadoop Administrator Training Viertägiges Intensivseminar Die Referenten sind keine exklusiven Trainer, sondern Berater aus dem Projektgeschäft, die auch Trainings durchführen. Das kann man nicht hoch

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

BIG SQL FOR HORTONWORKS (MOGELPACKUNG ODER GENIALER SCHACHZUG?)

BIG SQL FOR HORTONWORKS (MOGELPACKUNG ODER GENIALER SCHACHZUG?) THOMAS KALB BIG SQL FOR HORTONWORKS (MOGELPACKUNG ODER GENIALER SCHACHZUG?) Big SQL for Hortonworks (Mogelpackung oder genialer Schachzug) Copyright 2017 ITGAIN GmbH 1 AGENDA ITGAIN Big SQL Aktionen PoC

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

Big and Fast Data - Verarbeitung von Streaming Data

Big and Fast Data - Verarbeitung von Streaming Data Big and Fast Data - Verarbeitung von Streaming Data AW2 Präsentation Gerrit Thede Fakultät Technik und Informatik Department Informatik HAW Hamburg 17. April 2014 Outline 1 Einleitung 2 Incoop: MapReduce

Mehr

Spark das neue MapReduce?

Spark das neue MapReduce? Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche

Mehr

S3 your Datacenter. Software Defined Object Storage. Die kostengünstige und skalierbare Lösung für Ihre unstrukturierten Daten

S3 your Datacenter. Software Defined Object Storage. Die kostengünstige und skalierbare Lösung für Ihre unstrukturierten Daten S3 your Datacenter Software Defined Object Storage Die kostengünstige und skalierbare Lösung für Ihre unstrukturierten Daten Unstrukturierte Daten explodieren Volume in Exabytes Sensors & Devices Social

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken 12. NoSQL Inhalt 12.1 NoSQL? 12.2 MapReduce & Co 12.3 Key-Value Stores 12.4 Extensible Record Stores 12.5 Dokumentorientierte Datenbanken 12.6 Graphdatenbanken 2 12.1 NoSQL? Relationale Datenbanksysteme

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 7: Large-Scale Datenanalyse Dr. Anika Groß Wintersemester 2016 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Einführung Hadoop (und darauf aufbauende

Mehr

BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY

BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY 08.03.2017 REWE Systems GmbH Jonas Freiknecht inovex GmbH Bernhard Schäfer AGENDA 1 / Vorstellung REWE Systems GmbH und inovex

Mehr

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken 7. NoSQL Inhalt 12.1 NoSQL? 12.2 MapReduce & Co 12.3 Key-Value Stores 12.4 Extensible Record Stores 12.5 Dokumentorientierte Datenbanken 12.6 Graphdatenbanken 2 12.1 NoSQL? Relationale Datenbanksysteme

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

Omnichannel Automation mit elastischer Skalierung

Omnichannel Automation mit elastischer Skalierung Omnichannel Automation mit elastischer Skalierung Stefan Dix GMC Software Technology GmbH 27. April 2017 1 Doxnet Education Day in Frankfurt Agenda Wer ist GMC? Was macht GMC Inspire? Dokumente in der

Mehr

Schneller als Hadoop? Einführung in Spark Cluster Computing

Schneller als Hadoop? Einführung in Spark Cluster Computing Schneller als Hadoop? Einführung in Spark Cluster Computing Dirk Reinemann Oracle Deutschland B.V. & Co. KG Potsdam Schlüsselworte Big Data, Cluster Computing, Spark, Shark, Resilient Distributed Datasets,

Mehr

Fast Analytics on Fast Data

Fast Analytics on Fast Data Fast Analytics on Fast Data Kudu als Storage Layer für Banking Applikationen Problem Klassischer Kreditprozess Beantragung in der Filiale Aufwendiger Prozess Nachweis durch Dokumente Manuelle Bewilligung

Mehr

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN? HANS-JOACHIM EDERT WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT EBINAR@LUNCHTIME

Mehr

Big Data Konnektoren: Hadoop und die Oracle DB

Big Data Konnektoren: Hadoop und die Oracle DB Big Data Konnektoren: Hadoop und die Oracle DB Philipp Loer ORDIX AG, Paderborn Schlüsselwörter Hadoop, Hive, OLH, OSCH Einleitung Der Vortrag beginnt mit einer Einführung in die Big Data Welt mit Apache

Mehr

Big Data Technologien

Big Data Technologien Big Data Technologien - Ein Überblick - Prof. Dr. Jens Albrecht jens.albrecht@th-nuernberg.de Big Data Landscape 2016 Prof. Dr. Jens Albrecht Big Data 3 Systemarchitektur im Wandel Gestern und heute Strukturierte

Mehr

Software Engineering Software Frameworks. am Beispiel Ruby on Rails Hendrik Volkmer WWI2010G

Software Engineering Software Frameworks. am Beispiel Ruby on Rails Hendrik Volkmer WWI2010G Software Engineering Software Frameworks am Beispiel Ruby on Rails Hendrik Volkmer WWI2010G Vorstellung Plan für heute Donnerstag Freitag Montag Softwareframeworks Wiederholung Wiederholung Webframeworks

Mehr

Solaris Cluster. Dipl. Inform. Torsten Kasch <tk@cebitec.uni Bielefeld.DE> 8. Januar 2008

Solaris Cluster. Dipl. Inform. Torsten Kasch <tk@cebitec.uni Bielefeld.DE> 8. Januar 2008 Dipl. Inform. Torsten Kasch 8. Januar 2008 Agenda Übersicht Cluster Hardware Cluster Software Konzepte: Data Services, Resources, Quorum Solaris Cluster am CeBiTec: HA Datenbank

Mehr

Einleitung Big Data... Hadoop...

Einleitung Big Data... Hadoop... 1 Einleitung 1 2 Big Data... 7 2.1 Historische Entstehung... 9 2.2 Big Data - ein passender Begriff?... 10 2.2.1 Die drei V... 11 2.2.2 Weitere V s... 14 2.2.3 Der Verarbeitungsaufwand ist big... 14 2.2.4

Mehr

MATERNA GmbH 2014 www.materna.de 1

MATERNA GmbH 2014 www.materna.de 1 MATERNA GmbH 2014 www.materna.de 1 Agenda Herausforderungen BigData Größeres Pferd oder Pferdegespann? Apache Hadoop Geschichte, Versionen, Ökosystem Produkte HDFS Daten speichern und verteilen Map/Reduce

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

metafinanz Business & IT Consulting Hadoop in a Nutshell

metafinanz Business & IT Consulting Hadoop in a Nutshell metafinanz Business & IT Consulting Hadoop in a Nutshell 15.03.2016 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum Daten & Fakten 25 Jahre am Markt

Mehr

Spark das neue MapReduce?

Spark das neue MapReduce? Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Data Mining und Machine Learning

Data Mining und Machine Learning Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Skalierbare Webanwendungen

Skalierbare Webanwendungen Skalierbare Webanwendungen Thomas Bachmann Lead Software Architect & CIO Mambu GmbH Twitter: @thobach Anwendungsbeispiel Hohe Nichtfunktionale Anforderungen Sicherheit Vertraulichkeit Integrität Verfügbarkeit

Mehr

!"#$"%&'()*$+()',!-+.'/',

!#$%&'()*$+()',!-+.'/', Soziotechnische Informationssysteme 5. Facebook, Google+ u.ä. Inhalte Historisches Relevanz Relevante Technologien Anwendungsarchitekturen 4(5,12316,7'.'0,!.80/6,9*$:'0+$.;.,&0$'0, 3, Historisches Facebook

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Seminar WS 2009/10 Folie 1 Seminar: Anrechnungsmöglichkeiten Masterstudium Teil der Kern- bzw. Vertiefungsmodule Moderne Datenbanktechnologien (bzw. Anwendungsspezifische Datenbankkonzepte)

Mehr

Supermicro Hadoop Lösungen

Supermicro Hadoop Lösungen Supermicro Hadoop Lösungen Die Frage ist nicht, ob Big Data Analytik angewendet wird, sondern wie. Unternehmen, die Hadoop Lösungen anwenden wollen, brauchen hohe Leistung und zuverlässige und skalierbare

Mehr

Big Data im Retail-Sektor am Beispiel Kassenbondaten

Big Data im Retail-Sektor am Beispiel Kassenbondaten Big Data im Retail-Sektor am Beispiel Kassenbondaten REWE Systems GmbH Jonas Freiknecht inovex GmbH Bernhard Schäfer Business Analytics Day, 08.03.2017 AGENDA 1. Vorstellung REWE Systems GmbH und inovex

Mehr

Graphalgorithmen in massiv parallelen Umgebungen

Graphalgorithmen in massiv parallelen Umgebungen Grundseminar SS 2017 Graphalgorithmen in massiv parallelen Heinrich Latreider Grundseminar Vortrag am 27.06.2017 Betreuer: Prof. Dr. Olaf Zukunft 1 Inhaltsübersicht Motivation Graphentheorie Big Data Graph

Mehr

Einführung in die Hadoop-Welt HDFS, MapReduce & Ökosystem. Big Data für Oracle Entwickler September 2014 Carsten Herbe

Einführung in die Hadoop-Welt HDFS, MapReduce & Ökosystem. Big Data für Oracle Entwickler September 2014 Carsten Herbe HDFS, MapReduce & Ökosystem Big Data für Oracle Entwickler September 2014 Carsten Herbe Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence

Mehr

Datenanalyse mit Hadoop

Datenanalyse mit Hadoop Gideon Zenz Frankfurter Entwicklertag 2014 19.02.2014 Datenanalyse mit Hadoop Quelle: Apache Software Foundation Agenda Hadoop Intro Map/Reduce Parallelisierung des Datenflows Exkurs: M/R mit Java, Python,

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Das Apache Hadoop Framework im industriellen Einsatz

Das Apache Hadoop Framework im industriellen Einsatz Das Apache Hadoop Framework im industriellen Einsatz Daniel Müller, Marvin Follmann Business Analytics Day 2019 Über uns Seamless Analytics GmbH Gegründet 2018 Daniel Müller, M. Sc. Marvin Follmann, M.

Mehr

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Zusammenfassung. c td MWCC (WS14/15) Verarbeitung großer Datenmengen 7 1

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Zusammenfassung. c td MWCC (WS14/15) Verarbeitung großer Datenmengen 7 1 Überblick Verarbeitung großer Datenmengen Motivation MapReduce Pig Zusammenfassung c td MWCC (WS14/15) Verarbeitung großer Datenmengen 7 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele)

Mehr

(Software) Architektur der Dinge. Roland Graf / Simon Kranzer IKT-Forum 2016 I(o)T for Industry - Von IT zu IoT

(Software) Architektur der Dinge. Roland Graf / Simon Kranzer IKT-Forum 2016 I(o)T for Industry - Von IT zu IoT (Software) Architektur der Dinge Roland Graf / Simon Kranzer IKT-Forum 2016 I(o)T for Industry - Von IT zu IoT Hardware Mainframe Speichersysteme Rechner Kopplung Zentralisierung Anwendungsprogramme Software

Mehr

Einführung in Big Data und Hadoop (mit verschiedenen Live Demos) Eintägiges Intensivseminar

Einführung in Big Data und Hadoop (mit verschiedenen Live Demos) Eintägiges Intensivseminar Einführung in Big Data und Hadoop (mit verschiedenen Live Demos) Eintägiges Intensivseminar Die Referenten sind keine exklusiven Trainer, sondern Berater aus dem Projektgeschäft, die auch Trainings durchführen.

Mehr

Automatisierung, Virtualisierung & Management Es muss nicht immer VMware sein

Automatisierung, Virtualisierung & Management Es muss nicht immer VMware sein 16. Bonner Microsoft-Tag für Bundesbehörden Automatisierung, Virtualisierung & Management Es muss nicht immer VMware sein Roj Mircov & Ansgar Heinen Microsoft Deutschland GmbH IT Trends mit hohem Einfluß

Mehr

Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten. von Florian Eiteljörge

Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten. von Florian Eiteljörge Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten von Florian Eiteljörge 1. Was ist Bigtable? 2. Datenmodell Übersicht 3. Implementierung/Architektur von Bigtable 4. Vergleich mit

Mehr

2. Map/Reduce Programming Model. Architektur von Datenbanksystemen II

2. Map/Reduce Programming Model. Architektur von Datenbanksystemen II 2. Map/Reduce Programming Model Architektur von Datenbanksystemen II Motivation PROBLEMSTELLUNG Unternehmen wie Google, Yahoo, Facebook und Twitter müssen täglich Datenmengen im Bereich von TB und PB speichern

Mehr

MapReduce-Konzept. Thomas Findling, Thomas König

MapReduce-Konzept. Thomas Findling, Thomas König MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel

Mehr

Basisinformationstechnologie I Wintersemester 2011/ November 2011 Betriebssysteme

Basisinformationstechnologie I Wintersemester 2011/ November 2011 Betriebssysteme Basisinformationstechnologie I Wintersemester 2011/12 23. November 2011 Betriebssysteme Seminarverlauf 12. Oktober: Organisatorisches / Grundlagen I 19. Oktober: Grundlagen II 26. Oktober: Grundlagen III

Mehr

Big Data Eine Annäherung Karsten Jansen Fujitsu

Big Data Eine Annäherung Karsten Jansen Fujitsu 14. Seminar GIS & Internet UniBw München, 17. 18.09.2014 Big Data Eine Annäherung Karsten Jansen Fujitsu Inhaltliche Schwerpunkte 1 Wie alles begann Eine technologische Einordnung 2 Fluch oder Segen Auch

Mehr

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Brownbag am Freitag, den 09.08.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich

Mehr

PVFS (Parallel Virtual File System)

PVFS (Parallel Virtual File System) Management grosser Datenmengen PVFS (Parallel Virtual File System) Thorsten Schütt thorsten.schuett@zib.de Management grosser Datenmengen p.1/?? Inhalt Einführung in verteilte Dateisysteme Architektur

Mehr

Container-Orchestrierung in der Cloud für Profis

Container-Orchestrierung in der Cloud für Profis Container-Orchestrierung in der Cloud für Profis IT Tage 2018, Frankfurt am Main 12. Dezember 2018 Michel Raabe Cloud Solution Architect B1 Systems GmbH raabe@b1-systems.de Vorstellung B1 Systems gegründet

Mehr

Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19

Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 7: Advertising on the Web Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 7-1 7-2 Data Mining Übersicht Hochdimension.

Mehr

Rückblick. Invertierter Index als zentrale Indexstruktur in IR-Systemen besteht aus Wörterbuch und Indexlisten

Rückblick. Invertierter Index als zentrale Indexstruktur in IR-Systemen besteht aus Wörterbuch und Indexlisten Rückblick Invertierter Index als zentrale Indexstruktur in IR-Systemen besteht aus Wörterbuch und Indexlisten Kompression auf aktueller Hardware vorteilhaft, d.h. es ist schneller komprimierte Daten zu

Mehr