Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Größe: px
Ab Seite anzeigen:

Download "Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen"

Transkript

1 Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und uns selbst.

2 Inhalt Was ist Hadoop? Die Basis von Hadoop Common Die Basis von Hadoop HDFS, NameNode und DataNode Das Programmiermodell MapReduce Das MapReduce Framework JobTracker und TaskTracker

3 Was ist Hadoop? MapR Whirr Sqoop HDFS Snappy Zookeeper Hortonworks NameNode DataNode Chukwa Mahout HADOOP Hive Oozie TaskTracker MapReduce JobTracker HCatalog Pig Cloudera Flume Hue HBase

4 Was ist Hadoop? Hadoop ist ein auf Java basierendes Framework. Hadoop ist die Basis für eine Vielzahl weiterer Software-Produkte ( Hadoop Eco-System ). Hadoop ist für die Verarbeitung sehr großer Datenmengen ausgelegt. Hadoop kann Daten und Rechenoperationen auf viele Rechner verteilen. Hadoop kann mit wachsenden (schrumpfenden) Daten oder Rechenoperationen skalieren. Zusammengefasst: Hadoop ist ein freies, Java-basiertes Open-Source-Framework für die skalierbare und verteilte Verarbeitung großer Datenmengen auf vielen Rechnern innerhalb eines Netzwerks. Wartala, Ramon: Hadoop - Zuverlässig, verteilte und skalierbare Big-Data-Anwendungen. München 2012, S. 21

5 Die Basis von Hadoop Common MapR Whirr Sqoop HDFS Snappy Zookeeper Hortonworks NameNode DataNode Chukwa Mahout HADOOP Hive Oozie TaskTracker MapReduce JobTracker HCatalog Pig Cloudera Flume Hue HBase

6 Die Basis von Hadoop Common Hadoop Common stellt Grundfunktionen bereit. Beispielsweise: Eine implementierungsneutrale Dateisystem-Schnittstelle. Eine RPC ( Remote-Procedure-Call ) Schnittstelle zur Kommunikation im Rechnerverbund (Cluster). Bibliotheken zur Serialisierung von Daten. Werkzeuge und Bibliotheken die von anderen Hadoop Komponenten (oder Software-Produkten) genutzt werden.

7 Die Basis von Hadoop HDFS, NameNode und DataNode MapR Whirr Sqoop HDFS Snappy Zookeeper Hortonworks NameNode DataNode Chukwa Mahout HADOOP Hive Oozie TaskTracker MapReduce JobTracker HCatalog Pig Cloudera Flume Hue HBase

8 Die Basis von Hadoop HDFS, NameNode und DataNode HDFS-Architektur Sammer, Eric: Hadoop Operations. Sebastopol 2012, S. 10

9 Die Basis von Hadoop HDFS HDFS ( Hadoop Distributed File System ) ist ein skalierbares und verteiltes Dateisystem. HDFS ist das Standard-Dateisystem von Hadoop. HDFS folgt in den wesentlichen Eigenschaften dem Google File System : Der Ausfall von Knoten kann passieren und wird als nicht kritisch betrachtet. Das Hinzufügen von weiteren Knoten ist sehr einfach. Es werden sehr große Dateien gespeichert. Dateien werden nur einmal geschrieben aber häufig gelesen. Der Aufbau eines Clusters folgt dem Master-Slave-Prinzip. Die Speicherung von Dateien erfolgt blockorientiert.

10 Die Basis von Hadoop HDFS Die zu speichernden Dateien werden in Blöcke mit fester Größe aufgeteilt. Die Blockgröße von HDFS beträgt standardmäßig 64 MB (kann aber bis zu 1 GB konfiguriert werden). Aufgrund der Blockgrößen werden die Daten in größeren zusammenhängenden Stücken auf die Platten geschrieben, was die Schreib- und Leseoperationen positiv beeinflusst. Standardmäßig wird ein Block im HDFS dreifach, auf unterschiedlichen Knoten, repliziert. Zusätzlich können Blöcke auch über Knoten in verschiedenen Serverschränken verteilt werden ( Rack-Awareness ).

11 Die Basis von Hadoop NameNode Der NameNode ist der Master im HDFS der über alle Metadaten des Dateisystems verfügt. Der NameNode ist die zentrale Anlaufstelle wenn Lese- oder Schreiboperationen im HDFS durchgeführt werden sollen. Der NameNode stellt sicher das Blöcke verteilt und repliziert werden. Der NameNode kennt alle Verzeichnisse und Dateien. Der NameNode kennt weiterhin alle Aufteilungen Datei Block alle Speicherorte Block Knoten alle Repliken Block Knoten

12 Die Basis von Hadoop NameNode Der NameNode hält alle HDFS-Metadaten im Speicher (RAM) vor um sehr schnell etwaige Anfragen verarbeiten zu können. Die HDFS-Metadaten (Datei Block) werden auf dem lokalen System des NameNode persistiert (nicht aber Block Knoten). Die Persistierung erfolgt ähnliche dem WAL-Prinzip ( Write Ahead Log ). Die Zusammenführung der Write-Ahead-Logs zu einem konsistenten Speicherabbild wird vom Secondary NameNode in regelmäßigen Abständen durchgeführt. Der Secondary NameNode stellt lediglich eine Art Housekeeper für den NameNode dar. Er kann nicht die Funktionen des NameNodes übernehmen!

13 Die Basis von Hadoop DataNode Ein DataNode ist der Slave im HDFS der die ihm zugewiesenen Blöcke verwaltet. Ein DateNode kennt die Blöcke die er vorhält, nicht aber zu welcher Datei sie gehören. Ein DataNode verfügt über mehrere Festplatten die exklusiv für das HDFS zum speichern der Blöcke verwendet werden. Ein DataNode ist zuständig für den Transport der Blöcke und organisiert diesen dezentral. Ein DataNode sendet in regelmäßigen Abständen einen Block- Report an den NameNode, woraus dieser die Metadaten Block Knoten herleitet. Ein DataNode sendet ebenfalls in regelmäßigen Abständen ein Lebenszeichen ( Heartbeat ) an den NameNode.

14 Die Basis von Hadoop HDFS, NameNode und DataNode HDFS-Leseoperation Sammer, Eric: Hadoop Operations. Sebastopol 2012, S. 12

15 Die Basis von Hadoop HDFS, NameNode und DataNode HDFS-Schreiboperation Sammer, Eric: Hadoop Operations. Sebastopol 2012, S. 14

16 Die Basis von Hadoop NameNode Secondary NameNode Housekeeping Sammer, Eric: Hadoop Operations. Sebastopol 2012, S. 16

17 Das Programmiermodell MapReduce MapR Whirr Sqoop HDFS Snappy Zookeeper Hortonworks NameNode DataNode Chukwa Mahout HADOOP Hive Oozie TaskTracker MapReduce JobTracker HCatalog Pig Cloudera Flume Hue HBase

18 Das Programmiermodell MapReduce MapReduce ist ein von Google entwickeltes Programmiermodell, dass aus den Funktionen map() und reduce() Funktionaler Sprachen inspiriert wurde. Hierbei wird der Funktion map() eine Funktion als Parameter übergeben, die auf alle Werte einer Liste angewandt wird und als Resultat eine Liste zurück gibt. Die reduce()-funktion wiederum erhält diese aus der map()- Funktion resultierenden Liste als Parameter und reduziert diese anhand einer gegebenen Funktion auf einen Wert. Python-Beispiel: >>> def f(x): return x+x >>> def g(x,y): return x+y >>> map(f, [1,2,3,4]) >>> [2,4,6,8] >>> reduce(g, map(f, [1,2,3,4])) >>> 20

19 Das Programmiermodell MapReduce Beim MapReduce-Programmiermodell entspricht die Map-Funktion der Funktion, die der map()-funktion Funktionaler Sprachen übergeben wird. Die Reduce-Funktion von MapReduce legt die Art der Aggregation fest. MapReduce-Definition: Map: K x V (L x W)* Reduce: L x W* X* MapReduce-Konzept: In der ersten Phase (Map) werden einzelne Key/Value-Paare verarbeitet die als Ergebnis eine Menge weiterer Key/Value- Paare liefert (Zwischenergebnis). In der zweiten Phase (Reduce) werden die aus der ersten Phase entstandenen Zwischenergebnisse anhand eines Keys aggregiert und als Ergebnis zurückgeliefert.

20 Das Programmiermodell MapReduce Beispiel Häufigkeit von Wörtern in Dokumenten : Die Map-Funktion erhält als Eingabe Dateien (K), deren Inhalt (V) in Wörter aufgeteilt wird und somit die folgende Ausgabe (Zwischenergebnis) liefert: Key l L: Wort Value w W: 1 Die Reduce-Funktion aggregiert nun alle Values für einen Key l L und liefert das Ergebnis X für jeden l L zurück. Dies ist ein Beispiel ein Beispiel L: l1,w1 = Dies,1; l2,w2 = ist,1; l3,w3 = ein,1; l4,w4 = Beispiel,1; l5,w5 = ein,1; l6,w6 = Beispiel,1; X: Dies = 1; ist = 1; ein = 2; Beispiel = 2;

21 Das Programmiermodell MapReduce Für was ist MapReduce geeignet? MapReduce ist für Aufgaben geeignet, deren Eingabemenge sich in Teilstücke partitionieren lassen. Hierdurch können die Teilstücke unabhängig voneinander bearbeitet werden. Weiterhin eignet sich MapReduce zur Verarbeitung von unstrukturierten Eingangsdaten. Hierdurch können die Eingangsdaten mit verschiedenen Aufgaben verarbeitet werden. Entsprechend ungeeignet für MapReduce sind Aufgaben, deren Eingabemenge als Ganzes durch Abhängigkeiten nicht partitionierbar sind.

22 Das MapReduce Framework JobTracker und TaskTracker MapR Whirr Sqoop HDFS Snappy Zookeeper Hortonworks NameNode DataNode Chukwa Mahout HADOOP Hive Oozie TaskTracker MapReduce JobTracker HCatalog Pig Cloudera Flume Hue HBase

23 Das MapReduce Framework Neben dem Programmiermodell, das als MapReduce bezeichnet wird, werden auch die spezifischen Implementierungen des Software-Frameworks als MapReduce bezeichnet. Das MapReduce-Framework ist für die Verarbeitung großer und verteilter Datenmengen ausgelegt. Es werden so genannte Jobs entwickelt, die im wesentlichen aus Map- und Reduce-Funktionen bestehen. Das Framework übernimmt hierbei sämtliche Aufgaben, von der Verteilung der Jobs, der Parallelisierung und Planung der Einzelschritte bis hin zur Fehlerbehandlung. MapReduce ist ein System das für die Stapelverarbeitung ( Batch ) ausgelegt ist. MapReduce verfolgt die Strategie, Berechnung auf den Knoten auszuführen auf denen die Daten liegen ( Locality of Reference ).

24 Das MapReduce Framework JobTracker Der JobTracker ist der Master im MapReduce-Framework und nimmt die Jobs der Clients an. Der JobTracker verfügt über die Informationen welche Slave- Knoten aktiv sind und aktuell Tasks ausführen können. Der JobTracker plant Tasks und überwacht diese auf den einzelnen Slave-Knoten (Worker). Equivalent zum HDFS NameNode werden sämtliche Tasks und Job-Informationen im Speicher vorgehalten.

25 Das MapReduce Framework TaskTracker Ein TaskTracker ist der Slave im MapReduce-Framework und verarbeitet die vom JobTracker im zugewiesenen Tasks. Ein TaskTracker meldet periodisch den Task-Status dem JobTracker zurück. Ein TaskTracker läuft immer auf einem DataNode um die zu verarbeitenden Daten lokal auslesen zu können. Ein TaskTracker bietet eine gewisse Anzahl an Map- und Reduce- Slots an, die dem JobTracker gemeldet werden.

26 Das MapReduce Framework JobTracker und TaskTracker Map-Phase Sammer, Eric: Hadoop Operations. Sebastopol 2012, S. 29

27 Das MapReduce Framework JobTracker und TaskTracker Reduce-Phase Sammer, Eric: Hadoop Operations. Sebastopol 2012, S. 31

28 Vielen Dank für Ihre Aufmerksamkeit! inovex GmbH Pforzheim Karlsruher Straße 71 D Pforzheim München Valentin-Linhof-Straße 2 D München Köln Schanzenstraße 6-20 D Köln

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Brownbag am Freitag, den 09.08.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan

Mehr

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Schlüsselworte Hadoop, Hive, Sqoop, SQL Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Einleitung In diesem Vortrag werden, nach einer kurzen Einführung in Apache Hadoop, die beiden Werkzeuge

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Data Mining und Machine Learning

Data Mining und Machine Learning Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende

Mehr

Verteilte Systeme. Map Reduce. Secure Identity Research Group

Verteilte Systeme. Map Reduce. Secure Identity Research Group Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

HDFS als schneller und günstiger Storage?

HDFS als schneller und günstiger Storage? HDFS als schneller und günstiger Storage? Das Hadoop Distributed File System (HDFS) verwaltet spielend riesige Datenmengen, lässt sich im laufenden Betrieb bequem skalieren und ist komfortabel zu administrieren.

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Managed Cloud Services

Managed Cloud Services Managed Cloud Services Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Cloud Services

Mehr

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012 MapReduce Vereinfachte Datenverarbeitung in großen Rechnerverbünden Igor Marijanovic 794894 Fachvortrag WAR 19.12.2012 Beuth Hochschule für Technik Berlin Inhalt Einleitung Hauptteil Abschluss MapReduce

Mehr

MapReduce in der Praxis

MapReduce in der Praxis Universität Passau Fakultät für Informatik und Mathematik Ausarbeitung MapReduce in der Praxis Verfasser: Rolf Daniel 09.12.2010 Zusammenfassung MapReduce ist ein von Google eingeführtes Framework, das

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Leistungsanalyse von XtreemFS als Ersatz für HDFS in Hadoop

Leistungsanalyse von XtreemFS als Ersatz für HDFS in Hadoop Bachelorarbeit am Institut für Informatik der Freien Universität Berlin, Arbeitsgruppe Technische Informatik, Zuverlässige Systeme Leistungsanalyse von XtreemFS als Ersatz für HDFS in Hadoop Lukas Kairies

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

Einführung in Bacula - Teil 2 und Aufbau eines Testsystems

Einführung in Bacula - Teil 2 und Aufbau eines Testsystems Einführung in Bacula - Teil 2 und Aufbau eines Testsystems vorgestellt am 10.09.2010 in Pforzheim Daniel Bäurer inovex GmbH Systems Engineer Linux Was ich mit Ihnen besprechen möchte Einführung in Bacula

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

MapReduce-Konzept. Thomas Findling, Thomas König

MapReduce-Konzept. Thomas Findling, Thomas König MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Verteilte Dateisysteme in der Cloud

Verteilte Dateisysteme in der Cloud Verteilte Dateisysteme in der Cloud Cloud Data Management Maria Moritz Seminar Cloud Data Management WS09/10 Universität Leipzig 1 Inhalt 1.) Anforderungen an verteilte Dateisysteme 2.) GoogleFS 3.) Hadoop

Mehr

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH Big Data Lösungen mit Apache Hadoop Gunnar Schröder, T-Systems Multimedia Solutions GmbH Was ist Big Data? 2 Charakteristiken von Big Data Three Vs of Big Data VOLUME Terabytes Petabytes Exabytes Zettabytes

Mehr

Hadoop-as-a-Service (HDaaS)

Hadoop-as-a-Service (HDaaS) Hadoop-as-a-Service (HDaaS) Flexible und skalierbare Referenzarchitektur Arnold Müller freier IT Mitarbeiter und Geschäftsführer Lena Frank Systems Engineer @ EMC Marius Lohr Systems Engineer @ EMC Fallbeispiel:

Mehr

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied

Mehr

Die TravelTainment DataCollection

Die TravelTainment DataCollection Die TravelTainment DataCollection Seminararbeit im Studium Scientific Programming WS 2011/2012 Betreuer: Betreuer: Prof. Dr. Hans-Joachim Pflug Ibrahim Husseini Autor: Katharina Zacharias Matrikel-Nr:

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

Big Data Anwendungen Chancen und Risiken

Big Data Anwendungen Chancen und Risiken Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data

Mehr

Ruprecht-Karls-Universität Heidelberg Institut für Informatik Lehrstuhl für Parallele und Verteilte Systeme

Ruprecht-Karls-Universität Heidelberg Institut für Informatik Lehrstuhl für Parallele und Verteilte Systeme Ruprecht-Karls-Universität Heidelberg Institut für Informatik Lehrstuhl für Parallele und Verteilte Systeme Bachelorarbeit Einbindung des Mahout-Frameworks in das KNIME-Workflowsystem zwecks Analyse großer

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Thema: Das MapReduce-Framework

Thema: Das MapReduce-Framework Software as a Service Cloud Computing und aktuelle Entwicklungen Seminararbeit Thema: Das MapReduce-Framework Betreuer: Prof. Dr. Klaus Küspert Dipl.-Inf. Andreas Göbel Nicky Kuhnt Friedrich-Schiller-Universität

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Big Data. Hype oder Chance? Sebastian Kraubs

Big Data. Hype oder Chance? Sebastian Kraubs Big Data Hype oder Chance? Sebastian Kraubs Heute reden alle über Big Data Quellen: http://blogs.sybase.com/sybaseiq/2011/09/big-data-big-opportunity/ und McKinsey Studie 2011 Anwendungen Daten Technologien

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

MapReduce mit Hadoop 08.11.12 1

MapReduce mit Hadoop 08.11.12 1 MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung

Mehr

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Wir unternehmen IT. Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Karlsruhe, 30.09.2015 $id thgreiner Thorsten Greiner Teamleiter Software Development ConSol* Software GmbH, Düsseldorf

Mehr

Big Data 10.000 ft. 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH

Big Data 10.000 ft. 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH Big Data 10.000 ft 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH Inhalte Big Data Was ist das? Anwendungsfälle für Big Data Big Data Architektur Big Data Anbieter Was passiert in Zukunft

Mehr

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN? HANS-JOACHIM EDERT WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT EBINAR@LUNCHTIME

Mehr

BIG DATA HYPE ODER CHANCE

BIG DATA HYPE ODER CHANCE BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu

Mehr

Neue Ansätze der Softwarequalitätssicherung. Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop

Neue Ansätze der Softwarequalitätssicherung. Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Neue Ansätze der Softwarequalitätssicherung Thema des Seminars Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 7: Large-Scale Datenanalyse Dr. Anika Groß Sommersemester 2015 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Einführung Hadoop (und darauf aufbauende

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

Neue Ansätze der Softwarequalitätssicherung. Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop

Neue Ansätze der Softwarequalitätssicherung. Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Neue Ansätze der Softwarequalitätssicherung Thema des Seminars Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Bernd Fondermann brainlounge. Blaue oder rote Pille: SQL oder MapReduce?

Bernd Fondermann brainlounge. Blaue oder rote Pille: SQL oder MapReduce? Bernd Fondermann brainlounge Blaue oder rote Pille: SQL oder MapReduce? TODOs pills on all pages upd source code 1 Blaue oder rote Pille - SQL oder MapReduce? Bernd Fondermann, BigDataCon/JAX 2012 2 Rote

Mehr

!"#$"%&'()*$+()',!-+.'/',

!#$%&'()*$+()',!-+.'/', Soziotechnische Informationssysteme 5. Facebook, Google+ u.ä. Inhalte Historisches Relevanz Relevante Technologien Anwendungsarchitekturen 4(5,12316,7'.'0,!.80/6,9*$:'0+$.;.,&0$'0, 3, Historisches Facebook

Mehr

MATERNA GmbH 2014 www.materna.de 1

MATERNA GmbH 2014 www.materna.de 1 MATERNA GmbH 2014 www.materna.de 1 Agenda Herausforderungen BigData Größeres Pferd oder Pferdegespann? Apache Hadoop Geschichte, Versionen, Ökosystem Produkte HDFS Daten speichern und verteilen Map/Reduce

Mehr

Hadoop. Seminararbeit. Autor: Thomas Findling (Mat.-Nr. 1740842) Studiengang: Master Informatik (3. Semester)

Hadoop. Seminararbeit. Autor: Thomas Findling (Mat.-Nr. 1740842) Studiengang: Master Informatik (3. Semester) Universität Leipzig Institut für Informatik Abteilung Datenbanken Seminararbeit Hadoop Autor: Thomas Findling (Mat.-Nr. 1740842) Studiengang: Master Informatik (3. Semester) Betreuer: Gutachter: Lars Kolb

Mehr

Hadoop I/O. Datenintegrität Kompression Serialisierung Datei-basierte Datenstrukturen. 14.02.2012 Prof. Dr. Christian Herta 1/29

Hadoop I/O. Datenintegrität Kompression Serialisierung Datei-basierte Datenstrukturen. 14.02.2012 Prof. Dr. Christian Herta 1/29 Hadoop I/O Datenintegrität Kompression Serialisierung Datei-basierte Datenstrukturen 14.02.2012 Prof. Dr. Christian Herta 1/29 Data I/O und Hadoop Allgemeine Techniken Data I/O Datenintegrität Kompression

Mehr

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? Hans-Peter Zorn Inovex GmbH Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? War nicht BigData das gleiche NoSQL? Data Lake = Keine Struktur? flickr/matthewthecoolguy Oder gar ein Hadump? flickr/autohistorian

Mehr

Hadoop in modernen BI-Infrastrukturen. Dr. Stefan Igel inovex GmbH

Hadoop in modernen BI-Infrastrukturen. Dr. Stefan Igel inovex GmbH Hadoop in modernen BI-Infrastrukturen Dr. Stefan Igel inovex GmbH Zur Person Dr. Stefan Igel Seit 01/2005 als Projektleiter und Systemarchitekt bei inovex Seit 08/2009 als Business Engineer bei 1&1 Web.Intelligence

Mehr

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 6: Optimierungs- Dr. Anika Groß Sommersemester 2015 techniken für MapReduce Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de Optimierungstechniken (MR-Job-Parametrisierung)

Mehr

Hadoop Ecosystem Vorstellung der Komponenten. Oracle/metafinanz Roadshow Februar 2014

Hadoop Ecosystem Vorstellung der Komponenten. Oracle/metafinanz Roadshow Februar 2014 Hadoop Ecosystem Vorstellung der Komponenten Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die Herausforderungen

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Überblick: Data at Scale

Überblick: Data at Scale Überblick: Data at Scale Proseminar Data Mining Quirin Stockinger Fakultät für Informatik Technische Universität München Email: q.stockinger@in.tum.de Kurzfassung Der exponentielle Anstieg von verfügbaren

Mehr

Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce

Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Timo Bingmann, Peter Sanders und Sebastian Schlag 21. Oktober 2014 @ PdF Vorstellung INSTITUTE OF THEORETICAL INFORMATICS ALGORITHMICS KIT Universität

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Hadoop. HDFS und MapReduce JOHANNES FREY. Seminararbeit im Modul NoSQL-Datenbanken. Bachelorstudiengang Informatik. Universität Leipzig

Hadoop. HDFS und MapReduce JOHANNES FREY. Seminararbeit im Modul NoSQL-Datenbanken. Bachelorstudiengang Informatik. Universität Leipzig Hadoop HDFS und MapReduce Seminararbeit im Modul NoSQL-Datenbanken Bachelorstudiengang Informatik Universität Leipzig JOHANNES FREY UNTER BETREUUNG VON ANIKA GROß 22. Januar 2012 0 Inhalt 1. Hadoop...

Mehr

11.Vorlesung Cluster-, Grid- und Cloud-Computing Hochschule Mannheim

11.Vorlesung Cluster-, Grid- und Cloud-Computing Hochschule Mannheim Christian Baun, Viktor Mauch 11.Vorlesung Cluster-, Grid- und Cloud-Computing Hochschule Mannheim SS2011 1/72 11.Vorlesung Cluster-, Grid- und Cloud-Computing Hochschule Mannheim Christian Baun, Viktor

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden Neue Beziehungen finden...

Mehr

Datenverwaltung in der Cloud. Überblick. Google File System. Anforderungen der Anwendungen an das Dateisystem

Datenverwaltung in der Cloud. Überblick. Google File System. Anforderungen der Anwendungen an das Dateisystem Überblick Datenverwaltung in der Cloud Datenverwaltung in der Cloud Motivation Windows Azure Storage: Zusammenfassung CAP-Theorem nach [Brewer] In einem verteilten System ist es nicht möglich gleichzeitig

Mehr

Verteiltes Backup. Einleitung Grundlegende Backup Techniken Backup in Netzwerken. Client/Server Peer-to-Peer

Verteiltes Backup. Einleitung Grundlegende Backup Techniken Backup in Netzwerken. Client/Server Peer-to-Peer Verteiltes Backup Einleitung Grundlegende Backup Techniken Backup in Netzwerken Client/Server Peer-to-Peer Einleitung Backup: Das teilweise oder gesamte Kopieren der in einem Computersystem vorhandenen

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud 1 Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Zusammenfassung Das Thema Big Data und, damit

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud Ausarbeitung AW2 SS2012 Jan-Christoph Meier Data Mining in der Cloud Fakultät Technik und Informatik Department Informatik Faculty of Engineering and Computer Science Department of Computer Science Inhaltsverzeichnis

Mehr

Bachelorarbeit. Tim Horgas. Performance-Analyse von Apache Spark und Apache Hadoop. Fakultät Technik und Informatik Studiendepartment Informatik

Bachelorarbeit. Tim Horgas. Performance-Analyse von Apache Spark und Apache Hadoop. Fakultät Technik und Informatik Studiendepartment Informatik Bachelorarbeit Tim Horgas Performance-Analyse von Apache Spark und Apache Hadoop Fakultät Technik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer Science Department of Computer

Mehr

Einführung in die Hadoop-Welt HDFS, MapReduce & Ökosystem. Big Data für Oracle Entwickler September 2014 Carsten Herbe

Einführung in die Hadoop-Welt HDFS, MapReduce & Ökosystem. Big Data für Oracle Entwickler September 2014 Carsten Herbe HDFS, MapReduce & Ökosystem Big Data für Oracle Entwickler September 2014 Carsten Herbe Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 6: Large-Scale Datenanalyse Lars Kolb Sommersemester 2014 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Einführung Hadoop (und darauf aufbauende

Mehr

Teamprojekt & Projekt

Teamprojekt & Projekt 18. Oktober 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Thomas Hordnung, Alexander Schätzle, Martin Przjyaciel-Zablocki dbis Studienordnung Master: 16 ECTS 480 Semesterstunden

Mehr

Googles Map-Reduce-Technik

Googles Map-Reduce-Technik Googles Map-Reduce-Technik Wolfgang Gassler wolfgang.gassler@student.uibk.ac.at Zusammenfassung Durch die ständig steigende Datenflut im Internet müssen auch die Datenverarbeitungskapazitäten stark steigen.

Mehr

PVFS (Parallel Virtual File System)

PVFS (Parallel Virtual File System) Management grosser Datenmengen PVFS (Parallel Virtual File System) Thorsten Schütt thorsten.schuett@zib.de Management grosser Datenmengen p.1/?? Inhalt Einführung in verteilte Dateisysteme Architektur

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 3: Verteilte Dateisysteme Dr. nika Groß Sommersemester 2015 Universität Leipzig http://dbs.uni-leipzig.de/ Inhaltsverzeichnis Dateisysteme für die Cloud Notwendigkeit, Ziele

Mehr

Hadoop Forum OOP München 2016 Realitätscheck Hadoop. Timm Grosser, Leiter Beratung BI und Datenmanagement München, 02.

Hadoop Forum OOP München 2016 Realitätscheck Hadoop. Timm Grosser, Leiter Beratung BI und Datenmanagement München, 02. Hadoop Forum OOP München 2016 Realitätscheck Hadoop Timm Grosser, Leiter Beratung BI und Datenmanagement München, 02. Februar 2016 02.02.2016 BARC 2016 2 BARC: Expertise für datengetriebene Unternehmen

Mehr

Die Oracle Datenbank in die Welt von Hadoop und NoSQL integrieren

Die Oracle Datenbank in die Welt von Hadoop und NoSQL integrieren Die Oracle Datenbank in die Welt von Hadoop und NoSQL integrieren Schlüsselworte Gunther Pippèrr München NoSQL Hadoop Integration Oracle Databank - Oracle SQL Connector for HDFS - Oracle Loader for Hadoop

Mehr

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg Review Freelancer-Workshop: Fit für Big Data Mittwoch, 29.04.2015 in Hamburg Am Mittwoch, den 29.04.2015, hatten wir von productive-data in Zusammenarbeit mit unserem langjährigen Partner Informatica zu

Mehr

11.Vorlesung Cluster-, Grid- und Cloud-Computing Hochschule Mannheim

11.Vorlesung Cluster-, Grid- und Cloud-Computing Hochschule Mannheim Dr. Christian Baun 11.Vorlesung Cluster-, Grid- und Cloud-Computing Hochschule Mannheim WS1112 1/80 11.Vorlesung Cluster-, Grid- und Cloud-Computing Hochschule Mannheim Dr. Christian Baun wolkenrechnen@gmail.com

Mehr

Step 0: Bestehende Analyse-Plattform

Step 0: Bestehende Analyse-Plattform Die Themen 09:30-09:45 Einführung in das Thema (Oracle) 09:45-10:15 Hadoop in a Nutshell (metafinanz) 10:15-10:45 Hadoop Ecosystem (metafinanz) 10:45-11:00 Pause 11:00-11:30 BigData Architektur-Szenarien

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

Prozessarchitektur einer Oracle-Instanz

Prozessarchitektur einer Oracle-Instanz 6. Juni 2008 Inhaltsverzeichnis Oracle Instanz 1 Oracle Instanz 2 3 Redo Log Buffer Shared Pool Java Pool & Large Pool Oracle Instanz Eine Oracle-Instanz ist Hauptbestandteil des Oracle Datenbank Management

Mehr

Gerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2

Gerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2 Gerrit Thede Big and Fast Data - Verarbeitung von Streaming Data Grundlagen Vertiefung und Anwendungen 2 Fakultät Technik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer

Mehr