2. Map/Reduce Programming Model. Architektur von Datenbanksystemen II

Größe: px
Ab Seite anzeigen:

Download "2. Map/Reduce Programming Model. Architektur von Datenbanksystemen II"

Transkript

1 2. Map/Reduce Programming Model Architektur von Datenbanksystemen II

2 Motivation PROBLEMSTELLUNG Unternehmen wie Google, Yahoo, Facebook und Twitter müssen täglich Datenmengen im Bereich von TB und PB speichern und verarbeiten Daten sind zu groß, um sie auf einer einzigen Maschine sequentiell zu bearbeiten Darum: Die Verarbeitung großer Datenmengen geschieht heute häufig mit verteilten Rechnern in Clustern Es existieren 2 grundlegende Aufgabenbereiche: - Die Daten müssen möglichst effizient gespeichert werden - Die Daten müssen möglichst effizient verarbeitet werden 2

3 Datenspeicherung und -verarbeitung DATENSPEICHERUNG zur effizienten Datenspeicherung entwickelte Google das verteilte-dateisystem Google File System (GFS) - GFS arbeitet nach dem Master-Slave-Prinzip - Fehlertoleranz bei Hardwareausfällen erreicht GFS durch Replikation - DATENVERARBEITUNG Das Standardvorgehen bei verteilten Systemen ist üblicherweise: Es findet ein Transfer der zu verarbeitenden Daten zum Programm statt - Ein Programm startet auf einem Rechner und holt die benötigten Eingabedaten von einer Quelle (z.b. FTP-Server oder Datenbank) - Dieses Vorgehen ist bei großen Datenmengen wegen des Datentransfers ein Flaschenhals und somit nicht optimal - Lösung: Die Datenverarbeitung muss dort stattfinden, wo die Daten gespeichert sind à Das ist mit dem Map/Reduce-Programmiermodell möglich 3

4 Zwei Bedeutungen von Map/Reduce MAP/REDUCE-PROGRAMMIERMODELL Für die parallele Datenverarbeitung in Clustern MAP/REDUCE-FRAMEWORK Arbeiten nach dem Map/Reduce- Programmiermodell Unterscheiden sich durch die Wahl der Programmiersprache und in den Implementierungsdetails 4

5 MapReduce-Programmiermodell Ansatz ZIEL Verstecke Komplexität der parallelen Programmierung, Datenverteilung, Fehlertoleranz vor dem Entwickler MAP/REDUCE-ANSATZ Das Map/Reduce-Programmiermodell teilt Aufgaben in kleine Teile auf und verteilt sie zur gleichzeitigen Verarbeitung auf unterschiedliche Rechnerknoten auf (Map-Phase) Das Endergebnis entsteht durch die Zusammenführung der Teilergebnisse (Reduce- Phase) Map Fold f f f f f g g g g g 5

6 Wurzeln und funktionale Progammierung WURZELN VON MAP/REDUCE Das Konzept MapReduce hat seine Wurzeln in Lisp Lisp kennt die beiden Funktionen map() und reduce() Lisps map-funktion wird mit einer Liste von Eingabewerten und einer Funktion als Parameter aufgerufen - die übergebene Funktion wird auf jeden Wert der Liste angewendet Lips reduce-funktion ruft man auch mit einer Funktion und einer Liste mit Eingabewerten auf - Reduce arbeitet ähnlich wie map, führt aber alle Ergebnisse zusammen MAP/REDUCE BASIERT AUF DEM PRINZIP FUNKTIONALE PROGRAMMIERUNG Funktionale Programmierung ist ein Programmierstil, bei dem Programme ausschließlich aus Funktionen bestehen Funktionale Programme sind eine Menge von (Funktions-)Definitionen (Funktions-)Definitionen sind partielle Abbildungen von Eingabedaten auf Ausgabedaten Die Eingabedaten werden nie verändert! Die Funktionen sind idempotent (frei von Seiteneffekten) - bei jedem identischen Aufruf wird das gleiche Ergebnis zurückgeliefert Es werden ausschließlich Berechnungen mit Eingabedaten durchgeführt und neue Zwischenergebnisse gebildet 6

7 Map/Reduce MAP/REDUCE BESTEHT AUS 3 SCHRITTEN Partitionierung der Eingabedaten Abbilden (Mappen) der Daten auf eine Datenstruktur, die aus einem Schlüssel-Wert-Paar besteht und Kombinieren der Daten map(k1, v1) à list(k2, v2) Reduzieren (Reduce) der Schlüssel-Wert-Paare zum Ergebnis reduce(k2, list(v2)) à list(v2)! 7

8 Beispiel Map MAP ERZEUGT ALS ZWISCHENERGEBNIS EINE SAMMLUNG VON (SCHLÜSSEL, WERT)-PAAREN BEISPIEL: ZÄHLE WÖRTER IN EINEM DOKUMENT Textinhalt des Dokuments map(dokumentname, wert){ for each word w in wert emit(w, "1"); } Emittiert für jedes Wort ein Paar, welches das Wort und die Häufigkeit 1 enthält. Für dasselbe Wort, das mehr als einmal vorkommt, werden mehrere Paare erzeugt Anmerkung: Die Eingabe (dokumentname, wert) ist auch ein Paar, jedoch haben dessen Elemente einen anderen Definitionsbereich als die Elemente der emittierten Paare 8

9 Beispiel Reduce REDUCE KOMBINIERT ZWISCHENERGEBNISSE Beispiel (fortgesetzt) reduce(wort, werte){ int ergebnis = 0; for each w in werte ergebnis += w; emit(wort, ergebnis); Liste mit Worthäufigkeiten: Entsteht durch Aufsammeln und Gruppieren mehrerer Paare, die dasselbe Wort als Schlüssel haben (Shuffle) Wird der Reduce-Operation als Iterator übergeben. Auf diese Weise sind große Datenmengen handhabbar, die sonst nicht vollständig in den Speicher passen würden } Summiere die Häufigkeiten aus der Werteliste auf und emittiere das Ergebnis Anmerkung: Elemente der Eingabe-Paars haben denselben Definitionsbereich wie die des Ausgabe-Paars (Yahoo s Hadoop ist hier etwas großzügiger.) Es kann mehrere Arbeiter geben, welche die Reduktionsoperation ausführen und selbst wieder Zwischenergebnisse emittieren 9

10 MapReduce Ablauf im Detail (1) User Program (1) fork (1) fork Master (1) fork (2) assign map (2) assign reduce split 0 split 1 split 2 split 3 split 4 (3) read (4) local write (5) remote read (6) write output file 0 output file 1 Input files Map phase Intermediate files (on local disk) Reduce phase Output files 10

11 MapReduce Ablauf im Detail (2) split 0 split 1 split 2 split 3 split 4 (3) read User Program Für die parallele (1) submit Ausführung der Map-Operation werden zunächst die Eingabedaten in M disjunkte Partitionen Master ("splits") zerlegt (2) Etwa schedule map MB (2) pro schedule Partition reduce (kontrollierbar durch Parameter) Können parallel auf verschiedenen Rechnern bearbeitet werden (6) write (5) remote read output file 0 (4) local write output file 1 Input files Map phase Intermediate files (on local disk) Reduce phase Output files 11

12 MapReduce Ablauf im Detail (3) User Program (1) fork (1) fork Master (1) fork (2) assign map (2) assign reduce split 0 split 1 split 2 split 3 split 4 (5) remote read (3) read Danach: Starte Kopien des (4) local write Programms auf Rechner im Cluster (1) Definiere eine Instanz als Koordinator, den Rest als Arbeiter (6) write output file 0 output file 1 Input files Map phase Intermediate files (on local disk) Reduce phase Output files 12

13 MapReduce Ablauf im Detail (4) User Program (1) fork (1) fork Master (1) fork (2) assign map (2) assign reduce split 0 split 1 (5) remote read (3) read split Koordinator 2 (Master) weist (4) local laufenden write Arbeitersplit 3 Instanzen Map- oder Reduce-Aufgabe zu (2) split (beachtet 4 Lokalitätsgesichtspunkte) Es werden M Map-Aufgaben und R Reduce-Aufgaben zugewiesen (6) write output file 0 output file 1 Input files Map phase Intermediate files (on local disk) Reduce phase Output files 13

14 MapReduce Ablauf im Detail (4) split 0 split 1 split 2 split 3 split 4 Input files (3) read Arbeiter mit Map-Aufgabe User Liest Inhalte seiner zugewiesenen Partition Program (3) (1) fork Bearbeitet alle Eingabepaare mit seiner Map- (1) fork Funktion Master (1) fork Die Ergebnisse werden im Hauptspeicher (2) assign map (2) assign gepuffert reduce In periodischen Abständen werden Puffer auf Festplatte geschrieben (4) (6) write (5) remote read Anhand einer Partitionierungsfunktion output file 0 (4) local write in R Partitionen unterteilt (z.b. hash(key) mod R) output Der Ablageort der Partitionen wird file 1 dem Koordinator gemeldet, der für die Übergabe an Reduce-Arbeiter Map Intermediate files verantwortlich ist Reduce Output phase (on local disk) phase files 14

15 MapReduce Ablauf im Detail (5) Arbeiter mit Reduce-Aufgabe Wird vom Koordinator benachrichtigt User Program Bekommt Ablageort für Zwischenergebnisse (Partitionen), die er von den (1) fork Festplatten der Worker liest (1) (5) fork Master (1) fork Shuffle: Sortierung der Paare nach Schlüssel, so dass Paare mit gleichem Schlüssel (2) assign map (2) assign reduce gruppiert werden Arbeiter split 0 iteriert darüber Jeder split Schlüssel 1 wird samt der (5) remote read (3) read zugehörigen split 2 Werte der (4) local write split 3 Reduktionsoperation übergeben Das Ergebnis split 4der Reduktionsfunktion wird in einer Ausgabedatei angefügt, die zur Partition assoziiert ist (6) (6) write output file 0 output file 1 Input files Map phase Intermediate files (on local disk) Reduce phase Output files 15

16 MapReduce Ablauf im Detail (6) split 0 split 1 split 2 split 3 split 4 (3) read Wenn alle Map- und Reduce-Aufgaben bearbeitet User wurden, kehrt der Aufruf zum Benutzer- Program Programm zurück. (1) forkdie Ausgabe des MapReduce-Programms (1) fork Master befindet sich in R Dateien (eine pro Reduktions- Aufgabe) (1) fork (2) assign map (2) assign Können reduce als Eingabe für weitere Map-Reduce- Aufrufe verwendet werden (4) local write (5) remote read (6) write output file 0 output file 1 Input files Map phase Intermediate files (on local disk) Reduce phase Output files 16

17 Fehlertoleranz WORKERS Werden periodisch abgefragt, ob noch funktionsfähig Keine Antwort: Kennzeichnung als nicht funktionsfähig Zugewiesene Aufgaben werden vom Koordinator neu verteilt Auch erfolgreich beendete Map-Aufgaben werden neu verteilt, da deren Ausgabe auf lokaler Festplatte war Reduce-Arbeiter werden über Änderung benachrichtigt KOORDINATOR Zustand wird regelmäßig gesichert ( Checkpointing ) Bei Versagen: Neustart und Wiederherstellung des letzten gesicherten Zustands FEHLERTOLERANZ IST DER ZENTRALE VORTEIL VON MAPREDUCE! Es geht bei MapReduce nicht nur darum, Rechenaufwand zu parallelisieren. 17

18 Verteiltes Dateisystem WIE GELANGEN DIE DATEN ZU DEN WORKERS? VERSCHIEBE NICHT DIE DATEN ZU DEN WORKERS, SONDERN DIE WORKERS ZU DEN DATEN! Daten sind auf den lokalen Festplatten der einzelnen Knoten im Cluster gespeichert Starten der Workers an welchendie Daten lokal vorliegen DATEN IN EINEM VERTEILTEN DATEISYSTEM GESPEICHERT GFS (Google File System) für Googles MapReduce HDFS (Hadoop Distributed File System) für Hadoop GOOGLES MAPREDUCE Map speichert Ergebnis im lokalen Dateisystem. Reduce holt sich Daten via RPC; schreibt Ergebnis in verteiltes Dateisystem (GFS). 18

19 MapReduce Beispiele WETTERDATEN 1. UNSTRUKTURIERTE WETTERDATEN EINLESEN FM V N N N ADDGF FM V N N N ADDGF :00-7,2 c 19

20 MapReduce Beispiele (2) WETTERDATEN 2. ZUORDNUNG VON DATEI-INHALT ZU POSITIONEN Jede Zeile wird anhand des Byte-Offsets identifiziert Byte-Offset verweist jeweils auf den Beginn der Zeile (k1, v1) = (long, String) 20

21 MapReduce Beispiele (3) WETTERDATEN 3. MAP: TRANSFORMIEREN DIESER SCHLÜSSEL-/WERTE-PAARE IN ZWISCHEN-SCHLÜSSEL-WERTE-PAARE Benötigte Daten werden aus den Zeilen extrahiert Es entstehen viele Key/Value-Paare Jahr Temperatur 21

22 MapReduce Beispiele (4) WETTERDATEN 4. SHUFFLE: ERZEUGEN VON GRUPPIERTEN SCHLÜSSEL-/WERTE-PAAREN Sortieren der Schlüssel Zuordnen von Werten zu einem Schlüssel Jeder Mapper schreibt den sortierten Output ins Filesystem Pro Jahr wird ein eigener Reducerauf einem Rechner im Cluster ausgeführt Jahr Temperatur

23 MapReduce Beispiele (5) WETTERDATEN 5. REDUCE Zusammenfassung der Werte (hier: Maximum finden) Pro Schlüssel nur noch ein Wert Jahr Temperatur

24 MapReduce Beispiele (6) WETTERDATEN 6. AUSGABE IN EINE DATEI 24

25 Beispiele, wo MapReduce hilfreich ist VERTEILTE HÄUFIGKEITSANALYSE Wie häufig kommen welche Wörter in einem umfangreichen Text vor? - Map-Funktion: Schreibt <Wort, 1> in einen Zwischenspeicher - Reduce-Funktion: Addiert die Werte für ein Wort zu <Wort, Summe> VERTEILTES GREP In welchen Zeilen eines Textes kommt ein Suchmuster vor? - Map-Funktion: Schreibt gefundene Zeilen in einen Zwischenspeicher - Reduce-Funktion: Reicht die Zwischenergebnisse zur Ausgabe durch BERECHNUNG VON WEBSEITEN-ANFRAGEN... Map-Funktion: Durchsucht die Webserver-Logdaten und schreibt Schlüssel-Wert-Paare <URL, 1> in einen Speicher für Zwischenergebnisse Reduce-Funktion: Addiert die Werte ür eine URL zu <URL, Summe> 25

26 Analyse Verteiltes Grep PERFORMANZ Ausführung eines auf MapReduce basierenden grep-programms (Global Regular Expression Print) Durchsucht Byte lange Datensätze (~ 1TB) nach einem seltenen, drei Zeichen langem Muster (nur in Datensätzen vorhanden) Eingabe in M= Partitionen à 64MB unterteilt, Ausgabe in einer einzigen Partition (R=1) Datentransferrate im zeitlichen Verlauf (Cluster mit Rechnern, mit je 2GHz Intel Xeon, 4GB RAM, 2x160GB HD, Gigabit Ethernet) Rate, mit der Eingabedaten gelesen werden Sekunden nach Ausführung 26

27 Analyse Verteiltes Grep (2) PERFORMANZ (FORTSETZUNG) Rate nimmt anfangs zu, wenn mehr und mehr Rechnern Arbeit zugewiesen wird Maximum bei ~30GB/s und Arbeitern Danach beginnen Map-Aufgaben fertig zu werden Gesamtdauer der Ausführung etwa 150s; Mehraufwand beim Start ~1 Minute (Programm auf verschiedenen Rechnern starten, etc.) 27

28 Map-Reduce Implementierungen DAS MAPREDUCE-KONZEPT IST NICHT AN EINE BESTIMMTE RECHNERARCHITEKTUR GEBUNDEN Die Implementierung der Schnittstelle kann z.b. auf Rechner mit verteiltem Speicher (Cluster) oder gemeinsamen Speicher (Multicore-Rechner) zugeschnitten sein Beispiel für Implementierungen - Auf Architektur mit gemeinsamen Speicher: Phoenix (Stanford, C++/PThreads) - Auf Architektur mit verteiltem Speicher: Google, Hadoop 28

29 Map-Reduce Implementierungen (2) PROPRIETÄRE ENTWICKLUNG DURCH GOOGLE Implementiert in C++ Bindings in Java, Python OPEN-SOURCE-IMPLEMENTIERUNG IN JAVA (HADOOP) Ursprünglich von Yahoo entwickelt, produktiv eingesetzt Mittlerweile Apache-Projekt VIELE FORSCHUNGSPROTOTYPEN Umsetzungen für GPUs - Bingsheng He, Wenbin Fang, Qiong Luo, Naga K. Govindaraju, and Tuyong Wang. Mars: A MapReduce Framework on Graphics Processors. PACT 2008 Cell-Prozessoren - Marc de Kruijf and Karthikeyan Sankaralingam. MapReduce for the Cell B.E. Architecture. IBM Journal of Research and Development, 53(5),

30 Hadoop

31 Hadoop - Überblick WAS IST HADOOP? Hadoop ist eine Implementierung des MapReduce-Konzepts Open Source Projekt der Apache Software Foundation Download für Unix/Linux verfügbar Programmierung mit Java, Python, C++, etc. möglich HADOOP KOMPONENTEN Hadoop Common - Stellt Grundfunktionen bereit: implementierungsneutrale File-System-Schnittstelle, Schnittstelle für die RPC-Kommunikation im Cluster Hadoop Distributed FileSystem (HDFS) - Primäre Dateisystem von Hadoop, folgt dem Vorbild des Google-Dateisystems - Eingabe-Dateien müssen erst in das HDFS kopiert werden, bevor sie verwendet werden können - Master-Slave Struktur, Fehlertoleranz durch dreifache Redundanz - Performanz auf sequentielles Lesen und Schreiben ganzer Blöcke optimiert - Es werden auch andere Dateisysteme unterstützt (z.b. CloudStore, S3) Hadoop MapReduce - Bietet alle Funktionen um nach dem MapReduce-Programmiermodell zu entwickeln 31

32 Webmap Sort benchmarks (Jim Gray contest) ~70 hours runtime ~300 TB shuffling ~200 TB output 1480 nodes 1 Terabyte sorted 209 seconds 900 nodes ~73 hours runtime ~490 TB shuffling ~280 TB output 2500 nodes 1 Terabyte sorted 62 seconds, 1500 nodes 1 Petabyte sorted hours, 3700 nodes Largest cluster 2000 nodes 6PB raw disk 16TB of RAM 16K CPUs 4000 nodes 16PB raw disk 64TB of RAM 32K CPUs (40% faster CPUs too) 32

33 Exercise

34 TPC-H Tips TPC-H: AN AD-HOC, DECISION SUPPORT BENCHMARK Consists of a schema, a data generator, and 22 analytical queries 34

35 TPC-H Tips TPC-H: AN AD-HOC, DECISION SUPPORT BENCHMARK Consists of a schema, a data generator, and 22 analytical queries INSTALLATION Download the tools, copy and edit makefile.suite, run make Example settings in makefile: - DATABASE=ORACLE - MACHINE=LINUX - WORKLOAD=TPCH - On OSX, adding -I/usr/include/malloc to CFLAGS seems necessary dbgen generates data (*.tbl) files, which are usually loaded into an RDBMS - With Hadoop, we just directly read the files from HDFS and map&reduce them line-by-line - dbgen s most interestingparameter is the scaling factor (-s) that determines the output database s size in GB (roughly). Leavingit at 1 is ok for this exercise, so a call might look like./dbgen -vf -s 1 qgen fills variables in query template, not necessary for this exercise, just have a look at the query templates in queries 35

36 TPC-H Q1 36

37 Task GENERATE A TPC-H DATABASE AND LOAD IT INTO HDFS IMPLEMENT Q1 AS A MAP/REDUCE JOB Think carefully about whichparts of the SQL query you put into map() and whichintoreduce() PREPARE 1-2 SLIDES WITH THE MOST INTERESTING/DIFFICULT PARTS OF THE IMPLEMENTATION, AND DISCUSS. IDEAS FOR DISCUSSION: How much can this query be parallelized by using Hadoop? What is the bottleneck, i.e., the most sequential part of the calculation? Is there anything that could be done about this? Is there anything specific in Hadoop that could be done? Under what conditions? 37

MapReduce. Julia Bergbauer - Ferienakademie 2009

MapReduce. Julia Bergbauer - Ferienakademie 2009 1 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 2 1) Grundlegendes = von Google eingeführtes Framework Ausnutzen der MulticoreProzessoren

Mehr

2. Map/Reduce Programming Model. Architektur von Datenbanksystemen II

2. Map/Reduce Programming Model. Architektur von Datenbanksystemen II 2. Map/Reduce Programming Model Architektur von Datenbanksystemen II Motivation PROBLEMSTELLUNG Unternehmen wie Google, Yahoo, Facebook und Twitter müssen täglich Datenmengen im Bereich von TB und PB speichern

Mehr

Universität Karlsruhe (TH)

Universität Karlsruhe (TH) Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Software Engineering für moderne, parallele Plattformen 10. MapReduce Dr. Victor Pankratius Agenda Motivation Der MapReduce-Ansatz Map- und

Mehr

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce. c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce. c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1 Überblick Verarbeitung großer Datenmengen Motivation MapReduce c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele) Indexierung des World

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

MapReduce: Simplified Data Processing on Large Clusters

MapReduce: Simplified Data Processing on Large Clusters MapReduce: Simplified Data Processing on Large Clusters Hardware-Software-Co-Design Universität Erlangen-Nürnberg Tobias.Schwarzer@e-technik.stud.uni-erlangen.de Michael.Theil@mathe.stud.uni-erlangen.de

Mehr

!! Waldemar Reger Köln,

!! Waldemar Reger Köln, Analyse und Evaluierung von Parameterabhängigkeiten anhand der Laufzeit von MapReduce-Jobs zur Konzeptionierung von Hadoop-Clustern Waldemar Reger Köln, 23.07.2014 Agenda 1. Hadoop Grundlagen 2. Cluster

Mehr

Schneller als Hadoop?

Schneller als Hadoop? Schneller als Hadoop? Einführung in Spark Cluster Computing 19.11.2013 Dirk Reinemann 1 Agenda 1. Einführung 2. Motivation 3. Infrastruktur 4. Performance 5. Ausblick 19.11.2013 Dirk Reinemann 2 EINFÜHRUNG

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012 MapReduce Vereinfachte Datenverarbeitung in großen Rechnerverbünden Igor Marijanovic 794894 Fachvortrag WAR 19.12.2012 Beuth Hochschule für Technik Berlin Inhalt Einleitung Hauptteil Abschluss MapReduce

Mehr

Verteilte Systeme. Map Reduce. Secure Identity Research Group

Verteilte Systeme. Map Reduce. Secure Identity Research Group Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

FEBE Die Frontend-Backend-Lösung für Excel

FEBE Die Frontend-Backend-Lösung für Excel FEBE Die Frontend--Lösung für FEBE Die Frontend--Lösung für FEBE.pptx 8.04.206 0:43 FEBE Die Frontend--Lösung für Nutzer A alle_aufträge neuer_auftrag Auftragsänderung Nutzer B alle_aufträge neuer_auftrag

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

MapReduce. Jens Dörre. Universität Passau Projekt MAPREDUCEFOUNDATION. Funktionale Programmierung

MapReduce. Jens Dörre. Universität Passau Projekt MAPREDUCEFOUNDATION. Funktionale Programmierung MapReduce Jens Dörre Universität Passau Projekt MAPREDUCEFOUNDATION Funktionale Programmierung Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 1 / 25 Gliederung 1 MapReduce allgemein 2 MapReduce

Mehr

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Herzlich Willkommen bei Webinar@Lunchtime Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Xing-Profil:

Mehr

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark. c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark. c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1 Überblick Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele) Indexierung

Mehr

MapReduce-Konzept. Thomas Findling, Thomas König

MapReduce-Konzept. Thomas Findling, Thomas König MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel

Mehr

Big Data. Professional IT Master. Prof. Dr. Ingo Claßen. Überblick. Verarbeitungsmodell. Verarbeitungsablauf. Verteilte Daten. Ressourcenmanagement

Big Data. Professional IT Master. Prof. Dr. Ingo Claßen. Überblick. Verarbeitungsmodell. Verarbeitungsablauf. Verteilte Daten. Ressourcenmanagement Big Data Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Überblick Verarbeitungsmodell Verarbeitungsablauf Verteilte Daten Ressourcenmanagement Koordination Überblick

Mehr

Webscale Data Management. 8 Map/Reduce. Prof. Dr. - Ing. Wolfgang Lehner

Webscale Data Management. 8 Map/Reduce. Prof. Dr. - Ing. Wolfgang Lehner Webscale Data Management 8 Map/Reduce Prof. Dr. - Ing. Wolfgang Lehner > Web- scale Data Management Big Data PBs of data, 10 2-10 5 nodes Opera7onal High qps, a few rows/op e.g., BigTable, Dynamo, PNUTS

Mehr

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Big Data Konnektoren: Hadoop und die Oracle DB

Big Data Konnektoren: Hadoop und die Oracle DB Big Data Konnektoren: Hadoop und die Oracle DB Philipp Loer ORDIX AG, Paderborn Schlüsselwörter Hadoop, Hive, OLH, OSCH Einleitung Der Vortrag beginnt mit einer Einführung in die Big Data Welt mit Apache

Mehr

OpenCL. Programmiersprachen im Multicore-Zeitalter. Tim Wiersdörfer

OpenCL. Programmiersprachen im Multicore-Zeitalter. Tim Wiersdörfer OpenCL Programmiersprachen im Multicore-Zeitalter Tim Wiersdörfer Inhaltsverzeichnis 1. Was ist OpenCL 2. Entwicklung von OpenCL 3. OpenCL Modelle 1. Plattform-Modell 2. Ausführungs-Modell 3. Speicher-Modell

Mehr

TSM 5.2 Experiences Lothar Wollschläger Zentralinstitut für Angewandte Mathematik Forschungszentrum Jülich

TSM 5.2 Experiences Lothar Wollschläger Zentralinstitut für Angewandte Mathematik Forschungszentrum Jülich TSM 5.2 Experiences Lothar Wollschläger Zentralinstitut für Angewandte Mathematik Forschungszentrum Jülich L.Wollschlaeger@fz-juelich.de Contents TSM Test Configuration Supercomputer Data Management TSM-HSM

Mehr

Fast Analytics on Fast Data

Fast Analytics on Fast Data Fast Analytics on Fast Data Kudu als Storage Layer für Banking Applikationen Problem Klassischer Kreditprozess Beantragung in der Filiale Aufwendiger Prozess Nachweis durch Dokumente Manuelle Bewilligung

Mehr

Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014

Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014 Überblick Hadoop Einführung HDFS und MapReduce DOAG Regionaltreffen München/Südbayern Februar 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business

Mehr

GERICHTETER GEWICHTETER GRAPH DESIGNDOKUMENT

GERICHTETER GEWICHTETER GRAPH DESIGNDOKUMENT User Requirements GERICHTETER GEWICHTETER GRAPH DESIGNDOKUMENT Softwareentwicklung Praktikum, Übungsbeispiel 1 Gruppe 18 Andreas Hechenblaickner [0430217] Daniela Kejzar [0310129] Andreas Maller [0431289]

Mehr

Introduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2016

Introduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2016 to to May 2016 to What is Programming? All computers are stupid. All computers are deterministic. You have to tell the computer what to do. You can tell the computer in any (programming) language) you

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Implementierungstechniken für Hauptspeicherdatenbanksysteme

Implementierungstechniken für Hauptspeicherdatenbanksysteme Implementierungstechniken für Hauptspeicherdatenbanksysteme Michael Schwarz 9. Februar 2018 Zusammenfassung Mapreduce ist ein von Dean und Ghemawat 2004 vorgestelltes Programmiermodell zur parallelisierten

Mehr

Big Data Management Thema 14: Cassandra

Big Data Management Thema 14: Cassandra Thema 14: Cassandra Jan Kristof Nidzwetzki Thema 14: Cassandra 1 / 25 Übersicht 1 Grundlagen Überblick Geschichte Datenmodel 2 Architektur Der logische Ring Persistenz der Daten Tunable Consistency Read

Mehr

Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten. von Florian Eiteljörge

Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten. von Florian Eiteljörge Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten von Florian Eiteljörge 1. Was ist Bigtable? 2. Datenmodell Übersicht 3. Implementierung/Architektur von Bigtable 4. Vergleich mit

Mehr

BIG UNIVERSITÄTSRECHENZENTRUM

BIG UNIVERSITÄTSRECHENZENTRUM UNIVERSITÄTS RECHENZENTRUM LEIPZIG BIG DATA @ UNIVERSITÄTSRECHENZENTRUM Forschung und Entwicklung Entwicklung eines E-Science-Angebots für die Forschenden an der Universität Leipzig Stefan Kühne Axel Ngonga

Mehr

Big Data in der Praxis

Big Data in der Praxis Jonas Freiknecht Big Data in der Praxis Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren HANSER Vorwort XI 1 Einleitung 1 2 Big-Data 7 2.1 Historische Entstehung 8 2.2 Big-Data

Mehr

Data Mining und Machine Learning

Data Mining und Machine Learning Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende

Mehr

Skalierbare Webanwendungen

Skalierbare Webanwendungen Skalierbare Webanwendungen Thomas Bachmann Lead Software Architect & CIO Mambu GmbH Twitter: @thobach Anwendungsbeispiel Hohe Nichtfunktionale Anforderungen Sicherheit Vertraulichkeit Integrität Verfügbarkeit

Mehr

SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database

SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database Carsten Czarski Oracle Deutschland B.V. & Co KG Agenda NoSQL: Was ist das und wozu ist das gut? Anwendungsbereiche für NoSQL-Technologien,

Mehr

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen.

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. 1 In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. Zunächst stellt sich die Frage: Warum soll ich mich mit der Architektur eines DBMS beschäftigen?

Mehr

IDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz

IDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz IDS Lizenzierung für IDS und HDR Primärserver IDS Lizenz HDR Lizenz Workgroup V7.3x oder V9.x Required Not Available Primärserver Express V10.0 Workgroup V10.0 Enterprise V7.3x, V9.x or V10.0 IDS Lizenz

Mehr

NoSQL Datenbanken am Beispiel von HBase. Daniel Georg

NoSQL Datenbanken am Beispiel von HBase. Daniel Georg NoSQL Datenbanken am Beispiel von HBase Daniel Georg No to SQL at all sondern Not only SQL Open- Source Community Erst im Jahr 2009 gestartet Community bietet verschiede Lösungen: Casandra, CouchDD, HBase,

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken 12. NoSQL Inhalt 12.1 NoSQL? 12.2 MapReduce & Co 12.3 Key-Value Stores 12.4 Extensible Record Stores 12.5 Dokumentorientierte Datenbanken 12.6 Graphdatenbanken 2 12.1 NoSQL? Relationale Datenbanksysteme

Mehr

Schneller als Hadoop? Einführung in Spark Cluster Computing

Schneller als Hadoop? Einführung in Spark Cluster Computing Schneller als Hadoop? Einführung in Spark Cluster Computing Dirk Reinemann Oracle Deutschland B.V. & Co. KG Potsdam Schlüsselworte Big Data, Cluster Computing, Spark, Shark, Resilient Distributed Datasets,

Mehr

Algorithms for graph visualization

Algorithms for graph visualization Algorithms for graph visualization Project - Orthogonal Grid Layout with Small Area W INTER SEMESTER 2013/2014 Martin No llenburg KIT Universita t des Landes Baden-Wu rttemberg und nationales Forschungszentrum

Mehr

Einführung: Verteilte Systeme - Remote Method Invocation -

Einführung: Verteilte Systeme - Remote Method Invocation - Einführung: Verteilte Systeme - - Prof. Dr. Michael Cebulla 11. Dezember 2014 Fachhochschule Schmalkalden Wintersemester 2014/15 1 / 43 M. Cebulla Verteilte Systeme Gliederung 1 2 Architektur RMI Kommunikation

Mehr

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken 7. NoSQL Inhalt 12.1 NoSQL? 12.2 MapReduce & Co 12.3 Key-Value Stores 12.4 Extensible Record Stores 12.5 Dokumentorientierte Datenbanken 12.6 Graphdatenbanken 2 12.1 NoSQL? Relationale Datenbanksysteme

Mehr

SODA. Die Datenbank als Document Store. Rainer Willems. Master Principal Sales Consultant Oracle Deutschland B.V. & Co. KG

SODA. Die Datenbank als Document Store. Rainer Willems. Master Principal Sales Consultant Oracle Deutschland B.V. & Co. KG SODA Die Datenbank als Document Store Rainer Willems Master Principal Sales Consultant Oracle Deutschland B.V. & Co. KG vs No Anforderungskonflikte Agile Entwicklung Häufige Schema-Änderungen Relationales

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de , NoSQL source:dilbert.com Inhalte der nächsten Vorlesungen ˆ Methoden große Datenmengen

Mehr

Algorithmen und Datenstrukturen Wintersemester 2004/ November T(n) = T(n a) + T(a) + n

Algorithmen und Datenstrukturen Wintersemester 2004/ November T(n) = T(n a) + T(a) + n Lehrstuhl für Praktische Informatik III Norman May B6, 29, Raum C0.05 68131 Mannheim Telefon: (0621) 181 2517 Email: norman@pi3.informatik.uni-mannheim.de Matthias Brantner B6, 29, Raum C0.05 68131 Mannheim

Mehr

Hauptspeicher- Datenbanksysteme. Hardware-Entwicklungen Column- versus Row-Store...

Hauptspeicher- Datenbanksysteme. Hardware-Entwicklungen Column- versus Row-Store... Hauptspeicher- Datenbanksysteme Hardware-Entwicklungen Column- versus Row-Store... Hauptspeicher-Datenbanksysteme Disk is Tape, Tape is dead Jim Gray Die Zeit ist reif für ein Re-engineering der Datenbanksysteme

Mehr

Was machen wir heute? Betriebssysteme Tutorium 11. Mounten: Vorher. Frage 11.1.a

Was machen wir heute? Betriebssysteme Tutorium 11. Mounten: Vorher. Frage 11.1.a Was machen wir heute? Betriebssysteme Tutorium 11 Philipp Kirchhofer philipp.kirchhofer@student.kit.edu http://www.stud.uni-karlsruhe.de/~uxbtt/ Lehrstuhl Systemarchitektur Universität Karlsruhe (TH) 1

Mehr

2. Architektur verteilter Datenbanksysteme

2. Architektur verteilter Datenbanksysteme 2. Architektur verteilter Datenbanksysteme Verteilte Datenbank, kurz DDB (engl. distributed database): eine Sammlung logisch zusammengehöriger Datenbanken, welche über Rechnerknoten ( Sites ) verteilt

Mehr

Manual / Bedienungsanleitung Online Market data Survey Online-Eingabe Marktdaten

Manual / Bedienungsanleitung Online Market data Survey Online-Eingabe Marktdaten L:\PMH\MRKT\proj\marktinformationen\conf\Marktinformationen\Projekt Marktanalyse 2013\Angebote Online Befragung\Manual-Anleitung-Onlineform.doc Manual / Bedienungsanleitung Online Market data Survey Online-Eingabe

Mehr

FAHRZEUGENTWICKLUNG IM AUTOMOBILBAU FROM HANSER FACHBUCHVERLAG DOWNLOAD EBOOK : FAHRZEUGENTWICKLUNG IM AUTOMOBILBAU FROM HANSER FACHBUCHVERLAG PDF

FAHRZEUGENTWICKLUNG IM AUTOMOBILBAU FROM HANSER FACHBUCHVERLAG DOWNLOAD EBOOK : FAHRZEUGENTWICKLUNG IM AUTOMOBILBAU FROM HANSER FACHBUCHVERLAG PDF Read Online and Download Ebook FAHRZEUGENTWICKLUNG IM AUTOMOBILBAU FROM HANSER FACHBUCHVERLAG DOWNLOAD EBOOK : FAHRZEUGENTWICKLUNG IM AUTOMOBILBAU FROM Click link bellow and free register to download ebook:

Mehr

Microsoft Azure Deutschland ist jetzt verfügbar -

Microsoft Azure Deutschland ist jetzt verfügbar - Einordnung und Überblick Data Scientist Operationalisierung IT-Abteilung Anwendungsentwickler Der Data Scientist agil Tool seiner Wahl möglichst wenig Zeit Skalierung Code für die Operationalisierung Der

Mehr

Objekte. Theorieteil. Inhaltsverzeichnis. Begriffe. Programmieren mit Java Modul 5. 1 Modulübersicht 3

Objekte. Theorieteil. Inhaltsverzeichnis. Begriffe. Programmieren mit Java Modul 5. 1 Modulübersicht 3 Programmieren mit Java Modul 5 Objekte Theorieteil Inhaltsverzeichnis 1 Modulübersicht 3 2 Klassen und Objekte 3 2.1 Klassen.................................... 4 2.2 Objektvariablen und Methoden.......................

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Jürgen Vester Oracle Deutschland B.V. & Co KG Um was geht es bei Big Data? Bei Big Data sprechen wir eine Klasse von Daten an, die in der

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Exercise (Part V) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Exercise (Part V) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1 Exercise (Part V) Notes: The exercise is based on Microsoft Dynamics CRM Online. For all screenshots: Copyright Microsoft Corporation. The sign ## is you personal number to be used in all exercises. All

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Context. Verteilte Programmierung im Überblick. Verteilte Systeme/Distributed Systems. Konzeption der LVA

Context. Verteilte Programmierung im Überblick. Verteilte Systeme/Distributed Systems. Konzeption der LVA Motivation & Inhaltsübersicht Vorlesung Verteilte Systeme Wintersemester 2003/04 O.Univ.-Prof. Dipl.-Ing. Dr.techn. Wolfgang Pree Copyright Wolfgang Pree, All Rights Reserved Permission to make digital

Mehr

Ressourcenmanagement in Netzwerken SS06 Vorl. 12,

Ressourcenmanagement in Netzwerken SS06 Vorl. 12, Ressourcenmanagement in Netzwerken SS06 Vorl. 12, 30.6.06 Friedhelm Meyer auf der Heide Name hinzufügen 1 Prüfungstermine Dienstag, 18.7. Montag, 21. 8. und Freitag, 22.9. Bitte melden sie sich bis zum

Mehr

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Zusammenfassung. c td MWCC (WS14/15) Verarbeitung großer Datenmengen 7 1

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Zusammenfassung. c td MWCC (WS14/15) Verarbeitung großer Datenmengen 7 1 Überblick Verarbeitung großer Datenmengen Motivation MapReduce Pig Zusammenfassung c td MWCC (WS14/15) Verarbeitung großer Datenmengen 7 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele)

Mehr

Introduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2018

Introduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2018 to to May 2018 to What is Programming? All computers are stupid. All computers are deterministic. You have to tell the computer what to do. You can tell the computer in any (programming) language) you

Mehr

Informationen zur Verwendung des TFE-Portals / Information for Using the TFE portal

Informationen zur Verwendung des TFE-Portals / Information for Using the TFE portal Informationen zur Verwendung des TFE-Portals / Information for Using the TFE portal Inhalt / Content Vorraussetzungen für Java Web Start /... 3 Prerequisited for Java-WebStart... 3 Datenempfang /... 3

Mehr

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied

Mehr

Praktikum Entwicklung Mediensysteme (für Master)

Praktikum Entwicklung Mediensysteme (für Master) Praktikum Entwicklung Mediensysteme (für Master) Organisatorisches Today Schedule Organizational Stuff Introduction to Android Exercise 1 2 Schedule Phase 1 Individual Phase: Introduction to basics about

Mehr

D-BAUG Informatik I. Exercise session: week 1 HS 2018

D-BAUG Informatik I. Exercise session: week 1 HS 2018 1 D-BAUG Informatik I Exercise session: week 1 HS 2018 Java Tutorials 2 Questions? expert.ethz.ch 3 Common questions and issues. expert.ethz.ch 4 Need help with expert? Mixed expressions Type Conversions

Mehr

Googles Map-Reduce-Technik

Googles Map-Reduce-Technik Googles Map-Reduce-Technik Wolfgang Gassler wolfgang.gassler@student.uibk.ac.at Zusammenfassung Durch die ständig steigende Datenflut im Internet müssen auch die Datenverarbeitungskapazitäten stark steigen.

Mehr

SemTalk Services. SemTalk UserMeeting 29.10.2010

SemTalk Services. SemTalk UserMeeting 29.10.2010 SemTalk Services SemTalk UserMeeting 29.10.2010 Problemstellung Immer mehr Anwender nutzen SemTalk in Verbindung mit SharePoint Mehr Visio Dokumente Viele Dokumente mit jeweils wenigen Seiten, aber starker

Mehr

Abstrakte C-Maschine und Stack

Abstrakte C-Maschine und Stack Abstrakte C-Maschine und Stack Julian Tobergte Proseminar C- Grundlagen und Konzepte, 2013 2013-06-21 1 / 25 Gliederung 1 Abstrakte Maschine 2 Stack 3 in C 4 Optional 5 Zusammenfassung 6 Quellen 2 / 25

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution EXASOL @ Symposium on Scalable Analytics Skalierbare Analysen mit EXASolution EXASOL AG Wer sind wir R&D: + seit 2000 + laufend Forschungsprojekte Produkt: Analytische Datenbank EXASolution Focus auf Komplexität

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

(Ausnahmebehandlung)

(Ausnahmebehandlung) 16. Exceptions (Ausnahmebehandlung) 16-1 Objektorientierte Programmierung (Winter 2010/2011) Kapitel 16: Exceptions (Ausnahmebehandlung) Motivation Throw und Catch 16. Exceptions (Ausnahmebehandlung) 16-2

Mehr

GridMate The Grid Matlab Extension

GridMate The Grid Matlab Extension GridMate The Grid Matlab Extension Forschungszentrum Karlsruhe, Institute for Data Processing and Electronics T. Jejkal, R. Stotzka, M. Sutter, H. Gemmeke 1 What is the Motivation? Graphical development

Mehr

Informatik für Mathematiker und Physiker Woche 7. David Sommer

Informatik für Mathematiker und Physiker Woche 7. David Sommer Informatik für Mathematiker und Physiker Woche 7 David Sommer David Sommer 30. Oktober 2018 1 Heute: 1. Repetition Floats 2. References 3. Vectors 4. Characters David Sommer 30. Oktober 2018 2 Übungen

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

Sozio- Technische Systeme

Sozio- Technische Systeme Soziotechnische Informationssysteme 7. Skalierbarkeit 2013 757 Millionen melden sich täglich an (12/2013) 802 DAUs laut FB (1 Quartal 2014) 1.23 Milliarden Nutzer im Monat (12/2013) 556 Millionen täglich

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

JTAGMaps Quick Installation Guide

JTAGMaps Quick Installation Guide Index Index... 1 ENGLISH... 2 Introduction... 2 Requirements... 2 1. Installation... 3 2. Open JTAG Maps... 4 3. Request a free JTAG Maps license... 4 4. Pointing to the license file... 5 5. JTAG Maps

Mehr

Grundlagen der Bioinformatik Assignment 2: Substring Search SS Yvonne Lichtblau

Grundlagen der Bioinformatik Assignment 2: Substring Search SS Yvonne Lichtblau Grundlagen der Bioinformatik Assignment 2: Substring Search SS 2016 Yvonne Lichtblau Vorstellung Lösungen Übung 1 Yvonne Lichtblau Übungen Grundlagen der Bioinformatik SS 2016 2 Aufgetretene Probleme Sourcecode

Mehr

Omnichannel Automation mit elastischer Skalierung

Omnichannel Automation mit elastischer Skalierung Omnichannel Automation mit elastischer Skalierung Stefan Dix GMC Software Technology GmbH 27. April 2017 1 Doxnet Education Day in Frankfurt Agenda Wer ist GMC? Was macht GMC Inspire? Dokumente in der

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

RECHNUNGSWESEN. KOSTENBEWUßTE UND ERGEBNISORIENTIERTE BETRIEBSFüHRUNG. BY MARTIN GERMROTH

RECHNUNGSWESEN. KOSTENBEWUßTE UND ERGEBNISORIENTIERTE BETRIEBSFüHRUNG. BY MARTIN GERMROTH RECHNUNGSWESEN. KOSTENBEWUßTE UND ERGEBNISORIENTIERTE BETRIEBSFüHRUNG. BY MARTIN GERMROTH DOWNLOAD EBOOK : RECHNUNGSWESEN. KOSTENBEWUßTE UND Click link bellow and free register to download ebook: RECHNUNGSWESEN.

Mehr

5. Programmierschnittstellen für XML

5. Programmierschnittstellen für XML 5. Programmierschnittstellen für Grundlagen Dr. E. Schön FH Erfurt Sommersemester 2015 Seite 135 Programmierschnittstelle Notwendigkeit: Zugriff auf -Daten durch Applikationen wiederverwendbare Schnittstellen

Mehr

RavenDB, schnell und skalierbar

RavenDB, schnell und skalierbar RavenDB, schnell und skalierbar Big Data & NoSQL, Aydin Mir Mohammadi bluehands GmbH & Co.mmunication KG am@bluehands.de Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit Skalierung http://www.flickr.com/photos/39901968@n04/4864698533/

Mehr

5. Programmierschnittstellen für XML

5. Programmierschnittstellen für XML 5. Programmierschnittstellen für für Medientechnologen Dr. E. Schön Wintersemester 2015/16 Seite 146 Notwendigkeit: Programmierschnittstelle Zugriff auf -Daten durch Applikationen wiederverwendbare Schnittstellen

Mehr

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany BIW Wahlpflichtmodul Einführung in Solr, Pipeline und REST Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2018-05-29 Überblick über gängige Lösungen 2 3 in a nutshell

Mehr

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Wir unternehmen IT. Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Karlsruhe, 30.09.2015 $id thgreiner Thorsten Greiner Teamleiter Software Development ConSol* Software GmbH, Düsseldorf

Mehr