Thema: Das MapReduce-Framework

Größe: px
Ab Seite anzeigen:

Download "Thema: Das MapReduce-Framework"

Transkript

1 Software as a Service Cloud Computing und aktuelle Entwicklungen Seminararbeit Thema: Das MapReduce-Framework Betreuer: Prof. Dr. Klaus Küspert Dipl.-Inf. Andreas Göbel Nicky Kuhnt Friedrich-Schiller-Universität Jena Studiengang: Informatik, Diplom Matrikel: 96577

2 Gliederung 1. Einführung Motivation MapReduce Verfahren Einführung Definition Map-Phase Shuffle-Phase Reduce-Phase Überblick Funktionsweise und Fehlerbehandlung 7 4. Beispiel Vergleich mit relationalen Mehrrechner-Datenbanken Hadoop HadoopDB Zusammenfassung Quellen..13 Bemerkung: Sollte ein Literaturangabe am Ende eines Kapitels stehen, so bezieht sie sich auf das gesamte Kapitel, sonst nur auf den jeweiligen Abschnitt

3 1. Einführung Cloud Computing ist heutzutage in aller Munde. Es beschreibt die Verwendung einer Technologie, welche große Berechnungen auf mehreren Computern in einem Netzwerk verteilt. Der Begriff Cloud beschreibt demnach eine Farm von Computern, die sich zu einem Cluster verbinden, was man sich wie eine Wolke vorstellen kann. Bei dieser Technologie werden verschiedenen Komponenten wie Rechen- oder Speicherkapazitäten dynamisch im Netzwerk zur Verfügung gestellt. Ein Aspekt des Cloud Computing ist die parallele Berechnung auf mehreren Computern in der Cloud, worin ein erheblicher Geschwindigkeitsvorteil liegt Ein Ansatz dafür bietet das MapReduce-Framework, welches in dieser Seminararbeit beschrieben und anhand eine Beispiels näher erläutert wird. Desweiteren wird ein Vergleich mit relationalen Mehrrechner-Datenbanksystemen gezogen und eine wichtige Implementierung von MapReduce vorgestellt. [VBM] 2. Motivation Heutzutage werden immer mehr Daten automatisch erfasst. Dies ist beispielsweise bei Aktienkursen, Wetterdaten, Social Networks oder Log-Dateien der Fall. Dies erzeugt riesige Datenmenge, dessen Verarbeitung sich als Herausforderung darstellt. Zwar sind in den letzten Jahren die Speicherkapazitäten der Festplatten enorm angestiegen, die Zugriffszeiten jedoch nicht in diesem Maße. Im Jahr 2000 betrug das durchschnittliche Volumen von Festplatten um die 40 GB mit Zugriffszeiten von rund 32 MB pro Sekunde. Das Auslesen einer solchen Platte dauerte demnach um die 21 Minuten hingegen betrug die mittlere Speicherkapazität von Festplatten 1000 GB, also das 25 fache im Vergleich zum Jahr Die Zugriffszeiten betrugen dabei 125 MB pro Sekunde, was nur ein 4 faches der Zugriffszeiten im Vergleich zum Jahr 2000 darstellt. Demnach benötigte man 135 Minuten zum Auslesen einer derartigen Festplatte. [WIKI] Google gibt zu ihren Verfahren für das Durchsuchen des Webs folgende Beispielrechnung: Im Jahr 20xx gibt es mehr als 1 Billion Websites, wobei jede eine Mindestgröße von 20 kb hat. Das ergibt über 400 TB an zu bearbeitenden Daten. Würde ein Computer das Web lesen bräuchte er mit einer Festplatten-Lesegeschwindigkeit von MB pro Sekunde rund 4 Monate. Würden allerdings Computer diese Aufgabe übernehmen, so wär die Arbeit in weniger als 2 Minuten getan. [CIR07] Dies zeigt, dass das Bearbeiten von Daten im Computercluster viel weniger Zeit in Anspruch nimmt, da die Daten parallel verarbeitet werden können, anstatt sequentiell mit einem Computer

4 Daher bewältigen Unternehmen wie Google große Datenmengen in Computerclustern durch verteiltes paralleles Rechnen. Durch diese Methode werden mehrere Recheneinheiten mit eigenen Festplatten zu einem sogenannten Cluster verbunden. Desweiteren werden die Daten verteilt gespeichert, also genau auf dem Computer, der die Daten auch bearbeitet. [CIR07] Durch dieses Verfahren soll sich eine deutliche Zeiteinsparung bei der Datenverarbeitung und Zugriffsoperationen ergeben. 3. Das MapReduce Verfahren 3.1 Einführung Um die bereits oben genannten Probleme zu bewältigen, entwickelte Goggle MapReduce, ein Framework um nebenläufige Berechnungen auf Computerclustern durchzuführen. Es wurde durch die Funktionen map und reduce inspiriert, welche in der funktionalen Programmierung häufig verwendet werden. Allerdings weicht die Semantik bei MapReduce davon ab. [LAE07] Das MapReduce-Framework realisiert eine Funktion, welches aus einer Liste von Schlüssel- /Werte-Paaren, welche die Eingabeliste darstellen, eine neue Liste von Schlüssel-/Werte- Paaren berechnet, die Ausgabeliste. Dabei teilt es die zu bearbeitenden Daten in kleine Teile, die sogenannten Blöcke, auf. Diese werden anschließend zur gleichzeitigen Verarbeitung auf unterschiedliche Rechner im Cluster verteilt. Daraus ergibt sich die parallele Verarbeitung der Daten, was zu mehreren Teilergebnissen führt, welche für das Endergebnis wieder zusammengeführt werden sollen, da der Nutzer ein komplettes Endergebnis der Berechnung haben will und nicht mehrere kleine Teilergebnisse. [DG04] Die darunterliegende Architektur und die Verteilung auf Computerclustern soll für den Nutzer transparent sein, sodass er von der Datenaufteilung nichts mitbekommt und auch keinen Einfluss darauf nehmen kann. Das ganze Verfahren ist in mehrere Phasen aufgeteilt, welche im Folgenenden beschrieben werden. 3.2 Definition list(k1,v1) list(k2,v4) Die formale Definition der gesamten Transformation zeigt, dass die Eingabe aus einer Liste von Schlüssel-/Werte-Paaren besteht, welche durch die Bearbeitung die Ausgabeliste, eine neue Liste von Schlüssel-/Werte-Paaren, erstellt

5 Dabei sind alle Schlüssel vom gleichen Typ und alle sind die entsprechenden Werte vom gleichen Typ. 3.3 Map-Phase Vor Beginn der MapReduce-Funktion, müssen die Eingabedaten, welche in semistrukturierter Form vorliegen, umgewandelt werden. semistrukt. Eingabedaten list(k1,v1) Dies geschieht durch eine sogenannte Input-Phase. Das Ergebnis dieser Phase ist eine Liste von Schlüssel-/Werte-Paaren (SWPaaren), welche als Eingabe für die Map-Funktion, die eine derartige Struktur als Eingabedaten verlangt, dient. Liegt diese Liste vor, wird für jedes einzelne SWPaar die Map-Funktion aufgerufen. (k1,v1) list(k2,v2) Die Map-Funktion erzeugt aus jedem SWPaar eine Liste von SWPaaren, wobei jeder Schlüssel in dieser Liste mehrmals vorkommen kann und genau einen Wert enthält. Jede Map-Funktion ist unabhängig von den anderen und wird auf einen Computer im Cluster aufgerufen. Das heißt, dass die SWPaare parallel und gleichzeitig bearbeitet werden. 3.4 Shuffle-Phase Die Shuffle-Phase ist ein Teil der eigentlichen Map-Berechnung. Diese muss im Gegensatz zur Map-Phase nicht für den jeweiligen Anwendungsfall programmiert werden, da sie funktional stets die gleiche Aufgabe erledigt. list(k2,v2) (k2, list(v2)) - 4 -

6 Sie erstellt neue SWPaare, was durch Gruppierung der einzelnen Paare durch den Schlüssel geschieht. Das heißt, dass alle Werte, welche ein und demselben Schlüssel enthalten, diesem zugeordnet werden und am Ende dieser Phase jeder Schlüssel nur noch in einem SWPaar vorkommt und die zugehörigen Werten enthält. Das Ergebnis dieser Phase bildet das Zwischenergebnis, welches der Mapper in seinem FileSystem speichert. Betrachtet man alle Map-Berechnungen, inklusiver der Shuffle-Phase, so entstehen mehrere Zwischenergebnisse, welche jeweils auf dem Computer abgespeichert werden, auf dem sie bearbeitet wurden. 3.5 Reduce-Phase (k2, list(v2)) list(v3) Die Reduce-Phase berechnet aus den Zwischenergebnissen der Map-Phase eine Liste von Ergebniswerten. Dabei wird für jedes Zwischenergebnis der Shuffle-Phase eine Reduce-Berechnung unabhängig von den anderen durchgeführt. Dies ergibt wieder eine parallele Bearbeitung der Zwischenergebnisse auf mehreren Computern im Cluster. list(v3) list(v2,k4) Im Anschluss müssen die einzelnen Endergebnisse der Reduce-Berechnungen wieder zu einen einheitlichen Endergebnis zusammengeführt werden. Dabei werden die jeweiligen Werte der Endergebnisse mit ihren Schlüsseln gepaart und ausgegeben. [DG04] - 5 -

7 3.6. Überblick Abb. 1: MapReduce-Schema In dem oben abgebildeten Schema sind nochmals alle Phasen der MapReduce-Berechnung dargestellt. Die Eingabedaten werden wie beschrieben in Blöcke aufgeteilt und für jeden Block wird die Map-Berechnung inklusive der Shuffle-Phase durchgeführt. Jedes Zwischenergebnis wird im Speicher abgelegt und zwar auf dem Computer, der Map-Berechnung durchgeführt hat. Anschließend ist zu sehen, dass für jedes Zwischenergebnis die Reduce-Berechnung durchgeführt wird, deren gesamte Ergebnisse als gemeinsames Endergebnis ausgegeben werden

8 3.7. Funktionsweise und Fehlerbehandlung Um eine MapReduce-Berechnung mit der oben beschriebenen Funktionsweise durchzuführen müssen die ganzen Knoten, die bei der Ausführung dieser Berechnung beteiligt sind, in irgendeiner Form gemanagt werden. Dies geschieht, indem das Framework zu Beginn einen Computer als Master bestimmt. Dieser ist für die Koordination der restlichen Computer und für die Datenverteilung verantwortlich. Dabei teilt der Master den anderen Computern, welche Worker genannt werden, die entsprechenden Map-Funktionen zu. Während der Berechnung kommuniziert der Master ständig mit den Workern, indem er sie in bestimmten Zeitintervallen anpingt. Dabei überprüft er die Erreichbarkeit der Worker und bekommt in der Antwort jedes Computers den Berechnungsstatus mitgeteilt und die Speicherorte der bearbeitenden Daten. Der Master bestimmt ebenfalls, welche Computer die Reduce-Berechnungen übernehmen und das noch während der Map-Berechnungen. [FIS10] Während der Berechnungen kann es durchaus zu Fehlern kommen. Die kann ein Ausfall oder Fehler in der Hardware eines Rechners oder ein Ausfall des gesamten Netzwerkes sein. In beidem Fällen ist ein bestimmter Teil der Daten nicht erreichbar, da der betroffene Rechner nicht antwortet. Ist ein Worker ausgefallen, so bekommt dies der Master mit, da er jeden Worker periodisch anpingt. Der Master teilt nun die Berechnung, die der ausgefallene Rechner durchgeführt hat, einen anderen Worker zu. Somit ist sichergestellt, dass jede Berechnung terminiert. Ist ein Worker bei einer Map-Berechnung ausgefallen, so muss die gesamte Berechnung neu ausgeführt werden, auch wenn er schon beendet wurde. Dies ist notwendig, da noch nicht alle Reduce-Berechnungen vom Map-Worker gelesen haben. Ist jedoch ein Worker bei einer beendeten Reduce-Berechnung ausgefallen, so muss diese Berechnung nicht neu durchgeführt werden, da die Ergebnisse dieser Berechnungen redundant im FileSystem gesichert sind. [FIS10] 4. Beispiel In diesem Kapitel wird ein Beispiel für die beschriebene Funktionsweise von MapReduce erklärt und vereinfacht dargestellt, welches den jeweiligen Maximalverbrauch eines PKW bei mehreren Testfahrten bestimmt. Die zu bearbeitenden Daten liefert ein System, welches neben den Verbrauchsdaten, die in einem bestimmten Intervall aufgezeichnet werden, auch mehrere Metadaten enthält (Testfahrtnummer, FahrerID, usw.)

9 Wie MapReduce das Verbrauchsmaximum der ermittelten Daten bestimmt, wird im Folgenden dargestellt. 1 6 input output map shuffle reduce Abb. 2: Verarbeitung exemplarischer Verbrauchsdaten eines PKW mittels MapReduce Als Eingabe dienen in diesem Fall unstrukturierte Verbrauchsdaten (Abb. 2, Feld 1), welche bei den Testfahrten des Fahrzeuges ermittelt wurden. Diese enthalten aller Verbrauchsangaben in 3-stelliger Form (bspw. steht 074 für einen Verbrauch von 7,4l) inklusiver der Uhrzeit, welche in bestimmten Zeitintervallen aufgezeichnet wurde und wichtige Metadaten wie die Nummer der Testfahrt, die Nummer des Testfahrers usw. Die Input-Phase extrahiert aus dieser Eingabe die benötigten Daten, anhand des Byte-Offset (in diesem Fall die Testfahrtnummer, welche hier die ersten 3 Stellen sind). Der Schlüssel in den SWPaaren gibt jeweils die Nummer der Testfahrt an (Abb. 2, Feld 2). Anschließend beginnt die Map-Berechnung, welche aus den SWPaaren der Eingabe derartige neue SWPaare berechnet, die als Wert jeweils eine dreistellige Verbrauchsangabe enthalten (Abb. 2, Feld 3). Direkt im Anschluss wird für jedes berechnete Paar der Map-Phase die Shuffle-Berechnung durchgeführt, welche jeder einzelnen Testfahrt eine Liste von allen Verbrauchsangaben zuordnet (Abb. 2, Feld 4). Diese SWPaare dienen als Zwischenergebnisse. Liegen alle Zwischenergebnisse vor, so wird für jedes einzelne die Reduce-Berechnung durchgeführt. Diese ermittelt in unseren Fall die jeweiligen Verbrauchsmaxima der einzelnen Testfahrten. Die Ergebnislisten enthalten in unserem Fall demnach nur einen einzelnen Wert (Abb. 2, Feld 5)

10 Im Anschluss daran ordnet die Output-Phase jedem Verbrauchsmaxima den Schlüssel zu, mit dem der jeweilige Reduce-Task aufgerufen wird. In unserem Fall ist das die Testfahrtnummer. Die Ergebnisse dieser Phase werden als Endergebnisse ausgegeben und man bekommt das jeweilige Verbrauchsmaxima zu jeder einzelnen Testfahrt zurückgeliefert (Abb. 2, Feld 6). 5. Vergleich mit relationalen Mehrrechnerdatenbanken Dieses Kapitel stellt einen Vergleich von MapReduce und relationalen Mehrrechnerdatenbanken auf und erörtert die Vor- und Nachteile beider Systeme. Da MapReduce auf die Bearbeitung in Computerclustern setzt, muss man sie relationalen Mehrrechnerdatenbanken gegenüberstellen. Dafür gibt es 3 verschiedene Architekturen: Shared Everything alle Recheneinheiten nutzen einen gemeinsamen Speicher und einen gemeinsamen Multiprozessor Shared-Disk jede Recheneinheit hat einen eigenen Multiprozessor, aber alle nutzen einen gemeinsamen Speicher Shared-Nothing jede Recheneinheit hat einen eigenen Multiprozessor und einen eigenen Speicher Allerdings kommen für relationale Mehrrechner-Datenbanksysteme in der Regel ausschließlich High-End-Server zum Einsatz, welche hohe Kosten verursachen. Dabei wird meist die Shared-Disk-Architektur genutzt, teilweise aber auch die Shared-Nothing- Architektur unterstützt. Desweiteren arbeiten solche Datenbanksysteme mit einer horizontalen Partitionierung auf mehrere Speicher oder Partitionen. Deshalb müssen die Anfragen partitioniert werden, deren Ergebnisse anschließend wieder zusammengeführt werden müssen, um ein Gesamtergebnis zu erhalten. Bei MapReduce hingegen werden die Daten in Blöcke aufgeteilt, was mit dem Shared- Nothing-Prinzip vergleichbar ist. Die Struktur bei relationalen Mehrrechner-Datenbanksystemen (MDBs) ist statisch, sodass sie bei Punktabfragen und Änderungsoperationen via SQL einen Vorteil haben. MapReduce hingegen bietet ausschließlich Abfragen. Modifikationen der Daten geschieht durch darunterliegende Strukturen wie beispielsweise dem FileSystem. Allerdings liegt MapReduce vorn, wenn das Schema semistrukturiert ist. Treten bei der Datenverarbeitung Fehler auf, so muss bei relationalen MDBs ein Query- Restart durchgeführt werden. Bei MapReduce wird der Task, der durch einen Rechnerausfall nicht durchgeführt werden kann, durch oben beschriebene Funktionsweise auf einen anderen Rechner übergeben, der - 9 -

11 diesen Task übernimmt und dessen Daten bearbeitet, wodurch MapReduce einen enormen Geschwindigkeitsvorteil bei dieser Art der Fehlertoleranz besitzt. Die Umgebung bei relationalen MDBs ist homogen, da in der Regel High-End-Hardware in den Servern eingesetzt werden muss, welche hohe Kosten verursachen. Desweiteren ist das DBMS teuer, die Installation und die Konfiguration solcher Systeme komplex, zeit- und damit kostenintensiv. MapReduce hingegen ist auf den Einsatz von Standardhardware optimiert und es kann auf OpenSource-Software zurückgegriffen werden, sodass die Kosten für dieses System gering sind. Die eben beschriebene Gegenüberstellung beider Systeme soll die folgende Tabelle nochmal veranschaulichen. Tabelle 3: Vergleich von MapReduce und relationalen Mehrrechner-Datenbanksystemen Relationale MDBs haben demnach ihre Stärken bei Abfrage- und Änderungsoperationen via SQL, statischem Schemata sowie in ihrer Ausgereiftheit. MapReduce ist für das parallele Verarbeiten enormer Datenmengen geeignet, hat Vorteile in der Struktur, da es eine große Anzahl von semistrukturierten Daten gibt und bei den Kosten. Desweiteren ist es auch schnell aufsetzbar, da, wenn die Hardware-Infrastruktur vorliegt, es ausschließlich von Nöten ist, die Funktionen für MapReduce zu programmieren. [STO10] Allerdings soll MapReduce keine generelle Alternative zu relationalen MDBs sein, sondern nur in speziellen Bereichen wie beispielsweise der Bearbeitung semistrukturierter Daten

12 6. Hadoop Für MapReduce gibt es bereits einige Implementierungen, wobei Hadoop womöglich die Bedeutendste darstellt. Hadoop ist ein OpenSource-Java-Framework für skalierbare, verteilt arbeitende Datenverarbeitungssysteme. Es basiert auf dem Algorithmus von Googles MapReduce und des Google-FileSystem, da dieses hohen Datenvolumen gerecht wird und sich neue Knoten leicht hinzufügen lassen. [FIS10] Dies ermöglicht riesige Rechenprozesse mit Petabytes an Daten auf Computerclustern, da die Verarbeitung der Daten parallel auf mehreren Computern durchgeführt werden kann. Die Grundlage für Hadoop legte Doug Cutting, indem er MapReduce 2005 für die Suchmaschine der OpenSource-Community Nutch* implementierte. Im Jahr 2006 startete Hadoop als Lucene-Projekt und es wurde am 28. Januar 2008 zum Apache Top-Level-Projekt ernannt. Mittlerweile beherbergt es mehrere Subprojekte. Im Juli 2009 gewann ein Cluster des Hadoop-Framework den Terabyte-Sort-Benchmark, welcher ermittelt, welches System bestimmte Eingabedaten am schnellsten sortiert und speichert. Dies war eine große Besonderheit, das Hadoop sowohl das erste OpenSource- Programm, als auch das erste Java-Framework war, das diesen Test gewann. Nutzer, welche Hadoop im großen Maße einsetzen, sind u.a. yahoo!, Amazon, facebook und last.fm. Beispielsweise arbeitet yahoo! s größte Installation mit 4000 Knoten. Hadoop besteht im Wesentlichen aus 3 Komponenten: Hadoop Common Hadoop Distributed FileSystem Hadoop MapReduce Mit diesen 3 Komponenten lässt sich ein vollständiger Hadoop-Cluster aufbauen, welcher nach dem Master-Slave-Prinzip arbeitet. Hadoop Common stellt sämtliche Grundfunktionen bereit, die alle anderen Komponenten benötigen, wie eine implementierungsneutrale FileSystem-Schnittstelle oder eine Schnittstelle für die Remote-Procedure-Call -Kommunikation im Cluster und Bibliotheken. Das Hadoop Distributed FileSystem (HDFS) ist das primäre Dateisystem von Hadoop und es folgt dem Vorbild des Google-FileSystem. Es ist speziell für die Entwicklung von MapReduce-Anwendungen optimiert. Hadoop MapReduce bietet alle Funktionen um nach dem Programmiermodell zu entwickeln und es basiert auf dem oben beschriebenen Google-MapReduce-Verfahren und dessen Funktionsweise. [FIS10] [BAL 09] * Suchmaschinen-Projekt der OPenSource-Community

13 7. HadoopDB HadoopDB ist ein freies paralleles Datenbanksystem, welches auf der Shared-Nothing- Architektur basiert und das mit einer an SQL angelehnten Sprache abgefragt werden kann. Es soll die Skalierbarkeit von Hadoop mit der Geschwindigkeit eines parallelen Datenbanksystems kombinieren. HadoopDB basiert auf einer Verbindung von PostgreSQL, Hadoop und einem Interface, das Anfragen in MapReduce oder SQL verarbeitet, je nachdem, welche Art von Anfragen vorliegen. Es generiert Anfragepläne, welche über einen Shared-Nothing-Cluster ausgeführt werden. Aus diesem Grund ist HadoopDB ein Hybrid aus MapReduce und einem parallelen Datenbanksystem. [GOLEM] Das derzeit genutzte Datenbanksystem ist PostgreSQL und es soll gegen andere Datenbanksysteme austauschbar sein, was mit MySQL schon erfolgreich durchgeführt wurde. Desweiteren ist HadoopDB OpenSource. [YALE] 8. Zusammenfassung Zusammenfassend ist zu sagen, dass durch das MapReduce-Framework Berechnungen und eingelesene Daten auf vergleichsweise einfache und durch Standardhardware sowie OpenSource-Software kostengünstige Art und Weise durchgeführt und weiterverarbeitet werden können. Der Geschwindigkeitsvorteil von MapReduce besteht darin, dass die Daten parallel auf mehreren Computern im Cluster verarbeitet und gespeichert werden. Es gibt bereits einige Implementierungen des MapReduce-Frameworks, sowie Hybridlösungen, welche die Vorteile der MapReduce-Berechnung und relationalen Mehrrechner-Datenbanksystemen nutzen. Das MapReduce-Framework wird bereits von vielen Firmen erfolgreich genutzt und findet immer höheren Zuspruch, da es schnell und kostengünstig aufsetzbar ist

14 9. Literaturverzeichnis [DG04] [STO10] [CIR07] [FIS10] Jerref Dean, Sanjay Ghemawat, MapReduce: Simplified Data Processing on Large Clusters, Google Inc., 2004 Michael Stonebraker, MapReduce and Parallel DBMSs: Friends or Foes?, Communication of the ACM, Januar 2010 Walfredo Cirne, Google Infrastructure for Massive Parallel Processing, Google Inc., 2007 Oliver Fischer, Verarbeiten großer verteilter Datenmengen mit Hadoop, Heise Zeitschriften Verlag, 2010 [BAL09] Eric Baldeschwieler, Hadoop Updaten, Open Cirrus Summit, yahoo!, 2009 [LAE07] Ralf Lämmel, Google s MapReduce Programming Model Revisited, Microsoft Corp., 2007 [YALE] Abrufdatum: [VBM] Abrufdatum: [WIKI] Abrufdatum: [GOLEM] Abrufdatum:

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

MapReduce-Konzept. Thomas Findling, Thomas König

MapReduce-Konzept. Thomas Findling, Thomas König MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

MapReduce - Konzept. Seminararbeit. Thomas König (Mat.-Nr. 1740853) Master Informatik (3. Semester)

MapReduce - Konzept. Seminararbeit. Thomas König (Mat.-Nr. 1740853) Master Informatik (3. Semester) Universität Leipzig Institut für Informatik Abteilung Datenbanken Seminararbeit Autor: Studiengang: Thomas König (Mat.-Nr. 1740853) Master Informatik (3. Semester) Betreuer: Gutachter: Lars Kolb Lars Kolb

Mehr

Software as a Service, Cloud Computing und aktuelle Entwicklungen Seminarvorbesprechung

Software as a Service, Cloud Computing und aktuelle Entwicklungen Seminarvorbesprechung Software as a Service, Cloud Computing und aktuelle Entwicklungen Seminarvorbesprechung A. Göbel, Prof. K. Küspert Friedrich-Schiller-Universität Fakultät für Mathematik und Informatik Lehrstuhl für Datenbanken

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

MapReduce. Johann Volz. 3. Juni 2010. Zusammenfassung

MapReduce. Johann Volz. 3. Juni 2010. Zusammenfassung MapReduce Johann Volz 3. Juni 2010 Zusammenfassung Bei der Verarbeitung von Datenmengen, die hunderte oder gar tausende Computer zur Fertigstellung in der gewünschten Zeit brauchen, muss man sich nicht

Mehr

Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim

Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim Andreas Ries Cloud-Computing Seminar Hochschule Mannheim WS0910 1/26 Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim Andreas Ries Fakultät für Informatik Hochschule Mannheim ries.andreas@web.de

Mehr

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10 Prototypvortrag Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning Projektseminar WS 2009/10 Eugen Fot, Sebastian Kenter, Michael Surmann AG Parallele

Mehr

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud Ausarbeitung AW2 SS2012 Jan-Christoph Meier Data Mining in der Cloud Fakultät Technik und Informatik Department Informatik Faculty of Engineering and Computer Science Department of Computer Science Inhaltsverzeichnis

Mehr

Überblick. Verarbeitung großer Datenmengen. MapReduce. Herausforderungen

Überblick. Verarbeitung großer Datenmengen. MapReduce. Herausforderungen Überblick Verarbeitung großer Datenmengen Verarbeitung großer Datenmengen Motivation MapReduce Zusammenfassung Problemstellungen (e) Indexierung des World Wide Web PageRank-Berechnungen für Web-Seiten

Mehr

Persönlichkeiten bei bluehands

Persönlichkeiten bei bluehands Persönlichkeiten bei Technologien bei Skalierbare Anwendungen mit Windows Azure GmbH & co.mmunication KG am@.de; posts..de/am 1 2 3 4 5 6 7 8 9 Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit

Mehr

Verteilte Systeme. Map Reduce. Secure Identity Research Group

Verteilte Systeme. Map Reduce. Secure Identity Research Group Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center PROFI UND NUTANIX Portfolioerweiterung im Software Defined Data Center IDC geht davon aus, dass Software-basierter Speicher letztendlich eine wichtige Rolle in jedem Data Center spielen wird entweder als

Mehr

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Brownbag am Freitag, den 09.08.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

Neue Ansätze der Softwarequalitätssicherung. Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop

Neue Ansätze der Softwarequalitätssicherung. Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Neue Ansätze der Softwarequalitätssicherung Thema des Seminars Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik

Mehr

BIG DATA HYPE ODER CHANCE

BIG DATA HYPE ODER CHANCE BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10

Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10 Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10 Richard Beyer 1 Inhalt 1. Allgemeines 2. Amazon EC2 3. Yahoo Cloud 4. Vergleich 5. Fazit 6. Literatur Richard Beyer 2 Definition Cloud computing

Mehr

Informationsmanagement Übungsstunde 9

Informationsmanagement Übungsstunde 9 Informationsmanagement Übungsstunde 9 Univ.-Prof. Dr.-Ing. Wolfgang Maass Lehrstuhl für Betriebswirtschaftslehre, insb. Wirtschaftsinformatik im Dienstleistungsbereich (Information and Service Systems

Mehr

TECHNISCHE PRODUKTINFORMATION CARUSO

TECHNISCHE PRODUKTINFORMATION CARUSO 1111 TECHNISCHE PRODUKTINFORMATION CARUSO TECHNISCHE PRODUKTINFORMATION Seite 0/7 Inhalt 1 Systemdefinition............2 2 Technische Details für den Betrieb von CARUSO......2 2.1 Webserver... 2 2.2 Java

Mehr

Algorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1

Algorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1 Algorithmen Consistent Hashing Bloom Filter MapReduce Distributed Hash Tables Einführung 1 Consistent Hashing Problem: Wie finde ich den Speicherort für ein Objekt in einem verteilten System mit n Knoten?

Mehr

Antwortzeitverhalten von Online Storage Services im Vergleich

Antwortzeitverhalten von Online Storage Services im Vergleich EPOD Encrypted Private Online Disc Antwortzeitverhalten von Online Storage Services im Vergleich Fördergeber Förderprogramm Fördernehmer Projektleitung Projekt Metadaten Internet Foundation Austria netidee

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Institut für Informatik Wissensmanagement in der Bioinformatik. SE Geospatial Information Retrieval WS 2008/2009 Betreuer: Prof. Dr.

Institut für Informatik Wissensmanagement in der Bioinformatik. SE Geospatial Information Retrieval WS 2008/2009 Betreuer: Prof. Dr. Institut für Informatik Wissensmanagement in der Bioinformatik SE Geospatial Information Retrieval WS 2008/2009 Betreuer: Prof. Dr. Ulf Leser MapReduce Stefan Bethge (508219) Astrid Rheinländer (195327)

Mehr

Seminar SS 09 Amdahl`s Law and Cloud-Computing

Seminar SS 09 Amdahl`s Law and Cloud-Computing Seminar SS 09 Amdahl`s Law and Cloud-Computing Prof. G. Bengel Fakultät für Informatik SEMB 7IBW 8IB Raum HO609 Mo 9:45-11:15 1. Teil: Amdahl sches Gesetz 1. Vortrag Das Gesetz von Amdahl und Gustafson

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

Universität Karlsruhe (TH)

Universität Karlsruhe (TH) Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Software Engineering für moderne, parallele Plattformen 10. MapReduce Dr. Victor Pankratius Agenda Motivation Der MapReduce-Ansatz Map- und

Mehr

Gerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2

Gerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2 Gerrit Thede Big and Fast Data - Verarbeitung von Streaming Data Grundlagen Vertiefung und Anwendungen 2 Fakultät Technik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer

Mehr

Googles Map-Reduce-Technik

Googles Map-Reduce-Technik Googles Map-Reduce-Technik Wolfgang Gassler wolfgang.gassler@student.uibk.ac.at Zusammenfassung Durch die ständig steigende Datenflut im Internet müssen auch die Datenverarbeitungskapazitäten stark steigen.

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

Managed Cloud Services

Managed Cloud Services Managed Cloud Services Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Cloud Services

Mehr

Prof. Dr.-Ing. Rainer Schmidt 1

Prof. Dr.-Ing. Rainer Schmidt 1 Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2

Mehr

MapReduce. Dhyan Blum

MapReduce. Dhyan Blum MapReduce Dhyan Blum Betreuer: Dirk Haage Seminar Innovative Internettechnologien und Mobilkommunikation SS2010 Lehrstuhl Netzarchitekturen und Netzdienste Fakultät für Informatik, Technische Universität

Mehr

Cloud Computing mit mathematischen Anwendungen

Cloud Computing mit mathematischen Anwendungen Cloud Computing mit mathematischen Anwendungen Vorlesung SoSe 2009 Dr. Marcel Kunze Karlsruhe Institute of Technology (KIT) Steinbuch Centre for Computing (SCC) KIT the cooperation of Forschungszentrum

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Extended Abstract Obserseminar: Datenbanksysteme - Aktuelle Trends. Cloud-Datenbanken. Franz Anders 02.07.2015

Extended Abstract Obserseminar: Datenbanksysteme - Aktuelle Trends. Cloud-Datenbanken. Franz Anders 02.07.2015 Extended Abstract Obserseminar: Datenbanksysteme - Aktuelle Trends Cloud-Datenbanken Franz Anders 02.07.2015 Dies ist das erweiterte Abstract zum Vortrag Cloud-Datenbanken für das Oberseminar Datenbanksysteme

Mehr

MapReduce in der Praxis

MapReduce in der Praxis Universität Passau Fakultät für Informatik und Mathematik Ausarbeitung MapReduce in der Praxis Verfasser: Rolf Daniel 09.12.2010 Zusammenfassung MapReduce ist ein von Google eingeführtes Framework, das

Mehr

MySQL Cluster. Kai Voigt MySQL AB kai@mysql.com. Kiel, 17. Februar 2006

MySQL Cluster. Kai Voigt MySQL AB kai@mysql.com. Kiel, 17. Februar 2006 MySQL Cluster Kai Voigt MySQL AB kai@mysql.com Kiel, 17. Februar 2006 1 Agenda Warum? Wie? Wie genau? Was sonst? 2 Warum? 3 Kosten runter Hochverfügbarkeit (99,999%) Redundante Daten und Systeme Wiederherstellung

Mehr

Lehrgebiet Informationssysteme

Lehrgebiet Informationssysteme Lehrgebiet AG Datenbanken und (Prof. Michel, Prof. Härder) AG Heterogene (Prof. Deßloch) http://wwwlgis.informatik.uni-kl.de/ Was sind? Computergestützte Programmsysteme, die Informationen erfassen, dauerhaft

Mehr

HDFS als schneller und günstiger Storage?

HDFS als schneller und günstiger Storage? HDFS als schneller und günstiger Storage? Das Hadoop Distributed File System (HDFS) verwaltet spielend riesige Datenmengen, lässt sich im laufenden Betrieb bequem skalieren und ist komfortabel zu administrieren.

Mehr

Verteilte Dateisysteme in der Cloud

Verteilte Dateisysteme in der Cloud Verteilte Dateisysteme in der Cloud Cloud Data Management Maria Moritz Seminar Cloud Data Management WS09/10 Universität Leipzig 1 Inhalt 1.) Anforderungen an verteilte Dateisysteme 2.) GoogleFS 3.) Hadoop

Mehr

Die Technologie- Landschaft für Big-Data-Analyse

Die Technologie- Landschaft für Big-Data-Analyse Die Technologie- Landschaft für Big-Data-Analyse Die Verwaltung großer Datenmengen wird durch neue Technologien einfacher und vor allem preiswerter. Dadurch ergeben sich nicht nur eine bessere Kosteneffizienz,

Mehr

Parallele und funktionale Programmierung Wintersemester 2013/14. 8. Übung Abgabe bis 20.12.2013, 16:00 Uhr

Parallele und funktionale Programmierung Wintersemester 2013/14. 8. Übung Abgabe bis 20.12.2013, 16:00 Uhr 8. Übung Abgabe bis 20.12.2013, 16:00 Uhr Aufgabe 8.1: Zeigerverdopplung Ermitteln Sie an folgendem Beispiel den Rang für jedes Listenelement sequentiell und mit dem in der Vorlesung vorgestellten parallelen

Mehr

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015 Abstrakt zum Vortrag im Oberseminar Graphdatenbanken Gero Kraus HTWK Leipzig 14. Juli 2015 1 Motivation Zur Darstellung komplexer Beziehungen bzw. Graphen sind sowohl relationale als auch NoSQL-Datenbanken

Mehr

FernUniversität in Hagen - Seminar 01912 im Sommersemester 2011. MapReduce und Datenbanken

FernUniversität in Hagen - Seminar 01912 im Sommersemester 2011. MapReduce und Datenbanken FernUniversität in Hagen - Seminar 01912 im Sommersemester 2011 MapReduce und Datenbanken Thema 15 Strom- bzw. Onlineverarbeitung mit MapReduce Referent: Jan Kristof Nidzwetzki 2 Jan Kristof Nidzwetzki,

Mehr

Leistungsanalyse von XtreemFS als Ersatz für HDFS in Hadoop

Leistungsanalyse von XtreemFS als Ersatz für HDFS in Hadoop Bachelorarbeit am Institut für Informatik der Freien Universität Berlin, Arbeitsgruppe Technische Informatik, Zuverlässige Systeme Leistungsanalyse von XtreemFS als Ersatz für HDFS in Hadoop Lukas Kairies

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

MapReduce Parallelität im Großen und im Kleinen

MapReduce Parallelität im Großen und im Kleinen MapReduce Parallelität im Großen und im Kleinen Jens Lang jens.lang@informatik.tu-chemnitz.de MapReduce ist ein Programmiermodell für Parallelrechner, das die Möglichkeit bietet, effiziente parallele Programme

Mehr

Teamprojekt & Projekt

Teamprojekt & Projekt 2. November 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Alexander Schätzle, Martin Przjyaciel-Zablocki, Thomas Hornung dbis Studienordnung Master: 16 ECTS 480 Semesterstunden

Mehr

Storage-Trends am LRZ. Dr. Christoph Biardzki

Storage-Trends am LRZ. Dr. Christoph Biardzki Storage-Trends am LRZ Dr. Christoph Biardzki 1 Über das Leibniz-Rechenzentrum (LRZ) Seit 50 Jahren Rechenzentrum der Bayerischen Akademie der Wissenschaften IT-Dienstleister für Münchner Universitäten

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Teamprojekt & Projekt

Teamprojekt & Projekt 18. Oktober 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Thomas Hordnung, Alexander Schätzle, Martin Przjyaciel-Zablocki dbis Studienordnung Master: 16 ECTS 480 Semesterstunden

Mehr

Sozio- Technische Systeme

Sozio- Technische Systeme Soziotechnische Informationssysteme 7. Skalierbarkeit 2013 757 Millionen melden sich täglich an (12/2013) 802 DAUs laut FB (1 Quartal 2014) 1.23 Milliarden Nutzer im Monat (12/2013) 556 Millionen täglich

Mehr

Zuschauer beim Berlin-Marathon

Zuschauer beim Berlin-Marathon Zuschauer beim Berlin-Marathon Stefan Hougardy, Stefan Kirchner und Mariano Zelke Jedes Computerprogramm, sei es ein Betriebssystem, eine Textverarbeitung oder ein Computerspiel, ist aus einer Vielzahl

Mehr

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team

Mehr

Neue Ansätze der Softwarequalitätssicherung. Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop

Neue Ansätze der Softwarequalitätssicherung. Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Neue Ansätze der Softwarequalitätssicherung Thema des Seminars Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik

Mehr

Whitepaper Externe Speicherung von Binary Large Objects (BLOBs) mit SharePoint 2007 sowie SQL Server 2005 / 2008

Whitepaper Externe Speicherung von Binary Large Objects (BLOBs) mit SharePoint 2007 sowie SQL Server 2005 / 2008 Externe Speicherung von Binary Large Objects (BLOBs) mit SharePoint 2007 sowie SQL Andreas Glaser, 23. September 2008 Teufenerstrasse 19 CH 9001 St.Gallen t [+41] 71 228 67 77 f [+41] 71 228 67 88 info@namics.com

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Verteiltes Backup. Einleitung Grundlegende Backup Techniken Backup in Netzwerken. Client/Server Peer-to-Peer

Verteiltes Backup. Einleitung Grundlegende Backup Techniken Backup in Netzwerken. Client/Server Peer-to-Peer Verteiltes Backup Einleitung Grundlegende Backup Techniken Backup in Netzwerken Client/Server Peer-to-Peer Einleitung Backup: Das teilweise oder gesamte Kopieren der in einem Computersystem vorhandenen

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

IT-Security on Cloud Computing

IT-Security on Cloud Computing Abbildung 1: IT-Sicherheit des Cloud Computing Name, Vorname: Ebert, Philipp Geb.: 23.06.1993 Studiengang: Angewandte Informatik, 3. FS Beruf: IT-Systemelektroniker Abgabedatum: 08.12.2014 Kurzfassung

Mehr

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zettabyte CeBIT 2011 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zetabyte: analytische Datenbanken Die Datenflut. Analytische Datenbanken: Was ist neu? Analytische Datenbanken:

Mehr

Hadoop. Seminararbeit. Autor: Thomas Findling (Mat.-Nr. 1740842) Studiengang: Master Informatik (3. Semester)

Hadoop. Seminararbeit. Autor: Thomas Findling (Mat.-Nr. 1740842) Studiengang: Master Informatik (3. Semester) Universität Leipzig Institut für Informatik Abteilung Datenbanken Seminararbeit Hadoop Autor: Thomas Findling (Mat.-Nr. 1740842) Studiengang: Master Informatik (3. Semester) Betreuer: Gutachter: Lars Kolb

Mehr

Hardware- und Software-Anforderungen IBeeS.ERP

Hardware- und Software-Anforderungen IBeeS.ERP Hardware- und Software-Anforderungen IBeeS.ERP IBeeS GmbH Stand 08.2015 www.ibees.de Seite 1 von 8 Inhalt 1 Hardware-Anforderungen für eine IBeeS.ERP - Applikation... 3 1.1 Server... 3 1.1.1 Allgemeines

Mehr

Advanced Analytics mit EXAPowerlytics. Technisches Whitepaper

Advanced Analytics mit EXAPowerlytics. Technisches Whitepaper Advanced Analytics mit EXAPowerlytics Technisches Whitepaper Inhalt 1. Zusammenfassung... 3 2. Einführung... 4 3. Fachliche Einführung... 5 4. Beispiel: Zeichen zählen... 7 5. Fazit... 9 6. Anhang... 10-2

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

Möglichkeiten für bestehende Systeme

Möglichkeiten für bestehende Systeme Möglichkeiten für bestehende Systeme Marko Filler Bitterfeld, 27.08.2015 2015 GISA GmbH Leipziger Chaussee 191 a 06112 Halle (Saale) www.gisa.de Agenda Gegenüberstellung Data Warehouse Big Data Einsatz-

Mehr

Die folgenden Features gelten für alle isquare Spider Versionen:

Die folgenden Features gelten für alle isquare Spider Versionen: isquare Spider Die folgenden s gelten für alle isquare Spider Versionen: webbasiertes Management (Administratoren) Monitoring Sichten aller gefundenen Beiträge eines Forums Statusüberprüfung Informationen

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

Online Help StruxureWare Data Center Expert

Online Help StruxureWare Data Center Expert Online Help StruxureWare Data Center Expert Version 7.2.7 Virtuelle StruxureWare Data Center Expert-Appliance Der StruxureWare Data Center Expert-7.2-Server ist als virtuelle Appliance verfügbar, die auf

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de , NoSQL source:dilbert.com Inhalte der nächsten Vorlesungen ˆ Methoden große Datenmengen

Mehr

Datenbanksystem. System Global Area. Hintergrundprozesse. Dr. Frank Haney 1

Datenbanksystem. System Global Area. Hintergrundprozesse. Dr. Frank Haney 1 Datenbanksystem System Global Area Hintergrundprozesse Dr. Frank Haney 1 Komponenten des Datenbanksystems System Global Area Program Global Area Hintergrundprozesse Dr. Frank Haney 2 System Global Area

Mehr

MapReduce mit Hadoop 08.11.12 1

MapReduce mit Hadoop 08.11.12 1 MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung

Mehr

Spezifikationen und Voraussetzung

Spezifikationen und Voraussetzung Projekt IGH DataExpert Yellowbill Adapter Spezifikationen Voraussetzungen Datum : 22.08.2013 Version : 1.0.0.2 22.08.2013 Seite 1 von 7 Inhaltsverzeichnis 1 Einleitung...3 2 Architektur...3 2.1 Grundsätze

Mehr

Der Support für Windows Server 2003 endet endgültig alles was Ihnen dann noch bleibt ist diese Broschüre.

Der Support für Windows Server 2003 endet endgültig alles was Ihnen dann noch bleibt ist diese Broschüre. Der Support für Windows Server 2003 endet endgültig alles was Ihnen dann noch bleibt ist diese Broschüre. 14. Juli 2015. Der Tag, an dem in Ihrem Unternehmen das Licht ausgehen könnte. An diesem Tag stellt

Mehr

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH Big Data Lösungen mit Apache Hadoop Gunnar Schröder, T-Systems Multimedia Solutions GmbH Was ist Big Data? 2 Charakteristiken von Big Data Three Vs of Big Data VOLUME Terabytes Petabytes Exabytes Zettabytes

Mehr

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen Lennart Leist Inhaltsverzeichnis 1 Einführung 2 1.1 Aufgaben einer Datenbank...................... 2 1.2 Geschichtliche Entwicklung

Mehr

Think Big. Skalierbare Anwendungen mit Azure. Aydin Mir Mohammadi Bluehands GmbH & co.mmunication KG

Think Big. Skalierbare Anwendungen mit Azure. Aydin Mir Mohammadi Bluehands GmbH & co.mmunication KG Skalierbare Anwendungen mit Azure Bluehands GmbH & co.mmunication KG 1 2 3 4 5 6 7 8 9 Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit Skalierung http://www.flickr.com/photos/39901968@n04/4864698533/

Mehr