Thema: Das MapReduce-Framework

Größe: px
Ab Seite anzeigen:

Download "Thema: Das MapReduce-Framework"

Transkript

1 Software as a Service Cloud Computing und aktuelle Entwicklungen Seminararbeit Thema: Das MapReduce-Framework Betreuer: Prof. Dr. Klaus Küspert Dipl.-Inf. Andreas Göbel Nicky Kuhnt Friedrich-Schiller-Universität Jena Studiengang: Informatik, Diplom Matrikel: 96577

2 Gliederung 1. Einführung Motivation MapReduce Verfahren Einführung Definition Map-Phase Shuffle-Phase Reduce-Phase Überblick Funktionsweise und Fehlerbehandlung 7 4. Beispiel Vergleich mit relationalen Mehrrechner-Datenbanken Hadoop HadoopDB Zusammenfassung Quellen..13 Bemerkung: Sollte ein Literaturangabe am Ende eines Kapitels stehen, so bezieht sie sich auf das gesamte Kapitel, sonst nur auf den jeweiligen Abschnitt

3 1. Einführung Cloud Computing ist heutzutage in aller Munde. Es beschreibt die Verwendung einer Technologie, welche große Berechnungen auf mehreren Computern in einem Netzwerk verteilt. Der Begriff Cloud beschreibt demnach eine Farm von Computern, die sich zu einem Cluster verbinden, was man sich wie eine Wolke vorstellen kann. Bei dieser Technologie werden verschiedenen Komponenten wie Rechen- oder Speicherkapazitäten dynamisch im Netzwerk zur Verfügung gestellt. Ein Aspekt des Cloud Computing ist die parallele Berechnung auf mehreren Computern in der Cloud, worin ein erheblicher Geschwindigkeitsvorteil liegt Ein Ansatz dafür bietet das MapReduce-Framework, welches in dieser Seminararbeit beschrieben und anhand eine Beispiels näher erläutert wird. Desweiteren wird ein Vergleich mit relationalen Mehrrechner-Datenbanksystemen gezogen und eine wichtige Implementierung von MapReduce vorgestellt. [VBM] 2. Motivation Heutzutage werden immer mehr Daten automatisch erfasst. Dies ist beispielsweise bei Aktienkursen, Wetterdaten, Social Networks oder Log-Dateien der Fall. Dies erzeugt riesige Datenmenge, dessen Verarbeitung sich als Herausforderung darstellt. Zwar sind in den letzten Jahren die Speicherkapazitäten der Festplatten enorm angestiegen, die Zugriffszeiten jedoch nicht in diesem Maße. Im Jahr 2000 betrug das durchschnittliche Volumen von Festplatten um die 40 GB mit Zugriffszeiten von rund 32 MB pro Sekunde. Das Auslesen einer solchen Platte dauerte demnach um die 21 Minuten hingegen betrug die mittlere Speicherkapazität von Festplatten 1000 GB, also das 25 fache im Vergleich zum Jahr Die Zugriffszeiten betrugen dabei 125 MB pro Sekunde, was nur ein 4 faches der Zugriffszeiten im Vergleich zum Jahr 2000 darstellt. Demnach benötigte man 135 Minuten zum Auslesen einer derartigen Festplatte. [WIKI] Google gibt zu ihren Verfahren für das Durchsuchen des Webs folgende Beispielrechnung: Im Jahr 20xx gibt es mehr als 1 Billion Websites, wobei jede eine Mindestgröße von 20 kb hat. Das ergibt über 400 TB an zu bearbeitenden Daten. Würde ein Computer das Web lesen bräuchte er mit einer Festplatten-Lesegeschwindigkeit von MB pro Sekunde rund 4 Monate. Würden allerdings Computer diese Aufgabe übernehmen, so wär die Arbeit in weniger als 2 Minuten getan. [CIR07] Dies zeigt, dass das Bearbeiten von Daten im Computercluster viel weniger Zeit in Anspruch nimmt, da die Daten parallel verarbeitet werden können, anstatt sequentiell mit einem Computer

4 Daher bewältigen Unternehmen wie Google große Datenmengen in Computerclustern durch verteiltes paralleles Rechnen. Durch diese Methode werden mehrere Recheneinheiten mit eigenen Festplatten zu einem sogenannten Cluster verbunden. Desweiteren werden die Daten verteilt gespeichert, also genau auf dem Computer, der die Daten auch bearbeitet. [CIR07] Durch dieses Verfahren soll sich eine deutliche Zeiteinsparung bei der Datenverarbeitung und Zugriffsoperationen ergeben. 3. Das MapReduce Verfahren 3.1 Einführung Um die bereits oben genannten Probleme zu bewältigen, entwickelte Goggle MapReduce, ein Framework um nebenläufige Berechnungen auf Computerclustern durchzuführen. Es wurde durch die Funktionen map und reduce inspiriert, welche in der funktionalen Programmierung häufig verwendet werden. Allerdings weicht die Semantik bei MapReduce davon ab. [LAE07] Das MapReduce-Framework realisiert eine Funktion, welches aus einer Liste von Schlüssel- /Werte-Paaren, welche die Eingabeliste darstellen, eine neue Liste von Schlüssel-/Werte- Paaren berechnet, die Ausgabeliste. Dabei teilt es die zu bearbeitenden Daten in kleine Teile, die sogenannten Blöcke, auf. Diese werden anschließend zur gleichzeitigen Verarbeitung auf unterschiedliche Rechner im Cluster verteilt. Daraus ergibt sich die parallele Verarbeitung der Daten, was zu mehreren Teilergebnissen führt, welche für das Endergebnis wieder zusammengeführt werden sollen, da der Nutzer ein komplettes Endergebnis der Berechnung haben will und nicht mehrere kleine Teilergebnisse. [DG04] Die darunterliegende Architektur und die Verteilung auf Computerclustern soll für den Nutzer transparent sein, sodass er von der Datenaufteilung nichts mitbekommt und auch keinen Einfluss darauf nehmen kann. Das ganze Verfahren ist in mehrere Phasen aufgeteilt, welche im Folgenenden beschrieben werden. 3.2 Definition list(k1,v1) list(k2,v4) Die formale Definition der gesamten Transformation zeigt, dass die Eingabe aus einer Liste von Schlüssel-/Werte-Paaren besteht, welche durch die Bearbeitung die Ausgabeliste, eine neue Liste von Schlüssel-/Werte-Paaren, erstellt

5 Dabei sind alle Schlüssel vom gleichen Typ und alle sind die entsprechenden Werte vom gleichen Typ. 3.3 Map-Phase Vor Beginn der MapReduce-Funktion, müssen die Eingabedaten, welche in semistrukturierter Form vorliegen, umgewandelt werden. semistrukt. Eingabedaten list(k1,v1) Dies geschieht durch eine sogenannte Input-Phase. Das Ergebnis dieser Phase ist eine Liste von Schlüssel-/Werte-Paaren (SWPaaren), welche als Eingabe für die Map-Funktion, die eine derartige Struktur als Eingabedaten verlangt, dient. Liegt diese Liste vor, wird für jedes einzelne SWPaar die Map-Funktion aufgerufen. (k1,v1) list(k2,v2) Die Map-Funktion erzeugt aus jedem SWPaar eine Liste von SWPaaren, wobei jeder Schlüssel in dieser Liste mehrmals vorkommen kann und genau einen Wert enthält. Jede Map-Funktion ist unabhängig von den anderen und wird auf einen Computer im Cluster aufgerufen. Das heißt, dass die SWPaare parallel und gleichzeitig bearbeitet werden. 3.4 Shuffle-Phase Die Shuffle-Phase ist ein Teil der eigentlichen Map-Berechnung. Diese muss im Gegensatz zur Map-Phase nicht für den jeweiligen Anwendungsfall programmiert werden, da sie funktional stets die gleiche Aufgabe erledigt. list(k2,v2) (k2, list(v2)) - 4 -

6 Sie erstellt neue SWPaare, was durch Gruppierung der einzelnen Paare durch den Schlüssel geschieht. Das heißt, dass alle Werte, welche ein und demselben Schlüssel enthalten, diesem zugeordnet werden und am Ende dieser Phase jeder Schlüssel nur noch in einem SWPaar vorkommt und die zugehörigen Werten enthält. Das Ergebnis dieser Phase bildet das Zwischenergebnis, welches der Mapper in seinem FileSystem speichert. Betrachtet man alle Map-Berechnungen, inklusiver der Shuffle-Phase, so entstehen mehrere Zwischenergebnisse, welche jeweils auf dem Computer abgespeichert werden, auf dem sie bearbeitet wurden. 3.5 Reduce-Phase (k2, list(v2)) list(v3) Die Reduce-Phase berechnet aus den Zwischenergebnissen der Map-Phase eine Liste von Ergebniswerten. Dabei wird für jedes Zwischenergebnis der Shuffle-Phase eine Reduce-Berechnung unabhängig von den anderen durchgeführt. Dies ergibt wieder eine parallele Bearbeitung der Zwischenergebnisse auf mehreren Computern im Cluster. list(v3) list(v2,k4) Im Anschluss müssen die einzelnen Endergebnisse der Reduce-Berechnungen wieder zu einen einheitlichen Endergebnis zusammengeführt werden. Dabei werden die jeweiligen Werte der Endergebnisse mit ihren Schlüsseln gepaart und ausgegeben. [DG04] - 5 -

7 3.6. Überblick Abb. 1: MapReduce-Schema In dem oben abgebildeten Schema sind nochmals alle Phasen der MapReduce-Berechnung dargestellt. Die Eingabedaten werden wie beschrieben in Blöcke aufgeteilt und für jeden Block wird die Map-Berechnung inklusive der Shuffle-Phase durchgeführt. Jedes Zwischenergebnis wird im Speicher abgelegt und zwar auf dem Computer, der Map-Berechnung durchgeführt hat. Anschließend ist zu sehen, dass für jedes Zwischenergebnis die Reduce-Berechnung durchgeführt wird, deren gesamte Ergebnisse als gemeinsames Endergebnis ausgegeben werden

8 3.7. Funktionsweise und Fehlerbehandlung Um eine MapReduce-Berechnung mit der oben beschriebenen Funktionsweise durchzuführen müssen die ganzen Knoten, die bei der Ausführung dieser Berechnung beteiligt sind, in irgendeiner Form gemanagt werden. Dies geschieht, indem das Framework zu Beginn einen Computer als Master bestimmt. Dieser ist für die Koordination der restlichen Computer und für die Datenverteilung verantwortlich. Dabei teilt der Master den anderen Computern, welche Worker genannt werden, die entsprechenden Map-Funktionen zu. Während der Berechnung kommuniziert der Master ständig mit den Workern, indem er sie in bestimmten Zeitintervallen anpingt. Dabei überprüft er die Erreichbarkeit der Worker und bekommt in der Antwort jedes Computers den Berechnungsstatus mitgeteilt und die Speicherorte der bearbeitenden Daten. Der Master bestimmt ebenfalls, welche Computer die Reduce-Berechnungen übernehmen und das noch während der Map-Berechnungen. [FIS10] Während der Berechnungen kann es durchaus zu Fehlern kommen. Die kann ein Ausfall oder Fehler in der Hardware eines Rechners oder ein Ausfall des gesamten Netzwerkes sein. In beidem Fällen ist ein bestimmter Teil der Daten nicht erreichbar, da der betroffene Rechner nicht antwortet. Ist ein Worker ausgefallen, so bekommt dies der Master mit, da er jeden Worker periodisch anpingt. Der Master teilt nun die Berechnung, die der ausgefallene Rechner durchgeführt hat, einen anderen Worker zu. Somit ist sichergestellt, dass jede Berechnung terminiert. Ist ein Worker bei einer Map-Berechnung ausgefallen, so muss die gesamte Berechnung neu ausgeführt werden, auch wenn er schon beendet wurde. Dies ist notwendig, da noch nicht alle Reduce-Berechnungen vom Map-Worker gelesen haben. Ist jedoch ein Worker bei einer beendeten Reduce-Berechnung ausgefallen, so muss diese Berechnung nicht neu durchgeführt werden, da die Ergebnisse dieser Berechnungen redundant im FileSystem gesichert sind. [FIS10] 4. Beispiel In diesem Kapitel wird ein Beispiel für die beschriebene Funktionsweise von MapReduce erklärt und vereinfacht dargestellt, welches den jeweiligen Maximalverbrauch eines PKW bei mehreren Testfahrten bestimmt. Die zu bearbeitenden Daten liefert ein System, welches neben den Verbrauchsdaten, die in einem bestimmten Intervall aufgezeichnet werden, auch mehrere Metadaten enthält (Testfahrtnummer, FahrerID, usw.)

9 Wie MapReduce das Verbrauchsmaximum der ermittelten Daten bestimmt, wird im Folgenden dargestellt. 1 6 input output map shuffle reduce Abb. 2: Verarbeitung exemplarischer Verbrauchsdaten eines PKW mittels MapReduce Als Eingabe dienen in diesem Fall unstrukturierte Verbrauchsdaten (Abb. 2, Feld 1), welche bei den Testfahrten des Fahrzeuges ermittelt wurden. Diese enthalten aller Verbrauchsangaben in 3-stelliger Form (bspw. steht 074 für einen Verbrauch von 7,4l) inklusiver der Uhrzeit, welche in bestimmten Zeitintervallen aufgezeichnet wurde und wichtige Metadaten wie die Nummer der Testfahrt, die Nummer des Testfahrers usw. Die Input-Phase extrahiert aus dieser Eingabe die benötigten Daten, anhand des Byte-Offset (in diesem Fall die Testfahrtnummer, welche hier die ersten 3 Stellen sind). Der Schlüssel in den SWPaaren gibt jeweils die Nummer der Testfahrt an (Abb. 2, Feld 2). Anschließend beginnt die Map-Berechnung, welche aus den SWPaaren der Eingabe derartige neue SWPaare berechnet, die als Wert jeweils eine dreistellige Verbrauchsangabe enthalten (Abb. 2, Feld 3). Direkt im Anschluss wird für jedes berechnete Paar der Map-Phase die Shuffle-Berechnung durchgeführt, welche jeder einzelnen Testfahrt eine Liste von allen Verbrauchsangaben zuordnet (Abb. 2, Feld 4). Diese SWPaare dienen als Zwischenergebnisse. Liegen alle Zwischenergebnisse vor, so wird für jedes einzelne die Reduce-Berechnung durchgeführt. Diese ermittelt in unseren Fall die jeweiligen Verbrauchsmaxima der einzelnen Testfahrten. Die Ergebnislisten enthalten in unserem Fall demnach nur einen einzelnen Wert (Abb. 2, Feld 5)

10 Im Anschluss daran ordnet die Output-Phase jedem Verbrauchsmaxima den Schlüssel zu, mit dem der jeweilige Reduce-Task aufgerufen wird. In unserem Fall ist das die Testfahrtnummer. Die Ergebnisse dieser Phase werden als Endergebnisse ausgegeben und man bekommt das jeweilige Verbrauchsmaxima zu jeder einzelnen Testfahrt zurückgeliefert (Abb. 2, Feld 6). 5. Vergleich mit relationalen Mehrrechnerdatenbanken Dieses Kapitel stellt einen Vergleich von MapReduce und relationalen Mehrrechnerdatenbanken auf und erörtert die Vor- und Nachteile beider Systeme. Da MapReduce auf die Bearbeitung in Computerclustern setzt, muss man sie relationalen Mehrrechnerdatenbanken gegenüberstellen. Dafür gibt es 3 verschiedene Architekturen: Shared Everything alle Recheneinheiten nutzen einen gemeinsamen Speicher und einen gemeinsamen Multiprozessor Shared-Disk jede Recheneinheit hat einen eigenen Multiprozessor, aber alle nutzen einen gemeinsamen Speicher Shared-Nothing jede Recheneinheit hat einen eigenen Multiprozessor und einen eigenen Speicher Allerdings kommen für relationale Mehrrechner-Datenbanksysteme in der Regel ausschließlich High-End-Server zum Einsatz, welche hohe Kosten verursachen. Dabei wird meist die Shared-Disk-Architektur genutzt, teilweise aber auch die Shared-Nothing- Architektur unterstützt. Desweiteren arbeiten solche Datenbanksysteme mit einer horizontalen Partitionierung auf mehrere Speicher oder Partitionen. Deshalb müssen die Anfragen partitioniert werden, deren Ergebnisse anschließend wieder zusammengeführt werden müssen, um ein Gesamtergebnis zu erhalten. Bei MapReduce hingegen werden die Daten in Blöcke aufgeteilt, was mit dem Shared- Nothing-Prinzip vergleichbar ist. Die Struktur bei relationalen Mehrrechner-Datenbanksystemen (MDBs) ist statisch, sodass sie bei Punktabfragen und Änderungsoperationen via SQL einen Vorteil haben. MapReduce hingegen bietet ausschließlich Abfragen. Modifikationen der Daten geschieht durch darunterliegende Strukturen wie beispielsweise dem FileSystem. Allerdings liegt MapReduce vorn, wenn das Schema semistrukturiert ist. Treten bei der Datenverarbeitung Fehler auf, so muss bei relationalen MDBs ein Query- Restart durchgeführt werden. Bei MapReduce wird der Task, der durch einen Rechnerausfall nicht durchgeführt werden kann, durch oben beschriebene Funktionsweise auf einen anderen Rechner übergeben, der - 9 -

11 diesen Task übernimmt und dessen Daten bearbeitet, wodurch MapReduce einen enormen Geschwindigkeitsvorteil bei dieser Art der Fehlertoleranz besitzt. Die Umgebung bei relationalen MDBs ist homogen, da in der Regel High-End-Hardware in den Servern eingesetzt werden muss, welche hohe Kosten verursachen. Desweiteren ist das DBMS teuer, die Installation und die Konfiguration solcher Systeme komplex, zeit- und damit kostenintensiv. MapReduce hingegen ist auf den Einsatz von Standardhardware optimiert und es kann auf OpenSource-Software zurückgegriffen werden, sodass die Kosten für dieses System gering sind. Die eben beschriebene Gegenüberstellung beider Systeme soll die folgende Tabelle nochmal veranschaulichen. Tabelle 3: Vergleich von MapReduce und relationalen Mehrrechner-Datenbanksystemen Relationale MDBs haben demnach ihre Stärken bei Abfrage- und Änderungsoperationen via SQL, statischem Schemata sowie in ihrer Ausgereiftheit. MapReduce ist für das parallele Verarbeiten enormer Datenmengen geeignet, hat Vorteile in der Struktur, da es eine große Anzahl von semistrukturierten Daten gibt und bei den Kosten. Desweiteren ist es auch schnell aufsetzbar, da, wenn die Hardware-Infrastruktur vorliegt, es ausschließlich von Nöten ist, die Funktionen für MapReduce zu programmieren. [STO10] Allerdings soll MapReduce keine generelle Alternative zu relationalen MDBs sein, sondern nur in speziellen Bereichen wie beispielsweise der Bearbeitung semistrukturierter Daten

12 6. Hadoop Für MapReduce gibt es bereits einige Implementierungen, wobei Hadoop womöglich die Bedeutendste darstellt. Hadoop ist ein OpenSource-Java-Framework für skalierbare, verteilt arbeitende Datenverarbeitungssysteme. Es basiert auf dem Algorithmus von Googles MapReduce und des Google-FileSystem, da dieses hohen Datenvolumen gerecht wird und sich neue Knoten leicht hinzufügen lassen. [FIS10] Dies ermöglicht riesige Rechenprozesse mit Petabytes an Daten auf Computerclustern, da die Verarbeitung der Daten parallel auf mehreren Computern durchgeführt werden kann. Die Grundlage für Hadoop legte Doug Cutting, indem er MapReduce 2005 für die Suchmaschine der OpenSource-Community Nutch* implementierte. Im Jahr 2006 startete Hadoop als Lucene-Projekt und es wurde am 28. Januar 2008 zum Apache Top-Level-Projekt ernannt. Mittlerweile beherbergt es mehrere Subprojekte. Im Juli 2009 gewann ein Cluster des Hadoop-Framework den Terabyte-Sort-Benchmark, welcher ermittelt, welches System bestimmte Eingabedaten am schnellsten sortiert und speichert. Dies war eine große Besonderheit, das Hadoop sowohl das erste OpenSource- Programm, als auch das erste Java-Framework war, das diesen Test gewann. Nutzer, welche Hadoop im großen Maße einsetzen, sind u.a. yahoo!, Amazon, facebook und last.fm. Beispielsweise arbeitet yahoo! s größte Installation mit 4000 Knoten. Hadoop besteht im Wesentlichen aus 3 Komponenten: Hadoop Common Hadoop Distributed FileSystem Hadoop MapReduce Mit diesen 3 Komponenten lässt sich ein vollständiger Hadoop-Cluster aufbauen, welcher nach dem Master-Slave-Prinzip arbeitet. Hadoop Common stellt sämtliche Grundfunktionen bereit, die alle anderen Komponenten benötigen, wie eine implementierungsneutrale FileSystem-Schnittstelle oder eine Schnittstelle für die Remote-Procedure-Call -Kommunikation im Cluster und Bibliotheken. Das Hadoop Distributed FileSystem (HDFS) ist das primäre Dateisystem von Hadoop und es folgt dem Vorbild des Google-FileSystem. Es ist speziell für die Entwicklung von MapReduce-Anwendungen optimiert. Hadoop MapReduce bietet alle Funktionen um nach dem Programmiermodell zu entwickeln und es basiert auf dem oben beschriebenen Google-MapReduce-Verfahren und dessen Funktionsweise. [FIS10] [BAL 09] * Suchmaschinen-Projekt der OPenSource-Community

13 7. HadoopDB HadoopDB ist ein freies paralleles Datenbanksystem, welches auf der Shared-Nothing- Architektur basiert und das mit einer an SQL angelehnten Sprache abgefragt werden kann. Es soll die Skalierbarkeit von Hadoop mit der Geschwindigkeit eines parallelen Datenbanksystems kombinieren. HadoopDB basiert auf einer Verbindung von PostgreSQL, Hadoop und einem Interface, das Anfragen in MapReduce oder SQL verarbeitet, je nachdem, welche Art von Anfragen vorliegen. Es generiert Anfragepläne, welche über einen Shared-Nothing-Cluster ausgeführt werden. Aus diesem Grund ist HadoopDB ein Hybrid aus MapReduce und einem parallelen Datenbanksystem. [GOLEM] Das derzeit genutzte Datenbanksystem ist PostgreSQL und es soll gegen andere Datenbanksysteme austauschbar sein, was mit MySQL schon erfolgreich durchgeführt wurde. Desweiteren ist HadoopDB OpenSource. [YALE] 8. Zusammenfassung Zusammenfassend ist zu sagen, dass durch das MapReduce-Framework Berechnungen und eingelesene Daten auf vergleichsweise einfache und durch Standardhardware sowie OpenSource-Software kostengünstige Art und Weise durchgeführt und weiterverarbeitet werden können. Der Geschwindigkeitsvorteil von MapReduce besteht darin, dass die Daten parallel auf mehreren Computern im Cluster verarbeitet und gespeichert werden. Es gibt bereits einige Implementierungen des MapReduce-Frameworks, sowie Hybridlösungen, welche die Vorteile der MapReduce-Berechnung und relationalen Mehrrechner-Datenbanksystemen nutzen. Das MapReduce-Framework wird bereits von vielen Firmen erfolgreich genutzt und findet immer höheren Zuspruch, da es schnell und kostengünstig aufsetzbar ist

14 9. Literaturverzeichnis [DG04] [STO10] [CIR07] [FIS10] Jerref Dean, Sanjay Ghemawat, MapReduce: Simplified Data Processing on Large Clusters, Google Inc., 2004 Michael Stonebraker, MapReduce and Parallel DBMSs: Friends or Foes?, Communication of the ACM, Januar 2010 Walfredo Cirne, Google Infrastructure for Massive Parallel Processing, Google Inc., 2007 Oliver Fischer, Verarbeiten großer verteilter Datenmengen mit Hadoop, Heise Zeitschriften Verlag, 2010 [BAL09] Eric Baldeschwieler, Hadoop Updaten, Open Cirrus Summit, yahoo!, 2009 [LAE07] Ralf Lämmel, Google s MapReduce Programming Model Revisited, Microsoft Corp., 2007 [YALE] Abrufdatum: [VBM] Abrufdatum: [WIKI] Abrufdatum: [GOLEM] Abrufdatum:

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

MapReduce-Konzept. Thomas Findling, Thomas König

MapReduce-Konzept. Thomas Findling, Thomas König MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel

Mehr

Software as a Service, Cloud Computing und aktuelle Entwicklungen Seminarvorbesprechung

Software as a Service, Cloud Computing und aktuelle Entwicklungen Seminarvorbesprechung Software as a Service, Cloud Computing und aktuelle Entwicklungen Seminarvorbesprechung A. Göbel, Prof. K. Küspert Friedrich-Schiller-Universität Fakultät für Mathematik und Informatik Lehrstuhl für Datenbanken

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

MapReduce - Konzept. Seminararbeit. Thomas König (Mat.-Nr. 1740853) Master Informatik (3. Semester)

MapReduce - Konzept. Seminararbeit. Thomas König (Mat.-Nr. 1740853) Master Informatik (3. Semester) Universität Leipzig Institut für Informatik Abteilung Datenbanken Seminararbeit Autor: Studiengang: Thomas König (Mat.-Nr. 1740853) Master Informatik (3. Semester) Betreuer: Gutachter: Lars Kolb Lars Kolb

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

Data Mining und Machine Learning

Data Mining und Machine Learning Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012 MapReduce Vereinfachte Datenverarbeitung in großen Rechnerverbünden Igor Marijanovic 794894 Fachvortrag WAR 19.12.2012 Beuth Hochschule für Technik Berlin Inhalt Einleitung Hauptteil Abschluss MapReduce

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?

Mehr

!"#$"%&'()*$+()',!-+.'/',

!#$%&'()*$+()',!-+.'/', Soziotechnische Informationssysteme 5. Facebook, Google+ u.ä. Inhalte Historisches Relevanz Relevante Technologien Anwendungsarchitekturen 4(5,12316,7'.'0,!.80/6,9*$:'0+$.;.,&0$'0, 3, Historisches Facebook

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Schlüsselworte Hadoop, Hive, Sqoop, SQL Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Einleitung In diesem Vortrag werden, nach einer kurzen Einführung in Apache Hadoop, die beiden Werkzeuge

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Wir unternehmen IT. Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Karlsruhe, 30.09.2015 $id thgreiner Thorsten Greiner Teamleiter Software Development ConSol* Software GmbH, Düsseldorf

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Einführung. Kapitel 1 2 / 508

Einführung. Kapitel 1 2 / 508 Kapitel 1 Einführung 2 / 508 Einführung Was ist ein Datenbanksystem (DBS)? Ein System zum Speichern und Verwalten von Daten. Warum kein herkömmliches Dateisystem verwenden? Ausfallsicherheit und Skalierbarkeit

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Cloud Data Management

Cloud Data Management 1 Cloud Data Management Dr. Martin Grund 2 Die Evolution des Web Web 1.0: Entstehung des World Wide Web 1989 (CERN) Tim Berners-Lee. 1991 weltweite Verbreitung Navigation zwischen statischen Seiten Keine

Mehr

ISBN: 978-3-8428-0679-5 Herstellung: Diplomica Verlag GmbH, Hamburg, 2011

ISBN: 978-3-8428-0679-5 Herstellung: Diplomica Verlag GmbH, Hamburg, 2011 Nils Petersohn Vergleich und Evaluation zwischen modernen und traditionellen Datenbankkonzepten unter den Gesichtspunkten Skalierung, Abfragemöglichkeit und Konsistenz Diplomica Verlag Nils Petersohn Vergleich

Mehr

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10 Prototypvortrag Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning Projektseminar WS 2009/10 Eugen Fot, Sebastian Kenter, Michael Surmann AG Parallele

Mehr

Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim

Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim Andreas Ries Cloud-Computing Seminar Hochschule Mannheim WS0910 1/26 Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim Andreas Ries Fakultät für Informatik Hochschule Mannheim ries.andreas@web.de

Mehr

Aktuelle SE Praktiken für das WWW

Aktuelle SE Praktiken für das WWW Aktuelle SE Praktiken für das WWW SQL vs. NoSQL W. Mark Kubacki 23.06.2010 Gliederung Zusammenfassung Entstehungsgeschichte SQL vs. NoSQL Systemarchitekturen und Wachstumsmuster SQL NoSQL Überblick und

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

Antwortzeitverhalten von Online Storage Services im Vergleich

Antwortzeitverhalten von Online Storage Services im Vergleich EPOD Encrypted Private Online Disc Antwortzeitverhalten von Online Storage Services im Vergleich Fördergeber Förderprogramm Fördernehmer Projektleitung Projekt Metadaten Internet Foundation Austria netidee

Mehr

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center PROFI UND NUTANIX Portfolioerweiterung im Software Defined Data Center IDC geht davon aus, dass Software-basierter Speicher letztendlich eine wichtige Rolle in jedem Data Center spielen wird entweder als

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006 Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet

Mehr

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud Ausarbeitung AW2 SS2012 Jan-Christoph Meier Data Mining in der Cloud Fakultät Technik und Informatik Department Informatik Faculty of Engineering and Computer Science Department of Computer Science Inhaltsverzeichnis

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

Datenanalyse im Web. Einführung in das Thema. Prof. Dr. Ingo Claÿen. Beispiele für Daten im Web. Extraktion und Aggregation von Informationen

Datenanalyse im Web. Einführung in das Thema. Prof. Dr. Ingo Claÿen. Beispiele für Daten im Web. Extraktion und Aggregation von Informationen Datenanalyse im Web Einführung in das Thema Prof. Dr. Ingo Claÿen Hochschule für Technik und Wirtschaft Berlin Beispiele für Daten im Web Extraktion und Aggregation von Informationen Datenanalyse im Web

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Überblick. Verarbeitung großer Datenmengen. MapReduce. Herausforderungen

Überblick. Verarbeitung großer Datenmengen. MapReduce. Herausforderungen Überblick Verarbeitung großer Datenmengen Verarbeitung großer Datenmengen Motivation MapReduce Zusammenfassung Problemstellungen (e) Indexierung des World Wide Web PageRank-Berechnungen für Web-Seiten

Mehr

MapReduce. Johann Volz. 3. Juni 2010. Zusammenfassung

MapReduce. Johann Volz. 3. Juni 2010. Zusammenfassung MapReduce Johann Volz 3. Juni 2010 Zusammenfassung Bei der Verarbeitung von Datenmengen, die hunderte oder gar tausende Computer zur Fertigstellung in der gewünschten Zeit brauchen, muss man sich nicht

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

Vorwort zur 5. Auflage... 15 Über den Autor... 16

Vorwort zur 5. Auflage... 15 Über den Autor... 16 Vorwort zur 5. Auflage...................................... 15 Über den Autor............................................ 16 Teil I Grundlagen.............................................. 17 1 Einführung

Mehr

Persönlichkeiten bei bluehands

Persönlichkeiten bei bluehands Persönlichkeiten bei Technologien bei Skalierbare Anwendungen mit Windows Azure GmbH & co.mmunication KG am@.de; posts..de/am 1 2 3 4 5 6 7 8 9 Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit

Mehr

Seminar SS 09 Amdahl`s Law and Cloud-Computing

Seminar SS 09 Amdahl`s Law and Cloud-Computing Seminar SS 09 Amdahl`s Law and Cloud-Computing Prof. G. Bengel Fakultät für Informatik SEMB 7IBW 8IB Raum HO609 Mo 9:45-11:15 1. Teil: Amdahl sches Gesetz 1. Vortrag Das Gesetz von Amdahl und Gustafson

Mehr

Prof. Dr.-Ing. Rainer Schmidt 1

Prof. Dr.-Ing. Rainer Schmidt 1 Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2

Mehr

Kapitel 33. Der xml-datentyp. In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023

Kapitel 33. Der xml-datentyp. In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023 Kapitel 33 Der xml-datentyp In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023 995 996 Kapitel 33: Der xml-datentyp Eine der wichtigsten

Mehr

Managed Cloud Services

Managed Cloud Services Managed Cloud Services Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Cloud Services

Mehr

Informationsmanagement Übungsstunde 9

Informationsmanagement Übungsstunde 9 Informationsmanagement Übungsstunde 9 Univ.-Prof. Dr.-Ing. Wolfgang Maass Lehrstuhl für Betriebswirtschaftslehre, insb. Wirtschaftsinformatik im Dienstleistungsbereich (Information and Service Systems

Mehr

Scheinaufgabe im Fach Web Engineering

Scheinaufgabe im Fach Web Engineering Otto-von-Guericke-Universität Magdeburg Fakultät für Informatik Institut für Verteilte Systeme Scheinaufgabe im Fach Web Engineering Thomas Thüm 07. August 2006 Matrikel: 171046 Lehrveranstaltung: Web

Mehr

MySQL Cluster. Kai Voigt MySQL AB kai@mysql.com. Kiel, 17. Februar 2006

MySQL Cluster. Kai Voigt MySQL AB kai@mysql.com. Kiel, 17. Februar 2006 MySQL Cluster Kai Voigt MySQL AB kai@mysql.com Kiel, 17. Februar 2006 1 Agenda Warum? Wie? Wie genau? Was sonst? 2 Warum? 3 Kosten runter Hochverfügbarkeit (99,999%) Redundante Daten und Systeme Wiederherstellung

Mehr

Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me

Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me Bevor Sie die Platte zum ersten Mal benutzen können, muss sie noch partitioniert und formatiert werden! Vorher zeigt sich die Festplatte

Mehr

Gerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2

Gerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2 Gerrit Thede Big and Fast Data - Verarbeitung von Streaming Data Grundlagen Vertiefung und Anwendungen 2 Fakultät Technik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Azure und die Cloud. Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat. Institut für Informatik Software & Systems Engineering

Azure und die Cloud. Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat. Institut für Informatik Software & Systems Engineering Azure und die Cloud Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat Institut für Informatik Software & Systems Engineering Agenda Was heißt Cloud? IaaS? PaaS? SaaS? Woraus besteht

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

Spezifikationen und Voraussetzung

Spezifikationen und Voraussetzung Projekt IGH DataExpert Yellowbill Adapter Spezifikationen Voraussetzungen Datum : 22.08.2013 Version : 1.0.0.2 22.08.2013 Seite 1 von 7 Inhaltsverzeichnis 1 Einleitung...3 2 Architektur...3 2.1 Grundsätze

Mehr

Modellbasierte Softwareentwicklung mit EMF

Modellbasierte Softwareentwicklung mit EMF Softwaretechnik I, WS 2009/10 Modellbasierte Softwareentwicklung mit EMF Übungsblatt 5 13. November 2009 Organisatorisches Zur Bearbeitung der Übungsaufgabe stehen Ihnen die folgenden 3 Wochen (Kalenderwochen

Mehr

Configuration Management mit Verbosy 17.04.2013 OSDC 2013. Eric Lippmann www.netways.de

Configuration Management mit Verbosy 17.04.2013 OSDC 2013. Eric Lippmann www.netways.de Configuration Management mit Verbosy 17.04.2013 OSDC 2013 Eric Lippmann Kurzvorstellung NETWAYS Expertise OPEN SOURCE SYSTEMS MANAGEMENT OPEN SOURCE DATA CENTER Monitoring & Reporting Configuration Management

Mehr

Programmierunterstützung im Kontext von Cloud Computing

Programmierunterstützung im Kontext von Cloud Computing Programmierunterstützung im Kontext von Cloud Computing Alexander Singer AlexSinger@gmx.net ABSTRACT Mit dem Aufkommen des Cloud Computing wurden große Rechner-Cluster für jedermann verfügbar. Um diese

Mehr

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Brownbag am Freitag, den 09.08.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich

Mehr

Dialekte der Klimaforschung

Dialekte der Klimaforschung Dialekte der Klimaforschung Vom Fortran-Programm zum parallelen Programm Thomas Ludwig Inhalt Welche Dialekte werden transformiert? Welche Anforderungen stellen wir? Wozu diese Transformation? Wie ist

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Teil VI. Datenbanken

Teil VI. Datenbanken Teil VI Datenbanken Überblick 1 Grundlegende Begriffe Motivation 2 Relationale Datenbanksysteme Das Relationale Datenmodell SQL 3 Entwurf von Datenbanken Das Enity Relationship (ER) Modell Abbildung von

Mehr

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten

Mehr

MySQL Community Server 5.6 Installationsbeispiel (Ab 5.5.29)

MySQL Community Server 5.6 Installationsbeispiel (Ab 5.5.29) MySQL Community Server 5.6 Installationsbeispiel (Ab 5.5.29) Dieses Dokument beschreibt das Herunterladen der Serversoftware, die Installation und Konfiguration der Software. Bevor mit der Migration der

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Ein Beispiel Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Dipl.-Kfm. Claus Häberle WS 2015 /16 # 42 XML (vereinfacht) visa

Mehr

XINDICE. The Apache XML Project 3.12.09. Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de

XINDICE. The Apache XML Project 3.12.09. Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de 3.12.09 HKInformationsverarbeitung Kurs: Datenbanken vs. MarkUp WS 09/10 Dozent: Prof. Dr. M. Thaller XINDICE The Apache XML Project Inhalt Native

Mehr

Die TravelTainment DataCollection

Die TravelTainment DataCollection Die TravelTainment DataCollection Seminararbeit im Studium Scientific Programming WS 2011/2012 Betreuer: Betreuer: Prof. Dr. Hans-Joachim Pflug Ibrahim Husseini Autor: Katharina Zacharias Matrikel-Nr:

Mehr

Neue Ansätze der Softwarequalitätssicherung. Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop

Neue Ansätze der Softwarequalitätssicherung. Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Neue Ansätze der Softwarequalitätssicherung Thema des Seminars Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Spezifikationen und Voraussetzung

Spezifikationen und Voraussetzung Projekt IGH DataExpert Paynet Adapter Spezifikationen Voraussetzungen Datum : 21.07.08 Version : 1.0.0.2 21.07.2008 Seite 1 von 7 Inhaltsverzeichnis 1 Einleitung... 3 2 Architektur... 3 2.1 Grundsätze

Mehr

c rk, td MWCC (WS14/15) Organisation Vorlesung 0 2

c rk, td MWCC (WS14/15) Organisation Vorlesung 0 2 Organisation Einführung Chancen und Limitierungen Herausforderungen Verantwortliche Tobias Distler Raum 0.039 distler@cs.fau.de Jürgen Kleinöder Raum 0.043 jk@cs.fau.de Termin Mittwoch, 10:15 11:45 Uhr

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

MapReduce in der Praxis

MapReduce in der Praxis Universität Passau Fakultät für Informatik und Mathematik Ausarbeitung MapReduce in der Praxis Verfasser: Rolf Daniel 09.12.2010 Zusammenfassung MapReduce ist ein von Google eingeführtes Framework, das

Mehr

Visualisierung der Eidolon Auswertung. VisEiA. Graphischer Client für das Emailspiel Eidolon

Visualisierung der Eidolon Auswertung. VisEiA. Graphischer Client für das Emailspiel Eidolon Visualisierung der Eidolon Auswertung VisEiA Graphischer Client für das Emailspiel Eidolon Entstanden im Ramen einer Seminararbeit in Informatik Universität Fribourg, Schweiz david.buchmann@gmx.net http://getit.at/viseia/

Mehr

A Generic Database Web Service for the Venice Lightweight Service Grid

A Generic Database Web Service for the Venice Lightweight Service Grid A Generic Database Web Service for the Venice Lightweight Service Grid Michael Koch Bachelorarbeit Michael Koch University of Kaiserslautern, Germany Integrated Communication Systems Lab Email: m_koch2@cs.uni-kl.de

Mehr

3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner

3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner 3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner Gliederung Das Problem: Skalierbarkeit LAMP Tuning Mehr als ein Server Stud.IP und shared nothing

Mehr

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? Hans-Peter Zorn Inovex GmbH Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? War nicht BigData das gleiche NoSQL? Data Lake = Keine Struktur? flickr/matthewthecoolguy Oder gar ein Hadump? flickr/autohistorian

Mehr

Hardware- und Software-Anforderungen IBeeS.ERP

Hardware- und Software-Anforderungen IBeeS.ERP Hardware- und Software-Anforderungen IBeeS.ERP IBeeS GmbH Stand 08.2015 www.ibees.de Seite 1 von 8 Inhalt 1 Hardware-Anforderungen für eine IBeeS.ERP - Applikation... 3 1.1 Server... 3 1.1.1 Allgemeines

Mehr

Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10

Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10 Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10 Richard Beyer 1 Inhalt 1. Allgemeines 2. Amazon EC2 3. Yahoo Cloud 4. Vergleich 5. Fazit 6. Literatur Richard Beyer 2 Definition Cloud computing

Mehr

So erreichen Sie uns:

So erreichen Sie uns: für Das I Ho chp hre in Clus t d erf orm ividu ersy e s ll ant, sic en Be tem dü her und rfnis pre se. isw ert. So erreichen Sie uns: Contabo GmbH Aschauer Straße 32 a 81549 München +49 (0) 89 / 212 683

Mehr

FernUniversität in Hagen - Seminar 01912 im Sommersemester 2011. MapReduce und Datenbanken

FernUniversität in Hagen - Seminar 01912 im Sommersemester 2011. MapReduce und Datenbanken FernUniversität in Hagen - Seminar 01912 im Sommersemester 2011 MapReduce und Datenbanken Thema 15 Strom- bzw. Onlineverarbeitung mit MapReduce Referent: Jan Kristof Nidzwetzki 2 Jan Kristof Nidzwetzki,

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Sozio- Technische Systeme

Sozio- Technische Systeme Soziotechnische Informationssysteme 7. Skalierbarkeit 2013 757 Millionen melden sich täglich an (12/2013) 802 DAUs laut FB (1 Quartal 2014) 1.23 Milliarden Nutzer im Monat (12/2013) 556 Millionen täglich

Mehr

So erreichen Sie uns:

So erreichen Sie uns: für Das I Ho chp hre in Clus t d erf orm ividu ersy e s ll ant, sic en Be tem dü her und rfnis pre se. isw ert. So erreichen Sie uns: Giga-Hosting GmbH Aschauer Straße 32 a 81549 München +49 (0) 89 / 212

Mehr

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96 Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96 Dieser Fragenkatalog wurde aufgrund das Basistextes und zum Teil aus den Prüfungsprotokollen erstellt, um sich auf mögliche

Mehr

Googles Map-Reduce-Technik

Googles Map-Reduce-Technik Googles Map-Reduce-Technik Wolfgang Gassler wolfgang.gassler@student.uibk.ac.at Zusammenfassung Durch die ständig steigende Datenflut im Internet müssen auch die Datenverarbeitungskapazitäten stark steigen.

Mehr

Aufbau und Pflege von Internetseiten leicht gemacht

Aufbau und Pflege von Internetseiten leicht gemacht Aufbau und Pflege von Internetseiten leicht gemacht Einführung in die Grundlagen der CMS (Content Management Systeme) Was ist ein CMS? frei übersetzt: Inhaltsverwaltungssystem ist ein System, das die gemeinschaftliche

Mehr

Algorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1

Algorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1 Algorithmen Consistent Hashing Bloom Filter MapReduce Distributed Hash Tables Einführung 1 Consistent Hashing Problem: Wie finde ich den Speicherort für ein Objekt in einem verteilten System mit n Knoten?

Mehr

Anleitung zur Installation von SATA- Festplatten und zur RAID-Konfiguration

Anleitung zur Installation von SATA- Festplatten und zur RAID-Konfiguration Anleitung zur Installation von SATA- Festplatten und zur RAID-Konfiguration 1. Anleitung für Installation von TA-Festplatten... 2 1.1 Serial ATA- (SATA-) Festplatteninstallation... 2 2. Anleitung zur RAID-Konfiguration...

Mehr

Verteilte Dateisysteme in der Cloud

Verteilte Dateisysteme in der Cloud Verteilte Dateisysteme in der Cloud Cloud Data Management Maria Moritz Seminar Cloud Data Management WS09/10 Universität Leipzig 1 Inhalt 1.) Anforderungen an verteilte Dateisysteme 2.) GoogleFS 3.) Hadoop

Mehr

HDFS als schneller und günstiger Storage?

HDFS als schneller und günstiger Storage? HDFS als schneller und günstiger Storage? Das Hadoop Distributed File System (HDFS) verwaltet spielend riesige Datenmengen, lässt sich im laufenden Betrieb bequem skalieren und ist komfortabel zu administrieren.

Mehr

Endorsed SI Anwenderbericht: Einsatz von System Platform 2012 R2 in virtualisierten Umgebungen zur Prozessvisualisierung

Endorsed SI Anwenderbericht: Einsatz von System Platform 2012 R2 in virtualisierten Umgebungen zur Prozessvisualisierung Endorsed SI Anwenderbericht: Einsatz von System Platform 2012 R2 in virtualisierten Umgebungen zur Prozessvisualisierung Fritz Günther 17.03.2014 Folie 1 Agenda Was ist Virtualisierung Server- / Clientvirtualisierung

Mehr