Überblick: Data at Scale

Größe: px
Ab Seite anzeigen:

Download "Überblick: Data at Scale"

Transkript

1 Überblick: Data at Scale Proseminar Data Mining Quirin Stockinger Fakultät für Informatik Technische Universität München Kurzfassung Der exponentielle Anstieg von verfügbaren Datenmengen erfordert neue Algorithmen um aus diesen Daten Nutzen zu ziehen. Auf Grund seiner enormen Relevanz bei der Lösung dieses Problems wird im Folgenden der von Google entwickelte MapReduce-Algorithmus vorgestellt. Des Weiteren wird auf Hadoop, eine Open-Source Software-Suite, entwickelt von Apache und aufbauend auf MapReduce eingegangen. Schlüsselworte Big Data, Skalierbare Datenverabeitung, MapReduce-Algorithmus, Divide-and-Conquer, Apache Hadoop, Latenz I. EINLEITUNG Die Einführung von web2.0 Anwendungen und Webseiten hat nicht nur Vorteile für den Nutzer sondern auch die Möglichkeit auf eine unbegrenzt große Menge von Daten zuzugreifen mit sich gebracht. Dieser enorme Datenfluss erfordert neue Methoden zum Herausfiltern von Informationen, beispielsweise aus nützlichen Statistiken. Diese Arbeit bietet eine Einführung in den meistgenutzten Algorithmus für die skalierte Analyse von großen Datenmengen: Google s MapReduce. Diese Arbeit bezieht einen Großteil der Informationen aus dem Big Data Themengebiet im Harvard Business Review Oktober 2012 und aus einer Vorlesung von Cloudera s Amr Awadallah über Hadoop und Cloudera s Hadoop Suite. Des Weiteren wird Bezug auf das ebook Understanding Big Data genommen, welches von mehreren IBM-Angestellten verfasst wurde. IBM ist eines der führenden Unternehmen auf dem Bereich der Big Data-Problemlösung. A. Was ist Big Data? II. BIG DATA Wenn man von Daten spricht, ist meistens die Rede von SQL-Datenbanken bzw Tabellen, in welchen spalten- und zeilenweise diverse Attribute gespeichert und miteinander in Relation gebracht sind. Diese Art von Daten wird strukturierte Daten genannt, da sie in einer vorhersehbaren Form auftreten: in Tabellen. Mit diesen Daten umzugehen ist denkbar leicht: das kleinste Element zu finden ist nicht mehr als in einer Spalte zu sortieren oder einen SQL-Befehl auszuführen. Daten, welche in unterschiedlichen, unvorhersehbaren Formen auftreten und nicht in eine gemeinsame sinnvolle Datenbank geschrieben werden könnten, nennt man unstrukturierte Daten. Diese Datenmenge ist mit dem Aufkommen von Sozialen Netzen á la Twitter und Facebook in den letzten Abb. 1. Anstieg der unstrukturierten Datenmenge Jahren exponentiell gestiegen. Diese Netzwerke erzeugen im Millisekundentakt neue Daten, das können tweets, Status- Aktualisierungen oder Geo-Daten sein. Hinzu kommen diverse Log-Dateien oder auch Videos und Audio. Bei der Betrachtung der letzten 2 Jahre wird der exponentielle Datenanstieg deutlich: Innerhalb der letzten 24 Monate wurden mehr als 90% aller bisher insgesamt erstellten Daten generiert und wie in Abb. 1 zu erkennen ist sind dies hauptsächlich unstrukturierte Daten. Der Big Data Begriff beschäftigt sich genau mit den Analyseaufgaben, bei welchen das Volumen der zu analysierenden Daten so groß ist, dass die Menge zum Problem bei der Analytik wird. [2] B. Die 3 V s des Big Data-Begriffs Um den Begriff Big Data genauer einzugrenzen und zu beschreiben, werden häufig die drei V s herangezogen. Volume: Die reine Menge an generierten Daten ist heute enorm: 2012 wurden jeden Tag 2,5 Exabytes an Daten generiert, das verdoppelt sich ca. alle 40 Monate. [2] Allein Facbook erzeugt jeden Tag 10 Terabytes an neuen Daten. [1] Diese erdrückende Welle an Daten, die auf jeden Analytiker hereinbricht, ist ein Teil von Big Data und verlangt beim Umgang damit erhöhte Sorgfalt und neue Methoden, um relevante Daten aus der Menge herauszufiltern. Variety: Die unterschiedlichen und vor Allem immer neueren Arten von Daten. Die meisten neuen Typen von Daten sind erst so alt wie die Dienste, die sie hervorgerufen haben: tweets seit der Gründung von Twitter (2006) und Status-Updates in Facebook, das 2004 startete. Die immer weiter sinkenden Kosten für Computer-Peripherie wie Festplatten bringt immer mehr

2 Abb. 2. Schema beim Schreiben [4] Unternehmen dazu auf Strategien zu setzen, die mit höheren Kosten nicht vereinbar gewesen wären. Da Unternehmen über die Mittel verfügen um Daten im großen Stil speichern zu können, kommen neue, wieder unterschiedliche Quellen für weitere Datenströme hinzu. [2] Velocity: Die Geschwindigkeit, in der Daten fließen. Echtzeitund Nahe-Echtzeit-Analyse von Daten kann einem Unternehmen oder Börsenteilnehmer einen signifikanten Vorteil gegenüber seinen Konkurrenten und damit immense wirtschaftliche Vorteile schaffen. Es ist also wichtig Daten schon zu beachten, während sie noch in Bewegung sind, nicht erst wenn sie zur Ruhe gekommen sind. [1], [2] III. DATENVERARBEITUNG Eine aktuelle Methode für die Verarbeitung und Analyse von gegebenen Daten basiert auf einem Schema-beim- Schreiben-Ansatz. Hierbei werden Daten in eine statische, bereits erstellte Datenbank geladen und in dieser Datenbank dann analytische Anfragen durchgeführt. Dadurch lassen sich Latenzen bei der Bearbeitung minimieren, Die Methode lässt sich allerdings nicht für Big Data-Probleme anwenden. A. Schema beim Schreiben Abb. 2 zeigt einen Datenanalyseablauf von der Erstellung der Daten bis hin zur Analyseschicht. Auf der abstraktesten Ebene steht die Erstellung von allen Daten, darüber die Sammlung all derer Daten, die strukturiert sind bzw. für Analysezwecke verwendbar sind. Gesammelte Daten werden auf ein Server-Netz verschoben, das nur zur Lagerung dient. Über diesem Netz sitz eine ETL-Datenverarbeitungs-Logik, welche die Daten aus der Lagerung extrahiert (Extract), diese in die Form der gegebenen Datenbank bringt (Transform) und diese transformierten Daten schlussendlich in die Datenbank verschiebt (Load), welche für die Analyse erstellt wurde. Das Schema der Datenbank wird hier also beim Schreiben auf den Datensatz angewendet. [4] Erst dann kann man in dieser Datenbank Analyseanfragen, zum Beispiel search oder sort Befehle, an die gesammelten Daten stellen. Da man nur genau die Daten in der zu analysierenden Schicht hat und man die Struktur dieser Daten genau kennt (sie wurden ja in die Struktur der erstellten Datenbank transformiert) erfolgen diese Anfragen in Linearzeit und damit ist die Latenz minimiert. B. Einschränkungen bei dieser Methode Anhand der in Abb. 2 dargestellten Struktur kann man sehr leicht die größten Fehlerquellen und Einschränkungen dieser Herangehensweise erkennen. Das Offensichtlichtste zuerst: Daten von einer an die nächste Stelle zu verschieben ist langsam. Wenn dies mehrere Male durchgeführt werden muss (vom Datensammeln in das Lagerungs-Netzwerk und von dort in die Datenbank und in das Archiv zu Datensicherungszwecken), dann wirkt sich dies summiert negativ auf die Laufzeit der gesamten Datenanalyse aus. Würde man beispielsweise einen Terabyte an Daten in die Datenbank verschieben wollen, so ist man bereits durch die Schreibgeschwindigkeit von handelsüblichen Festplatten (nicht solid-state) bei etwa 20 Megabyte/sec limitiert. Das einmalige Verschieben dieser Menge würde dann in etwa 15 Stunden dauern. Die nächste Einschränkung ist die statische Natur der im Vorhinein erstellten Datenbank. So kann es häufig vorkommen, dass später im Analysevorgang Fragen aufkommen, auf die man mit den vorhandenen Daten nicht antworten kann. Eine neue Datenbank mit der Größe der aktuellen Datenbank und einer zusätzlichen neuen Spalte für die relevanten Daten muss also erstellt werden und die benötigten Daten wieder von der abstrakten Schicht bis zur Datenbank-Schicht durch den gesamten Verarbeitungsvorgang gehen. Auch das Archivieren von Daten aus dem Lagerungs-Netz kann eine Einschränkung sein. Sobald Daten einmal den Datentod gestorben sind, können sie aus dem Archiv-Nirwana nicht mehr ohne weiteres zurückgeholt werden und werden dadurch unbenutzbar. IV. MAPREDUCE MapReduce ist der von Google entwickelte, 2-teilige Algorithmus zur Bewältigung von Big Data-Aufgaben und Problemen. Beim Bewältigen von Big Data-Aufgaben ist es schwierig, die gesamte Datenmenge auf einmal zu bearbeiten. Auf Grund der reinen zu analysierenden Menge würde ein simples, iteratives Durchsuchen der Daten nach Stichwörtern die Laufzeit in die Länge ziehen und damit Anfragen nah an Echtzeit unmöglich machen. Google s Algorithmus basiert also auf dem Divide-and- Conquer-Prinzip: Große komplexe und damit unübersichtliche Aufgaben werden zur Vereinfachung in elementare Aufgaben zerlegt und diese dann simultan als von einander unabhängige Prozesse bearbeitet. Diese Lösungsstrategie mag heute trivial erscheinen, war bei Einführung des Algorithmus jedoch eine Neuheit im Umfeld der Datenverarbeitung. [1] A. Der Algorithmus Der Algorithmus besteht, wie man aus dem Namen bereits herleiten kann, aus 2 Bereichen, die hintereinander ausgeführt werden müssen: einem Map- und einem Reduce-Teil. Der Mapping-Prozess erhält den eingegebenen Datensatz als Input und konvertiert ihn in einen Satz von Tupeln. Tupel sind Datenpaare aus Schlüssel und zugehörigem Wert, also <Key, Value> Paare. Die beim Mapping entstandenen Output

3 Abb. 3. MapReduce [5] Abb. 4. WordCount Datensätze werden im Reduce Prozess zu wiederum kleineren Tupeln, je nach zusammengehörigen Key, zusammengefasst und dieser Datensatz dann als Ergebnis dem Benutzer präsentiert (Vergleiche Abb. 3). Vergleichbar ist diese Vorgehensweise mit einem Verfahren zur Volkszählung im Alten Rom. Der mit der Zählung beauftragte Konsul schickte jeweils einen Vertreter in jede zu zählende Stadt, diese lieferten die Daten für die Stadt ihrer Zuständigkeit zurück und der Konsul konnte diese dann zu einer Gesamtzählung zusammen fassen. [1] B. Beispiel: WordCount Um die genaue Funktion von MapReduce zu erläutern wird im Folgenden ein rudimentäres Beispiel, das Zählen von einzelnen Wörtern in einem gegebenen Text, erklärt. Natürlich ist das ein sehr simpler Anwendungsfall für einen MapReduce- Vorgang, der Algorithmus ist aber beliebieg groß skalierbar und das hier angewendete Prinzip kann demnach auch für weitaus kompliziertere Aufgaben verwendet werden. In diesem Beispiel ist der gegebene Datensatz ein Textfile bestehend aus 3 Zeilen und das Ziel ist es zu jedem der 3 verschiedenen Wörter die Anzahl, also wie oft sie im Text vorkommen, zu berechnen. Sea Tree Knee Knee Tree Sea Tree Tree Tree Bevor das Mapping nun überhaupt beginnen kann wird das Textfile zerteilt in seine einzelnen Zeilen. Es entstehen also 3 Datensätze aus jeweils 3 Wörtern, wobei der erste zum Beispiel Sea Tree Knee ist. Für jeden dieser einzelnen Zeilen wird nun ein Map-Prozess aufgerufen und dabei zu jedem vorhandenen Wort ein Tupel mit dem Wert der jeweiligen Anzahl erstellt. Für die erste Zeile sind das folgende Tupel: <Sea, 1> <Knee, 1> <Tree, 1> Jeder der anderen Mapping-Prozesse liefert genauso eigene Tupel der vorhanden Wörter. Die Datensätze, die beim Mapping entstehen, werden nun an die Reduce-Prozesse weitergegeben. Ein Tupel wird hierbei genau an den Reducer weitergegeben, welcher für den jeweiligen Key (in diesem Beispiel das jeweilige Wort) zuständig ist. Die Aufgabe im Reduce-Teil des Algorithmus ist es nun alle Tupel eines Keys bzw. Wortes zu einem zusammen zu fassen und die zugehörigen Werte bzw. Anzahlen zu addieren. Der Reducer des Wortes Tree würde in diesem Beispiel vom ersten Mapper den Tupel <Tree, 1>, vom zweiten den Tupel <Tree, 1> und vom letzten den Tupel <Tree, 3> übergeben bekommen und fasst diese zu einem Tupel für den Schlüssel Tree zusammen mit der addierten Anzahl von 5. (Vergleiche Abb. 4) Um dem Benutzer ein Endergebnis zu liefern werden nun die Tupel der Reducer wieder zu einem einzelnen Datensatz zusammengefügt und in der Anwenderschicht präsentiert. <Sea, 2> <Knee, 2> <Tree, 5> V. HADOOP Hadoop ist Apache s Open-Source Lösung für Big Data- Aufgaben aufbauend auf dem MapReduce-Algorithmus. Hierbei werden sowohl Daten als auch die MapReduce-Logik auf einem Server-Netzwerk (Cluster) zur Bearbeitung verteilt (vergleiche hierzu Kapitel V, B). Hadoop bietet allerdings mehr als nur MapReduce, es umfasst eine gesamte Suite and Funktionen und Komponenten wie Programmiersprachen. Prestigeträchtige Nutzer dieser Suite umfassen Facebook (weltweit größter Hadoop-Cluster mit mehr als 21 Petabytes), IBM und Yahoo. Die in Hadoop verwendete Strategie heisst Schema beim Lesen. Hierbei werden Daten erst dann interpretiert, wenn sie gelesen werden, nicht bereits beim Schreiben der Daten. Die Struktur der zu lesenden Daten ist also irrelevant. Im Folgenden wird genauer auf einige mögliche Komponenten der Hadoop-Suite eingegangen. [4] A. Komponenten Die Haupbestandteile von Hadoop sind der MapReduce- Algorithmus, auf dem das gesamte System aufbaut, und HDFS (Hadoop Distributed Filesystem), das Dateisystem auf dem Cluster. Ein MapReduce-Auftrag wird in Hadoop immer in

4 Java geschrieben, der Programmierer muss hierbei nur die jeweils nötigen Map- und Reduce-Funktionen schreiben. Komponenten, die dieses Gerüst ergänzen werden im Folgenden erklärt. Hive: Hive bietet die Bedienung der Hadoop-Suite für Nutzer mit Vorkenntnissen in SQL an. Hive verwendet hierbei eine Sprache, die SQL sehr ähnlich ist: die Hive Query Language (HQL). Aber da HQL sehr auf SQL basiert, ist die Sprache in ihrer Funktionsweise wie die Vorlage beschränkt. HIVE Befehle werden in MapReduce-Aufträge umgewandelt und auf dem Cluster ausgeführt. Pig/PigLatin: PigLatin ist eine von Yahoo entwickelte Programmiersprache, deren Spezialität darin liegt sich mit jeder Art von eingegebenen Daten zu verstehen (engl. pig: ein Schwein als Allesfresser) und diese zu transformieren. PigLatin kann als das Hadoop Gegenstück zu einer ETL-Logik verstanden werden: PigLatin extrahiert hierzu Daten aus dem HDFS um daraufhin Transformationen, wie das Entfernen einzelner Reihen oder die Kombination zweier Datensätze, auszuführen, Anschließend werden die Daten geladen und beispielsweise dem Nutzer ausgegeben. Pig ist die dazugehörige Laufzeitumgebung für PigLatin, ähnlich wie Java Virtual Machine s Verhältnis zu einer Java Applikation. [1] HBase: Ist eine non-relational Datenbank, basierend auf Google s BigTable. Damit liefert es eine fehlertolerante, skalierbare Möglichkeit sehr große strukturierte Datensätze auf einem Hadoop-Cluster zu bearbeiten. HBase unterstützt allerdings nicht die Datenbanksprache SQL also müssen auch hier alle Anfragen in Java geschrieben werden. Der Zugriff auf die Daten in einer HBase-Datenbank kann nah an Echtzeit erfolgen. Oozie: Oozie ist ein Workflow-Tool, das es dem Benutzer erlaubt einen Arbeitsablauf zu gestalten, der mit aus mehreren der oben genannten Komponenten besteht. Dem Benutzer wird ermöglicht Abläufe zu automatisieren, indem Abhängigkeiten bzw. Abfragen nach bestimmten Zuständen definiert werden. Der Workflow schreitet dann im gegebenen Fall automatisch voran. [1] All diese Komponenten werden von Anbietern wie dem Marktführer Cloudera zu einer vordefinierten Suite zusammengefasst, welche dann über ein simples Installationsprogramm auf dem Cluster und auf eventuell neu hinzugefügten Servern installiert werden kann. [4] B. HDFS HDFS steht für Hadoop Distributed Filesystem und ist das Dateisystem, das auf einem von Hadoop verwalteten Server- Cluster läuft. 1) Dateisystem: Die Grundfunktion von HDFS ist es, große Datenmengen auf einem großen Cluster zu verteilen. Hierzu werden die Daten in gleichgroße Blöcke aufgeteilt (die Größe der Blöcke ist veränderbar, der Standardwert ist 64 Megabyte) und doppelt kopiert (Vergleiche Abb. 5) auf den einzelnen Servern/Server-Racks verteilt. [4] Um bei dem Ausfallen von einzelnen Servern oder gar ganzen Racks dem Verlust von Daten und dem damit verbundenen Versagen des MapReduce-Prozesses vorzubeugen, werden die Abb. 5. Redundante Datenverteilung [1] einzelnen Datenblöcke redundant auf dem Cluster verteilt. Das bedeutet, dass sie auf einem Server gespeichert, auf einen weiteren, der sich auf einem anderen Rack befindet, kopiert und von dort auf einen weiteren Server dupliziert. [1] Da man bei gößeren Clustern damit mit dem Ausfall einzelner Server rechnen muss, garantiert eine derartige Verteilung der Datenblöcke selbst im Falle eines Hardwarefehlers die Integrität und Gesamtheit der Daten. 2) Struktur des Dateisystems: Die Art und Weise in welcher HDFS den Server-Cluster überspannt und MapReduce- Prozesse verwaltet wird in Abb. 6 veranschaulicht. Unter allen Servern gibt es 2 jeweils einzigartige Positionen (im Folgenden Knoten genannt), welche als Master die Integrität und Struktur der Sklaven-Knoten verwalten und überwachen. Diese Master-Knoten sind die NameNode und der JobTracker. Alle weiteren Server im Cluster, welche keine überwachende Rolle einnehmen, daher Sklaven-Knoten, besitzen jeweils 2 Teilsysteme: die DataNode, in welcher die auf diesem Server gespeicherten Datenblöcke zu finden sind und den TaskTracker, der die auf diesem Server auszuführende MapReduce-Logik und deren Status bzw. Fortschritt enthält. Die NameNode verwaltet Zeiger auf die einzelnen Datenblöcke und deren Kopien und allokiert freie Speicherplätze für eventuelle neue Daten. Der JobTracker ist der Knoten, der einen Auftrag auf einen TaskTracker verteilt, der nahe an den zu verarbeitenden Daten liegt. Die TaskTracker und der JobTracker stehen in konstanter Verbindung: TaskTracker senden in regelmäßigen Abständen ein Aktivitätssignal, um den JobTracker über ein mögliches Versagen zu informieren, damit dieser in gegebenem Fall den Auftrag an einen anderen Knoten weitergeben kann. [4] Die Art in welcher Aufträge im Cluster verteilt werden erfolgt nach so genannten Schedulern, diese werden im nächsten Abschnitt beschrieben. 3) Scheduling: Scheduling bzw. die Art der Verteilung der Daten und Prozesse auf dem Cluster erfolgte bei Release von Hadoop im First-In-First-Out-Verfahren (FIFO). Diese Metho-

5 Abb. 6. HDFS [4] Methoden. Der große Vorteil von Schema beim Schreiben über Schema beim Lesen ist die geringe Zeit beim Analysieren von strukturierten Datensätzen, da Daten in eine vorhersehbare Struktur gebracht wurden. Wohingegen Schema beim Lesen bei der Verarbeitung von kleineren Datensätzen zu aufwendig agiert. Hier ist der Schema beim Schreiben-Ansatz effektiver. Im direkten Vergleich der beiden Methoden wird deutlich, wo sie jeweils ihre Stärke haben: Schema beim Lesen eignet sich für große Datensätze unstrukturierter Daten und Big Data- Anwendungsfälle, wohingegen Schema beim Schreiben Analyseaufträge auf strukturierten, kleineren Datensätzen schnell und effizient bearbeiten kann. de ist leicht zu implementieren und arbeitet effizient, bietet darüber hinaus aber keine weiteren Vorteile wie Priorisierung von Aufgaben und Größeneinschätzung. In späteren Versionen der Software kamen zwei weitere Scheduling-Verfahren hinzu: der Fair- und der Kapazitäts-Scheduler. Faires Scheduling: Die Prämisse dieser Methode ist es, die Rechenkraft unter allen Aufträgen aufzuteilen, sodass jeder Auftrag im Durchschnitt gleich viel Rechenkraft benutzen kann. Hierzu werden alle Aufträge an den Cluster in Pools eingeteilt, wobei jeder Pool eine feste, für alle gleich große, zu verwendende Rechenkraft zugeschrieben bekommt. [3] Der Vorteil dieser Methode ist, dass selbst wenn ein Nutzer mehrere Aufträge stellt insgesamt genausoviel Rechenkraft wie jeder andere Nutzer zugeteilt bekommt. Kapazitäts-Scheduling: Diese Methode funktioniert nach dem gleichen Prinzip wie beim Fairen Scheduling. Allerdings werden hier Wartelisten anstatt Pools verwendet, in welchen, im Gegensatz zur FIFO-Methode, Prioritäten für einzelne Aufträge verwaltet und geändert werden können. Jeder Warteliste wird eine feste Rechenkapazität zugeschrieben und wenn dieses Pensum nach erfolgreichem Abschluss der Aufträge nicht ausgeschöpft wurde, wird diese an die anderen, noch vollen, Wartelisten weiterverteilt. C. Im Vergleich zur Schema beim Schreiben-Methode Schema beim Lesen trumpft bei der Analyse von unstrukturierten großen Datensätzen auf: Die Möglichkeit Daten zu analysieren, ohne diese vorher in eine vordefinierte Form zu transformieren, ermöglicht das Traversieren von Big Data- Aufgaben. Eine Aufgabe bei der Schema beim Schreiben zu langsam bzw. zu ineffizient ist. Ein weiterer Vorteil der Hadoop-Methode ist die Möglichkeit den Server-Cluster leicht skalieren zu können, also ohne Schwierigkeiten neue Server hinzufügen und integrieren bzw. entfernen zu können. Diese Funktion ist bei Schema beim Schreiben keine Mögichkeit: wenn hier weitere Daten benötigt werden, müssen alle Daten neu geladen werden (vergleiche Kapitel III, B). Diese Skalierbarkeit verbunden mit den immer weiter sinkenden Hardware-Kosten machen den Schema beim Lesen-Ansatz zu dem zukunftssicheren und kosteneffizienteren der beiden VI. FAZIT UND AUSBLICK IN DIE ZUKUNFT Im Folgenden werden die wichtigsten Punkte der Arbeit noch einmal zusammengefasst und ein Ausblick in die (nahe) Zukunft des Big Data-Themas gegeben. MapReduce: Ein Datenverarbeitungs Algorithmus nach dem Divide-and-Conquer-Prinzip, der Daten parallel analysiert (vegleichbar mit Multithreating in z.b. Java). Analyseaufträge bestehen aus den 2 Kernprozessen Map und Reduce, bei welchen Inputdaten in Tupel bestehend aus Schlüssel und zugehörigem Wert umgewandelt und später je nach Schlüssel zu wiederum kleineren Tupeln, die den Output des Prozesses bilden, zusammengefasst werden. Hadoop: Eine Open-Source Lösung der Firma Apache, die mehr als nur MapReduce bietet. Weitere Komponenten umfassen beispielsweise eigene Programmiersprachen und Interfaces, welche die Verarbeitung von strukturierten Daten ermöglichen können. Das verwendete Dateisystem HDFS (Hadoop Distributed Filesystem) teilt Daten in gleichgroße Teile und die MapReduce-Logik auf einem Server-Cluster bestehend aus DataNode und TaskTracker auf. Die Master-Knoten NameNode und JobTracker verwalten die Metainformation über Speicherung der Daten und Stabilität der Hardware. In naher Zukunft werden Datendurchsätze von Petabytes auf Exabytes und später auf Zettabytes, die zu überblickende Datenmenge vergrößernd, steigen und damit Hadoop s bzw. MapReduce s Funktionsspanne weiter ausreizen. Allerdings ist durch die Skalierbarkeit des MapReduce-Algorithmus und die einfache Erweiterung von Hadoop-Clustern eine große Zukunftssicherheit dieser Systeme gegeben. Auch in weit entfernter Zukunft wird die Analyse von Statistiken und Metadaten ein wichtiges Utensil der Unternehmensführung. Große und, aufgrund der sinkenden Kosten, in Zukunft auch kleinere, Unternehmen werden selbst Daten sammeln und sowohl zur Marktanalyse als auch zur Prognose von Marktsituationen bearbeiten. Diese Prognosen werden durch die weiter exponentiell steigende Datenmenge (vergleiche Kapitel II, B) mit immer höherer Wahrscheinlichkeit richtig liegen und damit den Markt für das Unternehmen berechenbar machen. Ein sicherer Vorteil gegenüber der Konkurrenz.

6 LITERATUR [1] P. Zikopoulos, C. Eaton, D. Deroos, T. Deutsch, G. Lapis, Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data, ebook, IBM, p. 3-80, [2] A. McAfee and E. Brynjolfsson, Big Data: The Management Revolution, Article, Harvard Business Review. p , Oktober [3] M. Tim Jones, Scheduling in Hadoop, Blogpost, available at os-hadoop-scheduling/, IBM, Dezember [4] A. Awadallah, Introducing Apache Hadoop: The Modern Data Operating System, Lecture, available at watch?v=d2xenpfzsyi, Stanford University, November [5] Xiaochong Zhang, Blogpost, available at xiaochongzhang.me/blog/?p=338, xiaochongzhang.me, Mai 2013

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

BIG DATA HYPE ODER CHANCE

BIG DATA HYPE ODER CHANCE BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu

Mehr

HDFS als schneller und günstiger Storage?

HDFS als schneller und günstiger Storage? HDFS als schneller und günstiger Storage? Das Hadoop Distributed File System (HDFS) verwaltet spielend riesige Datenmengen, lässt sich im laufenden Betrieb bequem skalieren und ist komfortabel zu administrieren.

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

MapReduce-Konzept. Thomas Findling, Thomas König

MapReduce-Konzept. Thomas Findling, Thomas König MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Brownbag am Freitag, den 09.08.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich

Mehr

Big Data. Hype oder Chance? Sebastian Kraubs

Big Data. Hype oder Chance? Sebastian Kraubs Big Data Hype oder Chance? Sebastian Kraubs Heute reden alle über Big Data Quellen: http://blogs.sybase.com/sybaseiq/2011/09/big-data-big-opportunity/ und McKinsey Studie 2011 Anwendungen Daten Technologien

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Verteiltes Backup. Einleitung Grundlegende Backup Techniken Backup in Netzwerken. Client/Server Peer-to-Peer

Verteiltes Backup. Einleitung Grundlegende Backup Techniken Backup in Netzwerken. Client/Server Peer-to-Peer Verteiltes Backup Einleitung Grundlegende Backup Techniken Backup in Netzwerken Client/Server Peer-to-Peer Einleitung Backup: Das teilweise oder gesamte Kopieren der in einem Computersystem vorhandenen

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Managed Cloud Services

Managed Cloud Services Managed Cloud Services Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Cloud Services

Mehr

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH Big Data Lösungen mit Apache Hadoop Gunnar Schröder, T-Systems Multimedia Solutions GmbH Was ist Big Data? 2 Charakteristiken von Big Data Three Vs of Big Data VOLUME Terabytes Petabytes Exabytes Zettabytes

Mehr

Big Data 10.000 ft. 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH

Big Data 10.000 ft. 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH Big Data 10.000 ft 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH Inhalte Big Data Was ist das? Anwendungsfälle für Big Data Big Data Architektur Big Data Anbieter Was passiert in Zukunft

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

Advanced Analytics mit EXAPowerlytics. Technisches Whitepaper

Advanced Analytics mit EXAPowerlytics. Technisches Whitepaper Advanced Analytics mit EXAPowerlytics Technisches Whitepaper Inhalt 1. Zusammenfassung... 3 2. Einführung... 4 3. Fachliche Einführung... 5 4. Beispiel: Zeichen zählen... 7 5. Fazit... 9 6. Anhang... 10-2

Mehr

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN? HANS-JOACHIM EDERT WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT EBINAR@LUNCHTIME

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Institut für Verteilte Systeme

Institut für Verteilte Systeme Institut für Verteilte Systeme Prof. Dr. Franz Hauck Seminar: Multimedia- und Internetsysteme, Wintersemester 2010/11 Betreuer: Jörg Domaschka Bericht zur Seminarssitzung am 2011-01-31 Bearbeitet von :

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de , NoSQL source:dilbert.com Inhalte der nächsten Vorlesungen ˆ Methoden große Datenmengen

Mehr

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen Lennart Leist Inhaltsverzeichnis 1 Einführung 2 1.1 Aufgaben einer Datenbank...................... 2 1.2 Geschichtliche Entwicklung

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden Neue Beziehungen finden...

Mehr

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan

Mehr

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired make connections share ideas be inspired Data Guido Oswald Solution Architect @SAS Switzerland BIG Data.. Wer? BIG Data.. Wer? Wikipedia sagt: Als Big Data werden besonders große Datenmengen bezeichnet,

Mehr

Isilon Solutions + OneFS

Isilon Solutions + OneFS Isilon Solutions + OneFS Anne-Victoria Meyer Betreuer: Dr. Julian Kunkel Proseminar: Ein-/Ausgabe - Stand der Wissenschaft 16. Oktober 2013 Contents 1 Einleitung 2 1.1 Scale-Out-NAS..........................

Mehr

Revolution Analytics eine kommerzielle Erweiterung zu R

Revolution Analytics eine kommerzielle Erweiterung zu R Revolution Analytics eine kommerzielle Erweiterung zu R Webinar am 17.07.2014 F. Schuster (HMS) Dr. E. Nicklas (HMS) Von der Einzelplatzlösung zur strategischen Unternehmens- Software Zur Einführung Was

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Thema: Das MapReduce-Framework

Thema: Das MapReduce-Framework Software as a Service Cloud Computing und aktuelle Entwicklungen Seminararbeit Thema: Das MapReduce-Framework Betreuer: Prof. Dr. Klaus Küspert Dipl.-Inf. Andreas Göbel Nicky Kuhnt Friedrich-Schiller-Universität

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien

Mehr

Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de

Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de Big Data Analytics: Herausforderungen und Systemansätze Prof. Dr. Erhard Rahm http://dbs.uni-leipzig.de 2 Massives Wachstum an Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Grundlagen der Informatik. Prof. Dr. Stefan Enderle NTA Isny

Grundlagen der Informatik. Prof. Dr. Stefan Enderle NTA Isny Grundlagen der Informatik Prof. Dr. Stefan Enderle NTA Isny 2 Datenstrukturen 2.1 Einführung Syntax: Definition einer formalen Grammatik, um Regeln einer formalen Sprache (Programmiersprache) festzulegen.

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

E-Interview mit Herrn Dr. Winokur, CTO von Axxana

E-Interview mit Herrn Dr. Winokur, CTO von Axxana E-Interview mit Herrn Dr. Winokur, CTO von Axxana Titel des E-Interviews: Kostengünstige Datenrettung ohne Verlust und über alle Distanzen hinweg wie mit Enterprise Data Recording (EDR) von Axxana eine

Mehr

Die wichtigsten Funktionen von Red Hat Storage Server 2.0 im Überblick:

Die wichtigsten Funktionen von Red Hat Storage Server 2.0 im Überblick: Red Hat Storage Server Die wichtigsten Funktionen von Red Hat Storage Server 2.0 im Überblick: Offene Software Lösung für Storage Ansprache über einen globalen Namensraum Betrachtet Storage als einen virtualisierten

Mehr

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zettabyte CeBIT 2011 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zetabyte: analytische Datenbanken Die Datenflut. Analytische Datenbanken: Was ist neu? Analytische Datenbanken:

Mehr

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

Lehrgebiet Informationssysteme

Lehrgebiet Informationssysteme Lehrgebiet AG Datenbanken und (Prof. Michel, Prof. Härder) AG Heterogene (Prof. Deßloch) http://wwwlgis.informatik.uni-kl.de/ Was sind? Computergestützte Programmsysteme, die Informationen erfassen, dauerhaft

Mehr

MapReduce mit Hadoop 08.11.12 1

MapReduce mit Hadoop 08.11.12 1 MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann Blatt Nr. 11 Übung zur Vorlesung Einsatz und Realisierung von Datenbanksystemen im SoSe15 Moritz Kaufmann (moritz.kaufmann@tum.de)

Mehr

Living Lab Big Data Konzeption einer Experimentierplattform

Living Lab Big Data Konzeption einer Experimentierplattform Living Lab Big Data Konzeption einer Experimentierplattform Dr. Michael May Berlin, 10.12.2012 Fraunhofer-Institut für Intelligente Analyseund Informationssysteme IAIS www.iais.fraunhofer.de Agenda n Ziele

Mehr

Managed VPSv3 Was ist neu?

Managed VPSv3 Was ist neu? Managed VPSv3 Was ist neu? Copyright 2006 VERIO Europe Seite 1 1 EINFÜHRUNG 3 1.1 Inhalt 3 2 WAS IST NEU? 4 2.1 Speicherplatz 4 2.2 Betriebssystem 4 2.3 Dateisystem 4 2.4 Wichtige Services 5 2.5 Programme

Mehr

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg Review Freelancer-Workshop: Fit für Big Data Mittwoch, 29.04.2015 in Hamburg Am Mittwoch, den 29.04.2015, hatten wir von productive-data in Zusammenarbeit mit unserem langjährigen Partner Informatica zu

Mehr

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

Heterogenes Speichermanagement mit V:DRIVE

Heterogenes Speichermanagement mit V:DRIVE Heterogenes Speichermanagement mit V:DRIVE V:DRIVE - Grundlage eines effizienten Speichermanagements Die Datenexplosion verlangt nach innovativem Speichermanagement Moderne Businessprozesse verlangen auf

Mehr

Verteilte Systeme. Map Reduce. Secure Identity Research Group

Verteilte Systeme. Map Reduce. Secure Identity Research Group Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das

Mehr

WhitePaper. Mai 2012. BIA Business Intelligence Accelerator. Markus Krenn Geschäftsführer Mail: m.krenn@biaccelerator.com

WhitePaper. Mai 2012. BIA Business Intelligence Accelerator. Markus Krenn Geschäftsführer Mail: m.krenn@biaccelerator.com WhitePaper BIA Business Intelligence Accelerator Mai 2012 Markus Krenn Geschäftsführer Mail: m.krenn@biaccelerator.com BIA Business Intelligence Accelerator GmbH Softwarepark 26 A-4232 Hagenberg Mail:

Mehr

Bedienung von BlueJ. Klassenanzeige

Bedienung von BlueJ. Klassenanzeige Im Folgenden werden wichtige Funktionen für den Einsatz von BlueJ im Unterricht beschrieben. Hierbei wird auf den Umgang mit Projekten, Klassen und Objekten eingegangen. Abgeschlossen wird dieses Dokument

Mehr

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015 Hadoop & Spark Carsten Herbe 8. CC-Partner Fachtagung 2015 29.04.2015 Daten & Fakten 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum 25 Jahre am Markt

Mehr

design kommunikation development

design kommunikation development http://www.dkd.de dkd design kommunikation development Apache Solr - A deeper look Stefan Sprenger, Developer dkd Olivier Dobberkau, Geschäftsführer dkd Agenda Einführung Boosting Empfehlungen Ausblick

Mehr

Verteilte Dateisysteme in der Cloud

Verteilte Dateisysteme in der Cloud Verteilte Dateisysteme in der Cloud Cloud Data Management Maria Moritz Seminar Cloud Data Management WS09/10 Universität Leipzig 1 Inhalt 1.) Anforderungen an verteilte Dateisysteme 2.) GoogleFS 3.) Hadoop

Mehr

Leistungsanalyse von XtreemFS als Ersatz für HDFS in Hadoop

Leistungsanalyse von XtreemFS als Ersatz für HDFS in Hadoop Bachelorarbeit am Institut für Informatik der Freien Universität Berlin, Arbeitsgruppe Technische Informatik, Zuverlässige Systeme Leistungsanalyse von XtreemFS als Ersatz für HDFS in Hadoop Lukas Kairies

Mehr

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied

Mehr

Neue Ansätze der Softwarequalitätssicherung. Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop

Neue Ansätze der Softwarequalitätssicherung. Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Neue Ansätze der Softwarequalitätssicherung Thema des Seminars Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik

Mehr

RAID. Name: Artur Neumann

RAID. Name: Artur Neumann Name: Inhaltsverzeichnis 1 Was ist RAID 3 1.1 RAID-Level... 3 2 Wozu RAID 3 3 Wie werden RAID Gruppen verwaltet 3 3.1 Software RAID... 3 3.2 Hardware RAID... 4 4 Die Verschiedenen RAID-Level 4 4.1 RAID

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

DATEN - Das Gold des 21. Jahrhunderts? Dr. Oliver Riedel, AUDI AG

DATEN - Das Gold des 21. Jahrhunderts? Dr. Oliver Riedel, AUDI AG DATEN - Das Gold des 21. Jahrhunderts? Dr. Oliver Riedel, AUDI AG Inhalt Globale und unternehmensspezifische Herausforderungen Von Big Data zu Smart Data Herausforderungen und Mehrwert von Smart Data 2

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

ETL in den Zeiten von Big Data

ETL in den Zeiten von Big Data ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse

Mehr

Hadoop-as-a-Service (HDaaS)

Hadoop-as-a-Service (HDaaS) Hadoop-as-a-Service (HDaaS) Flexible und skalierbare Referenzarchitektur Arnold Müller freier IT Mitarbeiter und Geschäftsführer Lena Frank Systems Engineer @ EMC Marius Lohr Systems Engineer @ EMC Fallbeispiel:

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Implementierung von Dateisystemen

Implementierung von Dateisystemen Implementierung von Dateisystemen Teil 2 Prof. Dr. Margarita Esponda WS 2011/2012 44 Effizienz und Leistungssteigerung Festplatten sind eine wichtige Komponente in jedem Rechnersystem und gleichzeitig

Mehr

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector 7.4 Analyse anhand der SQL-Trace 337 7.3.5 Vorabanalyse mit dem Code Inspector Der Code Inspector (SCI) wurde in den vorangegangenen Kapiteln immer wieder erwähnt. Er stellt ein paar nützliche Prüfungen

Mehr

VMware. Rainer Sennwitz.

VMware. Rainer Sennwitz. <Rainer.Sennwitz@andariel.informatik.uni-erlangen.de> VMware Rainer Sennwitz Lehrstuhl für Informatik IV Friedrich-Alexander-Universität Erlangen-Nürnberg 4. Juli 2007 Rainer Sennwitz VMware Inhalt Inhalt

Mehr

PARAGON Encrypted Disk

PARAGON Encrypted Disk PARAGON Encrypted Disk Anwenderhandbuch Paragon Technologie, Systemprogrammierung GmbH Copyright Paragon Technologie GmbH Herausgegeben von Paragon Technologie GmbH, Systemprogrammierung Pearl-Str. 1 D-79426

Mehr

Top-Themen. Office 365: So funktioniert die E-Mail-Archivierung... 2. Seite 1 von 16

Top-Themen. Office 365: So funktioniert die E-Mail-Archivierung... 2. Seite 1 von 16 Top-Themen Office 365: So funktioniert die E-Mail-Archivierung... 2 Seite 1 von 16 Schritt-für-Schritt-Anleitung Office 365: So funktioniert die E-Mail- Archivierung von Thomas Joos Seite 2 von 16 Inhalt

Mehr

1. Diigo.com. Pädagogische Hochschule Thurgau. Lehre Weiterbildung Forschung. 1.1. Anmeldung

1. Diigo.com. Pädagogische Hochschule Thurgau. Lehre Weiterbildung Forschung. 1.1. Anmeldung Pädagogische Hochschule Thurgau. Lehre Weiterbildung Forschung Prorektorat Forschung und Wissensmanagement Lars Nessensohn 1. Diigo.com Bewegt man sich im Internet, so arbeitet man früher oder später auch

Mehr