Überblick: Data at Scale

Transkript

1 Überblick: Data at Scale Proseminar Data Mining Quirin Stockinger Fakultät für Informatik Technische Universität München Kurzfassung Der exponentielle Anstieg von verfügbaren Datenmengen erfordert neue Algorithmen um aus diesen Daten Nutzen zu ziehen. Auf Grund seiner enormen Relevanz bei der Lösung dieses Problems wird im Folgenden der von Google entwickelte MapReduce-Algorithmus vorgestellt. Des Weiteren wird auf Hadoop, eine Open-Source Software-Suite, entwickelt von Apache und aufbauend auf MapReduce eingegangen. Schlüsselworte Big Data, Skalierbare Datenverabeitung, MapReduce-Algorithmus, Divide-and-Conquer, Apache Hadoop, Latenz I. EINLEITUNG Die Einführung von web2.0 Anwendungen und Webseiten hat nicht nur Vorteile für den Nutzer sondern auch die Möglichkeit auf eine unbegrenzt große Menge von Daten zuzugreifen mit sich gebracht. Dieser enorme Datenfluss erfordert neue Methoden zum Herausfiltern von Informationen, beispielsweise aus nützlichen Statistiken. Diese Arbeit bietet eine Einführung in den meistgenutzten Algorithmus für die skalierte Analyse von großen Datenmengen: Google s MapReduce. Diese Arbeit bezieht einen Großteil der Informationen aus dem Big Data Themengebiet im Harvard Business Review Oktober 2012 und aus einer Vorlesung von Cloudera s Amr Awadallah über Hadoop und Cloudera s Hadoop Suite. Des Weiteren wird Bezug auf das ebook Understanding Big Data genommen, welches von mehreren IBM-Angestellten verfasst wurde. IBM ist eines der führenden Unternehmen auf dem Bereich der Big Data-Problemlösung. A. Was ist Big Data? II. BIG DATA Wenn man von Daten spricht, ist meistens die Rede von SQL-Datenbanken bzw Tabellen, in welchen spalten- und zeilenweise diverse Attribute gespeichert und miteinander in Relation gebracht sind. Diese Art von Daten wird strukturierte Daten genannt, da sie in einer vorhersehbaren Form auftreten: in Tabellen. Mit diesen Daten umzugehen ist denkbar leicht: das kleinste Element zu finden ist nicht mehr als in einer Spalte zu sortieren oder einen SQL-Befehl auszuführen. Daten, welche in unterschiedlichen, unvorhersehbaren Formen auftreten und nicht in eine gemeinsame sinnvolle Datenbank geschrieben werden könnten, nennt man unstrukturierte Daten. Diese Datenmenge ist mit dem Aufkommen von Sozialen Netzen á la Twitter und Facebook in den letzten Abb. 1. Anstieg der unstrukturierten Datenmenge Jahren exponentiell gestiegen. Diese Netzwerke erzeugen im Millisekundentakt neue Daten, das können tweets, Status- Aktualisierungen oder Geo-Daten sein. Hinzu kommen diverse Log-Dateien oder auch Videos und Audio. Bei der Betrachtung der letzten 2 Jahre wird der exponentielle Datenanstieg deutlich: Innerhalb der letzten 24 Monate wurden mehr als 90% aller bisher insgesamt erstellten Daten generiert und wie in Abb. 1 zu erkennen ist sind dies hauptsächlich unstrukturierte Daten. Der Big Data Begriff beschäftigt sich genau mit den Analyseaufgaben, bei welchen das Volumen der zu analysierenden Daten so groß ist, dass die Menge zum Problem bei der Analytik wird. [2] B. Die 3 V s des Big Data-Begriffs Um den Begriff Big Data genauer einzugrenzen und zu beschreiben, werden häufig die drei V s herangezogen. Volume: Die reine Menge an generierten Daten ist heute enorm: 2012 wurden jeden Tag 2,5 Exabytes an Daten generiert, das verdoppelt sich ca. alle 40 Monate. [2] Allein Facbook erzeugt jeden Tag 10 Terabytes an neuen Daten. [1] Diese erdrückende Welle an Daten, die auf jeden Analytiker hereinbricht, ist ein Teil von Big Data und verlangt beim Umgang damit erhöhte Sorgfalt und neue Methoden, um relevante Daten aus der Menge herauszufiltern. Variety: Die unterschiedlichen und vor Allem immer neueren Arten von Daten. Die meisten neuen Typen von Daten sind erst so alt wie die Dienste, die sie hervorgerufen haben: tweets seit der Gründung von Twitter (2006) und Status-Updates in Facebook, das 2004 startete. Die immer weiter sinkenden Kosten für Computer-Peripherie wie Festplatten bringt immer mehr

2 Abb. 2. Schema beim Schreiben [4] Unternehmen dazu auf Strategien zu setzen, die mit höheren Kosten nicht vereinbar gewesen wären. Da Unternehmen über die Mittel verfügen um Daten im großen Stil speichern zu können, kommen neue, wieder unterschiedliche Quellen für weitere Datenströme hinzu. [2] Velocity: Die Geschwindigkeit, in der Daten fließen. Echtzeitund Nahe-Echtzeit-Analyse von Daten kann einem Unternehmen oder Börsenteilnehmer einen signifikanten Vorteil gegenüber seinen Konkurrenten und damit immense wirtschaftliche Vorteile schaffen. Es ist also wichtig Daten schon zu beachten, während sie noch in Bewegung sind, nicht erst wenn sie zur Ruhe gekommen sind. [1], [2] III. DATENVERARBEITUNG Eine aktuelle Methode für die Verarbeitung und Analyse von gegebenen Daten basiert auf einem Schema-beim- Schreiben-Ansatz. Hierbei werden Daten in eine statische, bereits erstellte Datenbank geladen und in dieser Datenbank dann analytische Anfragen durchgeführt. Dadurch lassen sich Latenzen bei der Bearbeitung minimieren, Die Methode lässt sich allerdings nicht für Big Data-Probleme anwenden. A. Schema beim Schreiben Abb. 2 zeigt einen Datenanalyseablauf von der Erstellung der Daten bis hin zur Analyseschicht. Auf der abstraktesten Ebene steht die Erstellung von allen Daten, darüber die Sammlung all derer Daten, die strukturiert sind bzw. für Analysezwecke verwendbar sind. Gesammelte Daten werden auf ein Server-Netz verschoben, das nur zur Lagerung dient. Über diesem Netz sitz eine ETL-Datenverarbeitungs-Logik, welche die Daten aus der Lagerung extrahiert (Extract), diese in die Form der gegebenen Datenbank bringt (Transform) und diese transformierten Daten schlussendlich in die Datenbank verschiebt (Load), welche für die Analyse erstellt wurde. Das Schema der Datenbank wird hier also beim Schreiben auf den Datensatz angewendet. [4] Erst dann kann man in dieser Datenbank Analyseanfragen, zum Beispiel search oder sort Befehle, an die gesammelten Daten stellen. Da man nur genau die Daten in der zu analysierenden Schicht hat und man die Struktur dieser Daten genau kennt (sie wurden ja in die Struktur der erstellten Datenbank transformiert) erfolgen diese Anfragen in Linearzeit und damit ist die Latenz minimiert. B. Einschränkungen bei dieser Methode Anhand der in Abb. 2 dargestellten Struktur kann man sehr leicht die größten Fehlerquellen und Einschränkungen dieser Herangehensweise erkennen. Das Offensichtlichtste zuerst: Daten von einer an die nächste Stelle zu verschieben ist langsam. Wenn dies mehrere Male durchgeführt werden muss (vom Datensammeln in das Lagerungs-Netzwerk und von dort in die Datenbank und in das Archiv zu Datensicherungszwecken), dann wirkt sich dies summiert negativ auf die Laufzeit der gesamten Datenanalyse aus. Würde man beispielsweise einen Terabyte an Daten in die Datenbank verschieben wollen, so ist man bereits durch die Schreibgeschwindigkeit von handelsüblichen Festplatten (nicht solid-state) bei etwa 20 Megabyte/sec limitiert. Das einmalige Verschieben dieser Menge würde dann in etwa 15 Stunden dauern. Die nächste Einschränkung ist die statische Natur der im Vorhinein erstellten Datenbank. So kann es häufig vorkommen, dass später im Analysevorgang Fragen aufkommen, auf die man mit den vorhandenen Daten nicht antworten kann. Eine neue Datenbank mit der Größe der aktuellen Datenbank und einer zusätzlichen neuen Spalte für die relevanten Daten muss also erstellt werden und die benötigten Daten wieder von der abstrakten Schicht bis zur Datenbank-Schicht durch den gesamten Verarbeitungsvorgang gehen. Auch das Archivieren von Daten aus dem Lagerungs-Netz kann eine Einschränkung sein. Sobald Daten einmal den Datentod gestorben sind, können sie aus dem Archiv-Nirwana nicht mehr ohne weiteres zurückgeholt werden und werden dadurch unbenutzbar. IV. MAPREDUCE MapReduce ist der von Google entwickelte, 2-teilige Algorithmus zur Bewältigung von Big Data-Aufgaben und Problemen. Beim Bewältigen von Big Data-Aufgaben ist es schwierig, die gesamte Datenmenge auf einmal zu bearbeiten. Auf Grund der reinen zu analysierenden Menge würde ein simples, iteratives Durchsuchen der Daten nach Stichwörtern die Laufzeit in die Länge ziehen und damit Anfragen nah an Echtzeit unmöglich machen. Google s Algorithmus basiert also auf dem Divide-and- Conquer-Prinzip: Große komplexe und damit unübersichtliche Aufgaben werden zur Vereinfachung in elementare Aufgaben zerlegt und diese dann simultan als von einander unabhängige Prozesse bearbeitet. Diese Lösungsstrategie mag heute trivial erscheinen, war bei Einführung des Algorithmus jedoch eine Neuheit im Umfeld der Datenverarbeitung. [1] A. Der Algorithmus Der Algorithmus besteht, wie man aus dem Namen bereits herleiten kann, aus 2 Bereichen, die hintereinander ausgeführt werden müssen: einem Map- und einem Reduce-Teil. Der Mapping-Prozess erhält den eingegebenen Datensatz als Input und konvertiert ihn in einen Satz von Tupeln. Tupel sind Datenpaare aus Schlüssel und zugehörigem Wert, also <Key, Value> Paare. Die beim Mapping entstandenen Output

3 Abb. 3. MapReduce [5] Abb. 4. WordCount Datensätze werden im Reduce Prozess zu wiederum kleineren Tupeln, je nach zusammengehörigen Key, zusammengefasst und dieser Datensatz dann als Ergebnis dem Benutzer präsentiert (Vergleiche Abb. 3). Vergleichbar ist diese Vorgehensweise mit einem Verfahren zur Volkszählung im Alten Rom. Der mit der Zählung beauftragte Konsul schickte jeweils einen Vertreter in jede zu zählende Stadt, diese lieferten die Daten für die Stadt ihrer Zuständigkeit zurück und der Konsul konnte diese dann zu einer Gesamtzählung zusammen fassen. [1] B. Beispiel: WordCount Um die genaue Funktion von MapReduce zu erläutern wird im Folgenden ein rudimentäres Beispiel, das Zählen von einzelnen Wörtern in einem gegebenen Text, erklärt. Natürlich ist das ein sehr simpler Anwendungsfall für einen MapReduce- Vorgang, der Algorithmus ist aber beliebieg groß skalierbar und das hier angewendete Prinzip kann demnach auch für weitaus kompliziertere Aufgaben verwendet werden. In diesem Beispiel ist der gegebene Datensatz ein Textfile bestehend aus 3 Zeilen und das Ziel ist es zu jedem der 3 verschiedenen Wörter die Anzahl, also wie oft sie im Text vorkommen, zu berechnen. Sea Tree Knee Knee Tree Sea Tree Tree Tree Bevor das Mapping nun überhaupt beginnen kann wird das Textfile zerteilt in seine einzelnen Zeilen. Es entstehen also 3 Datensätze aus jeweils 3 Wörtern, wobei der erste zum Beispiel Sea Tree Knee ist. Für jeden dieser einzelnen Zeilen wird nun ein Map-Prozess aufgerufen und dabei zu jedem vorhandenen Wort ein Tupel mit dem Wert der jeweiligen Anzahl erstellt. Für die erste Zeile sind das folgende Tupel: <Sea, 1> <Knee, 1> <Tree, 1> Jeder der anderen Mapping-Prozesse liefert genauso eigene Tupel der vorhanden Wörter. Die Datensätze, die beim Mapping entstehen, werden nun an die Reduce-Prozesse weitergegeben. Ein Tupel wird hierbei genau an den Reducer weitergegeben, welcher für den jeweiligen Key (in diesem Beispiel das jeweilige Wort) zuständig ist. Die Aufgabe im Reduce-Teil des Algorithmus ist es nun alle Tupel eines Keys bzw. Wortes zu einem zusammen zu fassen und die zugehörigen Werte bzw. Anzahlen zu addieren. Der Reducer des Wortes Tree würde in diesem Beispiel vom ersten Mapper den Tupel <Tree, 1>, vom zweiten den Tupel <Tree, 1> und vom letzten den Tupel <Tree, 3> übergeben bekommen und fasst diese zu einem Tupel für den Schlüssel Tree zusammen mit der addierten Anzahl von 5. (Vergleiche Abb. 4) Um dem Benutzer ein Endergebnis zu liefern werden nun die Tupel der Reducer wieder zu einem einzelnen Datensatz zusammengefügt und in der Anwenderschicht präsentiert. <Sea, 2> <Knee, 2> <Tree, 5> V. HADOOP Hadoop ist Apache s Open-Source Lösung für Big Data- Aufgaben aufbauend auf dem MapReduce-Algorithmus. Hierbei werden sowohl Daten als auch die MapReduce-Logik auf einem Server-Netzwerk (Cluster) zur Bearbeitung verteilt (vergleiche hierzu Kapitel V, B). Hadoop bietet allerdings mehr als nur MapReduce, es umfasst eine gesamte Suite and Funktionen und Komponenten wie Programmiersprachen. Prestigeträchtige Nutzer dieser Suite umfassen Facebook (weltweit größter Hadoop-Cluster mit mehr als 21 Petabytes), IBM und Yahoo. Die in Hadoop verwendete Strategie heisst Schema beim Lesen. Hierbei werden Daten erst dann interpretiert, wenn sie gelesen werden, nicht bereits beim Schreiben der Daten. Die Struktur der zu lesenden Daten ist also irrelevant. Im Folgenden wird genauer auf einige mögliche Komponenten der Hadoop-Suite eingegangen. [4] A. Komponenten Die Haupbestandteile von Hadoop sind der MapReduce- Algorithmus, auf dem das gesamte System aufbaut, und HDFS (Hadoop Distributed Filesystem), das Dateisystem auf dem Cluster. Ein MapReduce-Auftrag wird in Hadoop immer in

4 Java geschrieben, der Programmierer muss hierbei nur die jeweils nötigen Map- und Reduce-Funktionen schreiben. Komponenten, die dieses Gerüst ergänzen werden im Folgenden erklärt. Hive: Hive bietet die Bedienung der Hadoop-Suite für Nutzer mit Vorkenntnissen in SQL an. Hive verwendet hierbei eine Sprache, die SQL sehr ähnlich ist: die Hive Query Language (HQL). Aber da HQL sehr auf SQL basiert, ist die Sprache in ihrer Funktionsweise wie die Vorlage beschränkt. HIVE Befehle werden in MapReduce-Aufträge umgewandelt und auf dem Cluster ausgeführt. Pig/PigLatin: PigLatin ist eine von Yahoo entwickelte Programmiersprache, deren Spezialität darin liegt sich mit jeder Art von eingegebenen Daten zu verstehen (engl. pig: ein Schwein als Allesfresser) und diese zu transformieren. PigLatin kann als das Hadoop Gegenstück zu einer ETL-Logik verstanden werden: PigLatin extrahiert hierzu Daten aus dem HDFS um daraufhin Transformationen, wie das Entfernen einzelner Reihen oder die Kombination zweier Datensätze, auszuführen, Anschließend werden die Daten geladen und beispielsweise dem Nutzer ausgegeben. Pig ist die dazugehörige Laufzeitumgebung für PigLatin, ähnlich wie Java Virtual Machine s Verhältnis zu einer Java Applikation. [1] HBase: Ist eine non-relational Datenbank, basierend auf Google s BigTable. Damit liefert es eine fehlertolerante, skalierbare Möglichkeit sehr große strukturierte Datensätze auf einem Hadoop-Cluster zu bearbeiten. HBase unterstützt allerdings nicht die Datenbanksprache SQL also müssen auch hier alle Anfragen in Java geschrieben werden. Der Zugriff auf die Daten in einer HBase-Datenbank kann nah an Echtzeit erfolgen. Oozie: Oozie ist ein Workflow-Tool, das es dem Benutzer erlaubt einen Arbeitsablauf zu gestalten, der mit aus mehreren der oben genannten Komponenten besteht. Dem Benutzer wird ermöglicht Abläufe zu automatisieren, indem Abhängigkeiten bzw. Abfragen nach bestimmten Zuständen definiert werden. Der Workflow schreitet dann im gegebenen Fall automatisch voran. [1] All diese Komponenten werden von Anbietern wie dem Marktführer Cloudera zu einer vordefinierten Suite zusammengefasst, welche dann über ein simples Installationsprogramm auf dem Cluster und auf eventuell neu hinzugefügten Servern installiert werden kann. [4] B. HDFS HDFS steht für Hadoop Distributed Filesystem und ist das Dateisystem, das auf einem von Hadoop verwalteten Server- Cluster läuft. 1) Dateisystem: Die Grundfunktion von HDFS ist es, große Datenmengen auf einem großen Cluster zu verteilen. Hierzu werden die Daten in gleichgroße Blöcke aufgeteilt (die Größe der Blöcke ist veränderbar, der Standardwert ist 64 Megabyte) und doppelt kopiert (Vergleiche Abb. 5) auf den einzelnen Servern/Server-Racks verteilt. [4] Um bei dem Ausfallen von einzelnen Servern oder gar ganzen Racks dem Verlust von Daten und dem damit verbundenen Versagen des MapReduce-Prozesses vorzubeugen, werden die Abb. 5. Redundante Datenverteilung [1] einzelnen Datenblöcke redundant auf dem Cluster verteilt. Das bedeutet, dass sie auf einem Server gespeichert, auf einen weiteren, der sich auf einem anderen Rack befindet, kopiert und von dort auf einen weiteren Server dupliziert. [1] Da man bei gößeren Clustern damit mit dem Ausfall einzelner Server rechnen muss, garantiert eine derartige Verteilung der Datenblöcke selbst im Falle eines Hardwarefehlers die Integrität und Gesamtheit der Daten. 2) Struktur des Dateisystems: Die Art und Weise in welcher HDFS den Server-Cluster überspannt und MapReduce- Prozesse verwaltet wird in Abb. 6 veranschaulicht. Unter allen Servern gibt es 2 jeweils einzigartige Positionen (im Folgenden Knoten genannt), welche als Master die Integrität und Struktur der Sklaven-Knoten verwalten und überwachen. Diese Master-Knoten sind die NameNode und der JobTracker. Alle weiteren Server im Cluster, welche keine überwachende Rolle einnehmen, daher Sklaven-Knoten, besitzen jeweils 2 Teilsysteme: die DataNode, in welcher die auf diesem Server gespeicherten Datenblöcke zu finden sind und den TaskTracker, der die auf diesem Server auszuführende MapReduce-Logik und deren Status bzw. Fortschritt enthält. Die NameNode verwaltet Zeiger auf die einzelnen Datenblöcke und deren Kopien und allokiert freie Speicherplätze für eventuelle neue Daten. Der JobTracker ist der Knoten, der einen Auftrag auf einen TaskTracker verteilt, der nahe an den zu verarbeitenden Daten liegt. Die TaskTracker und der JobTracker stehen in konstanter Verbindung: TaskTracker senden in regelmäßigen Abständen ein Aktivitätssignal, um den JobTracker über ein mögliches Versagen zu informieren, damit dieser in gegebenem Fall den Auftrag an einen anderen Knoten weitergeben kann. [4] Die Art in welcher Aufträge im Cluster verteilt werden erfolgt nach so genannten Schedulern, diese werden im nächsten Abschnitt beschrieben. 3) Scheduling: Scheduling bzw. die Art der Verteilung der Daten und Prozesse auf dem Cluster erfolgte bei Release von Hadoop im First-In-First-Out-Verfahren (FIFO). Diese Metho-

5 Abb. 6. HDFS [4] Methoden. Der große Vorteil von Schema beim Schreiben über Schema beim Lesen ist die geringe Zeit beim Analysieren von strukturierten Datensätzen, da Daten in eine vorhersehbare Struktur gebracht wurden. Wohingegen Schema beim Lesen bei der Verarbeitung von kleineren Datensätzen zu aufwendig agiert. Hier ist der Schema beim Schreiben-Ansatz effektiver. Im direkten Vergleich der beiden Methoden wird deutlich, wo sie jeweils ihre Stärke haben: Schema beim Lesen eignet sich für große Datensätze unstrukturierter Daten und Big Data- Anwendungsfälle, wohingegen Schema beim Schreiben Analyseaufträge auf strukturierten, kleineren Datensätzen schnell und effizient bearbeiten kann. de ist leicht zu implementieren und arbeitet effizient, bietet darüber hinaus aber keine weiteren Vorteile wie Priorisierung von Aufgaben und Größeneinschätzung. In späteren Versionen der Software kamen zwei weitere Scheduling-Verfahren hinzu: der Fair- und der Kapazitäts-Scheduler. Faires Scheduling: Die Prämisse dieser Methode ist es, die Rechenkraft unter allen Aufträgen aufzuteilen, sodass jeder Auftrag im Durchschnitt gleich viel Rechenkraft benutzen kann. Hierzu werden alle Aufträge an den Cluster in Pools eingeteilt, wobei jeder Pool eine feste, für alle gleich große, zu verwendende Rechenkraft zugeschrieben bekommt. [3] Der Vorteil dieser Methode ist, dass selbst wenn ein Nutzer mehrere Aufträge stellt insgesamt genausoviel Rechenkraft wie jeder andere Nutzer zugeteilt bekommt. Kapazitäts-Scheduling: Diese Methode funktioniert nach dem gleichen Prinzip wie beim Fairen Scheduling. Allerdings werden hier Wartelisten anstatt Pools verwendet, in welchen, im Gegensatz zur FIFO-Methode, Prioritäten für einzelne Aufträge verwaltet und geändert werden können. Jeder Warteliste wird eine feste Rechenkapazität zugeschrieben und wenn dieses Pensum nach erfolgreichem Abschluss der Aufträge nicht ausgeschöpft wurde, wird diese an die anderen, noch vollen, Wartelisten weiterverteilt. C. Im Vergleich zur Schema beim Schreiben-Methode Schema beim Lesen trumpft bei der Analyse von unstrukturierten großen Datensätzen auf: Die Möglichkeit Daten zu analysieren, ohne diese vorher in eine vordefinierte Form zu transformieren, ermöglicht das Traversieren von Big Data- Aufgaben. Eine Aufgabe bei der Schema beim Schreiben zu langsam bzw. zu ineffizient ist. Ein weiterer Vorteil der Hadoop-Methode ist die Möglichkeit den Server-Cluster leicht skalieren zu können, also ohne Schwierigkeiten neue Server hinzufügen und integrieren bzw. entfernen zu können. Diese Funktion ist bei Schema beim Schreiben keine Mögichkeit: wenn hier weitere Daten benötigt werden, müssen alle Daten neu geladen werden (vergleiche Kapitel III, B). Diese Skalierbarkeit verbunden mit den immer weiter sinkenden Hardware-Kosten machen den Schema beim Lesen-Ansatz zu dem zukunftssicheren und kosteneffizienteren der beiden VI. FAZIT UND AUSBLICK IN DIE ZUKUNFT Im Folgenden werden die wichtigsten Punkte der Arbeit noch einmal zusammengefasst und ein Ausblick in die (nahe) Zukunft des Big Data-Themas gegeben. MapReduce: Ein Datenverarbeitungs Algorithmus nach dem Divide-and-Conquer-Prinzip, der Daten parallel analysiert (vegleichbar mit Multithreating in z.b. Java). Analyseaufträge bestehen aus den 2 Kernprozessen Map und Reduce, bei welchen Inputdaten in Tupel bestehend aus Schlüssel und zugehörigem Wert umgewandelt und später je nach Schlüssel zu wiederum kleineren Tupeln, die den Output des Prozesses bilden, zusammengefasst werden. Hadoop: Eine Open-Source Lösung der Firma Apache, die mehr als nur MapReduce bietet. Weitere Komponenten umfassen beispielsweise eigene Programmiersprachen und Interfaces, welche die Verarbeitung von strukturierten Daten ermöglichen können. Das verwendete Dateisystem HDFS (Hadoop Distributed Filesystem) teilt Daten in gleichgroße Teile und die MapReduce-Logik auf einem Server-Cluster bestehend aus DataNode und TaskTracker auf. Die Master-Knoten NameNode und JobTracker verwalten die Metainformation über Speicherung der Daten und Stabilität der Hardware. In naher Zukunft werden Datendurchsätze von Petabytes auf Exabytes und später auf Zettabytes, die zu überblickende Datenmenge vergrößernd, steigen und damit Hadoop s bzw. MapReduce s Funktionsspanne weiter ausreizen. Allerdings ist durch die Skalierbarkeit des MapReduce-Algorithmus und die einfache Erweiterung von Hadoop-Clustern eine große Zukunftssicherheit dieser Systeme gegeben. Auch in weit entfernter Zukunft wird die Analyse von Statistiken und Metadaten ein wichtiges Utensil der Unternehmensführung. Große und, aufgrund der sinkenden Kosten, in Zukunft auch kleinere, Unternehmen werden selbst Daten sammeln und sowohl zur Marktanalyse als auch zur Prognose von Marktsituationen bearbeiten. Diese Prognosen werden durch die weiter exponentiell steigende Datenmenge (vergleiche Kapitel II, B) mit immer höherer Wahrscheinlichkeit richtig liegen und damit den Markt für das Unternehmen berechenbar machen. Ein sicherer Vorteil gegenüber der Konkurrenz.

6 LITERATUR [1] P. Zikopoulos, C. Eaton, D. Deroos, T. Deutsch, G. Lapis, Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data, ebook, IBM, p. 3-80, [2] A. McAfee and E. Brynjolfsson, Big Data: The Management Revolution, Article, Harvard Business Review. p , Oktober [3] M. Tim Jones, Scheduling in Hadoop, Blogpost, available at os-hadoop-scheduling/, IBM, Dezember [4] A. Awadallah, Introducing Apache Hadoop: The Modern Data Operating System, Lecture, available at watch?v=d2xenpfzsyi, Stanford University, November [5] Xiaochong Zhang, Blogpost, available at xiaochongzhang.me/blog/?p=338, xiaochongzhang.me, Mai 2013