Überblick: Data at Scale

Größe: px
Ab Seite anzeigen:

Download "Überblick: Data at Scale"

Transkript

1 Überblick: Data at Scale Proseminar Data Mining Quirin Stockinger Fakultät für Informatik Technische Universität München Kurzfassung Der exponentielle Anstieg von verfügbaren Datenmengen erfordert neue Algorithmen um aus diesen Daten Nutzen zu ziehen. Auf Grund seiner enormen Relevanz bei der Lösung dieses Problems wird im Folgenden der von Google entwickelte MapReduce-Algorithmus vorgestellt. Des Weiteren wird auf Hadoop, eine Open-Source Software-Suite, entwickelt von Apache und aufbauend auf MapReduce eingegangen. Schlüsselworte Big Data, Skalierbare Datenverabeitung, MapReduce-Algorithmus, Divide-and-Conquer, Apache Hadoop, Latenz I. EINLEITUNG Die Einführung von web2.0 Anwendungen und Webseiten hat nicht nur Vorteile für den Nutzer sondern auch die Möglichkeit auf eine unbegrenzt große Menge von Daten zuzugreifen mit sich gebracht. Dieser enorme Datenfluss erfordert neue Methoden zum Herausfiltern von Informationen, beispielsweise aus nützlichen Statistiken. Diese Arbeit bietet eine Einführung in den meistgenutzten Algorithmus für die skalierte Analyse von großen Datenmengen: Google s MapReduce. Diese Arbeit bezieht einen Großteil der Informationen aus dem Big Data Themengebiet im Harvard Business Review Oktober 2012 und aus einer Vorlesung von Cloudera s Amr Awadallah über Hadoop und Cloudera s Hadoop Suite. Des Weiteren wird Bezug auf das ebook Understanding Big Data genommen, welches von mehreren IBM-Angestellten verfasst wurde. IBM ist eines der führenden Unternehmen auf dem Bereich der Big Data-Problemlösung. A. Was ist Big Data? II. BIG DATA Wenn man von Daten spricht, ist meistens die Rede von SQL-Datenbanken bzw Tabellen, in welchen spalten- und zeilenweise diverse Attribute gespeichert und miteinander in Relation gebracht sind. Diese Art von Daten wird strukturierte Daten genannt, da sie in einer vorhersehbaren Form auftreten: in Tabellen. Mit diesen Daten umzugehen ist denkbar leicht: das kleinste Element zu finden ist nicht mehr als in einer Spalte zu sortieren oder einen SQL-Befehl auszuführen. Daten, welche in unterschiedlichen, unvorhersehbaren Formen auftreten und nicht in eine gemeinsame sinnvolle Datenbank geschrieben werden könnten, nennt man unstrukturierte Daten. Diese Datenmenge ist mit dem Aufkommen von Sozialen Netzen á la Twitter und Facebook in den letzten Abb. 1. Anstieg der unstrukturierten Datenmenge Jahren exponentiell gestiegen. Diese Netzwerke erzeugen im Millisekundentakt neue Daten, das können tweets, Status- Aktualisierungen oder Geo-Daten sein. Hinzu kommen diverse Log-Dateien oder auch Videos und Audio. Bei der Betrachtung der letzten 2 Jahre wird der exponentielle Datenanstieg deutlich: Innerhalb der letzten 24 Monate wurden mehr als 90% aller bisher insgesamt erstellten Daten generiert und wie in Abb. 1 zu erkennen ist sind dies hauptsächlich unstrukturierte Daten. Der Big Data Begriff beschäftigt sich genau mit den Analyseaufgaben, bei welchen das Volumen der zu analysierenden Daten so groß ist, dass die Menge zum Problem bei der Analytik wird. [2] B. Die 3 V s des Big Data-Begriffs Um den Begriff Big Data genauer einzugrenzen und zu beschreiben, werden häufig die drei V s herangezogen. Volume: Die reine Menge an generierten Daten ist heute enorm: 2012 wurden jeden Tag 2,5 Exabytes an Daten generiert, das verdoppelt sich ca. alle 40 Monate. [2] Allein Facbook erzeugt jeden Tag 10 Terabytes an neuen Daten. [1] Diese erdrückende Welle an Daten, die auf jeden Analytiker hereinbricht, ist ein Teil von Big Data und verlangt beim Umgang damit erhöhte Sorgfalt und neue Methoden, um relevante Daten aus der Menge herauszufiltern. Variety: Die unterschiedlichen und vor Allem immer neueren Arten von Daten. Die meisten neuen Typen von Daten sind erst so alt wie die Dienste, die sie hervorgerufen haben: tweets seit der Gründung von Twitter (2006) und Status-Updates in Facebook, das 2004 startete. Die immer weiter sinkenden Kosten für Computer-Peripherie wie Festplatten bringt immer mehr

2 Abb. 2. Schema beim Schreiben [4] Unternehmen dazu auf Strategien zu setzen, die mit höheren Kosten nicht vereinbar gewesen wären. Da Unternehmen über die Mittel verfügen um Daten im großen Stil speichern zu können, kommen neue, wieder unterschiedliche Quellen für weitere Datenströme hinzu. [2] Velocity: Die Geschwindigkeit, in der Daten fließen. Echtzeitund Nahe-Echtzeit-Analyse von Daten kann einem Unternehmen oder Börsenteilnehmer einen signifikanten Vorteil gegenüber seinen Konkurrenten und damit immense wirtschaftliche Vorteile schaffen. Es ist also wichtig Daten schon zu beachten, während sie noch in Bewegung sind, nicht erst wenn sie zur Ruhe gekommen sind. [1], [2] III. DATENVERARBEITUNG Eine aktuelle Methode für die Verarbeitung und Analyse von gegebenen Daten basiert auf einem Schema-beim- Schreiben-Ansatz. Hierbei werden Daten in eine statische, bereits erstellte Datenbank geladen und in dieser Datenbank dann analytische Anfragen durchgeführt. Dadurch lassen sich Latenzen bei der Bearbeitung minimieren, Die Methode lässt sich allerdings nicht für Big Data-Probleme anwenden. A. Schema beim Schreiben Abb. 2 zeigt einen Datenanalyseablauf von der Erstellung der Daten bis hin zur Analyseschicht. Auf der abstraktesten Ebene steht die Erstellung von allen Daten, darüber die Sammlung all derer Daten, die strukturiert sind bzw. für Analysezwecke verwendbar sind. Gesammelte Daten werden auf ein Server-Netz verschoben, das nur zur Lagerung dient. Über diesem Netz sitz eine ETL-Datenverarbeitungs-Logik, welche die Daten aus der Lagerung extrahiert (Extract), diese in die Form der gegebenen Datenbank bringt (Transform) und diese transformierten Daten schlussendlich in die Datenbank verschiebt (Load), welche für die Analyse erstellt wurde. Das Schema der Datenbank wird hier also beim Schreiben auf den Datensatz angewendet. [4] Erst dann kann man in dieser Datenbank Analyseanfragen, zum Beispiel search oder sort Befehle, an die gesammelten Daten stellen. Da man nur genau die Daten in der zu analysierenden Schicht hat und man die Struktur dieser Daten genau kennt (sie wurden ja in die Struktur der erstellten Datenbank transformiert) erfolgen diese Anfragen in Linearzeit und damit ist die Latenz minimiert. B. Einschränkungen bei dieser Methode Anhand der in Abb. 2 dargestellten Struktur kann man sehr leicht die größten Fehlerquellen und Einschränkungen dieser Herangehensweise erkennen. Das Offensichtlichtste zuerst: Daten von einer an die nächste Stelle zu verschieben ist langsam. Wenn dies mehrere Male durchgeführt werden muss (vom Datensammeln in das Lagerungs-Netzwerk und von dort in die Datenbank und in das Archiv zu Datensicherungszwecken), dann wirkt sich dies summiert negativ auf die Laufzeit der gesamten Datenanalyse aus. Würde man beispielsweise einen Terabyte an Daten in die Datenbank verschieben wollen, so ist man bereits durch die Schreibgeschwindigkeit von handelsüblichen Festplatten (nicht solid-state) bei etwa 20 Megabyte/sec limitiert. Das einmalige Verschieben dieser Menge würde dann in etwa 15 Stunden dauern. Die nächste Einschränkung ist die statische Natur der im Vorhinein erstellten Datenbank. So kann es häufig vorkommen, dass später im Analysevorgang Fragen aufkommen, auf die man mit den vorhandenen Daten nicht antworten kann. Eine neue Datenbank mit der Größe der aktuellen Datenbank und einer zusätzlichen neuen Spalte für die relevanten Daten muss also erstellt werden und die benötigten Daten wieder von der abstrakten Schicht bis zur Datenbank-Schicht durch den gesamten Verarbeitungsvorgang gehen. Auch das Archivieren von Daten aus dem Lagerungs-Netz kann eine Einschränkung sein. Sobald Daten einmal den Datentod gestorben sind, können sie aus dem Archiv-Nirwana nicht mehr ohne weiteres zurückgeholt werden und werden dadurch unbenutzbar. IV. MAPREDUCE MapReduce ist der von Google entwickelte, 2-teilige Algorithmus zur Bewältigung von Big Data-Aufgaben und Problemen. Beim Bewältigen von Big Data-Aufgaben ist es schwierig, die gesamte Datenmenge auf einmal zu bearbeiten. Auf Grund der reinen zu analysierenden Menge würde ein simples, iteratives Durchsuchen der Daten nach Stichwörtern die Laufzeit in die Länge ziehen und damit Anfragen nah an Echtzeit unmöglich machen. Google s Algorithmus basiert also auf dem Divide-and- Conquer-Prinzip: Große komplexe und damit unübersichtliche Aufgaben werden zur Vereinfachung in elementare Aufgaben zerlegt und diese dann simultan als von einander unabhängige Prozesse bearbeitet. Diese Lösungsstrategie mag heute trivial erscheinen, war bei Einführung des Algorithmus jedoch eine Neuheit im Umfeld der Datenverarbeitung. [1] A. Der Algorithmus Der Algorithmus besteht, wie man aus dem Namen bereits herleiten kann, aus 2 Bereichen, die hintereinander ausgeführt werden müssen: einem Map- und einem Reduce-Teil. Der Mapping-Prozess erhält den eingegebenen Datensatz als Input und konvertiert ihn in einen Satz von Tupeln. Tupel sind Datenpaare aus Schlüssel und zugehörigem Wert, also <Key, Value> Paare. Die beim Mapping entstandenen Output

3 Abb. 3. MapReduce [5] Abb. 4. WordCount Datensätze werden im Reduce Prozess zu wiederum kleineren Tupeln, je nach zusammengehörigen Key, zusammengefasst und dieser Datensatz dann als Ergebnis dem Benutzer präsentiert (Vergleiche Abb. 3). Vergleichbar ist diese Vorgehensweise mit einem Verfahren zur Volkszählung im Alten Rom. Der mit der Zählung beauftragte Konsul schickte jeweils einen Vertreter in jede zu zählende Stadt, diese lieferten die Daten für die Stadt ihrer Zuständigkeit zurück und der Konsul konnte diese dann zu einer Gesamtzählung zusammen fassen. [1] B. Beispiel: WordCount Um die genaue Funktion von MapReduce zu erläutern wird im Folgenden ein rudimentäres Beispiel, das Zählen von einzelnen Wörtern in einem gegebenen Text, erklärt. Natürlich ist das ein sehr simpler Anwendungsfall für einen MapReduce- Vorgang, der Algorithmus ist aber beliebieg groß skalierbar und das hier angewendete Prinzip kann demnach auch für weitaus kompliziertere Aufgaben verwendet werden. In diesem Beispiel ist der gegebene Datensatz ein Textfile bestehend aus 3 Zeilen und das Ziel ist es zu jedem der 3 verschiedenen Wörter die Anzahl, also wie oft sie im Text vorkommen, zu berechnen. Sea Tree Knee Knee Tree Sea Tree Tree Tree Bevor das Mapping nun überhaupt beginnen kann wird das Textfile zerteilt in seine einzelnen Zeilen. Es entstehen also 3 Datensätze aus jeweils 3 Wörtern, wobei der erste zum Beispiel Sea Tree Knee ist. Für jeden dieser einzelnen Zeilen wird nun ein Map-Prozess aufgerufen und dabei zu jedem vorhandenen Wort ein Tupel mit dem Wert der jeweiligen Anzahl erstellt. Für die erste Zeile sind das folgende Tupel: <Sea, 1> <Knee, 1> <Tree, 1> Jeder der anderen Mapping-Prozesse liefert genauso eigene Tupel der vorhanden Wörter. Die Datensätze, die beim Mapping entstehen, werden nun an die Reduce-Prozesse weitergegeben. Ein Tupel wird hierbei genau an den Reducer weitergegeben, welcher für den jeweiligen Key (in diesem Beispiel das jeweilige Wort) zuständig ist. Die Aufgabe im Reduce-Teil des Algorithmus ist es nun alle Tupel eines Keys bzw. Wortes zu einem zusammen zu fassen und die zugehörigen Werte bzw. Anzahlen zu addieren. Der Reducer des Wortes Tree würde in diesem Beispiel vom ersten Mapper den Tupel <Tree, 1>, vom zweiten den Tupel <Tree, 1> und vom letzten den Tupel <Tree, 3> übergeben bekommen und fasst diese zu einem Tupel für den Schlüssel Tree zusammen mit der addierten Anzahl von 5. (Vergleiche Abb. 4) Um dem Benutzer ein Endergebnis zu liefern werden nun die Tupel der Reducer wieder zu einem einzelnen Datensatz zusammengefügt und in der Anwenderschicht präsentiert. <Sea, 2> <Knee, 2> <Tree, 5> V. HADOOP Hadoop ist Apache s Open-Source Lösung für Big Data- Aufgaben aufbauend auf dem MapReduce-Algorithmus. Hierbei werden sowohl Daten als auch die MapReduce-Logik auf einem Server-Netzwerk (Cluster) zur Bearbeitung verteilt (vergleiche hierzu Kapitel V, B). Hadoop bietet allerdings mehr als nur MapReduce, es umfasst eine gesamte Suite and Funktionen und Komponenten wie Programmiersprachen. Prestigeträchtige Nutzer dieser Suite umfassen Facebook (weltweit größter Hadoop-Cluster mit mehr als 21 Petabytes), IBM und Yahoo. Die in Hadoop verwendete Strategie heisst Schema beim Lesen. Hierbei werden Daten erst dann interpretiert, wenn sie gelesen werden, nicht bereits beim Schreiben der Daten. Die Struktur der zu lesenden Daten ist also irrelevant. Im Folgenden wird genauer auf einige mögliche Komponenten der Hadoop-Suite eingegangen. [4] A. Komponenten Die Haupbestandteile von Hadoop sind der MapReduce- Algorithmus, auf dem das gesamte System aufbaut, und HDFS (Hadoop Distributed Filesystem), das Dateisystem auf dem Cluster. Ein MapReduce-Auftrag wird in Hadoop immer in

4 Java geschrieben, der Programmierer muss hierbei nur die jeweils nötigen Map- und Reduce-Funktionen schreiben. Komponenten, die dieses Gerüst ergänzen werden im Folgenden erklärt. Hive: Hive bietet die Bedienung der Hadoop-Suite für Nutzer mit Vorkenntnissen in SQL an. Hive verwendet hierbei eine Sprache, die SQL sehr ähnlich ist: die Hive Query Language (HQL). Aber da HQL sehr auf SQL basiert, ist die Sprache in ihrer Funktionsweise wie die Vorlage beschränkt. HIVE Befehle werden in MapReduce-Aufträge umgewandelt und auf dem Cluster ausgeführt. Pig/PigLatin: PigLatin ist eine von Yahoo entwickelte Programmiersprache, deren Spezialität darin liegt sich mit jeder Art von eingegebenen Daten zu verstehen (engl. pig: ein Schwein als Allesfresser) und diese zu transformieren. PigLatin kann als das Hadoop Gegenstück zu einer ETL-Logik verstanden werden: PigLatin extrahiert hierzu Daten aus dem HDFS um daraufhin Transformationen, wie das Entfernen einzelner Reihen oder die Kombination zweier Datensätze, auszuführen, Anschließend werden die Daten geladen und beispielsweise dem Nutzer ausgegeben. Pig ist die dazugehörige Laufzeitumgebung für PigLatin, ähnlich wie Java Virtual Machine s Verhältnis zu einer Java Applikation. [1] HBase: Ist eine non-relational Datenbank, basierend auf Google s BigTable. Damit liefert es eine fehlertolerante, skalierbare Möglichkeit sehr große strukturierte Datensätze auf einem Hadoop-Cluster zu bearbeiten. HBase unterstützt allerdings nicht die Datenbanksprache SQL also müssen auch hier alle Anfragen in Java geschrieben werden. Der Zugriff auf die Daten in einer HBase-Datenbank kann nah an Echtzeit erfolgen. Oozie: Oozie ist ein Workflow-Tool, das es dem Benutzer erlaubt einen Arbeitsablauf zu gestalten, der mit aus mehreren der oben genannten Komponenten besteht. Dem Benutzer wird ermöglicht Abläufe zu automatisieren, indem Abhängigkeiten bzw. Abfragen nach bestimmten Zuständen definiert werden. Der Workflow schreitet dann im gegebenen Fall automatisch voran. [1] All diese Komponenten werden von Anbietern wie dem Marktführer Cloudera zu einer vordefinierten Suite zusammengefasst, welche dann über ein simples Installationsprogramm auf dem Cluster und auf eventuell neu hinzugefügten Servern installiert werden kann. [4] B. HDFS HDFS steht für Hadoop Distributed Filesystem und ist das Dateisystem, das auf einem von Hadoop verwalteten Server- Cluster läuft. 1) Dateisystem: Die Grundfunktion von HDFS ist es, große Datenmengen auf einem großen Cluster zu verteilen. Hierzu werden die Daten in gleichgroße Blöcke aufgeteilt (die Größe der Blöcke ist veränderbar, der Standardwert ist 64 Megabyte) und doppelt kopiert (Vergleiche Abb. 5) auf den einzelnen Servern/Server-Racks verteilt. [4] Um bei dem Ausfallen von einzelnen Servern oder gar ganzen Racks dem Verlust von Daten und dem damit verbundenen Versagen des MapReduce-Prozesses vorzubeugen, werden die Abb. 5. Redundante Datenverteilung [1] einzelnen Datenblöcke redundant auf dem Cluster verteilt. Das bedeutet, dass sie auf einem Server gespeichert, auf einen weiteren, der sich auf einem anderen Rack befindet, kopiert und von dort auf einen weiteren Server dupliziert. [1] Da man bei gößeren Clustern damit mit dem Ausfall einzelner Server rechnen muss, garantiert eine derartige Verteilung der Datenblöcke selbst im Falle eines Hardwarefehlers die Integrität und Gesamtheit der Daten. 2) Struktur des Dateisystems: Die Art und Weise in welcher HDFS den Server-Cluster überspannt und MapReduce- Prozesse verwaltet wird in Abb. 6 veranschaulicht. Unter allen Servern gibt es 2 jeweils einzigartige Positionen (im Folgenden Knoten genannt), welche als Master die Integrität und Struktur der Sklaven-Knoten verwalten und überwachen. Diese Master-Knoten sind die NameNode und der JobTracker. Alle weiteren Server im Cluster, welche keine überwachende Rolle einnehmen, daher Sklaven-Knoten, besitzen jeweils 2 Teilsysteme: die DataNode, in welcher die auf diesem Server gespeicherten Datenblöcke zu finden sind und den TaskTracker, der die auf diesem Server auszuführende MapReduce-Logik und deren Status bzw. Fortschritt enthält. Die NameNode verwaltet Zeiger auf die einzelnen Datenblöcke und deren Kopien und allokiert freie Speicherplätze für eventuelle neue Daten. Der JobTracker ist der Knoten, der einen Auftrag auf einen TaskTracker verteilt, der nahe an den zu verarbeitenden Daten liegt. Die TaskTracker und der JobTracker stehen in konstanter Verbindung: TaskTracker senden in regelmäßigen Abständen ein Aktivitätssignal, um den JobTracker über ein mögliches Versagen zu informieren, damit dieser in gegebenem Fall den Auftrag an einen anderen Knoten weitergeben kann. [4] Die Art in welcher Aufträge im Cluster verteilt werden erfolgt nach so genannten Schedulern, diese werden im nächsten Abschnitt beschrieben. 3) Scheduling: Scheduling bzw. die Art der Verteilung der Daten und Prozesse auf dem Cluster erfolgte bei Release von Hadoop im First-In-First-Out-Verfahren (FIFO). Diese Metho-

5 Abb. 6. HDFS [4] Methoden. Der große Vorteil von Schema beim Schreiben über Schema beim Lesen ist die geringe Zeit beim Analysieren von strukturierten Datensätzen, da Daten in eine vorhersehbare Struktur gebracht wurden. Wohingegen Schema beim Lesen bei der Verarbeitung von kleineren Datensätzen zu aufwendig agiert. Hier ist der Schema beim Schreiben-Ansatz effektiver. Im direkten Vergleich der beiden Methoden wird deutlich, wo sie jeweils ihre Stärke haben: Schema beim Lesen eignet sich für große Datensätze unstrukturierter Daten und Big Data- Anwendungsfälle, wohingegen Schema beim Schreiben Analyseaufträge auf strukturierten, kleineren Datensätzen schnell und effizient bearbeiten kann. de ist leicht zu implementieren und arbeitet effizient, bietet darüber hinaus aber keine weiteren Vorteile wie Priorisierung von Aufgaben und Größeneinschätzung. In späteren Versionen der Software kamen zwei weitere Scheduling-Verfahren hinzu: der Fair- und der Kapazitäts-Scheduler. Faires Scheduling: Die Prämisse dieser Methode ist es, die Rechenkraft unter allen Aufträgen aufzuteilen, sodass jeder Auftrag im Durchschnitt gleich viel Rechenkraft benutzen kann. Hierzu werden alle Aufträge an den Cluster in Pools eingeteilt, wobei jeder Pool eine feste, für alle gleich große, zu verwendende Rechenkraft zugeschrieben bekommt. [3] Der Vorteil dieser Methode ist, dass selbst wenn ein Nutzer mehrere Aufträge stellt insgesamt genausoviel Rechenkraft wie jeder andere Nutzer zugeteilt bekommt. Kapazitäts-Scheduling: Diese Methode funktioniert nach dem gleichen Prinzip wie beim Fairen Scheduling. Allerdings werden hier Wartelisten anstatt Pools verwendet, in welchen, im Gegensatz zur FIFO-Methode, Prioritäten für einzelne Aufträge verwaltet und geändert werden können. Jeder Warteliste wird eine feste Rechenkapazität zugeschrieben und wenn dieses Pensum nach erfolgreichem Abschluss der Aufträge nicht ausgeschöpft wurde, wird diese an die anderen, noch vollen, Wartelisten weiterverteilt. C. Im Vergleich zur Schema beim Schreiben-Methode Schema beim Lesen trumpft bei der Analyse von unstrukturierten großen Datensätzen auf: Die Möglichkeit Daten zu analysieren, ohne diese vorher in eine vordefinierte Form zu transformieren, ermöglicht das Traversieren von Big Data- Aufgaben. Eine Aufgabe bei der Schema beim Schreiben zu langsam bzw. zu ineffizient ist. Ein weiterer Vorteil der Hadoop-Methode ist die Möglichkeit den Server-Cluster leicht skalieren zu können, also ohne Schwierigkeiten neue Server hinzufügen und integrieren bzw. entfernen zu können. Diese Funktion ist bei Schema beim Schreiben keine Mögichkeit: wenn hier weitere Daten benötigt werden, müssen alle Daten neu geladen werden (vergleiche Kapitel III, B). Diese Skalierbarkeit verbunden mit den immer weiter sinkenden Hardware-Kosten machen den Schema beim Lesen-Ansatz zu dem zukunftssicheren und kosteneffizienteren der beiden VI. FAZIT UND AUSBLICK IN DIE ZUKUNFT Im Folgenden werden die wichtigsten Punkte der Arbeit noch einmal zusammengefasst und ein Ausblick in die (nahe) Zukunft des Big Data-Themas gegeben. MapReduce: Ein Datenverarbeitungs Algorithmus nach dem Divide-and-Conquer-Prinzip, der Daten parallel analysiert (vegleichbar mit Multithreating in z.b. Java). Analyseaufträge bestehen aus den 2 Kernprozessen Map und Reduce, bei welchen Inputdaten in Tupel bestehend aus Schlüssel und zugehörigem Wert umgewandelt und später je nach Schlüssel zu wiederum kleineren Tupeln, die den Output des Prozesses bilden, zusammengefasst werden. Hadoop: Eine Open-Source Lösung der Firma Apache, die mehr als nur MapReduce bietet. Weitere Komponenten umfassen beispielsweise eigene Programmiersprachen und Interfaces, welche die Verarbeitung von strukturierten Daten ermöglichen können. Das verwendete Dateisystem HDFS (Hadoop Distributed Filesystem) teilt Daten in gleichgroße Teile und die MapReduce-Logik auf einem Server-Cluster bestehend aus DataNode und TaskTracker auf. Die Master-Knoten NameNode und JobTracker verwalten die Metainformation über Speicherung der Daten und Stabilität der Hardware. In naher Zukunft werden Datendurchsätze von Petabytes auf Exabytes und später auf Zettabytes, die zu überblickende Datenmenge vergrößernd, steigen und damit Hadoop s bzw. MapReduce s Funktionsspanne weiter ausreizen. Allerdings ist durch die Skalierbarkeit des MapReduce-Algorithmus und die einfache Erweiterung von Hadoop-Clustern eine große Zukunftssicherheit dieser Systeme gegeben. Auch in weit entfernter Zukunft wird die Analyse von Statistiken und Metadaten ein wichtiges Utensil der Unternehmensführung. Große und, aufgrund der sinkenden Kosten, in Zukunft auch kleinere, Unternehmen werden selbst Daten sammeln und sowohl zur Marktanalyse als auch zur Prognose von Marktsituationen bearbeiten. Diese Prognosen werden durch die weiter exponentiell steigende Datenmenge (vergleiche Kapitel II, B) mit immer höherer Wahrscheinlichkeit richtig liegen und damit den Markt für das Unternehmen berechenbar machen. Ein sicherer Vorteil gegenüber der Konkurrenz.

6 LITERATUR [1] P. Zikopoulos, C. Eaton, D. Deroos, T. Deutsch, G. Lapis, Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data, ebook, IBM, p. 3-80, [2] A. McAfee and E. Brynjolfsson, Big Data: The Management Revolution, Article, Harvard Business Review. p , Oktober [3] M. Tim Jones, Scheduling in Hadoop, Blogpost, available at os-hadoop-scheduling/, IBM, Dezember [4] A. Awadallah, Introducing Apache Hadoop: The Modern Data Operating System, Lecture, available at watch?v=d2xenpfzsyi, Stanford University, November [5] Xiaochong Zhang, Blogpost, available at xiaochongzhang.me/blog/?p=338, xiaochongzhang.me, Mai 2013

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Big Data Anwendungen Chancen und Risiken

Big Data Anwendungen Chancen und Risiken Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Schlüsselworte Hadoop, Hive, Sqoop, SQL Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Einleitung In diesem Vortrag werden, nach einer kurzen Einführung in Apache Hadoop, die beiden Werkzeuge

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

BIG DATA HYPE ODER CHANCE

BIG DATA HYPE ODER CHANCE BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu

Mehr

BIG UNIVERSITÄTSRECHENZENTRUM

BIG UNIVERSITÄTSRECHENZENTRUM UNIVERSITÄTS RECHENZENTRUM LEIPZIG BIG DATA @ UNIVERSITÄTSRECHENZENTRUM Forschung und Entwicklung Entwicklung eines E-Science-Angebots für die Forschenden an der Universität Leipzig Stefan Kühne Axel Ngonga

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

HDFS als schneller und günstiger Storage?

HDFS als schneller und günstiger Storage? HDFS als schneller und günstiger Storage? Das Hadoop Distributed File System (HDFS) verwaltet spielend riesige Datenmengen, lässt sich im laufenden Betrieb bequem skalieren und ist komfortabel zu administrieren.

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Azure und die Cloud. Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat. Institut für Informatik Software & Systems Engineering

Azure und die Cloud. Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat. Institut für Informatik Software & Systems Engineering Azure und die Cloud Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat Institut für Informatik Software & Systems Engineering Agenda Was heißt Cloud? IaaS? PaaS? SaaS? Woraus besteht

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen.

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. 1 In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. Zunächst stellt sich die Frage: Warum soll ich mich mit der Architektur eines DBMS beschäftigen?

Mehr

7 SharePoint Online und Office Web Apps verwenden

7 SharePoint Online und Office Web Apps verwenden 7 SharePoint Online und Office Web Apps verwenden Wenn Sie in Ihrem Office 365-Paket auch die SharePoint-Dienste integriert haben, so können Sie auf die Standard-Teamsite, die automatisch eingerichtet

Mehr

Wir stellen Ihnen den Webspace und die Datenbank für den OPAC zur Verfügung und richten Ihnen Ihren webopac auf unserem Webserver ein.

Wir stellen Ihnen den Webspace und die Datenbank für den OPAC zur Verfügung und richten Ihnen Ihren webopac auf unserem Webserver ein. I Der webopac die Online-Recherche Suchen, shoppen und steigern im Internet... Vor diesem Trend brauchen auch Sie nicht halt machen! Bieten Sie Ihrer Leserschaft den Service einer Online-Recherche in Ihrem

Mehr

sedex-client Varianten für den Betrieb in einer hoch verfügbaren

sedex-client Varianten für den Betrieb in einer hoch verfügbaren Département fédéral de l'intérieur DFI Office fédéral de la statistique OFS Division Registres Team sedex 29.07.2014, version 1.0 sedex-client Varianten für den Betrieb in einer hoch verfügbaren Umgebung

Mehr

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?

Mehr

Big Data Management Thema 14: Cassandra

Big Data Management Thema 14: Cassandra Thema 14: Cassandra Jan Kristof Nidzwetzki Thema 14: Cassandra 1 / 25 Übersicht 1 Grundlagen Überblick Geschichte Datenmodel 2 Architektur Der logische Ring Persistenz der Daten Tunable Consistency Read

Mehr

Data Mining und Machine Learning

Data Mining und Machine Learning Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER INHALTSVERZEICHNIS 1. Datenbanken 2. SQL 1.1 Sinn und Zweck 1.2 Definition 1.3 Modelle 1.4 Relationales Datenbankmodell 2.1 Definition 2.2 Befehle 3.

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr.

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr. Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr. Florian Johannsen AGENDA 1. Big Data Projekt der freenet Group Dr. Florian Johannsen

Mehr

Einführung. Kapitel 1 2 / 508

Einführung. Kapitel 1 2 / 508 Kapitel 1 Einführung 2 / 508 Einführung Was ist ein Datenbanksystem (DBS)? Ein System zum Speichern und Verwalten von Daten. Warum kein herkömmliches Dateisystem verwenden? Ausfallsicherheit und Skalierbarkeit

Mehr

OPERATIONEN AUF EINER DATENBANK

OPERATIONEN AUF EINER DATENBANK Einführung 1 OPERATIONEN AUF EINER DATENBANK Ein Benutzer stellt eine Anfrage: Die Benutzer einer Datenbank können meist sowohl interaktiv als auch über Anwendungen Anfragen an eine Datenbank stellen:

Mehr

scmsp SMARTES Content-Management-System Bestimmtes kann und das dafür sehr gut. Bei der Konzeption des blockcms stand die Einfachheit im Vordergrund:

scmsp SMARTES Content-Management-System Bestimmtes kann und das dafür sehr gut. Bei der Konzeption des blockcms stand die Einfachheit im Vordergrund: scmsp SMARTES Content-Management-System blockcms steht für Block Content Management System Wir brauchen kein CMS, das alles kann, sondern eines, das nur Bestimmtes kann und das dafür sehr gut. Bei der

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zettabyte CeBIT 2011 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zetabyte: analytische Datenbanken Die Datenflut. Analytische Datenbanken: Was ist neu? Analytische Datenbanken:

Mehr

Verteiltes Backup. Einleitung Grundlegende Backup Techniken Backup in Netzwerken. Client/Server Peer-to-Peer

Verteiltes Backup. Einleitung Grundlegende Backup Techniken Backup in Netzwerken. Client/Server Peer-to-Peer Verteiltes Backup Einleitung Grundlegende Backup Techniken Backup in Netzwerken Client/Server Peer-to-Peer Einleitung Backup: Das teilweise oder gesamte Kopieren der in einem Computersystem vorhandenen

Mehr

Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf

Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005 Paradigmen im Algorithmenentwurf Problemlösen Problem definieren Algorithmus entwerfen

Mehr

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching 1.1 Caching von Webanwendungen In den vergangenen Jahren hat sich das Webumfeld sehr verändert. Nicht nur eine zunehmend größere Zahl an Benutzern sondern auch die Anforderungen in Bezug auf dynamischere

Mehr

Visualisierung der Eidolon Auswertung. VisEiA. Graphischer Client für das Emailspiel Eidolon

Visualisierung der Eidolon Auswertung. VisEiA. Graphischer Client für das Emailspiel Eidolon Visualisierung der Eidolon Auswertung VisEiA Graphischer Client für das Emailspiel Eidolon Entstanden im Ramen einer Seminararbeit in Informatik Universität Fribourg, Schweiz david.buchmann@gmx.net http://getit.at/viseia/

Mehr

RAID Redundant Array of Independent [Inexpensive] Disks

RAID Redundant Array of Independent [Inexpensive] Disks RAID Redundant Array of Independent [Inexpensive] Disks Stefan Wexel Proseminar Algorithms and Data Structures im WS 2011/2012 Rheinisch-Westfälische Technische Hochschule Aachen Lehrstuhl für Informatik

Mehr

1.1 Das Ziel: Basisdaten strukturiert darzustellen

1.1 Das Ziel: Basisdaten strukturiert darzustellen MS Excel 203 Kompakt PivotTabellen. Das Ziel: Basisdaten strukturiert darzustellen Jeden Tag erhalten wir umfangreiche Informationen. Aber trotzdem haben wir oft das Gefühl, Entscheidungen noch nicht treffen

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

MapReduce-Konzept. Thomas Findling, Thomas König

MapReduce-Konzept. Thomas Findling, Thomas König MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Jürgen Vester Oracle Deutschland B.V. & Co KG Um was geht es bei Big Data? Bei Big Data sprechen wir eine Klasse von Daten an, die in der

Mehr

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Ein Beispiel Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Dipl.-Kfm. Claus Häberle WS 2015 /16 # 42 XML (vereinfacht) visa

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Szenarien zu Hochverfügbarkeit und Skalierung mit und ohne Oracle RAC. Alexander Scholz

Szenarien zu Hochverfügbarkeit und Skalierung mit und ohne Oracle RAC. Alexander Scholz Hochverfügbar und Skalierung mit und ohne RAC Szenarien zu Hochverfügbarkeit und Skalierung mit und ohne Oracle RAC Alexander Scholz Copyright its-people Alexander Scholz 1 Einleitung Hochverfügbarkeit

Mehr

1. Diigo.com. Pädagogische Hochschule Thurgau. Lehre Weiterbildung Forschung. 1.1. Anmeldung

1. Diigo.com. Pädagogische Hochschule Thurgau. Lehre Weiterbildung Forschung. 1.1. Anmeldung Pädagogische Hochschule Thurgau. Lehre Weiterbildung Forschung Prorektorat Forschung und Wissensmanagement Lars Nessensohn 1. Diigo.com Bewegt man sich im Internet, so arbeitet man früher oder später auch

Mehr

Darüber hinaus wird das Training dazu beitragen, das Verständnis für die neuen Möglichkeiten zu erlangen.

Darüber hinaus wird das Training dazu beitragen, das Verständnis für die neuen Möglichkeiten zu erlangen. Ora Education GmbH www.oraeducation.de info@oraeducation.de Lehrgang: Oracle 11g: New Features für Administratoren Beschreibung: Der Kurs über fünf Tage gibt Ihnen die Möglichkeit die Praxis mit der neuen

Mehr

XINDICE. The Apache XML Project 3.12.09. Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de

XINDICE. The Apache XML Project 3.12.09. Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de 3.12.09 HKInformationsverarbeitung Kurs: Datenbanken vs. MarkUp WS 09/10 Dozent: Prof. Dr. M. Thaller XINDICE The Apache XML Project Inhalt Native

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired make connections share ideas be inspired Data Guido Oswald Solution Architect @SAS Switzerland BIG Data.. Wer? BIG Data.. Wer? Wikipedia sagt: Als Big Data werden besonders große Datenmengen bezeichnet,

Mehr

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH Big Data Lösungen mit Apache Hadoop Gunnar Schröder, T-Systems Multimedia Solutions GmbH Was ist Big Data? 2 Charakteristiken von Big Data Three Vs of Big Data VOLUME Terabytes Petabytes Exabytes Zettabytes

Mehr

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem Fachbericht zum Thema: Anforderungen an ein Datenbanksystem von André Franken 1 Inhaltsverzeichnis 1 Inhaltsverzeichnis 1 2 Einführung 2 2.1 Gründe für den Einsatz von DB-Systemen 2 2.2 Definition: Datenbank

Mehr

Managed Cloud Services

Managed Cloud Services Managed Cloud Services Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Cloud Services

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

JMangler. Frithjof Kurtz. Universität Bonn, Seminar Softw aretechnologie WS 03/04, Jmangler Frithjof Kurtz 1

JMangler. Frithjof Kurtz. Universität Bonn, Seminar Softw aretechnologie WS 03/04, Jmangler Frithjof Kurtz 1 JMangler Frithjof Kurtz Universität Bonn, Seminar Softw aretechnologie WS 03/04, Jmangler Frithjof Kurtz 1 JMangler Vortragsgliederung Motivation Java Grundlagen JMangler Grundlagen Transformationen Algorithmen

Mehr

Das ultimative Daten Management

Das ultimative Daten Management Das ultimative Daten Management Beschreibung des Programms Rafisa AG Seestrasse 78 CH 8703 Erlenbach-Zürich Ziel und Zweck Das Program: ist ein multi-funktionales Programm, welches dazu dient, für den

Mehr

ZMI Benutzerhandbuch Sophos. Sophos Virenscanner Benutzerhandbuch

ZMI Benutzerhandbuch Sophos. Sophos Virenscanner Benutzerhandbuch ZMI Benutzerhandbuch Sophos Sophos Virenscanner Benutzerhandbuch Version: 1.0 12.07.2007 Herausgeber Zentrum für Medien und IT ANSCHRIFT: HAUS-/ZUSTELLADRESSE: TELEFON: E-MAIL-ADRESSE: Zentrum für Medien

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de , NoSQL source:dilbert.com Inhalte der nächsten Vorlesungen ˆ Methoden große Datenmengen

Mehr

Big Data 10.000 ft. 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH

Big Data 10.000 ft. 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH Big Data 10.000 ft 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH Inhalte Big Data Was ist das? Anwendungsfälle für Big Data Big Data Architektur Big Data Anbieter Was passiert in Zukunft

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

1 Die Active Directory

1 Die Active Directory 1 Die Active Directory Infrastruktur Prüfungsanforderungen von Microsoft: Configuring the Active Directory Infrastructure o Configure a forest or a domain o Configure trusts o Configure sites o Configure

Mehr

Erlernbarkeit. Einsatzbereich. Preis. Ausführungsort

Erlernbarkeit. Einsatzbereich. Preis. Ausführungsort 1.3 PHP Vorzüge Erlernbarkeit Im Vergleich zu anderen Sprachen ist PHP relativ leicht erlernbar. Dies liegt hauptsächlich daran, dass PHP im Gegensatz zu anderen Sprachen ausschließlich für die Webserver-Programmierung

Mehr

VPN-System Benutzerhandbuch

VPN-System Benutzerhandbuch VPN-System Benutzerhandbuch Inhalt Einleitung Antiviren-Software 5 Einsatzgebiete 6 Web Connect Navigationsleiste 8 Sitzungsdauer 9 Weblesezeichen 9 Junos Pulse VPN-Client Download Bereich 9 Navigationshilfe

Mehr

BIG DATA Die Bewältigung riesiger Datenmengen

BIG DATA Die Bewältigung riesiger Datenmengen BIG DATA Die Bewältigung riesiger Datenmengen Peter Mandl Institut für Geographie und Regionalforschung der AAU GIS Day 2012, 13.11.2012, Klagenfurt Was sind BIG DATA? Enorm große Datenmengen, Datenflut

Mehr

Performance Monitoring Warum macht es Sinn?

Performance Monitoring Warum macht es Sinn? Performance Monitoring Warum macht es Sinn? achermann consulting ag Nicola Lardieri Network Engineer Luzern, 25.5.2011 Inhalt Definition Monitoring Warum Performance Monitoring? Performance Monitoring

Mehr

Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim

Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim Andreas Ries Cloud-Computing Seminar Hochschule Mannheim WS0910 1/26 Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim Andreas Ries Fakultät für Informatik Hochschule Mannheim ries.andreas@web.de

Mehr

FLASHRECOVER SNAPSHOTS. Sofortige, unlimitierte Snapshots, speziell für 100 % Flash-Speicherung

FLASHRECOVER SNAPSHOTS. Sofortige, unlimitierte Snapshots, speziell für 100 % Flash-Speicherung FLASHRECOVER SNAPSHOTS Sofortige, unlimitierte Snapshots, speziell für 100 % Flash-Speicherung FLASHRECOVER SNAPSHOTS BIETEN EFFIZIENTE, SKALIERBARE UND LEICHT ZU VERWALTENDE SNAPSHOTS OHNE KOMPROMISSE

Mehr

Dokumentation zur Anlage eines JDBC Senders

Dokumentation zur Anlage eines JDBC Senders Dokumentation zur Anlage eines JDBC Senders Mithilfe des JDBC Senders ist es möglich auf eine Datenbank zuzugreifen und mit reiner Query Datensätze auszulesen. Diese können anschließend beispielsweise

Mehr

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Brownbag am Freitag, den 09.08.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich

Mehr

shopwin Kurzanleitung Leitfaden für einen Kassennotfall / Bedienung der Notfallkasse

shopwin Kurzanleitung Leitfaden für einen Kassennotfall / Bedienung der Notfallkasse Leitfaden für einen Kassennotfall / Bedienung der Notfallkasse www.easy-systems.de Inhaltsverzeichnis: 1 Ziel der Anleitung...2 2 Was ist ein Kassennotfall?...2 3 Was ist eine Notfallkasse?...2 4 Wie erkenne

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere

Mehr

Managed VPSv3 Was ist neu?

Managed VPSv3 Was ist neu? Managed VPSv3 Was ist neu? Copyright 2006 VERIO Europe Seite 1 1 EINFÜHRUNG 3 1.1 Inhalt 3 2 WAS IST NEU? 4 2.1 Speicherplatz 4 2.2 Betriebssystem 4 2.3 Dateisystem 4 2.4 Wichtige Services 5 2.5 Programme

Mehr

Die Virtuelle Baufakultät der Universität Innsbruck - VRML als 3D-Informationssystem

Die Virtuelle Baufakultät der Universität Innsbruck - VRML als 3D-Informationssystem Hassan, Hanke und Weinold 1 Die Virtuelle Baufakultät der Universität Innsbruck - VRML als 3D-Informationssystem Mohamed Hassan, Klaus Hanke und Thomas Weinold Kurzfassung Die heutige neue Webtechnologie

Mehr

Kapitel 33. Der xml-datentyp. In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023

Kapitel 33. Der xml-datentyp. In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023 Kapitel 33 Der xml-datentyp In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023 995 996 Kapitel 33: Der xml-datentyp Eine der wichtigsten

Mehr