Überblick: Data at Scale

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "Überblick: Data at Scale"

Transkript

1 Überblick: Data at Scale Proseminar Data Mining Quirin Stockinger Fakultät für Informatik Technische Universität München Kurzfassung Der exponentielle Anstieg von verfügbaren Datenmengen erfordert neue Algorithmen um aus diesen Daten Nutzen zu ziehen. Auf Grund seiner enormen Relevanz bei der Lösung dieses Problems wird im Folgenden der von Google entwickelte MapReduce-Algorithmus vorgestellt. Des Weiteren wird auf Hadoop, eine Open-Source Software-Suite, entwickelt von Apache und aufbauend auf MapReduce eingegangen. Schlüsselworte Big Data, Skalierbare Datenverabeitung, MapReduce-Algorithmus, Divide-and-Conquer, Apache Hadoop, Latenz I. EINLEITUNG Die Einführung von web2.0 Anwendungen und Webseiten hat nicht nur Vorteile für den Nutzer sondern auch die Möglichkeit auf eine unbegrenzt große Menge von Daten zuzugreifen mit sich gebracht. Dieser enorme Datenfluss erfordert neue Methoden zum Herausfiltern von Informationen, beispielsweise aus nützlichen Statistiken. Diese Arbeit bietet eine Einführung in den meistgenutzten Algorithmus für die skalierte Analyse von großen Datenmengen: Google s MapReduce. Diese Arbeit bezieht einen Großteil der Informationen aus dem Big Data Themengebiet im Harvard Business Review Oktober 2012 und aus einer Vorlesung von Cloudera s Amr Awadallah über Hadoop und Cloudera s Hadoop Suite. Des Weiteren wird Bezug auf das ebook Understanding Big Data genommen, welches von mehreren IBM-Angestellten verfasst wurde. IBM ist eines der führenden Unternehmen auf dem Bereich der Big Data-Problemlösung. A. Was ist Big Data? II. BIG DATA Wenn man von Daten spricht, ist meistens die Rede von SQL-Datenbanken bzw Tabellen, in welchen spalten- und zeilenweise diverse Attribute gespeichert und miteinander in Relation gebracht sind. Diese Art von Daten wird strukturierte Daten genannt, da sie in einer vorhersehbaren Form auftreten: in Tabellen. Mit diesen Daten umzugehen ist denkbar leicht: das kleinste Element zu finden ist nicht mehr als in einer Spalte zu sortieren oder einen SQL-Befehl auszuführen. Daten, welche in unterschiedlichen, unvorhersehbaren Formen auftreten und nicht in eine gemeinsame sinnvolle Datenbank geschrieben werden könnten, nennt man unstrukturierte Daten. Diese Datenmenge ist mit dem Aufkommen von Sozialen Netzen á la Twitter und Facebook in den letzten Abb. 1. Anstieg der unstrukturierten Datenmenge Jahren exponentiell gestiegen. Diese Netzwerke erzeugen im Millisekundentakt neue Daten, das können tweets, Status- Aktualisierungen oder Geo-Daten sein. Hinzu kommen diverse Log-Dateien oder auch Videos und Audio. Bei der Betrachtung der letzten 2 Jahre wird der exponentielle Datenanstieg deutlich: Innerhalb der letzten 24 Monate wurden mehr als 90% aller bisher insgesamt erstellten Daten generiert und wie in Abb. 1 zu erkennen ist sind dies hauptsächlich unstrukturierte Daten. Der Big Data Begriff beschäftigt sich genau mit den Analyseaufgaben, bei welchen das Volumen der zu analysierenden Daten so groß ist, dass die Menge zum Problem bei der Analytik wird. [2] B. Die 3 V s des Big Data-Begriffs Um den Begriff Big Data genauer einzugrenzen und zu beschreiben, werden häufig die drei V s herangezogen. Volume: Die reine Menge an generierten Daten ist heute enorm: 2012 wurden jeden Tag 2,5 Exabytes an Daten generiert, das verdoppelt sich ca. alle 40 Monate. [2] Allein Facbook erzeugt jeden Tag 10 Terabytes an neuen Daten. [1] Diese erdrückende Welle an Daten, die auf jeden Analytiker hereinbricht, ist ein Teil von Big Data und verlangt beim Umgang damit erhöhte Sorgfalt und neue Methoden, um relevante Daten aus der Menge herauszufiltern. Variety: Die unterschiedlichen und vor Allem immer neueren Arten von Daten. Die meisten neuen Typen von Daten sind erst so alt wie die Dienste, die sie hervorgerufen haben: tweets seit der Gründung von Twitter (2006) und Status-Updates in Facebook, das 2004 startete. Die immer weiter sinkenden Kosten für Computer-Peripherie wie Festplatten bringt immer mehr

2 Abb. 2. Schema beim Schreiben [4] Unternehmen dazu auf Strategien zu setzen, die mit höheren Kosten nicht vereinbar gewesen wären. Da Unternehmen über die Mittel verfügen um Daten im großen Stil speichern zu können, kommen neue, wieder unterschiedliche Quellen für weitere Datenströme hinzu. [2] Velocity: Die Geschwindigkeit, in der Daten fließen. Echtzeitund Nahe-Echtzeit-Analyse von Daten kann einem Unternehmen oder Börsenteilnehmer einen signifikanten Vorteil gegenüber seinen Konkurrenten und damit immense wirtschaftliche Vorteile schaffen. Es ist also wichtig Daten schon zu beachten, während sie noch in Bewegung sind, nicht erst wenn sie zur Ruhe gekommen sind. [1], [2] III. DATENVERARBEITUNG Eine aktuelle Methode für die Verarbeitung und Analyse von gegebenen Daten basiert auf einem Schema-beim- Schreiben-Ansatz. Hierbei werden Daten in eine statische, bereits erstellte Datenbank geladen und in dieser Datenbank dann analytische Anfragen durchgeführt. Dadurch lassen sich Latenzen bei der Bearbeitung minimieren, Die Methode lässt sich allerdings nicht für Big Data-Probleme anwenden. A. Schema beim Schreiben Abb. 2 zeigt einen Datenanalyseablauf von der Erstellung der Daten bis hin zur Analyseschicht. Auf der abstraktesten Ebene steht die Erstellung von allen Daten, darüber die Sammlung all derer Daten, die strukturiert sind bzw. für Analysezwecke verwendbar sind. Gesammelte Daten werden auf ein Server-Netz verschoben, das nur zur Lagerung dient. Über diesem Netz sitz eine ETL-Datenverarbeitungs-Logik, welche die Daten aus der Lagerung extrahiert (Extract), diese in die Form der gegebenen Datenbank bringt (Transform) und diese transformierten Daten schlussendlich in die Datenbank verschiebt (Load), welche für die Analyse erstellt wurde. Das Schema der Datenbank wird hier also beim Schreiben auf den Datensatz angewendet. [4] Erst dann kann man in dieser Datenbank Analyseanfragen, zum Beispiel search oder sort Befehle, an die gesammelten Daten stellen. Da man nur genau die Daten in der zu analysierenden Schicht hat und man die Struktur dieser Daten genau kennt (sie wurden ja in die Struktur der erstellten Datenbank transformiert) erfolgen diese Anfragen in Linearzeit und damit ist die Latenz minimiert. B. Einschränkungen bei dieser Methode Anhand der in Abb. 2 dargestellten Struktur kann man sehr leicht die größten Fehlerquellen und Einschränkungen dieser Herangehensweise erkennen. Das Offensichtlichtste zuerst: Daten von einer an die nächste Stelle zu verschieben ist langsam. Wenn dies mehrere Male durchgeführt werden muss (vom Datensammeln in das Lagerungs-Netzwerk und von dort in die Datenbank und in das Archiv zu Datensicherungszwecken), dann wirkt sich dies summiert negativ auf die Laufzeit der gesamten Datenanalyse aus. Würde man beispielsweise einen Terabyte an Daten in die Datenbank verschieben wollen, so ist man bereits durch die Schreibgeschwindigkeit von handelsüblichen Festplatten (nicht solid-state) bei etwa 20 Megabyte/sec limitiert. Das einmalige Verschieben dieser Menge würde dann in etwa 15 Stunden dauern. Die nächste Einschränkung ist die statische Natur der im Vorhinein erstellten Datenbank. So kann es häufig vorkommen, dass später im Analysevorgang Fragen aufkommen, auf die man mit den vorhandenen Daten nicht antworten kann. Eine neue Datenbank mit der Größe der aktuellen Datenbank und einer zusätzlichen neuen Spalte für die relevanten Daten muss also erstellt werden und die benötigten Daten wieder von der abstrakten Schicht bis zur Datenbank-Schicht durch den gesamten Verarbeitungsvorgang gehen. Auch das Archivieren von Daten aus dem Lagerungs-Netz kann eine Einschränkung sein. Sobald Daten einmal den Datentod gestorben sind, können sie aus dem Archiv-Nirwana nicht mehr ohne weiteres zurückgeholt werden und werden dadurch unbenutzbar. IV. MAPREDUCE MapReduce ist der von Google entwickelte, 2-teilige Algorithmus zur Bewältigung von Big Data-Aufgaben und Problemen. Beim Bewältigen von Big Data-Aufgaben ist es schwierig, die gesamte Datenmenge auf einmal zu bearbeiten. Auf Grund der reinen zu analysierenden Menge würde ein simples, iteratives Durchsuchen der Daten nach Stichwörtern die Laufzeit in die Länge ziehen und damit Anfragen nah an Echtzeit unmöglich machen. Google s Algorithmus basiert also auf dem Divide-and- Conquer-Prinzip: Große komplexe und damit unübersichtliche Aufgaben werden zur Vereinfachung in elementare Aufgaben zerlegt und diese dann simultan als von einander unabhängige Prozesse bearbeitet. Diese Lösungsstrategie mag heute trivial erscheinen, war bei Einführung des Algorithmus jedoch eine Neuheit im Umfeld der Datenverarbeitung. [1] A. Der Algorithmus Der Algorithmus besteht, wie man aus dem Namen bereits herleiten kann, aus 2 Bereichen, die hintereinander ausgeführt werden müssen: einem Map- und einem Reduce-Teil. Der Mapping-Prozess erhält den eingegebenen Datensatz als Input und konvertiert ihn in einen Satz von Tupeln. Tupel sind Datenpaare aus Schlüssel und zugehörigem Wert, also <Key, Value> Paare. Die beim Mapping entstandenen Output

3 Abb. 3. MapReduce [5] Abb. 4. WordCount Datensätze werden im Reduce Prozess zu wiederum kleineren Tupeln, je nach zusammengehörigen Key, zusammengefasst und dieser Datensatz dann als Ergebnis dem Benutzer präsentiert (Vergleiche Abb. 3). Vergleichbar ist diese Vorgehensweise mit einem Verfahren zur Volkszählung im Alten Rom. Der mit der Zählung beauftragte Konsul schickte jeweils einen Vertreter in jede zu zählende Stadt, diese lieferten die Daten für die Stadt ihrer Zuständigkeit zurück und der Konsul konnte diese dann zu einer Gesamtzählung zusammen fassen. [1] B. Beispiel: WordCount Um die genaue Funktion von MapReduce zu erläutern wird im Folgenden ein rudimentäres Beispiel, das Zählen von einzelnen Wörtern in einem gegebenen Text, erklärt. Natürlich ist das ein sehr simpler Anwendungsfall für einen MapReduce- Vorgang, der Algorithmus ist aber beliebieg groß skalierbar und das hier angewendete Prinzip kann demnach auch für weitaus kompliziertere Aufgaben verwendet werden. In diesem Beispiel ist der gegebene Datensatz ein Textfile bestehend aus 3 Zeilen und das Ziel ist es zu jedem der 3 verschiedenen Wörter die Anzahl, also wie oft sie im Text vorkommen, zu berechnen. Sea Tree Knee Knee Tree Sea Tree Tree Tree Bevor das Mapping nun überhaupt beginnen kann wird das Textfile zerteilt in seine einzelnen Zeilen. Es entstehen also 3 Datensätze aus jeweils 3 Wörtern, wobei der erste zum Beispiel Sea Tree Knee ist. Für jeden dieser einzelnen Zeilen wird nun ein Map-Prozess aufgerufen und dabei zu jedem vorhandenen Wort ein Tupel mit dem Wert der jeweiligen Anzahl erstellt. Für die erste Zeile sind das folgende Tupel: <Sea, 1> <Knee, 1> <Tree, 1> Jeder der anderen Mapping-Prozesse liefert genauso eigene Tupel der vorhanden Wörter. Die Datensätze, die beim Mapping entstehen, werden nun an die Reduce-Prozesse weitergegeben. Ein Tupel wird hierbei genau an den Reducer weitergegeben, welcher für den jeweiligen Key (in diesem Beispiel das jeweilige Wort) zuständig ist. Die Aufgabe im Reduce-Teil des Algorithmus ist es nun alle Tupel eines Keys bzw. Wortes zu einem zusammen zu fassen und die zugehörigen Werte bzw. Anzahlen zu addieren. Der Reducer des Wortes Tree würde in diesem Beispiel vom ersten Mapper den Tupel <Tree, 1>, vom zweiten den Tupel <Tree, 1> und vom letzten den Tupel <Tree, 3> übergeben bekommen und fasst diese zu einem Tupel für den Schlüssel Tree zusammen mit der addierten Anzahl von 5. (Vergleiche Abb. 4) Um dem Benutzer ein Endergebnis zu liefern werden nun die Tupel der Reducer wieder zu einem einzelnen Datensatz zusammengefügt und in der Anwenderschicht präsentiert. <Sea, 2> <Knee, 2> <Tree, 5> V. HADOOP Hadoop ist Apache s Open-Source Lösung für Big Data- Aufgaben aufbauend auf dem MapReduce-Algorithmus. Hierbei werden sowohl Daten als auch die MapReduce-Logik auf einem Server-Netzwerk (Cluster) zur Bearbeitung verteilt (vergleiche hierzu Kapitel V, B). Hadoop bietet allerdings mehr als nur MapReduce, es umfasst eine gesamte Suite and Funktionen und Komponenten wie Programmiersprachen. Prestigeträchtige Nutzer dieser Suite umfassen Facebook (weltweit größter Hadoop-Cluster mit mehr als 21 Petabytes), IBM und Yahoo. Die in Hadoop verwendete Strategie heisst Schema beim Lesen. Hierbei werden Daten erst dann interpretiert, wenn sie gelesen werden, nicht bereits beim Schreiben der Daten. Die Struktur der zu lesenden Daten ist also irrelevant. Im Folgenden wird genauer auf einige mögliche Komponenten der Hadoop-Suite eingegangen. [4] A. Komponenten Die Haupbestandteile von Hadoop sind der MapReduce- Algorithmus, auf dem das gesamte System aufbaut, und HDFS (Hadoop Distributed Filesystem), das Dateisystem auf dem Cluster. Ein MapReduce-Auftrag wird in Hadoop immer in

4 Java geschrieben, der Programmierer muss hierbei nur die jeweils nötigen Map- und Reduce-Funktionen schreiben. Komponenten, die dieses Gerüst ergänzen werden im Folgenden erklärt. Hive: Hive bietet die Bedienung der Hadoop-Suite für Nutzer mit Vorkenntnissen in SQL an. Hive verwendet hierbei eine Sprache, die SQL sehr ähnlich ist: die Hive Query Language (HQL). Aber da HQL sehr auf SQL basiert, ist die Sprache in ihrer Funktionsweise wie die Vorlage beschränkt. HIVE Befehle werden in MapReduce-Aufträge umgewandelt und auf dem Cluster ausgeführt. Pig/PigLatin: PigLatin ist eine von Yahoo entwickelte Programmiersprache, deren Spezialität darin liegt sich mit jeder Art von eingegebenen Daten zu verstehen (engl. pig: ein Schwein als Allesfresser) und diese zu transformieren. PigLatin kann als das Hadoop Gegenstück zu einer ETL-Logik verstanden werden: PigLatin extrahiert hierzu Daten aus dem HDFS um daraufhin Transformationen, wie das Entfernen einzelner Reihen oder die Kombination zweier Datensätze, auszuführen, Anschließend werden die Daten geladen und beispielsweise dem Nutzer ausgegeben. Pig ist die dazugehörige Laufzeitumgebung für PigLatin, ähnlich wie Java Virtual Machine s Verhältnis zu einer Java Applikation. [1] HBase: Ist eine non-relational Datenbank, basierend auf Google s BigTable. Damit liefert es eine fehlertolerante, skalierbare Möglichkeit sehr große strukturierte Datensätze auf einem Hadoop-Cluster zu bearbeiten. HBase unterstützt allerdings nicht die Datenbanksprache SQL also müssen auch hier alle Anfragen in Java geschrieben werden. Der Zugriff auf die Daten in einer HBase-Datenbank kann nah an Echtzeit erfolgen. Oozie: Oozie ist ein Workflow-Tool, das es dem Benutzer erlaubt einen Arbeitsablauf zu gestalten, der mit aus mehreren der oben genannten Komponenten besteht. Dem Benutzer wird ermöglicht Abläufe zu automatisieren, indem Abhängigkeiten bzw. Abfragen nach bestimmten Zuständen definiert werden. Der Workflow schreitet dann im gegebenen Fall automatisch voran. [1] All diese Komponenten werden von Anbietern wie dem Marktführer Cloudera zu einer vordefinierten Suite zusammengefasst, welche dann über ein simples Installationsprogramm auf dem Cluster und auf eventuell neu hinzugefügten Servern installiert werden kann. [4] B. HDFS HDFS steht für Hadoop Distributed Filesystem und ist das Dateisystem, das auf einem von Hadoop verwalteten Server- Cluster läuft. 1) Dateisystem: Die Grundfunktion von HDFS ist es, große Datenmengen auf einem großen Cluster zu verteilen. Hierzu werden die Daten in gleichgroße Blöcke aufgeteilt (die Größe der Blöcke ist veränderbar, der Standardwert ist 64 Megabyte) und doppelt kopiert (Vergleiche Abb. 5) auf den einzelnen Servern/Server-Racks verteilt. [4] Um bei dem Ausfallen von einzelnen Servern oder gar ganzen Racks dem Verlust von Daten und dem damit verbundenen Versagen des MapReduce-Prozesses vorzubeugen, werden die Abb. 5. Redundante Datenverteilung [1] einzelnen Datenblöcke redundant auf dem Cluster verteilt. Das bedeutet, dass sie auf einem Server gespeichert, auf einen weiteren, der sich auf einem anderen Rack befindet, kopiert und von dort auf einen weiteren Server dupliziert. [1] Da man bei gößeren Clustern damit mit dem Ausfall einzelner Server rechnen muss, garantiert eine derartige Verteilung der Datenblöcke selbst im Falle eines Hardwarefehlers die Integrität und Gesamtheit der Daten. 2) Struktur des Dateisystems: Die Art und Weise in welcher HDFS den Server-Cluster überspannt und MapReduce- Prozesse verwaltet wird in Abb. 6 veranschaulicht. Unter allen Servern gibt es 2 jeweils einzigartige Positionen (im Folgenden Knoten genannt), welche als Master die Integrität und Struktur der Sklaven-Knoten verwalten und überwachen. Diese Master-Knoten sind die NameNode und der JobTracker. Alle weiteren Server im Cluster, welche keine überwachende Rolle einnehmen, daher Sklaven-Knoten, besitzen jeweils 2 Teilsysteme: die DataNode, in welcher die auf diesem Server gespeicherten Datenblöcke zu finden sind und den TaskTracker, der die auf diesem Server auszuführende MapReduce-Logik und deren Status bzw. Fortschritt enthält. Die NameNode verwaltet Zeiger auf die einzelnen Datenblöcke und deren Kopien und allokiert freie Speicherplätze für eventuelle neue Daten. Der JobTracker ist der Knoten, der einen Auftrag auf einen TaskTracker verteilt, der nahe an den zu verarbeitenden Daten liegt. Die TaskTracker und der JobTracker stehen in konstanter Verbindung: TaskTracker senden in regelmäßigen Abständen ein Aktivitätssignal, um den JobTracker über ein mögliches Versagen zu informieren, damit dieser in gegebenem Fall den Auftrag an einen anderen Knoten weitergeben kann. [4] Die Art in welcher Aufträge im Cluster verteilt werden erfolgt nach so genannten Schedulern, diese werden im nächsten Abschnitt beschrieben. 3) Scheduling: Scheduling bzw. die Art der Verteilung der Daten und Prozesse auf dem Cluster erfolgte bei Release von Hadoop im First-In-First-Out-Verfahren (FIFO). Diese Metho-

5 Abb. 6. HDFS [4] Methoden. Der große Vorteil von Schema beim Schreiben über Schema beim Lesen ist die geringe Zeit beim Analysieren von strukturierten Datensätzen, da Daten in eine vorhersehbare Struktur gebracht wurden. Wohingegen Schema beim Lesen bei der Verarbeitung von kleineren Datensätzen zu aufwendig agiert. Hier ist der Schema beim Schreiben-Ansatz effektiver. Im direkten Vergleich der beiden Methoden wird deutlich, wo sie jeweils ihre Stärke haben: Schema beim Lesen eignet sich für große Datensätze unstrukturierter Daten und Big Data- Anwendungsfälle, wohingegen Schema beim Schreiben Analyseaufträge auf strukturierten, kleineren Datensätzen schnell und effizient bearbeiten kann. de ist leicht zu implementieren und arbeitet effizient, bietet darüber hinaus aber keine weiteren Vorteile wie Priorisierung von Aufgaben und Größeneinschätzung. In späteren Versionen der Software kamen zwei weitere Scheduling-Verfahren hinzu: der Fair- und der Kapazitäts-Scheduler. Faires Scheduling: Die Prämisse dieser Methode ist es, die Rechenkraft unter allen Aufträgen aufzuteilen, sodass jeder Auftrag im Durchschnitt gleich viel Rechenkraft benutzen kann. Hierzu werden alle Aufträge an den Cluster in Pools eingeteilt, wobei jeder Pool eine feste, für alle gleich große, zu verwendende Rechenkraft zugeschrieben bekommt. [3] Der Vorteil dieser Methode ist, dass selbst wenn ein Nutzer mehrere Aufträge stellt insgesamt genausoviel Rechenkraft wie jeder andere Nutzer zugeteilt bekommt. Kapazitäts-Scheduling: Diese Methode funktioniert nach dem gleichen Prinzip wie beim Fairen Scheduling. Allerdings werden hier Wartelisten anstatt Pools verwendet, in welchen, im Gegensatz zur FIFO-Methode, Prioritäten für einzelne Aufträge verwaltet und geändert werden können. Jeder Warteliste wird eine feste Rechenkapazität zugeschrieben und wenn dieses Pensum nach erfolgreichem Abschluss der Aufträge nicht ausgeschöpft wurde, wird diese an die anderen, noch vollen, Wartelisten weiterverteilt. C. Im Vergleich zur Schema beim Schreiben-Methode Schema beim Lesen trumpft bei der Analyse von unstrukturierten großen Datensätzen auf: Die Möglichkeit Daten zu analysieren, ohne diese vorher in eine vordefinierte Form zu transformieren, ermöglicht das Traversieren von Big Data- Aufgaben. Eine Aufgabe bei der Schema beim Schreiben zu langsam bzw. zu ineffizient ist. Ein weiterer Vorteil der Hadoop-Methode ist die Möglichkeit den Server-Cluster leicht skalieren zu können, also ohne Schwierigkeiten neue Server hinzufügen und integrieren bzw. entfernen zu können. Diese Funktion ist bei Schema beim Schreiben keine Mögichkeit: wenn hier weitere Daten benötigt werden, müssen alle Daten neu geladen werden (vergleiche Kapitel III, B). Diese Skalierbarkeit verbunden mit den immer weiter sinkenden Hardware-Kosten machen den Schema beim Lesen-Ansatz zu dem zukunftssicheren und kosteneffizienteren der beiden VI. FAZIT UND AUSBLICK IN DIE ZUKUNFT Im Folgenden werden die wichtigsten Punkte der Arbeit noch einmal zusammengefasst und ein Ausblick in die (nahe) Zukunft des Big Data-Themas gegeben. MapReduce: Ein Datenverarbeitungs Algorithmus nach dem Divide-and-Conquer-Prinzip, der Daten parallel analysiert (vegleichbar mit Multithreating in z.b. Java). Analyseaufträge bestehen aus den 2 Kernprozessen Map und Reduce, bei welchen Inputdaten in Tupel bestehend aus Schlüssel und zugehörigem Wert umgewandelt und später je nach Schlüssel zu wiederum kleineren Tupeln, die den Output des Prozesses bilden, zusammengefasst werden. Hadoop: Eine Open-Source Lösung der Firma Apache, die mehr als nur MapReduce bietet. Weitere Komponenten umfassen beispielsweise eigene Programmiersprachen und Interfaces, welche die Verarbeitung von strukturierten Daten ermöglichen können. Das verwendete Dateisystem HDFS (Hadoop Distributed Filesystem) teilt Daten in gleichgroße Teile und die MapReduce-Logik auf einem Server-Cluster bestehend aus DataNode und TaskTracker auf. Die Master-Knoten NameNode und JobTracker verwalten die Metainformation über Speicherung der Daten und Stabilität der Hardware. In naher Zukunft werden Datendurchsätze von Petabytes auf Exabytes und später auf Zettabytes, die zu überblickende Datenmenge vergrößernd, steigen und damit Hadoop s bzw. MapReduce s Funktionsspanne weiter ausreizen. Allerdings ist durch die Skalierbarkeit des MapReduce-Algorithmus und die einfache Erweiterung von Hadoop-Clustern eine große Zukunftssicherheit dieser Systeme gegeben. Auch in weit entfernter Zukunft wird die Analyse von Statistiken und Metadaten ein wichtiges Utensil der Unternehmensführung. Große und, aufgrund der sinkenden Kosten, in Zukunft auch kleinere, Unternehmen werden selbst Daten sammeln und sowohl zur Marktanalyse als auch zur Prognose von Marktsituationen bearbeiten. Diese Prognosen werden durch die weiter exponentiell steigende Datenmenge (vergleiche Kapitel II, B) mit immer höherer Wahrscheinlichkeit richtig liegen und damit den Markt für das Unternehmen berechenbar machen. Ein sicherer Vorteil gegenüber der Konkurrenz.

6 LITERATUR [1] P. Zikopoulos, C. Eaton, D. Deroos, T. Deutsch, G. Lapis, Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data, ebook, IBM, p. 3-80, [2] A. McAfee and E. Brynjolfsson, Big Data: The Management Revolution, Article, Harvard Business Review. p , Oktober [3] M. Tim Jones, Scheduling in Hadoop, Blogpost, available at os-hadoop-scheduling/, IBM, Dezember [4] A. Awadallah, Introducing Apache Hadoop: The Modern Data Operating System, Lecture, available at watch?v=d2xenpfzsyi, Stanford University, November [5] Xiaochong Zhang, Blogpost, available at xiaochongzhang.me/blog/?p=338, xiaochongzhang.me, Mai 2013

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Herzlich Willkommen bei Webinar@Lunchtime Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Xing-Profil:

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

1. Diigo.com. Pädagogische Hochschule Thurgau. Lehre Weiterbildung Forschung. 1.1. Anmeldung

1. Diigo.com. Pädagogische Hochschule Thurgau. Lehre Weiterbildung Forschung. 1.1. Anmeldung Pädagogische Hochschule Thurgau. Lehre Weiterbildung Forschung Prorektorat Forschung und Wissensmanagement Lars Nessensohn 1. Diigo.com Bewegt man sich im Internet, so arbeitet man früher oder später auch

Mehr

ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover

ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover Schlüsselworte Oracle Data Integrator ODI, Big Data, Hadoop, MapReduce,, HDFS, PIG,

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

Azure und die Cloud. Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat. Institut für Informatik Software & Systems Engineering

Azure und die Cloud. Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat. Institut für Informatik Software & Systems Engineering Azure und die Cloud Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat Institut für Informatik Software & Systems Engineering Agenda Was heißt Cloud? IaaS? PaaS? SaaS? Woraus besteht

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Big Data Anwendungen Chancen und Risiken

Big Data Anwendungen Chancen und Risiken Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem Fachbericht zum Thema: Anforderungen an ein Datenbanksystem von André Franken 1 Inhaltsverzeichnis 1 Inhaltsverzeichnis 1 2 Einführung 2 2.1 Gründe für den Einsatz von DB-Systemen 2 2.2 Definition: Datenbank

Mehr

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

1.1 Das Ziel: Basisdaten strukturiert darzustellen

1.1 Das Ziel: Basisdaten strukturiert darzustellen MS Excel 203 Kompakt PivotTabellen. Das Ziel: Basisdaten strukturiert darzustellen Jeden Tag erhalten wir umfangreiche Informationen. Aber trotzdem haben wir oft das Gefühl, Entscheidungen noch nicht treffen

Mehr

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Einführung in git. Ben Oswald. 27. April 2014. Im Rahmen der Vorlesung Entwicklung mobiler Anwendungen

Einführung in git. Ben Oswald. 27. April 2014. Im Rahmen der Vorlesung Entwicklung mobiler Anwendungen Einführung in git Im Rahmen der Vorlesung Entwicklung mobiler Anwendungen Ben Oswald 27. April 2014 Inhaltsverzeichnis 1 Einleitung 1 1.1 Was ist git?..................................... 1 1.2 Warum sollten

Mehr

7 SharePoint Online und Office Web Apps verwenden

7 SharePoint Online und Office Web Apps verwenden 7 SharePoint Online und Office Web Apps verwenden Wenn Sie in Ihrem Office 365-Paket auch die SharePoint-Dienste integriert haben, so können Sie auf die Standard-Teamsite, die automatisch eingerichtet

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Visualisierung der Eidolon Auswertung. VisEiA. Graphischer Client für das Emailspiel Eidolon

Visualisierung der Eidolon Auswertung. VisEiA. Graphischer Client für das Emailspiel Eidolon Visualisierung der Eidolon Auswertung VisEiA Graphischer Client für das Emailspiel Eidolon Entstanden im Ramen einer Seminararbeit in Informatik Universität Fribourg, Schweiz david.buchmann@gmx.net http://getit.at/viseia/

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

shopwin Kurzanleitung Leitfaden für einen Kassennotfall / Bedienung der Notfallkasse

shopwin Kurzanleitung Leitfaden für einen Kassennotfall / Bedienung der Notfallkasse Leitfaden für einen Kassennotfall / Bedienung der Notfallkasse www.easy-systems.de Inhaltsverzeichnis: 1 Ziel der Anleitung...2 2 Was ist ein Kassennotfall?...2 3 Was ist eine Notfallkasse?...2 4 Wie erkenne

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

So geht s Schritt-für-Schritt-Anleitung

So geht s Schritt-für-Schritt-Anleitung So geht s Schritt-für-Schritt-Anleitung Software WISO Mein Büro Thema Das Programm ist sehr langsam Version/Datum V 14.00.08.300 1. Einführung Mit wachsender Datenmenge und je nach Konfiguration, kann

Mehr

Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt

Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt Inhaltsverzeichnis Aufgabe... 1 Allgemein... 1 Active Directory... 1 Konfiguration... 2 Benutzer erstellen... 3 Eigenes Verzeichnis erstellen... 3 Benutzerkonto erstellen... 3 Profil einrichten... 5 Berechtigungen

Mehr

Preisaktualisierungen via BC Pro-Catalogue

Preisaktualisierungen via BC Pro-Catalogue Preisaktualisierungen via BC Pro-Catalogue 1. Allgemein Seite 1 2. Anwendungsfall : Lieferant mit im System bereits vorhandenen Katalog Seite 2-3 3. Anwendungsfall : Neuer Lieferant Seite 4-8 1. Allgemein

Mehr

1 Dein TI nspire CAS kann fast alles

1 Dein TI nspire CAS kann fast alles INHALT 1 Dein kann fast alles... 1 2 Erste Schritte... 1 2.1 Systemeinstellungen vornehmen... 1 2.2 Ein Problem... 1 3 Menü b... 3 4 Symbolisches Rechnen... 3 5 Physik... 4 6 Algebra... 5 7 Anbindung an

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Wir stellen Ihnen den Webspace und die Datenbank für den OPAC zur Verfügung und richten Ihnen Ihren webopac auf unserem Webserver ein.

Wir stellen Ihnen den Webspace und die Datenbank für den OPAC zur Verfügung und richten Ihnen Ihren webopac auf unserem Webserver ein. I Der webopac die Online-Recherche Suchen, shoppen und steigern im Internet... Vor diesem Trend brauchen auch Sie nicht halt machen! Bieten Sie Ihrer Leserschaft den Service einer Online-Recherche in Ihrem

Mehr

1 Die Active Directory

1 Die Active Directory 1 Die Active Directory Infrastruktur Prüfungsanforderungen von Microsoft: Configuring the Active Directory Infrastructure o Configure a forest or a domain o Configure trusts o Configure sites o Configure

Mehr

Datensicherung. Beschreibung der Datensicherung

Datensicherung. Beschreibung der Datensicherung Datensicherung Mit dem Datensicherungsprogramm können Sie Ihre persönlichen Daten problemlos Sichern. Es ist möglich eine komplette Datensicherung durchzuführen, aber auch nur die neuen und geänderten

Mehr

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank In den ersten beiden Abschnitten (rbanken1.pdf und rbanken2.pdf) haben wir uns mit am Ende mysql beschäftigt und kennengelernt, wie man

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Information-Design-Tool

Information-Design-Tool Zusatzkapitel Information-Design-Tool zum Buch»HR-Reporting mit SAP «von Richard Haßmann, Anja Marxsen, Sven-Olaf Möller, Victor Gabriel Saiz Castillo Galileo Press, Bonn 2013 ISBN 978-3-8362-1986-0 Bonn

Mehr

Erweiterung der CRM-Datenbank für den Umgang mit Excel-Mappen. Automatisches Ausfüllen von MS-Excel-Vorlagen mit Daten aus organice

Erweiterung der CRM-Datenbank für den Umgang mit Excel-Mappen. Automatisches Ausfüllen von MS-Excel-Vorlagen mit Daten aus organice organice-excel-add-in 1 Erweiterung der CRM-Datenbank für den Umgang mit Excel-Mappen. Automatisches Ausfüllen von MS-Excel-Vorlagen mit Daten aus organice (Ein stichwortartiger Entwurf ) Systemvoraussetzungen:

Mehr

2 Datei- und Druckdienste

2 Datei- und Druckdienste Datei- und Druckdienste 2 Datei- und Druckdienste Lernziele: Verteiltes Dateisystem (DFS) Dateiserver Ressourcen Manager (FSRM) Verschlüsseln Erweiterte Überwachung Prüfungsanforderungen von Microsoft:

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

Das ultimative Daten Management

Das ultimative Daten Management Das ultimative Daten Management Beschreibung des Programms Rafisa AG Seestrasse 78 CH 8703 Erlenbach-Zürich Ziel und Zweck Das Program: ist ein multi-funktionales Programm, welches dazu dient, für den

Mehr

Einführung. Kapitel 1 2 / 508

Einführung. Kapitel 1 2 / 508 Kapitel 1 Einführung 2 / 508 Einführung Was ist ein Datenbanksystem (DBS)? Ein System zum Speichern und Verwalten von Daten. Warum kein herkömmliches Dateisystem verwenden? Ausfallsicherheit und Skalierbarkeit

Mehr

XINDICE. The Apache XML Project 3.12.09. Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de

XINDICE. The Apache XML Project 3.12.09. Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de 3.12.09 HKInformationsverarbeitung Kurs: Datenbanken vs. MarkUp WS 09/10 Dozent: Prof. Dr. M. Thaller XINDICE The Apache XML Project Inhalt Native

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Access [basics] Gruppierungen in Abfragen. Beispieldatenbank. Abfragen gruppieren. Artikel pro Kategorie zählen

Access [basics] Gruppierungen in Abfragen. Beispieldatenbank. Abfragen gruppieren. Artikel pro Kategorie zählen Abfragen lassen sich längst nicht nur dazu benutzen, die gewünschten Felder oder Datensätze einer oder mehrerer Tabellen darzustellen. Sie können Daten auch nach bestimmten Kriterien zu Gruppen zusammenfassen

Mehr

4 Planung von Anwendungsund

4 Planung von Anwendungsund Einführung 4 Planung von Anwendungsund Datenbereitstellung Prüfungsanforderungen von Microsoft: Planning Application and Data Provisioning o Provision applications o Provision data Lernziele: Anwendungen

Mehr

Cloud-Computing - Überblick

Cloud-Computing - Überblick Cloud-Computing - Überblick alois.schuette@h-da.de Alois Schütte 24. November 2014 1 / 20 Inhaltsverzeichnis 1 Was ist Cloud-Computing Warum beschäftigt man sich mit Cloud Computing? 2 Aufbau der Veranstaltung

Mehr

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER Inhalt 1 Einleitung... 1 2 Einrichtung der Aufgabe für die automatische Sicherung... 2 2.1 Die Aufgabenplanung... 2 2.2 Der erste Testlauf... 9 3 Problembehebung...

Mehr

HDFS als schneller und günstiger Storage?

HDFS als schneller und günstiger Storage? HDFS als schneller und günstiger Storage? Das Hadoop Distributed File System (HDFS) verwaltet spielend riesige Datenmengen, lässt sich im laufenden Betrieb bequem skalieren und ist komfortabel zu administrieren.

Mehr

Warum auch Sie HootSuite nutzen sollten!

Warum auch Sie HootSuite nutzen sollten! Warum auch Sie HootSuite nutzen sollten! Quelle: www.rohinie.eu Warum Sie HootSuite nutzen sollten! Es gibt eine Reihe von kostenlosen und kostenpflichtigen Social-Media-Management-Tools. Dazu gehören

Mehr

Nun klicken Sie im Hauptfenster der E-Mail-Vewaltung auf den Schriftzug Passwort. Befolgen Sie die entsprechenden Hinweise: 3.

Nun klicken Sie im Hauptfenster der E-Mail-Vewaltung auf den Schriftzug Passwort. Befolgen Sie die entsprechenden Hinweise: 3. Ihre schulische E-Mail-Adresse lautet: Ihr Erstpasswort lautet: @bbs-duew.de Sie können ihre E-Mails entweder über einen normalen Web-Browser (Internet Explorer, Firefox) oder über ein E-Mail-Client-Programm

Mehr

Zuschauer beim Berlin-Marathon

Zuschauer beim Berlin-Marathon Zuschauer beim Berlin-Marathon Stefan Hougardy, Stefan Kirchner und Mariano Zelke Jedes Computerprogramm, sei es ein Betriebssystem, eine Textverarbeitung oder ein Computerspiel, ist aus einer Vielzahl

Mehr

RÖK Typo3 Dokumentation

RÖK Typo3 Dokumentation 2012 RÖK Typo3 Dokumentation Redakteur Sparten Eine Hilfe für den Einstieg in Typo3. Innpuls Werbeagentur GmbH 01.01.2012 2 RÖK Typo3 Dokumentation Inhalt 1) Was ist Typo3... 3 2) Typo3 aufrufen und Anmelden...

Mehr

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER INHALTSVERZEICHNIS 1. Datenbanken 2. SQL 1.1 Sinn und Zweck 1.2 Definition 1.3 Modelle 1.4 Relationales Datenbankmodell 2.1 Definition 2.2 Befehle 3.

Mehr

Berechtigungsgruppen und Zeitzonen

Berechtigungsgruppen und Zeitzonen Berechtigungsgruppen und Zeitzonen Übersicht Berechtigungsgruppen sind ein Kernelement von Net2. Jede Gruppe definiert die Beziehung zwischen den Türen des Systems und den Zeiten, zu denen Benutzer durch

Mehr

OPERATIONEN AUF EINER DATENBANK

OPERATIONEN AUF EINER DATENBANK Einführung 1 OPERATIONEN AUF EINER DATENBANK Ein Benutzer stellt eine Anfrage: Die Benutzer einer Datenbank können meist sowohl interaktiv als auch über Anwendungen Anfragen an eine Datenbank stellen:

Mehr

3 Windows als Storage-Zentrale

3 Windows als Storage-Zentrale 3 Windows als Storage-Zentrale Windows als zentrale Datenspeichereinheit punktet gegenüber anderen Lösungen vor allem bei der Integration in vorhandene Unternehmensnetze sowie bei der Administration. Dabei

Mehr

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zettabyte CeBIT 2011 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zetabyte: analytische Datenbanken Die Datenflut. Analytische Datenbanken: Was ist neu? Analytische Datenbanken:

Mehr

Bibliographix installieren

Bibliographix installieren Bibliographix installieren Version 10.8.3 Inhalt Inhalt... 1 Systemvoraussetzungen... 1 Download... 2 Installation der Software... 2 Installation unter Windows... 2 Installation unter Mac OS X... 3 Installation

Mehr

1. Einleitung. 1 1Exabyte=10 18 Bytes = Bytes

1. Einleitung. 1 1Exabyte=10 18 Bytes = Bytes 1. Einleitung Das aktuelle Jahrzehnt wird als Zeitalter der Daten bezeichnet [Whi09, S. 1]. Die Menge der weltweit existierenden Daten ist in den letzten Jahren stark angewachsen. Eine Studie des amerikanischen

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Durchführung der Datenübernahme nach Reisekosten 2011

Durchführung der Datenübernahme nach Reisekosten 2011 Durchführung der Datenübernahme nach Reisekosten 2011 1. Starten Sie QuickSteuer Deluxe 2010. Rufen Sie anschließend über den Menüpunkt /Extras/Reisekosten Rechner den QuickSteuer Deluxe 2010 Reisekosten-Rechner,

Mehr

Stundenerfassung Version 1.8 Anleitung Arbeiten mit Replikaten

Stundenerfassung Version 1.8 Anleitung Arbeiten mit Replikaten Stundenerfassung Version 1.8 Anleitung Arbeiten mit Replikaten 2008 netcadservice GmbH netcadservice GmbH Augustinerstraße 3 D-83395 Freilassing Dieses Programm ist urheberrechtlich geschützt. Eine Weitergabe

Mehr

BIG DATA HYPE ODER CHANCE

BIG DATA HYPE ODER CHANCE BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu

Mehr

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching 1.1 Caching von Webanwendungen In den vergangenen Jahren hat sich das Webumfeld sehr verändert. Nicht nur eine zunehmend größere Zahl an Benutzern sondern auch die Anforderungen in Bezug auf dynamischere

Mehr

NetStream Helpdesk-Online. Verwalten und erstellen Sie Ihre eigenen Tickets

NetStream Helpdesk-Online. Verwalten und erstellen Sie Ihre eigenen Tickets Verwalten und erstellen Sie Ihre eigenen Tickets NetStream GmbH 2014 Was ist NetStream Helpdesk-Online? NetStream Helpdesk-Online ist ein professionelles Support-Tool, mit dem Sie alle Ihre Support-Anfragen

Mehr

OTRS::ITSM Service Management Software fü r die TU BAF

OTRS::ITSM Service Management Software fü r die TU BAF OTRS::ITSM Service Management Software fü r die TU BAF Nutzerdokumentation Ersteller: Version: 1.000 Konrad Uhlmann Universitätsrechenzentrum +49 373139 4784 Version Datum Name Details 0.001 25.03.2012

Mehr

Computerpflege. Windows XP Update (Arbeitssicherheit) Dieses Programm öffnet die Internetseite von Windows. Starten Sie die [Schnellsuche].

Computerpflege. Windows XP Update (Arbeitssicherheit) Dieses Programm öffnet die Internetseite von Windows. Starten Sie die [Schnellsuche]. Computerpflege Neben dem Virus Schutz ist es sehr wichtig den PC regelmässig zu Pflegen. Es sammeln sich täglich verschiedene Dateien an die nicht wirklich gebraucht werden und bedenkenlos gelöscht werden

Mehr

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?

Mehr

Erste Schritte mit der neuen Benutzeroberfläche in Brainloop Secure Dataroom 8.20

Erste Schritte mit der neuen Benutzeroberfläche in Brainloop Secure Dataroom 8.20 Erste Schritte mit der neuen Benutzeroberfläche in Brainloop Secure Dataroom 8.20 Copyright Brainloop AG, 2004-2012. Alle Rechte vorbehalten. Dokumentversion: 1.0 Alle in diesem Dokument angeführten Marken

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Hilfe zur Dokumentenverwaltung

Hilfe zur Dokumentenverwaltung Hilfe zur Dokumentenverwaltung Die Dokumentenverwaltung von Coffee-CRM ist sehr mächtig und umfangreich, aber keine Angst die Bedienung ist kinderleicht. Im Gegensatz zur Foto Galeria können Dokumente

Mehr

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Schlüsselworte Hadoop, Hive, Sqoop, SQL Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Einleitung In diesem Vortrag werden, nach einer kurzen Einführung in Apache Hadoop, die beiden Werkzeuge

Mehr

Alle alltäglichen Aufgaben können auch über das Frontend durchgeführt werden, das in den anderen Anleitungen erläutert wird.

Alle alltäglichen Aufgaben können auch über das Frontend durchgeführt werden, das in den anderen Anleitungen erläutert wird. Der Admin-Bereich im Backend Achtung: Diese Anleitung gibt nur einen groben Überblick über die häufigsten Aufgaben im Backend-Bereich. Sollten Sie sich nicht sicher sein, was genau Sie gerade tun, dann

Mehr

Im Folgenden wird Ihnen an einem Beispiel erklärt, wie Sie Excel-Anlagen und Excel-Vorlagen erstellen können.

Im Folgenden wird Ihnen an einem Beispiel erklärt, wie Sie Excel-Anlagen und Excel-Vorlagen erstellen können. Excel-Schnittstelle Im Folgenden wird Ihnen an einem Beispiel erklärt, wie Sie Excel-Anlagen und Excel-Vorlagen erstellen können. Voraussetzung: Microsoft Office Excel ab Version 2000 Zum verwendeten Beispiel:

Mehr

Smart Connect ProductInfo 1

Smart Connect ProductInfo 1 Smart Connect ProductInfo DocuWare in Fremdanwendungen leicht integrieren Mit Smart Connect verbinden Sie beliebige Programme mit dem DocuWare-Dokumentenpool ohne Programmieraufwand. Auf Knopfdruck rufen

Mehr

!! Waldemar Reger Köln,

!! Waldemar Reger Köln, Analyse und Evaluierung von Parameterabhängigkeiten anhand der Laufzeit von MapReduce-Jobs zur Konzeptionierung von Hadoop-Clustern Waldemar Reger Köln, 23.07.2014 Agenda 1. Hadoop Grundlagen 2. Cluster

Mehr

Verschlüsseln von Dateien mit Hilfe einer TCOS-Smartcard per Truecrypt. T-Systems International GmbH. Version 1.0 Stand 29.06.11

Verschlüsseln von Dateien mit Hilfe einer TCOS-Smartcard per Truecrypt. T-Systems International GmbH. Version 1.0 Stand 29.06.11 Verschlüsseln von Dateien mit Hilfe einer TCOS-Smartcard per Truecrypt T-Systems International GmbH Version 1.0 Stand 29.06.11 Impressum Herausgeber T-Systems International GmbH Untere Industriestraße

Mehr

RAID Redundant Array of Independent [Inexpensive] Disks

RAID Redundant Array of Independent [Inexpensive] Disks RAID Redundant Array of Independent [Inexpensive] Disks Stefan Wexel Proseminar Algorithms and Data Structures im WS 2011/2012 Rheinisch-Westfälische Technische Hochschule Aachen Lehrstuhl für Informatik

Mehr

Handreichung: Verschlüsselte Versendung von Protokollen bei elektronischer Kommunikation mit Ehrenamtlichen

Handreichung: Verschlüsselte Versendung von Protokollen bei elektronischer Kommunikation mit Ehrenamtlichen Der Beauftragte für den Datenschutz der Evangelischen Kirche in Deutschland Handreichung: Verschlüsselte Versendung von Protokollen bei elektronischer Kommunikation mit Ehrenamtlichen Metadaten: Version:

Mehr

Die Dateiablage Der Weg zur Dateiablage

Die Dateiablage Der Weg zur Dateiablage Die Dateiablage In Ihrem Privatbereich haben Sie die Möglichkeit, Dateien verschiedener Formate abzulegen, zu sortieren, zu archivieren und in andere Dateiablagen der Plattform zu kopieren. In den Gruppen

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

Virtual Roundtable: Business Intelligence - Trends

Virtual Roundtable: Business Intelligence - Trends Virtueller Roundtable Aktuelle Trends im Business Intelligence in Kooperation mit BARC und dem Institut für Business Intelligence (IBI) Teilnehmer: Prof. Dr. Rainer Bischoff Organisation: Fachbereich Wirtschaftsinformatik,

Mehr

NEWSLETTER // AUGUST 2015

NEWSLETTER // AUGUST 2015 NEWSLETTER // AUGUST 2015 Kürzlich ist eine neue Version von SoftwareCentral erschienen, die neue Version enthält eine Reihe von Verbesserungen und neuen Funktionen die das Arbeiten mit SCCM noch einfacher

Mehr

Whitepaper. Produkt: combit Relationship Manager. Einrichtung für Remotedesktopdienste (Windows Server 2008 R2)

Whitepaper. Produkt: combit Relationship Manager. Einrichtung für Remotedesktopdienste (Windows Server 2008 R2) combit GmbH Untere Laube 30 78462 Konstanz Whitepaper Produkt: combit Relationship Manager Einrichtung für Remotedesktopdienste (Windows Server 2008 R2) Einrichtung für Remotedesktopdienste (Windows Server

Mehr

COMPUTERIA VOM 28.5.14 BILDVERWALTUNG MIT PICASA

COMPUTERIA VOM 28.5.14 BILDVERWALTUNG MIT PICASA COMPUTERIA VOM 28.5.14 BILDVERWALTUNG MIT PICASA WAS VERSTEHT MAN UNTER BILDVERWALTUNG? Für jeden Besitzer einer digitalen Fotokamera sammeln sich mit der Zeit viele Bilddateien auf dem Computer an. Dabei

Mehr

Thema: Microsoft Project online Welche Version benötigen Sie?

Thema: Microsoft Project online Welche Version benötigen Sie? Seit einiger Zeit gibt es die Produkte Microsoft Project online, Project Pro für Office 365 und Project online mit Project Pro für Office 365. Nach meinem Empfinden sind die Angebote nicht ganz eindeutig

Mehr

Hochschule Darmstadt - Fachbereich Informatik - Fachschaft des Fachbereiches

Hochschule Darmstadt - Fachbereich Informatik - Fachschaft des Fachbereiches Hochschule Darmstadt - Fachbereich Informatik - Fachschaft des Fachbereiches Verwendung der bereitgestellten Virtuellen Maschinen»Einrichten einer Virtuellen Maschine mittels VirtualBox sowie Zugriff auf

Mehr

BIG UNIVERSITÄTSRECHENZENTRUM

BIG UNIVERSITÄTSRECHENZENTRUM UNIVERSITÄTS RECHENZENTRUM LEIPZIG BIG DATA @ UNIVERSITÄTSRECHENZENTRUM Forschung und Entwicklung Entwicklung eines E-Science-Angebots für die Forschenden an der Universität Leipzig Stefan Kühne Axel Ngonga

Mehr

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen.

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. 1 In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. Zunächst stellt sich die Frage: Warum soll ich mich mit der Architektur eines DBMS beschäftigen?

Mehr

Beschreibung und Bedienungsanleitung. Inhaltsverzeichnis: Abbildungsverzeichnis: Werkzeug für verschlüsselte bpks. Dipl.-Ing.

Beschreibung und Bedienungsanleitung. Inhaltsverzeichnis: Abbildungsverzeichnis: Werkzeug für verschlüsselte bpks. Dipl.-Ing. www.egiz.gv.at E-Mail: post@egiz.gv.at Telefon: ++43 (316) 873 5514 Fax: ++43 (316) 873 5520 Inffeldgasse 16a / 8010 Graz / Austria Beschreibung und Bedienungsanleitung Werkzeug für verschlüsselte bpks

Mehr