1. Einleitung. 1 1Exabyte=10 18 Bytes = Bytes

Größe: px

Ab Seite anzeigen:

Download "1. Einleitung. 1 1Exabyte=10 18 Bytes = Bytes"

Karlheinz Beutel
vor 6 Jahren
Abrufe

1 1. Einleitung Das aktuelle Jahrzehnt wird als Zeitalter der Daten bezeichnet [Whi09, S. 1]. Die Menge der weltweit existierenden Daten ist in den letzten Jahren stark angewachsen. Eine Studie des amerikanischen Marktforschungsunternehmens IDC (International Data Corporation) prognostiziert, dass das Digitale Universum in der Zeit von 2005 bis 2020 von 130 Exabytes 1 auf Exabytes anwachsen wird [GR12]. Pro Kopf würden im Jahr 2020 somit ca Gigabyte Daten gespeichert. Diese Menge an Daten stellt eine große Herausforderung für Datenbankmanagementsysteme (DBMS) und Hardware dar. Um die wachsenden Datenmengen verwalten zu können, entstanden in den letzten Jahren neue, auf den Umgang mit großen Datenmengen spezialisierte, DBMS. Diese Systeme werden umgangssprachlich als Big-Data Systems bezeichnet. Sie brechen bewusst mit den Strukturen klassischer DBMS und verzichten auf Funktionen wie Transaktionsmanagement oder SQL als Abfragesprache. DBMS, welche auf SQL verzichten, werden als NoSQL-Datenbanken bezeichnet. Durch den Funktionsverzicht skalieren Big-Data Systems oft besser als traditionelle DBMS. Auch ist die ständige Integrität der Daten nicht oberstes Gebot. Um Skalierbarkeit und Verfügbarkeit zu bieten, werden meist die Dienste von mehreren physikalischen Systemen in Anspruch genommen. Es handelt sich somit um verteilte Systeme. Viele gängige NoSQL-Datenbanken stellen sich dem Anwender gegenüber als Key-Value-Store dar. Daten werden mit Hilfe eines Schlüssels (Key) identifiziert; als Werte (Value) können meist beliebige Daten abgelegt werden. Vorgefertigte Funktionen und Algorithmen um Daten auszuwerten, existieren in der Regel nicht. Funktionen wie Selektionen oder Joins müssen wiederholt durch Programmierer realisiert werden. Das wiederholte Implementieren von Funktionen für die Datenauswertung macht die Arbeit mit Key-Value-Stores umständlich. Im Gegensatz zu Key-Value-Stores besitzen traditionelle DBMS (relationale DBMS) mit SQL eine mächtige Abfragesprache. Diese erlaubt die 1 1Exabyte=10 18 Bytes = Bytes J. K. Nidzwetzki, Entwicklung eines skalierbaren und verteilten Datenbanksystems, BestMasters, DOI / _1, Springer Fachmedien Wiesbaden 2016

2 2 1. Einleitung Auswertung eines Datenbestandes mittels vordefinierter Funktionen. Für den Anwender sind diese DBMS deutlich einfacher zu benutzen. In SQL muss er nur formulieren, wie ein Ergebnis aussehen soll. Wie dieses berechnet wird, bleibt verborgen. Nach einer anfänglichen Euphorie über die Einfachheit von Key-Value-Stores, kommt verstärkt der Wunsch auf, Funktionen für die Auswertung von Daten direkt vom DBMS bereitstellen zu lassen. So setzt die Firma Google Inc. für viele Neuentwicklungen wieder DBMS ein, welche sich mit einer Abfragesprache ansprechen lassen (wie z. B. Google F1 [SVS + 13]). Das wiederholte Implementieren von Funktionen für die Datenauswertung entfällt somit. Auch relationale DBMS können über mehrere Systeme verteilt werden. Aufgrund ihres Aufbaus ist Skalierbarkeit und ständige Verfügbarkeit nur schwer zu erreichen. Wünschenswert ist ein System, welches die Skalierbarkeit und Verfügbarkeit von NoSQL-Datenbanken mit den Möglichkeiten zur einfachen Datenauswertung von relationalen DBMS kombiniert Ziele dieser Arbeit Die vorliegende Arbeit behandelt drei Themen aus dem Bereich der Big- Data Systems: (i) Verarbeitung von Datenströmen, (ii) hochverfügbare und skalierbare Datenhaltung und (iii) verteilte Abfrageauswertung. Das Zusammenspiel dieser drei Komponenten ist in Abbildung 1.1 aufgezeigt. Datenstrom Loadbalancer Secondo 1-1 Secondo 1-2 E A B Secondo 2-1 Secondo 2-2 Secondo 1-N D C Secondo 2-N Teil 1: Verarbeitung von Datenströmen Cassandra Teil 2: Hochverfügbare und skalierbare Datenhaltung Teil 3: Verteilte Abfrageauswertung Abbildung 1.1.: Zusammenspiel der in dieser Arbeit behandelten Komponenten.

3 1.2. Aufbau dieser Arbeit 3 Der erste Teil der Arbeit geht der Frage nach, wie sich große Datenströme verarbeiten lassen. Ein besonderes Augenmerk liegt hierbei auf der Verteilung von Datenströmen über mehrere Systeme mit Hilfe eines Loadbalancers. Jedes System muss durch die Aufteilung des Datenstroms nur einen Teil der gesamten Daten verarbeiten. Der Loadbalancer besitzt verschiedene Strategien, einen Datenstrom zu verteilen und mit Ausfällen von Systemen umzugehen. Das an der FernUniversität in Hagen entwickelte DBMS Secondo wurde um die Möglichkeit erweitert, Datenströme von einem Netzwerksocket zu lesen und in einen Tupelstrom umzuwandeln. Hierzu wurde der bereits vorhandene Operator csvimport angepasst. Im zweiten Teil der Arbeit wird beschrieben, wie sich eine relationale Datenbank und eine NoSQL-Datenbank zu einem Datenbank-Hybriden kombinieren lassen. Ziel hierbei ist es, die Skalierbarkeit und die Hochverfügbarkeit einer NoSQL-Datenbank auf die relationale Datenbank zu übertragen und weiterhin die mächtigen Operatoren der relationalen Datenbank nutzen zu können. Die NoSQL-Datenbank übernimmt dabei die Speicherung der Daten; die relationale Datenbank ist für die Auswertung der Daten zuständig. Als NoSQL- Datenbank wird Apache Cassandra eingesetzt. Secondo nimmt die Rolle der relationalen Datenbank ein. Zur Kopplung von Secondo mit Apache Cassandra wurde eine Algebra entwickelt. Diese Algebra stellt Operatoren wie cspread, ccollect, clist und cdelete für den Datenaustausch mit Cassandra bereit. Der dritte Teil der Arbeit untersucht, wie sich eine verteilte und robuste Abfrageauswertung mit dem Datenbank-Hybriden realisieren lässt. Hierzu wurde ein System mit dem Namen Distributed Secondo entwickelt. Dieses erlaubt es, Datenbankabfragen über mehrere Systeme hinweg zu verteilen und die Ausführung zu überwachen. Zudem besitzt Distributed Secondo die Fähigkeit, mit dem Ausfall von Systemen umzugehen Aufbau dieser Arbeit Diese Arbeit ist in acht Kapitel gegliedert. Im folgenden Kapitel werden die Grundlagen von verteilten DBMS und deren Technologien beschrie-

4 4 1. Einleitung ben. In Kapitel drei wird die Verarbeitung von Datenströmen behandelt. In den Kapiteln vier bis sieben wird das entwickelte System zur Kopplung von Secondo mit Apache Cassandra vorgestellt und experimentell untersucht. Das letzte Kapitel enthält eine Zusammenfassung sowie einen Ausblick auf mögliche Erweiterungen dieser Arbeit. Abgeschlossen wird die Arbeit durch einen Anhang, in welchem neben Quellcode und Mitschriften von Experimenten auch eine Einführung in Cassandra enthalten ist. Kapitel 2: Dieses Kapitel gibt eine Übersicht über die Funktionsweise verteilter DBMS. Ebenso werden Technologien wie Map-Reduce, Parallel Secondo und Systeme zur Stromverarbeitung vorgestellt. Zudem werden in diesem Kapitel Begriffe wie Scaleup und Speedup definiert und erläutert. Kapitel 3: Welche Möglichkeiten die im Rahmen dieser Arbeit entwickelten Komponenten bereitstellen, um Tupelströme zu verteilen und zu verarbeiten, wird in diesem Kapitel vorgestellt. Dabei wird auf einen Loadbalancer, einen Lastgenerator sowie den Operator csvimport eingegangen. Kapitel 4: In diesem Kapitel wird eine Algebra vorgestellt, welche Secondo um die Möglichkeiten erweitert, mit Cassandra zu interagieren. Zudem werden in diesem Kapitel einige Konzepte der Implementation dieser Algebra beschrieben. Auch wird auf zwei Hilfsoperatoren (delay und statistics) eingegangen. Diese Operatoren werden für die in Kapitel 7 durchgeführten Experimente benötigt. Kapitel 5: Die verteilte Auswertung von Abfragen wird in diesem Kapitel behandelt. Es wird zunächst an einem einfachen Beispiel gezeigt, wie Abfragen parallel verarbeitet werden können und welche Probleme dabei gelöst werden müssen. Anschließend wird der Aufbau von Distributed Secondo vorgestellt und es wird beschrieben, wie die ermittelten Probleme von diesem System gelöst werden. Kapitel 6: Dieser Abschnitt stellt exemplarisch drei Anwendungsmöglichkeiten für die entwickelten Komponenten vor. Es wird darauf eingegangen, wie sich Datenströme verschiedener Anwendungsfälle aufzeichnen und durch Distributed Secondo auswerten lassen. Zudem wird der Algorithmus»Partition based spatial merge join«parallelisiert.

5 1.2. Aufbau dieser Arbeit 5 Kapitel 7: In diesem Kapitel sind verschiedene Experimente beschrieben, welche die Leistungsfähigkeit der entwickelten Komponenten untersuchen. Es wurden zudem Experimente durchgeführt, um das Verhalten von Cassandra und der verwendeten Hardware zu untersuchen. Auch ein experimenteller Vergleich mit Parallel Secondo ist in diesem Kapitel enthalten. Kapitel 8: Das letzte Kapitel beinhaltet eine Zusammenfassung der Arbeit. Zudem wird ein Ausblick auf mögliche Erweiterungen und Verbesserungen gegeben. Anhang: Im Anhang finden sich Quellcodes sowie Scripte zu den vorgestellten Programmen. Hinzu kommen Mitschriften von Experimenten sowie Anleitungen die vorgestellte Software zu installieren. Zudem findet sich im Abschnitt F eine Seminararbeit, welche die Grundlagen der Software Apache Cassandra vorstellt. Auf den letzten Seiten der Arbeit befinden sich das Listing- und das Literaturverzeichnis. Hinweis: Sollten dem Leser die Grundlagen von Cassandra nicht geläufig sein, so wird empfohlen, die in Abschnitt F enthaltene Seminararbeit vor dem Lesen von Abschnitt 2.7 durchzusehen. Ab Abschnitt 2.7 werden einige der dort beschriebenen Konzepte als bekannt vorausgesetzt.

Ähnliche Dokumente

ISBN: 978-3-8428-0679-5 Herstellung: Diplomica Verlag GmbH, Hamburg, 2011

ISBN: 978-3-8428-0679-5 Herstellung: Diplomica Verlag GmbH, Hamburg, 2011 Nils Petersohn Vergleich und Evaluation zwischen modernen und traditionellen Datenbankkonzepten unter den Gesichtspunkten Skalierung, Abfragemöglichkeit und Konsistenz Diplomica Verlag Nils Petersohn Vergleich