Dateisysteme und Datenverwaltung in der Cloud

Größe: px
Ab Seite anzeigen:

Download "Dateisysteme und Datenverwaltung in der Cloud"

Transkript

1 1 Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Zusammenfassung Das Thema Big Data und, damit eng verbunden, verteilte Datenbanken gewinnen zunehmend an Bedeutung. Es entstehen immer mehr Cloud- Dienste für verschiedene Zwecke, die auf unterschiedlichen Cloud-Architekturen aufbauen. Diese Clouds müssen intern riesige Datenmengen speichern und bieten oft Datenspeicherdienste an. In dieser Ausarbeitung werden sowohl die hierfür verwendeten verteilten Datenbanken und verteilten Dateisysteme, als auch ihre Verwendung in den wichtigsten Cloud-Architekturen untersucht. Schließlich wird OpenStack als ein Beispiel einer Cloud-Architektur mit seinen Dateisystemen und seiner Datenverwaltung näher betrachtet. Index Terms BigData, NoSQL, verteilte Dateisysteme, OpenStack. I. Einleitung: Big Data Seit einiger Zeit lässt sich eine Veränderung in dem Bereich der Gewinnung und Speicherung von Daten beobachten. Das Thema Big Data gewinnt an Bedeutung. Hierbei entwickelt sich eine neue Generation der Datenverarbeitung. Diese Entwicklung und ihre Konsequenzen nachzuvollziehen ist essentiell für das Verständnis der Datenverwaltung in der Cloud. Big Data wird vom Gartner IT Glossar folgendermaßen definiert: Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making [3]. Die Wissenschaftlichen Dienste des Bundestages definieren Big Data als ein Bündel neu entwickelter Methoden und Technologien, die die Erfassung, Speicherung und Analyse eines großen und beliebig erweiterbaren Volumens unterschiedlich strukturierter Daten ermöglicht [4]. Diese Definition wird auch in der Wikipedia verwendet [5]. A. Situation Das Internet entwickelt sich seit Jahren weiter und wird größer. Gleichzeitig steigt auch die Anzahl der Nutzer kontinuierlich an. Während sich die Nutzer durch das Internet bewegen, Käufe abwickeln, in Foren oder sozialen Netzwerken Einträge verfassen oder sich durch Blogs und Nachrichtenseiten klicken, entstehen Daten. Jeder Mensch hinterlässt im digitalen Zeitalter Unmengen von Daten an verschiedenen Orten. Während diese Daten aus verschiedenen Gründen jahrelang ungenutzt geblieben sind, wächst nun das Interesse, vor allem bei mittelgroßen bis großen Firmen, diese Daten zu verwerten und einen wirtschaftlichen Nutzen aus ihnen zu ziehen. Informationen, die gewonnen werden sollen, sind zum Beispiel das Verhalten von Benutzern auf Websites, oder wofür sich Kunden, die ein bestimmtes Produkt angesehen haben, außerdem noch interessieren. Damit eine solche Verwertung dieser Daten allerdings gelingen kann, müssen zunächst mehrere Hindernisse ausgeräumt werden. Viele Jahre lang wurden vor allem relationale Datenbankmanagementsysteme (RDBMS) zur Speicherung von Daten eingesetzt. In diesen Datenbanken sind die Daten sehr stark strukturiert abgelegt. Diese Struktur der Daten muss dabei vor der Speicherung bekannt sein. Bei den neu anfallenden Daten stoßen diese klassischen Datenbanksysteme nun an ihre Grenzen. Die neuen Daten haben verschiedene Eigenarten, welche sie meist inkompatibel mit relationalen Datenbanken machen. [1] Die Eigenarten dieser Daten können in drei Kategorien eingeordnet werden. Dabei können sowohl Daten auftreten, die eine der Kategorien erfüllen, als auch Daten, welche beliebige Kombinationen dieser widerspiegeln. Die drei Kategorien von Big Data sind [1]: 1) Große Daten: Ein einzelner Datensatz benötigt sehr viel Speicherplatz. Dies kann zum Beispiel ein Video sein. 2) Viele Daten: Eine extrem große Menge an Datensätzen, wie zum Beispiel eine Historie der angesehenen Produkte in einem Online-Shop. Dies können auch die in der Definition des Gartner IT Glossars [3] erwähnten Hochgeschwindigkeitsdaten sein, wie zum Beispiel kontinuierlich anfallende Sensorwerte. 3) Große Variation: Daten, die keine einheitliche Struktur besitzen, sondern beliebig variabel sein können. Ein Beispiel wären Kommentare von Benutzern zu einem Nachrichten-Artikel. Aufgrund dieser Eigenschaften konnten manche Daten bisher nicht ausgewertet werden. Die hierfür nötigen Berechnungen würden entweder zu viel Zeit in Anspruch nehmen oder wären aufgrund der Variation der Daten zu komplex. Andere, kontinuierlich anfallende Daten konnten nicht einmal gespeichert werden, da dies die Kapazitäten einzelner Server überschritten hätte. B. Lösung Während diese Probleme noch vor kurzem unüberwindlich schienen, haben inzwischen neue Entwicklungen stattgefunden, welche den Umgang mit Big Data ermöglichen. Da sich die Netzwerkgeschwindigkeit und der Datendurchsatz im Internet verbessert haben, wurde eine schnellere und umfangreichere Kommunikation von lose gekoppelten

2 2 Systemen ermöglicht. Anstatt einzelner Server ist es attraktiver geworden, einen Verbund von vielen Server-Knoten zu nutzen. Hierdurch wurden Entwicklungen in der Virtualisierung voran getrieben, die es ermöglichen, solche Server-Verbünde von außen als ein System darzustellen. Dies ist eine der Basistechnologien für Clouds. [1] Gleichzeitig entwickelte sich auch der Bereich der Datenspeicherung weiter. Hier wurden verschiedene Lösungen für die unhandlichen Daten erarbeitet. Für große Daten und große Mengen von Daten wurden verteilte Datenbanken und Dateisysteme entwickelt. Für Daten mit großer Variation entstanden verschiedene NoSQL-Datenbanksysteme, die im folgendem Kapitel betrachtet werden. Diese geben weniger Struktur vor als die klassischen relationalen Datenbanken. Um diese großen Datenmengen schließlich auch in annehmbarer Zeit verarbeiten zu können, entwickelte Google den Divide-and-Conquer Algorithmus MapReduce. Dieser Algorithmus ermöglicht die verteilte Verarbeitung von großen Datenmengen auf mehreren Rechnern. Verbindet man nun die technologischen Fortschritte in diesen drei Bereichen, so erhält man sowohl für Big Data geeignete Datenbanken, als auch Algorithmen zur leistungsstarken Verarbeitung dieser. Beide sind dafür konzipiert, in den verbesserten Rechner-Verbünden und Clouds zu arbeiten. Ein interessanter Aspekt ist, dass die Clouds zwar zum einen eine der Grundlagen für den heutigen Umgang mit Big Data bilden. Ohne diese wäre die Verarbeitung und Speicherung vieler Daten nicht praktikabel. Zum anderen basiert gleichzeitig auch die Daten- und Dateiverwaltung in den meisten Clouds auf den speziellen Datenbanken und Dateisystemen, die für Big Data entwickelt wurden. Dies wird im nächsten Kapitel beschrieben. Auf diese Weise sind die Themen Big Data und Cloud-Computing sehr eng miteinander verbunden. II. Verteilte Datenbanken Für das Speichern und die Verwaltung von großen Daten, großen Mengen an Daten oder Daten mit großen Variationen, sind die klassischen, relationalen Datenbanken meistens ungeeignet. Anstelle dieser werden oft spezielle verteilte Datenbanken eingesetzt, die unter dem Stichwort NoSQL zusammengefasst werden können. Diese speziellen Datenbanken haben unterschiedliche Eigenschaften, die im folgenden näher betrachtet werden. Sie sind somit für verschiedene Arten von Daten optimiert. Während manche Cloud-Architekturen intern auf eine einzige dieser Datenbanken beschränkt sind, nutzen andere eine Kombination aus mehreren, um die verschiedenen Stärken dieser Datenbanken zu nutzen. In diesem Kapitel soll ein Überblick über die Kategorien dieser Datenbanken, sowie ihre wichtigsten Vertreter gegeben werden. A. RDBMS Viele Clouds benutzen intern das klassische relationale Datenbankmanagementsystem MySQL. Diese ist eine Open-Source Software und eines der am weitesten verbreiteten RDBMS. MySQL ist allerdings keine verteilte Datenbank und benötigt als relationale Datenbank ein genaues Vorwissen über die Struktur der zu speichernden Daten. Vorteile von relationalen Datenbanken sind allerdings die standardisierte Abfragesprache SQL und die gute Transaktionsfähigkeit nach dem ACID Prinzip. Relationale Datenbanken sind nach wie vor für die Speicherung von stark strukturierten Daten, für die eine hohe Anfrage-Flexibilität benötigt wird, sehr gut geeignet. [6] B. NoSQL Unter dem Begriff NoSQL (Not only SQL) werden verschiedene Datenbank-Architekturen zusammengefasst, die nicht auf dem klassischen relationalen Datenbankmodell aufbauen. NoSQL-Datenbanken skalieren sehr gut, indem sie die Möglichkeit bieten, verteilt zu arbeiten. Dabei werden sowohl die Daten auf mehrere Rechnerknoten aufgeteilt, als auch die nötige Rechenlast bei Abfragen auf mehrere Rechnerknoten verteilt. Die NoSQL Datenbanken lassen sich in 4 Kategorien einteilen, die nachfolgend kurz betrachtet werden. Für eine detailliertere Beschreibung von NoSQL Datenbanken sei auf die ITM-Seminar Ausarbeitung NoSQL [6] verwiesen. 1) Key-Value-Store: Die einfachste Art der NoSQL Datenbanken speichert jeweils zu einem Schlüssel (Key) einen beliebigen Wert (Value) ab. Diese Art der Datenspeicherung ist sehr performant. Durch die beliebigen Werte können Daten mit großen Variationen auf einfache Weise gespeichert werden. Allerdings haben diese Datenbanken meist kein Wissen über die Inhalte der Werte, sodass sie in diesen Fällen für komplexe Abfragen nicht besonders gut geeignet sind. Wichtige Vertreter sind Amazon Dynamo, Riak und Apache Cassandra. 2) Dokumentenorientierte Datenbanken: Die dokumentenorientierten Datenbanken basieren auf dem gleichen Prinzip, wie die Key-Value-Stores. Zu einem Schlüssel wird nun allerdings eine dokumentenartige Struktur im JSON-Format (JavaScript Object Notation) gespeichert. Durch diese Struktur bekommt die Datenbank etwas Vorwissen über die gespeicherten Inhalte. Dies kann genutzt werden, um komplexere Abfragen zu ermöglichen. Gleichzeitig bleibt durch das JSON-Format die Flexibilität bezüglich der Daten erhalten. Wichtige dokumentenorientierte Datenbanken sind CouchDB und MongoDB. 3) Spaltenorientierte Datenbanken: Eine weitere Art der NoSQL Datenbanken sind die spaltenorientierten Datenbanken. Diese sind aus dem Bereich der OLAP Anwendungen (Online Analytical Processing) entstanden, in welchem Abfragen oft nicht zeilenweise, sondern spaltenweise gestellt werden. Bei relationalen Datenbanksystemen sind solche Anfragen sehr aufwendig

3 3 zu bearbeiten, da hierfür sämtliche Zeilen der entsprechenden Tabelle betrachtet werden müssen. Bei spaltenorientierten Datenbanken werden die Tabellen allerdings spaltenweise persistiert, was effiziente Abfragen über mehrere Spalten ermöglicht. Wichtige Vertreter von spaltenorientierten Datenbanken sind Google BigTable und Apache HBase. 4) Graphendatenbanken: Die Kategorie der Graphendatenbanken ist die neueste Art von NoSQL Datenbanken. Bei diesen wird ein Graph mit Kanten und Knoten für die Repräsentation der Daten verwendet. Die Daten können als Key-Value Paare sowohl an Knoten, als auch an Kanten angehängt werden. Eine wichtige Graphendatenbank ist Neo4J. III. Verteilte Dateisysteme Die vorgestellten Kategorien von NoSQL-Datenbanken sind auf die Speicherung und Verwaltung von Big Data optimiert. Um diese riesigen Datenbanken persistent zu speichern, werden Dateisysteme benötigt, die in der Lage sind, mehrere Terabyte große Dateien zu speichern. Um dieser Anforderung zu begegnen, wurden verteilte Dateisysteme und Object-Storages entwickelt. Statt einer vertikalen Skalierung, bei dem die Speicherkapazität eines Rechners erhöht wird, wird bei diesen Systemen die horizontale Skalierung eingesetzt. Hierbei wird ein System erweitert, indem weitere Netzwerkknoten hinzugefügt werden. So kann ein solches System aus hunderten oder tausenden Rechnern bestehen. [7], [8] An verteilte Dateisysteme und Object-Storages werden einige besondere Anforderungen gestellt. Diese umfassen die Datenverfügbarkeit, die Dauerhaftigkeit und die schnelle Bereitstellung von angeforderten Daten, während hunderte Benutzer gleichzeitig auf Terabytes von Dateien zugreifen wollen, die auf tausenden Rechnern verteilt gespeichert sind. Zwischen manchen Anforderungen müssen Kompromisse eingegangen werden, da sie sich gegenseitig ausschließen. So bedingt beispielsweise eine starke Konsistenz der Daten in einem verteilten Dateisystem eine höhere Latenz und, im Fall einer Netzwerkpartitionierung oder eines Teilausfalls des Systems, eine schlechtere Datenverfügbarkeit. Möchte man anders herum betrachtet die Datenverfügbarkeit erhöhen, so werden meist die Daten redundant auf mehreren Servern gespeichert. Da diese replizierten Daten, auch bei konkurrierenden Änderungen, immer auf dem gleichen Stand gehalten werden müssen, hat dies wiederum Einfluss auf die Konsistenz. Aus diesen Gründen sprechen manche Systeme von eventuell konsistenter (eventually consistent) Speicherung. [1], [7] Die wichtigsten verteilten Dateisysteme sind das Google File System (Google FS) und das Hadoop Distributed File System (HDFS), welche in diesem Kapitel vorgestellt werden. Bei diesen beiden handelt es sich um Block-Storages. Außerdem wird der alternative Ansatz der Speicherung von Dateien in einem Object Storage, als Gegensatz zum Block Storage, vorgestellt. A. Google File System Das Google File System (GFS) wurde von Google entwickelt, um den vielen und großen anfallenden Datensätzen zu begegnen. Es wird manchmal auch Colossus genannt. Es basiert auf Linux und ist für schnelle Lesezugriffe und für Googles Websuche optimiert. Dafür werden die Daten in sehr großen Dateien speichert, die selten gelöscht oder überschrieben werden. Neue Daten werden stattdessen an die alten Dateien angehängt. Die Dateien werden in einem Cluster gespeichert, welches aus einem Master-Server und mehreren Chunk-Servern besteht. Zum Speichern werden die großen Dateien vom Master-Server in 64 MB große Chunks aufgeteilt und auf den Chunk-Servern abgelegt. Der Master-Server nimmt Anfragen entgegen, verwaltet die Chunk-Server und speichert Metadaten zu den Dateien. Um die Verfügbarkeit des Systems zu gewährleisten, existiert zusätzlich mindestens ein Shadow-Master, der die Arbeit des Master-Servers jederzeit übernehmen kann. Die Architektur des Google File System ist in Abbildung 1 dargestellt. [10] Abbildung 1. Aufbau des Google File System mit einem Master-Server und mehreren Chunk-Servern, welche wiederum die, in Chunks aufgeteilten, Dateien speichern. Quelle: [11] Jeder Chunk wird mehrmals auf verschiedene Chunk- Server repliziert, um Datenverlust zu vermeiden. Um hierdurch entstehende Inkonsistenzen zu vermeiden, bekommt jeder Chunk eine eigene Versionsnummerierung. Der Master-Server koordiniert die Änderungen, so dass alle Änderungen an einem Chunk in der gleichen Reihenfolge auf allen Replikationen ausgeführt werden. Anhand der Versionsnummerierungen kann der Master-Server ungültige Replikationen erkennen. Die Chunk-Server kommunizieren mit dem Master-Server regelmäßig über Heartbeat-Messages, in denen Prüfsummen aller Chunks des Chunk-Servers stehen. Beschädigte Chunks können damit gefunden und durch Replikationen ersetzt werden. Zum Löschen von Dateien wird eine Garbage Collection genutzt. Dateien werden nicht sofort gelöscht, sondern zum Löschen markiert. Nach einer bestimmten Zeit werden bei einem der regelmäßigen Scans des Dateisystems zunächst alle Links gelöscht, die auf zum Löschen markierte

4 4 Dateien zeigen. Bei einem weiteren Scan werden schließlich die Dateien selbst entfernt. [10] B. Hadoop Distributed File System Das Hadoop Distributed File System (HDFS) wurde nach dem Vorbild des Google File System als Open Source Variante in Java entwickelt. Wie beim Google File System wird auch hier der Master-Slave Ansatz verfolgt, bei dem die Daten auf den, DataNodes genannten, Slave-Servern gespeichert werden und der, NameNode genannte, Master-Server diese verwaltet. Wie beim GFS werden die Dateien zum Speichern in Blöcke fester Größe zerlegt, die auf mehrere DataNodes repliziert werden. Im Unterschied zum GFS kann hier allerdings die Applikation die Anzahl der Replikationen einer Datei selbst bestimmen. In Abbildung 2 wird der Aufbau des HDFS gezeigt. [9] C. Object Storage Object Storages bieten einen Gegensatz zu klassischen Dateisystemen, den Block Storages. Die Dateien werden nicht in Blöcke bzw. Chunks aufgeteilt, sondern als Objekte gespeichert. Den Objekten werden eine eindeutige Identifikationsnummer und Metadaten zugeordnet. Die tatsächliche Speicherung der Objekte obliegt den Speicherknoten und wird nach außen hin abstrahiert. Durch diese Abstraktion steigt unter anderem die Interoperabilität zwischen Betriebssystemen bzw. Plattformen. Der Unterschied zwischen einem klassischen Dateisystem und einem Object Storage ist in Abbildung 3 dargestellt. [12] Abbildung 3. Unterschied zwischen klassischen Dateisystemen (links) und Object Storages (rechts), bei denen das Storage-Device eine Abstraktion in Form von Objekten vornimmt. Quelle: [12] Beispiele für Object Storages sind Swift von OpenStack, das später näher beschrieben wird, und Amazon Simple Object Storage (S3). Abbildung 2. Aufbau des Hadoop Distributed File System mit einem NameNode und mehreren DataNodes, die in Blöcke aufgeteilte Dateien speichern. Quelle: [9] Zur Sicherstellung der Konsistenz nutzt HDFS ebenfalls Heartbeat-Messages. HDFS besitzt außerdem einen Mechanismus der sich rack-awareness nennt und für die optimale Nutzung der Bandbreite sorgt. In einem großen HDFS-System existieren tausende Computer, die auf mehrere Server-Racks aufgeteilt sind. Da die Kommunikation innerhalb eines Racks eine höhere Bandbreite aufweist, als zwischen zwei Racks, kennt der NameNode die Rack-Id der DataNodes und kann so die Kommunikation optimieren. [9] Das HDFS ist die Grundlage für das Apache Hadoop Framework. Dies ist ein in Java geschriebenes Open-Source Framework für skalierbare, verteilt arbeitende Software. Es vereint dafür das HDFS mit einer Open-Source Implementierung des MapReduce Algorithmus, um Anfragen schnell und verteilt bearbeiten zu können. Die bereits erwähnte spaltenorientierte NoSQL Datenbank HBase basiert auf dem Hadoop Framework. [9] IV. Clouds Cloud Computing wird vom U.S. National Institute of Standards and Technology (NIST) definiert als ein Modell, welches on-demand Netzwerkzugriff auf einen gemeinsam verwendeten Pool von Ressourcen ermöglicht. Ressourcen können dabei zum Beispiel Netzwerke, Server, Speicher, Applikationen oder Dienste sein. Diese Zugriffe werden den Nutzern von Service-Providern in Form von Cloud-Diensten (cloud services) angeboten. [13] In den letzten Jahren hat sich eine Vielzahl von Cloud- Diensten am Markt etabliert. Sie können in die bekannten Service Modelle IaaS, PaaS und SaaS unterteilt werden. Die für den Bereich der Datenverwaltung besonders interessanten Cloud-Dienste sind solche, bei denen der Fokus auf der Speicherung und Verwaltung von Daten liegt und die somit dem Service Modell IaaS zugeordnet werden können. Einige wichtige Vertreter dieser Dienste sind in diesem Kapitel aufgeführt. Zu jedem wird dabei kurz erklärt, wie die Dateiverwaltung geschieht und welche der im vorigen Kapitel genannten verteilten Dateisysteme und Object Storages verwendet werden.

5 5 A. Amazon Web Services Amazon bietet, als Vorreiter im Bereich Cloud-Computing, eine Vielzahl an verschiedenen Cloud-Diensten. Interessant für die Datenverwaltung ist die IaaS Lösung S3. Der Amazon Simple Storage Service (S3) ist ein kommerzieller Massenspeicherdienst. S3 nutzt einen Object Storage, wie er allgemein im vorigen Kapitel beschrieben wurde. Die Objekte sind bei S3 in sogenannten Buckets organisiert. Dabei wird jedes Objekt durch einen Schlüssel innerhalb des Buckets eindeutig identifiziert. Jeder Bucket ist wiederum genau einem Benutzer-Account zugeordnet. Amazon S3 kann sowohl über eine RESTful API, als auch über eine SOAP-Schnittstelle verwendet werden. [14] Manche Cloud-Speicherdienste, wie zum Beispiel Dropbox und Ubuntu One, nutzen intern die Dienste von Amazon S3. [15], [16] B. Google Auch Google bietet unter seinen Cloud-Diensten zwei zum Speichern von Dateien an: Google Drive und Google Cloud Storage. Der Zugriff auf Google Drive geschieht über Googles eigenes User Interface, zum Beispiel aus dem Browser heraus. Google Cloud Storage bietet stattdessen eine RESTful API an. Intern handelt es sich bei den Speicher-Diensten um Object Storages, die wiederum auf dem Google File System aufbauen. Die Object Storage Architektur lässt sich auch an der API von Google Cloud Storage erkennen. So werden die Dateien als Objekte gespeichert, die wie bei Amazon S3 in Buckets organisiert sind. [17], [18] C. Windows Azure In der Cloud Plattform Windows Azure werden Dateien als Binary Large Objects (BLOBs) mit Hilfe des Dienstes BLOB Storage Service gespeichert und verwaltet. Der Speicher-Dienst unterscheidet zwischen zwei Typen von BLOBs: Block BLOBs und Page BLOBs. Beide Typen werden vor dem Hochladen in kleinere Teile aufgeteilt, die einzeln gespeichert werden. Block BLOBs werden dabei in Blöcke von 64 MB aufgeteilt und Page BLOBs in Pages von 512 Byte Größe. [19] D. OpenStack Wie im nächsten Kapitel beschrieben wird, kann bei OpenStack sowohl das Block-Storage Dateisystem Cinder, als auch das Object-Storage Swift genutzt werden. V. OpenStack OpenStack ist ein Open-Source Softwareprojekt, das eine Architektur für Cloud-Computing zur Verfügung stellt. Es setzt sich aus mehreren Komponenten zusammen. So übernimmt die Komponente OpenStack Compute (auch Nova genannt) die Virtualisierung. Sie verwaltet Gruppen von virtuellen Maschinen, die auf den Compute-Knoten ausgeführt werden. Mit dem OpenStack Image Service Abbildung 4. Aufbau der OpenStack Architektur mit dem Object Storage Swift und Cinder als Speicherdienste. (auch Glance genannt) werden Images von virtuellen Maschinen verwaltet. Diese Images können von Nova zu lauffähigen virtuellen Maschinen instanziiert werden. Als Speicher-Komponente kann eine der beiden in dem Projekt enthaltenen Speichersysteme verwendet werden: Ein Object-Storage und ein Block-Storage Dateisystem. Es ist ebenfalls möglich, in einer Architektur sowohl das Object Storage, als auch das Block Storage zu verwenden, um die Vorteile beider Systeme zu nutzen. [20] A. OpenStack Object Storage Der OpenStack Object Storage wird auch Swift genannt. Es handelt sich um eine im Kapitel Verteilte Dateisysteme beschriebene Object Storage Architektur. Sie zeichnet sich durch Skalierbarkeit aus und ist für große, unstrukturierte Daten optimiert. Die Dateien werden als Objekte auf Festplatten eines Clusters, den Storage-Nodes, geschrieben, während die Swift Software für Abstraktion, Replikation und Integrität sorgt. Die Objekte werden auf mehrere Knoten repliziert, um Redundanz zu erreichen. Anstelle einer zentralen Haupt-Kontroll-Komponente, wie der Master-Server im Google File System, besitzt Swift mehrere Proxy-Server. Durch diese wird ein möglicher Bottleneg vermieden. Außerdem skaliert das System sehr einfach horizontal durch das Hinzufügen weiterer Proxy-Server. Da die Logik in der Swift-Software enthalten ist, können Standard-Festplatten verwendet werden. Wenn eine Festplatte ausfällt, werden die betroffenen Daten aus ihren Replikationen auf andere Festplatten verteilt. Swift bietet eine REST-API für den Zugriff (siehe Beispiel im nächsten Kapitel). [21] [22, Kap. 5] Intern besteht Swift aus mehreren Komponenten, die in Abbildung 5 dargestellt sind und von denen nun die wichtigsten im einzelnen näher betrachtet werden. Hierfür ist zunächst das Verständnis einiger grundlegender Konzepte wichtig. 1) Accounts und Container: Objekte werden in Swift in Containern gespeichert. Jeder Account kann mehrere

6 6 5] 5) Ring: Ein Ring repräsentiert die Verknüpfung zwischen einer Partition und ihrem physikalischen Speicherort. Der Ring wird von den Proxy-Servern und verschiedenen Hintergrund-Prozessen, wie dem Replikator, verwendet, um den Speicherort eines Objekts, einer Account- oder einer Container-Datenbank zu bestimmen. [22, Kap. 5] 6) Replikator: Jede Partition wird im Cluster, per Default, drei mal repliziert. Um sicherzustellen, dass von jeder Partition jederzeit genügend korrekte Replikate existieren, scannt der Replikator zyklisch alle Partitionen. Dabei vergleicht er diese mit ihren Replikaten, um Unterschiede festzustellen. Wird ein Unterschied festgestellt, so kopiert der Replikator die neuen Daten in die Replikate. [22, Kap. 5] Abbildung 5. Der interne Aufbau des OpenStack Object Storage mit Proxy-Server-Nodes und Storage-Nodes, die in Zonen organisiert sind. Quelle: [22, Kap. 5] dieser Container besitzen und in jedem Container können mehrere Objekte gespeichert sein. 2) Partitionen: Zusätzlich zu den Objekten speichert Swift jeweils eine Datenbank für jeden Container und für jeden Account. Die zu speichernden Objekte sowie Container- und Account-Datenbanken werden Partitionen zugeordnet. In jeder Partition werden jeweils mehrere dieser Entitäten abgelegt. Die Partitionen werden wiederum auf den Storage-Nodes gespeichert. Bei einer Anfrage eines Benutzers zu einem Objekt müssen Container und Account angegeben werden. Die Organisation dieser in Partitionen wird allerdings nur intern verwendet und ist vor den Benutzern verborgen. Um die Verfügbarkeit der Daten sicherzustellen wird jede Partition mehrmals repliziert. [22, Kap. 5] 3) Zonen: Die Storage-Nodes sind in Zonen organisiert. Eine Zone kann, je nach Skalierung des Systems, beliebig festgelegt werden. So kann sie beispielsweise eine einzige Festplatte, ein Server oder ein Server-Rack sein. Wird ein Replikat einer Partition erstellt, dann wird dieses in einer anderen Zone gespeichert als die ursprüngliche Partition. Fällt eine der Zonen aus, so sind die anderen Zonen hiervon mit großer Wahrscheinlichkeit nicht betroffen. Die Zonen erhöhen somit die Verfügbarkeit von gespeicherten Daten. [22, Kap. 5] 4) Proxy-Server: Mehrere Proxy-Server sorgen für die Abstraktion nach außen und nehmen API-Aufrufe entgegen. Hierfür bestimmen sie den Storage Node auf dem das betreffende Objekt gespeichert ist. Proxy-Server nutzen eine Shared-Nothing Architektur, so dass der Ausfall eines Servers keinen Einfluss auf die anderen Server hat. Es sollte in einem Swift-System mindestens zwei Proxy-Server geben, um deren Verfügbarkeit sicher zu stellen. [22, Kap. B. OpenStack Block Storage Der OpenStack Block Storage wird auch Cinder genannt und ist ein persistenter Block Speicher. Intern wird ein Cluster von Block-Speicher Laufwerken verwaltet. Cinder bietet eine Alternative zu Swift und ist besonders für performance-kritische Anwendungen geeignet. Es kann somit beispielsweise als Speicher für Datenbanken eingesetzt werden. Von einem Cinder-System können Snapshots des gesamten Speichers erzeugt werden, die entweder als Backup später wiederhergestellt werden können oder genutzt werden können, um neue Block Storages zu erzeugen. [22, Kap. 6] C. OpenStack mit Hadoop Mit dem Projekt Savanna existiert eine Möglichkeit, das Hadoop Framework in eine OpenStack Cloud zu integrieren. Hierdurch lassen sich, innerhalb einer OpenStack Cloud, Hadoop Cluster erzeugen und Hadoop Jobs mit dem performanten MapReduce Algorithmus ausführen. Wie in Abbildung 6 zu sehen ist, greift die Integration dabei zur Datenspeicherung auf den vorhandenen Object- Storage Swift zurück. [23] Abbildung 6. Die Komponenten von OpenStack bei der Integration des Hadoop-Frameworks mit dem Projekt Savanna. Quelle: [23] Durch Erweiterungen ist das Hadoop-Framework in der Lage, auch andere Dateisysteme als das Hadoop Distributed File System zu nutzen. So existiert zum Beispiel eine

7 7 Erweiterung für das Object-Storage Amazon S3. Da nun in OpenStack als Standard-Dateisystem der Object-Storage Swift genutzt wird, wurde für das Savanna-Projekt eine Hadoop-Erweiterung implementiert, welche Hadoop mit Swift arbeiten lässt. In Savanna wird Swift genutzt, um Hadoop-Jobs zu speichern, die von dem Hadoop-Cluster ausgeführt werden sollen. Außerdem werden über den Dienst Glance die VMs der Hadoop-Knoten auf dem Object-Storage gespeichert. [23] D. Beispiel Anhand eines Beispiels wird nun die Speicherung von Dateien innerhalb einer OpenStack Cloud auf dem Object-Storage Swift verdeutlicht. OpenStack bietet eine REST-API welche in diesem Beispiel über das Kommandozeilentool curl angesprochen wird, mit dem sich auf einfache Weise HTTP-Requests versenden lassen. Die Informationen über die API stammen von [24]. 1) Authentifizierung: Zu Beginn ist eine Authentifizierung nötig, um einen X-Auth-Token zu erhalten, der bei jedem weiteren Request angegeben werden muss. $ curl -H X-Auth-Key: meinpasswort -H X-Auth-User: meinname Als Antwort sendet der Authentifikations-Server sowohl den X-Auth-Token, als auch die URL des Storage-Servers an den die nächste Anfrage gehen soll: X-Storage-Url: X-Auth-Token: fc81aaa6-98a1-9ab0-94ba-aba9a89aa9ae 2) Container: Nun wird ein Container durch einen HTTP-PUT Request auf die Ressource /<account>/<container> des Storage-Servers erzeugt. $ curl -X PUT -H X-Auth-Token: fc81aaa6-98a1-9ab0-94ba-aba9a89aa9ae Antwort: 201 Created 3) Objekt: Schließlich kann das gewünschte Objekt im Container erzeugt bzw. abgelegt werden. Dies geschieht durch einen HTTP-PUT Request auf die Ressource /<Account>/<container>/<object>. Als Objekt wird ein Bild verwendet, das im aktuellen Arbeitsverzeichnis als bild.jpg liegt. $ curl -X PUT -H X-Auth-Token: fc81aaa6-98a1-9ab0-94ba-aba9a89aa9ae -T bild.jpg Antwort: 201 Created Das Bild ist nun als Objekt in dem erstellten Container gespeichert. Über einen HTTP-GET Request kann es bei Bedarf abgerufen werden. VI. Zusammenfassung und Diskussion Es wurde dargestellt, welche Bedeutung das Thema Big Data in der Datenverwaltung von Clouds hat. In diesem Zuge wurden verteilte Datenbanken als Möglichkeit beschrieben, die großen Datenaufkommen und Daten mit großen Variationen zu speichern und zu verwalten. Für die Speicherung von Dateien und der großen Datenbanken wurden verteilte Dateisysteme und Object Storages untersucht. Weiterhin wurden einige wichtige Cloud-Dienste mit ihren jeweiligen Lösungen zur Speicherung und Verwaltung von Dateien vorgestellt. Schließlich konnten die Dateisysteme und die Datenverwaltung des Open-Source Cloud-Computing Projekts OpenStack im Detail betrachtet werden. Die verschiedenen Lösungen für die Speicherung und Verwaltung von Dateien in Clouds haben unterschiedliche Eigenschaften, sowie Vor- und Nachteile. Für unterschiedliche Anwendungszwecke ist es sinnvoll, diese Technologien zu kombinieren und ihre Vorteile gemeinsam zu nutzen. Dies wurde auch am Beispiel von OpenStack deutlich, bei dem oft sowohl ein Objekt Storage als auch ein Block Storage genutzt wird. Literatur [1] Hurwitz, Nugent, Halper, Kaufman: Big Data for Dummies. John Wiley & Sons, inc., [2] Big Data. Sonderbeilage des Heise Zeitschriften Verlages. Heise Zeitschriften Verlag, [3] Big Data. Gartner IT Glossary. [online]. Available: [4] Sabine Horvath: Aktueller Begriff Big Data. Wissenschaftliche Dienste des Deutschen Bundestages, [5] Big Data. Wikipedia. [online]. Available: /wiki/big_data. [6] David, M.: NoSQL. ITM-Seminar Ausarbeitung. Universität zu Lübeck, [7] Moritz, M.: Verteilte Dateisysteme in der Cloud. Seminar Cloud Data Management. Universität Leipzig, [8] Devlin, Gray, Laing, Spix: Scalability Terminology. Microsoft Research, Dezember [9] Kiencke, T.: Hadoop Distributed File System (HDFS). ITM-Seminar Ausarbeitung. Universität zu Lübeck, [10] Ghemawat, Gobioff, Leung: The Google File System. In: 19th ACM Symposium on Operating Systems Principles, Lake George, NY, October, [11] File:GoogleFileSystemGFS.svg. [online]. Availabe: kipedia.org/wiki/file:googlefilesystemgfs.svg. [12] Mesnier, Ganger, Riedel (August 2003), Object-Based Storage. IEEE Communications Magazine: [13] Peter Mell, Timothy Grance: The NIST Definition of Cloud Computing, NIST, [14] Amazon Simple Storage Device. [online]. Available: amazon.com/de/s3/. [15] Ubuntu One: Technical Details. [online]. Available: https://wik i.ubuntu.com/ubuntuone/technicaldetails. [16] Wo werden die Daten aller Dropbox-Nutzer gespeichert?. Dropbox Hilfecenter. [online]. Available: https://www.dropbox.com/h elp/7/de. [17] Google Cloud Storage Overview. Google Developers Documentation. [online]. Available: https://developers.google.com/storage/ docs/overview?hl=de&csw=1. [18] Jonathan Bingham: Google Cloud Plattform Blog. [online]. Available: er-faster-lower-cost-big-data-processing-with-the-google-cloud-st orage-connector-for-hadoop.html. [19] Understanding Block Blobs and Page Blobs. [online]. Available: URL: ee aspx.

8 [20] Anuj Sehgal: Introduction to OpenStack. 6th International Conference on Autonomous Infrastructure, Management and Security04 June 2012, University of Luxembourg. [21] OpenStack storage. [online]. Available: rg/software/openstack-storage. [22] OpenStack Cloud Administrator Guide. [online]. Available: ml. [23] Savanna: Rationale. [online]. Available: https://savanna.readth edocs.org/en/latest/overview.html. [24] OpenStack Object Storage API v1 Reference. [online]. Available: 8

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

Verteilte Dateisysteme in der Cloud

Verteilte Dateisysteme in der Cloud Verteilte Dateisysteme in der Cloud Cloud Data Management Maria Moritz Seminar Cloud Data Management WS09/10 Universität Leipzig 1 Inhalt 1.) Anforderungen an verteilte Dateisysteme 2.) GoogleFS 3.) Hadoop

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

OpenStack. Proseminar: Software Engineering in der Cloud Fakultät für Informatik Technische Universität Dortmund. Jörn Esdohr

OpenStack. Proseminar: Software Engineering in der Cloud Fakultät für Informatik Technische Universität Dortmund. Jörn Esdohr OpenStack Proseminar: Software Engineering in der Cloud Fakultät für Informatik Technische Universität Dortmund Jörn Esdohr Betreuer: Prof. Dr. Jakob Rehof Boris Düdder 8. November 2012 OpenStack OpenStack

Mehr

Managed Cloud Services

Managed Cloud Services Managed Cloud Services Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Cloud Services

Mehr

Whitepaper Externe Speicherung von Binary Large Objects (BLOBs) mit SharePoint 2007 sowie SQL Server 2005 / 2008

Whitepaper Externe Speicherung von Binary Large Objects (BLOBs) mit SharePoint 2007 sowie SQL Server 2005 / 2008 Externe Speicherung von Binary Large Objects (BLOBs) mit SharePoint 2007 sowie SQL Andreas Glaser, 23. September 2008 Teufenerstrasse 19 CH 9001 St.Gallen t [+41] 71 228 67 77 f [+41] 71 228 67 88 info@namics.com

Mehr

Die wichtigsten Funktionen von Red Hat Storage Server 2.0 im Überblick:

Die wichtigsten Funktionen von Red Hat Storage Server 2.0 im Überblick: Red Hat Storage Server Die wichtigsten Funktionen von Red Hat Storage Server 2.0 im Überblick: Offene Software Lösung für Storage Ansprache über einen globalen Namensraum Betrachtet Storage als einen virtualisierten

Mehr

Eine Taxonomie und Bewertung von Cloud Computing Diensten aus Entwicklersicht

Eine Taxonomie und Bewertung von Cloud Computing Diensten aus Entwicklersicht Eine Taxonomie und Bewertung von Cloud Computing Diensten aus Entwicklersicht Universität der Bundeswehr München Mario Golling und Michael Kretzschmar Fakultät für Informatik E-Mail: mario.golling@unibw.de

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

Verteiltes Backup. Einleitung Grundlegende Backup Techniken Backup in Netzwerken. Client/Server Peer-to-Peer

Verteiltes Backup. Einleitung Grundlegende Backup Techniken Backup in Netzwerken. Client/Server Peer-to-Peer Verteiltes Backup Einleitung Grundlegende Backup Techniken Backup in Netzwerken Client/Server Peer-to-Peer Einleitung Backup: Das teilweise oder gesamte Kopieren der in einem Computersystem vorhandenen

Mehr

Private IaaS Cloud mit OpenStack. Sebastian Zielenski Linux/Unix Consultant & Trainer B1 Systems GmbH zielenski@b1-systems.de

Private IaaS Cloud mit OpenStack. Sebastian Zielenski Linux/Unix Consultant & Trainer B1 Systems GmbH zielenski@b1-systems.de Private IaaS Cloud mit OpenStack Sebastian Zielenski Linux/Unix Consultant & Trainer B1 Systems GmbH zielenski@b1-systems.de Vorstellung B1 Systems gegründet 2004 primär Linux/Open Source Themen national

Mehr

NoSQL. Was Architekten beachten sollten. Dr. Halil-Cem Gürsoy adesso AG. Architekturtag @ SEACON 2012 Hamburg

NoSQL. Was Architekten beachten sollten. Dr. Halil-Cem Gürsoy adesso AG. Architekturtag @ SEACON 2012 Hamburg NoSQL Was Architekten beachten sollten Dr. Halil-Cem Gürsoy adesso AG Architekturtag @ SEACON 2012 Hamburg 06.06.2012 Agenda Ein Blick in die Welt der RDBMS Klassifizierung von NoSQL-Datenbanken Gemeinsamkeiten

Mehr

NoSQL-Datenbanken. Kapitel 1: Einführung. Lars Kolb Sommersemester 2014. Universität Leipzig http://dbs.uni-leipzig.de 1-1

NoSQL-Datenbanken. Kapitel 1: Einführung. Lars Kolb Sommersemester 2014. Universität Leipzig http://dbs.uni-leipzig.de 1-1 NoSQL-Datenbanken Kapitel 1: Einführung Lars Kolb Sommersemester 2014 Universität Leipzig http://dbs.uni-leipzig.de 1-1 Inhaltsverzeichnis NoSQL-Datenbanken Motivation und Definition Kategorisierung, Eigenschaften

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Gliederung. Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik

Gliederung. Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik Cloud Computing Gliederung Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik 2 Bisher Programme und Daten sind lokal beim Anwender

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

NoSQL-Databases. Präsentation für Advanced Seminar "Computer Engineering", Matthias Hauck, matthias.hauck@stud.uni-heidelberg.de

NoSQL-Databases. Präsentation für Advanced Seminar Computer Engineering, Matthias Hauck, matthias.hauck@stud.uni-heidelberg.de NoSQL-Databases Präsentation für Advanced Seminar "Computer Engineering", Matthias Hauck, matthias.hauck@stud.uni-heidelberg.de Klassische SQL-Datenbanken Anwendungsgebiet: Geschäftsanwendungen Behördenanwendungen

Mehr

Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim

Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim Andreas Ries Cloud-Computing Seminar Hochschule Mannheim WS0910 1/26 Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim Andreas Ries Fakultät für Informatik Hochschule Mannheim ries.andreas@web.de

Mehr

Cloud Computing mit OpenStack

Cloud Computing mit OpenStack Cloud Computing mit OpenStack B1 Systems GmbH http://www.b1-systems.de Cloud Computing Cloud Computing Servicemodelle Software as a Service (SaaS) Platform as a Service (PaaS) Infrastructure as a Service

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

Verteilte Systeme. Map Reduce. Secure Identity Research Group

Verteilte Systeme. Map Reduce. Secure Identity Research Group Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das

Mehr

KURZANLEITUNG CLOUD BLOCK STORAGE

KURZANLEITUNG CLOUD BLOCK STORAGE KURZANLEITUNG CLOUD BLOCK STORAGE Version 1.12 01.07.2014 SEITE _ 2 INHALTSVERZEICHNIS 1. Einleitung......Seite 03 2. Anlegen eines dauerhaften Block Storage...Seite 04 3. Hinzufügen von Block Storage

Mehr

Dunkel Cloud Storage. Der sichere Cloud-Speicher für Unternehmen

Dunkel Cloud Storage. Der sichere Cloud-Speicher für Unternehmen Dunkel Cloud Storage Der sichere Cloud-Speicher für Unternehmen Was ist Dunkel Cloud Storage? Dunkel Cloud Storage (DCS) stellt Ihnen Speicherplatz nach Bedarf zur Verfügung, auf den Sie jederzeit über

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

NoSQL & Big Data. NoSQL Databases and Big Data. NoSQL vs SQL DBs. NoSQL DBs - Überblick. Datenorientierte Systemanalyse. Gerhard Wohlgenannt

NoSQL & Big Data. NoSQL Databases and Big Data. NoSQL vs SQL DBs. NoSQL DBs - Überblick. Datenorientierte Systemanalyse. Gerhard Wohlgenannt NoSQL & Big Data Datenorientierte Systemanalyse NoSQL Databases and Big Data Gerhard Wohlgenannt Die besprochenen Systeme haben nicht den Anspruch und das Ziel DBS zu ersetzen, sondern für gewisse Anwendungsfälle

Mehr

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen Lennart Leist Inhaltsverzeichnis 1 Einführung 2 1.1 Aufgaben einer Datenbank...................... 2 1.2 Geschichtliche Entwicklung

Mehr

OpenStack in der Praxis

OpenStack in der Praxis OpenStack in der Praxis B1 Systems GmbH http://www.b1-systems.de c B1 Systems GmbH 2004 2012 Chapter -1, Slide 1 OpenStack in der Praxis Agenda c B1 Systems GmbH 2004 2012 Chapter 0, Slide 1 Agenda Cloud-Definition

Mehr

Cloud Computing mit OpenStack

Cloud Computing mit OpenStack Cloud Computing mit OpenStack B1 Systems GmbH http://www.b1-systems.de Cloud Computing Fragen Was ist Cloud Computing? Was ist Infrastructure As A Service? Was ist OpenStack...... und aus welchen Komponenten

Mehr

Was ist Windows Azure? (Stand Juni 2012)

Was ist Windows Azure? (Stand Juni 2012) Was ist Windows Azure? (Stand Juni 2012) Windows Azure Microsofts Cloud Plattform zu Erstellung, Betrieb und Skalierung eigener Cloud-basierter Anwendungen Cloud Services Laufzeitumgebung, Speicher, Datenbank,

Mehr

Ceph. Distributed Storage Julian mino Klinck GPN15-05.06.2015

Ceph. Distributed Storage Julian mino Klinck GPN15-05.06.2015 Distributed Storage Julian mino Klinck GPN15-05.06.2015 Julian mino! Interessen: Netzwerke # Karlsruhe Hardware $ gpn15@lab10.de Cocktails " twitter.com/julianklinck Hacking Musik- und Lichttechnik 2 Julian

Mehr

Storage-Trends am LRZ. Dr. Christoph Biardzki

Storage-Trends am LRZ. Dr. Christoph Biardzki Storage-Trends am LRZ Dr. Christoph Biardzki 1 Über das Leibniz-Rechenzentrum (LRZ) Seit 50 Jahren Rechenzentrum der Bayerischen Akademie der Wissenschaften IT-Dienstleister für Münchner Universitäten

Mehr

Cloud-Plattform: Appscale Hochschule Mannheim

Cloud-Plattform: Appscale Hochschule Mannheim Florian Weispfenning Cloud-Computing Seminar Hochschule Mannheim WS0910 1/28 Cloud-Plattform: Appscale Hochschule Mannheim Florian Weispfenning Fakultät für Informatik Hochschule Mannheim florian.weispfenning@stud.hs-mannheim.de

Mehr

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015 Abstrakt zum Vortrag im Oberseminar Graphdatenbanken Gero Kraus HTWK Leipzig 14. Juli 2015 1 Motivation Zur Darstellung komplexer Beziehungen bzw. Graphen sind sowohl relationale als auch NoSQL-Datenbanken

Mehr

Extended Abstract Obserseminar: Datenbanksysteme - Aktuelle Trends. Cloud-Datenbanken. Franz Anders 02.07.2015

Extended Abstract Obserseminar: Datenbanksysteme - Aktuelle Trends. Cloud-Datenbanken. Franz Anders 02.07.2015 Extended Abstract Obserseminar: Datenbanksysteme - Aktuelle Trends Cloud-Datenbanken Franz Anders 02.07.2015 Dies ist das erweiterte Abstract zum Vortrag Cloud-Datenbanken für das Oberseminar Datenbanksysteme

Mehr

Cloud Computing Technologien. Maxim Schnjakin 16. April 2013

Cloud Computing Technologien. Maxim Schnjakin 16. April 2013 Cloud Computing Technologien Maxim Schnjakin 16. April 2013 Agenda 1 Cloud Computing Technologien Worum geht s? Seminarthemen Was soll gemacht werden? Organisation Wie soll s ablaufen? Definition of Cloud

Mehr

Institut für Verteilte Systeme

Institut für Verteilte Systeme Institut für Verteilte Systeme Prof. Dr. Franz Hauck Seminar: Multimedia- und Internetsysteme, Wintersemester 2010/11 Betreuer: Jörg Domaschka Bericht zur Seminarssitzung am 2011-01-31 Bearbeitet von :

Mehr

Der Cloud-Dienst Windows Azure

Der Cloud-Dienst Windows Azure Der Cloud-Dienst Windows Azure Master-Seminar Cloud Computing Wintersemester 2013/2014 Sven Friedrichs 07.02.2014 Sven Friedrichs Der Cloud-Dienst Windows Azure 2 Gliederung Einleitung Aufbau und Angebot

Mehr

JEAF Cloud Plattform Der Workspace aus der Cloud

JEAF Cloud Plattform Der Workspace aus der Cloud JEAF Cloud Plattform Der Workspace aus der Cloud Juni 2014 : Aktuelle Situation Heutige Insellösungen bringen dem Nutzer keinen Mehrwert Nutzer sind mobil Dateien und Applikationen sind über Anbieter und

Mehr

Charakteristika und Vergleich von SQL- und NoSQL- Datenbanken

Charakteristika und Vergleich von SQL- und NoSQL- Datenbanken Universität Leipzig Fakultät für Mathematik und Informatik Abteilung Datenbanken Dozent: Prof. Dr. Erhard Rahm Betreuer: Stefan Endrullis Problemseminar NoSQL-Datenbanken Semester: WS 11/12 Charakteristika

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Cloud-Computing - Überblick

Cloud-Computing - Überblick Cloud-Computing - Überblick alois.schuette@h-da.de Alois Schütte 24. November 2014 1 / 20 Inhaltsverzeichnis 1 Was ist Cloud-Computing Warum beschäftigt man sich mit Cloud Computing? 2 Aufbau der Veranstaltung

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10 Prototypvortrag Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning Projektseminar WS 2009/10 Eugen Fot, Sebastian Kenter, Michael Surmann AG Parallele

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

HDFS als schneller und günstiger Storage?

HDFS als schneller und günstiger Storage? HDFS als schneller und günstiger Storage? Das Hadoop Distributed File System (HDFS) verwaltet spielend riesige Datenmengen, lässt sich im laufenden Betrieb bequem skalieren und ist komfortabel zu administrieren.

Mehr

B1 Systems GmbH - Linux/Open Source Consulting, Training, Support & Development

B1 Systems GmbH - Linux/Open Source Consulting, Training, Support & Development OpenStack Icehouse IBM GPFS Expert Workshop 7. Mai 2014 Ralph Dehner Geschäftsführer B1 Systems GmbH dehner@b1-systems.de B1 Systems GmbH - Linux/Open Source Consulting, Training, Support & Development

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Datenbanken und SQL. Kapitel 1. Übersicht über Datenbanken. Edwin Schicker: Datenbanken und SQL (1)

Datenbanken und SQL. Kapitel 1. Übersicht über Datenbanken. Edwin Schicker: Datenbanken und SQL (1) Datenbanken und SQL Kapitel 1 Übersicht über Datenbanken Übersicht über Datenbanken Vergleich: Datenorganisation versus Datenbank Definition einer Datenbank Bierdepot: Eine Mini-Beispiel-Datenbank Anforderungen

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Hochverfügbare Virtualisierung mit Open Source

Hochverfügbare Virtualisierung mit Open Source Hochverfügbare Virtualisierung mit Open Source Gliederung DRBD Ganeti Libvirt Virtualisierung und Hochverfügbarkeit Hochverfügbarkeit von besonderer Bedeutung Defekt an einem Server => Ausfall vieler VMs

Mehr

Algorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1

Algorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1 Algorithmen Consistent Hashing Bloom Filter MapReduce Distributed Hash Tables Einführung 1 Consistent Hashing Problem: Wie finde ich den Speicherort für ein Objekt in einem verteilten System mit n Knoten?

Mehr

Verschlüsselung im Cloud Computing

Verschlüsselung im Cloud Computing Verschlüsselung im Cloud Computing Michael Herfert Fraunhofer-Institut für Sichere Informationstechnologie SIT Darmstadt Sicherheitsmanagement Enterprise & Risk Management Wien 17. Februar 2015 Inhalt

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Hadoop-as-a-Service (HDaaS)

Hadoop-as-a-Service (HDaaS) Hadoop-as-a-Service (HDaaS) Flexible und skalierbare Referenzarchitektur Arnold Müller freier IT Mitarbeiter und Geschäftsführer Lena Frank Systems Engineer @ EMC Marius Lohr Systems Engineer @ EMC Fallbeispiel:

Mehr

5.Vorlesung Cluster-, Grid- und Cloud-Computing Hochschule Mannheim

5.Vorlesung Cluster-, Grid- und Cloud-Computing Hochschule Mannheim Christian Baun 5.Vorlesung Cluster-, Grid- und Cloud-Computing Hochschule Mannheim WS1112 1/36 5.Vorlesung Cluster-, Grid- und Cloud-Computing Hochschule Mannheim Christian Baun Karlsruher Institut für

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

Sicht eines Technikbegeisterten

Sicht eines Technikbegeisterten Cloud und Mobile Apps Quo Vadis? Bernhard Bauer Institut für Software und Systems Engineering Universität Augsburg Oder... IT Arbeitsplatz der Zukunft Sicht eines Technikbegeisterten IT Arbeitsplatz der

Mehr

SaaS-Referenzarchitektur. iico-2013-berlin

SaaS-Referenzarchitektur. iico-2013-berlin SaaS-Referenzarchitektur iico-2013-berlin Referent Ertan Özdil Founder / CEO / Shareholder weclapp die Anforderungen 1.000.000 registrierte User 3.000 gleichzeitig aktive user Höchste Performance Hohe

Mehr

SQL- & NoSQL-Datenbanken. Speichern und Analysen von großen Datenmengen

SQL- & NoSQL-Datenbanken. Speichern und Analysen von großen Datenmengen SQL- & NoSQL-Datenbanken Speichern und Analysen von großen Datenmengen 1 04.07.14 Zitat von Eric Schmidt (Google CEO): There was 5 exabytes of information created between the dawn of civilization through

Mehr

Aufbau von Cloud-Infrastrukturen mit Eucalyptus

Aufbau von Cloud-Infrastrukturen mit Eucalyptus Michael Stapelberg Cloud-Computing Seminar Universität Heidelberg SS2009 1/34 Aufbau von Cloud-Infrastrukturen mit Eucalyptus Michael Stapelberg Universität Heidelberg Stapelberg@stud.uni-heidelberg.de

Mehr

REST-basierte Web-Services mit PHP (1)

REST-basierte Web-Services mit PHP (1) REST-basierte Web-Services mit PHP (1) REST nutzt direkt die HTTP-Operationen Daher ist es (vgl. SOAP) einfacher, einen REST-basierten Webservice direkt mit PHP zu implementieren. Einige PHP-Frameworks,

Mehr

Zu den Möglichkeiten forensischer Untersuchungen in IaaS-Cloud-Umgebungen

Zu den Möglichkeiten forensischer Untersuchungen in IaaS-Cloud-Umgebungen Zu den Möglichkeiten forensischer Untersuchungen in IaaS-Cloud-Umgebungen Andreas Kolb 1,2 Christoph Wegener 1 Dominik Birk 3 1 Ruhr-Universität Bochum, Horst Görtz Institut für IT-Sicherheit 2 PricewaterhouseCoopers

Mehr

25.09.2014. Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz

25.09.2014. Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz 1 2 Dies ist ein Vortrag über Zeit in verteilten Anwendungen Wir betrachten die diskrete "Anwendungszeit" in der nebenläufige Aktivitäten auftreten Aktivitäten in einer hochgradig skalierbaren (verteilten)

Mehr

Software as a Service, Cloud Computing und aktuelle Entwicklungen Seminarvorbesprechung

Software as a Service, Cloud Computing und aktuelle Entwicklungen Seminarvorbesprechung Software as a Service, Cloud Computing und aktuelle Entwicklungen Seminarvorbesprechung A. Göbel, Prof. K. Küspert Friedrich-Schiller-Universität Fakultät für Mathematik und Informatik Lehrstuhl für Datenbanken

Mehr

Analytics in der Cloud. Das Beispiel Microsoft Azure

Analytics in der Cloud. Das Beispiel Microsoft Azure Analytics in der Cloud Das Beispiel Microsoft Azure Warum überhaupt Cloud Computing? Ein kleiner Blick in den Markt Microsoft : hat sein Geschäftsmodell komplett umgestellt vom Lizenzgeschäft auf Devices

Mehr

Ontrack EasyRecovery 11 Neue Funktionen. S.M.A.R.T.-Analysefunktion Wiederherstellung von VMware VMDK-Images Datenlöschfunktion

Ontrack EasyRecovery 11 Neue Funktionen. S.M.A.R.T.-Analysefunktion Wiederherstellung von VMware VMDK-Images Datenlöschfunktion Ontrack EasyRecovery 11 Neue Funktionen S.M.A.R.T.-Analysefunktion Wiederherstellung von VMware VMDK-Images Datenlöschfunktion S.M.A.R.T.-Analysefunktion S.M.A.R.T. Scan identifiziert die Menge und den

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Definition Informationssystem

Definition Informationssystem Definition Informationssystem Informationssysteme (IS) sind soziotechnische Systeme, die menschliche und maschinelle Komponenten umfassen. Sie unterstützen die Sammlung, Verarbeitung, Bereitstellung, Kommunikation

Mehr

Wir befinden uns inmitten einer Zeit des Wandels.

Wir befinden uns inmitten einer Zeit des Wandels. Wir befinden uns inmitten einer Zeit des Wandels. Geräte Apps Ein Wandel, der von mehreren Trends getrieben wird Big Data Cloud Geräte Mitarbeiter in die Lage versetzen, von überall zu arbeiten Apps Modernisieren

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Sind Cloud Apps der nächste Hype?

Sind Cloud Apps der nächste Hype? Java Forum Stuttgart 2012 Sind Cloud Apps der nächste Hype? Tillmann Schall Stuttgart, 5. Juli 2012 : Agenda Was sind Cloud Apps? Einordnung / Vergleich mit bestehenden Cloud Konzepten Live Demo Aufbau

Mehr

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center PROFI UND NUTANIX Portfolioerweiterung im Software Defined Data Center IDC geht davon aus, dass Software-basierter Speicher letztendlich eine wichtige Rolle in jedem Data Center spielen wird entweder als

Mehr

Dokumentenorientierte Datenbanken - MongoDB

Dokumentenorientierte Datenbanken - MongoDB Dokumentenorientierte Datenbanken - MongoDB Jan Hentschel Ultra Tendency UG Übersicht Dokumente sind unabhängige Einheiten Bessere Performance (zusammengehörige Daten werden gemeinsam gelesen) Objektmodell

Mehr

Heterogenes Speichermanagement mit V:DRIVE

Heterogenes Speichermanagement mit V:DRIVE Heterogenes Speichermanagement mit V:DRIVE V:DRIVE - Grundlage eines effizienten Speichermanagements Die Datenexplosion verlangt nach innovativem Speichermanagement Moderne Businessprozesse verlangen auf

Mehr

MongoDB Big Data mit Open Source

MongoDB Big Data mit Open Source MongoDB Big Data mit Open Source CommitterConf Essen 2014 29. Oktober 2014 Tilman Beitter Linux Consultant & Trainer B1 Systems GmbH beitter@b1-systems.de B1 Systems GmbH - Linux/Open Source Consulting,

Mehr

Persönlichkeiten bei bluehands

Persönlichkeiten bei bluehands Persönlichkeiten bei Technologien bei Skalierbare Anwendungen mit Windows Azure GmbH & co.mmunication KG am@.de; posts..de/am 1 2 3 4 5 6 7 8 9 Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit

Mehr

Überblick über NoSQL Datenbanken

Überblick über NoSQL Datenbanken 1 Überblick über NoSQL Datenbanken Seminararbeit Software Systems Engineering - WS 2012 / 2013 Mario David - Student - Master Informatik (SSE) Universität zu Lübeck Zusammenfassung Diese Seminararbeit

Mehr

Private Cloud mit Eucalyptus am SCC

Private Cloud mit Eucalyptus am SCC Private Cloud mit Eucalyptus am SCC Christian Baun 15. Dezember 2009 KIT The cooperation of Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH) http://www.kit.edu Cloud-Comuting = Grid-Computing?!

Mehr

Big Data. Hype oder Chance? Sebastian Kraubs

Big Data. Hype oder Chance? Sebastian Kraubs Big Data Hype oder Chance? Sebastian Kraubs Heute reden alle über Big Data Quellen: http://blogs.sybase.com/sybaseiq/2011/09/big-data-big-opportunity/ und McKinsey Studie 2011 Anwendungen Daten Technologien

Mehr

RAID. Name: Artur Neumann

RAID. Name: Artur Neumann Name: Inhaltsverzeichnis 1 Was ist RAID 3 1.1 RAID-Level... 3 2 Wozu RAID 3 3 Wie werden RAID Gruppen verwaltet 3 3.1 Software RAID... 3 3.2 Hardware RAID... 4 4 Die Verschiedenen RAID-Level 4 4.1 RAID

Mehr

Prof. Dr.-Ing. Rainer Schmidt 1

Prof. Dr.-Ing. Rainer Schmidt 1 Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2

Mehr

Isilon Solutions + OneFS

Isilon Solutions + OneFS Isilon Solutions + OneFS Anne-Victoria Meyer Betreuer: Dr. Julian Kunkel Proseminar: Ein-/Ausgabe - Stand der Wissenschaft 16. Oktober 2013 Contents 1 Einleitung 2 1.1 Scale-Out-NAS..........................

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

DataSpace 2.0 Die sichere Kommunikations-Plattform für Unternehmen und Organisationen.

DataSpace 2.0 Die sichere Kommunikations-Plattform für Unternehmen und Organisationen. DataSpace 2.0 Die sichere Kommunikations-Plattform für Unternehmen und Organisationen. Your data. Your control User A User B Die Datenaustauschplattform mit moderner Software Architektur Datenaustausch

Mehr

Vorwort... 11 Azure Cloud Computing mit Microsoft... 12 Danksagungen... 13 Kontakt zum Autor... 13

Vorwort... 11 Azure Cloud Computing mit Microsoft... 12 Danksagungen... 13 Kontakt zum Autor... 13 Inhaltsverzeichnis Vorwort... 11 Azure Cloud Computing mit Microsoft... 12 Danksagungen... 13 Kontakt zum Autor... 13 Einleitung... 15 Zielgruppe... 16 Aufbau... 16 Inhalt der einzelnen Kapitel... 17 Systemanforderungen...

Mehr

Neo4J & Sones GraphDB. Graph-Datenbanken. Von Toni Fröschke. Problemseminar NoSQL-Datenbanken (WS 2011/12)

Neo4J & Sones GraphDB. Graph-Datenbanken. Von Toni Fröschke. Problemseminar NoSQL-Datenbanken (WS 2011/12) Neo4J & Sones GraphDB Graph-Datenbanken Von Toni Fröschke Problemseminar NoSQL-Datenbanken (WS 2011/12) Gliederung Neo4J Überblick Neo4J-Komponenten Datenhaltung/ -verwaltung Verfügbarkeit & Recovery I/O

Mehr

EHCache und Terracotta. Jochen Wiedmann, Software AG

EHCache und Terracotta. Jochen Wiedmann, Software AG EH und Terracotta Jochen Wiedmann, Software AG Autor Perl-Contributor DBD::mySQL 2, DBI::Proxy, DBI::Shell, DBD::CSV, Net::Daemon, RPC::Pl(Client Server) (Autor) DBI (Developer) ASF-Member (Apache Software

Mehr

Web Technologien NoSQL Datenbanken

Web Technologien NoSQL Datenbanken Web Technologien NoSQL Datenbanken Univ.-Prof. Dr.-Ing. Wolfgang Maass Chair in Information and Service Systems Department of Law and Economics WS 2011/2012 Wednesdays, 8:00 10:00 a.m. Room HS 021, B4

Mehr

Über den Wolken... Architekturaspekte beim Cloud-Computing. Jürgen Lind, iteratec GmbH November 2010

Über den Wolken... Architekturaspekte beim Cloud-Computing. Jürgen Lind, iteratec GmbH November 2010 Über den Wolken... Architekturaspekte beim Cloud-Computing Jürgen Lind, iteratec GmbH November 2010 Cloud Computing als fest stehender Begriff Cloud Computing 2 Definition und Abgrenzung "Cloud Computing"

Mehr

Eine Einführung in Apache CouchDB. Java-Forum Stuttgart 2011

Eine Einführung in Apache CouchDB. Java-Forum Stuttgart 2011 Eine Einführung in Apache CouchDB Java-Forum Stuttgart 2011 Johannes Schneider, cedarsoft GmbH js@cedarsoft.com http://blog.cedarsoft.com http://cedarsoft.com Vielen Dank CouchDB The VERY Basics Vorerfahrung?

Mehr