Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1 / 22
Gliederung 1 Einleitung: Big Data 2 Verteilte Dateisysteme 3 Cloud-Speicherdienste 4 Detail: OpenStack-Speicherdienste 5 Beispiel Dateisysteme und Datenverwaltung in der Cloud 2 / 22
Einleitung: Big Data Situation Big Data: Situation Jeder Mensch hinterlässt Unmengen von Daten Ungenutzte Ressourcen Vorher: Vor allem RDBMS Vorwissen über Struktur der Daten benötigt Stoßen auf ihre Grenzen bei den neuen Daten Dateisysteme und Datenverwaltung in der Cloud 3 / 22
Einleitung: Big Data Situation Big Data: Situation 3 Kategorien: 1 Große Daten 2 Viele Daten 3 Große Variation Manche dieser Daten konnten bisher nicht ausgewertet werden Dateisysteme und Datenverwaltung in der Cloud 4 / 22
Einleitung: Big Data Lösung Big Data: Lösung Neue Entwicklungen: 1 Einzelne Computer Verbund von Computern 2 Virtualisierung 3 Verteilte NoSQL-Datenbanken - Für große Daten und große Datenmengen - Weniger Struktur vorgeben 4 Verteilte Dateisysteme 5 Verarbeitung: MapReduce-Algorithmus Dateisysteme und Datenverwaltung in der Cloud 5 / 22
Verteilte Dateisysteme Verteilte Dateisysteme Verteilte Dateisysteme Riesige Datenmengen persistent speichern: Verteiltes Dateisystem Horizontale Skalierung Google Filesystem Hadoop Distributed File System Object Storages Dateisysteme und Datenverwaltung in der Cloud 6 / 22
Verteilte Dateisysteme Google File System Google File System Master-Server Chunk-Server Shadow-Master Architektur Google File System. Quelle: [1] Dateisysteme und Datenverwaltung in der Cloud 7 / 22
Verteilte Dateisysteme Google File System Google File System Daten werden an große Dateien angehängt Dateien aufgeteilt in Chunks (64 MB) Architektur Google File System. Quelle: [1] Replikationen Dateisysteme und Datenverwaltung in der Cloud 8 / 22
Verteilte Dateisysteme Hadoop Distributed File System Hadoop Distributed File System Name-Node Data-Nodes Architektur HDFS. Quelle: [2] Dateisysteme und Datenverwaltung in der Cloud 9 / 22
Verteilte Dateisysteme Hadoop Distributed File System Hadoop Distributed File System Anzahl Replikationen in Applikation bestimmt Rack-Awareness Architektur HDFS. Quelle: [2] Dateisysteme und Datenverwaltung in der Cloud 10 / 22
Verteilte Dateisysteme Object Storages Object Storages Gegensatz zu klassischen Dateisystemen Daten werden als Objekte gespeichert Abstraktion der tatsächlichen Speicherung Klassische Dateisysteme (links) und Object Storages (rechts). Quelle: [3] Dateisysteme und Datenverwaltung in der Cloud 11 / 22
Cloud-Speicherdienste Cloud-Speicherdienste Cloud-Speicherdienste Cloud-Servicemodelle: IaaS, PaaS, SaaS Speicherdienste: IaaS Dateisysteme und Datenverwaltung in der Cloud 12 / 22
Cloud-Speicherdienste Amazon Web Services Amazon Web Services Amazon Elastic Block Store (EBS) Amazon Simple Storage Service (S3) Object Storage Objekte in Buckets RESTful und SOAP Schnittstellen Andere Speicherdienste nutzen intern S3 Dateisysteme und Datenverwaltung in der Cloud 13 / 22
Cloud-Speicherdienste Google Google Google Drive mit Web-UI Google Cloud Storage mit RESTful API Object Storage Baut auf GFS auf Dateisysteme und Datenverwaltung in der Cloud 14 / 22
Detail: OpenStack-Speicherdienste OpenStack-Speicherdienste OpenStack-Speicherdienste Open Source Architektur für Cloud-Computing Object Storage (Swift) Architektur-Überblick OpenStack (Ausschnitt). Block Storage (Cinder) Dateisysteme und Datenverwaltung in der Cloud 15 / 22
Detail: OpenStack-Speicherdienste Object Storage - Swift Object Storage - Swift Objekte sind in Containern organisiert Ein Account besitzt mehrere Container Accounts, Container und Objekte. Quelle: [6] Objekte, Container- und Account-Datenbanken werden in Partitionen gespeichert Partitionen. Quelle: [6] Dateisysteme und Datenverwaltung in der Cloud 16 / 22
Detail: OpenStack-Speicherdienste Object Storage - Swift Object Storage - Swift Mehrere Proxy Server (kein Bottleneg) Storage Nodes Zonen (z.b. Festplatte oder Server-Rack) Ring Replikator Überblick Swift. Quelle: [6] Dateisysteme und Datenverwaltung in der Cloud 17 / 22
Detail: OpenStack-Speicherdienste Block Storage - Cinder Block Storage - Cinder Block Speicher Performance-kritische Anwendungen Ein oder mehrere Backend-Speicher-Knoten Volumes Auf jeweils einem Speicher-Knoten Für jeweils eine VM Snapshots als Backups Dateisysteme und Datenverwaltung in der Cloud 18 / 22
Beispiel Beispiel: Swift Beispiel: Swift - 1. Authentifizierung Authentifizierung: $ curl GET -H X-Auth-Key: meinpasswort" -H "X-Auth-User: meinname" http://auth.swiftdrive.com/v1.0 Antwort: X-Storage-Url: X-Auth-Token: http://storage.swiftdrive.com/v1/myacc fc81aaa6-98a1-9ab0-94ba-aba9a89aa9ae Dateisysteme und Datenverwaltung in der Cloud 19 / 22
Beispiel Beispiel: Swift Beispiel: Swift - 2. Container anlegen Container anlegen: $ curl -X PUT -H "X-Auth-Token: fc81aaa6-98a1-9ab0-94ba-aba9a89aa9ae" "http://storage.swiftdrive.com/v1/myacc/container1" Antwort: 201 Created Dateisysteme und Datenverwaltung in der Cloud 20 / 22
Beispiel Beispiel: Swift Beispiel: Swift - 3. Objekt anlegen Objekt anlegen: $ curl -X PUT -H "X-Auth-Token: fc81aaa6-98a1-9ab0-94ba-aba9a89aa9ae" -T bild.jpg "http://storage.swiftdrive.com/v1/myacc/container1/bild.jpg" Antwort: 201 Created Dateisysteme und Datenverwaltung in der Cloud 21 / 22
Quellen (Bilder und Zitate): File:GoogleFileSystemGFS.svg. [online]. Availabe: http://en.wikipedia.org/wiki/file:googlefilesystemgfs.svg. Kiencke, T.: Hadoop Distributed File System (HDFS). ITM-Seminar Ausarbeitung. Universität zu Lübeck, 2013. Mesnier, Ganger, Riedel (August 2003), Object-Based Storage. IEEE Communications Magazine: 84 90. Peter Mell, Timothy Grance: The NIST Definition of Cloud Computing, NIST, 2011. Anuj Sehgal: Introduction to OpenStack. 6th International Conference on Autonomous Infrastructure, Management and Security04 June 2012, University of Luxembourg. OpenStack Cloud Administrator Guide. [online]. Available: http://docs.openstack.org/admin-guide-cloud/content/index.html. Quellen des Inhalts: Siehe Ausarbeitung Dateisysteme und Datenverwaltung in der Cloud 22 / 22