Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken

Transkript

1 7. NoSQL

2 Inhalt 12.1 NoSQL? 12.2 MapReduce & Co 12.3 Key-Value Stores 12.4 Extensible Record Stores 12.5 Dokumentorientierte Datenbanken 12.6 Graphdatenbanken 2

3 12.1 NoSQL? Relationale Datenbanksysteme (RDBMSs) bieten u.a. konzeptuellen Entwurf mit Schema in Normalform (3NF) zur redundanzfreien Speicherung der Daten eine deklarative Anfragesprache SQL, d.h. Anfragen spezifizieren nur das Ergebnis, jedoch nicht wie es ermittelt werden soll ACID-Transaktionen, deren Implementierung Mechanismen wie Sperren und Verlaufsprotokolle benötigt Sicherung der Datenintegrität mittels Constraints (z.b. Fremdschlüssel, UNIQUE, CHECK) Benutzerverwaltung und Berechtigungen 3

4 NoSQL? Konzeptueller Entwurf nimmt an, dass der abzubildende Abschnitt der Realität feststeht; späteres Hinzufügen oder Entfernen von Attributen ist nicht vorgesehen ACID-Transaktionen sind nützlich, aber mit Kosten zur Laufzeit verbunden; nicht alle Anwendungen benötigen sie Deklarative Anfragesprache unterbindet Einflussnahme durch Entwickler auf die Anfragebearbeitung Heutige Datenmengen lassen sich häufig nicht auf einem leistungsstarken Rechner verwalten, sondern müssen über viele Rechner verteilt werden 4

5 NoSQL? Das Schlagwort NoSQL fasst verschiedene Entwicklungen seit Mitte der 2000er Jahre zusammen, z.b. Alternativen zum relationalen Modell (z.b. Modellierung der Daten in Form von Dokumenten oder eines Graphs) Unterstützung flexibler Schema (d.h. Attribute können ohne Einbußen hinzugefügt oder entfernt werden) Verzicht auf deklarative Anfragesprache zu Gunsten von Implementierung der Anfragebearbeitung durch Entwickler Speicherung und Verarbeitung der Daten erfolgt oft verteilt auf viele herkömmliche Rechner, anstatt auf einem oder wenigen sehr leistungsstarken Rechner 5

6 12.2 MapReduce & Co MapReduce [3] ist eine bei Google von Jeff Dean und Sanjay Ghemawat entwickelte Plattform zur verteilen Speicherung und Bearbeitung großer Datenmengen Bestandteile: verteiltes Dateisystem GFS (HDFS bei Hadoop) MapReduce Programmiermodell Herausforderungen: Jeff Dean Lastbalancierung Fehlertoleranz Benutzerfreundlichkeit Sanjay Ghemawat 6

7 Jeff Dean Facts When Jeff Dean designs software, he first codes the binary and then writes the source as documentation. Compilers don t warn Jeff Dean. Jeff Dean warns compilers. Jeff Dean's keyboard has two keys: 1 and 0. When Graham Bell invented the telephone, he saw a missed call from Jeff Dean. Jeff Dean's PIN is the last 4 digits of pi 7

8 Verteiltes Dateisystem GFS (HDFS) Google File System (GFS) verteiltes Dateisystem für Cluster vieler herkömmlicher Rechner konfigurierbare Replikationsfaktor GFS Master (1x) verwaltet den Namensraum GFS master /foo/bar chunk 1df2 chunk 2ef0 chunk 3ef1 GFS client GFS chunkserver koordiniert Replikation von Chunks kommuniziert mit Clients GFS ChunkServers (viele) halten Chunks (typische Größe: 64 MB erhalten/senden Chunks von/zu Clients chunk 2ef0 chunk 5ef0 chunk 3ef1 chunk 1df2 chunk 3ef2 chunk 5af1 control data 8

9 MapReduce als Plattform MapReduce (MR) Plattform zur verteilten Datenverarbeitung Berechnungen werden zu den Daten bewegt kann Ausfälle von Rechnern in Maßen kompensieren MR Master (1x) koordiniert Ausführung eines Jobs MR client MR master assign tasks report progress MR MR worker worker GFS GFS MR MR worker worker chunkserver chunkserver GFS GFS chunkserver chunkserver control verteilt Aufgaben auf Clients MR Workers (viele) führen zugewiesene Aufgaben aus 9

10 MapReduce als Programmiermodell MapReduce setzt auf ein einfaches Programmiermodell, welches von funktionalen Programmiersprachen (z.b. ML und Haskell) inspiriert ist Daten als Schlüssel-Wert-Paare (key-value pairs) Aufgabe in Form von zwei Funktionen ausgedrückt map() : (k1, v1) => list(k2, v2) liest die Eingabedaten als Schlüssel-Wert-Paare (k1, v1) und produziert für jedes einen oder mehrere Schlüssel-Wert-Paare (k2, v2) reduce() : (k2, list(v2)) => list(k3, v3) liest Ausgabe von map() gruppiert und sortiert nach Schlüssel k2 und gibt für jede Gruppe ein oder mehrere Schlüssel-Wert-Paare (k3, v3) aus 10

11 MapReduce als Programmiermodell Funktion map() wird verteilt auf den Eingabedaten im GFS ausgeführt; jeder MR Worker soll die Funktion lokal auf den bei ihm gespeicherten Daten ausführen Zwischen Ausführung der Funktionen map() und reduce() werden die Daten nach den Werten der Schlüssel k2 gruppiert und sortiert; alle Schlüssel-Wert-Paare mit bestimmtem Wert k2 landen auf einem Rechner Funktion reduce() wird verteilt auf gruppierten und sortierten Schlüssel-Wert-Paaren (k2, list(v2)) ausgeführt und schreibt Ausgabe ins GFS 11

12 Wörter Zählen mit MapReduce Problem: Zähle wie oft jedes Wort in einer sehr großen Dokumentensammlung vorkommt 1 map(long did, String content) { 2 for(string word : content.split()) { 3 emit(word, 1); 4 } 5 } 1 reduce(string word, List<long> counts) { 2 int total = 0; 3 for( long count : counts) { 4 sum += count; 5 } 6 emit(word, total); 7 } 12

13 Ausführung in MapReduce Map Sort Reduce d123 a x b b a y M1 (a,d123), (x,d242), 1 m 1 1 (a,d123), (a,d242), R1 (a,4) (b,4) d242 b y a x a b Mn (b,d123), (y,d242), 1 m m m (x,d123), (x,d242), Rm (x,2) (y,2) map() partition() compare() reduce() 13

14 Apache Hadoop Open-Source Implementierung von MapReduce Hadoop File System (HFS) name node (master) data node (chunkserver) Hadoop MapReduce job tracker (master) task tracker (worker) Doug Cutting Produktiver Einsatz auf Clustern mit > Rechnern bei Unternehmen wie Yahoo!, Ebay, etc. 14

15 Apache Hive Apache Hive bietet eine an SQL angelehnte Anfragesprache (Selektion, Projektion, Join) zum Verarbeiten im HDFS gespeicherter Daten (z.b. als CSV-Datei) Anfragen werden automatisch in einen oder mehrere MapReduce-Jobs übersetzt und dann verteilt auf den Daten ausgeführt 15

16 Apache PIG Apache Pig bietet eine Programmiersprache, die Ideen von SQL und prozeduraler Programmiersprachen vereint Programme werden automatisch in ein oder mehrere MapReduce-Jobs übersetzt und dann verteilt auf den Daten ausgeführt 16

17 Beispiel Apache Pig 1 USERS = load data/ users using PigStorage( \t ) 2 as (id:int, chararray, language:chararray, location:chararray); 3 4 TRANSACTIONS = load data/ transactions using PigStorage( \t ) 5 as (id:int, product:int, user:int, purchase_amount:double, description:chararray); 6 7 A = JOIN TRANSACTIONS by user LEFT OUTER, USERS by id; 8 9 B = GROUP A by product; C = FOREACH B { 12 LOCS = DISTINCT A.location; 13 GENERATE group, COUNT(LOCS) as location_count; 14 }; 15 DUMP C; 17

18 Apache Drill und Cloudera Impala Apache Drill und Cloudera Impala erlauben SQL Anfragen für Daten, die z.b. in HDFS gespeichert sind Im Gegensatz zu Apache Hive und Apache Pig werden die Anfragen selbst bearbeitet und nicht in MapReduce-Jobs übersetzt

19 Distributionen von Hadoop & Co Hadoop, Hive, Pig, etc. sind Open-Source Projekte mit großer Unterstützung namhafter Unternehmen; sie entwickeln sich mit unterschiedlicher Geschwindigkeit und es ist nicht garantiert, dass die neuesten Versionen der Projekte miteinander kompatibel sind Distributoren stellen zueinander kompatible Versionen der Projekte mit Dokumentation und zusätzlichen Werkzeugen (z.b. zur Installation) zur Verfügung

20 12.3 Key-Value Stores Key-Value Stores speichern Schlüssel-Wert-Paare wie (37821, Max Müller ) und bieten zumindest folgende Methoden zum Zugriff set(key, value) legt Wert zu Schlüssel ab get(key) holt Wert zu Schlüssel sofern die zugrundeliegende Datenstruktur die Ordnung der Werte beibehält, gibt es zudem Bereichsanfragen range(low, high) holt Werte mit Schlüsseln im Bereich Schlüssel und Werte sind intern meist byte[], Entwickler muss sich um Serialisierung/Deserialisierung kümmern 20

21 BerkeleyDB BerkeleyDB ist ein Key-Value-Store zum Betrieb auf einem Rechner, der zudem (ähnlich SQLite) in Anwendungen eingebettet werden kann BerkeleyDB basiert auf einem B + -Baum als Datenstruktur und unterstützt somit auch Bereichsanfragen BerkeleyDB Java Edition bietet sogenannte Stored Collections; diese implementieren die von Java bekannten Interfaces List und Map und lagern Daten transparent im Sekundärspeicher aus 21

22 Redis Redis ist ein verteilter Key-Value Store, der Daten im Hauptspeicher der Rechner hält, sofern keine Dauerhaftigkeit sichergestellt werden muss Replikation (d.h. die gleichen Daten werden mehrfach gehalten) erlaubt zudem eine Skalierung bei Wachstum der Anfragelast 22

23 12.4 Extensible Record Stores Extensible Record Stores erweitern die Idee von Key- Value Stores, indem sie für den Wert eine Struktur (ähnlich dem Schema einer Tabelle) zulassen Schlüssel ist weiterhin z.b. ein byte[] Wert besteht aus Paaren von Spaltenname und -wert Im Gegensatz zum relationalen Modell gibt es kein fixes Schema und das System ist für dünnbesetzte Daten optimiert, d.h. Spalten für die meisten Daten unbekannt BigTable als ein bei Google entwickeltes System war Vorreiter der Extensible Record Stores 23

24 Hbase & Co Open-Source Implementierung von Google s BigTable [4] Daten werden im verteilten Dateisystem HDFS von Hadoop gespeichert und repliziert zur Lastverteilung und Ausfallsicherheit Transaktionen nur für Zugriff auf einzelne Schlüssel Ähnliches Projekt: 24

25 12.5 Dokumentorientierte Datenbanken Dokumentenorientierte Datenbanken (document databases) modellieren die Daten als Dokumente in einem Format wie JSON (JavaScript Object Notation) Beispiel: Student als JSON-Dokument 1 { 2 " matrnr" : 37821, 3 " name" : " Max", 4 " vorname" : "Mü ller", 5 " semester" : 9, 6 " anschrift" : { 7 " strasse" : " hauptstraße", 8 " hausnummer" : 34, 9 " plz" : 66117, 10 " stadt" : " saarbrücken" 11 } 12 " vorlesungen" : [" Datenbanken"," Programmierung 2"] 13 } 25

26 Dokumentenorientierte Datenbanken Zugriff auf so gespeicherte Daten dann mittels Anfrageprädikaten z.b. 1 {name:" Max", semester:9} Systeme bieten teilweise zusätzliche Funktionalität Gruppierung und Aggregation (MongoDB) MapReduce zur Anfrageformulierung (CouchDB) Indizes auf ausgewählten Attributen (MongoDB, CouchDB) Verteilung und Replikation zur Skalierung bei großen Datenmengen und/oder hoher Anfragelast 26

27 MongoDB & CouchDB MongoDB erwartet Dokumente im JSON-Format; erlaubt Anfrageterminologie an SQL angelehnt CouchDB erwartet Dokumente im JSON-Format; erlaubt Implementierung von Anfragen in MapReduce 27

28 12.6 Graphdatenbanken Graphdatenbanken (graph databases) modellieren die Daten als einen gerichteten Graphen mit Beschriftungen an Knoten und Kanten hört VorlNr: 1303 Titel : Datenbanken SWS : 4 liest MatrNr: Vorname : Max Name : Müller Semester : 9 ProfNr: 22 Vorname : Donald Name : Knuth 28

29 Graphdatenbanken Festes Schema, wie beim relationalen Modell, ist meist nicht erforderlich, d.h. neue Beschriftungen für Kanten und Knoten können hinzugefügt werden Triple Stores für Daten im Semantic-Web Format RDF mit Anfragesprache SPARQL sind Spezialfall von Graphdatenbanken Anfragen als Pfadausdrücken formuliert, z.b. 1 (?s) = hört => v <= liest ( ) => liest (titel : " Datenbanken") findet Studenten, die Vorlesung beim Professor hören, der (auch) Datenbanken liest 29

30 Neo4J Neo4J zum Betrieb auf einem Rechner; bietet mit Cypher eine eigene Anfragesprache, die auch Graphoperationen wie kürzeste Pfade unterstützt OrientDB zum Betrieb auf mehreren Rechnern; unterstützt SQL als Anfragesprache 30

31 Zusammenfassung NoSQL bieten Alternativen zu RDBMSs für Anwendungen, die z.b. keine ACID-Transaktionen benötigen, kein rigides Schema festlegen können oder ihre Daten auf viele herkömmliche Rechner verteilen müssen Bei rudimentären Systemen (z.b. Key-Value Stores) müssen Entwickler vieles, was bei einem RDBMS gegeben ist, beispielsweise Joins, selbst implementieren SQL als Anfragesprache spielt auch in NoSQL-Systemen eine Rolle und wird zunehmend nachgerüstet (z.b. Apache Drill und Cloudera Impala) 31

32 Literatur [1] A. Kemper und A. Eickler: Datenbanksysteme Eine Einführung, De Gruyter Oldenbourg, 2015 (Kapitel 21) [2] L. Wiese: Advanced Data Management for SQL, NoSQL, Cloud and Distributed Databases, DeGruyter, 2015 [3] J. Dean und S. Ghemawat: MapReduce: a flexible data processing tool, OSDI 2004 [4] F. Chang, J. Dean, S. Ghemawat, W. C. Hsieh, D. A. Wallach, M. Burrows, T. Chandra, A. Fikes, R. E. Gruber: Bigtable: A Distributed Storage System for Structured Data, ACM TODS 26(2),