Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

Transkript

1 Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern

2 , NoSQL source:dilbert.com Inhalte der nächsten Vorlesungen ˆ Methoden große Datenmengen (Big Data!) zu verarbeiten, insbesondere ˆ Das -Framework (Hadoop) sowie ˆ Cloud-Computing und NoSQL Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 2 / 36

3 , NoSQL Große Datenmengen Beispiel: Google ˆ Viele Milliarden Webseiten ˆ Terabytes an Daten ˆ Nicht nur Webseiten ˆ Auch Videos (Youtube), Bilder, Benutzerprofile, s ˆ Interne Daten: HTTP (etc) Access-Logs source: Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 3 / 36

4 , NoSQL Problem und Konsequenzen Lesen von Festplatte ˆ Nehmen wir an wir haben eine 10 TB große Datei auf der Festplatte ˆ Wir möchten die Daten (z.b. Twitter tweets) nun analysieren ˆ Mit einer Festplatte mit 100MB/s Lesegeschwindigkeit (sequentielles Lesen) brauchen wir alleine für das Lesen an sich ˆ Sekunden ˆ bzw Minuten ˆ bzw. 27 Stunden Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 4 / 36

5 , NoSQL Geschätzte Datenmengen ˆ Google: PB (=15 Exabytes) ˆ Facebook: 300 PB ˆ Ebay: 90 PB ˆ Spotify: 10 PB Verarbeitete Datenmenge pro Tag ˆ Google: 100 PB ˆ Ebay: 100 PB ˆ NSA: 29 PB ˆ Facebook: 600 TB ˆ Twitter: 100 TB ˆ Spotify: 2,2 TB MB = 10 6 Bytes GB=10 9 Bytes TB (Terabyte)=10 12 Bytes PB (Petabyte)=10 15 Bytes EB (Exabyte)=10 18 Bytes Quelle: https: //followthedata.wordpress.com/2014/06/24/data-size-estimates/ Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 5 / 36

6 Gigabyte, Terabyte, Petabyte, NoSQL Aus Platzgründen nur teilweise dargestellt Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 6 / 36

7 , NoSQL Horizontale vs. Vertikale Skalierung ˆ Horizontale Skalierung (scale out): Viele Maschinen (hunderte, tausende) in Rechenzentren ˆ Vertikale Skalierung (scale up): Aufrüsten eines Servers; mehr RAM, mehr/bessere CPU, mehr Festplattenspeicher,... Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 7 / 36

8 , NoSQL Data Centers source:google Tour durch ein Google-Data-Center via Google-Street-View. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 8 / 36

9 , NoSQL Hardware Fehler ˆ Viele Maschinen, also viel Hardware die kaputt gehen kann. ˆ D.h. Hardwarefehler treten häufig auf und sind keine seltene Ausnahme. Sagen wir z.b. eine bestimmte Maschine fällt ein Mal im Jahr aus, also P [Maschine fällt heute aus] = Wir haben n Maschinen: für n=1: für n=10: für n=100: für n=1000: für n=10 000: 1.0 P [Heute fällt mindestens eine Maschine aus] = 1 (1 P [Maschine fällt heute aus]) n Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 9 / 36

10 , NoSQL Wo befinden sich die Daten? Verteiltes Dateisystem ˆ Datendateien liegen in einem verteilten Dateisystem. ˆ Organisation in Blöcke, typischerweise 64MB oder 128MB (!) groß. ˆ Diese Blöcke werden sind repliziert, verteilt über mehrere Maschinen. Block Knoten Datenverarbeitung ˆ Falls möglich werden Prozesse der Datenverarbeitung auf Maschinen ausgeführt wo sich bereits benötigte Daten befinden. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 10 / 36

11 , NoSQL Wie sehen die Daten aus? Beispiel: Twitter {"created_at":"wed Jan 21 15:21: ","id": ,"id_str":" ","text":"#T ulsaairport #Oklahoma Jan 21 08:53 Temperature 37\u00b0F clouds Wind NW 7 km\/h Humidity 85%.. /SnC8ST3gQC","source":"\u003ca href=\" rel=\"nofollow\"\u003eupd ate weather tulsa\u003c\/a\u003e","truncated":false,"in_reply_to_status_id":null,"in_reply_to_status_id_str":nu ll,"in_reply_to_user_id":null,"in_reply_to_user_id_str":null,"in_reply_to_screen_name":null,"user":{"id": ,"id_str":" ","name":"Weather Tulsa","screen_name":"wo_tulsa","location":"Tulsa","url":" nes.apple.com\/app\/weatheronline\/id ?mt=8","description":"weather Tulsa\n\nhttp:\/\/ \/USA\/Tulsa.htm","protected":false,"verified":false,"followers_count":111,"friends_count":60,"listed_count":5, "favourites_count":0,"statuses_count":33805,"created_at":"sun Feb 20 20:31: ","utc_offset":7200,"ti me_zone":"athens","geo_enabled":false,"lang":"en","contributors_enabled":false,"is_translator":false,"profile_b ackground_color":"c0deed","profile_background_image_url":" g","profile_background_image_url_https":" ground_tile":false,"profile_link_color":"0084b4","profile_sidebar_border_color":"c0deed","profile_sidebar_fill_ color":"ddeef6","profile_text_color":"333333","profile_use_background_image":true,"profile_image_url":" /pbs.twimg.com\/profile_images\/ \/wo-20px-linien_normal.png","profile_image_url_https":" e":false,"following":null,"follow_request_sent":null,"notifications":null},"geo":null,"coordinates":null,"place ":null,"contributors":null,"retweet_count":0,"favorite_count":0,"entities":{"hashtags":[{"text":"tulsaairport", "indices":[0,13]},{"text":"oklahoma","indices":[14,23]}],"trends":[],"urls":[{"url":" :[],"symbols":[]},"favorited":false,"retweeted":false,"possibly_sensitive":false,"filter_level":"low","lang":"e n","timestamp_ms":" "} {"created_at":"wed Jan 21 15:21: ","id": ,"id_str":" ","text":"An ime episode updated: Kyoukai no Kanata: Mini Theater # 6 ( ) #MalUpdater","source":"\ u003ca href=\" rel=\"nofollow\"\u003emal Updater\u003c\/a\u003e","truncated":false,"in_reply_to_status_id":null,"in_reply_to_status_id_str":null,"in_reply_to_user_id":null,"in_reply_to_user_id_ str":null,"in_reply_to_screen_name":null,"user":{"id": ,"id_str":" ","name":"origingenesis"," screen_name":"clowreed303","location":"canada","url":" Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 11 / 36

12 , NoSQL Wie sehen die Daten aus? Beispiel: Access Logs [14/Jan/2013:21:16: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:17: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:17: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:18: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:18: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:19: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:19: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:20: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:20: ] "GET /daytrader/scenario HTTP/1.1" Quelle: ibm.com Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 12 / 36

13 , NoSQL Wie sehen die Daten aus? Beispiel: Relationale Daten in CSV-Dateien "persnr";"name";"rang";"raum" 2125;"Sokrates";"C4"; ;"Russel";"C4"; ;"Kopernikus";"C3"; ;"Popper";"C3"; ;"Augustinus";"C3"; ;"Curie";"C4"; ;"Kant";"C4";7 Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 13 / 36

14 , NoSQL Screenshot: Datei mit Tweets im verteilten Dateisystem Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 14 / 36

15 , NoSQL Motivation: Big Data Analytics Algorithmen zur Datenanalyse ˆ Wie häufig kommt ein Wort in den HTML Dokumenten vor? ˆ Wie häufig treten Worte zusammen auf? ˆ Was sind die einflussreichsten Webseiten? ˆ Was waren die Twitter-Trends der vergangenen Woche? ˆ Welche Suchbegriffe sind am populärsten? Paradigma und Ziel ˆ Sammle Daten und analysiere sie später ˆ Ziel: Gewinnung von Erkenntnissen/Informationen! ˆ Teilweise hoher materieller Wert (Platzierung von Werbung, Empfehlung von Produkten) Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 15 / 36

16 , NoSQL Map und Reduce: Grundlegende Idee ˆ Verteile Datenverarbeitung auf mehrere (viele) Maschinen ˆ Map und Reduce Regeln geben an wie Daten verteilt werden (map) und wie Teilergebnisse am Ende zusammengeführt werden. ˆ High Level. Funktionale Programmierung. ˆ System (Implementierung) kümmert sich um Ausfälle von einzelnen Maschinen, Lastbalancierung etc. Map-Phase ˆ Daten werden von (mehreren) Map-Processen eingelesen und auf Maschinen verteilt. Reduce-Phase ˆ Anhand eines Schlüssel werden Daten auf Maschinen gruppiert (gesammelt) und aggregiert (reduziert) Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 16 / 36

17 , NoSQL - Veranschaulichung der Phasen Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 17 / 36

18 , NoSQL Funktionale Programmierung: Map ˆ Befehl: map ˆ Typ: (a->b) -> [a] -> [b] Definition map f [] = [] map f (x:xs) = f x : map f xs f f f f f f Beispiel (Hugs98 Haskell) ˆ map (\x-> x*x) [1,2,3,4] Ergibt [1,4,9,16] Beobachtung f f ˆ Offensichtlich kann die Funktion f auf die einzelnen Elemente der Eingabe parallel ausgeführt werden. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 18 / 36

19 , NoSQL Funktionale Programmierung: Reduce (aka. fold) ˆ Befehl: foldl ˆ Typ: (a->b->a)->a->[b]->a Definition foldl f z [] = z foldl f z (x:xs) = foldl f (f z x) xs Beispiel ˆ foldl (+) 0 [1,2,3,4,5] ˆ Ergibt 15 Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 19 / 36

20 , NoSQL : Worthäufigkeiten Berechnen Zwei Eingaben (Blöcke einer Datei) mit Text (hier mit je nur einer Zeile): 1. One ring to rule them all, one ring to find them, 2. One ring to bring them all and in the darkness bind them. map(string key, string value) { for each word w in value emit(w,1) } Diese Map-Funktion wird auf alle Zeilen in allen Fragmenten der Eingabe (Datei) angewendet. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 20 / 36

21 , NoSQL Map der Zeilen auf Worte und Zähler (Counts) ˆ Ausgabe von Map-Task Nr.1 (Zeile 1): ( one,1) ( ring,1) ( to,1) ( rule,1) ( them,1) ( all,1) ( one,1) ( ring,1) ( to,1) ( find,1) ( them,1) ˆ Ausgabe von Map-Task Nr. 2 (Zeile 2): ( one,1) ( ring,1) ( to,1) ( bring,1) ( them,1) ( all,1) ( and,1) ( in,1) ( the,1) ( darkness,1) ( bind,1) ( them,1) reduce(string key, iterator values) { int result=0 for each v in values result+=v emit(key, result) } Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 21 / 36

22 , NoSQL : Verteilung von Daten und Arbeit ˆ Viele Daten-Blöcke ˆ Map-Prozess wird auf jeden dieser Blöcke angewendet ˆ Map-Funktion auf Inhalte (z.b. Zeilen) anwenden: Ausgabe sind Daten mit Schlüssel ˆ Dieser Schlüssel wird benutzt um Daten auf Maschinen zu verteilen ˆ Für jede Gruppe von Daten (gruppiert nach Schlüssel) wird die Reduce-Funktion aufgerufen. Anmerkung ˆ Für diese Vorlesung ist es erstmal nur wichtig zu wissen, dass es mehrere Map-Prozesse und mehrere Reduce-Prozesse gibt. ˆ Und zu schauen, dass mit Hilfe von (sorgfältig) gewählten Schlüsseln Daten dort hin gelangen woe sie hinkommen sollen! ˆ I.d.R. wird für jeden Block ein Map-Prozess gestartet, aber das schauen wir uns in der DDM-Vorlesung (SoSe 15) genauer an. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 22 / 36

23 , NoSQL Formal: Map und Reduce Funktionen ˆ map(k1, v1) list(k2, v2) ˆ reduce(k2, list(v2)) list(k3, v3) Schlüssel (Keys) erlauben Daten Maschinen zu zuordnen. Beispiel für Schlüssel ˆ k1 = Id eines Dokuments (oder Offset in Datei) ˆ v1 = Inhalt des Dokuments (oder Zeile in Datei) ˆ k2 = Wort ˆ v2 = Zähler ˆ k3 = Wort ˆ v3 = Zähler Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 23 / 36

24 , NoSQL Beispiel: Grep Gegeben eine Datei, gebe alle Zeilen aus, die ein bestimmtes Muster (Pattern) enthalten. Wie bei dem Unix-Kommando grep. map(string key, string value) { if value.contains(pattern) then emit(value, ) } Dies ist ein map only Task. Es gibt gar keinen Reducer, also kein finales Gruppieren nach Key. Ausgabe wird direkt ins Dateisystem geschrieben. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 24 / 36

25 , NoSQL Anmerkung Word-Count Beispiel map(string key, string value) { for each word w in value emit(w,1) } ˆ Dies ist nur eine Möglichkeit Word-Count zu implementieren. ˆ Wie könnte eine Alternative aussehen? Bereits in Map nicht nur für jedes Vorkommen 1 ausgeben, sondern aggregiert für die ganze Zeichenkette value. Etwas komplexer. Aber weniger Information, die über Netzwerk geschickt werden müssen. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 25 / 36

26 , NoSQL Beispielanwendung: Access-Log Analyse Logid IPAdresse Datum Zeit Seite Quelle /2/ :22:00 /news/ Google /2/ :45:00 /wetter/index.html Yahoo /2/ :23:00 /home/ Google /9/ :11:00 /home/ Bing /2/ :09:00 /news/ Google /9/ :09:00 /lottery/ Bing ˆ Finde häufig zugegriffene URLs pro IP-Adresse ˆ Finde IP-Adressen mit mehr als X Zugriffen pro Stunde Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 26 / 36

27 , NoSQL Beispielanwendung: Aufbauen eines Invertierten-Index ˆ Gegeben eine Menge von Text-Dateien ˆ Erzeuge einen Invertierten-Index ˆ D.h. für jedes Wort eine Liste der Dokumenten-Identifier, die auf Dokumente verweisen in denen der Term auftritt. ring [18,8,1,...] rule [17,3,9,12,...] ˆ Wie kann dies in berechnet werden? Map benutzt in der Ausgabe das Wort (z.b. ring) als Schlüssel und als Wert (value) die ID des Dokuments. Somit gelangen alle IDs in denen ring auftritt auf einem Reducer. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 27 / 36

28 , NoSQL Beispielanwendung: Auftreten von Wort-Paaren ˆ Gegeben eine Text-Datei (oder mehrere Dateien) ˆ Wir möchten für Worte a und b berechnen wie oft a und b zusammen auftreten, z.b. in einem Satz. ˆ D.h. die Ausgabe hat die Form ([a, b], count) ˆ Wie kann dies in berechnet werden? Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 28 / 36

29 , NoSQL Beispielanwendung: Auftreten von Wort-Paaren (2) Paar-Ansatz (Pairs) ˆ mapper für eine Zeichenkette s betrachte alle Wort-Paare (a, b) aus s: emit({a,b}, 1) ˆ reducer summiert einfach die Zähler auf Streifen-Approach (Stripes) ˆ mapper für eine Zeichenkette s for each a in s: collect all t i die zusammen mit a auftreten emit(a, {t 1, t 2,... t n }) ˆ reducer aggregiert (wie?) Wo liegt der Unterschied? Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 29 / 36

30 , NoSQL Beispielanwendung: PageRank ˆ Gegeben ein Graph von Webseiten mit Kanten, die den Verweisen (Links) entsprechen ˆ PageRank: Berechne Autorität einer Seite basierend auf eingehender Links anderer Seiten (rekursiv) ˆ Wird benutzt um Suchergebnisse zu gewichten (neben Methoden die den Seiteninhalt bewerten) ˆ Implementierung in : Iterative Phasen (Details in der DDM Vorlesung) Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 30 / 36

31 , NoSQL Berechnung (Ablauf) Ein Master-Knoten kontrolliert Berechnung ˆ Hier schickt man den Auftrag (Job) hin ˆ Berechnet notwendige Map und Reduce Schritte ˆ Wählt Arbeiter-Knoten (worker nodes) aus und aktiviert diese Arbeiter-Knoten ˆ Für Map-Schritte: Wird falls möglich nah an Daten gewählt. ˆ Reduce-Schritte: Konsumieren Zwischenergebnisse von den Map-Schritten und erzeugen Endergebnis. Die Rolle des verteilten Dateisystems ˆ Hier liegen die Daten ˆ Hier werden die Ergebnisse und Zwischenergebnisse abgelegt Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 31 / 36

32 , NoSQL SQL in : Selektion und Projektion Gegeben eine Relation R mit sch(r) = (A, B,...). Tupel sind in einer Datei gespeichert (z.b. als CSV-Datei). Wie können typische SQL Anfragen ausgeführt werden? Selektion ˆ WHERE Klausel kann leicht in Map-Phase überprüft werden. ˆ Wie bei dem Grep-Beispiel. ˆ Kein Reducer erforderlich. Projektion ˆ Ebenfalls offensichtlich: Nur gewünschte Attribute der Tupel werden ausgegeben (emit). ˆ Auch hier ist kein Reducer notwendig. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 32 / 36

33 , NoSQL SQL in : Group-By, Aggregate, Having select abteilung, avg(gehalt) from gehaelter group by abteilung having avg(gehalt) > Group-By, Aggregate ˆ Map: Sendet Tupel zu Reducer anhand des Attributs, nach dem gruppiert wird, hier der Abteilung, als Schlüssel. ˆ Reducer erhält somit alle Tupel die gleichen Wert für Abteilung haben und kann dann gruppieren. Having ˆ Having ist ein Überprüfung einer Eigenschaft auf den Daten einer Gruppe, wird also auch im Reducer ausgeführt. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 33 / 36

34 , NoSQL Wie kann dieser Join mit Hilfe von realisiert werden? Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 34 / 36 SQL in : Joins in Ein einfacher Equi-Join zwischen zwei Relationen R und S mit sch(r) = (A, B) und sch(s) = (B, C), also select * from R, S where R.B=S.B Beispielausprägung der Relationen: R A B x 18 y 9 w S B C 6 w 5 e 9 r......

35 , NoSQL Joins in ˆ Offensichtlich muss geschaut werden welche Tupel aus R und S verbunden (gejoint) werden können. ˆ Im Fall des Natürlichen-Joins ist dies besonders einfach: Ergebnisse müssen, hier im Beispiel, im Attribut B übereinstimmen, also R.B = S.B Bzw. analog für Equi-Joins. ˆ Wie kann man erreichen, dass Tupel mit gleichem Attributwert für B auf der gleichen Maschine landen? Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 35 / 36

36 , NoSQL Reduce-Side Join (Equi-Join) Map ˆ Sende Tupel t zu Reducer anhand Schlüssel t.b ˆ Zusätzlich zum Tupel wird auch noch mitgeschickt ob t aus R oder aus S ist. Wieso? Reduce ˆ Joine Tupel t 1, t 2 falls t 1.b = t 2.b und t 1 aus R ist und t 2 aus S. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 36 / 36