Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

Größe: px
Ab Seite anzeigen:

Download "Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de"

Transkript

1 Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern

2 , NoSQL source:dilbert.com Inhalte der nächsten Vorlesungen ˆ Methoden große Datenmengen (Big Data!) zu verarbeiten, insbesondere ˆ Das -Framework (Hadoop) sowie ˆ Cloud-Computing und NoSQL Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 2 / 36

3 , NoSQL Große Datenmengen Beispiel: Google ˆ Viele Milliarden Webseiten ˆ Terabytes an Daten ˆ Nicht nur Webseiten ˆ Auch Videos (Youtube), Bilder, Benutzerprofile, s ˆ Interne Daten: HTTP (etc) Access-Logs source: Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 3 / 36

4 , NoSQL Problem und Konsequenzen Lesen von Festplatte ˆ Nehmen wir an wir haben eine 10 TB große Datei auf der Festplatte ˆ Wir möchten die Daten (z.b. Twitter tweets) nun analysieren ˆ Mit einer Festplatte mit 100MB/s Lesegeschwindigkeit (sequentielles Lesen) brauchen wir alleine für das Lesen an sich ˆ Sekunden ˆ bzw Minuten ˆ bzw. 27 Stunden Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 4 / 36

5 , NoSQL Geschätzte Datenmengen ˆ Google: PB (=15 Exabytes) ˆ Facebook: 300 PB ˆ Ebay: 90 PB ˆ Spotify: 10 PB Verarbeitete Datenmenge pro Tag ˆ Google: 100 PB ˆ Ebay: 100 PB ˆ NSA: 29 PB ˆ Facebook: 600 TB ˆ Twitter: 100 TB ˆ Spotify: 2,2 TB MB = 10 6 Bytes GB=10 9 Bytes TB (Terabyte)=10 12 Bytes PB (Petabyte)=10 15 Bytes EB (Exabyte)=10 18 Bytes Quelle: https: //followthedata.wordpress.com/2014/06/24/data-size-estimates/ Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 5 / 36

6 Gigabyte, Terabyte, Petabyte, NoSQL Aus Platzgründen nur teilweise dargestellt Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 6 / 36

7 , NoSQL Horizontale vs. Vertikale Skalierung ˆ Horizontale Skalierung (scale out): Viele Maschinen (hunderte, tausende) in Rechenzentren ˆ Vertikale Skalierung (scale up): Aufrüsten eines Servers; mehr RAM, mehr/bessere CPU, mehr Festplattenspeicher,... Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 7 / 36

8 , NoSQL Data Centers source:google Tour durch ein Google-Data-Center via Google-Street-View. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 8 / 36

9 , NoSQL Hardware Fehler ˆ Viele Maschinen, also viel Hardware die kaputt gehen kann. ˆ D.h. Hardwarefehler treten häufig auf und sind keine seltene Ausnahme. Sagen wir z.b. eine bestimmte Maschine fällt ein Mal im Jahr aus, also P [Maschine fällt heute aus] = Wir haben n Maschinen: für n=1: für n=10: für n=100: für n=1000: für n=10 000: 1.0 P [Heute fällt mindestens eine Maschine aus] = 1 (1 P [Maschine fällt heute aus]) n Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 9 / 36

10 , NoSQL Wo befinden sich die Daten? Verteiltes Dateisystem ˆ Datendateien liegen in einem verteilten Dateisystem. ˆ Organisation in Blöcke, typischerweise 64MB oder 128MB (!) groß. ˆ Diese Blöcke werden sind repliziert, verteilt über mehrere Maschinen. Block Knoten Datenverarbeitung ˆ Falls möglich werden Prozesse der Datenverarbeitung auf Maschinen ausgeführt wo sich bereits benötigte Daten befinden. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 10 / 36

11 , NoSQL Wie sehen die Daten aus? Beispiel: Twitter {"created_at":"wed Jan 21 15:21: ","id": ,"id_str":" ","text":"#T ulsaairport #Oklahoma Jan 21 08:53 Temperature 37\u00b0F clouds Wind NW 7 km\/h Humidity 85%.. /SnC8ST3gQC","source":"\u003ca href=\"http:\/\/www.woweather.com\/usa\/tulsaiap.htm\" rel=\"nofollow\"\u003eupd ate weather tulsa\u003c\/a\u003e","truncated":false,"in_reply_to_status_id":null,"in_reply_to_status_id_str":nu ll,"in_reply_to_user_id":null,"in_reply_to_user_id_str":null,"in_reply_to_screen_name":null,"user":{"id": ,"id_str":" ","name":"Weather Tulsa","screen_name":"wo_tulsa","location":"Tulsa","url":"http:\/\/itu nes.apple.com\/app\/weatheronline\/id ?mt=8","description":"weather Tulsa\n\nhttp:\/\/www.woweather.com \/USA\/Tulsa.htm","protected":false,"verified":false,"followers_count":111,"friends_count":60,"listed_count":5, "favourites_count":0,"statuses_count":33805,"created_at":"sun Feb 20 20:31: ","utc_offset":7200,"ti me_zone":"athens","geo_enabled":false,"lang":"en","contributors_enabled":false,"is_translator":false,"profile_b ackground_color":"c0deed","profile_background_image_url":"http:\/\/abs.twimg.com\/images\/themes\/theme1\/bg.pn g","profile_background_image_url_https":"https:\/\/abs.twimg.com\/images\/themes\/theme1\/bg.png","profile_back ground_tile":false,"profile_link_color":"0084b4","profile_sidebar_border_color":"c0deed","profile_sidebar_fill_ color":"ddeef6","profile_text_color":"333333","profile_use_background_image":true,"profile_image_url":"http:\/\ /pbs.twimg.com\/profile_images\/ \/wo-20px-linien_normal.png","profile_image_url_https":"https:\/\/pbs.twimg.com\/profile_images\/ \/wo-20px-linien_normal.png","default_profile":true,"default_profile_imag e":false,"following":null,"follow_request_sent":null,"notifications":null},"geo":null,"coordinates":null,"place ":null,"contributors":null,"retweet_count":0,"favorite_count":0,"entities":{"hashtags":[{"text":"tulsaairport", "indices":[0,13]},{"text":"oklahoma","indices":[14,23]}],"trends":[],"urls":[{"url":"http:\/\/t.co\/snc8st3gqc","expanded_url":"http:\/\/bit.ly\/188encw","display_url":"bit.ly\/188encw","indices":[93,115]}],"user_mentions" :[],"symbols":[]},"favorited":false,"retweeted":false,"possibly_sensitive":false,"filter_level":"low","lang":"e n","timestamp_ms":" "} {"created_at":"wed Jan 21 15:21: ","id": ,"id_str":" ","text":"An ime episode updated: Kyoukai no Kanata: Mini Theater # 6 ( ) #MalUpdater","source":"\ u003ca href=\"http:\/\/www.malupdater.com\" rel=\"nofollow\"\u003emal Updater\u003c\/a\u003e","truncated":false,"in_reply_to_status_id":null,"in_reply_to_status_id_str":null,"in_reply_to_user_id":null,"in_reply_to_user_id_ str":null,"in_reply_to_screen_name":null,"user":{"id": ,"id_str":" ","name":"origingenesis"," screen_name":"clowreed303","location":"canada","url":"http:\/\/myanimelist.net\/profile\/origingenesis" Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 11 / 36

12 , NoSQL Wie sehen die Daten aus? Beispiel: Access Logs [14/Jan/2013:21:16: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:17: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:17: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:18: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:18: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:19: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:19: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:20: ] "GET /daytrader/scenario HTTP/1.1" [14/Jan/2013:21:20: ] "GET /daytrader/scenario HTTP/1.1" Quelle: ibm.com Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 12 / 36

13 , NoSQL Wie sehen die Daten aus? Beispiel: Relationale Daten in CSV-Dateien "persnr";"name";"rang";"raum" 2125;"Sokrates";"C4"; ;"Russel";"C4"; ;"Kopernikus";"C3"; ;"Popper";"C3"; ;"Augustinus";"C3"; ;"Curie";"C4"; ;"Kant";"C4";7 Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 13 / 36

14 , NoSQL Screenshot: Datei mit Tweets im verteilten Dateisystem Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 14 / 36

15 , NoSQL Motivation: Big Data Analytics Algorithmen zur Datenanalyse ˆ Wie häufig kommt ein Wort in den HTML Dokumenten vor? ˆ Wie häufig treten Worte zusammen auf? ˆ Was sind die einflussreichsten Webseiten? ˆ Was waren die Twitter-Trends der vergangenen Woche? ˆ Welche Suchbegriffe sind am populärsten? Paradigma und Ziel ˆ Sammle Daten und analysiere sie später ˆ Ziel: Gewinnung von Erkenntnissen/Informationen! ˆ Teilweise hoher materieller Wert (Platzierung von Werbung, Empfehlung von Produkten) Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 15 / 36

16 , NoSQL Map und Reduce: Grundlegende Idee ˆ Verteile Datenverarbeitung auf mehrere (viele) Maschinen ˆ Map und Reduce Regeln geben an wie Daten verteilt werden (map) und wie Teilergebnisse am Ende zusammengeführt werden. ˆ High Level. Funktionale Programmierung. ˆ System (Implementierung) kümmert sich um Ausfälle von einzelnen Maschinen, Lastbalancierung etc. Map-Phase ˆ Daten werden von (mehreren) Map-Processen eingelesen und auf Maschinen verteilt. Reduce-Phase ˆ Anhand eines Schlüssel werden Daten auf Maschinen gruppiert (gesammelt) und aggregiert (reduziert) Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 16 / 36

17 , NoSQL - Veranschaulichung der Phasen Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 17 / 36

18 , NoSQL Funktionale Programmierung: Map ˆ Befehl: map ˆ Typ: (a->b) -> [a] -> [b] Definition map f [] = [] map f (x:xs) = f x : map f xs f f f f f f Beispiel (Hugs98 Haskell) ˆ map (\x-> x*x) [1,2,3,4] Ergibt [1,4,9,16] Beobachtung f f ˆ Offensichtlich kann die Funktion f auf die einzelnen Elemente der Eingabe parallel ausgeführt werden. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 18 / 36

19 , NoSQL Funktionale Programmierung: Reduce (aka. fold) ˆ Befehl: foldl ˆ Typ: (a->b->a)->a->[b]->a Definition foldl f z [] = z foldl f z (x:xs) = foldl f (f z x) xs Beispiel ˆ foldl (+) 0 [1,2,3,4,5] ˆ Ergibt 15 Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 19 / 36

20 , NoSQL : Worthäufigkeiten Berechnen Zwei Eingaben (Blöcke einer Datei) mit Text (hier mit je nur einer Zeile): 1. One ring to rule them all, one ring to find them, 2. One ring to bring them all and in the darkness bind them. map(string key, string value) { for each word w in value emit(w,1) } Diese Map-Funktion wird auf alle Zeilen in allen Fragmenten der Eingabe (Datei) angewendet. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 20 / 36

21 , NoSQL Map der Zeilen auf Worte und Zähler (Counts) ˆ Ausgabe von Map-Task Nr.1 (Zeile 1): ( one,1) ( ring,1) ( to,1) ( rule,1) ( them,1) ( all,1) ( one,1) ( ring,1) ( to,1) ( find,1) ( them,1) ˆ Ausgabe von Map-Task Nr. 2 (Zeile 2): ( one,1) ( ring,1) ( to,1) ( bring,1) ( them,1) ( all,1) ( and,1) ( in,1) ( the,1) ( darkness,1) ( bind,1) ( them,1) reduce(string key, iterator values) { int result=0 for each v in values result+=v emit(key, result) } Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 21 / 36

22 , NoSQL : Verteilung von Daten und Arbeit ˆ Viele Daten-Blöcke ˆ Map-Prozess wird auf jeden dieser Blöcke angewendet ˆ Map-Funktion auf Inhalte (z.b. Zeilen) anwenden: Ausgabe sind Daten mit Schlüssel ˆ Dieser Schlüssel wird benutzt um Daten auf Maschinen zu verteilen ˆ Für jede Gruppe von Daten (gruppiert nach Schlüssel) wird die Reduce-Funktion aufgerufen. Anmerkung ˆ Für diese Vorlesung ist es erstmal nur wichtig zu wissen, dass es mehrere Map-Prozesse und mehrere Reduce-Prozesse gibt. ˆ Und zu schauen, dass mit Hilfe von (sorgfältig) gewählten Schlüsseln Daten dort hin gelangen woe sie hinkommen sollen! ˆ I.d.R. wird für jeden Block ein Map-Prozess gestartet, aber das schauen wir uns in der DDM-Vorlesung (SoSe 15) genauer an. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 22 / 36

23 , NoSQL Formal: Map und Reduce Funktionen ˆ map(k1, v1) list(k2, v2) ˆ reduce(k2, list(v2)) list(k3, v3) Schlüssel (Keys) erlauben Daten Maschinen zu zuordnen. Beispiel für Schlüssel ˆ k1 = Id eines Dokuments (oder Offset in Datei) ˆ v1 = Inhalt des Dokuments (oder Zeile in Datei) ˆ k2 = Wort ˆ v2 = Zähler ˆ k3 = Wort ˆ v3 = Zähler Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 23 / 36

24 , NoSQL Beispiel: Grep Gegeben eine Datei, gebe alle Zeilen aus, die ein bestimmtes Muster (Pattern) enthalten. Wie bei dem Unix-Kommando grep. map(string key, string value) { if value.contains(pattern) then emit(value, ) } Dies ist ein map only Task. Es gibt gar keinen Reducer, also kein finales Gruppieren nach Key. Ausgabe wird direkt ins Dateisystem geschrieben. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 24 / 36

25 , NoSQL Anmerkung Word-Count Beispiel map(string key, string value) { for each word w in value emit(w,1) } ˆ Dies ist nur eine Möglichkeit Word-Count zu implementieren. ˆ Wie könnte eine Alternative aussehen? Bereits in Map nicht nur für jedes Vorkommen 1 ausgeben, sondern aggregiert für die ganze Zeichenkette value. Etwas komplexer. Aber weniger Information, die über Netzwerk geschickt werden müssen. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 25 / 36

26 , NoSQL Beispielanwendung: Access-Log Analyse Logid IPAdresse Datum Zeit Seite Quelle /2/ :22:00 /news/ Google /2/ :45:00 /wetter/index.html Yahoo /2/ :23:00 /home/ Google /9/ :11:00 /home/ Bing /2/ :09:00 /news/ Google /9/ :09:00 /lottery/ Bing ˆ Finde häufig zugegriffene URLs pro IP-Adresse ˆ Finde IP-Adressen mit mehr als X Zugriffen pro Stunde Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 26 / 36

27 , NoSQL Beispielanwendung: Aufbauen eines Invertierten-Index ˆ Gegeben eine Menge von Text-Dateien ˆ Erzeuge einen Invertierten-Index ˆ D.h. für jedes Wort eine Liste der Dokumenten-Identifier, die auf Dokumente verweisen in denen der Term auftritt. ring [18,8,1,...] rule [17,3,9,12,...] ˆ Wie kann dies in berechnet werden? Map benutzt in der Ausgabe das Wort (z.b. ring) als Schlüssel und als Wert (value) die ID des Dokuments. Somit gelangen alle IDs in denen ring auftritt auf einem Reducer. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 27 / 36

28 , NoSQL Beispielanwendung: Auftreten von Wort-Paaren ˆ Gegeben eine Text-Datei (oder mehrere Dateien) ˆ Wir möchten für Worte a und b berechnen wie oft a und b zusammen auftreten, z.b. in einem Satz. ˆ D.h. die Ausgabe hat die Form ([a, b], count) ˆ Wie kann dies in berechnet werden? Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 28 / 36

29 , NoSQL Beispielanwendung: Auftreten von Wort-Paaren (2) Paar-Ansatz (Pairs) ˆ mapper für eine Zeichenkette s betrachte alle Wort-Paare (a, b) aus s: emit({a,b}, 1) ˆ reducer summiert einfach die Zähler auf Streifen-Approach (Stripes) ˆ mapper für eine Zeichenkette s for each a in s: collect all t i die zusammen mit a auftreten emit(a, {t 1, t 2,... t n }) ˆ reducer aggregiert (wie?) Wo liegt der Unterschied? Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 29 / 36

30 , NoSQL Beispielanwendung: PageRank ˆ Gegeben ein Graph von Webseiten mit Kanten, die den Verweisen (Links) entsprechen ˆ PageRank: Berechne Autorität einer Seite basierend auf eingehender Links anderer Seiten (rekursiv) ˆ Wird benutzt um Suchergebnisse zu gewichten (neben Methoden die den Seiteninhalt bewerten) ˆ Implementierung in : Iterative Phasen (Details in der DDM Vorlesung) Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 30 / 36

31 , NoSQL Berechnung (Ablauf) Ein Master-Knoten kontrolliert Berechnung ˆ Hier schickt man den Auftrag (Job) hin ˆ Berechnet notwendige Map und Reduce Schritte ˆ Wählt Arbeiter-Knoten (worker nodes) aus und aktiviert diese Arbeiter-Knoten ˆ Für Map-Schritte: Wird falls möglich nah an Daten gewählt. ˆ Reduce-Schritte: Konsumieren Zwischenergebnisse von den Map-Schritten und erzeugen Endergebnis. Die Rolle des verteilten Dateisystems ˆ Hier liegen die Daten ˆ Hier werden die Ergebnisse und Zwischenergebnisse abgelegt Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 31 / 36

32 , NoSQL SQL in : Selektion und Projektion Gegeben eine Relation R mit sch(r) = (A, B,...). Tupel sind in einer Datei gespeichert (z.b. als CSV-Datei). Wie können typische SQL Anfragen ausgeführt werden? Selektion ˆ WHERE Klausel kann leicht in Map-Phase überprüft werden. ˆ Wie bei dem Grep-Beispiel. ˆ Kein Reducer erforderlich. Projektion ˆ Ebenfalls offensichtlich: Nur gewünschte Attribute der Tupel werden ausgegeben (emit). ˆ Auch hier ist kein Reducer notwendig. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 32 / 36

33 , NoSQL SQL in : Group-By, Aggregate, Having select abteilung, avg(gehalt) from gehaelter group by abteilung having avg(gehalt) > Group-By, Aggregate ˆ Map: Sendet Tupel zu Reducer anhand des Attributs, nach dem gruppiert wird, hier der Abteilung, als Schlüssel. ˆ Reducer erhält somit alle Tupel die gleichen Wert für Abteilung haben und kann dann gruppieren. Having ˆ Having ist ein Überprüfung einer Eigenschaft auf den Daten einer Gruppe, wird also auch im Reducer ausgeführt. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 33 / 36

34 , NoSQL Wie kann dieser Join mit Hilfe von realisiert werden? Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 34 / 36 SQL in : Joins in Ein einfacher Equi-Join zwischen zwei Relationen R und S mit sch(r) = (A, B) und sch(s) = (B, C), also select * from R, S where R.B=S.B Beispielausprägung der Relationen: R A B x 18 y 9 w S B C 6 w 5 e 9 r......

35 , NoSQL Joins in ˆ Offensichtlich muss geschaut werden welche Tupel aus R und S verbunden (gejoint) werden können. ˆ Im Fall des Natürlichen-Joins ist dies besonders einfach: Ergebnisse müssen, hier im Beispiel, im Attribut B übereinstimmen, also R.B = S.B Bzw. analog für Equi-Joins. ˆ Wie kann man erreichen, dass Tupel mit gleichem Attributwert für B auf der gleichen Maschine landen? Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 35 / 36

36 , NoSQL Reduce-Side Join (Equi-Join) Map ˆ Sende Tupel t zu Reducer anhand Schlüssel t.b ˆ Zusätzlich zum Tupel wird auch noch mitgeschickt ob t aus R oder aus S ist. Wieso? Reduce ˆ Joine Tupel t 1, t 2 falls t 1.b = t 2.b und t 1 aus R ist und t 2 aus S. Prof. Dr.-Ing. S. Michel TU Kaiserslautern Datenbankanwendung, WS 14/15 36 / 36

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de MapReduce MapReduce - Veranschaulichung der Phasen Prof. Dr.-Ing. S. Michel TU Kaiserslautern

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Map Reduce. Programmiermodell. Prof. Dr. Ingo Claÿen. Motivation. Modell. Verarbeitungsablauf. Algorithmen-Entwurf. Map-Reduce in Java

Map Reduce. Programmiermodell. Prof. Dr. Ingo Claÿen. Motivation. Modell. Verarbeitungsablauf. Algorithmen-Entwurf. Map-Reduce in Java Map Reduce Programmiermodell Prof. Dr. Ingo Claÿen Hochschule für Technik und Wirtschaft Berlin Motivation Modell Verarbeitungsablauf Algorithmen-Entwurf Map-Reduce in Java Motivation Was ist Map-Reduce

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

MapReduce-Konzept. Thomas Findling, Thomas König

MapReduce-Konzept. Thomas Findling, Thomas König MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

NoSQL mit Postgres 15. Juni 2015

NoSQL mit Postgres 15. Juni 2015 Tag der Datenbanken 15. Juni 2015 Dipl.-Wirt.-Inform. Agenda l Vorstellung l Marktübersicht l Warum PostgreSQL? l Warum NoSQL? l Beispielanwendung Seite: 2 Vorstellung Dipl.-Wirt.-Inform. [1990] Erste

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Storage-Trends am LRZ. Dr. Christoph Biardzki

Storage-Trends am LRZ. Dr. Christoph Biardzki Storage-Trends am LRZ Dr. Christoph Biardzki 1 Über das Leibniz-Rechenzentrum (LRZ) Seit 50 Jahren Rechenzentrum der Bayerischen Akademie der Wissenschaften IT-Dienstleister für Münchner Universitäten

Mehr

Verteilte Systeme. Map Reduce. Secure Identity Research Group

Verteilte Systeme. Map Reduce. Secure Identity Research Group Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

Lehrgebiet Informationssysteme

Lehrgebiet Informationssysteme Lehrgebiet AG Datenbanken und (Prof. Michel, Prof. Härder) AG Heterogene (Prof. Deßloch) http://wwwlgis.informatik.uni-kl.de/ Was sind? Computergestützte Programmsysteme, die Informationen erfassen, dauerhaft

Mehr

Ein kleines Computer-Lexikon

Ein kleines Computer-Lexikon Stefan Edelmann 10b NIS-Klasse Ein kleines Computer-Lexikon Mainboard Die Hauptplatine! Sie wird auch Motherboard genannt. An ihr wird das gesamte Computerzubehör angeschlossen: z.b. Grafikkarte Soundkarte

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

DBS ::: SERIE 5. Join Right Semi- Join Left Semi-Join Projektion Selektion Fremdschlüssel. Kreuzprodukt

DBS ::: SERIE 5. Join Right Semi- Join Left Semi-Join Projektion Selektion Fremdschlüssel. Kreuzprodukt DBS ::: SERIE 5 Die Relation produkt enthält Hersteller, Modellnummer und Produktgattung (pc, laptop oder drucker aller Produkte. Die Modellnummer ist (der Einfachheit halber eindeutig für alle Hersteller

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Advanced Analytics mit EXAPowerlytics. Technisches Whitepaper

Advanced Analytics mit EXAPowerlytics. Technisches Whitepaper Advanced Analytics mit EXAPowerlytics Technisches Whitepaper Inhalt 1. Zusammenfassung... 3 2. Einführung... 4 3. Fachliche Einführung... 5 4. Beispiel: Zeichen zählen... 7 5. Fazit... 9 6. Anhang... 10-2

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann Blatt Nr. 11 Übung zur Vorlesung Einsatz und Realisierung von Datenbanksystemen im SoSe15 Moritz Kaufmann (moritz.kaufmann@tum.de)

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

Grundlagen des Grid Computing

Grundlagen des Grid Computing Grundlagen des Grid Computing Cloud Computing ICA Joh.. Kepler Universität t Linz Cloud Computing Zugriff auf Programme und Daten Von überall her Jederzeit Singulärer Zugriffspunkt Daten: Photos, Dokumente

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

2. Interaktive Web Seiten. action in Formularen. Formular. Superglobale Variablen $ POST, $ GET und $ REQUEST. GET und POST

2. Interaktive Web Seiten. action in Formularen. Formular. Superglobale Variablen $ POST, $ GET und $ REQUEST. GET und POST 2. Interaktive Web Seiten GET und POST Die Übertragungsmethoden GET und POST sind im http Protokoll definiert: POST: gibt an, dass sich weitere Daten im Körper der übertragenen Nachricht befinden: z.b.

Mehr

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER INHALTSVERZEICHNIS 1. Datenbanken 2. SQL 1.1 Sinn und Zweck 1.2 Definition 1.3 Modelle 1.4 Relationales Datenbankmodell 2.1 Definition 2.2 Befehle 3.

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Big & Smart Data. bernard.bekavac@htwchur.ch

Big & Smart Data. bernard.bekavac@htwchur.ch Big & Smart Data Prof. Dr. Bernard Bekavac Schweizerisches Institut für Informationswissenschaft SII Studienleiter Bachelor of Science in Information Science bernard.bekavac@htwchur.ch Quiz An welchem

Mehr

Cassandra Query Language (CQL)

Cassandra Query Language (CQL) Cassandra Query Language (CQL) Seminar: NoSQL Wintersemester 2013/2014 Cassandra Zwischenpräsentation 1 Gliederung Basic facts Datentypen DDL/DML ähnlich zu SQL Besonderheiten Basic facts CQL kurz für

Mehr

Grundlagen der Rechnerarchitektur

Grundlagen der Rechnerarchitektur Grundlagen der Rechnerarchitektur Einführung Unsere erste Amtshandlung: Wir schrauben einen Rechner auf Grundlagen der Rechnerarchitektur Einführung 2 Vorlesungsinhalte Binäre Arithmetik MIPS Assembler

Mehr

Überblick. Einführung Graphentheorie

Überblick. Einführung Graphentheorie Überblick Einführung Graphentheorie Graph-Algorithmen mit Map Kurzeinführung Graphentheorie Algorithmus zum Finden von Cliquen Graphen bestehen aus Knoten (englisch: Node, Vertex, Mehrzahl Vertices) Kanten

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Kapitel 3: Datenbanksysteme

Kapitel 3: Datenbanksysteme LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2015 Kapitel 3: Datenbanksysteme Vorlesung:

Mehr

Nachtrag: Farben. Farbblindheit. (Light und Bartlein 2004)

Nachtrag: Farben. Farbblindheit. (Light und Bartlein 2004) Nachtrag: Farben Farbblindheit (Light und Bartlein 2004) 1 Vorgeschlagene Farbskalen (Light and Bartlein 2004) Farbkodierung metrisch skalierter Daten Unterscheide: 1. Sequential Data (ohne Betonung der

Mehr

SQL structured query language

SQL structured query language Umfangreiche Datenmengen werden üblicherweise in relationalen Datenbank-Systemen (RDBMS) gespeichert Logische Struktur der Datenbank wird mittels Entity/Realtionship-Diagrammen dargestellt structured query

Mehr

MapReduce mit Hadoop 08.11.12 1

MapReduce mit Hadoop 08.11.12 1 MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung

Mehr

Themenblock: Erstellung eines Cube

Themenblock: Erstellung eines Cube Themenblock: Erstellung eines Cube Praktikum: Data Warehousing und Data Mining Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Idee Speicherung der Daten in Form von Tabellen

Mehr

Online Help StruxureWare Data Center Expert

Online Help StruxureWare Data Center Expert Online Help StruxureWare Data Center Expert Version 7.2.7 Virtuelle StruxureWare Data Center Expert-Appliance Der StruxureWare Data Center Expert-7.2-Server ist als virtuelle Appliance verfügbar, die auf

Mehr

Grundlagen der Programmierung 2. Bäume

Grundlagen der Programmierung 2. Bäume Grundlagen der Programmierung 2 Bäume Prof. Dr. Manfred Schmidt-Schauÿ Künstliche Intelligenz und Softwaretechnologie 24. Mai 2006 Graphen Graph: Menge von Knoten undzugehörige (gerichtete oder ungerichtete)

Mehr

Prof. Dr.-Ing. Rainer Schmidt 1

Prof. Dr.-Ing. Rainer Schmidt 1 Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2

Mehr

PIWIN 1 Übung Blatt 5

PIWIN 1 Übung Blatt 5 Fakultät für Informatik Wintersemester 2008 André Gronemeier, LS 2, OH 14 Raum 307, andre.gronemeier@cs.uni-dortmund.de PIWIN 1 Übung Blatt 5 Ausgabedatum: 19.12.2008 Übungen: 12.1.2009-22.1.2009 Abgabe:

Mehr

Erste Schritte, um selber ConfigMgr Reports zu erstellen

Erste Schritte, um selber ConfigMgr Reports zu erstellen Thomas Kurth CONSULTANT/ MCSE Netree AG thomas.kurth@netree.ch netecm.ch/blog @ ThomasKurth_CH Erste Schritte, um selber ConfigMgr Reports zu erstellen Configuration Manager Ziel Jeder soll nach dieser

Mehr

Universität Karlsruhe (TH)

Universität Karlsruhe (TH) Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Software Engineering für moderne, parallele Plattformen 10. MapReduce Dr. Victor Pankratius Agenda Motivation Der MapReduce-Ansatz Map- und

Mehr

Thema: Das MapReduce-Framework

Thema: Das MapReduce-Framework Software as a Service Cloud Computing und aktuelle Entwicklungen Seminararbeit Thema: Das MapReduce-Framework Betreuer: Prof. Dr. Klaus Küspert Dipl.-Inf. Andreas Göbel Nicky Kuhnt Friedrich-Schiller-Universität

Mehr

Analyse und Auswertung großer heterogener Datenmengen

Analyse und Auswertung großer heterogener Datenmengen Analyse und Auswertung großer heterogener Datenmengen Herausforderungen für die IT-Infrastruktur Richard Göbel Inhalt Big Data Was ist das eigentlich? Was nützt mir das? Wie lassen sich solche großen Datenmengen

Mehr

Sozio- Technische Systeme

Sozio- Technische Systeme Soziotechnische Informationssysteme 7. Skalierbarkeit 2013 757 Millionen melden sich täglich an (12/2013) 802 DAUs laut FB (1 Quartal 2014) 1.23 Milliarden Nutzer im Monat (12/2013) 556 Millionen täglich

Mehr

Lerox DB/2 Datenbankreferenz in QlikView für IBM System AS/400, iseries i5, System i

Lerox DB/2 Datenbankreferenz in QlikView für IBM System AS/400, iseries i5, System i Lerox DB/2 Datenbankreferenz in QlikView für IBM System AS/400, iseries i5, System i Inhaltsverzeichnis Überblick... 3 Die QlikView Applikation im Kontext... 4 Technische Rahmenbedinungen... 5 Funktionelle

Mehr

bersicht Datenbanken und Datawarehouses Datenbank Datenbanksysteme Niels Schršter

bersicht Datenbanken und Datawarehouses Datenbank Datenbanksysteme Niels Schršter bersicht Niels Schršter EinfŸhrung GROUP BY Roll UpÔs Kreuztabellen Cubes Datenbank Ansammlung von Tabellen, die einen ãausschnitt der WeltÒ fÿr eine Benutzergruppe beschreiben. Sie beschreiben die funktionalen

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14 Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Mehr

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied

Mehr

Cloud Computing mit mathematischen Anwendungen

Cloud Computing mit mathematischen Anwendungen Cloud Computing mit mathematischen Anwendungen Vorlesung SoSe 2009 Dr. Marcel Kunze Karlsruhe Institute of Technology (KIT) Steinbuch Centre for Computing (SCC) KIT the cooperation of Forschungszentrum

Mehr

Einführung in SQL. Sprachumfang: Indizes. Datensätzen. Zugriffsrechten

Einführung in SQL. Sprachumfang: Indizes. Datensätzen. Zugriffsrechten Einführung in SQL Die Sprache SQL (Structured Query Language) ist eine Programmiersprache für relationale Datenbanksysteme, die auf dem ANSI-SQL-Standard beruht. SQL wird heute von fast jedem Datenbanksystem

Mehr

In Tabelle 2.1 sehen Sie das Ergebnis beider Ausführungen auf meiner Maschine.

In Tabelle 2.1 sehen Sie das Ergebnis beider Ausführungen auf meiner Maschine. Kapitel 2 Datenverwaltung durch SQL Server Wir wollen das obige Skript zwei Mal laufen lassen, einmal mit und einmal ohne eingeschalteten Schreibcache der Festplatte. Für eine lokale Festplatte können

Mehr

Datenbanktechnologie mit praktischen Übungen in MySQL und PHP

Datenbanktechnologie mit praktischen Übungen in MySQL und PHP Datenbanktechnologie mit praktischen Übungen in MySQL und PHP Übung, Sommersemester 2013 29. April 2013 - MySQL 2 Sebastian Cuy sebastian.cuy@uni-koeln.de Aufgaben Anmerkungen Best practice: SQL Befehle

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Googles Map-Reduce-Technik

Googles Map-Reduce-Technik Googles Map-Reduce-Technik Wolfgang Gassler wolfgang.gassler@student.uibk.ac.at Zusammenfassung Durch die ständig steigende Datenflut im Internet müssen auch die Datenverarbeitungskapazitäten stark steigen.

Mehr

Persönlichkeiten bei bluehands

Persönlichkeiten bei bluehands Persönlichkeiten bei Technologien bei Skalierbare Anwendungen mit Windows Azure GmbH & co.mmunication KG am@.de; posts..de/am 1 2 3 4 5 6 7 8 9 Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit

Mehr

Teamprojekt & Projekt

Teamprojekt & Projekt 18. Oktober 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Thomas Hordnung, Alexander Schätzle, Martin Przjyaciel-Zablocki dbis Studienordnung Master: 16 ECTS 480 Semesterstunden

Mehr

Web Technologien NoSQL Datenbanken

Web Technologien NoSQL Datenbanken Web Technologien NoSQL Datenbanken Univ.-Prof. Dr.-Ing. Wolfgang Maass Chair in Information and Service Systems Department of Law and Economics WS 2011/2012 Wednesdays, 8:00 10:00 a.m. Room HS 021, B4

Mehr

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Spezifikationen und Voraussetzung

Spezifikationen und Voraussetzung Projekt IGH DataExpert Paynet Adapter Spezifikationen Voraussetzungen Datum : 21.07.08 Version : 1.0.0.2 21.07.2008 Seite 1 von 7 Inhaltsverzeichnis 1 Einleitung... 3 2 Architektur... 3 2.1 Grundsätze

Mehr

SQL Tutorial. SQL - Tutorial SS 06. Hubert Baumgartner. INSO - Industrial Software

SQL Tutorial. SQL - Tutorial SS 06. Hubert Baumgartner. INSO - Industrial Software SQL Tutorial SQL - Tutorial SS 06 Hubert Baumgartner INSO - Industrial Software Institut für Rechnergestützte Automation Fakultät für Informatik Technische Universität Wien Inhalt des Tutorials 1 2 3 4

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Spezifikationen und Voraussetzung

Spezifikationen und Voraussetzung Projekt IGH DataExpert Yellowbill Adapter Spezifikationen Voraussetzungen Datum : 22.08.2013 Version : 1.0.0.2 22.08.2013 Seite 1 von 7 Inhaltsverzeichnis 1 Einleitung...3 2 Architektur...3 2.1 Grundsätze

Mehr

Informatik 12 Datenbanken SQL-Einführung

Informatik 12 Datenbanken SQL-Einführung Informatik 12 Datenbanken SQL-Einführung Gierhardt Vorbemerkungen Bisher haben wir Datenbanken nur über einzelne Tabellen kennen gelernt. Stehen mehrere Tabellen in gewissen Beziehungen zur Beschreibung

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

NoSQL. Einblick in die Welt nicht-relationaler Datenbanken. Christoph Föhrdes. UnFUG, SS10 17.06.2010

NoSQL. Einblick in die Welt nicht-relationaler Datenbanken. Christoph Föhrdes. UnFUG, SS10 17.06.2010 NoSQL Einblick in die Welt nicht-relationaler Datenbanken Christoph Föhrdes UnFUG, SS10 17.06.2010 About me Christoph Föhrdes AIB Semester 7 IRC: cfo #unfug@irc.ghb.fh-furtwangen.de netblox GbR (http://netblox.de)

Mehr

Windows Server 2012 R2

Windows Server 2012 R2 Windows Server 2012 R2 Eine Übersicht Raúl B. Heiduk (rh@pobox.com) www.digicomp.ch 1 Inhalt der Präsentation Die wichtigsten Neuerungen Active Directory PowerShell 4.0 Hyper-V Demos Fragen und Antworten

Mehr

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick Volker.Hinz@microsoft.com Was sagt der Markt? Fakten Meinung der Analysten zu Microsofts Angeboten Nutzen

Mehr

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015 Abstrakt zum Vortrag im Oberseminar Graphdatenbanken Gero Kraus HTWK Leipzig 14. Juli 2015 1 Motivation Zur Darstellung komplexer Beziehungen bzw. Graphen sind sowohl relationale als auch NoSQL-Datenbanken

Mehr

LOG AND SECURITY INTELLIGENCE PLATFORM

LOG AND SECURITY INTELLIGENCE PLATFORM TIBCO LOGLOGIC LOG AND SECURITY INTELLIGENCE PLATFORM Security Information Management Logmanagement Data-Analytics Matthias Maier Solution Architect Central Europe, Eastern Europe, BeNeLux MMaier@Tibco.com

Mehr

Hochschule Karlsruhe Technik und Wirtschaft- 10.7.2013. Anhänge: Fakultät für Informatik und Wirtschaftsinformatik SS 2013 Prof. Schmidt.

Hochschule Karlsruhe Technik und Wirtschaft- 10.7.2013. Anhänge: Fakultät für Informatik und Wirtschaftsinformatik SS 2013 Prof. Schmidt. Fakultät für Informatik und Wirtschaftsinformatik SS 2013 Datenbanken und Informationssysteme II Szenario: Projektverwaltung. Es gibt Projekte, Projektleiter, Mitarbeiter und ihre Zuordnung zu Projekten.

Mehr

Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce

Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Timo Bingmann, Peter Sanders und Sebastian Schlag 21. Oktober 2014 @ PdF Vorstellung INSTITUTE OF THEORETICAL INFORMATICS ALGORITHMICS KIT Universität

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Algorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1

Algorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1 Algorithmen Consistent Hashing Bloom Filter MapReduce Distributed Hash Tables Einführung 1 Consistent Hashing Problem: Wie finde ich den Speicherort für ein Objekt in einem verteilten System mit n Knoten?

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

IV. Datenbankmanagement

IV. Datenbankmanagement Wirtschaftsinformatik 2 (PWIN) IV. Datenbankmanagement Kapitel 2: Datenmanipulationssprache SQL Wirtschaftsinformatik 2 (PWIN) SS 2009, Professur für Mobile Business & Multilateral Security 1 Agenda 1.

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

vfabric-daten Big Data Schnell und flexibel

vfabric-daten Big Data Schnell und flexibel vfabric-daten Big Data Schnell und flexibel September 2012 2012 VMware Inc. All rights reserved Im Mittelpunkt: Daten Jeden Morgen wache ich auf und frage mich: Wie kann ich den Datenfluss optimieren,

Mehr

Session Management und Cookies

Session Management und Cookies LMU - LFE Medieninformatik Blockvorlesung Web-Technologien Wintersemester 2005/2006 Session Management und Cookies Max Tafelmayer 1 Motivation HTTP ist ein zustandsloses Protokoll Je Seitenaufruf muss

Mehr

Einführung in die Informatik II

Einführung in die Informatik II Einführung in die Informatik II Die Structured Query Language SQL Prof. Dr. Nikolaus Wulff SQL Das E/R-Modell lässt sich eins zu eins auf ein Tabellenschema abbilden. Benötigt wird eine Syntax, um Tabellen

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

Pavlo Baron. Big Data. für IT-Entscheider. Riesige Datenmengen. und moderne Technologien. gewinnbringend nutzen HANSER

Pavlo Baron. Big Data. für IT-Entscheider. Riesige Datenmengen. und moderne Technologien. gewinnbringend nutzen HANSER Pavlo Baron Big Data für IT-Entscheider Riesige Datenmengen und moderne Technologien gewinnbringend nutzen HANSER Inhalt Vorwort XI 1 Management Summary 1 2 Was? 7 2.1 Mein klassisches Business ist konkurrenzlos,

Mehr

SQL-Befehlsliste. Vereinbarung über die Schreibweise

SQL-Befehlsliste. Vereinbarung über die Schreibweise Vereinbarung über die Schreibweise Schlüsselwort [optionale Elemente] Beschreibung Befehlsworte in SQL-Anweisungen werden in Großbuchstaben geschrieben mögliche, aber nicht zwingend erforderliche Teile

Mehr

Big Data Alter Wein in neuen Schläuchen? 27.11.2013 Josef Schmid M.A. Dynelytics AG

Big Data Alter Wein in neuen Schläuchen? 27.11.2013 Josef Schmid M.A. Dynelytics AG Big Data Alter Wein in neuen Schläuchen? 27.11.2013 Josef Schmid M.A. Dynelytics AG 2 Big Data Gartner prognostiziert, dass Unternehmen im laufenden Jahr für IT-Lösungen im Big-Data- Bereich 34 Milliarden

Mehr

Tuning von PostGIS mit Read- Only-Daten von OpenStreetMap

Tuning von PostGIS mit Read- Only-Daten von OpenStreetMap Tuning von PostGIS mit Read- Only-Daten von OpenStreetMap Prof. Stefan Keller (Fach-)Hochschule für Technik Rapperswil (bei Zürich) 11.11.2011 PGConf.DE - Stefan Keller 1 Was ist OpenStreetMap? Wikipedia

Mehr

HANA. TOBA-Team Dresden 19.05.2012

HANA. TOBA-Team Dresden 19.05.2012 HANA TOBA-Team Dresden 19.05.2012 Kunde droht mit Auftrag! Ein großer Discounter schickt Anfrage: Bis wann und zu welchem Preis können Sie 30.000 Stück liefern? Die Hektik beginnt! Bis wann Welche und

Mehr