MapReduce. Julia Bergbauer - Ferienakademie 2009

Größe: px
Ab Seite anzeigen:

Download "MapReduce. Julia Bergbauer - Ferienakademie 2009"

Transkript

1 1

2 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 2

3 1) Grundlegendes = von Google eingeführtes Framework Ausnutzen der MulticoreProzessoren ohne spezielles KnowHow bisher: wie parallelisiere ich die Berechnung? wie verteile ich die Daten auf die verschiedenen Maschinen? wie gehe ich mit Fehlern um? => alles viel zu kompliziert!! :( 3

4 1) Grundlegendes Erkenntnis: alle erstellten Programme besitzen im Grunde den selben Kern besitzen, Ziel: einfacher mit riesigen Datenmengen arbeiten können Framework nimmt dem Entwickler die Aufgabe der Verteilung komplett ab damit: wir können uns auf das wesentliche ProgrammZiel konzentrieren, ohne uns um geeignete Ausnutzung der MultiCore Funktion kümmern zu müssen 4

5 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 5

6 2) Map & Reduce Bsp.: map (*2) [1;2;3] = [2;4;6] map : ( a > b) > a list > b list map f [] = [] map f (x::xs) = f x :: map f xs map (fun x > x * x) [1;2;3] : int list: = [1;4;9] 6

7 2) Map & Reduce Bsp.: reduce (+) [1;2;3;4] = ((1 + 2) + 3) + 4 = 10 reduce (+) 0 [1;2;3;4] = 10 reduce : ( a > a > a) > a > a list > a reduce f y [] = y reduce f y (x::xs) = reduce f (f y x) xs reduce (fun x y > x + y) 0 [1;2;3] : int = 6 = (((0 + 1) + 2) + 3) 7

8 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 8

9 3) MapReduce Code Code_A Kern Code Code_A Kern Code Code Code_B Code_A... Kern Code_B Code Code_C Kern Code Code_A... Code_C Code Code_A Kern 9

10 3) MapReduce Kern Kern... Kern Kern... Kern map reduce generisches Programmgerüst 10

11 3) MapReduce User Program map: (k1, v1) > list(k2,v2) (1) fork (2) assign map (1) fork Master (2) assign reduce (1) fork reduce: (k2, list(v2)) > list(v2) worker split 0 split 1 split 2 (3) read worker (4) local write (5) remote (5) read worker (6) write output file 0 split 3 split 4 worker output file 1 worker Input files Map phasr Intermediate files (on local disks) Reduce phase Output files Fig. 1. Execution overview. 11

12 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 12

13 4) Anwendungsgebiete DijkstraAlgorithmus count of frequency (Wörterzählen in Dokumenten) WebseitenWichtigkeit map: <url, seiteninhalt> reduce: <url,list(starturl)> GoogleSuche weitere MapReduce Implementationen: Phoenix (Google MapReduce für kleinere Systeme) Apache Hadoop (Yahoo) Microsoft Dryad (erweiterte Funktionalität) 13

14 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele: Dijkstra count of frequency 6) Fehlerbehandlung 7) Ausblick 14

15 5) Dijkstra A B C D E A

16 5) Dijkstra A B C D E A 3 5 B

17 5) Dijkstra A B C D E A B C

18 5) Dijkstra A B C D E A B C 6 9 D 8 18

19 5) Dijkstra mit MapReduce PseudoCode: Anzahl Knoten for (int i = 0; i < n; i++) { map //falls kürzerer Pfad zu Knoten k gefunden wurde //sonst: Identität //...(Laufzeitumgebung) reduce //...(Laufzeitumgebung) } 19

20 5) Dijkstra mit MapReduce 1. Schleifendurchlauf: map(a,(0,{b,c})) > (B,3), (C,5), (A,0) sort => reduce(b,(3)) > (B,3) reduce(c,(5)) > (C,5) reduce(a,(0)) > (A,0) 20

21 5) Dijkstra mit MapReduce 2. Schleifendurchlauf: 1. Schleifendurchlauf: map(a,(0,{b,c})) > (B,3), (C,5), (A,0) sort => reduce(a,(0)) > (A,0) reduce(b,(3)) > (B,3) reduce(c,(5)) > (C,5) map(b,(3,{a,c,d,e})) > (A,6), (C,4), (D,10), (E,11), (B,3) map(c,(5,{a,b,d,e})) > (A,10), (B,6), (D,7), (E,10), (C,5) map(a,0) > (A,0) sort => reduce(a,(0,6,10)) > (A,0) reduce(b,(3,6)) > (B,3) reduce(c,(4,5)) > (C,4) reduce(d,(10)) > (D,10) reduce(e,(10,11)) > (E,10) 21

22 5) Dijkstra mit MapReduce 2. Schleifendurchlauf: 1. Schleifendurchlauf: map(a,(0,{b,c})) > (B,3), (C,5), (A,0) sort => reduce(b,(3)) > (B,3) reduce(c,(5)) > (C,5) reduce(a,(0)) > (A,0) map(b,(3,{a,c,d,e})) > (A,6), (C,4), (D,10), (E,11), (B,3) map(c,(5,{a,b,d,e})) > (A,10), (B,6), (D,7), (E,10), (C,5) map(a,0) > (A,0) sort => reduce(a,(0,6,10)) > (A,0) reduce(b,(3,6)) > (B,3) reduce(c,(4,5)) > (C,4) reduce(d,(10)) > (D,10) reduce(e,(10,11)) > (E,10) Es wurde kein kürzerer Pfad gefunden. 22

23 5) Dijkstra mit MapReduce 3. Schleifendurchlauf: 2. Schleifendurchlauf: => reduce(a,(0,6,10)) > (A,0) reduce(b,(3,6)) > (B,3) reduce(c,(4,5)) > (C,4) reduce(d,(10)) > (D,10) reduce(e,(10,11)) > (E,10) map(a,0) > (A,0) map(b,3) > (B,3) map(c,(4,{a,b,d,e})) > (A,9), (B,5), (D,6), (E,9), (C,4) map(d,(10,{b,c,e})) > (B,17), (C,12), (E,12), (D,10) map(e,(10,{b,c,d})) > (B,18), (C,15), (D,12), (E,10) sort => reduce(a,(0,9)) > (A,0) reduce(b,(3,5,17,18)) > (B,3) reduce(c,(4,12,15)) > (C,4) reduce(d,(6,10,12)) > (D,6) reduce(e,(9,10,12)) > (E,9) 23

24 5) Dijkstra mit MapReduce 3. Schleifendurchlauf: 2. Schleifendurchlauf: => reduce(a,(0,6,10)) > (A,0) reduce(b,(3,6)) > (B,3) reduce(c,(4,5)) > (C,4) reduce(d,(10)) > (D,10) reduce(e,(10,11)) > (E,10) map(a,0) > (A,0) map(b,3) > (B,3) map(c,(4,{a,b,d,e})) > (A,9), (B,5), (D,6), (E,9), (C,4) map(d,(10,{b,c,e})) > (B,17), (C,12), (E,12), (D,10) map(e,(10,{b,c,d})) > (B,18), (C,15), (D,12), (E,10) sort => reduce(a,(0,9)) > (A,0) reduce(b,(3,5,17,18)) > (B,3) reduce(c,(4,12,15)) > (C,4) reduce(d,(6,10,12)) > (D,6) reduce(e,(9,10,12)) > (E,9) 24

25 5) Dijkstra mit MapReduce 4. Schleifendurchlauf: 3. Schleifendurchlauf: => reduce(a,(0,9)) > (A,0) reduce(b,(3,5,17,18)) > (B,3) reduce(c,(4,12,15)) > (C,4) reduce(d,(6,10,12)) > (D,6) reduce(e,(9,10,12)) > (E,9) map(a,0) > (A,0) map(b,3) > (B,3) map(c,4) > (C,4) map(d,(6,{b,c,e})) > (B,13), (C,8), (E,8), (D,6) map(e,(9,{b,c,d})) > (B,17), (C,14), (D,11), (E,9) sort => reduce(a,(0)) > (A,0) reduce(b,(3,13,17)) > (B,3) reduce(c,(4,8,14)) > (C,4) reduce(d,(6,11)) > (D,6) reduce(e,(8,9)) > (E,8) 25

26 5) Dijkstra mit MapReduce 4. Schleifendurchlauf: 3. Schleifendurchlauf: => reduce(a,(0,9)) > (A,0) reduce(b,(3,5,17,18)) > (B,3) reduce(c,(4,12,15)) > (C,4) reduce(d,(6,10,12)) > (D,6) reduce(e,(9,10,12)) > (E,9) map(a,0) > (A,0) map(b,3) > (B,3) map(c,4) > (C,4) map(d,(6,{b,c,e})) > (B,13), (C,8), (E,8), (D,6) map(e,(9,{b,c,d})) > (B,17), (C,14), (D,11), (E,9) sort => reduce(a,(0)) > (A,0) reduce(b,(3,13,17)) > (B,3) reduce(c,(4,8,14)) > (C,4) reduce(d,(6,11)) > (D,6) reduce(e,(8,9)) > (E,8) 26

27 5) Dijkstra mit MapReduce 4. Schleifendurchlauf: 5. Schleifendurchlauf: keine Änderung => reduce(a,(0)) > (A,0) reduce(b,(3,13,17)) > (B,3) reduce(c,(4,8,14)) > (C,4) reduce(d,(6,11)) > (D,6) reduce(e,(8,9)) > (E,8) A B C D E A B C 6 9 D 8 27

28 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele: Dijkstra count of frequency 6) Fehlerbehandlung 7) Ausblick 28

29 5) count of frequency Text = "Das ist ein Satz. Und das ist der zweite Satz. Der dritte Satz ist der Letzte." map(string sentence, String words): for each word w in words: Emit(w, 1); reduce(string word, String values): int result = 0; for each v in values: result += ParseInt(v); return result; 29

30 5) count of frequency map(string sentence, String words): for each word w in words: Emit(w, 1); Text = "Das ist ein Satz. Und das ist der zweite Satz. Der dritte Satz ist der Letzte." A = map("satz_1", "das ist ein satz") B = map("satz_2", "und das ist der zweite satz") C = map("satz_3", "der dritte satz ist der letzte") Laufzeitumgebung 30

31 5) count of frequency map(string sentence, String words): for each word w in words: Emit(w, 1); A = map("satz_1", "das ist ein satz") B = map("satz_2", "und das ist der zweite satz") C = map("satz_3", "der dritte satz ist der letzte") Laufzeitumgebung A = [ ("das", 1), ("ist", 1), ("ein", 1), ("satz", 1)] B = [ ("und", 1), ("das", 1), ("ist", 1), ("der", 1), ("zweite", 1), ("satz", 1)] Map C = [ ("der", 1), ("dritte", 1), ("satz", 1), ("ist", 1), ("der", 1), ("letzte, 1)] 31

32 5) count of frequency A = [ ("das", 1), ("ist", 1), ("ein", 1), ("satz", 1)] B = [ ("und", 1), ("das", 1), ("ist", 1), ("der", 1), ("zweite", 1), ("satz", 1)] Map C = [ ("der", 1), ("dritte", 1), ("satz", 1), ("ist", 1), ("der", 1), ("letzte, 1)] 1. Schritt: das = [ 1 ] und = [ 1 ] der = [ 1 ] 2. Schritt: ist = [ 1 ] das = [ 1, 1 ] dritte = [ 1 ] 3. Schritt:... sortieren das = [ 1, 1 ] und = [ 1 ] der = [ 1, 1, 1 ] ist = [ 1, 1, 1 ] dritte = [ 1 ] ein = [ 1 ] satz = [ 1, 1, 1 ] zweite = [ 1 ] letzte = [ 1 ] Laufzeitumgebung 32

33 5) count of frequency das = [ 1, 1 ] > [ 2 ] und = [ 1 ] > [ 1 ] der = [ 1, 1, 1 ] > [ 3 ] ist = [ 1, 1, 1 ] > [ 3 ] dritte = [ 1 ] > [ 1 ] ein = [ 1 ] > [ 1 ] satz = [ 1, 1, 1 ] > [ 3 ] zweite = [ 1 ] > [ 1 ] letzte = [ 1 ] > [ 1 ] Laufzeitumgebung Laufzeitumgebung reduce ("das", 2) ("und", 1) ("der", 3) ("ist", 3) ("dritte", 1) ("ein", 1) ("satz", 3) ("zweite", 1) ("letzte", 1) reduce(string word, String values): int result = 0; for each v in values: result += ParseInt(v); return result; 33

34 5) count of frequency Text = "Das ist ein Satz. Und das ist der zweite Satz. Der dritte Satz ist der Letzte." A = map("satz_1", "das ist ein satz") B =... ("das", 2) ("und", 1) ("der", 3) ("ist", 3) ("dritte", 1) ("ein", 1) ("satz", 3) ("zweite", 1) ("letzte", 1) A = [ ("das", 1), ("ist", 1),...] B = Schritt: das = [ 1 ] und = [ 1 ] der = [ 1 ]... sortieren 34 das = [ 1, 1 ] > [ 2 ] und = [ 1 ] > [ 1 ] der = [ 1, 1, 1 ] > [ 3 ] ist = [ 1, 1, 1 ] > [ 3 ] dritte = [ 1 ] > [ 1 ] ein = [ 1 ] > [ 1 ] satz = [ 1, 1, 1 ] > [ 3 ] zweite = [ 1 ] > [ 1 ] letzte = [ 1 ] > [ 1 ]

35 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 35

36 6) Fehlerbehandlung regelmäßiges Anpingen der Worker vom Master falls sich der Worker nicht zurückmeldet: failed Zurücksetzen aller von ihm aktuell ausgeführten Map und ReduceAufgaben sowie der von ihm User erledigten MapAufgaben Program (1) fork (1) fork (1) fork (2) assign map Master (2) assign reduce worker split 0 split 1 split 2 (3) read (4) local write worker (5) remote (5) read worker (6) write output file 0 split 3 split 4 worker output file 1 worker Input files Map phasr Intermediate files (on local disks) Reduce phase Output files Fig. 1. Execution overview. 36

37 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 37

38 7) Straggler Straggler = Nachzügler fast alle Map und Reduce Aufgaben sind bereits erledigt noch nicht abgeschlossene Aufgaben werden zusätzlich noch weitere Worker verteilt es wird dann diejenige Ausführung verwendet, die als erstes fertig ist und die Operation gilt als beendet User Program (1) fork (1) fork Geschwindigkeitszuwachs um (1) fork bis zu 40% möglich (2) assign map Master (2) assign reduce worker split 0 split 1 split 2 (3) read (4) local write worker (5) remote (5) read worker (6) write output file 0 split 3 split 4 worker output file 1 worker Input files Map phasr Intermediate files (on local disks) Reduce phase Output files Fig. 1. Execution overview. 38

39 7) Performance MapReduceProgramm: Sortiertask, der ca. 1 TB Daten sortiert Cluster mit 1800 Rechnern à 2 GHz dualcore Xeon Prozessor, 4 GB Arbeitsspeicher und Gigabit LAN 39

40 MapReduce Quellen: [1] J. Dean, S. Ghemawat. MapReduce: Simplified Data Processing on Large Clusters, Januar 2008 [2] C. Ranger, R. Raghuraman, A. Penmetsa, G. Bradski, C. Kozyrakis. Evaluating MapReduce for MultiCore and Multiprocessor Systems, 2007 [3] M. Philippsen. Parallele und funktionale Programmierung, SS2009 [4] A. Martens. Neue Ansätze der Softwarequalitätssicherung. SS 2009 [5] R. Lämmel. Google s MapReduce programming model. Juli

MapReduce: Simplified Data Processing on Large Clusters

MapReduce: Simplified Data Processing on Large Clusters MapReduce: Simplified Data Processing on Large Clusters Hardware-Software-Co-Design Universität Erlangen-Nürnberg Tobias.Schwarzer@e-technik.stud.uni-erlangen.de Michael.Theil@mathe.stud.uni-erlangen.de

Mehr

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce. c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce. c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1 Überblick Verarbeitung großer Datenmengen Motivation MapReduce c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele) Indexierung des World

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Verteilte Anwendungen

Verteilte Anwendungen Verteilte Anwendungen Softwarearchitekturen für die Entwicklung verteilter Anwendungen Dominik Charousset SoSe 09 Dominik Charousset (HAW Hamburg) Verteilte Anwendungen 2009-06-25 1 / 24 Gliederung 1 Einführung

Mehr

Schneller als Hadoop?

Schneller als Hadoop? Schneller als Hadoop? Einführung in Spark Cluster Computing 19.11.2013 Dirk Reinemann 1 Agenda 1. Einführung 2. Motivation 3. Infrastruktur 4. Performance 5. Ausblick 19.11.2013 Dirk Reinemann 2 EINFÜHRUNG

Mehr

2. Map/Reduce Programming Model. Architektur von Datenbanksystemen II

2. Map/Reduce Programming Model. Architektur von Datenbanksystemen II 2. Map/Reduce Programming Model Architektur von Datenbanksystemen II Motivation PROBLEMSTELLUNG Unternehmen wie Google, Yahoo, Facebook und Twitter müssen täglich Datenmengen im Bereich von TB und PB speichern

Mehr

MapReduce. Jens Dörre. Universität Passau Projekt MAPREDUCEFOUNDATION. Funktionale Programmierung

MapReduce. Jens Dörre. Universität Passau Projekt MAPREDUCEFOUNDATION. Funktionale Programmierung MapReduce Jens Dörre Universität Passau Projekt MAPREDUCEFOUNDATION Funktionale Programmierung Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 1 / 25 Gliederung 1 MapReduce allgemein 2 MapReduce

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Data Mining und Machine Learning

Data Mining und Machine Learning Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

!! Waldemar Reger Köln,

!! Waldemar Reger Köln, Analyse und Evaluierung von Parameterabhängigkeiten anhand der Laufzeit von MapReduce-Jobs zur Konzeptionierung von Hadoop-Clustern Waldemar Reger Köln, 23.07.2014 Agenda 1. Hadoop Grundlagen 2. Cluster

Mehr

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Herzlich Willkommen bei Webinar@Lunchtime Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Xing-Profil:

Mehr

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark. c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark. c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1 Überblick Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele) Indexierung

Mehr

MapReduce mit Hadoop 08.11.12 1

MapReduce mit Hadoop 08.11.12 1 MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

Googles Map-Reduce-Technik

Googles Map-Reduce-Technik Googles Map-Reduce-Technik Wolfgang Gassler wolfgang.gassler@student.uibk.ac.at Zusammenfassung Durch die ständig steigende Datenflut im Internet müssen auch die Datenverarbeitungskapazitäten stark steigen.

Mehr

Graphalgorithmen in massiv parallelen Umgebungen

Graphalgorithmen in massiv parallelen Umgebungen Grundseminar SS 2017 Graphalgorithmen in massiv parallelen Heinrich Latreider Grundseminar Vortrag am 27.06.2017 Betreuer: Prof. Dr. Olaf Zukunft 1 Inhaltsübersicht Motivation Graphentheorie Big Data Graph

Mehr

MapReduce. Dhyan Blum

MapReduce. Dhyan Blum MapReduce Dhyan Blum Betreuer: Dirk Haage Seminar Innovative Internettechnologien und Mobilkommunikation SS2010 Lehrstuhl Netzarchitekturen und Netzdienste Fakultät für Informatik, Technische Universität

Mehr

Teamprojekt & Projekt

Teamprojekt & Projekt 18. Oktober 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Thomas Hordnung, Alexander Schätzle, Martin Przjyaciel-Zablocki dbis Studienordnung Master: 16 ECTS 480 Semesterstunden

Mehr

Large-scale Incremental Processing Using Distributed Transactions and Notifications

Large-scale Incremental Processing Using Distributed Transactions and Notifications Percolator Large-scale Incremental Processing Using Distributed Transactions and Notifications Daniel Peng and Frank Dabek 1 Ausgangslage 10 12 10 16 10 9 Webseiten Byte Daten Updates/Tag 2 MapReduce Batch-Job

Mehr

Schneller als Hadoop? Einführung in Spark Cluster Computing

Schneller als Hadoop? Einführung in Spark Cluster Computing Schneller als Hadoop? Einführung in Spark Cluster Computing Dirk Reinemann Oracle Deutschland B.V. & Co. KG Potsdam Schlüsselworte Big Data, Cluster Computing, Spark, Shark, Resilient Distributed Datasets,

Mehr

Universität Karlsruhe (TH)

Universität Karlsruhe (TH) Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Software Engineering für moderne, parallele Plattformen 10. MapReduce Dr. Victor Pankratius Agenda Motivation Der MapReduce-Ansatz Map- und

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012 MapReduce Vereinfachte Datenverarbeitung in großen Rechnerverbünden Igor Marijanovic 794894 Fachvortrag WAR 19.12.2012 Beuth Hochschule für Technik Berlin Inhalt Einleitung Hauptteil Abschluss MapReduce

Mehr

2. Map/Reduce Programming Model. Architektur von Datenbanksystemen II

2. Map/Reduce Programming Model. Architektur von Datenbanksystemen II 2. Map/Reduce Programming Model Architektur von Datenbanksystemen II Motivation PROBLEMSTELLUNG Unternehmen wie Google, Yahoo, Facebook und Twitter müssen täglich Datenmengen im Bereich von TB und PB speichern

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Verteilte Systeme. Map Reduce. Secure Identity Research Group

Verteilte Systeme. Map Reduce. Secure Identity Research Group Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das

Mehr

ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover

ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover Schlüsselworte Oracle Data Integrator ODI, Big Data, Hadoop, MapReduce,, HDFS, PIG,

Mehr

MapReduce-Konzept. Thomas Findling, Thomas König

MapReduce-Konzept. Thomas Findling, Thomas König MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

Cloud Computing mit mathematischen Anwendungen

Cloud Computing mit mathematischen Anwendungen Cloud Computing mit mathematischen Anwendungen Vorlesung SoSe 2009 Dr. Marcel Kunze Karlsruhe Institute of Technology (KIT) Steinbuch Centre for Computing (SCC) KIT the cooperation of Forschungszentrum

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Zusammenfassung. c td MWCC (WS14/15) Verarbeitung großer Datenmengen 7 1

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Zusammenfassung. c td MWCC (WS14/15) Verarbeitung großer Datenmengen 7 1 Überblick Verarbeitung großer Datenmengen Motivation MapReduce Pig Zusammenfassung c td MWCC (WS14/15) Verarbeitung großer Datenmengen 7 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele)

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de , NoSQL source:dilbert.com Inhalte der nächsten Vorlesungen ˆ Methoden große Datenmengen

Mehr

Implementierungstechniken für Hauptspeicherdatenbanksysteme

Implementierungstechniken für Hauptspeicherdatenbanksysteme Implementierungstechniken für Hauptspeicherdatenbanksysteme Michael Schwarz 9. Februar 2018 Zusammenfassung Mapreduce ist ein von Dean und Ghemawat 2004 vorgestelltes Programmiermodell zur parallelisierten

Mehr

BIG UNIVERSITÄTSRECHENZENTRUM

BIG UNIVERSITÄTSRECHENZENTRUM UNIVERSITÄTS RECHENZENTRUM LEIPZIG BIG DATA @ UNIVERSITÄTSRECHENZENTRUM Forschung und Entwicklung Entwicklung eines E-Science-Angebots für die Forschenden an der Universität Leipzig Stefan Kühne Axel Ngonga

Mehr

RavenDB, schnell und skalierbar

RavenDB, schnell und skalierbar RavenDB, schnell und skalierbar Big Data & NoSQL, Aydin Mir Mohammadi bluehands GmbH & Co.mmunication KG am@bluehands.de Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit Skalierung http://www.flickr.com/photos/39901968@n04/4864698533/

Mehr

Christoph Pohl M.Sc. Prof. Dr. Peter Mandl Hochschule München & Isys Software GmbH

Christoph Pohl M.Sc. Prof. Dr. Peter Mandl Hochschule München & Isys Software GmbH Christoph Pohl M.Sc. Prof. Dr. Peter Mandl Hochschule München & Isys Software GmbH Überblick Hintergrund der Arbeit Herausforderungen Beschreibung des Testmodells Vorstellung MapReduce Logdatenanalyse

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Big Data: Apache Hadoop Grundlagen

Big Data: Apache Hadoop Grundlagen Seminarunterlage Version: 1.07 Version 1.07 vom 5. September 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

PostgreSQL auf vielen CPUs. Hans-Jürgen Schönig Hans-Jürgen Schönig

PostgreSQL auf vielen CPUs. Hans-Jürgen Schönig  Hans-Jürgen Schönig PostgreSQL auf vielen CPUs Ansätze zur Skalierung PostgreSQL auf einer CPU Traditionell läuft eine Query auf nur einer CPU Historisch gesehen war das kein Problem Mittlerweile ist das ein großes Problem

Mehr

Webscale Data Management. 8 Map/Reduce. Prof. Dr. - Ing. Wolfgang Lehner

Webscale Data Management. 8 Map/Reduce. Prof. Dr. - Ing. Wolfgang Lehner Webscale Data Management 8 Map/Reduce Prof. Dr. - Ing. Wolfgang Lehner > Web- scale Data Management Big Data PBs of data, 10 2-10 5 nodes Opera7onal High qps, a few rows/op e.g., BigTable, Dynamo, PNUTS

Mehr

MapReduce. Johann Volz. 3. Juni 2010. Zusammenfassung

MapReduce. Johann Volz. 3. Juni 2010. Zusammenfassung MapReduce Johann Volz 3. Juni 2010 Zusammenfassung Bei der Verarbeitung von Datenmengen, die hunderte oder gar tausende Computer zur Fertigstellung in der gewünschten Zeit brauchen, muss man sich nicht

Mehr

MapReduce: Simplified Data Processing on Large Clusters

MapReduce: Simplified Data Processing on Large Clusters Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Fachgebiet DIMA Prof. Dr. Volker Markl Datenbanksysteme und Informationsmanagement Seminar Large scale data mining mit Apache Mahout

Mehr

Seminar SS 09 Amdahl`s Law and Cloud-Computing

Seminar SS 09 Amdahl`s Law and Cloud-Computing Seminar SS 09 Amdahl`s Law and Cloud-Computing Prof. G. Bengel Fakultät für Informatik SEMB 7IBW 8IB Raum HO609 Mo 9:45-11:15 1. Teil: Amdahl sches Gesetz 1. Vortrag Das Gesetz von Amdahl und Gustafson

Mehr

Datenanalyse mit Data Mining

Datenanalyse mit Data Mining Datenanalyse mit Data Mining von Jan-Christoph Meier Hamburg, 19.01.2012 1 Ablauf Motivation Speicherung der Daten für das Data Mining Data Mining Algorithmen Ausblick auf die Masterarbeit Konferenzen

Mehr

Funktionale Programmierung mit modernem C++ Rainer Grimm Schulungen, Coaching und Technologieberatung

Funktionale Programmierung mit modernem C++ Rainer Grimm Schulungen, Coaching und Technologieberatung Funktionale Programmierung mit modernem C++ Rainer Grimm Schulungen, Coaching und Technologieberatung Funktionale Programmierung in modernem C++ Funktional in C++ Warum Funktional? Definition Was fehlt

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Verteilte Systeme - Java Networking (Sockets) 2 -

Verteilte Systeme - Java Networking (Sockets) 2 - Verteilte Systeme - Java Networking (Sockets) 2 - Prof. Dr. Michael Cebulla 06. November 2014 Fachhochschule Schmalkalden Wintersemester 2014/15 1 / 30 Michael Cebulla Verteilte Systeme Gliederung Wiederholung:

Mehr

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied

Mehr

Big Data Konnektoren: Hadoop und die Oracle DB

Big Data Konnektoren: Hadoop und die Oracle DB Big Data Konnektoren: Hadoop und die Oracle DB Philipp Loer ORDIX AG, Paderborn Schlüsselwörter Hadoop, Hive, OLH, OSCH Einleitung Der Vortrag beginnt mit einer Einführung in die Big Data Welt mit Apache

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

MapReduce Parallelität im Großen und im Kleinen

MapReduce Parallelität im Großen und im Kleinen MapReduce Parallelität im Großen und im Kleinen Jens Lang jens.lang@informatik.tu-chemnitz.de MapReduce ist ein Programmiermodell für Parallelrechner, das die Möglichkeit bietet, effiziente parallele Programme

Mehr

Big Data in der Praxis

Big Data in der Praxis Jonas Freiknecht Big Data in der Praxis Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren HANSER Vorwort XI 1 Einleitung 1 2 Big-Data 7 2.1 Historische Entstehung 8 2.2 Big-Data

Mehr

Cloud Data Management Kapitel 4: MapReduce(Teil3)

Cloud Data Management Kapitel 4: MapReduce(Teil3) Cloud Data Management Kapitel 4: MapReduce(Teil3) Dr. Eric Peukert Wintersemester 2017 Universität Leipzig, Institut für Informatik http://dbs.uni-leipzig.de Inhaltsverzeichnis MapReduce MapReduce-Umsetzung

Mehr

Big Data. Professional IT Master. Prof. Dr. Ingo Claßen. Überblick. Verarbeitungsmodell. Verarbeitungsablauf. Verteilte Daten. Ressourcenmanagement

Big Data. Professional IT Master. Prof. Dr. Ingo Claßen. Überblick. Verarbeitungsmodell. Verarbeitungsablauf. Verteilte Daten. Ressourcenmanagement Big Data Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Überblick Verarbeitungsmodell Verarbeitungsablauf Verteilte Daten Ressourcenmanagement Koordination Überblick

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Parallel Computing. Einsatzmöglichkeiten und Grenzen. Prof. Dr. Nikolaus Wulff

Parallel Computing. Einsatzmöglichkeiten und Grenzen. Prof. Dr. Nikolaus Wulff Parallel Computing Einsatzmöglichkeiten und Grenzen Prof. Dr. Nikolaus Wulff Parallel Architekturen Flynn'sche Klassifizierung: SISD: single Instruction, single Data Klassisches von-neumann sequentielles

Mehr

Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten. von Florian Eiteljörge

Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten. von Florian Eiteljörge Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten von Florian Eiteljörge 1. Was ist Bigtable? 2. Datenmodell Übersicht 3. Implementierung/Architektur von Bigtable 4. Vergleich mit

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

SAP Business Information Warehouse mit Oracle Database

SAP Business Information Warehouse mit Oracle Database SAP Business Information Warehouse mit Oracle Database Maciej Berghof Business Unit Datenbank SAP BW wächst Betriebswirtschaftlich getriebener Bedarf an mehr Informationen SAP BW konkurriert mit den bisherigen

Mehr

Parallel Computing. Einsatzmöglichkeiten und Grenzen. Prof. Dr. Nikolaus Wulff

Parallel Computing. Einsatzmöglichkeiten und Grenzen. Prof. Dr. Nikolaus Wulff Parallel Computing Einsatzmöglichkeiten und Grenzen Prof. Dr. Nikolaus Wulff Vorüberlegungen Wann ist paralleles Rechnen sinnvoll? Wenn die Performance/Geschwindigkeit steigt. Wenn sich größere Probleme

Mehr

Aufbau eines Clusters mit der NoSQL- Datenbank MongoDB auf Basis von Einplatinencomputern

Aufbau eines Clusters mit der NoSQL- Datenbank MongoDB auf Basis von Einplatinencomputern Fachbereich 2 Informatik und Ingenieurwissenschaften Im Studiengang Informatik Aufbau eines Clusters mit der NoSQL- Datenbank MongoDB auf Basis von Einplatinencomputern Kolloquium zur Bachelorthesis Danijel

Mehr

LOVOO auf Wolke 7. Stefan Weigert (Head of Data) BI Trendforum, Dresden,

LOVOO auf Wolke 7. Stefan Weigert (Head of Data) BI Trendforum, Dresden, LOVOO auf Wolke 7 Stefan Weigert (Head of Data) BI Trendforum, Dresden, 01.03.2018 Über LOVOO 110+ Mitarbeiter 2 Büros (B, DD) > 50M Nutzer Weltweit ~1M req/min Android, IOS, Web Über LOVOO 110+ Mitarbeiter

Mehr

GridMate The Grid Matlab Extension

GridMate The Grid Matlab Extension GridMate The Grid Matlab Extension Forschungszentrum Karlsruhe, Institute for Data Processing and Electronics T. Jejkal, R. Stotzka, M. Sutter, H. Gemmeke 1 What is the Motivation? Graphical development

Mehr

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Semesterarbeit. für den Kurs Wissenschaftliches Arbeiten im WS2012/13

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Semesterarbeit. für den Kurs Wissenschaftliches Arbeiten im WS2012/13 Vereinfachte Datenverarbeitung in großen Rechnerverbünden Semesterarbeit für den Kurs Wissenschaftliches Arbeiten im WS2012/13 vorgelegt von: Igor Marijanovic Studienbereich: Medieninformatik Matrikelnummer:

Mehr

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten

Mehr

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken 12. NoSQL Inhalt 12.1 NoSQL? 12.2 MapReduce & Co 12.3 Key-Value Stores 12.4 Extensible Record Stores 12.5 Dokumentorientierte Datenbanken 12.6 Graphdatenbanken 2 12.1 NoSQL? Relationale Datenbanksysteme

Mehr

Computergrundlagen Moderne Rechnerarchitekturen

Computergrundlagen Moderne Rechnerarchitekturen Aufbau eines modernen Computers Computergrundlagen Moderne Rechnerarchitekturen Axel Arnold Institut für Computerphysik Universität Stuttgart DDR3- Speicher Prozessor Prozessor PEG Graphikkarte(n) weitere

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Computergrundlagen Moderne Rechnerarchitekturen

Computergrundlagen Moderne Rechnerarchitekturen Computergrundlagen Moderne Rechnerarchitekturen Axel Arnold Institut für Computerphysik Universität Stuttgart Wintersemester 2010/11 Aufbau eines modernen Computers DDR3- Speicher Prozessor Prozessor PEG

Mehr

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Wir unternehmen IT. Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Karlsruhe, 30.09.2015 $id thgreiner Thorsten Greiner Teamleiter Software Development ConSol* Software GmbH, Düsseldorf

Mehr

Überblick. Verarbeitung großer Datenmengen. MapReduce. Herausforderungen

Überblick. Verarbeitung großer Datenmengen. MapReduce. Herausforderungen Überblick Verarbeitung großer Datenmengen Verarbeitung großer Datenmengen Motivation MapReduce Zusammenfassung Problemstellungen (e) Indexierung des World Wide Web PageRank-Berechnungen für Web-Seiten

Mehr

!"#$"%&'()*$+()',!-+.'/',

!#$%&'()*$+()',!-+.'/', Soziotechnische Informationssysteme 5. Facebook, Google+ u.ä. Inhalte Historisches Relevanz Relevante Technologien Anwendungsarchitekturen 4(5,12316,7'.'0,!.80/6,9*$:'0+$.;.,&0$'0, 3, Historisches Facebook

Mehr

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Semesterarbeit. für den Kurs Wissenschaftliches Arbeiten im WS2012/13

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Semesterarbeit. für den Kurs Wissenschaftliches Arbeiten im WS2012/13 Vereinfachte Datenverarbeitung in großen Rechnerverbünden Semesterarbeit für den Kurs Wissenschaftliches Arbeiten im WS2012/13 vorgelegt von: Igor Marijanovic Studienbereich: Medieninformatik Matrikelnummer:

Mehr

STL-Container und Laufzeit

STL-Container und Laufzeit STL-Container und Laufzeit Eine Übersicht Höhere Programmierung / C++ Yannick Kaiser, LMU 1 C++11 Array konstanter Länge, die bei der Initalisierung angegeben werden muss STL-Kapselung für klassische

Mehr

Cloud Data Management Kapitel 5: MapReduce und Datenbanken (Teil 1)

Cloud Data Management Kapitel 5: MapReduce und Datenbanken (Teil 1) Cloud Data Management Kapitel 5: MapReduce und Datenbanken (Teil 1) Dr. Eric Peukert Wintersemester 2017 Universität Leipzig, Institut für Informatik http://dbs.uni-leipzig.de Inhaltsverzeichnis SQL-Anfrageformulierung

Mehr

Algorithmen und Programmieren 1 Funktionale Programmierung - Musterlösung zur Übungsklausur -

Algorithmen und Programmieren 1 Funktionale Programmierung - Musterlösung zur Übungsklausur - Algorithmen und Programmieren 1 Funktionale Programmierung - Musterlösung zur Übungsklausur - Punkte: A1: 30, A2: 20, A3: 20, A4: 20, A5: 10, A6: 20 Punkte: /120 12.02.2012 Hinweis: Geben Sie bei allen

Mehr

SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database

SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database Carsten Czarski Oracle Deutschland B.V. & Co KG Agenda NoSQL: Was ist das und wozu ist das gut? Anwendungsbereiche für NoSQL-Technologien,

Mehr

Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014

Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014 Überblick Hadoop Einführung HDFS und MapReduce DOAG Regionaltreffen München/Südbayern Februar 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Aufgabe 1: Begriffswelt /10 Punkte

Aufgabe 1: Begriffswelt /10 Punkte Cloud Computing Klausur an der Hochschule Karlsruhe - Technik und Wirtschaft Wintersemester 2016/17, Dienstag, 31.01.2017, 14:00 Uhr Name: Punkte: /60 Note: Disclaimer: - Zugelassene Hilfsmittel: keine

Mehr

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken

Inhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken 7. NoSQL Inhalt 12.1 NoSQL? 12.2 MapReduce & Co 12.3 Key-Value Stores 12.4 Extensible Record Stores 12.5 Dokumentorientierte Datenbanken 12.6 Graphdatenbanken 2 12.1 NoSQL? Relationale Datenbanksysteme

Mehr

Introduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2016

Introduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2016 to to May 2016 to What is Programming? All computers are stupid. All computers are deterministic. You have to tell the computer what to do. You can tell the computer in any (programming) language) you

Mehr

Systemanforderungen Manufacturing Execution System fabmes

Systemanforderungen Manufacturing Execution System fabmes Manufacturing Execution System fabmes Das Manufacturing Execution System fabmes bemüht sich trotz hoher Anforderungen an die Datenverarbeitung möglichst geringe Anforderungen an die Hardware zu stellen.

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Thema: Das MapReduce-Framework

Thema: Das MapReduce-Framework Software as a Service Cloud Computing und aktuelle Entwicklungen Seminararbeit Thema: Das MapReduce-Framework Betreuer: Prof. Dr. Klaus Küspert Dipl.-Inf. Andreas Göbel Nicky Kuhnt Friedrich-Schiller-Universität

Mehr

Informatik für Mathematiker und Physiker Woche 7. David Sommer

Informatik für Mathematiker und Physiker Woche 7. David Sommer Informatik für Mathematiker und Physiker Woche 7 David Sommer David Sommer 30. Oktober 2018 1 Heute: 1. Repetition Floats 2. References 3. Vectors 4. Characters David Sommer 30. Oktober 2018 2 Übungen

Mehr

Systemvoraussetzungen:

Systemvoraussetzungen: Systemvoraussetzungen: DOMUS NAVI für DOMUS 4000 Stand 09/2017 Benötigen Sie Unterstützung* oder haben essentielle Fragen? Kundensupport Tel.: +49 [0] 89 66086-230 Fax: +49 [0] 89 66086-235 E-Mail: domusnavi@domus-software.de

Mehr

1. Einführung Programmieren / Algorithmen und Datenstrukturen 1 Prof. Dr. Bernhard Humm FB Informatik, Hochschule Darmstadt

1. Einführung Programmieren / Algorithmen und Datenstrukturen 1 Prof. Dr. Bernhard Humm FB Informatik, Hochschule Darmstadt 1. Einführung Programmieren / Algorithmen und Datenstrukturen 1 Prof. Dr. Bernhard Humm FB Informatik, Hochschule Darmstadt 1 Ein Zitat zu Beginn Vor der Wahl, ein theoretischer Physiker oder ein Programmierer

Mehr

S3 your Datacenter. Software Defined Object Storage. Die kostengünstige und skalierbare Lösung für Ihre unstrukturierten Daten

S3 your Datacenter. Software Defined Object Storage. Die kostengünstige und skalierbare Lösung für Ihre unstrukturierten Daten S3 your Datacenter Software Defined Object Storage Die kostengünstige und skalierbare Lösung für Ihre unstrukturierten Daten Unstrukturierte Daten explodieren Volume in Exabytes Sensors & Devices Social

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr