MapReduce. Julia Bergbauer - Ferienakademie 2009
|
|
- Bernt Müller
- vor 5 Jahren
- Abrufe
Transkript
1 1
2 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 2
3 1) Grundlegendes = von Google eingeführtes Framework Ausnutzen der MulticoreProzessoren ohne spezielles KnowHow bisher: wie parallelisiere ich die Berechnung? wie verteile ich die Daten auf die verschiedenen Maschinen? wie gehe ich mit Fehlern um? => alles viel zu kompliziert!! :( 3
4 1) Grundlegendes Erkenntnis: alle erstellten Programme besitzen im Grunde den selben Kern besitzen, Ziel: einfacher mit riesigen Datenmengen arbeiten können Framework nimmt dem Entwickler die Aufgabe der Verteilung komplett ab damit: wir können uns auf das wesentliche ProgrammZiel konzentrieren, ohne uns um geeignete Ausnutzung der MultiCore Funktion kümmern zu müssen 4
5 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 5
6 2) Map & Reduce Bsp.: map (*2) [1;2;3] = [2;4;6] map : ( a > b) > a list > b list map f [] = [] map f (x::xs) = f x :: map f xs map (fun x > x * x) [1;2;3] : int list: = [1;4;9] 6
7 2) Map & Reduce Bsp.: reduce (+) [1;2;3;4] = ((1 + 2) + 3) + 4 = 10 reduce (+) 0 [1;2;3;4] = 10 reduce : ( a > a > a) > a > a list > a reduce f y [] = y reduce f y (x::xs) = reduce f (f y x) xs reduce (fun x y > x + y) 0 [1;2;3] : int = 6 = (((0 + 1) + 2) + 3) 7
8 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 8
9 3) MapReduce Code Code_A Kern Code Code_A Kern Code Code Code_B Code_A... Kern Code_B Code Code_C Kern Code Code_A... Code_C Code Code_A Kern 9
10 3) MapReduce Kern Kern... Kern Kern... Kern map reduce generisches Programmgerüst 10
11 3) MapReduce User Program map: (k1, v1) > list(k2,v2) (1) fork (2) assign map (1) fork Master (2) assign reduce (1) fork reduce: (k2, list(v2)) > list(v2) worker split 0 split 1 split 2 (3) read worker (4) local write (5) remote (5) read worker (6) write output file 0 split 3 split 4 worker output file 1 worker Input files Map phasr Intermediate files (on local disks) Reduce phase Output files Fig. 1. Execution overview. 11
12 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 12
13 4) Anwendungsgebiete DijkstraAlgorithmus count of frequency (Wörterzählen in Dokumenten) WebseitenWichtigkeit map: <url, seiteninhalt> reduce: <url,list(starturl)> GoogleSuche weitere MapReduce Implementationen: Phoenix (Google MapReduce für kleinere Systeme) Apache Hadoop (Yahoo) Microsoft Dryad (erweiterte Funktionalität) 13
14 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele: Dijkstra count of frequency 6) Fehlerbehandlung 7) Ausblick 14
15 5) Dijkstra A B C D E A
16 5) Dijkstra A B C D E A 3 5 B
17 5) Dijkstra A B C D E A B C
18 5) Dijkstra A B C D E A B C 6 9 D 8 18
19 5) Dijkstra mit MapReduce PseudoCode: Anzahl Knoten for (int i = 0; i < n; i++) { map //falls kürzerer Pfad zu Knoten k gefunden wurde //sonst: Identität //...(Laufzeitumgebung) reduce //...(Laufzeitumgebung) } 19
20 5) Dijkstra mit MapReduce 1. Schleifendurchlauf: map(a,(0,{b,c})) > (B,3), (C,5), (A,0) sort => reduce(b,(3)) > (B,3) reduce(c,(5)) > (C,5) reduce(a,(0)) > (A,0) 20
21 5) Dijkstra mit MapReduce 2. Schleifendurchlauf: 1. Schleifendurchlauf: map(a,(0,{b,c})) > (B,3), (C,5), (A,0) sort => reduce(a,(0)) > (A,0) reduce(b,(3)) > (B,3) reduce(c,(5)) > (C,5) map(b,(3,{a,c,d,e})) > (A,6), (C,4), (D,10), (E,11), (B,3) map(c,(5,{a,b,d,e})) > (A,10), (B,6), (D,7), (E,10), (C,5) map(a,0) > (A,0) sort => reduce(a,(0,6,10)) > (A,0) reduce(b,(3,6)) > (B,3) reduce(c,(4,5)) > (C,4) reduce(d,(10)) > (D,10) reduce(e,(10,11)) > (E,10) 21
22 5) Dijkstra mit MapReduce 2. Schleifendurchlauf: 1. Schleifendurchlauf: map(a,(0,{b,c})) > (B,3), (C,5), (A,0) sort => reduce(b,(3)) > (B,3) reduce(c,(5)) > (C,5) reduce(a,(0)) > (A,0) map(b,(3,{a,c,d,e})) > (A,6), (C,4), (D,10), (E,11), (B,3) map(c,(5,{a,b,d,e})) > (A,10), (B,6), (D,7), (E,10), (C,5) map(a,0) > (A,0) sort => reduce(a,(0,6,10)) > (A,0) reduce(b,(3,6)) > (B,3) reduce(c,(4,5)) > (C,4) reduce(d,(10)) > (D,10) reduce(e,(10,11)) > (E,10) Es wurde kein kürzerer Pfad gefunden. 22
23 5) Dijkstra mit MapReduce 3. Schleifendurchlauf: 2. Schleifendurchlauf: => reduce(a,(0,6,10)) > (A,0) reduce(b,(3,6)) > (B,3) reduce(c,(4,5)) > (C,4) reduce(d,(10)) > (D,10) reduce(e,(10,11)) > (E,10) map(a,0) > (A,0) map(b,3) > (B,3) map(c,(4,{a,b,d,e})) > (A,9), (B,5), (D,6), (E,9), (C,4) map(d,(10,{b,c,e})) > (B,17), (C,12), (E,12), (D,10) map(e,(10,{b,c,d})) > (B,18), (C,15), (D,12), (E,10) sort => reduce(a,(0,9)) > (A,0) reduce(b,(3,5,17,18)) > (B,3) reduce(c,(4,12,15)) > (C,4) reduce(d,(6,10,12)) > (D,6) reduce(e,(9,10,12)) > (E,9) 23
24 5) Dijkstra mit MapReduce 3. Schleifendurchlauf: 2. Schleifendurchlauf: => reduce(a,(0,6,10)) > (A,0) reduce(b,(3,6)) > (B,3) reduce(c,(4,5)) > (C,4) reduce(d,(10)) > (D,10) reduce(e,(10,11)) > (E,10) map(a,0) > (A,0) map(b,3) > (B,3) map(c,(4,{a,b,d,e})) > (A,9), (B,5), (D,6), (E,9), (C,4) map(d,(10,{b,c,e})) > (B,17), (C,12), (E,12), (D,10) map(e,(10,{b,c,d})) > (B,18), (C,15), (D,12), (E,10) sort => reduce(a,(0,9)) > (A,0) reduce(b,(3,5,17,18)) > (B,3) reduce(c,(4,12,15)) > (C,4) reduce(d,(6,10,12)) > (D,6) reduce(e,(9,10,12)) > (E,9) 24
25 5) Dijkstra mit MapReduce 4. Schleifendurchlauf: 3. Schleifendurchlauf: => reduce(a,(0,9)) > (A,0) reduce(b,(3,5,17,18)) > (B,3) reduce(c,(4,12,15)) > (C,4) reduce(d,(6,10,12)) > (D,6) reduce(e,(9,10,12)) > (E,9) map(a,0) > (A,0) map(b,3) > (B,3) map(c,4) > (C,4) map(d,(6,{b,c,e})) > (B,13), (C,8), (E,8), (D,6) map(e,(9,{b,c,d})) > (B,17), (C,14), (D,11), (E,9) sort => reduce(a,(0)) > (A,0) reduce(b,(3,13,17)) > (B,3) reduce(c,(4,8,14)) > (C,4) reduce(d,(6,11)) > (D,6) reduce(e,(8,9)) > (E,8) 25
26 5) Dijkstra mit MapReduce 4. Schleifendurchlauf: 3. Schleifendurchlauf: => reduce(a,(0,9)) > (A,0) reduce(b,(3,5,17,18)) > (B,3) reduce(c,(4,12,15)) > (C,4) reduce(d,(6,10,12)) > (D,6) reduce(e,(9,10,12)) > (E,9) map(a,0) > (A,0) map(b,3) > (B,3) map(c,4) > (C,4) map(d,(6,{b,c,e})) > (B,13), (C,8), (E,8), (D,6) map(e,(9,{b,c,d})) > (B,17), (C,14), (D,11), (E,9) sort => reduce(a,(0)) > (A,0) reduce(b,(3,13,17)) > (B,3) reduce(c,(4,8,14)) > (C,4) reduce(d,(6,11)) > (D,6) reduce(e,(8,9)) > (E,8) 26
27 5) Dijkstra mit MapReduce 4. Schleifendurchlauf: 5. Schleifendurchlauf: keine Änderung => reduce(a,(0)) > (A,0) reduce(b,(3,13,17)) > (B,3) reduce(c,(4,8,14)) > (C,4) reduce(d,(6,11)) > (D,6) reduce(e,(8,9)) > (E,8) A B C D E A B C 6 9 D 8 27
28 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele: Dijkstra count of frequency 6) Fehlerbehandlung 7) Ausblick 28
29 5) count of frequency Text = "Das ist ein Satz. Und das ist der zweite Satz. Der dritte Satz ist der Letzte." map(string sentence, String words): for each word w in words: Emit(w, 1); reduce(string word, String values): int result = 0; for each v in values: result += ParseInt(v); return result; 29
30 5) count of frequency map(string sentence, String words): for each word w in words: Emit(w, 1); Text = "Das ist ein Satz. Und das ist der zweite Satz. Der dritte Satz ist der Letzte." A = map("satz_1", "das ist ein satz") B = map("satz_2", "und das ist der zweite satz") C = map("satz_3", "der dritte satz ist der letzte") Laufzeitumgebung 30
31 5) count of frequency map(string sentence, String words): for each word w in words: Emit(w, 1); A = map("satz_1", "das ist ein satz") B = map("satz_2", "und das ist der zweite satz") C = map("satz_3", "der dritte satz ist der letzte") Laufzeitumgebung A = [ ("das", 1), ("ist", 1), ("ein", 1), ("satz", 1)] B = [ ("und", 1), ("das", 1), ("ist", 1), ("der", 1), ("zweite", 1), ("satz", 1)] Map C = [ ("der", 1), ("dritte", 1), ("satz", 1), ("ist", 1), ("der", 1), ("letzte, 1)] 31
32 5) count of frequency A = [ ("das", 1), ("ist", 1), ("ein", 1), ("satz", 1)] B = [ ("und", 1), ("das", 1), ("ist", 1), ("der", 1), ("zweite", 1), ("satz", 1)] Map C = [ ("der", 1), ("dritte", 1), ("satz", 1), ("ist", 1), ("der", 1), ("letzte, 1)] 1. Schritt: das = [ 1 ] und = [ 1 ] der = [ 1 ] 2. Schritt: ist = [ 1 ] das = [ 1, 1 ] dritte = [ 1 ] 3. Schritt:... sortieren das = [ 1, 1 ] und = [ 1 ] der = [ 1, 1, 1 ] ist = [ 1, 1, 1 ] dritte = [ 1 ] ein = [ 1 ] satz = [ 1, 1, 1 ] zweite = [ 1 ] letzte = [ 1 ] Laufzeitumgebung 32
33 5) count of frequency das = [ 1, 1 ] > [ 2 ] und = [ 1 ] > [ 1 ] der = [ 1, 1, 1 ] > [ 3 ] ist = [ 1, 1, 1 ] > [ 3 ] dritte = [ 1 ] > [ 1 ] ein = [ 1 ] > [ 1 ] satz = [ 1, 1, 1 ] > [ 3 ] zweite = [ 1 ] > [ 1 ] letzte = [ 1 ] > [ 1 ] Laufzeitumgebung Laufzeitumgebung reduce ("das", 2) ("und", 1) ("der", 3) ("ist", 3) ("dritte", 1) ("ein", 1) ("satz", 3) ("zweite", 1) ("letzte", 1) reduce(string word, String values): int result = 0; for each v in values: result += ParseInt(v); return result; 33
34 5) count of frequency Text = "Das ist ein Satz. Und das ist der zweite Satz. Der dritte Satz ist der Letzte." A = map("satz_1", "das ist ein satz") B =... ("das", 2) ("und", 1) ("der", 3) ("ist", 3) ("dritte", 1) ("ein", 1) ("satz", 3) ("zweite", 1) ("letzte", 1) A = [ ("das", 1), ("ist", 1),...] B = Schritt: das = [ 1 ] und = [ 1 ] der = [ 1 ]... sortieren 34 das = [ 1, 1 ] > [ 2 ] und = [ 1 ] > [ 1 ] der = [ 1, 1, 1 ] > [ 3 ] ist = [ 1, 1, 1 ] > [ 3 ] dritte = [ 1 ] > [ 1 ] ein = [ 1 ] > [ 1 ] satz = [ 1, 1, 1 ] > [ 3 ] zweite = [ 1 ] > [ 1 ] letzte = [ 1 ] > [ 1 ]
35 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 35
36 6) Fehlerbehandlung regelmäßiges Anpingen der Worker vom Master falls sich der Worker nicht zurückmeldet: failed Zurücksetzen aller von ihm aktuell ausgeführten Map und ReduceAufgaben sowie der von ihm User erledigten MapAufgaben Program (1) fork (1) fork (1) fork (2) assign map Master (2) assign reduce worker split 0 split 1 split 2 (3) read (4) local write worker (5) remote (5) read worker (6) write output file 0 split 3 split 4 worker output file 1 worker Input files Map phasr Intermediate files (on local disks) Reduce phase Output files Fig. 1. Execution overview. 36
37 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 37
38 7) Straggler Straggler = Nachzügler fast alle Map und Reduce Aufgaben sind bereits erledigt noch nicht abgeschlossene Aufgaben werden zusätzlich noch weitere Worker verteilt es wird dann diejenige Ausführung verwendet, die als erstes fertig ist und die Operation gilt als beendet User Program (1) fork (1) fork Geschwindigkeitszuwachs um (1) fork bis zu 40% möglich (2) assign map Master (2) assign reduce worker split 0 split 1 split 2 (3) read (4) local write worker (5) remote (5) read worker (6) write output file 0 split 3 split 4 worker output file 1 worker Input files Map phasr Intermediate files (on local disks) Reduce phase Output files Fig. 1. Execution overview. 38
39 7) Performance MapReduceProgramm: Sortiertask, der ca. 1 TB Daten sortiert Cluster mit 1800 Rechnern à 2 GHz dualcore Xeon Prozessor, 4 GB Arbeitsspeicher und Gigabit LAN 39
40 MapReduce Quellen: [1] J. Dean, S. Ghemawat. MapReduce: Simplified Data Processing on Large Clusters, Januar 2008 [2] C. Ranger, R. Raghuraman, A. Penmetsa, G. Bradski, C. Kozyrakis. Evaluating MapReduce for MultiCore and Multiprocessor Systems, 2007 [3] M. Philippsen. Parallele und funktionale Programmierung, SS2009 [4] A. Martens. Neue Ansätze der Softwarequalitätssicherung. SS 2009 [5] R. Lämmel. Google s MapReduce programming model. Juli
MapReduce: Simplified Data Processing on Large Clusters
MapReduce: Simplified Data Processing on Large Clusters Hardware-Software-Co-Design Universität Erlangen-Nürnberg Tobias.Schwarzer@e-technik.stud.uni-erlangen.de Michael.Theil@mathe.stud.uni-erlangen.de
MehrÜberblick. Verarbeitung großer Datenmengen Motivation MapReduce. c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1
Überblick Verarbeitung großer Datenmengen Motivation MapReduce c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele) Indexierung des World
MehrMapReduce in der Praxis
MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation
MehrVerteilte Anwendungen
Verteilte Anwendungen Softwarearchitekturen für die Entwicklung verteilter Anwendungen Dominik Charousset SoSe 09 Dominik Charousset (HAW Hamburg) Verteilte Anwendungen 2009-06-25 1 / 24 Gliederung 1 Einführung
MehrSchneller als Hadoop?
Schneller als Hadoop? Einführung in Spark Cluster Computing 19.11.2013 Dirk Reinemann 1 Agenda 1. Einführung 2. Motivation 3. Infrastruktur 4. Performance 5. Ausblick 19.11.2013 Dirk Reinemann 2 EINFÜHRUNG
Mehr2. Map/Reduce Programming Model. Architektur von Datenbanksystemen II
2. Map/Reduce Programming Model Architektur von Datenbanksystemen II Motivation PROBLEMSTELLUNG Unternehmen wie Google, Yahoo, Facebook und Twitter müssen täglich Datenmengen im Bereich von TB und PB speichern
MehrMapReduce. Jens Dörre. Universität Passau Projekt MAPREDUCEFOUNDATION. Funktionale Programmierung
MapReduce Jens Dörre Universität Passau Projekt MAPREDUCEFOUNDATION Funktionale Programmierung Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 1 / 25 Gliederung 1 MapReduce allgemein 2 MapReduce
MehrSEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)
Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...
MehrMapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen
MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?
MehrEinführung in Hadoop
Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian
MehrNeue Ansätze der Softwarequalitätssicherung
Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik
MehrData Mining und Machine Learning
Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende
MehrHadoop. Simon Prewo. Simon Prewo
Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert
Mehr!! Waldemar Reger Köln,
Analyse und Evaluierung von Parameterabhängigkeiten anhand der Laufzeit von MapReduce-Jobs zur Konzeptionierung von Hadoop-Clustern Waldemar Reger Köln, 23.07.2014 Agenda 1. Hadoop Grundlagen 2. Cluster
MehrDie wichtigsten Hadoop-Komponenten für Big Data mit SAS
Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Herzlich Willkommen bei Webinar@Lunchtime Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Xing-Profil:
MehrÜberblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark. c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1
Überblick Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele) Indexierung
MehrMapReduce mit Hadoop 08.11.12 1
MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung
MehrGeneralisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE
Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de
MehrGoogles Map-Reduce-Technik
Googles Map-Reduce-Technik Wolfgang Gassler wolfgang.gassler@student.uibk.ac.at Zusammenfassung Durch die ständig steigende Datenflut im Internet müssen auch die Datenverarbeitungskapazitäten stark steigen.
MehrGraphalgorithmen in massiv parallelen Umgebungen
Grundseminar SS 2017 Graphalgorithmen in massiv parallelen Heinrich Latreider Grundseminar Vortrag am 27.06.2017 Betreuer: Prof. Dr. Olaf Zukunft 1 Inhaltsübersicht Motivation Graphentheorie Big Data Graph
MehrMapReduce. Dhyan Blum
MapReduce Dhyan Blum Betreuer: Dirk Haage Seminar Innovative Internettechnologien und Mobilkommunikation SS2010 Lehrstuhl Netzarchitekturen und Netzdienste Fakultät für Informatik, Technische Universität
MehrTeamprojekt & Projekt
18. Oktober 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Thomas Hordnung, Alexander Schätzle, Martin Przjyaciel-Zablocki dbis Studienordnung Master: 16 ECTS 480 Semesterstunden
MehrLarge-scale Incremental Processing Using Distributed Transactions and Notifications
Percolator Large-scale Incremental Processing Using Distributed Transactions and Notifications Daniel Peng and Frank Dabek 1 Ausgangslage 10 12 10 16 10 9 Webseiten Byte Daten Updates/Tag 2 MapReduce Batch-Job
MehrSchneller als Hadoop? Einführung in Spark Cluster Computing
Schneller als Hadoop? Einführung in Spark Cluster Computing Dirk Reinemann Oracle Deutschland B.V. & Co. KG Potsdam Schlüsselworte Big Data, Cluster Computing, Spark, Shark, Resilient Distributed Datasets,
MehrUniversität Karlsruhe (TH)
Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Software Engineering für moderne, parallele Plattformen 10. MapReduce Dr. Victor Pankratius Agenda Motivation Der MapReduce-Ansatz Map- und
MehrHadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011
High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten
MehrMapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012
MapReduce Vereinfachte Datenverarbeitung in großen Rechnerverbünden Igor Marijanovic 794894 Fachvortrag WAR 19.12.2012 Beuth Hochschule für Technik Berlin Inhalt Einleitung Hauptteil Abschluss MapReduce
Mehr2. Map/Reduce Programming Model. Architektur von Datenbanksystemen II
2. Map/Reduce Programming Model Architektur von Datenbanksystemen II Motivation PROBLEMSTELLUNG Unternehmen wie Google, Yahoo, Facebook und Twitter müssen täglich Datenmengen im Bereich von TB und PB speichern
MehrBig Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover
Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:
MehrVerteilte Systeme. Map Reduce. Secure Identity Research Group
Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das
MehrODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover
ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover Schlüsselworte Oracle Data Integrator ODI, Big Data, Hadoop, MapReduce,, HDFS, PIG,
MehrMapReduce-Konzept. Thomas Findling, Thomas König
MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel
MehrData Mining in der Cloud
Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur
MehrCloud Computing mit mathematischen Anwendungen
Cloud Computing mit mathematischen Anwendungen Vorlesung SoSe 2009 Dr. Marcel Kunze Karlsruhe Institute of Technology (KIT) Steinbuch Centre for Computing (SCC) KIT the cooperation of Forschungszentrum
MehrEinführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer
Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum
MehrÜberblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Zusammenfassung. c td MWCC (WS14/15) Verarbeitung großer Datenmengen 7 1
Überblick Verarbeitung großer Datenmengen Motivation MapReduce Pig Zusammenfassung c td MWCC (WS14/15) Verarbeitung großer Datenmengen 7 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele)
MehrBeratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting
Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis
MehrDatenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de
Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de , NoSQL source:dilbert.com Inhalte der nächsten Vorlesungen ˆ Methoden große Datenmengen
MehrImplementierungstechniken für Hauptspeicherdatenbanksysteme
Implementierungstechniken für Hauptspeicherdatenbanksysteme Michael Schwarz 9. Februar 2018 Zusammenfassung Mapreduce ist ein von Dean und Ghemawat 2004 vorgestelltes Programmiermodell zur parallelisierten
MehrBIG UNIVERSITÄTSRECHENZENTRUM
UNIVERSITÄTS RECHENZENTRUM LEIPZIG BIG DATA @ UNIVERSITÄTSRECHENZENTRUM Forschung und Entwicklung Entwicklung eines E-Science-Angebots für die Forschenden an der Universität Leipzig Stefan Kühne Axel Ngonga
MehrRavenDB, schnell und skalierbar
RavenDB, schnell und skalierbar Big Data & NoSQL, Aydin Mir Mohammadi bluehands GmbH & Co.mmunication KG am@bluehands.de Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit Skalierung http://www.flickr.com/photos/39901968@n04/4864698533/
MehrChristoph Pohl M.Sc. Prof. Dr. Peter Mandl Hochschule München & Isys Software GmbH
Christoph Pohl M.Sc. Prof. Dr. Peter Mandl Hochschule München & Isys Software GmbH Überblick Hintergrund der Arbeit Herausforderungen Beschreibung des Testmodells Vorstellung MapReduce Logdatenanalyse
MehrGPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop
am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten
MehrDduP - Towards a Deduplication Framework utilising Apache Spark
- Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication
MehrBig Data: Apache Hadoop Grundlagen
Seminarunterlage Version: 1.07 Version 1.07 vom 5. September 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen
MehrPostgreSQL auf vielen CPUs. Hans-Jürgen Schönig Hans-Jürgen Schönig
PostgreSQL auf vielen CPUs Ansätze zur Skalierung PostgreSQL auf einer CPU Traditionell läuft eine Query auf nur einer CPU Historisch gesehen war das kein Problem Mittlerweile ist das ein großes Problem
MehrWebscale Data Management. 8 Map/Reduce. Prof. Dr. - Ing. Wolfgang Lehner
Webscale Data Management 8 Map/Reduce Prof. Dr. - Ing. Wolfgang Lehner > Web- scale Data Management Big Data PBs of data, 10 2-10 5 nodes Opera7onal High qps, a few rows/op e.g., BigTable, Dynamo, PNUTS
MehrMapReduce. Johann Volz. 3. Juni 2010. Zusammenfassung
MapReduce Johann Volz 3. Juni 2010 Zusammenfassung Bei der Verarbeitung von Datenmengen, die hunderte oder gar tausende Computer zur Fertigstellung in der gewünschten Zeit brauchen, muss man sich nicht
MehrMapReduce: Simplified Data Processing on Large Clusters
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Fachgebiet DIMA Prof. Dr. Volker Markl Datenbanksysteme und Informationsmanagement Seminar Large scale data mining mit Apache Mahout
MehrSeminar SS 09 Amdahl`s Law and Cloud-Computing
Seminar SS 09 Amdahl`s Law and Cloud-Computing Prof. G. Bengel Fakultät für Informatik SEMB 7IBW 8IB Raum HO609 Mo 9:45-11:15 1. Teil: Amdahl sches Gesetz 1. Vortrag Das Gesetz von Amdahl und Gustafson
MehrDatenanalyse mit Data Mining
Datenanalyse mit Data Mining von Jan-Christoph Meier Hamburg, 19.01.2012 1 Ablauf Motivation Speicherung der Daten für das Data Mining Data Mining Algorithmen Ausblick auf die Masterarbeit Konferenzen
MehrFunktionale Programmierung mit modernem C++ Rainer Grimm Schulungen, Coaching und Technologieberatung
Funktionale Programmierung mit modernem C++ Rainer Grimm Schulungen, Coaching und Technologieberatung Funktionale Programmierung in modernem C++ Funktional in C++ Warum Funktional? Definition Was fehlt
MehrApache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.
Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und
MehrVerteilte Systeme - Java Networking (Sockets) 2 -
Verteilte Systeme - Java Networking (Sockets) 2 - Prof. Dr. Michael Cebulla 06. November 2014 Fachhochschule Schmalkalden Wintersemester 2014/15 1 / 30 Michael Cebulla Verteilte Systeme Gliederung Wiederholung:
MehrAPACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER
APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied
MehrBig Data Konnektoren: Hadoop und die Oracle DB
Big Data Konnektoren: Hadoop und die Oracle DB Philipp Loer ORDIX AG, Paderborn Schlüsselwörter Hadoop, Hive, OLH, OSCH Einleitung Der Vortrag beginnt mit einer Einführung in die Big Data Welt mit Apache
MehrPeter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr
Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit
MehrMapReduce Parallelität im Großen und im Kleinen
MapReduce Parallelität im Großen und im Kleinen Jens Lang jens.lang@informatik.tu-chemnitz.de MapReduce ist ein Programmiermodell für Parallelrechner, das die Möglichkeit bietet, effiziente parallele Programme
MehrBig Data in der Praxis
Jonas Freiknecht Big Data in der Praxis Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren HANSER Vorwort XI 1 Einleitung 1 2 Big-Data 7 2.1 Historische Entstehung 8 2.2 Big-Data
MehrCloud Data Management Kapitel 4: MapReduce(Teil3)
Cloud Data Management Kapitel 4: MapReduce(Teil3) Dr. Eric Peukert Wintersemester 2017 Universität Leipzig, Institut für Informatik http://dbs.uni-leipzig.de Inhaltsverzeichnis MapReduce MapReduce-Umsetzung
MehrBig Data. Professional IT Master. Prof. Dr. Ingo Claßen. Überblick. Verarbeitungsmodell. Verarbeitungsablauf. Verteilte Daten. Ressourcenmanagement
Big Data Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Überblick Verarbeitungsmodell Verarbeitungsablauf Verteilte Daten Ressourcenmanagement Koordination Überblick
MehrCloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.
Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition
MehrParallel Computing. Einsatzmöglichkeiten und Grenzen. Prof. Dr. Nikolaus Wulff
Parallel Computing Einsatzmöglichkeiten und Grenzen Prof. Dr. Nikolaus Wulff Parallel Architekturen Flynn'sche Klassifizierung: SISD: single Instruction, single Data Klassisches von-neumann sequentielles
MehrGoogle's BigTable: Ein verteiltes Speichersystem für strukturierte Daten. von Florian Eiteljörge
Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten von Florian Eiteljörge 1. Was ist Bigtable? 2. Datenmodell Übersicht 3. Implementierung/Architektur von Bigtable 4. Vergleich mit
MehrMapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce
MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:
MehrSAP Business Information Warehouse mit Oracle Database
SAP Business Information Warehouse mit Oracle Database Maciej Berghof Business Unit Datenbank SAP BW wächst Betriebswirtschaftlich getriebener Bedarf an mehr Informationen SAP BW konkurriert mit den bisherigen
MehrParallel Computing. Einsatzmöglichkeiten und Grenzen. Prof. Dr. Nikolaus Wulff
Parallel Computing Einsatzmöglichkeiten und Grenzen Prof. Dr. Nikolaus Wulff Vorüberlegungen Wann ist paralleles Rechnen sinnvoll? Wenn die Performance/Geschwindigkeit steigt. Wenn sich größere Probleme
MehrAufbau eines Clusters mit der NoSQL- Datenbank MongoDB auf Basis von Einplatinencomputern
Fachbereich 2 Informatik und Ingenieurwissenschaften Im Studiengang Informatik Aufbau eines Clusters mit der NoSQL- Datenbank MongoDB auf Basis von Einplatinencomputern Kolloquium zur Bachelorthesis Danijel
MehrLOVOO auf Wolke 7. Stefan Weigert (Head of Data) BI Trendforum, Dresden,
LOVOO auf Wolke 7 Stefan Weigert (Head of Data) BI Trendforum, Dresden, 01.03.2018 Über LOVOO 110+ Mitarbeiter 2 Büros (B, DD) > 50M Nutzer Weltweit ~1M req/min Android, IOS, Web Über LOVOO 110+ Mitarbeiter
MehrGridMate The Grid Matlab Extension
GridMate The Grid Matlab Extension Forschungszentrum Karlsruhe, Institute for Data Processing and Electronics T. Jejkal, R. Stotzka, M. Sutter, H. Gemmeke 1 What is the Motivation? Graphical development
MehrMapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Semesterarbeit. für den Kurs Wissenschaftliches Arbeiten im WS2012/13
Vereinfachte Datenverarbeitung in großen Rechnerverbünden Semesterarbeit für den Kurs Wissenschaftliches Arbeiten im WS2012/13 vorgelegt von: Igor Marijanovic Studienbereich: Medieninformatik Matrikelnummer:
Mehrtf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009
tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten
MehrInhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken
12. NoSQL Inhalt 12.1 NoSQL? 12.2 MapReduce & Co 12.3 Key-Value Stores 12.4 Extensible Record Stores 12.5 Dokumentorientierte Datenbanken 12.6 Graphdatenbanken 2 12.1 NoSQL? Relationale Datenbanksysteme
MehrComputergrundlagen Moderne Rechnerarchitekturen
Aufbau eines modernen Computers Computergrundlagen Moderne Rechnerarchitekturen Axel Arnold Institut für Computerphysik Universität Stuttgart DDR3- Speicher Prozessor Prozessor PEG Graphikkarte(n) weitere
MehrBigTable. 11.12.2012 Else
BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012
MehrComputergrundlagen Moderne Rechnerarchitekturen
Computergrundlagen Moderne Rechnerarchitekturen Axel Arnold Institut für Computerphysik Universität Stuttgart Wintersemester 2010/11 Aufbau eines modernen Computers DDR3- Speicher Prozessor Prozessor PEG
MehrErfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien
Wir unternehmen IT. Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Karlsruhe, 30.09.2015 $id thgreiner Thorsten Greiner Teamleiter Software Development ConSol* Software GmbH, Düsseldorf
MehrÜberblick. Verarbeitung großer Datenmengen. MapReduce. Herausforderungen
Überblick Verarbeitung großer Datenmengen Verarbeitung großer Datenmengen Motivation MapReduce Zusammenfassung Problemstellungen (e) Indexierung des World Wide Web PageRank-Berechnungen für Web-Seiten
Mehr!"#$"%&'()*$+()',!-+.'/',
Soziotechnische Informationssysteme 5. Facebook, Google+ u.ä. Inhalte Historisches Relevanz Relevante Technologien Anwendungsarchitekturen 4(5,12316,7'.'0,!.80/6,9*$:'0+$.;.,&0$'0, 3, Historisches Facebook
MehrMapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Semesterarbeit. für den Kurs Wissenschaftliches Arbeiten im WS2012/13
Vereinfachte Datenverarbeitung in großen Rechnerverbünden Semesterarbeit für den Kurs Wissenschaftliches Arbeiten im WS2012/13 vorgelegt von: Igor Marijanovic Studienbereich: Medieninformatik Matrikelnummer:
MehrSTL-Container und Laufzeit
STL-Container und Laufzeit Eine Übersicht Höhere Programmierung / C++ Yannick Kaiser, LMU 1 C++11 Array konstanter Länge, die bei der Initalisierung angegeben werden muss STL-Kapselung für klassische
MehrCloud Data Management Kapitel 5: MapReduce und Datenbanken (Teil 1)
Cloud Data Management Kapitel 5: MapReduce und Datenbanken (Teil 1) Dr. Eric Peukert Wintersemester 2017 Universität Leipzig, Institut für Informatik http://dbs.uni-leipzig.de Inhaltsverzeichnis SQL-Anfrageformulierung
MehrAlgorithmen und Programmieren 1 Funktionale Programmierung - Musterlösung zur Übungsklausur -
Algorithmen und Programmieren 1 Funktionale Programmierung - Musterlösung zur Übungsklausur - Punkte: A1: 30, A2: 20, A3: 20, A4: 20, A5: 10, A6: 20 Punkte: /120 12.02.2012 Hinweis: Geben Sie bei allen
MehrSQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database
SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database Carsten Czarski Oracle Deutschland B.V. & Co KG Agenda NoSQL: Was ist das und wozu ist das gut? Anwendungsbereiche für NoSQL-Technologien,
MehrÜberblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014
Überblick Hadoop Einführung HDFS und MapReduce DOAG Regionaltreffen München/Südbayern Februar 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business
MehrApache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org
Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software
MehrAufgabe 1: Begriffswelt /10 Punkte
Cloud Computing Klausur an der Hochschule Karlsruhe - Technik und Wirtschaft Wintersemester 2016/17, Dienstag, 31.01.2017, 14:00 Uhr Name: Punkte: /60 Note: Disclaimer: - Zugelassene Hilfsmittel: keine
MehrInhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken
7. NoSQL Inhalt 12.1 NoSQL? 12.2 MapReduce & Co 12.3 Key-Value Stores 12.4 Extensible Record Stores 12.5 Dokumentorientierte Datenbanken 12.6 Graphdatenbanken 2 12.1 NoSQL? Relationale Datenbanksysteme
MehrIntroduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2016
to to May 2016 to What is Programming? All computers are stupid. All computers are deterministic. You have to tell the computer what to do. You can tell the computer in any (programming) language) you
MehrSystemanforderungen Manufacturing Execution System fabmes
Manufacturing Execution System fabmes Das Manufacturing Execution System fabmes bemüht sich trotz hoher Anforderungen an die Datenverarbeitung möglichst geringe Anforderungen an die Hardware zu stellen.
MehrSpark, Impala und Hadoop in der Kreditrisikoberechnung
Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort
MehrThema: Das MapReduce-Framework
Software as a Service Cloud Computing und aktuelle Entwicklungen Seminararbeit Thema: Das MapReduce-Framework Betreuer: Prof. Dr. Klaus Küspert Dipl.-Inf. Andreas Göbel Nicky Kuhnt Friedrich-Schiller-Universität
MehrInformatik für Mathematiker und Physiker Woche 7. David Sommer
Informatik für Mathematiker und Physiker Woche 7 David Sommer David Sommer 30. Oktober 2018 1 Heute: 1. Repetition Floats 2. References 3. Vectors 4. Characters David Sommer 30. Oktober 2018 2 Übungen
MehrSystemvoraussetzungen:
Systemvoraussetzungen: DOMUS NAVI für DOMUS 4000 Stand 09/2017 Benötigen Sie Unterstützung* oder haben essentielle Fragen? Kundensupport Tel.: +49 [0] 89 66086-230 Fax: +49 [0] 89 66086-235 E-Mail: domusnavi@domus-software.de
Mehr1. Einführung Programmieren / Algorithmen und Datenstrukturen 1 Prof. Dr. Bernhard Humm FB Informatik, Hochschule Darmstadt
1. Einführung Programmieren / Algorithmen und Datenstrukturen 1 Prof. Dr. Bernhard Humm FB Informatik, Hochschule Darmstadt 1 Ein Zitat zu Beginn Vor der Wahl, ein theoretischer Physiker oder ein Programmierer
MehrS3 your Datacenter. Software Defined Object Storage. Die kostengünstige und skalierbare Lösung für Ihre unstrukturierten Daten
S3 your Datacenter Software Defined Object Storage Die kostengünstige und skalierbare Lösung für Ihre unstrukturierten Daten Unstrukturierte Daten explodieren Volume in Exabytes Sensors & Devices Social
MehrMap Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher
Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!
Mehr