Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce

Größe: px
Ab Seite anzeigen:

Download "Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce"

Transkript

1 Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Timo Bingmann, Peter Sanders und Sebastian Schlag 21. Oktober PdF Vorstellung INSTITUTE OF THEORETICAL INFORMATICS ALGORITHMICS KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft

2 Was ist Map/Reduce? Zeit Geld Geld Macht Glück Zeit Geld Map (Zeit,1) (Macht,1) (Glück,1) (Zeit,1) Shuffle (Glück,1) (Macht,1) (Zeit,1) (Zeit,1) Reduce (Glück,1) (Geld,3) (Macht,1) (Zeit,2) Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

3 Warum Map/Reduce? Eine einfache softwaretechnische Abstraktion mit automatischer Parallelisierung von unabhängigen Operationen (map) und Aggregationen (reduce), automatischer Verteilung der Daten und Arbeit, automatischer Fehlertoleranz gegenüber Ausfall von Hardware. MapReduce-Framework Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

4 Warum Map/Reduce? Eine einfache softwaretechnische Abstraktion mit automatischer Parallelisierung von unabhängigen Operationen (map) und Aggregationen (reduce), automatischer Verteilung der Daten und Arbeit, automatischer Fehlertoleranz gegenüber Ausfall von Hardware. MapReduce-Framework Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

5 Wo ist Map/Reduce? Programmiermodell für ein verteiltes System. Implementierung, z.b. in und weiteren experimentellen Frameworks (u.a. auch in C++): (Boost.MapReduce, Sector/Sphere, mapreduce-lite). zur Berechnung von: PageRank (spare Matrixmultiplikation), parallele Bildverarbeitung, Aggregation von Statistiken, maschinelles Lernen, etc. NICHT das gleiche wie verteilte Dateisysteme oder (verteilte) Datenbanken. Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

6 Was kann man da noch machen? Ziel: Ausprobieren und Entwickeln von besseren Algorithmen für die Kernprobleme. 1. Etappe: eine prototypische, kanonische Implementierung eines MapReduce Frameworks für eines der Speichermodelle: shared, external, distributed, oder distributed external. (Prototyp, aber: einfache Applikationen sollen laufen.) 2. Etappe: performance-relevante Teilprobleme fokussieren. Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

7 Mögliche Verbesserungen Bessere Lokalität der Shuffle Operation durch Erkennung eindeutiger Elemente durch Hashing. Anpassung der Shuffles mit Teilreduktionen an die Netzwerk Topologie. Weniger Overhead bei der Fehlertoleranz durch intelligente Quersummen, um nicht alles zu duplizieren. (Hadoop: alles 3-fach gespeichert). Scheduling der Datenverarbeitung und -redistribution und dabei Optimierung für mehrere MapReduce Schritte, Pipelining von Operationen und Netzwerktransfers, oder sogar der Energieeffizienz. Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

8 Voraussetzungen Wir suchen: 3 5 engagierte Studenten, mit Spaß am Entwickeln und Analysieren verteilter Algorithmen, Grundkenntnissen in C++, Linux und Lernbereitschaft für mehr, und guten Noten in PSE und Algorithmen 1 & 2, oder algorithmischem Talent. Wir bieten: Ein Forschungsprojekt im top-aktuellen Big Data Bereich. Unterstützung und Erfahrung bei der Umsetzung des Projekts. Meldet Euch bei uns, bis Montag, : Timo Bingmann und Sebastian Schlag Raum 222 und 210, Infobau Mail: Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

9 Weitere Lehrveranstaltungen Vertiefungsfach: Algorithmentechnik (VF2) Parallelverarbeitung (VF5) Empfohlene Vorlesungen: Parallele Algorithmen (WS) Algorithm Engineering (SS) Weitere interessante Vorlesungen: Randomisierte Algorithmen (WS) Parallelrechner und Parallelprogrammierung (SS) Modelle der Parallelverarbeitung (SS) Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

10 Technologie-Stack Bingo Vtune ProtoBuf ØMQ gmock OpenMP BDB SDSL Boost STXXL TBB ASIO cmake C++11 perf MCSTL Ceph MsgPack git LZ4 mem cache dsbf UDP doxygen Jenkins gtest Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

11 Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Timo Bingmann, Peter Sanders und Sebastian Schlag 21. Oktober PdF Vorstellung INSTITUTE OF THEORETICAL INFORMATICS ALGORITHMICS KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?

Mehr

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik Dozent: Prof. Dr. Henning Meyerhenke PARALLELES RECHNEN INSTITUT FÜR THEORETISCHE INFORMATIK, FAKULTÄT FÜR INFORMATIK

Mehr

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik Dozent: Juniorprof. Dr. Henning Meyerhenke PARALLELES RECHNEN INSTITUT FÜR THEORETISCHE INFORMATIK, FAKULTÄT FÜR

Mehr

Algorithmen für schwierige Optimierungsprobleme Vorlesung für den Bereich Bachelor Informatik

Algorithmen für schwierige Optimierungsprobleme Vorlesung für den Bereich Bachelor Informatik Algorithmen für schwierige Optimierungsprobleme Vorlesung für den Bereich Bachelor Informatik Dozent: Juniorprof. Dr. Henning Meyerhenke PARALLELES RECHNEN INSTITUT FÜR THEORETISCHE INFORMATIK, FAKULTÄT

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Lehrgebiet Informationssysteme

Lehrgebiet Informationssysteme Lehrgebiet AG Datenbanken und (Prof. Michel, Prof. Härder) AG Heterogene (Prof. Deßloch) http://wwwlgis.informatik.uni-kl.de/ Was sind? Computergestützte Programmsysteme, die Informationen erfassen, dauerhaft

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Vorstellung des Fachgebietes Technische Informatik

Vorstellung des Fachgebietes Technische Informatik Fakultät Informatik, Institut für Technische Informatik, Professur Rechnerarchitektur Vorstellung des Fachgebietes Technische Informatik Professur Rechnerarchitektur Zellescher Weg 12 Nöthnitzer Strasse

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

Neue Methoden in der Vermittlung von Betriebssystemkenntnissen

Neue Methoden in der Vermittlung von Betriebssystemkenntnissen Neue Methoden in der Vermittlung von Betriebssystemkenntnissen Hans-Georg Eßer Dagstuhl-Seminar 31.06. 02.07.2008 Hans-Georg Eßer Studium in Aachen (Mathematik und Informatik) Mathe-Diplom 1997, DA in

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Staff. Tim Conrad. Zeitplan. Blockseminar: Verteiltes Rechnen und Parallelprogrammierung. Sommer Semester 2013. Tim Conrad

Staff. Tim Conrad. Zeitplan. Blockseminar: Verteiltes Rechnen und Parallelprogrammierung. Sommer Semester 2013. Tim Conrad Blockseminar: Verteiltes Rechnen und Parallelprogrammierung Sommer Semester 2013 Tim Conrad Staff Tim Conrad AG Computational Proteomics email: conrad@math.fu-berlin.de Telefon: 838-51445 Büro: Raum 138,

Mehr

Systemaspekte Verteilter Systeme Wintersemester 2004/05

Systemaspekte Verteilter Systeme Wintersemester 2004/05 Systemaspekte Verteilter Systeme Wintersemester 2004/05 Odej Kao Institut für Informatik Universität Paderborn Prof. Dr. Odej Kao Dozent AG Betriebssysteme und Verteilte Systeme Fürstenallee 11, F2.101

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Cloud Computing mit mathematischen Anwendungen

Cloud Computing mit mathematischen Anwendungen Cloud Computing mit mathematischen Anwendungen Vorlesung SoSe 2009 Dr. Marcel Kunze Karlsruhe Institute of Technology (KIT) Steinbuch Centre for Computing (SCC) KIT the cooperation of Forschungszentrum

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Intel Cluster Studio. Michael Burger FG Scientific Computing TU Darmstadt michael.burger@sc.tu-darmstadt.de

Intel Cluster Studio. Michael Burger FG Scientific Computing TU Darmstadt michael.burger@sc.tu-darmstadt.de Intel Cluster Studio Michael Burger FG Scientific Computing TU Darmstadt michael.burger@sc.tu-darmstadt.de 19.03.13 FB Computer Science Scientific Computing Michael Burger 1 / 30 Agenda Was ist das Intel

Mehr

Verkürzung von Entwurfszeiten

Verkürzung von Entwurfszeiten Verkürzung von Entwurfszeiten durch Matlab-basiertes HPC R. Fink, S. Pawletta Übersicht aktuelle Situation im ingenieurtechnischen Bereich Multi-SCEs als Konzept zur Verkürzung von Entwurfszeiten Realisierung

Mehr

Prüfungstermine für die Diplom-Vorprüfungen im Studiengang Informatik am Ende des WS 2008/2009

Prüfungstermine für die Diplom-Vorprüfungen im Studiengang Informatik am Ende des WS 2008/2009 A U S H A N G Diplom-Vorprüfung Prüfungstermine für die Diplom-Vorprüfungen im am Ende des WS 2008/2009 1 Einführung in die Informatik 02.02.09 16:30 18:00 Uhr V 307/308 2 Datenverarbeitungssysteme 28.01.09

Mehr

Data Mining und Machine Learning

Data Mining und Machine Learning Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Modulbeschreibung. The course is principally designed to impart: technical skills 50%, method skills 40%, system skills 10%, social skills 0%.

Modulbeschreibung. The course is principally designed to impart: technical skills 50%, method skills 40%, system skills 10%, social skills 0%. Titel des Moduls: Parallel Systems Dt.: Parallele Systeme Verantwortlich für das Modul: Heiß, Hans-Ulrich E-Mail: lehre@kbs.tu-berlin.de URL: http://www.kbs.tu-berlin.de/ Modulnr.: 866 (Version 2) - Status:

Mehr

Projektseminar Parallele Programmierung

Projektseminar Parallele Programmierung HTW Dresden WS 2014/2015 Organisatorisches Praktikum, 4 SWS Do. 15:00-18:20 Uhr, Z136c, 2 Doppelstunden o.g. Termin ist als Treffpunkt zu verstehen Labore Z 136c / Z 355 sind Montag und Donnerstag 15:00-18:20

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Grundbegriffe der Informatik

Grundbegriffe der Informatik Grundbegriffe der Informatik Tutorium 4 26..25 INSTITUT FÜR THEORETISCHE INFORMATIK KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu

Mehr

Development Tools for 16/32 Bit Microcontroller

Development Tools for 16/32 Bit Microcontroller Praktika- und Diplomthemen bei Stand 01/2013 Die nachfolgend aufgeführten Themen sind Vorschläge und können in Absprache mit dem Praktikanten / Diplomanden sowie der Hochschule modifiziert werden. Die

Mehr

Integration von Mechatronik- und Softwaresystemen durch Virtualisierung von PLM-System-Komponenten

Integration von Mechatronik- und Softwaresystemen durch Virtualisierung von PLM-System-Komponenten Integration von Mechatronik- und Softwaresystemen durch 3DEXPERIENCE Customer Forum 26./27. Juni 2013 Mannheim Michael Hopf, Diplôme d'ingénieur - Master Degree, Doktorand KIT Universität des Landes Baden-Württemberg

Mehr

Graphenalgorithmen und lineare Algebra Hand in Hand Vorlesung für den Bereich Diplom/Master Informatik

Graphenalgorithmen und lineare Algebra Hand in Hand Vorlesung für den Bereich Diplom/Master Informatik Vorlesung für den Bereich Diplom/Master Informatik Dozent: Juniorprof. Dr. Henning Meyerhenke PARALLELES RECHNEN INSTITUT FÜR THEORETISCHE INFORMATIK, FAKULTÄT FÜR INFORMATIK KIT Universität des Landes

Mehr

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,

Mehr

HoC FSZ House of Competence Fernstudienzentrum

HoC FSZ House of Competence Fernstudienzentrum HoC FSZ House of Competence Fernstudienzentrum Untersuchung von Mechanismen des Kompetenzerwerbs im Maschinenbaustudium Dipl.-Ing. Jan Breitschuh M.A. Annica Helmich HoC Fernstudienzentrum IPEK Institut

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Grundbegriffe der Informatik

Grundbegriffe der Informatik Grundbegriffe der Informatik Tutorium 27 29..24 FAKULTÄT FÜR INFORMATIK KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Definition

Mehr

Tutorium 06: Klausurvorbereitung

Tutorium 06: Klausurvorbereitung Tutorium 06: Klausurvorbereitung Softwaretechnik im SS 2011, Tutorium 17 Christian Jülg 14. Juli 2011 CHAIR FOR SOFTWARE DESIGN AND QUALITY KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum

Mehr

Überblick über das Institut für Telematik

Überblick über das Institut für Telematik Überblick über das Institut für Telematik Professoren Prof. Dr. Sebastian Abeck (seit 16) Prof. Dr. Michael Beigl (seit 2010) Prof. Dr. Hannes Hartenstein (seit 2003) Prof. Dr. Wilfried Juling (seit 18)

Mehr

Rechnerorganisation Tutorium Nr. 1

Rechnerorganisation Tutorium Nr. 1 Rechnerorganisation Tutorium Nr. 1 Tutorium 22 Nicholas Kjär - uadnm@student.kit.edu 24. April 2014 INSTITUT FÜR INFORMATIK KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum

Mehr

Modulübersichtstabelle des Studienganges Bachelor of Science Informatik

Modulübersichtstabelle des Studienganges Bachelor of Science Informatik Bachelor of Science (Seite 1 von 8) Modulübersichtstabelle des Studienganges Bachelor of Science Modul/zugehörige Lehrveranstaltungen Prüfungsleistung Art/Dauer (Modulabschlussprüfung und/oder semesterbegleitende

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Software & Information Engineering

Software & Information Engineering Übergangsbestimmungen für das Bachelorstudium Software & Information Engineering an der Technischen Universität Wien von der Studienkommission Informatik beschlossen am 20.9.2006 (1) Sofern nicht anderes

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

IT-Infrastruktur, WS 2014/15, Hans-Georg Eßer

IT-Infrastruktur, WS 2014/15, Hans-Georg Eßer ITIS-D'' IT-Infrastruktur WS 2014/15 Hans-Georg Eßer Dipl.-Math., Dipl.-Inform. Foliensatz D'': Rechnerstrukturen, Teil 3 v1.0, 2014/11/27 Folie D''-1 Dieser Foliensatz Vorlesungsübersicht Seminar Wiss.

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

Storage-Trends am LRZ. Dr. Christoph Biardzki

Storage-Trends am LRZ. Dr. Christoph Biardzki Storage-Trends am LRZ Dr. Christoph Biardzki 1 Über das Leibniz-Rechenzentrum (LRZ) Seit 50 Jahren Rechenzentrum der Bayerischen Akademie der Wissenschaften IT-Dienstleister für Münchner Universitäten

Mehr

3. Übung Algorithmen I

3. Übung Algorithmen I Timo Bingmann, Christian Schulz INSTITUT FÜR THEORETISCHE INFORMATIK, PROF. SANDERS 1 KIT Timo Universität Bingmann, des LandesChristian Baden-Württemberg Schulz und nationales Forschungszentrum in der

Mehr

MapReduce mit Hadoop 08.11.12 1

MapReduce mit Hadoop 08.11.12 1 MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

Projektgruppe Algorithmen für die Cloud-unterstützte 3-D-Darstellung auf mobilen Endgeräten

Projektgruppe Algorithmen für die Cloud-unterstützte 3-D-Darstellung auf mobilen Endgeräten Projektgruppe Algorithmen für die Cloud-unterstützte 3-D-Darstellung auf mobilen Endgeräten WS 2011/2012 bis SS 2012 11. Juli 2011 Benjamin Eikel Matthias Fischer Projektgruppe Algorithmen für die Cloud-unterstützte

Mehr

Übergang vom Diplom zum Bachelor

Übergang vom Diplom zum Bachelor Übergang vom Diplom zum Bachelor Da die Fächer des Bachelorstudienganges größtenteils aus Fächern des Diplomstudiengangs hervorgegangen sind, können sich die Studierenden diese Fächer aus dem Diplom für

Mehr

Möglichkeiten für bestehende Systeme

Möglichkeiten für bestehende Systeme Möglichkeiten für bestehende Systeme Marko Filler Bitterfeld, 27.08.2015 2015 GISA GmbH Leipziger Chaussee 191 a 06112 Halle (Saale) www.gisa.de Agenda Gegenüberstellung Data Warehouse Big Data Einsatz-

Mehr

P r ü f u n g s a n g e b o t am FB Wirtschaft im Sommersemester 2009 (29.06.2009 17.07.2009) Studiengang Wirtschaftsinformatik Bachelor

P r ü f u n g s a n g e b o t am FB Wirtschaft im Sommersemester 2009 (29.06.2009 17.07.2009) Studiengang Wirtschaftsinformatik Bachelor am FB Wirtschaft im Sommersemester 2009 (29.06.2009 17.07.2009) Studiengang Wirtschaftsinformatik Bachelor Zeit Bemerkungen: Semester Fach Prüfer Art der WS WINFB1161 Einführung in die WINF Blakowski K1

Mehr

Protected User-Level DMA in SCI Shared Memory Umgebungen

Protected User-Level DMA in SCI Shared Memory Umgebungen Protected User-Level DMA in SCI Shared Memory Umgebungen Mario Trams University of Technology Chemnitz, Chair of Computer Architecture 6. Halle Chemnitz Seminar zu Parallelverarbeitung und Programmiersprachen

Mehr

Data Warehousing 0-1. DBS-Module

Data Warehousing 0-1. DBS-Module Data Warehousing Sommersemester 2014 Prof. Dr. E. Rahm Universität Leipzig Institut für Informatik y y y http://dbs.uni-leipzig.de 0-1 DBS-Module Master-Studium Informatik 10-202-2215 Moderne Datenbanktechnologien

Mehr

Modultabelle. Masterstudiengänge Wirtschaftsinformatik (90 ECTS-Punkte und 120 ECTS-Punkte) Fakultät Wirtschaftsinformatik und Angewandte Informatik

Modultabelle. Masterstudiengänge Wirtschaftsinformatik (90 ECTS-Punkte und 120 ECTS-Punkte) Fakultät Wirtschaftsinformatik und Angewandte Informatik Otto-Friedrich-Universität Bamberg Modultabelle Masterstudiengänge Wirtschaftsinformatik (90 ECTS-Punkte und 120 ECTS-Punkte) Fakultät Wirtschaftsinformatik und Angewandte Informatik Stand: Wintersemester

Mehr

Cloud Computing mit mathematischen Anwendungen

Cloud Computing mit mathematischen Anwendungen Cloud Computing mit mathematischen Anwendungen Vorlesung SoSe 2009 Dr. Marcel Kunze Karlsruhe Institute of Technology (KIT) Steinbuch Centre for Computing (SCC) KIT the cooperation of Forschungszentrum

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

Übersicht über den Studiengang

Übersicht über den Studiengang Inhaltsübersicht - Übersicht über den Studiengang - Modellstudienpläne - Übersicht Vertiefungen (optional) - Modellstudienpläne "Research Track" (optional) Übersicht über den Studiengang Varianten "Ohne

Mehr

Campus Routenplaner. Praxis der Software-Entwicklung. www.kit.edu. Einführung 27. April, 2015 Michael Hamann Franziska Wegner

Campus Routenplaner. Praxis der Software-Entwicklung. www.kit.edu. Einführung 27. April, 2015 Michael Hamann Franziska Wegner Campus Routenplaner Praxis der Software-Entwicklung Einführung 27. April, 2015 Michael Hamann Franziska Wegner INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes

Mehr

Prüfungsplan Master of Science in Wirtschaftsinformatik

Prüfungsplan Master of Science in Wirtschaftsinformatik Prüfungsplan Master of Science in Wirtschaftsinformatik Modul Art Creditpunkte Schwerpunkt Very Large Business Applications Module aus dem Bereich Wirtschaftsinformatik SWS Empfohlenes Semester Prüfungsart

Mehr

BIG DATA HYPE ODER CHANCE

BIG DATA HYPE ODER CHANCE BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu

Mehr

Big Data Anwendungen Chancen und Risiken

Big Data Anwendungen Chancen und Risiken Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data

Mehr

Ceph. Distributed Storage Julian mino Klinck GPN15-05.06.2015

Ceph. Distributed Storage Julian mino Klinck GPN15-05.06.2015 Distributed Storage Julian mino Klinck GPN15-05.06.2015 Julian mino! Interessen: Netzwerke # Karlsruhe Hardware $ gpn15@lab10.de Cocktails " twitter.com/julianklinck Hacking Musik- und Lichttechnik 2 Julian

Mehr

Informatik an der HTW des Saarlandes

Informatik an der HTW des Saarlandes Informatik an der HTW des Saarlandes Prof. Dr. Helmut G. Folz Studiengangsleiter Praktische Informatik Hochschule für Technik und Wirtschaft des Saarlandes 1 6 Standorte im Saarland: Campus Alt-Saarbrücken

Mehr

Blockseminar: Verteiltes Rechnen und Parallelprogrammierung. Sommer Semester 2015. Tim Conrad

Blockseminar: Verteiltes Rechnen und Parallelprogrammierung. Sommer Semester 2015. Tim Conrad Blockseminar: Verteiltes Rechnen und Parallelprogrammierung Sommer Semester 2015 Tim Conrad Staff Tim Conrad AG Medical Bioinformatics email: conrad@math.fu-berlin.de Telefon: 838-51445 Büro: Raum 138,

Mehr

B.SC. INFORMATIK TIM JUNGNICKEL

B.SC. INFORMATIK TIM JUNGNICKEL ABOUT ME (21) 5. SEMESTER B.SC. INFORMATIK TU-BERLIN SEIT 2008 2 AGENDA Was ist Informatik? Wie geht es weiter? Was kann ich an der Uni machen? 1 2 3 4 Struktur des Studiums Was lernt man an der Universität?

Mehr

Proseminar Nichtsequentielle Programmiersprachen - alt und neu Einführung

Proseminar Nichtsequentielle Programmiersprachen - alt und neu Einführung Proseminar Nichtsequentielle Programmiersprachen - alt und neu Einführung Peter Löhr Nichtsequentielle Programme Nichtsequentielle Programme (concurrent programs): Prozesse, Threads, Tasks,... sind eigenständige

Mehr

PSE: Analysesoftware für Logistiknetzwerke

PSE: Analysesoftware für Logistiknetzwerke PSE: Analysesoftware für Logistiknetzwerke Phase 2 Der Entwurf,, Lehrstuhl Prof. Böhm KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu

Mehr

Ausführungsbestimmungen des. des Bachelor of Science Studienganges

Ausführungsbestimmungen des. des Bachelor of Science Studienganges Aufgrund der Genehmigung des Präsidiums der TU Darmstadt vom 8. Juli 2011 (Az.: 652-7-1) werden die Ausführungsbestimmungen des Fachbereichs Informatik vom 30.06.2011 zu den Allgemeinen Prüfungsbestimmungen

Mehr

DuE-Tutorien 4 und 6. Tutorien zur Vorlesung Digitaltechnik und Entwurfsverfahren Christian A. Mandery. www.kit.edu WOCHE 12 AM 22.01.

DuE-Tutorien 4 und 6. Tutorien zur Vorlesung Digitaltechnik und Entwurfsverfahren Christian A. Mandery. www.kit.edu WOCHE 12 AM 22.01. DuE-Tutorien 4 und 6 Tutorien zur Vorlesung Digitaltechnik und Entwurfsverfahren Christian A. Mandery WOCHE 12 AM 22.01.2013 KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum

Mehr

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012 MapReduce Vereinfachte Datenverarbeitung in großen Rechnerverbünden Igor Marijanovic 794894 Fachvortrag WAR 19.12.2012 Beuth Hochschule für Technik Berlin Inhalt Einleitung Hauptteil Abschluss MapReduce

Mehr

1 Konzepte der Parallelverarbeitung

1 Konzepte der Parallelverarbeitung Parallelverarbeitung Folie 1-1 1 Konzepte der Parallelverarbeitung Erhöhung der Rechenleistung verbesserte Prozessorarchitekturen mit immer höheren Taktraten Vektorrechner Multiprozessorsysteme (Rechner

Mehr

Intel Threading Building Blocks (TBB)

Intel Threading Building Blocks (TBB) Intel Threading Building Blocks (TBB) Julius Adorf 26.10.2009 Seminar: Semantics of C++ TU München Tejas und Jayhawk? Intel Threading Building Blocks (TBB) Parallelisierung für C++ eine Bibliothek mittlerweile

Mehr

Universität Stuttgart Stuttgart, Baden-Würrtembergq, 27000 Studenten

Universität Stuttgart Stuttgart, Baden-Würrtembergq, 27000 Studenten Universität Stuttgart Stuttgart, Baden-Würrtembergq, 27000 Studenten Fachschaft Informatik und Softwaretechnik vertritt 1800 Studenten 30 Aktive B.Sc. Informatik 180 239 B.Sc. Softwaretechnik 150 203 B.Sc.

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Vorläufiger Modulkatalog Informatik für die Lehrämter an Hauptschulen, Realschulen und Gymnasien

Vorläufiger Modulkatalog Informatik für die Lehrämter an Hauptschulen, Realschulen und Gymnasien Stand 29.04.2011 Vorläufiger Modulkatalog Informatik 1 von 27 Vorläufiger Modulkatalog Informatik für die Lehrämter an Hauptschulen, Realschulen und Gymnasien Stand der Redaktion 29. April 2011 Stand 29.04.2011

Mehr

Übergangsbestimmungen für die Informatikstudien anlässlich der Änderungen mit 1.10.2009

Übergangsbestimmungen für die Informatikstudien anlässlich der Änderungen mit 1.10.2009 Übergangsbestimmungen für die studien anlässlich der Änderungen mit 1.10.2009 Studienkommission Bachelorstudium Data Engineering & Statistics Dieses Studium kann ab Wintersemester 2009 nicht mehr neu begonnen

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Abschnitt 16: Objektorientiertes Design

Abschnitt 16: Objektorientiertes Design Abschnitt 16: Objektorientiertes Design 16. Objektorientiertes Design 16 Objektorientiertes Design Informatik 2 (SS 07) 610 Software-Entwicklung Zur Software-Entwicklung existiert eine Vielfalt von Vorgehensweisen

Mehr

Hochleistungsrechnen Hybride Parallele Programmierung. Prof. Dr. Thomas Ludwig Universität Hamburg Informatik Wissenschaftliches Rechnen

Hochleistungsrechnen Hybride Parallele Programmierung. Prof. Dr. Thomas Ludwig Universität Hamburg Informatik Wissenschaftliches Rechnen Hochleistungsrechnen Hybride Parallele Programmierung Prof. Dr. Thomas Ludwig Universität Hamburg Informatik Wissenschaftliches Rechnen Inhaltsübersicht Einleitung und Motivation Programmiermodelle für

Mehr

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Schlüsselworte Hadoop, Hive, Sqoop, SQL Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Einleitung In diesem Vortrag werden, nach einer kurzen Einführung in Apache Hadoop, die beiden Werkzeuge

Mehr

Integrierte Produktentwicklung Infoveranstaltung

Integrierte Produktentwicklung Infoveranstaltung Integrierte Produktentwicklung Infoveranstaltung Jan Breitschuh, Sandra Drechsler, Eike Sadowski IPEK Institut für Produktentwicklung 1 13.06.2012 KIT Universität des Landes Baden-Württemberg und nationales

Mehr

BraLUG-Cluster Idee, Konzept und Umsetzung. Uwe Berger; 2005

BraLUG-Cluster Idee, Konzept und Umsetzung. Uwe Berger; 2005 <bergeruw@gmx.net> Idee, Konzept und Umsetzung ; 2005 Inhalt Die Idee Das Konzept Die Umsetzung PVM Hard-/Software Bootkonzept Clientanmeldung... und jetzt? 01/2005 2 Die Idee eine aussergewöhnliche und

Mehr

Onlinetests und Onlinematerialien am MINT-Kolleg Baden-Württemberg

Onlinetests und Onlinematerialien am MINT-Kolleg Baden-Württemberg Onlinetests und Onlinematerialien am MINT-Kolleg Baden-Württemberg Karlsruher Institut für Technologie & Universität Stuttgart MINT-Kolleg Baden-Württemberg Dr. Daniel Haase KIT Universität des Landes

Mehr

der Universität des Saarlandes

der Universität des Saarlandes Verknüpfung der Lehrveranstaltungen mit den einzelnen Studiengängen der Rechts und Wirtschaftswissenschaftlichen Fakultät, Abteilung Wirtschaftswissenschaft, der Universität des Saarlandes Buchführung

Mehr

E-Learning am Institut für Technik der Informationsverarbeitung (ITIV)

E-Learning am Institut für Technik der Informationsverarbeitung (ITIV) E-Learning am Institut für Technik der Informationsverarbeitung (ITIV) Am Beispiel der Veranstaltung Digitaltechnik KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der

Mehr

fachbereichsinformation

fachbereichsinformation fachbereichsinformation Master Informatik Sophie v. Schmettow (für die Fachschaft Mathematik/Informatik) 14. April 2016 inhalt Die Fachschaft Studium allgemein Masterstudium Veranstaltungshinweise 2 die

Mehr

Parallele Programmierung mit OpenMP

Parallele Programmierung mit OpenMP Parallele Programmierung mit OpenMP - Eine kurze Einführung - 11.06.2003 RRZN Kolloquium SS 2003 1 Gliederung 1. Grundlagen 2. Programmiermodell 3. Sprachkonstrukte 4. Vergleich MPI und OpenMP 11.06.2003

Mehr

Gerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2

Gerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2 Gerrit Thede Big and Fast Data - Verarbeitung von Streaming Data Grundlagen Vertiefung und Anwendungen 2 Fakultät Technik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer

Mehr

Moderne parallele Rechnerarchitekturen

Moderne parallele Rechnerarchitekturen Seminar im WS0708 Moderne parallele Rechnerarchitekturen Prof. Sergei Gorlatch Dipl.-Inf. Maraike Schellmann schellmann@uni-muenster.de Einsteinstr. 62, Raum 710, Tel. 83-32744 Dipl.-Inf. Philipp Kegel

Mehr

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

One of the few resources increasing faster than the speed of computer hardware is the amount of data to be processed. Bin Hu

One of the few resources increasing faster than the speed of computer hardware is the amount of data to be processed. Bin Hu Bin Hu Algorithmen und Datenstrukturen 2 Arbeitsbereich fr Algorithmen und Datenstrukturen Institut fr Computergraphik und Algorithmen Technische Universität Wien One of the few resources increasing faster

Mehr

www.hocomputer.de - info@hocomputer.de - Tel: (+49) / 0221 / 76 20 86

www.hocomputer.de - info@hocomputer.de - Tel: (+49) / 0221 / 76 20 86 news 2 / 205 Nur bis 22. Dezember 0 % Sonderrabatt Details auf Seite 8 Cluster Edition named User Die komplette Dokumentation. www.hocomputer.de - info@hocomputer.de - Tel: (+49) / 022 / 76 20 86 205 h.o.-computer

Mehr

Projektarbeit/SHK-Tätigkeit: Entwicklung graphischer Visualisierungskomponenten

Projektarbeit/SHK-Tätigkeit: Entwicklung graphischer Visualisierungskomponenten Projektarbeit/SHK-Tätigkeit: Entwicklung graphischer Visualisierungskomponenten Das Assistenzsystem proknows, das am Fraunhofer Institut in Lemgo entwickelt wird, ermöglicht neben der Durchführung verschiedener

Mehr