Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce"

Transkript

1 Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Timo Bingmann, Peter Sanders und Sebastian Schlag 21. Oktober PdF Vorstellung INSTITUTE OF THEORETICAL INFORMATICS ALGORITHMICS KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft

2 Was ist Map/Reduce? Zeit Geld Geld Macht Glück Zeit Geld Map (Zeit,1) (Macht,1) (Glück,1) (Zeit,1) Shuffle (Glück,1) (Macht,1) (Zeit,1) (Zeit,1) Reduce (Glück,1) (Geld,3) (Macht,1) (Zeit,2) Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

3 Warum Map/Reduce? Eine einfache softwaretechnische Abstraktion mit automatischer Parallelisierung von unabhängigen Operationen (map) und Aggregationen (reduce), automatischer Verteilung der Daten und Arbeit, automatischer Fehlertoleranz gegenüber Ausfall von Hardware. MapReduce-Framework Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

4 Warum Map/Reduce? Eine einfache softwaretechnische Abstraktion mit automatischer Parallelisierung von unabhängigen Operationen (map) und Aggregationen (reduce), automatischer Verteilung der Daten und Arbeit, automatischer Fehlertoleranz gegenüber Ausfall von Hardware. MapReduce-Framework Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

5 Wo ist Map/Reduce? Programmiermodell für ein verteiltes System. Implementierung, z.b. in und weiteren experimentellen Frameworks (u.a. auch in C++): (Boost.MapReduce, Sector/Sphere, mapreduce-lite). zur Berechnung von: PageRank (spare Matrixmultiplikation), parallele Bildverarbeitung, Aggregation von Statistiken, maschinelles Lernen, etc. NICHT das gleiche wie verteilte Dateisysteme oder (verteilte) Datenbanken. Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

6 Was kann man da noch machen? Ziel: Ausprobieren und Entwickeln von besseren Algorithmen für die Kernprobleme. 1. Etappe: eine prototypische, kanonische Implementierung eines MapReduce Frameworks für eines der Speichermodelle: shared, external, distributed, oder distributed external. (Prototyp, aber: einfache Applikationen sollen laufen.) 2. Etappe: performance-relevante Teilprobleme fokussieren. Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

7 Mögliche Verbesserungen Bessere Lokalität der Shuffle Operation durch Erkennung eindeutiger Elemente durch Hashing. Anpassung der Shuffles mit Teilreduktionen an die Netzwerk Topologie. Weniger Overhead bei der Fehlertoleranz durch intelligente Quersummen, um nicht alles zu duplizieren. (Hadoop: alles 3-fach gespeichert). Scheduling der Datenverarbeitung und -redistribution und dabei Optimierung für mehrere MapReduce Schritte, Pipelining von Operationen und Netzwerktransfers, oder sogar der Energieeffizienz. Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

8 Voraussetzungen Wir suchen: 3 5 engagierte Studenten, mit Spaß am Entwickeln und Analysieren verteilter Algorithmen, Grundkenntnissen in C++, Linux und Lernbereitschaft für mehr, und guten Noten in PSE und Algorithmen 1 & 2, oder algorithmischem Talent. Wir bieten: Ein Forschungsprojekt im top-aktuellen Big Data Bereich. Unterstützung und Erfahrung bei der Umsetzung des Projekts. Meldet Euch bei uns, bis Montag, : Timo Bingmann und Sebastian Schlag Raum 222 und 210, Infobau Mail: Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

9 Weitere Lehrveranstaltungen Vertiefungsfach: Algorithmentechnik (VF2) Parallelverarbeitung (VF5) Empfohlene Vorlesungen: Parallele Algorithmen (WS) Algorithm Engineering (SS) Weitere interessante Vorlesungen: Randomisierte Algorithmen (WS) Parallelrechner und Parallelprogrammierung (SS) Modelle der Parallelverarbeitung (SS) Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

10 Technologie-Stack Bingo Vtune ProtoBuf ØMQ gmock OpenMP BDB SDSL Boost STXXL TBB ASIO cmake C++11 perf MCSTL Ceph MsgPack git LZ4 mem cache dsbf UDP doxygen Jenkins gtest Institute of Theoretical Informatics Algorithmics 21. Oktober / 10

11 Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Timo Bingmann, Peter Sanders und Sebastian Schlag 21. Oktober PdF Vorstellung INSTITUTE OF THEORETICAL INFORMATICS ALGORITHMICS KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?

Mehr

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik Dozent: Prof. Dr. Henning Meyerhenke PARALLELES RECHNEN INSTITUT FÜR THEORETISCHE INFORMATIK, FAKULTÄT FÜR INFORMATIK

Mehr

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik Dozent: Juniorprof. Dr. Henning Meyerhenke PARALLELES RECHNEN INSTITUT FÜR THEORETISCHE INFORMATIK, FAKULTÄT FÜR

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Algorithmen für schwierige Optimierungsprobleme Vorlesung für den Bereich Bachelor Informatik

Algorithmen für schwierige Optimierungsprobleme Vorlesung für den Bereich Bachelor Informatik Algorithmen für schwierige Optimierungsprobleme Vorlesung für den Bereich Bachelor Informatik Dozent: Juniorprof. Dr. Henning Meyerhenke PARALLELES RECHNEN INSTITUT FÜR THEORETISCHE INFORMATIK, FAKULTÄT

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

Lehrgebiet Informationssysteme

Lehrgebiet Informationssysteme Lehrgebiet AG Datenbanken und (Prof. Michel, Prof. Härder) AG Heterogene (Prof. Deßloch) http://wwwlgis.informatik.uni-kl.de/ Was sind? Computergestützte Programmsysteme, die Informationen erfassen, dauerhaft

Mehr

Neue Methoden in der Vermittlung von Betriebssystemkenntnissen

Neue Methoden in der Vermittlung von Betriebssystemkenntnissen Neue Methoden in der Vermittlung von Betriebssystemkenntnissen Hans-Georg Eßer Dagstuhl-Seminar 31.06. 02.07.2008 Hans-Georg Eßer Studium in Aachen (Mathematik und Informatik) Mathe-Diplom 1997, DA in

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Development Tools for 16/32 Bit Microcontroller

Development Tools for 16/32 Bit Microcontroller Praktika- und Diplomthemen bei Stand 01/2013 Die nachfolgend aufgeführten Themen sind Vorschläge und können in Absprache mit dem Praktikanten / Diplomanden sowie der Hochschule modifiziert werden. Die

Mehr

Projektgruppe Algorithmen für die Cloud-unterstützte 3-D-Darstellung auf mobilen Endgeräten

Projektgruppe Algorithmen für die Cloud-unterstützte 3-D-Darstellung auf mobilen Endgeräten Projektgruppe Algorithmen für die Cloud-unterstützte 3-D-Darstellung auf mobilen Endgeräten WS 2011/2012 bis SS 2012 11. Juli 2011 Benjamin Eikel Matthias Fischer Projektgruppe Algorithmen für die Cloud-unterstützte

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

Cloud Computing mit mathematischen Anwendungen

Cloud Computing mit mathematischen Anwendungen Cloud Computing mit mathematischen Anwendungen Vorlesung SoSe 2009 Dr. Marcel Kunze Karlsruhe Institute of Technology (KIT) Steinbuch Centre for Computing (SCC) KIT the cooperation of Forschungszentrum

Mehr

BraLUG-Cluster Idee, Konzept und Umsetzung. Uwe Berger; 2005

BraLUG-Cluster Idee, Konzept und Umsetzung. Uwe Berger; 2005 <bergeruw@gmx.net> Idee, Konzept und Umsetzung ; 2005 Inhalt Die Idee Das Konzept Die Umsetzung PVM Hard-/Software Bootkonzept Clientanmeldung... und jetzt? 01/2005 2 Die Idee eine aussergewöhnliche und

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Intel Cluster Studio. Michael Burger FG Scientific Computing TU Darmstadt michael.burger@sc.tu-darmstadt.de

Intel Cluster Studio. Michael Burger FG Scientific Computing TU Darmstadt michael.burger@sc.tu-darmstadt.de Intel Cluster Studio Michael Burger FG Scientific Computing TU Darmstadt michael.burger@sc.tu-darmstadt.de 19.03.13 FB Computer Science Scientific Computing Michael Burger 1 / 30 Agenda Was ist das Intel

Mehr

Vorstellung des Fachgebietes Technische Informatik

Vorstellung des Fachgebietes Technische Informatik Fakultät Informatik, Institut für Technische Informatik, Professur Rechnerarchitektur Vorstellung des Fachgebietes Technische Informatik Professur Rechnerarchitektur Zellescher Weg 12 Nöthnitzer Strasse

Mehr

Data Mining und Machine Learning

Data Mining und Machine Learning Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende

Mehr

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,

Mehr

Verkürzung von Entwurfszeiten

Verkürzung von Entwurfszeiten Verkürzung von Entwurfszeiten durch Matlab-basiertes HPC R. Fink, S. Pawletta Übersicht aktuelle Situation im ingenieurtechnischen Bereich Multi-SCEs als Konzept zur Verkürzung von Entwurfszeiten Realisierung

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Abschnitt 16: Objektorientiertes Design

Abschnitt 16: Objektorientiertes Design Abschnitt 16: Objektorientiertes Design 16. Objektorientiertes Design 16 Objektorientiertes Design Informatik 2 (SS 07) 610 Software-Entwicklung Zur Software-Entwicklung existiert eine Vielfalt von Vorgehensweisen

Mehr

Dialekte der Klimaforschung

Dialekte der Klimaforschung Dialekte der Klimaforschung Vom Fortran-Programm zum parallelen Programm Thomas Ludwig Inhalt Welche Dialekte werden transformiert? Welche Anforderungen stellen wir? Wozu diese Transformation? Wie ist

Mehr

Informatik und Informationstechnik (IT)

Informatik und Informationstechnik (IT) Informatik und Informationstechnik (IT) Abgrenzung Zusammenspiel Übersicht Informatik als akademische Disziplin Informations- und Softwaretechnik Das Berufsbild des Informatikers in der Bibliothekswelt

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Rechnerorganisation Tutorium Nr. 1

Rechnerorganisation Tutorium Nr. 1 Rechnerorganisation Tutorium Nr. 1 Tutorium 22 Nicholas Kjär - uadnm@student.kit.edu 24. April 2014 INSTITUT FÜR INFORMATIK KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum

Mehr

Graphenalgorithmen und lineare Algebra Hand in Hand Vorlesung für den Bereich Diplom/Master Informatik

Graphenalgorithmen und lineare Algebra Hand in Hand Vorlesung für den Bereich Diplom/Master Informatik Vorlesung für den Bereich Diplom/Master Informatik Dozent: Juniorprof. Dr. Henning Meyerhenke PARALLELES RECHNEN INSTITUT FÜR THEORETISCHE INFORMATIK, FAKULTÄT FÜR INFORMATIK KIT Universität des Landes

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Übergang vom Diplom zum Bachelor

Übergang vom Diplom zum Bachelor Übergang vom Diplom zum Bachelor Da die Fächer des Bachelorstudienganges größtenteils aus Fächern des Diplomstudiengangs hervorgegangen sind, können sich die Studierenden diese Fächer aus dem Diplom für

Mehr

Protected User-Level DMA in SCI Shared Memory Umgebungen

Protected User-Level DMA in SCI Shared Memory Umgebungen Protected User-Level DMA in SCI Shared Memory Umgebungen Mario Trams University of Technology Chemnitz, Chair of Computer Architecture 6. Halle Chemnitz Seminar zu Parallelverarbeitung und Programmiersprachen

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Modulübersichtstabelle des Studienganges Bachelor of Science Informatik

Modulübersichtstabelle des Studienganges Bachelor of Science Informatik Bachelor of Science (Seite 1 von 8) Modulübersichtstabelle des Studienganges Bachelor of Science Modul/zugehörige Lehrveranstaltungen Prüfungsleistung Art/Dauer (Modulabschlussprüfung und/oder semesterbegleitende

Mehr

Grundbegriffe der Informatik

Grundbegriffe der Informatik Grundbegriffe der Informatik Tutorium 27 29..24 FAKULTÄT FÜR INFORMATIK KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Definition

Mehr

Modulbeschreibung. The course is principally designed to impart: technical skills 50%, method skills 40%, system skills 10%, social skills 0%.

Modulbeschreibung. The course is principally designed to impart: technical skills 50%, method skills 40%, system skills 10%, social skills 0%. Titel des Moduls: Parallel Systems Dt.: Parallele Systeme Verantwortlich für das Modul: Heiß, Hans-Ulrich E-Mail: lehre@kbs.tu-berlin.de URL: http://www.kbs.tu-berlin.de/ Modulnr.: 866 (Version 2) - Status:

Mehr

B.SC. INFORMATIK TIM JUNGNICKEL

B.SC. INFORMATIK TIM JUNGNICKEL ABOUT ME (21) 5. SEMESTER B.SC. INFORMATIK TU-BERLIN SEIT 2008 2 AGENDA Was ist Informatik? Wie geht es weiter? Was kann ich an der Uni machen? 1 2 3 4 Struktur des Studiums Was lernt man an der Universität?

Mehr

Projektarbeit/SHK-Tätigkeit: Entwicklung graphischer Visualisierungskomponenten

Projektarbeit/SHK-Tätigkeit: Entwicklung graphischer Visualisierungskomponenten Projektarbeit/SHK-Tätigkeit: Entwicklung graphischer Visualisierungskomponenten Das Assistenzsystem proknows, das am Fraunhofer Institut in Lemgo entwickelt wird, ermöglicht neben der Durchführung verschiedener

Mehr

Big Data Anwendungen Chancen und Risiken

Big Data Anwendungen Chancen und Risiken Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data

Mehr

MapReduce mit Hadoop 08.11.12 1

MapReduce mit Hadoop 08.11.12 1 MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung

Mehr

Staff. Tim Conrad. Zeitplan. Blockseminar: Verteiltes Rechnen und Parallelprogrammierung. Sommer Semester 2013. Tim Conrad

Staff. Tim Conrad. Zeitplan. Blockseminar: Verteiltes Rechnen und Parallelprogrammierung. Sommer Semester 2013. Tim Conrad Blockseminar: Verteiltes Rechnen und Parallelprogrammierung Sommer Semester 2013 Tim Conrad Staff Tim Conrad AG Computational Proteomics email: conrad@math.fu-berlin.de Telefon: 838-51445 Büro: Raum 138,

Mehr

IT-Infrastruktur, WS 2014/15, Hans-Georg Eßer

IT-Infrastruktur, WS 2014/15, Hans-Georg Eßer ITIS-D'' IT-Infrastruktur WS 2014/15 Hans-Georg Eßer Dipl.-Math., Dipl.-Inform. Foliensatz D'': Rechnerstrukturen, Teil 3 v1.0, 2014/11/27 Folie D''-1 Dieser Foliensatz Vorlesungsübersicht Seminar Wiss.

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

Systemaspekte Verteilter Systeme Wintersemester 2004/05

Systemaspekte Verteilter Systeme Wintersemester 2004/05 Systemaspekte Verteilter Systeme Wintersemester 2004/05 Odej Kao Institut für Informatik Universität Paderborn Prof. Dr. Odej Kao Dozent AG Betriebssysteme und Verteilte Systeme Fürstenallee 11, F2.101

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Tutorium 06: Klausurvorbereitung

Tutorium 06: Klausurvorbereitung Tutorium 06: Klausurvorbereitung Softwaretechnik im SS 2011, Tutorium 17 Christian Jülg 14. Juli 2011 CHAIR FOR SOFTWARE DESIGN AND QUALITY KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum

Mehr

E-Learning am Institut für Technik der Informationsverarbeitung (ITIV)

E-Learning am Institut für Technik der Informationsverarbeitung (ITIV) E-Learning am Institut für Technik der Informationsverarbeitung (ITIV) Am Beispiel der Veranstaltung Digitaltechnik KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der

Mehr

Prüfungstermine für die Diplom-Vorprüfungen im Studiengang Informatik am Ende des WS 2008/2009

Prüfungstermine für die Diplom-Vorprüfungen im Studiengang Informatik am Ende des WS 2008/2009 A U S H A N G Diplom-Vorprüfung Prüfungstermine für die Diplom-Vorprüfungen im am Ende des WS 2008/2009 1 Einführung in die Informatik 02.02.09 16:30 18:00 Uhr V 307/308 2 Datenverarbeitungssysteme 28.01.09

Mehr

BIG DATA HYPE ODER CHANCE

BIG DATA HYPE ODER CHANCE BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu

Mehr

Integration von Mechatronik- und Softwaresystemen durch Virtualisierung von PLM-System-Komponenten

Integration von Mechatronik- und Softwaresystemen durch Virtualisierung von PLM-System-Komponenten Integration von Mechatronik- und Softwaresystemen durch 3DEXPERIENCE Customer Forum 26./27. Juni 2013 Mannheim Michael Hopf, Diplôme d'ingénieur - Master Degree, Doktorand KIT Universität des Landes Baden-Württemberg

Mehr

Buildfrei skalieren für Big Data mit Z2

Buildfrei skalieren für Big Data mit Z2 Buildfrei skalieren für Big Data mit Z2 Henning Blohm ZFabrik Software KG 5.6.2013 1 Teil 1: Buildfrei entwickeln und skalieren Teil 2: Big Data, Cloud, und wie es zusammenpasst 2 1. Teil BUILDFREI ENTWICKELN

Mehr

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zettabyte CeBIT 2011 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zetabyte: analytische Datenbanken Die Datenflut. Analytische Datenbanken: Was ist neu? Analytische Datenbanken:

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten

Mehr

Der VALUEpilot NEU! Ihr Ass im Ärmel

Der VALUEpilot NEU! Ihr Ass im Ärmel Der VALUEpilot NEU! m Ihr Ass im Ärmel Steckbrief Name: VALUEpilot Beruf: Wertermittler Hobbys: Mathematik und Statistik Alter: 4 Jahre Abrufe pro Monat: stark steigend Wohnort: Neuss Stärken: schnell,

Mehr

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Kurz: Stimme meinen Vorrednern zu: Angenehme Atmosphäre. Eher ein Fachgespräch als eine Prüfung. Eindeutig zu empfehlen

Kurz: Stimme meinen Vorrednern zu: Angenehme Atmosphäre. Eher ein Fachgespräch als eine Prüfung. Eindeutig zu empfehlen Kursversion WS: 10/11 02.2012 Kurs 1727 Kurz: Stimme meinen Vorrednern zu: Angenehme Atmosphäre. Eher ein Fachgespräch als eine Prüfung. Eindeutig zu empfehlen Grundlagen Parallele Programmierung? Was

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

R a i n e r N i e u w e n h u i z e n K a p e l l e n s t r G r e v e n T e l / F a x / e

R a i n e r N i e u w e n h u i z e n K a p e l l e n s t r G r e v e n T e l / F a x / e R a i n e r N i e u w e n h u i z e n K a p e l l e n s t r. 5 4 8 6 2 8 G r e v e n T e l. 0 2 5 7 1 / 9 5 2 6 1 0 F a x. 0 2 5 7 1 / 9 5 2 6 1 2 e - m a i l r a i n e r. n i e u w e n h u i z e n @ c

Mehr

F r e i t a g, 3. J u n i

F r e i t a g, 3. J u n i F r e i t a g, 3. J u n i 2 0 1 1 L i n u x w i r d 2 0 J a h r e a l t H o l l a, i c h d a c h t e d i e L i n u x - L e u t e s i n d e i n w e n i g v e r n ü n f t i g, a b e r j e t z t g i b t e

Mehr

L 3. L a 3. P a. L a m 3. P a l. L a m a 3. P a l m. P a l m e. P o 4. P o p 4. L a. P o p o 4. L a m. Agnes Klawatsch

L 3. L a 3. P a. L a m 3. P a l. L a m a 3. P a l m. P a l m e. P o 4. P o p 4. L a. P o p o 4. L a m. Agnes Klawatsch 1 L 3 P 1 L a 3 P a 1 L a m 3 P a l 1 L a m a 3 P a l m 2 P 3 P a l m e 2 P o 4 L 2 P o p 4 L a 2 P o p o 4 L a m 4 L a m p 6 N a 4 L a m p e 6 N a m 5 5 A A m 6 6 N a m e N a m e n 5 A m p 7 M 5 A m p

Mehr

HoC FSZ House of Competence Fernstudienzentrum

HoC FSZ House of Competence Fernstudienzentrum HoC FSZ House of Competence Fernstudienzentrum Untersuchung von Mechanismen des Kompetenzerwerbs im Maschinenbaustudium Dipl.-Ing. Jan Breitschuh M.A. Annica Helmich HoC Fernstudienzentrum IPEK Institut

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Theoretische Grundlagen der Informatik

Theoretische Grundlagen der Informatik Theoretische Grundlagen der Informatik Vorlesung am 12.01.2012 INSTITUT FÜR THEORETISCHE 0 KIT 12.01.2012 Universität des Dorothea Landes Baden-Württemberg Wagner - Theoretische und Grundlagen der Informatik

Mehr

Operational Big Data effektiv nutzen TIBCO LogLogic. Martin Ulmer, Tibco LogLogic Deutschland

Operational Big Data effektiv nutzen TIBCO LogLogic. Martin Ulmer, Tibco LogLogic Deutschland Operational Big Data effektiv nutzen TIBCO LogLogic Martin Ulmer, Tibco LogLogic Deutschland LOGS HINTERLASSEN SPUREN? Wer hat wann was gemacht Halten wir interne und externe IT Richtlinien ein Ist die

Mehr

Wirtschaftsinformatik an der Universität Trier. Intelligente Technologien für das Management der Zukunft! 26.10.2015

Wirtschaftsinformatik an der Universität Trier. Intelligente Technologien für das Management der Zukunft! 26.10.2015 Wirtschaftsinformatik an der Universität Trier Intelligente Technologien für das Management der Zukunft! 26.10.2015 Professuren der Wirtschaftsinformatik Wirtschaftsinformatik I: Verteilte Künstliche Intelligenz

Mehr

MapReduce-Konzept. Thomas Findling, Thomas König

MapReduce-Konzept. Thomas Findling, Thomas König MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel

Mehr

Parallele Rechenmodelle

Parallele Rechenmodelle Organisatorisches und Themenvorstellung, 21. Oktober 2016 Henning Meyerhenke, Moritz von Looz, Roland Glantz 1 Meyerhenke, Looz, Glantz: Institute for Theoretical Computer www.kit.edu Science Termine Bis

Mehr

fachbereichsinformation

fachbereichsinformation fachbereichsinformation Master Informatik Sophie v. Schmettow (für die Fachschaft Mathematik/Informatik) 14. April 2016 inhalt Die Fachschaft Studium allgemein Masterstudium Veranstaltungshinweise 2 die

Mehr

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012 MapReduce Vereinfachte Datenverarbeitung in großen Rechnerverbünden Igor Marijanovic 794894 Fachvortrag WAR 19.12.2012 Beuth Hochschule für Technik Berlin Inhalt Einleitung Hauptteil Abschluss MapReduce

Mehr

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Schlüsselworte Hadoop, Hive, Sqoop, SQL Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Einleitung In diesem Vortrag werden, nach einer kurzen Einführung in Apache Hadoop, die beiden Werkzeuge

Mehr

Modultabelle. Masterstudiengänge Wirtschaftsinformatik (90 ECTS-Punkte und 120 ECTS-Punkte) Fakultät Wirtschaftsinformatik und Angewandte Informatik

Modultabelle. Masterstudiengänge Wirtschaftsinformatik (90 ECTS-Punkte und 120 ECTS-Punkte) Fakultät Wirtschaftsinformatik und Angewandte Informatik Otto-Friedrich-Universität Bamberg Modultabelle Masterstudiengänge Wirtschaftsinformatik (90 ECTS-Punkte und 120 ECTS-Punkte) Fakultät Wirtschaftsinformatik und Angewandte Informatik Stand: Wintersemester

Mehr

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005 Das Software Studio Christian Efinger mobilepoi 0.91 Demo Version Anleitung Erstellt am 21. Oktober 2005 Kontakt: Das Software Studio Christian Efinger ce@efinger-online.de Inhalt 1. Einführung... 3 2.

Mehr

Data Warehousing 0-1. DBS-Module

Data Warehousing 0-1. DBS-Module Data Warehousing Sommersemester 2014 Prof. Dr. E. Rahm Universität Leipzig Institut für Informatik y y y http://dbs.uni-leipzig.de 0-1 DBS-Module Master-Studium Informatik 10-202-2215 Moderne Datenbanktechnologien

Mehr

Continuous Integration

Continuous Integration Embedded & Software Engineering Continuous Integration technik.mensch.leidenschaft März 2015 DIN EN ISO 9001 Was ist CI? Was ist Continuous Integration? l Continuous Integration (CI) kommt von Xtreme Programming

Mehr

Vom Vorteil der Winzigkeit

Vom Vorteil der Winzigkeit Institut für Mikroverfahrenstechnik Thermische Mikroverfahrenstechnik Vom Vorteil der Winzigkeit Wie Winzlinge beim Energie sparen helfen juergen.brandner@kit.edu, KIT University of the State of Baden-Württemberg

Mehr

Grundbegriffe der Informatik

Grundbegriffe der Informatik Grundbegriffe der Informatik Tutorium 4 26..25 INSTITUT FÜR THEORETISCHE INFORMATIK KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu

Mehr

3. Übung Algorithmen I

3. Übung Algorithmen I Timo Bingmann, Christian Schulz INSTITUT FÜR THEORETISCHE INFORMATIK, PROF. SANDERS 1 KIT Timo Universität Bingmann, des LandesChristian Baden-Württemberg Schulz und nationales Forschungszentrum in der

Mehr

!! Waldemar Reger Köln,

!! Waldemar Reger Köln, Analyse und Evaluierung von Parameterabhängigkeiten anhand der Laufzeit von MapReduce-Jobs zur Konzeptionierung von Hadoop-Clustern Waldemar Reger Köln, 23.07.2014 Agenda 1. Hadoop Grundlagen 2. Cluster

Mehr

Praxisnahe und effiziente ERP- Ausbildung am Beispiel der TU Ilmenau

Praxisnahe und effiziente ERP- Ausbildung am Beispiel der TU Ilmenau Praxisnahe und effiziente ERP- Ausbildung am Beispiel der TU Ilmenau Sebastian Büsch Prof. Dr. Volker Nissen Dr. Lutz Schmidt Technische Universität Ilmenau Fachgebiet Wirtschaftsinformatik für Dienstleistungen

Mehr

Überblick über das Institut für Telematik

Überblick über das Institut für Telematik Überblick über das Institut für Telematik Professoren Prof. Dr. Sebastian Abeck (seit 16) Prof. Dr. Michael Beigl (seit 2010) Prof. Dr. Hannes Hartenstein (seit 2003) Prof. Dr. Wilfried Juling (seit 18)

Mehr

Ceph. Distributed Storage Julian mino Klinck GPN15-05.06.2015

Ceph. Distributed Storage Julian mino Klinck GPN15-05.06.2015 Distributed Storage Julian mino Klinck GPN15-05.06.2015 Julian mino! Interessen: Netzwerke # Karlsruhe Hardware $ gpn15@lab10.de Cocktails " twitter.com/julianklinck Hacking Musik- und Lichttechnik 2 Julian

Mehr

Zuverlässige Systeme Fehlertoleranz

Zuverlässige Systeme Fehlertoleranz Zuverlässige Systeme Fehlertoleranz frank@upb.de Inhalt Übersicht und Namenskonventionen Was ist Fehlertoleranz Eine Anleitung in 4 Phase Redundanz und Vielfältigkeit Hardwareseitige Fehlertoleranz Softwareseitige

Mehr

Pavlo Baron. Big Data. für IT-Entscheider. Riesige Datenmengen. und moderne Technologien. gewinnbringend nutzen HANSER

Pavlo Baron. Big Data. für IT-Entscheider. Riesige Datenmengen. und moderne Technologien. gewinnbringend nutzen HANSER Pavlo Baron Big Data für IT-Entscheider Riesige Datenmengen und moderne Technologien gewinnbringend nutzen HANSER Inhalt Vorwort XI 1 Management Summary 1 2 Was? 7 2.1 Mein klassisches Business ist konkurrenzlos,

Mehr

P r ü f u n g s a n g e b o t am FB Wirtschaft im Sommersemester 2009 (29.06.2009 17.07.2009) Studiengang Wirtschaftsinformatik Bachelor

P r ü f u n g s a n g e b o t am FB Wirtschaft im Sommersemester 2009 (29.06.2009 17.07.2009) Studiengang Wirtschaftsinformatik Bachelor am FB Wirtschaft im Sommersemester 2009 (29.06.2009 17.07.2009) Studiengang Wirtschaftsinformatik Bachelor Zeit Bemerkungen: Semester Fach Prüfer Art der WS WINFB1161 Einführung in die WINF Blakowski K1

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96 Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96 Dieser Fragenkatalog wurde aufgrund das Basistextes und zum Teil aus den Prüfungsprotokollen erstellt, um sich auf mögliche

Mehr

VS3 Slide 1. Verteilte Systeme. Vorlesung 3 vom 22.04.2004 Dr. Sebastian Iwanowski FH Wedel

VS3 Slide 1. Verteilte Systeme. Vorlesung 3 vom 22.04.2004 Dr. Sebastian Iwanowski FH Wedel VS3 Slide 1 Verteilte Systeme Vorlesung 3 vom 22.04.2004 Dr. Sebastian Iwanowski FH Wedel Inhaltsverzeichnis für die Vorlesung Zur Motivation: 4 Beispiele aus der Praxis Allgemeine Anforderungen an Verteilte

Mehr

Übergangsbestimmungen für die Informatikstudien anlässlich der Änderungen mit 1.10.2009

Übergangsbestimmungen für die Informatikstudien anlässlich der Änderungen mit 1.10.2009 Übergangsbestimmungen für die studien anlässlich der Änderungen mit 1.10.2009 Studienkommission Bachelorstudium Data Engineering & Statistics Dieses Studium kann ab Wintersemester 2009 nicht mehr neu begonnen

Mehr

Übungen zur Softwaretechnik

Übungen zur Softwaretechnik Technische Universität München Fakultät für Informatik Lehrstuhl IV: Software & Systems Engineering Markus Pister, Dr. Bernhard Rumpe WS 2002/2003 Lösungsblatt 8 10. Dezember 2002 www4.in.tum.de/~rumpe/se

Mehr

Modulangebot für das Sommersemester 2015 aus dem Institut für Informatik

Modulangebot für das Sommersemester 2015 aus dem Institut für Informatik MARTIN-LUTHER-UNIVERSITÄT HALLE-WITTENBERG Modulangebot für das Sommersemester 2015 aus dem Institut für Informatik Algorithm Engineering (INF.02602.04) Alle Studienleistungen im Modul Prof. Dr.Matthias

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

Cloud Data Management

Cloud Data Management 1 Cloud Data Management Dr. Martin Grund 2 Die Evolution des Web Web 1.0: Entstehung des World Wide Web 1989 (CERN) Tim Berners-Lee. 1991 weltweite Verbreitung Navigation zwischen statischen Seiten Keine

Mehr

Blockseminar: Verteiltes Rechnen und Parallelprogrammierung. Sommer Semester 2015. Tim Conrad

Blockseminar: Verteiltes Rechnen und Parallelprogrammierung. Sommer Semester 2015. Tim Conrad Blockseminar: Verteiltes Rechnen und Parallelprogrammierung Sommer Semester 2015 Tim Conrad Staff Tim Conrad AG Medical Bioinformatics email: conrad@math.fu-berlin.de Telefon: 838-51445 Büro: Raum 138,

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr