GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

Größe: px
Ab Seite anzeigen:

Download "GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop"

Transkript

1 am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig,

2 Gliederung 1 Grundlagen 2 3

3 Gliederung 1 Grundlagen 2 3

4 Was ist? Clustersystem zur verteilten und parallelen Verarbeitung von riesigen Datenmengen seit Januar 2008 ein Top Level Project von Apache [1] Komponenten: Job-Management verteiltes Dateisystem Programmiermodell MapReduce & API

5 Aufbau Cluster Master Node (a) JobTracker (b) TaskTracker TaskTracker TaskTracker Client Slave Node 1 (c) Slave Node 2 Slave Node n DataNode DataNode DataNode HDFS (e) (d) NameNode Master Node

6 MapReduce Programmiermodell von Google 2004 vorgestellt [2] 2 aufeinanderfolgende Phasen: Map & Reduce Phase Eingabe Ausgabe Map < Key 1,Value 1 > List(< Key 2,Value 2 >) Reduce < Key 2,List(Value 2 ) > List(< Key 3,Value 3 >)

7 Datenuss HDFS* Node 1 Node 2 Node n Daten einlesen Daten Daten Daten Daten in Eingabeformat konvertieren Vorverarbeitung Vorverarbeitung Vorverarbeitung Verarbeitung der Key-Value-Paare Map-Phase Map-Phase Map-Phase Partitionierung der Daten Zwischenverarbeitung Zwischenverarbeitung Zwischenverarbeitung Shuffle-Phase Verteilung der Daten auf die Nodes Sortierung gleicher Key-Value-Paare Sortierung Sortierung Sortierung Verarbeitung aller Values eines Keys Reduce-Phase Reduce-Phase Reduce-Phase Daten in Ausgabeformat konvertieren Nachverarbeitung Nachverarbeitung Nachverarbeitung HDFS* Daten speichern Daten Daten Daten * selbe Dateisysteme

8 Gliederung 1 Grundlagen 2 3

9 Was ist? Schnittstelle für uneinheitliche Parallelrechner Standardisierung durch Khronos Group [3] General Purpose Computation on Graphics Processing Unit (GPGPU) Allgemeine Berechnung auf Grakprozessoren Technologien: OpenCL, CUDA, Direct Compute

10 Programmiermodell Programm unterteilt sich in: Host-Code in der Programmiersprache C/C++ Kernel-Code in der Programmiersprache OpenCL C Ausnutzung der Datenparallelität selber Code auf unterschiedlichen Daten Zuteilung der Daten anhand von IDs (Global, Local, Group)

11 Speichermodell Quelle: AMD

12 Gliederung 1 Grundlagen 2 3

13 Entwicklungsstand Grundlagen GPGPU hält Einzug in Supercomputer (Tianhe-1A, Platz 2 der Top500 von 06/2011 [4]) hohe Verbreitung von, produktiv bisher ohne GPU-Unterstützung [5] wenig mit Bezug auf & GPGPU [6] Vereinfachung der GPGPU-Programmierung durch spezielle MapReduce-Implementierungen für GPU-Hardware [7, 8]

14 Ziele & Vorbetrachtung Beschleunigung eines -Jobs durch GPGPU möglich? Ist die 2-stuge Parallelisierung performant? Ist der Rechenaufwand einer map- & reduce-methode hoch genug für die GPU? Wie kann ein -Job OpenCL nutzen? Gibt es Probleme durch die Datenorganisation? liest Daten nur als Stream zu verarbeitende Datenmenge eigentlich unbekannt GPU besitzt nur begrenzten Speicher eziente Aufteilung der Daten für GPU nur mit fester Datengröÿe möglich

15 Gliederung Grundlagen 1 Grundlagen 2 3

16 I Streaming Lesen und Schreiben der Daten über STDIN/STDOUT Vorteil: Anbindung vieler Sprachen möglich Nachteile: Daten nur als String, Mischung von Daten und Steuerbefehlen Pipes Anbindung von C++ mit Hilfe einer Header-Datei Java Native Access (JNA) ermöglicht Zugri auf native Programmbibliotheken aus Java heraus OpenCL-Wrapper: JOCL, JavaCL

17 II MaxTemperature mit & OpenCL JavaCL JOCL Streaming Pipes Laufzeit [s] Daten [MB]

18 Gliederung Grundlagen 1 Grundlagen 2 3

19 I Bildung von k Gruppen aus einer Eingabemenge von Objekten anhand einer Metrik Anwendungsbeispiele Data-Mining Bilderkennung

20 II Beschleunigung der Map-Phase durch GPU Software-Puer um Key-Value-Paare zu sammeln gesamten Puer auf GPU kopieren und nicht einzeln erhöhte Laufzeit durch Serialisierung & Deserialisierung Vermeidung mit Hilfe von Indizes Speedup bis zu 7

21 Gliederung Grundlagen 1 Grundlagen 2 3

22 grundsätzlich gut geeignet für MapReduce eher ungeeignet für, da nur wenig Eingabedaten: Funktion Intervall Anzahl der Teilintervalle zwei verschiedene Implementierungen

23 - Implementierung 1 Eingabedatei: Intervalle mit dazugehöriger Anzahl der Teilintervalle Map-Phase: Berechnung eines Intervalls auf GPU Reduce-Phase: Summierung aller Intervalle auf GPU Problem: beide Phasen unperformant

24 - Implementierung 2 Eingabedatei: Intervalle mit Bezeichner Map-Phase: Konvertierung in Bezeichner als Key und Intervall als Value Reduce-Phase: Berechnung mehrerer Intervalle auf GPU und Summierung auf CPU Problem: vermutlich Fehler bei Laufzeitmessung oder Implementierung der GPU

25 Gliederung Grundlagen 1 Grundlagen 2 3

26 Grundlagen Fehlersuche bei numerischer Integration Zusammenfassung der Erkenntnisse aus praktischen Teil Vor- & Nachteile von Streaming, Pipes, JNA Details der Implementierung Ausarbeitung der Masterarbeit

27 Anhang Quellen & Literatur I Chuck Lam. in Action. Manning Publications, Jerey Dean and Sanjay Ghemawat. MapReduce: Simplied Data Processing on Large Clusters. Google, Inc., Dezember Khronos Group. OpenCL Overview. URL: Abgerufen:

28 Anhang Quellen & Literatur II Top500 list - june URL: Juni Abgerufen am Who uses hadoop? URL: Oktober Abgerufen am: Koichi Shirahata, Hitoshi Sato, and Satoshi Matsuoka. Hybrid Map Task Scheduling on GPU-based Heterogeneous Clusters. Tokyo Institute of Technology, Japan Science and technology Agency, National Institute of informatics.

29 Anhang Quellen & Literatur III Je A. Stuart and John D. Owens. Multi-GPU MapReduce on GPU Clusters. University of California, Bingsheng He, Wenbin Fang, Qiong Luo, Naga K. Govindaraju, and Tuyong Wang. Mars: A MapReduce Framework on Graphics Processors, 2008.

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Ein kleiner Einblick in die Welt der Supercomputer. Christian Krohn 07.12.2010 1

Ein kleiner Einblick in die Welt der Supercomputer. Christian Krohn 07.12.2010 1 Ein kleiner Einblick in die Welt der Supercomputer Christian Krohn 07.12.2010 1 Vorschub: FLOPS Entwicklung der Supercomputer Funktionsweisen von Supercomputern Zukunftsvisionen 2 Ein Top10 Supercomputer

Mehr

Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce

Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Timo Bingmann, Peter Sanders und Sebastian Schlag 21. Oktober 2014 @ PdF Vorstellung INSTITUTE OF THEORETICAL INFORMATICS ALGORITHMICS KIT Universität

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Hadoop-as-a-Service (HDaaS)

Hadoop-as-a-Service (HDaaS) Hadoop-as-a-Service (HDaaS) Flexible und skalierbare Referenzarchitektur Arnold Müller freier IT Mitarbeiter und Geschäftsführer Lena Frank Systems Engineer @ EMC Marius Lohr Systems Engineer @ EMC Fallbeispiel:

Mehr

Software Engineering. Zur Architektur der Applikation Data Repository. Franz-Josef Elmer, Universität Basel, HS 2015

Software Engineering. Zur Architektur der Applikation Data Repository. Franz-Josef Elmer, Universität Basel, HS 2015 Software Engineering Zur Architektur der Applikation Data Repository Franz-Josef Elmer, Universität Basel, HS 2015 Software Engineering: Mit acht bewährten Praktiken zu gutem Code 2 Schichtarchitektur

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Rheinisch-Westfälische Technische Hochschule Aachen. Seminararbeit

Rheinisch-Westfälische Technische Hochschule Aachen. Seminararbeit Rheinisch-Westfälische Technische Hochschule Aachen Seminararbeit Analyse von General Purpose Computation on Graphics Processing Units Bibliotheken in Bezug auf GPU-Hersteller. Gregori Kerber Matrikelnummer

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud Ausarbeitung AW2 SS2012 Jan-Christoph Meier Data Mining in der Cloud Fakultät Technik und Informatik Department Informatik Faculty of Engineering and Computer Science Department of Computer Science Inhaltsverzeichnis

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Implementation of a Framework Component for Processing Tasks within Threads on the Application Level

Implementation of a Framework Component for Processing Tasks within Threads on the Application Level Implementation of a Framework Component for Processing Tasks within Threads on the Application Level Deutsches Krebsforschungszentrum, for Processing Task within Threads on the Application Level Motivation

Mehr

Kapitel 4. Einführung in den Scannergenerator Flex. Einführung in den Scannergenerator Flex Wintersemester 2008/09 1 / 9

Kapitel 4. Einführung in den Scannergenerator Flex. Einführung in den Scannergenerator Flex Wintersemester 2008/09 1 / 9 Kapitel 4 Einführung in den Scannergenerator Flex Einführung in den Scannergenerator Flex Wintersemester 2008/09 1 / 9 Generatoren für die lexikalische Analyse Scannergeneratoren werden eingesetzt um die

Mehr

Übung: Verwendung von Java-Threads

Übung: Verwendung von Java-Threads Übung: Verwendung von Java-Threads Ziel der Übung: Diese Übung dient dazu, den Umgang mit Threads in der Programmiersprache Java kennenzulernen. Ein einfaches Java-Programm, das Threads nutzt, soll zum

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

Catch Me If You Can! Grundlagenstudie zur Parallelnutzung mehrerer Screens und deren Auswirkungen auf Aufmerksamkeit, Involvement und Werbewahrnehmung

Catch Me If You Can! Grundlagenstudie zur Parallelnutzung mehrerer Screens und deren Auswirkungen auf Aufmerksamkeit, Involvement und Werbewahrnehmung Catch Me If You Can! Grundlagenstudie zur Parallelnutzung mehrerer Screens und deren Auswirkungen auf Aufmerksamkeit, Involvement und Werbewahrnehmung Multi-Screen-Typen Online Pragmatiker Native Multi-Screener

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Application Note. Anbindung von Kunden-Software an SpiderControl Web Visualisierung

Application Note. Anbindung von Kunden-Software an SpiderControl Web Visualisierung 2015-02-25 1 of 6 Application Note Anbindung von Kunden-Software an SpiderControl Web Visualisierung Version ApplicationNote_AnbindungFremdsoftware /Version Seite 1 / 6 Version Datum Kommentar Autor 0.1

Mehr

Mikrocontroller Grundlagen. Markus Koch April 2011

Mikrocontroller Grundlagen. Markus Koch April 2011 Mikrocontroller Grundlagen Markus Koch April 2011 Übersicht Was ist ein Mikrocontroller Aufbau (CPU/RAM/ROM/Takt/Peripherie) Unterschied zum Mikroprozessor Unterschiede der Controllerarten Unterschiede

Mehr

Kurzbedienungsanleitung. Abteilungs-ID. Canon imagerunner C1028i + C1028iF

Kurzbedienungsanleitung. Abteilungs-ID. Canon imagerunner C1028i + C1028iF Abteilungs-ID Canon imagerunner C1028i + C1028iF Speichern von Abteilungs-ID, Passwort und Seitenbeschränkung Mit der Abteilungs-ID-Verwaltungsfunktion können Sie bis zu 1'000 Abteilungs-ID s speichern.

Mehr

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum C A R L V O N O S S I E T Z K Y Agile Vorgehensmodelle in der Softwareentwicklung: Scrum Johannes Diemke Vortrag im Rahmen der Projektgruppe Oldenburger Robot Soccer Team im Wintersemester 2009/2010 Was

Mehr

Prof. Dr.-Ing. Rainer Schmidt 1

Prof. Dr.-Ing. Rainer Schmidt 1 Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce. c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1

Überblick. Verarbeitung großer Datenmengen Motivation MapReduce. c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1 Überblick Verarbeitung großer Datenmengen Motivation MapReduce c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele) Indexierung des World

Mehr

MapReduce mit Hadoop 08.11.12 1

MapReduce mit Hadoop 08.11.12 1 MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung

Mehr

OpenGL. (Open Graphic Library)

OpenGL. (Open Graphic Library) OpenGL (Open Graphic Library) Agenda Was ist OpenGL eigentlich? Geschichte Vor- und Nachteile Arbeitsweise glscene OpenGL per Hand Debugging Trend Was ist OpenGL eigentlich? OpenGL ist eine Spezifikation

Mehr

ASAM ODS 6.0 next technology

ASAM ODS 6.0 next technology ASAM ODS 6.0 next technology science + computing ag IT-Services and Software in complex computing environments Tuebingen Munich Berlin Duesseldorf Agenda science + computing ag auf einen Blick Motivation

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Lua. June 9, 2015. Marcus Brenscheidt Marcin Golkowski ( Dynamische Programmiersprachen Lua )

Lua. June 9, 2015. Marcus Brenscheidt Marcin Golkowski ( Dynamische Programmiersprachen Lua ) Lua Marcus Brenscheidt Marcin Golkowski Dynamische Programmiersprachen June 9, 2015 June 9, 2015 1 / 15 Geschichte I Entwickelt von Roberto Ierusalimschy, Luiz Henrique und Waldemar Celes Mitglieder der

Mehr

Big Data Projekte richtig managen!

Big Data Projekte richtig managen! Big Data Projekte richtig managen! Stuttgart, Oktober 2014 Praktische Herausforderungen eines Big Data Projektes Definition: Was ist Big Data? Big data is a collection of data sets so large and comple

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

1. Einfuhrung zur Statistik

1. Einfuhrung zur Statistik Philipps-Universitat Marburg Was ist Statistik? Statistik = Wissenschaft vom Umgang mit Daten Phasen einer statistischen Studie 1 Studiendesign Welche Daten sollen erhoben werden? Wie sollen diese erhoben

Mehr

!! Waldemar Reger Köln,

!! Waldemar Reger Köln, Analyse und Evaluierung von Parameterabhängigkeiten anhand der Laufzeit von MapReduce-Jobs zur Konzeptionierung von Hadoop-Clustern Waldemar Reger Köln, 23.07.2014 Agenda 1. Hadoop Grundlagen 2. Cluster

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Grundlagen. Marking semantically relevant. on slides in Backstage. 2D Ebene mit einer endlichen Menge an Brennpunkten (focal points)

Grundlagen. Marking semantically relevant. on slides in Backstage. 2D Ebene mit einer endlichen Menge an Brennpunkten (focal points) Grundlagen Marking semantically relevant 2D Ebene mit einer endlichen Menge an Brennpunkten (focal points) regions on slides in Backstage Ein Brennpunkt ist ein Kreis mit beliebigen Radius um einen festen

Mehr

SUB-ID- VERWALTUNG MIT GPP SETUP-GUIDE FÜR PUBLISHER

SUB-ID- VERWALTUNG MIT GPP SETUP-GUIDE FÜR PUBLISHER SUB-ID- VERWALTUNG MIT GPP SETUP-GUIDE FÜR PUBLISHER INHALTSVERZEICHNIS Inhaltsverzeichnis... 2 Symbolverzeichnis... 3 Was ist GPP?... 4 Parameternamen... 4 Parameterformat und -größe... 4 Unterstützte

Mehr

ECLIPSE PLUG-IN. Redwood Anwendertage 2015

ECLIPSE PLUG-IN. Redwood Anwendertage 2015 ECLIPSE PLUG-IN Redwood Anwendertage 2015 Übersicht Was ist Eclipse? Welche Voraussetzungen benötige ich? Wie wird das Plug-In installiert Welche Konfigurationen sind sinnvoll? Tipps & Tricks Was ist Eclipse

Mehr

INDEX. Netzwerk Überblick. Benötigte Komponenten für: Windows Server 2008. Windows Server 2008 R2. Windows Server 2012

INDEX. Netzwerk Überblick. Benötigte Komponenten für: Windows Server 2008. Windows Server 2008 R2. Windows Server 2012 INDEX Netzwerk Überblick Benötigte Komponenten für: Windows Server 2008 Windows Server 2008 R2 Windows Server 2012 Windows SQL Server 2008 (32 Bit & 64 Bit) Windows SQL Server 2012 Client Voraussetzungen

Mehr

Theoretische Informatik SS 04 Übung 1

Theoretische Informatik SS 04 Übung 1 Theoretische Informatik SS 04 Übung 1 Aufgabe 1 Es gibt verschiedene Möglichkeiten, eine natürliche Zahl n zu codieren. In der unären Codierung hat man nur ein Alphabet mit einem Zeichen - sagen wir die

Mehr

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Herzlich Willkommen bei Webinar@Lunchtime Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Xing-Profil:

Mehr

Programmierung von Multicore-Rechnern

Programmierung von Multicore-Rechnern Programmierung von Multicore-Rechnern Prof. Dr.-Ing. habil. Peter Sobe HTW Dresden, Fakultät Informatik/Mathematik www.informatik.htw-dresden.de Gliederung: Ein Blick auf Multicore-Prozessoren/ und -Rechner

Mehr

Neue Ansätze der Softwarequalitätssicherung. Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop

Neue Ansätze der Softwarequalitätssicherung. Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Neue Ansätze der Softwarequalitätssicherung Thema des Seminars Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik

Mehr

Professionelle Seminare im Bereich MS-Office

Professionelle Seminare im Bereich MS-Office Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion

Mehr

Jeopardy and andere Quizformate im bilingualen Sachfachunterricht Tipps zur Erstellung mit Powerpoint

Jeopardy and andere Quizformate im bilingualen Sachfachunterricht Tipps zur Erstellung mit Powerpoint Bilingual konkret Jeopardy and andere Quizformate im bilingualen Sachfachunterricht Tipps zur Erstellung mit Powerpoint Moderner Unterricht ist ohne die Unterstützung durch Computer und das Internet fast

Mehr

Grid Computing 19.12.2008. Grid Computing. Luca Debiasi. Siegmar Alber. Grundlagen. Aufbau. Grids im Laufe der Zeit. Vor- und Nachteile.

Grid Computing 19.12.2008. Grid Computing. Luca Debiasi. Siegmar Alber. Grundlagen. Aufbau. Grids im Laufe der Zeit. Vor- und Nachteile. Luca Debiasi 19.12.2008 Überblick Was ist ein Grid? Vergleiche Geschichte Zukunft und Ziele Worldwide LHC Computing-Grid Frauenhofer Resource Grid Überblick Was ist ein Grid? Vergleiche Geschichte Zukunft

Mehr

Die technischen Aspekte von Mapping-Lösungen

Die technischen Aspekte von Mapping-Lösungen Die technischen Aspekte von Mapping-Lösungen Mapping-Fachtagung, 14. Juni 20 07 Andreas Fischler, Business Unit Manager Bern, Frankfurt, Hamburg, München, St. Gallen, Zug, Zürich 2 Vorbemerkung» Das wird

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Die Java Stream API. Funktionale Programmierung mit der Stream API des JDK 1.8. Prof. Dr. Nikolaus Wulff

Die Java Stream API. Funktionale Programmierung mit der Stream API des JDK 1.8. Prof. Dr. Nikolaus Wulff Die Java Stream API Funktionale Programmierung mit der Stream API des JDK 1.8 Prof. Dr. Nikolaus Wulff Funktionale Programmierung Neben der Collection API mit default Methoden ist als weitere Neuerung

Mehr

Datenanalyse. Compliance- Beobachtung. Stand 17.08.2013

Datenanalyse. Compliance- Beobachtung. Stand 17.08.2013 Datenanalyse Compliance- Beobachtung Stand 17.08.2013 Compliance-Daten Die hier dargestellten Ergebnisse stellen eine Gesamtauswertung der durch die Teilnehmer eingesandten Beobachtungsdaten dar. Eine

Mehr

Scandio SEBOL Search

Scandio SEBOL Search : : :, München Inhalt 1. Was ist SEBOL?...3 2. Index-Server...4 2.1. Warteschlange zur Indizierung...4 2.2. Plugin-Abarbeitung...4 2.3. Erweiterte Lucene-Indizierung...4 2.4. Index-Verteilung und Management...5

Mehr

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: 19.02.2014 MORE Projects GmbH

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: 19.02.2014 MORE Projects GmbH MORE Profile Pass- und Lizenzverwaltungssystem erstellt von: Thorsten Schumann erreichbar unter: thorsten.schumann@more-projects.de Stand: MORE Projects GmbH Einführung Die in More Profile integrierte

Mehr

ObjectBridge Java Edition

ObjectBridge Java Edition ObjectBridge Java Edition Als Bestandteil von SCORE Integration Suite stellt ObjectBridge Java Edition eine Verbindung von einem objektorientierten Java-Client zu einer fast beliebigen Server-Komponente

Mehr

Einrichten des Elektronischen Postfachs

Einrichten des Elektronischen Postfachs Einrichten des Elektronischen Postfachs Für die Einrichtung des Elektronischen Postfachs melden Sie sich wie gewohnt in unserem Online-Banking auf www.sparkasse-unnakamen.de an. Wechseln Sie über Postfach

Mehr

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Schlüsselworte Hadoop, Hive, Sqoop, SQL Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Einleitung In diesem Vortrag werden, nach einer kurzen Einführung in Apache Hadoop, die beiden Werkzeuge

Mehr

Systemmonitoring unter Linux

Systemmonitoring unter Linux Systemmonitoring unter Linux CPU-Counter B.Sc. Wirtsch.-Inform. Arno Sagawe, 29.06.10 Department of Informatics Scientifics Computing 1 Gliederung Systemmonitoring Protokolle und Dateien für das Systemmonitoring

Mehr

JSP Grundlagen. JEE Vorlesung Teil 5. Ralf Gitzel ralf_gitzel@hotmail.de

JSP Grundlagen. JEE Vorlesung Teil 5. Ralf Gitzel ralf_gitzel@hotmail.de JSP Grundlagen JEE Vorlesung Teil 5 Ralf Gitzel ralf_gitzel@hotmail.de 1 Übersicht Ralf Gitzel ralf_gitzel@hotmail.de 2 Übersicht JSP Konzept Model-View-Controller mit JSPs JSP Expression Language EL Literale

Mehr

An integrated total solution for automatic job scheduling without user interaction

An integrated total solution for automatic job scheduling without user interaction An integrated total solution for automatic job scheduling without user interaction Multifunktional Der Job-Scheduler ist ein multifunktionaler Taskplaner welcher die Steuerzentrale zur regelmässigen Ausführung

Mehr

Grid-Systeme. Betrachtung verschiedener Softwareplattformen zur Realisierung von Grids und Vorstellung des Globus Toolkit. 07.06.2002 Grid Systeme 1

Grid-Systeme. Betrachtung verschiedener Softwareplattformen zur Realisierung von Grids und Vorstellung des Globus Toolkit. 07.06.2002 Grid Systeme 1 Grid-Systeme Betrachtung verschiedener Softwareplattformen zur Realisierung von Grids und Vorstellung des Globus Toolkit 07.06.2002 Grid Systeme 1 Gliederung Vorstellung verschiedener Plattformen Globus

Mehr

Überblick. Verarbeitung großer Datenmengen. MapReduce. Herausforderungen

Überblick. Verarbeitung großer Datenmengen. MapReduce. Herausforderungen Überblick Verarbeitung großer Datenmengen Verarbeitung großer Datenmengen Motivation MapReduce Zusammenfassung Problemstellungen (e) Indexierung des World Wide Web PageRank-Berechnungen für Web-Seiten

Mehr

Private Cloud mit Eucalyptus am SCC

Private Cloud mit Eucalyptus am SCC Private Cloud mit Eucalyptus am SCC Christian Baun 15. Dezember 2009 KIT The cooperation of Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH) http://www.kit.edu Cloud-Comuting = Grid-Computing?!

Mehr

C# im Vergleich zu Java

C# im Vergleich zu Java C# im Vergleich zu Java Serhad Ilgün Seminar Universität Dortmund SS 03 Gliederung Entstehung von C# und Java Überblick von C# und Java Unterschiede und Gemeinsamkeiten Zusammenfassung und Ausblick Entstehung

Mehr

Qualitätserlebnis statt Qualitätssicherung. Eine Mehrfachfallstudie agiler Teams

Qualitätserlebnis statt Qualitätssicherung. Eine Mehrfachfallstudie agiler Teams Qualitätserlebnis statt Qualitätssicherung. Eine Mehrfachfallstudie agiler Teams 12.06.2014, Abschlussvortrag Masterarbeit Holger Schmeisky Die Forschungsfrage Wie und unter welchen Bedingungen funktioniert

Mehr

MapReduce. Julia Bergbauer - Ferienakademie 2009

MapReduce. Julia Bergbauer - Ferienakademie 2009 1 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 2 1) Grundlegendes = von Google eingeführtes Framework Ausnutzen der MulticoreProzessoren

Mehr

GPGPU mit NVIDIA CUDA

GPGPU mit NVIDIA CUDA 01.07.12 GPGPU mit NVIDIA CUDA General-Purpose on Formatvorlagecomputing des Graphics Processing durch Units Untertitelmasters mit KlickenCompute bearbeiten NVIDIA Unified Device Architecture Gliederung

Mehr

BIG DATA HYPE ODER CHANCE

BIG DATA HYPE ODER CHANCE BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu

Mehr

Ihre PLM-Prozessexperten für Entwicklung und Konstruktion

Ihre PLM-Prozessexperten für Entwicklung und Konstruktion Ihre PLM-Prozessexperten für Entwicklung und Konstruktion PLM2015 Umfrage zur Umstellung CATIA nach Siemens NX bei Daimler AG 16.04.2013 l Umfrageergebnisse 2 VIELEN DANK Vielen Dank für die zahlreiche

Mehr

novatime - Auftragsdatenerfassung / Projektzeiterfassung (ADE)

novatime - Auftragsdatenerfassung / Projektzeiterfassung (ADE) novatime - Auftragsdatenerfassung / Projektzeiterfassung (ADE) Die Zeiten können mittels entsprechendem Eintrag unter Anzahl Minuten für 1 AW als Stundenwerte oder Ganzzahlen berechnet werden Die Auftragsnummer

Mehr

Tag der Umweltmeteorologie 12.05.2015. Michael Kunz

Tag der Umweltmeteorologie 12.05.2015. Michael Kunz Tag der Umweltmeteorologie 12.05.2015 Michael Kunz Beschleunigung von Ausbreitungsmodellen durch Portierung auf Grafikkarten Einleitung Das GRAL/GRAMM-System Cuda-GRAL Ergebnisse Vergleich der Modellergebnisse

Mehr

Kapitel 6 Anfragebearbeitung

Kapitel 6 Anfragebearbeitung LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE Skript zur Vorlesung: Datenbanksysteme II Sommersemester 2014 Kapitel 6 Anfragebearbeitung Vorlesung: PD Dr. Peer Kröger

Mehr

Data Mining und Machine Learning

Data Mining und Machine Learning Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende

Mehr

Was ist Windows Azure? (Stand Juni 2012)

Was ist Windows Azure? (Stand Juni 2012) Was ist Windows Azure? (Stand Juni 2012) Windows Azure Microsofts Cloud Plattform zu Erstellung, Betrieb und Skalierung eigener Cloud-basierter Anwendungen Cloud Services Laufzeitumgebung, Speicher, Datenbank,

Mehr

!"#$"%&'()*$+()',!-+.'/',

!#$%&'()*$+()',!-+.'/', Soziotechnische Informationssysteme 5. Facebook, Google+ u.ä. Inhalte Historisches Relevanz Relevante Technologien Anwendungsarchitekturen 4(5,12316,7'.'0,!.80/6,9*$:'0+$.;.,&0$'0, 3, Historisches Facebook

Mehr

Informatik, Mathematik und Naturwissenschaften

Informatik, Mathematik und Naturwissenschaften Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig University of Applied Sciences OPAL 2 Softwareprojekt der HTWK Leipzig Fakultät Informatik, Mathematik und Naturwissenschaften portal.imn.htwk-leipzig.de

Mehr

17.1.2014 Einführung in die Programmierung Laborübung bei Korcan Y. Kirkici. 12.Übung 13.1. bis 17.1.2014

17.1.2014 Einführung in die Programmierung Laborübung bei Korcan Y. Kirkici. 12.Übung 13.1. bis 17.1.2014 17.1.2014 Einführung in die Programmierung Laborübung bei Korcan Y. Kirkici 12.Übung 13.1. bis 17.1.2014 1 BEFRAGUNG http://1.bp.blogspot.com/- waaowrew9gc/tuhgqro4u_i/aaaaaaaaaey/3xhl 4Va2SOQ/s1600/crying%2Bmeme.png

Mehr

Proseminar Technische Informatik A survey of virtualization technologies

Proseminar Technische Informatik A survey of virtualization technologies Proseminar Technische Informatik A survey of virtualization technologies Referent: Martin Weigelt Proseminar Technische Informatik - A survey of virtualization technologies 1 Übersicht 1. Definition 2.

Mehr

Schedulingund Thread-Ausführer

Schedulingund Thread-Ausführer Schedulingund Thread-Ausführer Scheduling Ein Scheduler arbeitet Programmstücke nach einer festen Zeitspanne oder zu einer fixen Zeitpunkt wiederholt oder einmal ab. Notwendigkeiten für Scheduling sind

Mehr

CGI Programmierung mit Ha. Markus Schwarz

CGI Programmierung mit Ha. Markus Schwarz CGI Programmierung mit Ha Markus Schwarz Überblick Was ist funktionale Programmierung Einführung in Haskell CGI-Programmierung mit Haskell Ein etwas größeres Beispiel Was ist funktionale Programm Ein Programm

Mehr

Teamprojekt & Projekt

Teamprojekt & Projekt 18. Oktober 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Thomas Hordnung, Alexander Schätzle, Martin Przjyaciel-Zablocki dbis Studienordnung Master: 16 ECTS 480 Semesterstunden

Mehr

J.6 Programmierung eingebetteter Systeme

J.6 Programmierung eingebetteter Systeme Vorteile von C in eingebetteten Systemen: leichter Zugriff auf die Hardware gute Kontrolle über die verwendeten Ressourcen (Speicher, CPU) Probleme mit C: stark eingeschränkte Laufzeitüberprüfungen ISO

Mehr

Möglichkeiten für bestehende Systeme

Möglichkeiten für bestehende Systeme Möglichkeiten für bestehende Systeme Marko Filler Bitterfeld, 27.08.2015 2015 GISA GmbH Leipziger Chaussee 191 a 06112 Halle (Saale) www.gisa.de Agenda Gegenüberstellung Data Warehouse Big Data Einsatz-

Mehr

Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me

Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me Bevor Sie die Platte zum ersten Mal benutzen können, muss sie noch partitioniert und formatiert werden! Vorher zeigt sich die Festplatte

Mehr