!! Waldemar Reger Köln,
|
|
- Liese Kopp
- vor 6 Jahren
- Abrufe
Transkript
1 Analyse und Evaluierung von Parameterabhängigkeiten anhand der Laufzeit von MapReduce-Jobs zur Konzeptionierung von Hadoop-Clustern Waldemar Reger Köln,
2 Agenda 1. Hadoop Grundlagen 2. Cluster Berechnungsarten 3. Ausgangslage 4. Aufgabenstellung 5. Herausforderung 6. Versuchsumgebung 7. Vorgehensweise 8. Analyse der Parameterabhängigkeiten 9. Applikation zur Berechnung von Clustern 10.Applikation DEMO 2
3 Hadoop Grundlagen Hadoop Open-Source Framework unter Apache Lizenz Besteht aus den Kernkomponenten HDFS und MapReduce Weitere Komponenten können zusätzlich verwendet werden (Hive, HBase, Pig, ) 3
4 Hadoop Grundlagen HDFS Hochverfügbares Dateisystem Redundante Speicherung von großen Datenmengen auf allen Cluster Nodes Blockweise Speicherung Master-Slave Architektur (siehe nächste Folie) 4
5 Hadoop Grundlagen MapReduce Teil 1 Programmiermodell zur Verarbeitung von großen, strukturierten und unstrukturierten Daten Parallele Ausführung durch Aufteilung der Berechnung auf mehrere Nodes Master-Slave Architektur 1 Job-Tracker, mehrere Task-Tracker 5
6 Hadoop Grundlagen MapReduce Teil 2 Besteht aus der Map- und Reduce-Funktion (map() und reduce()) Aufteilung in Map- und Reduce-Phase map() und reduce() sind individuell programmierbar -> Rest erledigt das Framework Map-Phase liest Daten (Schlüssel-/Wert-Paare) ein und sortiert vor Reduce-Phase aggregiert über die Ergebnisse der Map-Phase und speichert das Ergebnis im HDFS 6
7 Hadoop Grundlagen MapReduce Teil 3 Reduce-Phase kann während der Ausführung der Map-Phase beginnen Pro Node werden für die Verarbeitung von Tasks Slots zur Verfügung gestellt Slots sind in Map-Slots und Reduce-Slots fest definiert Optimales Slot-Verhältnis pro Cluster: 2/3 Map-Slots und 1/3 Reduce-Slots 7
8 Hadoop Grundlagen MapReduce Teil 4 MapReduce-Job Beispiel: Wordcount 8
9 Cluster Berechnungsarten Nach dem Datenvolumen Benötigte Informationen (Eingabe) Vorhandenes Datenvolumen Hinzukommendes Datenvolumen pro Zeiteinheit (z.b. TB/Monat) Replikationsfaktor Zeitraum für die Verwendung des Clusters (z.b. 48 Monate) Ausgabe: Gesamtes Datenvolumen für den Verwendungszeitraum Vorrangig: Speicherung des gesamten Datenvolumens 9
10 Cluster Berechnungsarten Über die MapReduce-Job Laufzeit Benötigte Informationen (Eingabe): Geplante MapReduce-Job Verarbeitungszeit Zu verarbeitende Datengröße Anzahl vorhandener MapReduce-Slots Art des MapReduce-Jobs (nicht in der Arbeit berücksichtigt) Ausgabe: Anzahl erfolgreicher Nodes Berechnung der Bearbeitungszeit hängt auch von der Hardwarekonfiguration ab 10
11 Ausgangslage Manuelle Berechnung der Clustergröße (Anzahl benötigter Nodes) für die Speicherung der Daten Keine genaue Aussage über die Laufzeit von MapReduce-Jobs möglich Berechnung basiert auf Erfahrungen aus vergangenen Projekten dadurch: sehr ungenaue und kostenintensive Planungsphase Zeitintensive und mühselige Planung von Hadoop Clustern 11
12 Aufgabenstellung Einflussnehmende Cluster Parameter definieren Parameterabhängigkeiten analysieren Ziel: Planung und Dimensionierung von Hadoop-Clustern Schnelle und einfache Bestimmung der Clustergröße Berechnung über das zu speichernde Datenvolumen Berechnung über die Vorhersage von MapReduce-Laufzeiten Integration der Ergebnisse in eine Applikation für die Berechnung von Hadoop- Clustern Hier: Parameterabhängigkeiten für die Berechnung eines Clusters über die MapReduce-Job Laufzeit analysieren 12
13 Herausforderung Parameterabhängigkeiten für die Laufzeitbestimmung Viele Abhängigkeiten -> Erhöhung der Komplexität Art des MapReduce-Jobs (IO- / Speicherintensiv) Individuelle Programmierung der map()- und reduce()-funktion Hardware Konfiguration (CPU, RAM, HDD Größe, Anzahl HDDs, ) Anzahl verwendeter Nodes Zu verarbeitende Datenmenge Anzahl gleichzeitig ausgeführter MapReduce-Jobs Parameter beeinflussen sich gegenseitig 13
14 Versuchsumgebung Parameter für die Abhängigkeitsanalyse Beschränkung der zu analysierenden Parameter Hardware Konfiguration (allgemein) Anzahl Nodes pro Cluster Zu verarbeitende Datenmenge (Input Datengröße) Anzahl Map- und Reduce-Slots 14
15 Versuchsumgebung Verwendete Cluster Hardware Amazon Elastic MapReduce (EMR) Cluster (Bestehend aus Amazon EC2 Instanzen) 3 unterschiedliche Hardware Konfigurationen Amazon S3 als Quelle für den Dateninput 15
16 Versuchsumgebung Verwendete Software Hadoop Version 1 (HDFS + MapReduce) Version Standard Amazon EMR Konfiguration Blockgröße: 64 MB Standard MapReduce-Job: TeraSort Generierung der Daten mit Hilfe von TeraGen 16
17 Vorgehensweise Versuchsaufbau Unterteilung der Versuche in 3 Hardware Konfigurationen Pro Hardware Konfiguration: Clustergröße von 3, 6 und 12 Nodes (Slave-Nodes) 1, 5 und 10 GB Input-Datengrößen Pro Versuchsdurchlauf unterschiedliche MapReduce-Slot Konstellation 1 Reducer-Slot und Rest Map-Slots 2/3 Map-Slots und 1/3 Reduce-Slots Map- und Reduce-Slots im Verhältnis 50:50 17
18 Vorgehensweise Szenario Pro Hardwarekonfiguration: 18
19 Analyse der Parameterabhängigkeiten Parameter: Unterschiedliche Hardware Konfiguration Analyse der Messergebnisse mit unterschiedlicher Hardware Konfiguration Andere Parameter bleiben unverändert Vergleich der MapReduce-Job Laufzeit bei: Hardware 1 mit Hardware 2 Hardware 2 mit Hardware 3 Ergebnis: HW1 mit HW2: Laufzeit halbiert HW2 mit HW3: Laufzeit halbiert Begründung: Verdoppelung der CPU-Cores pro Hardware Konfiguration 19
20 Analyse der Parameterabhängigkeiten Parameter: Anzahl Nodes Analyse der Messergebnisse mit unterschiedlicher Anzahl Nodes Andere Parameter bleiben unverändert Analyse der Laufzeit durch: Verdoppelung der Nodeanzahl: Laufzeit mit 3 Nodes und mit 6 Nodes Laufzeit mit 6 Nodes und mit 12 Nodes Ergebnis: Doppelte Anzahl Nodes -> Halbierung der MapReduce-Job Laufzeit Begründung: Anzahl der Map- und Reduce-Slots wird durch die Anzahl Nodes auch verdoppelt 20
21 Analyse der Parameterabhängigkeiten Parameter: Anzahl Nodes 21
22 Analyse der Parameterabhängigkeiten Parameter: Input Datengröße Analyse der Messergebnisse mit unterschiedlicher Input Datengröße Andere Parameter bleiben unverändert Analyse der Laufzeit durch: Laufzeit bei Input Datengrößen 1GB und 5GB (+ Zwischengrößen 2, 3, 4 und 8GB bei Hardware Konfiguration 1) Laufzeit bei Input Datengrößen 5GB und 10GB Ergebnis: HW1: Verdoppelung der Input Datengröße -> Verdoppelung der Laufzeit HW2 und HW3: Verdoppelung der Input-Datengröße -> Laufzeit 1,5x höher 22
23 Analyse der Parameterabhängigkeiten Zusammenfassung für HW1 Messergerbnisse in einer Formel zusammengefasst Ermöglicht das einfache Berechnen von: MapReduce-Job Laufzeiten Benötigter Nodes Input Datengröße Formel wurde im Praxistest bestätigt 23
24 Applikation zur Berechnung von Clustern Berechnung der benötigten Anzahl Nodes für: Berechnung des Datenvolumens für den Nutzungszeitraum Berechnung der MapReduce-Job Laufzeit 24
25 Ende Fragen? 25
26 Vielen Dank für Ihre Aufmerksamkeit Kontakt Waldemar Reger inovex GmbH Office Köln Schanzenstraße Köln Mail: 26
Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen
Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und
MehrNeue Ansätze der Softwarequalitätssicherung
Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik
MehrGeneralisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE
Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de
MehrSpark, Impala und Hadoop in der Kreditrisikoberechnung
Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort
MehrHadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen
Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Brownbag am Freitag, den 09.08.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich
MehrEinführung in Hadoop
Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian
MehrBig Data Informationen neu gelebt
Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen
MehrBeratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting
Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis
MehrErfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien
Wir unternehmen IT. Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Karlsruhe, 30.09.2015 $id thgreiner Thorsten Greiner Teamleiter Software Development ConSol* Software GmbH, Düsseldorf
MehrHadoop. Simon Prewo. Simon Prewo
Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert
MehrSEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)
Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...
MehrMapReduce in der Praxis
MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation
MehrPerzentile mit Hadoop ermitteln
Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile
MehrHadoop-as-a-Service (HDaaS)
Hadoop-as-a-Service (HDaaS) Flexible und skalierbare Referenzarchitektur Arnold Müller freier IT Mitarbeiter und Geschäftsführer Lena Frank Systems Engineer @ EMC Marius Lohr Systems Engineer @ EMC Fallbeispiel:
MehrMapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen
MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?
MehrGPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop
am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten
MehrBig Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover
Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:
MehrMapReduce-Konzept. Thomas Findling, Thomas König
MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel
MehrOracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension
MehrSQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh
SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?
Mehron Azure mit HDInsight & Script Ac2ons
Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu
MehrDatenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim
Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com
MehrMapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012
MapReduce Vereinfachte Datenverarbeitung in großen Rechnerverbünden Igor Marijanovic 794894 Fachvortrag WAR 19.12.2012 Beuth Hochschule für Technik Berlin Inhalt Einleitung Hauptteil Abschluss MapReduce
MehrClouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!
Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler
MehrWide Column Stores. Felix Bruckner Mannheim, 15.06.2012
Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing
MehrBig Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer
Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs
MehrBig Data in der Forschung
Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die
MehrSeminar Cloud Data Management WS09/10. Tabelle1 Tabelle2
Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es
MehrHadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011
High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten
MehrApache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.
Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und
MehrDduP - Towards a Deduplication Framework utilising Apache Spark
- Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication
MehrData Mining und Machine Learning
Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende
MehrPeter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr
Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit
MehrHadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014
Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die
MehrAPACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER
APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied
MehrMATCHING VON PRODUKTDATEN IN DER CLOUD
MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's
Mehr!"#$"%&'()*$+()',!-+.'/',
Soziotechnische Informationssysteme 5. Facebook, Google+ u.ä. Inhalte Historisches Relevanz Relevante Technologien Anwendungsarchitekturen 4(5,12316,7'.'0,!.80/6,9*$:'0+$.;.,&0$'0, 3, Historisches Facebook
MehrCloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.
Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition
MehrMindestanforderungen an Systemumgebung Für die Nutzung von excellenttango
Die Hardware- und Softwareanforderungen sind als allgemeine Anforderungen zu betrachten. Zahlreiche Faktoren können sich auf diese Anforderungen auswirken und müssen daher beachtet werden: Die Anzahl und
MehrReview Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg
Review Freelancer-Workshop: Fit für Big Data Mittwoch, 29.04.2015 in Hamburg Am Mittwoch, den 29.04.2015, hatten wir von productive-data in Zusammenarbeit mit unserem langjährigen Partner Informatica zu
MehrClient: min. Intel Pentium IV oder höher bzw. vergleichbares Produkt
ISIS MED Systemanforderungen (ab Version 7.0) Client: Bildschirm: Betriebssystem: min. Intel Pentium IV oder höher bzw. vergleichbares Produkt min. 2048 MB RAM frei Webserver min 20. GB ISIS wurde entwickelt
MehrHans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
Hans-Peter Zorn Inovex GmbH Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? War nicht BigData das gleiche NoSQL? Data Lake = Keine Struktur? flickr/matthewthecoolguy Oder gar ein Hadump? flickr/autohistorian
MehrExcel beschleunigen mit dem mit Windows HPC Server 2008 R2
Excel beschleunigen mit dem mit Windows HPC Server 2008 R2 Steffen Krause Technical Evangelist Microsoft Deutschland GmbH http://blogs.technet.com/steffenk Haftungsausschluss Microsoft kann für die Richtigkeit
MehrPROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center
PROFI UND NUTANIX Portfolioerweiterung im Software Defined Data Center IDC geht davon aus, dass Software-basierter Speicher letztendlich eine wichtige Rolle in jedem Data Center spielen wird entweder als
MehrJune 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration
June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen
MehrWEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT
WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT EBINAR@LUNCHTIME
MehrNEVARIS Build Systemvoraussetzungen
Konfiguration der Hardware-Umgebung für NEVARIS Build Die optimale Konfiguration einer passenden Hardware für NEVARIS Build mit der Datenbank SQL von Microsoft hängt von zahlreichen Einflussgrößen ab,
MehrDas SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 2: Anwendungsfälle an der Nationalbibliothek
Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 2: Anwendungsfälle an der Nationalbibliothek Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische
MehrHadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes
Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)
MehrSystemvoraussetzungen für ConSol*CM Version 6.10.2 Architektur Überblick
Systemvoraussetzungen für ConSol*CM Version 6.10.2 Architektur Überblick ConSol*CM basiert auf einer Java EE Web-Architektur, bestehend aus den folgenden Kern-Komponenten: JEE Application Server für die
MehrM5000 einfach ablösen durch T4/T5 LDoms und Solaris Zonen
M5000 einfach ablösen durch T4/T5 LDoms und Solaris Zonen Marcel Hofstetter hofstetter@jomasoft.ch CEO, Mitgründer, Enterprise Consultant JomaSoft GmbH 1 Inhalt Wer ist JomaSoft? SPARC T5 CPU Neue T5-x
MehrProf. Dr.-Ing. Rainer Schmidt 1
Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2
MehrApache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org
Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software
MehrMySQL Cluster. Kai Voigt MySQL AB kai@mysql.com. Kiel, 17. Februar 2006
MySQL Cluster Kai Voigt MySQL AB kai@mysql.com Kiel, 17. Februar 2006 1 Agenda Warum? Wie? Wie genau? Was sonst? 2 Warum? 3 Kosten runter Hochverfügbarkeit (99,999%) Redundante Daten und Systeme Wiederherstellung
MehrBig Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr.
Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr. Florian Johannsen AGENDA 1. Big Data Projekt der freenet Group Dr. Florian Johannsen
MehrMapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce
MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:
MehrBig Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de
Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan
MehrBigTable. 11.12.2012 Else
BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012
MehrBuildfrei skalieren für Big Data mit Z2
Buildfrei skalieren für Big Data mit Z2 Henning Blohm ZFabrik Software KG 5.6.2013 1 Teil 1: Buildfrei entwickeln und skalieren Teil 2: Big Data, Cloud, und wie es zusammenpasst 2 1. Teil BUILDFREI ENTWICKELN
MehrLeistungsanalyse von Rechnersystemen
Zentrum für Informationsdienste und Hochleistungsrechnen (ZIH) Leistungsanalyse von Rechnersystemen Auf Ein-/Ausgabe spezialisierte Benchmarks Zellescher Weg 12 Willers-Bau A109 Tel. +49 351-463 - 32424
MehrEinführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer
Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum
MehrVirtualBox und OSL Storage Cluster
VirtualBox und OSL Storage Cluster A Cluster in a Box A Box in a Cluster Christian Schmidt Systemingenieur VirtualBox und OSL Storage Cluster VirtualBox x86 und AMD/Intel64 Virtualisierung Frei verfügbar
MehrThema: Das MapReduce-Framework
Software as a Service Cloud Computing und aktuelle Entwicklungen Seminararbeit Thema: Das MapReduce-Framework Betreuer: Prof. Dr. Klaus Küspert Dipl.-Inf. Andreas Göbel Nicky Kuhnt Friedrich-Schiller-Universität
MehrBig Data Anwendungen Chancen und Risiken
Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data
MehrVerteilte Systeme. Map Reduce. Secure Identity Research Group
Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das
MehrAufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim
Andreas Ries Cloud-Computing Seminar Hochschule Mannheim WS0910 1/26 Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim Andreas Ries Fakultät für Informatik Hochschule Mannheim ries.andreas@web.de
MehrCloud-Infrastrukturen Seminar Cloud Data Management WS09/10
Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10 Richard Beyer 1 Inhalt 1. Allgemeines 2. Amazon EC2 3. Yahoo Cloud 4. Vergleich 5. Fazit 6. Literatur Richard Beyer 2 Definition Cloud computing
MehrAufbau von Cloud-Infrastrukturen mit Eucalyptus
Michael Stapelberg Cloud-Computing Seminar Universität Heidelberg SS2009 1/34 Aufbau von Cloud-Infrastrukturen mit Eucalyptus Michael Stapelberg Universität Heidelberg Stapelberg@stud.uni-heidelberg.de
MehrBIG DATA HYPE ODER CHANCE
BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu
MehrXEN Performance. Projektpraktikum Informatik. Arne Klein 2008-02-26. Arne Klein () XEN Performance 2008-02-26 1 / 25
XEN Performance Projektpraktikum Informatik Arne Klein 2008-02-26 Arne Klein () XEN Performance 2008-02-26 1 / 25 1 Virtualisierung mit XEN 2 Performance von XEN Allgemeines Netzwerk-Performance IO-Performance
MehrDie nächste Storage Generation Vorteile und Änderungen mit 12Gb/s SAS von Avago Storage Dominik Mutterer, Field Application Engineer
Die nächste Storage Generation Vorteile und Änderungen mit 12Gb/s SAS von Avago Storage Dominik Mutterer, Field Application Engineer Agenda Avago Who? 12Gb/s SAS Produktüberblick Vorteile durch 12Gb/s
MehrCopyright 2014, Oracle and/or its affiliates. All rights reserved.
1 Integrierte Systeme für ISVs Matthias Weiss Direktor Mittelstand Technologie ORACLE Deutschland B.V. & Co. KG 2 Agenda Engineered Systems Lösungsansatz aus der Praxis Engineered Systems Oracle s Strategie
MehrSeminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP
Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,
MehrHDInsight on Azure. Verteilte Datenanalyse mit Apache Hadoop Hans- Peter Grahsl, FH CAMPUS 02 @hpgrahsl on TwiDer. Willkommen beim #GWAB 2014!
Willkommen beim #GWAB 2014! HDInsight on Azure Lokale Sponsoren: Verteilte Datenanalyse mit Apache Hadoop Hans- Peter Grahsl, FH CAMPUS 02 @hpgrahsl on TwiDer Einführung Was ist HDInsight? 100% auf Apache
MehrVorstellung Studienprojekt. Policy4TOSCA. Umsetzung eines Policy-Frameworks für sicheres und energieeffizientes Cloud Computing
Vorstellung Studienprojekt Policy4TOSCA Umsetzung eines Policy-Frameworks für sicheres und energieeffizientes Cloud Computing Institute of Architecture of Application Systems (IAAS) www.iaas.uni-stuttgart.de
MehrElasticsearch aus OPS-Sicht Teil1. Markus Rodi Karlsruhe, 22.05.2015
Elasticsearch aus OPS-Sicht Teil1 Markus Rodi Karlsruhe, 22.05.2015 Agenda 1.Elasticsearch 2.VM & Storage 3.System 4.Konfigurationsparameter 5.Snapshot/Restore 2 Elasticsearch Cluster Mehrere Nodes Default
MehrMapReduce. Johann Volz. 3. Juni 2010. Zusammenfassung
MapReduce Johann Volz 3. Juni 2010 Zusammenfassung Bei der Verarbeitung von Datenmengen, die hunderte oder gar tausende Computer zur Fertigstellung in der gewünschten Zeit brauchen, muss man sich nicht
MehrNeues in Hyper-V Version 2
Michael Korp Technical Evangelist Microsoft Deutschland GmbH http://blogs.technet.com/mkorp Neues in Hyper-V Version 2 - Virtualisieren auf die moderne Art - Windows Server 2008 R2 Hyper-V Robust Basis:
Mehrlobodms.com lobo-dms Systemvoraussetzungen
lobodms.com lobo-dms Inhaltsverzeichnis 1 Allgemeines... 3 1.1 Betriebssystem... 3 1.2 Windows Domäne... 3 1.3 Dateisystem... 3 2 Server... 3 2.1 Hardware... 4 2.2 Betriebssystem... 4 2.3 Software... 4
MehrHochverfügbarkeit mit Windows Server vnext. Carsten Rachfahl Microsoft Hyper-V MVP
Hochverfügbarkeit mit Windows Server vnext Carsten Rachfahl Microsoft Hyper-V MVP Carsten Rachfahl www.hyper-v-server.de Roling Cluster Upgrade Herausforderung: Update eines Failover Clusters ohne Downtime
MehrDie TravelTainment DataCollection
Die TravelTainment DataCollection Seminararbeit im Studium Scientific Programming WS 2011/2012 Betreuer: Betreuer: Prof. Dr. Hans-Joachim Pflug Ibrahim Husseini Autor: Katharina Zacharias Matrikel-Nr:
MehrSmartphone Entwicklung mit Android und Java
Smartphone Entwicklung mit Android und Java predic8 GmbH Moltkestr. 40 53173 Bonn Tel: (0228)5552576-0 www.predic8.de info@predic8.de Was ist Android Offene Plattform für mobile Geräte Software Kompletter
MehrData Mining in der Cloud
Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur
MehrCloud-Plattform: Appscale Hochschule Mannheim
Florian Weispfenning Cloud-Computing Seminar Hochschule Mannheim WS0910 1/28 Cloud-Plattform: Appscale Hochschule Mannheim Florian Weispfenning Fakultät für Informatik Hochschule Mannheim florian.weispfenning@stud.hs-mannheim.de
MehrHochleistungsrechnen mit Windows Interaktive Benutzung und das Batchsystem Christian Terboven Rechen- und Kommunikationszentrum RWTH Aachen
Hochleistungsrechnen mit Windows Interaktive Benutzung und das Batchsystem hristian Terboven Rechen- und Kommunikationszentrum RWTH Aachen 1 Hochleistungsrechnen mit Windows enter omputing and ommunication
MehrMap Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher
Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!
MehrSystemvoraussetzungen Windows Server 2008 Windows Server 2008 R2 Windows Server 2012 Windows Server 2012 R2
Systemvoraussetzungen Windows Server 2008 Windows Server 2008 R2 Windows Server 2012 Windows Server 2012 R2 Basis: HiScout 3.0 Datum: Autor(en): HiScout GmbH Version: 1.3 Status: Freigegeben Dieses Dokument
MehrBig Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen
Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien
MehrHochleistungs-Disk-I/O
Hochleistungs-Disk-I/O mit Lustre, dcache und AFS eine vergleichende Betrachtung Stephan Wiesand DESY DV 33. Treffen des ZKI AK Supercomputing Hamburg, 2010-03-04 Computing am DESY Standort Zeuthen Batch
MehrSystemvoraussetzungen Windows Server 2008 Windows Server 2008 R2
Systemvoraussetzungen Windows Server 2008 Windows Server 2008 R2 Basis: HiScout 2.5 Datum: 17.06.2015 14:05 Autor(en): HiScout GmbH Version: 1.1 Status: Freigegeben Dieses Dokument beinhaltet 13 Seiten.
MehrPerformance Tuning & Scale-Out mit MySQL
Performance Tuning & Scale-Out mit MySQL Erfa-Gruppe Internet Briefing 2. März 2010 Oli Sennhauser Senior MySQL Consultant, FromDual oli.sennhauser@fromdual.com www.fromdual.com 1 Inhalt Allgemeines zu
MehrWell-Balanced. Performance Tuning
Well-Balanced Real Application Cluster Performance Tuning Über mich virtual7 GmbH Jürgen Bouché Zeppelinstraße 2 76185 Karlsruhe Tel.: +49 (721) 6190170 Fax.: +49 (721) 61901729 Email: jbouche@heine.de
MehrCloud Computing mit mathematischen Anwendungen
Cloud Computing mit mathematischen Anwendungen Vorlesung SoSe 2009 Dr. Marcel Kunze Karlsruhe Institute of Technology (KIT) Steinbuch Centre for Computing (SCC) KIT the cooperation of Forschungszentrum
Mehrinit.at informationstechnologie GmbH Tannhäuserplatz 2/5.OG 1150 Wien Austria
init.at informationstechnologie GmbH Tannhäuserplatz 2/5.OG 1150 Wien Austria Seite 2 von 10 1 Inhaltsverzeichnis 2 Warum CORVUS by init.at... 3 3 Ihre Vorteile durch CORVUS... 3 4 CORVUS Features... 4
MehrPVFS (Parallel Virtual File System)
Management grosser Datenmengen PVFS (Parallel Virtual File System) Thorsten Schütt thorsten.schuett@zib.de Management grosser Datenmengen p.1/?? Inhalt Einführung in verteilte Dateisysteme Architektur
MehrOSGi-basierte Webapplikationen Ein Erfahrungsbericht
OSGi-basierte Webapplikationen Ein Erfahrungsbericht Zürich, 18. März 2009 Pascal Nüesch, Software Engineer 1 www.namics.com Zu meiner Person» Lehre als Elektroniker mit Schwerpunkt SW-Entwicklung» Java
MehrErfahrungen mit Solaris Zonen und LDoms
Erfahrungen mit Solaris Zonen und LDoms Marcel Hofstetter JomaSoft GmbH St. Gallen / Schweiz Schlüsselworte Oracle Solaris, Virtualisierung, Zonen, LDoms, VDCF Einleitung Oracle Solaris bietet die zwei
MehrOracle EngineeredSystems
Oracle EngineeredSystems Überblick was es alles gibt Themenübersicht Überblick über die Engineered Systems von Oracle Was gibt es und was ist der Einsatzzweck? Wann machen diese Systeme Sinn? Limitationen
MehrAlbert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen
Open Source professionell einsetzen 1 Mein Background Ich bin überzeugt von Open Source. Ich verwende fast nur Open Source privat und beruflich. Ich arbeite seit mehr als 10 Jahren mit Linux und Open Source.
Mehr