Introduction Workshop 11th 12th November 2013

Ähnliche Dokumente
Einführungs-Workshop Februar Übersicht

Eingebettete Taktübertragung auf Speicherbussen

auf differentiellen Leitungen

Routing in WSN Exercise

Staff. Tim Conrad. Zeitplan. Blockseminar: Verteiltes Rechnen und Parallelprogrammierung. Sommer Semester Tim Conrad

Blockseminar: Verteiltes Rechnen und Parallelprogrammierung. Sommer Semester Tim Conrad

Aktuelle Trends und Herausforderungen in der Finite-Elemente-Simulation

GridMate The Grid Matlab Extension

C C. Hochleistungsrechnen (HPC) auf dem Windows Compute Cluster des RZ der RWTH Aachen. 1 WinHPC Einführung Center. 31.

Zukunft Hochleistungsrechnen an der TU-Darmstadt

Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP)

Symbio system requirements. Version 5.1

Outline. Cell Broadband Engine. Application Areas. The Cell

Beispielvortrag: HPCG auf Intel Haswell-EP

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

AS Path-Prepending in the Internet And Its Impact on Routing Decisions

Praktikum Entwicklung Mediensysteme (für Master)

Seminarvortrag: Direktivenbasierte Programmierung von Beschleunigern mit OpenMP 4.5 und OpenACC 2.5 im Vergleich

Cell Broadband Engine

1. General information Login Home Current applications... 3

Presentation of a diagnostic tool for hybrid and module testing

Wissenschaftliches Rechnen an der Christian- Albrechts-Universität zu Kiel

Mock Exam Behavioral Finance

Industrial USB3.0 Miniature Camera with color and monochrome sensor

Cloud Computing mit mathematischen Anwendungen

Hybrid model approach for designing fish ways - example fish lift system at Baldeney/Ruhr and fish way at Geesthacht /Elbe

Workflows, Ansprüche und Grenzen der GNSS- Datenerfassung im Feld

Level 2 German, 2016

Efficient Design Space Exploration for Embedded Systems

Austria Regional Kick-off

Einsatz einer Dokumentenverwaltungslösung zur Optimierung der unternehmensübergreifenden Kommunikation

Lessons learned from co-operation The project Virtual interaction with Web 2.0 in companies

Software development with continuous integration

Long-term archiving of medical data new certified cloud-based solution offers high security and legally approved data management

Produkte und Preise TERRA PC

Seminar GPU-Programmierung/Parallelverarbeitung

Mehr erreichen mit der bestehenden Infrastuktur. Mathias Widler Regional Sales Manager DACH

Netzwerke und Sicherheit auf mobilen Geräten

Multi- und Many-Core

Symposium on Scalable Analytics. Skalierbare Analysen mit EXASolution

Interpolation Functions for the Finite Elements

Numerical Analysis of a Radiant Syngas Cooler

Mitglied der Leibniz-Gemeinschaft

Webbasierte Exploration von großen 3D-Stadtmodellen mit dem 3DCityDB Webclient

FEM Isoparametric Concept

Hausaufgabe 1-4. Name: If homework late, explanation: Last class homework is being accepted: If correction late, explanation: Student Self-Grading

GPGPUs am Jülich Supercomputing Centre

Ein Stern in dunkler Nacht Die schoensten Weihnachtsgeschichten. Click here if your download doesn"t start automatically

Perinorm Systemvoraussetzungen ab Version Release 2010

Tube Analyzer LogViewer 2.3

CUDA 3230 GPU-COMPUTE NODE, KEPLER READY

New Forms of Risk Communication Workshop 6: Arzneimitteltherapiesicherheit (AMTS) Dr. Norbert Paeschke, BfArM

Ingenics Project Portal

Klausur Verteilte Systeme

eurex rundschreiben 094/10

Fluid-Particle Multiphase Flow Simulations for the Study of Sand Infiltration into Immobile Gravel-Beds

RS-232 SERIAL EXPRESS CARD 1-PORT. Expansion

SARA 1. Project Meeting

Waldwissen.net (Forest-knowledge.net)

GmbH, Stettiner Str. 38, D Paderborn

Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str Jena

Die Bedeutung neurowissenschaftlicher Erkenntnisse für die Werbung (German Edition)

Current and Emerging Architectures Multi-core Architectures and Programming

Karlsruhe Institute of Technology Die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH)

GIS-based Mapping Tool for Urban Energy Demand

EtherNet/IP Topology and Engineering MPx06/07/08VRS

City West between Modern Age and History: How Does the Balancing Act. between Traditional Retail Structures and International

Anleitung zur Schnellinstallation TU2-HDMI 1.01

LimbLogic Communicator. Clever verbunden. Software Installation

p^db=`oj===pìééçêíáåñçêã~íáçå=

Tuning des Weblogic /Oracle Fusion Middleware 11g. Jan-Peter Timmermann Principal Consultant PITSS

Protected User-Level DMA in SCI Shared Memory Umgebungen

GRIPS - GIS basiertes Risikoanalyse-, Informations- und Planungssystem

Algorithms for graph visualization

MODELLING AND CONTROLLING THE STEERING FORCE FEEDBACK USING SIMULINK AND xpc TARGET

Where are we now? The administration building M 3. Voransicht

Exploring the knowledge in Semi Structured Data Sets with Rich Queries

Mit Legacy-Systemen in die Zukunft. adviion. in die Zukunft. Dr. Roland Schätzle

KNIME HPC INTEGRATION VIA UNICORE

Titelbild1 ANSYS. Customer Portal LogIn

Produkte und Preise TERRA PC

KOBIL SecOVID Token III Manual

News. 6. Oktober 2011 ZKI Arbeitskreis Supercomputing. Dr. Franz-Josef Pfreundt Competence Center for HPC

Parameter-Updatesoftware PF-12 Plus

Creating OpenSocial Gadgets. Bastian Hofmann

Produkte und Preise TERRA PC

TIn 1: Feedback Laboratories. Lecture 4 Data transfer. Question: What is the IP? Institut für Embedded Systems. Institut für Embedded Systems

Hardwarekonfiguration an einer Siemens S7-300er Steuerung vornehmen (Unterweisung Elektriker / - in) (German Edition)

CIA. Auditing Exams. Gleim. Certified Internal Auditor, 2018 edition Irvin N. Gleim. Irvin N. Gleim Ph.D., CFM, CIA, CMA, CPA, Professsor emeritus

Produkte und Preise TERRA PC

Level 1 German, 2016

Open Source. Legal Dos, Don ts and Maybes. openlaws Open Source Workshop 26 June 2015, Federal Chancellery Vienna

Verzeichnisdienste in heterogenen Systemen

DAS ZUFRIEDENE GEHIRN: FREI VON DEPRESSIONEN, TRAUMATA, ADHS, SUCHT UND ANGST. MIT DER BRAIN-STATE-TECHNOLOGIE DAS LEBEN AUSBALANCIEREN (GE

German translation: technology

TW Struktura / TW ArchiMed

FEBE Die Frontend-Backend-Lösung für Excel

Towards Modular Supercomputing with Slurm

FOR ENGLISCH VERSION PLEASE SCROLL FORWARD SOME PAGES. THANK YOU!

Transkript:

Introduction Workshop 11th 12th November 2013 Lecture I: Hardware and Applications Dr. Andreas Wolf Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum

Overview Current and next System Hardware Sections rom C to HC ccnua-architectures Accelerators Applications 7

Current and next System Hardware Sections rom C to HC ccnua-architectures Accelerators Applications 8

Der Neue Hochleistungsrechner Insgesamt 15 io für Hardware und ~ 7,5 io für Gebäude Zuschlag hat IB bekommen, Ausschreibungssumme 13,5 io Lieferung von IB in zwei hasen I und II hase I (2013): heterogenes System - verschiedene Sektionen hase II (Ende 2014) Rund 800 Rechenknoten Über 250 Tlops (peak) durch rozessoren Über 128 Tlops (peak) durch Beschleunigerkarten (GU, IC) Zusätzlich noch einmal doppelte Rechenleistung Unabhängig von Rechnerhardware Wasserkühlung so ausgelegt, dass Abwärme für Gebäudeheizung nutzbar 9

New Building (Oktober 2013) 10

Hardware 2013 currently I Ethernet Infiniband E 704(+2) x I (inclusive UCluster) 2 rocessors, Intel Sandybridge each 8 Cores, 2.6 GHz 32 GByte (10% 64 GByte) 4 x E 8 rocessors, each 8 Cores 1024 GByte ile Systems Scratch: 768 TByte, 20 GB/s SCRATCH Infiniband DR-10 11

Hardware 2013 hase I 704(+2) x I (inclusive UCluster) 2 rocessors, Intel Sandybridge each 8 Cores, 2.6 GHz 32 GByte (10% 64 GByte) 4 x E E 8 rocessors, each 8 Cores 1024 GByte 44+24(+2) x ACC reparation ACC 2 rocessors + 2 Accelerators Nvidia Kepler Intel Xeon hi (former IC) 32 GByte ile Systems Scratch: 768 TByte, 20 GB/s Home: 500 TByte, 5 GB/s Infiniband SCRATCH HOE DR-10 Ethernet Infiniband I 12

Hardware 2013 finally I Ethernet ACC S HOE reparation reparation SCRATCH Infiniband Infiniband E 32 x S 4 rocessors, AD Opteron each 12 Cores, 2.6 GHz 64 GByte (8x 128 GByte) Infiniband QDR 13

Hardware 2014 hase II I E E ACC ACC HOE S SCRATCH SCRATCH Infiniband Ethernet Infiniband I Additional I 2 rocessors Successor architecture 4x Additional E 4 rocessors Successor architecture 1024 GByte Additional ACC 2 rocessors 2 Accelerators Successor architecture ile Systems Scratch: +768 TByte Overall 1.5 Byte Infiniband DR, 54 Gbit/s,~1µs Latency 14

Hardware Details I E ACC S Details sind wichtig für effiziente Nutzung Im olgenden Was macht die Rechner schnell Heute: Anzahl Rechenkerne statt Takt Was muss man unbedingt beachten Als Anwender Welche Ressourcen fordere ich an Als rogrammierer Was muss ich bei der rogrammierung beachten 15

Current and next System Hardware Sections rom C to HC ccnua-architectures Accelerators Applications 16

Vom einfachen Computer zum Hochleistungsrechner 17

Vom einfachen Computer zum Hochleistungsrechner 18

Vom einfachen Computer zum Hochleistungsrechner Große Rechner mit mehren rozessoren Viele besonders kleine Rechner Statt vieler normaler C's: 19

Vom einfachen Computer zum Hochleistungsrechner 20

ehrprozessor-system I S 21

I vs. S Section I S 22

Current and next System Hardware Sections rom C to HC ccnua-architectures Accelerators Applications 23

NUA ccnua I Data transfer between processors/cores Non-Uniform emory Access Local memory for each processor ast access only to the local memory!!! Global main memory address space Cache-coherent NUA In respect to the Cache memory 24

ccnua System I S odul odul odul odul odul odul 25

ccnua System I Eine AVX Einheit pro Ein = zwei Hyperthreads Ein NUA-Node pro rozessor S Eine AVX Einheit pro odul Ein odul = zwei e Zwei NUA-Nodes pro rozessor odul odul odul odul odul odul 26

I vs. S Section I 16 Cores (AVX units) per node Two NUA-Nodes per node 32-64 GByte main memory S 48 odules (AVX units) per node Eight NUA-Nodes per node 64-128 GByte main memory 27

E vs. S Section E S 28

E vs. E+ax5 E 1 E+ax5 3 2 4 ax5 ax5 29

E vs. E+ax5 E 1 E+ax5 3 2 64 Cores (no AVX units) per node Eight NUA-Nodes per node 1024 GByte main memory Good for latency dependent applications 4 64 Cores (no AVX units) per node Ten NUA-Nodes per node 1024 GByte main memory Good for memory bandwidth dependent applications 30

Current and next System Hardware Sections rom C to HC ccnua-architectures Accelerators Applications 31

I vs. ACC Section I ACC ACC ACC 32

Nvidia K20X vs. Intel Xeon hi ACC-G ACC- K20X K20X hi hi 33

Nvidia K20X vs. Intel Xeon hi ACC-G ACC- 16 Cores (AVX units) per node Two NUA-Nodes per node 32 GByte main memory Two Nivida Tesla K20X CUDA, OpenACC, OpenCL 16 Cores (AVX units) per node Two NUA-Nodes per node 32 GByte main memory Two Intel Xeon hi Open, I, OpenCL 34

Current and next System Hardware Sections rom C to HC ccnua-architectures Accelerators Applications 35

ain Targets for the Sections I E ACC ainly for I (essage assing Interface) Scalable applications up to hundreds of cores distriuted-memory applications Serial applications with the need of hundreds of GByte main memory shared-memory parallelized applications Only when the use of accelerators is possible and efficient S shared-memory parallelized applications The need of hundreds of GByte main memory Efficient use of hundreds of cores 36

ain Applications for the Sections I E ACC Several CD simulation codes e.g. astest, Openoam... Applications for Grid generating Data-Base Seeking e.g. atlab... Application from Chemistry, Biology Similar to E S 37

ain Applications for the Sections I Several CD simulation codes e.g. astest, Openoam... Ask your Software Developer Applications for Grid generating Data-Base Seeking the implemented e.g. atlab... parallelization E It depends on technique Distributed- vs. Shared- memory parallelization I, Open, OSIX-Threads Application from Chemistry, Biology ACC It depends on the additional support for accelerators Based on CUDA, OpenCL, OpenACC, Open... S Similar to E 38

How it looks like 39

Thank you for your attention Questions??? 40