GPGPUs am Jülich Supercomputing Centre

Größe: px

Ab Seite anzeigen:

Download "GPGPUs am Jülich Supercomputing Centre"

Babette Bach
vor 7 Jahren
Abrufe

1 GPGPUs am Jülich Supercomputing Centre 20. April 2012 Jochen Kreutz

2 Jülich Supercomputing Centre (JSC) Teil des Forschungszentrums Jülich und des Institute for Advanced Simulation (IAS) betreibt Supercomputer der höchsten Leistungsklasse in Europa mehr als 100 Mitarbeiter beschäftigen sich mit Aspekten von Supercomputing und Simulationswissenschaften mathematische Modellierung und numerische, insbesondere parallele Algorithmen zahlreiche Kooperationen mit namhaften Firmen und wissenschaftlichen Einrichtungen sieben Abteilungen, eine Helmholtz- Hochschul-Nachwuchsgruppe simulation labs April 2012 GPGPUs am Jülich Supercomputing Centre 2

3 Motivation Simulation ist neben Theorie und Experiment wichtige Grundlage moderner Wissenschaft sehr hoher Bedarf an Rechenleistung programmierbare Hardware in Grafikkarten ermöglicht Nutzung für (nahezu) beliebige Berechnungen auf der Grafikkarte General Purpose Computation on Graphics Processing Unit (GPGPU) gut geeignet für numerische Simulation und gitterbasierte Verfahren GPUs sind sehr effizient (niedriger Energieaufwand pro Fließkommaoperation im Vergleich zu CPUs) 20. April 2012 GPGPUs am Jülich Supercomputing Centre 3

4 Motivation hohe Performance für bestimmte Anwendungsbereiche (SIMD) große Speicherbandbreite Quelle: Nvidia C Programming Guide hybride Rechnersysteme mit Beschleunigern für größere Energieeffizienz interessant für HPC-Bereich 20. April 2012 GPGPUs am Jülich Supercomputing Centre 4

5 GPUGPU Systeme am JSC Jugipsy (Jülich s GPU System) 4 x Tesla C1060 GPU (4 GB DDR3 each) 4 Tflops peak (single precision) 346 Gflops double precision 4 x 102 GB/s memory bandwidth Infiniband interconnect GPU-Testsystem Jugipsy Mini-Judge 4 x Tesla M2070 (6GB DDR5 each, ECC) 4 x 1.03 Tflops peak (single precision) 4 x Tflops peak (double precision) 4 x 148 GB/s memory bandwidth Infiniband interconnect GPU-Testsystem Mini-Judge 20. April 2012 GPGPUs am Jülich Supercomputing Centre 5

6 Judge (Jülich Dedicated GPU Environment) dritte Ausbaustufe (derzeit Installationsphase) mit 206 IBM System x idataplex dx360 m3 Knoten 2 x Intel Xeon X core (2,66 GHz) 96 GB RAM, IB 2 x Nvidia Tesla M2050/M2070, 3/6 GB memory 1,03 Tflops peak (single precision) 0,515 Tflops peak (double precision) maximale Performance pro Knoten: 1,16 Tflops (double precision) Login-Knoten, Management-Knoten, GPFS-Anbindung Judge Cluster maximale Gesamtperformance: (double precision) ~ 239 Tflops 20. April 2012 GPGPUs am Jülich Supercomputing Centre 6

7 Erste Tests und Einarbeitung Beginn: 2008 Installation und Konfiguration (Treiber und Entwicklungsumgebung) Untersuchung der Programmiermodelle (Cuda, später auch OpenCL) GPU Architektur, Memory-Hierarchie Compiler, Debugger, Profiler erste Performancemessungen (Matrixmultiplikation, Black Scholes) Portierung erster Anwendungen QCD Proteinfaltung (SMMP) Stochastic Rotation Dynamics (SRD) Ising Model 20. April 2012 GPGPUs am Jülich Supercomputing Centre 7

8 GPU-Anwendungen Multi-particle Collision Dynamics (MPC) Nutzung von Stochastic Rotation Dynamics Kombination von MD und MPC (MP2C) Untersuchung von Skalierbarkeit für Multi-GPU-Nutzung N-Body für Astrophysik Kooperation mit R. Spurzem, Uni Heidelberg Judge Milky Way Clusterteil (3. Ausbaustufe) 20. April 2012 GPGPUs am Jülich Supercomputing Centre 8

9 Untersuchung von Programmiermodellen, Bibliotheken und Tools Cuda, CuBLAS, CuSPARSE, CULA, Thrust OpenCL, OpenACC, PGI Accelerator Nvidia Visual Profiler, VampirTrace, Cuda-GDB ArrayFire etc. 20. April 2012 GPGPUs am Jülich Supercomputing Centre 9

10 GPU-Vergleich Nvidia, ATI (OpenCL) Bachelor-Arbeit zum Performance-Vergleich von Nvidia- und ATI-Grafikkarten zusätzliches AMD-Testsystem wurde beschafft AMD CPU (FX-6100, 6 Cores) ATI-Grafikkarte: Radeon ,7 Tflops peak single precision ( 683 Gflops double) 176 GB/s bandwidth 1536 Stream-Prozessoren nutze CG-Kernel des NAS Parallel Benchmarks konjugiertes Gradientenverfahren mit verschiedenen dünn besetzten Matrizen vorhandene OpenCL-Implementierung von der Seoul National University 20. April 2012 GPGPUs am Jülich Supercomputing Centre 10

11 Schulungen und Workshops regelmäßige GPU-Programmierkurse (ca. 2 x pro Jahr) interne und externe Teilnehmer bietet Einstieg in Programmierung von GPGPUs Inhalte: Cuda, OpenCL, OpenACC, Libraries etc. Nvidia Porting Workshop (September 2011) Wissenschaftliche Anwendungen ( 4 x Cuda, 1 x OpenCL) Optimierung vorhandener Ansätze Hinweise und Tipps zur Performance- Verbesserung durch Nvidia-Experten 20. April 2012 GPGPUs am Jülich Supercomputing Centre 11

12 PRACE Projekt Mitarbeit beim Virtual Interconnect Protoyp (CSCS) Untersuchung von Datentransfers zwischen GPUs und CPUs Nutzung von MPI Linktest" Paralleler MPI Ping Pong Test Erweiterung für GPU Nutzung (Tests mit MVAPICH2) 20. April 2012 GPGPUs am Jülich Supercomputing Centre 12

13 Installation und Administration eines GPU- Clusters Judge wird in Zusammenarbeit mit der Firma ParTec administriert Nutzung der Clusterware ParaStation besondere Anforderungen bezüglich der Installation: Energiebedarf und Abwärme (Kühlsysteme) sind zu berücksichtigen zusätzliche Treiber und Software benötigt Nvidia Grafiktreiber, Entwicklungsumgebungen (Cuda ) Bibliotheken, Software-Pakete optimiert für Nutzung von GPUs Verwaltung verschiedener Benutzergruppen (nur CPU, GPU oder gemischte Nutzung) zusätzliche Hilfestellung für Umgang mit GPUs 20. April 2012 GPGPUs am Jülich Supercomputing Centre 13

14 Installation und Administration eines GPU- Clusters (2) Zuteilung von GPUs als Resourcen im Batchsystem Batchsystem muss entsprechende Konfigurationsmöglichkeit bereitstellen Monitoring und Accounting RAS: Reliability, Availability, Serviceability Erweiterung von Monitoring-Tool LLView GPUs stellen evtl. zusätzliche Fehlerquelle dar 20. April 2012 GPGPUs am Jülich Supercomputing Centre 14

15 GPGPUs Fazit GPUs besitzen hohes Potenzial energieeffizient und in vielen Anwendungsbereichen sehr performant aktuell zahlreiche Entwicklungen im Bereich der GPGPU-Programmierung (OpenACC ) großes Interesse und positive Resonanz von Benutzern Schulungen zu GPGPU-Programmierung gut besucht hohe Auslastung von Judge hybride Cluster interessant im HPC-Bereich zusätzliche Anforderungen bei der Administration 20. April 2012 GPGPUs am Jülich Supercomputing Centre 15

16 Intel Many Integrated Core (MIC) Architecture Gründung eines Exacluster Laboratory (2010) Ziele: Untersuchung der Intel MIC Architektur, um die Skalierbarkeit und Effizienz von HPC Systemen auf dem Weg zu Exascale zu verbessern Portierung von Anwendungen auf MIC Verbesserung von Software und Tools zur Verwendung in zukünftigen Exascale-Systemen 20. April 2012 GPGPUs am Jülich Supercomputing Centre 16

Dezember 2011 Entwicklung eines Prototypen bestehend aus Cluster- und Booster-Teil Verwendung

17 DEEP Projekt (Dynamical Exascale Entry Platform) EU-Projekt mit 16 Partnern aus 8 Ländern Start 1. Dezember 2011 Entwicklung eines Prototypen bestehend aus Cluster- und Booster-Teil Verwendung von Intel Knights Corner Chips als Beschleuniger schnelles Extoll-Netzwerk zwischen Booster-Nodes April 2012 GPGPUs am Jülich Supercomputing Centre 17

Ähnliche Dokumente

General Purpose Computation on GPUs

General Purpose Computation on GPUs Matthias Schneider, Robert Grimm Universität Erlangen-Nürnberg {matthias.schneider, robert.grimm}@informatik.stud.uni-erlangen.de M. Schneider, R. Grimm 1 Übersicht