Erste Erfahrungen mit dem neuen System Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 1
Überblick Rechnerkonfiguration Veränderungen SX-9 zu SX-ACE Benutzergruppen Erste Performanceergebnisse Energieverbrauch Zusammenfassung Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 2
NEC HPC-System: Konfiguration (bis 08/2014) 4 Vorrechner Intel Xeon E5-2670 (16 Cores, 128 GB Hauptspeicher) 68 Linux-Cluster Knoten Intel-Xeon E5-2670 (16 Cores, 128 GB bzw. 256 GB Hauptspeicher) Theoretische Peak-Performance: 38,6 TFlops 6 SX-9 Knoten mit je 16 Vektorprozessoren (je 100 GFlops) 512 GB Hauptspeicher 2,5 TB lokaler Plattenplatz Speicherbandbreite 256 GB/s Theoretische Peak-Performance: 9,6 TFlops globales GFS-Dateisystem: 500 TB Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 3
NEC HPC-System: aktuelle Konfiguration 4 Vorrechner Intel Xeon E5-2670 (16 Cores, 128 GB Hauptspeicher) 134 Linux-Cluster Knoten 116 Intel Xeon E5-2670 (16 Cores, 128 GB bzw. 256 GB Hauptspeicher) 18 Intel Xeon E5-2680v3 (24 Cores, 128 GB Hauptspeicher) 2288 Cores; Peak Performance: 47,2 TFlops 256 SX-ACE Vektorknoten mit jeweils 4 Vektor-Cores (je 64 GFlops) 64 GB Hauptspeicher kein lokaler Plattenplatz Speicherbandbreite: 256 GB/s 1024 Vektor-Cores mit einer Peak-Performance von 65,5 TFlops globales ScaTeFS-Dateisystem: 1,5 PB Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 4
NEC SX-ACE: Benutzergruppen bis 8/2014 seit 10/2014 Programme GEOMAR 72 % 89 % NEMO, KCM, Ostseemodell Anorganische Chemie 25 % 9 % Gaussian Geowissenschaften 3 % 1 % NEMO Theo. und Astrophysik 1% Fosite Exp. und Angew. Physik < 1 % Gaussian Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 6
Erste Performanceuntersuchungen: Programme STREAM Benchmark Strukturmodell für amorphes Silicium (Skalarprogramm) Jacobi-Iterationen (Helmholtz Gleichungen) Gaussian 09 NEMO Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 7
STREAM (TRIAD) Speicherbandbreite [GB/s] 80 70 60 50 40 30 20 10 0 0 1 2 3 4 8 16 20 24 Anzahl Threads Intel Xeon E2670 Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 8
STREAM (TRIAD) 120 Speicherbandbreite [GB/s] 100 80 60 40 20 0 Intel Xeon E2670 Intel Xeon E2680v3 0 1 2 3 4 8 16 20 24 Anzahl Threads Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 9
STREAM (TRIAD) Speicherbandbreite [GB/s] 250 NEC SX-ACE 200 150 100 50 Intel Xeon E2670 Intel Xeon E2680v3 0 0 1 2 3 4 8 16 20 24 Anzahl Threads Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 10
Skalare Performance Strukturmodell für amorphes Silicium Erzeugung ungeordneter Strukturen aus einem regulären Gitter Hauptrechenzeit: Monte-Carlo Relaxationen Untersuchung von 5 Modellgrößen jeweils 5 unabhängige Realisierungen Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 11
Skalares Programm amorphes Silicium x=1 [sek] x= 5 [sek] x=10 [sek] x=20 [sek] x=50 [sek] x=100 [sek] NEC SX-9 40 192 402 797 2001 3878 NEC SX-ACE 24 119 238 475 1180 2423 Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 12
Skalares Programm amorphes Silicium x=1 [sek] x= 5 [sek] x=10 [sek] x=20 [sek] x=50 [sek] x=100 [sek] NEC SX-9 40 192 402 797 2001 3878 NEC SX-ACE 24 119 238 475 1180 2423 Intel Xeon E2670 5 25 50 100 249 496 Intel Xeon E2680v3 5 14 25 48 116 229 Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 13
Skalares Programm amorphes Silicium x=1 [sek] x= 5 [sek] x=10 [sek] x=20 [sek] x=50 [sek] x=100 [sek] NEC SX-9 40 192 402 797 2001 3878 NEC SX-ACE 24 119 238 475 1180 2423 Intel Xeon E2670 5 25 50 100 249 496 Intel Xeon E2680v3 5 14 25 48 116 229 SX-ACE verbesserte Skalarperformance Intel SandyBridge-Prozessoren 5mal schneller Intel Haswell-Prozessoren 10mal schneller Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 14
Vektorprogramm: Jacobi-Iterationen Programm zur Lösung von Helmholtz-Gleichungen Jacobi-Iterationen Vektorisierungsgrad: 99,6 % Performance für unterschiedliche Gittergrößen untersucht jeweils 5 unabhängige Realisierungen durchgeführt Vergleich mit SX-9 und Intel-Prozessoren Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 15
Jacobi-Iterationen: Vergleich SX-9 und SX-ACE Gittergrößee SX-9 [GFlops] SX-ACE [GFlops] 20.000x20.000 37,0 38,0 30.000x30.000 37,1 38,3 35.000x35.000 37,6 38,1 40.000x40.000 37,3 Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 16
Jacobi-Iterationen: Vergleich SX-ACE und Intel Haswell Gittergrößee SX-ACE Walltime [sek] Intel E-2630v3 Walltime[sek] 20.000x20.000 134 3158 30.000x30.000 299 5861 35.000x35.000 411 6333 40.000x40.000 538 6370 Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 17
Jacobi-Iterationen gleiche Performance auf SX-9 und SX-ACE SX-ACE: 60 % der theoretischen Peak-Performance Faktor 10-20 schneller als aktueller Haswell-Prozessor Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 18
Gaussian 09 Programmpaket zur Berechnung der elektronischen Struktur von Molekülen ab-initio und semiempirische Verfahren verschiedene Methoden der Dichtefunktionaltheorie (DFT) SMP-parallelisiert für beide Komponenten unseres hybriden NEC-Systems verfügbar Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 19
Gaussian 09 Programmpaket zur Berechnung der elektronischen Struktur von Molekülen ab-initio und semiempirische Verfahren verschiedene Methoden der Dichtefunktionaltheorie (DFT) SMP-parallelisiert für beide Komponenten unseres hybriden NEC-Systems verfügbar Vergleichsberechnungen: SX-9 zu SX-ACE SX-ACE zu SandyBridge-Prozessoren Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 20
Gaussian 09 Programmpaket zur Berechnung der elektronischen Struktur von Molekülen ab-initio und semiempirische Verfahren verschiedene Methoden der Dichtefunktionaltheorie (DFT) SMP-parallelisiert für beide Komponenten unseres hybriden NEC-Systems verfügbar Vergleichsberechnungen: SX-9 zu SX-ACE SX-ACE zu SandyBridge-Prozessoren verwendete Gaussian-Version D.01 15 verschiedene Berechnungsmethoden untersucht Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 21
Gaussian 09: Vergleich SX-9 und SX-ACE alle Berechnungen laufen auf SX-ACE schneller Performancesteigerungen liegen im Bereich von 10 % bis 40 % Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 22
Gaussian 09: Vergleich SX-ACE und SandyBridge nahezu alle Berechnungen auf SX-ACE schneller DFT-Berechnungen um Faktor 2-4 schneller Ausnahme: eine Dichteberechnung 6% langsamer weiterer Vorteil: Checkpointing möglich Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 23
Gaussian 09: Zusammenfassung Gaussian weiterhin eine sehr gute Performance für unsere Benutzer kein Nachteil: max. Nutzung von 4 Cores geringerer Hauptspeicher im Vergleich zur SX-9 Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 24
NEMO Nucleus for European Modelling of the Ocean globales Ozeanmodell zur Modellierung der Ozeandynamik und der Biogeochemie des Ozeans zwei verschiedene Code-Versionen untersucht Version 3.2 Version 3.4 Variante: NEMO-ORCA 0.25 Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 25
NEMO 3.2: Vergleich SX-9 und SX-ACE Zeit time-stepping [sek] 900 800 700 600 500 400 300 200 100 SX-9 0 0 4 8 16 32 48 64 96 128 160 192 Anzahl Knoten bzw. CPUs (SX-9) Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 26
NEMO 3.2: Vergleich SX-9 und SX-ACE Zeit time-stepping [sek] 900 800 700 600 500 400 300 200 100 SX-9 SX-ACE (ppn=4) 0 0 4 8 16 24 32 48 64 96 128 160 192 Anzahl Knoten bzw. CPUs (SX-9) Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 27
NEMO 3.2: Vergleich SX-9 und SX-ACE Zeit time-stepping [sek] 900 800 700 600 500 400 300 200 100 SX-9 SX-ACE (ppn=4) SX-ACE (ppn=1) 0 0 4 8 16 24 32 48 64 96 128 160 192 Anzahl Knoten bzw. CPUs (SX-9) Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 28
NEMO 3.2: Striping ScaTeFS: Dateien standardmäßig im non-stripe Format Input-Dateien im stripe-format Performancegewinn Nemo 3.2: geeignete Parameter stripesize: 512 KB chunksize: 4 MB Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 29
NEMO 3.2: SX-ACE Zeit time-stepping [sek] 500 450 400 350 300 250 200 150 100 50 0 0 8 16 24 32 48 64 96 128 160 192 224 Anzahl Knoten SX-ACE (ppn=4) SX-ACE (ppn=1) SX-ACE (ppn=1), striping Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 30
NEMO 3.2: Vergleich SX-ACE und CRAY XC30 Zeit time-stepping [sek] 1600 1400 1200 1000 800 600 400 200 SX-ACE (ppn=1) 0 0 4 8 16 32 64 128 160 Anzahl Knoten Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 31
NEMO 3.2: Vergleich SX-ACE und CRAY XC30 Zeit time-stepping [sek] 1600 1400 1200 1000 800 600 400 200 SX-ACE (ppn=1) E5-2695v2 (ppn=24) 0 0 4 8 16 32 64 128 160 Anzahl Knoten Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 32
NEMO 3.2: Vergleich SX-ACE und CRAY XC30 Zeit time-stepping [sek] 1600 1400 1200 1000 800 600 400 200 SX-ACE (ppn=1) E5-2695v2 (ppn=24) E5-2695v2 (ppn=6) 0 0 4 8 16 32 64 128 160 Anzahl Knoten Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 33
SX-ACE: Vergleich NEMO 3.2 und 3.4 700 Zeit time-stepping [sek] 600 500 400 300 200 100 0 0 8 16 24 32 48 64 96 128 160 192 224 NEMO 3.2 NEMO 3.4 Anzahl Knoten 8 16 24 32 48 64 96 128 160 192 224 NEMO 3.2 472 259 190 157 124 103 92 84 81 79 79 NEMO 3.4 652 349 252 200 155 125 105 93 89 85 82 Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 34
NEMO 3.4: Vergleich SX-ACE und CRAY XC30 2500 Zeit time-stepping [sek] 2000 1500 1000 500 SX-ACE (ppn=1) 0 0 4 8 16 32 64 128 160 224 256 Anzahl Knoten Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 35
NEMO 3.4: Vergleich SX-ACE und CRAY XC30 2500 Zeit time-stepping [sek] 2000 1500 1000 500 SX-ACE (ppn=1) E5-2695v2 (ppn=24) 0 0 4 8 16 32 64 128 160 224 256 Anzahl Knoten Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 36
NEMO 3.4: Vergleich SX-ACE und CRAY XC30 2500 Zeit time-stepping [sek] 2000 1500 1000 500 SX-ACE (ppn=1) E5-2695v2 (ppn=24) E5-2695v2 (ppn=6) 0 0 4 8 16 32 64 128 160 224 256 Anzahl Knoten Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 37
NEMO 3.4: Vergleich SX-ACE und CRAY XC30 4 8 16 32 64 128 160 224 256 NEC SX-ACE (1 Core/Knoten) 652 349 252 200 125 89 82 E5-2695v2 (24 Cores/Knoten) 1005 545 319 227 163 143 148 150 E5-2695v2 (6 Cores/Knoten) 2329 1098 567 307 186 146 125 134 Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 38
NEMO: SX-ACE Performance Gesamtperformance [GFlops] 1.400 1.200 1.000 800 600 400 200 0 0 8 16 24 32 48 64 96 128 160 192 224 Anzahl Knoten NEMO 3.2 NEMO 3.4 Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 39
NEMO: Zusammenfassung läuft auch weiterhin sehr gut auf der SX-ACE Architektur hohe Einzelprozessor-Performance bis zu 20 GFlops/Core Vektorisierungsgrad > 99,6% profitiert sehr von hoher Speicherbandbreite sehr gutes Skalierungsverhalten SX-ACE Rechenzeiten mit aktuellen Clusterprozessoren bisher nicht erreichbar Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 40
NEC SX-ACE und Energieverbrauch NEC SX-9 reine Luftkühlung Stromverbrauch pro Knoten: max. Wert bei Volllast: 31 kw Normalbetrieb: 27 kw 162 kw für 6 SX-9 Knoten mit 9,6 TFlops Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 41
NEC SX-ACE und Energieverbrauch NEC SX-9 reine Luftkühlung Stromverbrauch pro Knoten: max. Wert bei Volllast: 31 kw Normalbetrieb: 27 kw 162 kw für SX-9 Knoten mit 9,6 TFlops NEC SX-ACE hybrides Kühlungssystem Stromverbrauch pro Rack (64 Knoten): max. Wert bei Volllast: 16 kw 64 kw für 256 Knoten mit 65,6 TFlops Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 42
Hybrides NEC SX-ACE System: Erstes Fazit bisher sehr zufrieden mit der Leistungsfähigkeit der SX-ACE Knoten Fortführung eines hybriden Rechnersystem wird von Benutzern sehr gut angenommen: neue Benutzergruppen auf beiden Systemarchitekturen Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 43
Acknowledgement Thanks to Markus Scheinert (GEOMAR) Christian Gradert (Institut für Anorganische Chemie, CAU) Jens-Olaf Beismann (NEC) Dr. Simone Knief; ZKI-Arbeitskreis Supercomputing, Kiel 17.03.2015 44