Infiniband Kopplung Heidelberg Mannheim

Infiniband Kopplung Heidelberg Mannheim Tests aktueller Komponenten und Pläne für den Ausbau S. Richling, S. Friedel (Universität Heidelberg) S. Hau, H. Kredel (Universität Mannheim) Förderträger: www.bwhpc-c5.de

Infiniband Kopplung Heidelberg Mannheim Derzeitiger Ausbau für bwgrid Cluster Mannheim Cluster Heidelberg Infiniband Entfernung 28 km Infiniband Infiniband über Ethernet über Glasfaser Infiniband (2 Gbit/sec) Ethernet (1 Gbit/sec) mit Obsidian Longbow stabil in Betrieb seit Juli 29 eine Cluster-Administration mit einem Batchsystem eine Benutzerverwaltung, die verschiedene Quellen integriert: LDAP (MA), AD (HD), Grid-Zertifikate, Shibboleth 2 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

Infiniband Kopplung Heidelberg Mannheim Latenz und Bandbreite bwgrid Latency [µsec] 35 3 25 2 15 1 5 IMB: PingPong buffer size GB Bandwidth [Mbytes/sec] 16 14 12 1 8 6 4 2 IMB: PingPong buffer size 1 GB May 213 Jun 213 Jul 213 Time [Month Year] Aug 213 Sep 213 May 213 Jun 213 Jul 213 Aug 213 Time [Month Year] Sep 213 Lichtlaufzeit (28 km) 143 µsec Latenz (Cluster) +2 µsec Latenz (MPI) 145 µsec Bandbreite (MPI) 93 MByte/sec Latenz/Bandbreite nicht gut genug für standortübergreifende Jobs 3 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

Infiniband Kopplung Heidelberg Mannheim IO Performance bwgrid Bandwidth [Mbytes/sec] 8 7 6 5 4 3 2 1 IOzone Benchmark (32 GB File in 4 MB Records) Read Write Bandwidth [Mbytes/sec] 9 8 7 6 5 4 3 2 1 MPI IO Benchmark (N Procs write N Files with 5 MB in 1 MB Records) 64 Procs 32 Procs 16 Procs 8 Procs MA MA HD MA MA HD HD HD Node Location Storage Location MA MA HD MA MA HD HD HD Node Location Storage Location Bandbreite ausreichend für Zugriff auf Storage-Systeme: Mannheim(MA) $HOME und Heidelberg(HD) $SCRATCH IO Performance nahezu unabhängig vom Zugriffsweg (Zugriff auf lokales oder entferntes Speichersystem) 4 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

bwhpc Leistungspyramide 5 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

bwforcluster Forschungsgebiete nach Standort 6 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

bwforcluster MLS&WISO Standort Heidelberg/Mannheim Forschungsschwerpunkte Molekulare Lebenswissenschaften Wirtschafts- und Sozialwissenschaften Wissenschaftliches Rechnen Projektpartner 7 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

Inifiniband Kopplung Heidelberg Mannheim Überlegungen zum Ausbau für den bwforcluster Gründe für die Fortsetzung der Kopplung: Bündelung und Ausbau von Kompetenzen (RUM, URZ, IWR) Optimale Nutzung der Rechnerräume (Platz, Betriebskosten) Erhöhte Verfügbarkeit und Ausfallsicherheit Netzwerk-Voraussetzungen für den Ausbau: Kapazität der Glasfaser ausreichend (Dark Fiber) Netzwerkkomponenten für Nutzung paralleler Kanäle nötig 4 Gbit/sec Bandbreite möglich mit aktuell verfügbaren Netzwerkkomponenten Infiniband Ethernet Durchsatzraten von aktuellen Speichersystemen sollen bedient werden (mehrere GByte/sec) Kosten für die Kopplung sollen im Rahmen bleiben Plan: Ausbau auf 4 x 4 Gbit/sec = 16 Gbit/sec 8 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

Performance Modell für verteilte Cluster Kredel et al. 212 (DOI 1.17/s45-12-213-5) Wenige Hardware-Parameter Cluster I 1 Bandbreite b E Cluster I 2 n l th b I Anzahl Kerne Performance Kern Bandbreite n l th b I Anzahl Kerne Performance Kern Bandbreite Wenige Parameter für die Anwendung #op Zahl der Rechenoperationen #b Anzahl Bytes (Datenmenge) #x Anzahl der ausgetauschten Bytes Skizze Performance Modell Laufzeit auf einem Cluster: t 1 = Rechenzeit + Kommunikation(b I ) Laufzeit auf zwei Clustern: t 2 = t 1 (mit halber Load) + Kommunikation(b E ) Ergebnis: Speedup für eine Anwendung für eine bestimmte Hardware 9 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

Standortübergreifende MPI Performance Erwartungen für bwforcluster nach dem Performance Modell 12 1 8 HPL (matrix size 4) inter cluster bandwidth 1 GB/sec 5 GB/sec 1 GB/sec speedup 6 4 2 2 4 6 8 1 number of cores Ergebnis für kommunikationsintensive Anwendungen: Lineare Skalierung bis etwa n = 1 für b E = 1 GByte/sec. 1-fache Bandbreite erhöht die Skalierbarkeit um Faktor 3. Standortübergreifende Jobs für bestimmte Anwendungen sinnvoll? 1 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

Infiniband über größere Entfernungen Technische Möglichkeiten Mellanox MetroX Long Haul Series Infiniband über Ethernet über Glasfaser 56 Gbit/sec Infiniband 4x1 Gbit/sec Ethernet Obsidian Longbow C-Series Infiniband über Ethernet über Glasfaser QDR Infiniband 4x1 Gbit/sec Ethernet Wellenlängenmultiplexer zur Nutzung mehrerer Farbkanäle (Bildquelle: Pan DaCom) 11 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

Teststellung mit Mellanox Aufbau (September 213) Mellanox MetroX TX61 Switche (bis 1 km) Pan Dacom DWDM System SPEED-OTS-5 HPC-Cluster Helics3a (IWR, Universität Heidelberg) 32 Knoten mit 4 x 8 Core AMD Opteron Mellanox 4G QDR single 4 Knoten verbunden über MetroX (1 x 4 Gbit/sec) Test-Entfernungen: 1 km, 2 km, 33 km Remote-Unterstützung durch Mellanox Entwickler 12 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

Teststellung mit Mellanox Konfiguration (PoC) 4 Gbit/s Infiniband --> 4 x 1 Gbit/s --> DWDM? SPEED-WDM System XFP/ DWDM SFP+ XFP Ch 34-41 127 nm - km (Back to Back) - 2 km - 4 km - 6 km - 8 km Test Traffic HPC? QSFP? Mellanox Metro X QSFP-LR CWDM MUX SCWDM-161 SCWDM-81E 129 nm 131 nm 133 nm Transponder 3R - SSL XFP - SSL XFP 3R - SDL 1G - SDL 16G DWDM MUX SDWDM-81E-34/41 Faser - Fasertrommel oder - Freie Kanäle Dämpfung (Mannheim - Heidelberg) - AOC Kabel - MPO Crossover Kabel - FAN OUT Kabel - LC Duplex - Patchkabel - Patchkabel LC-LC - Patchkabel LC-LC - Patchkabel LC-LC 13 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

Teststellung mit Mellanox Ergebnis Latenz und Bandbreite Latency [µsec] 2 15 1 5 MetroX bwgrid IMB: PingPong 5 1 15 2 25 3 35 Distance [km] Bandwidth [MByte/sec] 3 25 2 15 1 5 local 1 km 2 km 33 km IMB: PingPong 1 1 2 1 4 1 6 1 8 Message size [byte] Latenz für 33 km wie erwartet hoch. MPI-Bandbreite bei 1 x 4 Gbit/sec: 2.6 GByte/sec bis 33 km Erwartung MPI-Bandbreite bei 4 x 4 Gbit/sec: 1 GByte/sec 14 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

Teststellung mit Obsidian Aufbau (April 214) Obsidian Longbow C4 Pan Dacom SPEED-CWDM 161 HPC-Cluster Helics3a (IWR, Universität Heidelberg) 32 Knoten mit 4 x 8 Core AMD Opteron Mellanox 4G QDR single 4 Knoten verbunden über Obsidian Longbow (1 x 4 Gbit/sec) Test-Entfernung: 33 km 15 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

Teststellung mit Obsidian Ergebnis Latenz und Bandbreite latency [µsec] 2 15 1 5 IMB Ping-Pong Obsidian test bwgrid 5 1 15 2 25 3 35 distance [km] bandwidth [MByte/sec] 3 25 2 15 1 5 local 33 km IMB Ping-Pong 1 1 2 1 4 1 6 1 8 message size [byte] Latenz für 33 km wie erwartet hoch. MPI-Bandbreite bei 1 x 4 Gbit/sec: 2.6 GByte/sec bis 33 km Erwartung MPI-Bandbreite bei 4 x 4 Gbit/sec: 1 GByte/sec 16 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

Vergleich der Teststellungen Ergebnisse Bandbreite bandwidth [MByte/sec] 3 25 2 15 1 5 IMB Ping-Pong local 33 km Obsidian 33 km Mellanox single job 1 1 2 1 4 1 6 1 8 message size [byte] bandwidth [MByte/sec] 3 25 2 15 1 5 IMB Ping-Pong local 33 km Obsidian 33 km Mellanox 4 jobs at the same time 1 1 2 1 4 1 6 1 8 message size [byte] Software gleich: IMB 3.2, Intel Compiler 13.1.2, OpenMPI 1.6.4 1 Job: Bandbreite gleich, kleine Abweichung bei hoher Paketgröße 4 Jobs gleichzeitig: Bandbreite innerhalb der Fehlergrenzen gleich, Sättigung der Leitung erreicht 17 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim

Zusammenfassung Infiniband Kopplung zum Betrieb eines verteilten Clusters stabil und dauerhaft möglich Fortführung des Konzeptes für neuen Cluster Teststellungen mit aktueller Technik Funktionstests für 1 x 4 Gbit/sec mit Technik von Mellanox und Obsidian durchgeführt Ergebnis: Beide Techniken sind für uns einsetzbar. Offene Punkte Lasttest über längeren Zeitraum Lastverteilung bei 4 x 4 Gbit/sec Verhalten im Produktionsbetrieb 18 ZKI AK Supercomputing 22.9.214 Infiniband Kopplung Heidelberg Mannheim