Einwicklung vom ersten Top500 Rechner bis zum AHRP HPC - AHRP - ZKI Markus Tacke, ZDV, Universität Mainz AK Supercomputer Kaiserslautern 19.4.2012
ZDV: CC NUMA 1.1.1995: Convex SPP1000/16 16 PA Risc 7100 @100MHZ 1 GB Memory SPP-UX 4 Organisiert als 2 Nodes á 8 CPUs und 512 MB Memory Latenz: 500ns/2µs Bandbreite: 4x600MB/sek, GaAs 3,2 GF Peak, 1,653 GF Linpack
ZDV: CC NUMA 1.1.1996: Convex SPP1200 XA/48 48 PA Risc 7200@120MHz 6 GB Memory SPP-UX5 Organisiert als 6 Nodes á 8 CPUs und 1GB Memory Latenz: 500ns/2µs Bandbreite: 4x600MB/sek, GaAs 11,52 GF Peak, 5,66 GF Linpack, Top500: Platz 298(191)/11-1995, 243/6-1996
ZDV: CC NUMA 30.7.1997: HP X/48 (Convex SPP2000-XA/48) 48 PA Risc 8000@180MHZ 6 GB Memory SPP-UX5 Organisiert als 3 Nodes á 16 CPUs und 2GB Memory Latenz: 500ns/2µs Bandbreite: (2x) 8x 600MB/sek, CMOS 34,5 GF Peak, 22,3 GF Linpack, Top500: Platz 144(141)/11-1997
ZDV: CC NUMA 10.1.2000: HP V2500-SCA/32 32 PA Risc 8500@440MHz 16 GB Memory HP-UX11 Organisiert als 2 Nodes á 16 CPUs und 8 GB Memory Latenz: 500ns/2µs Bandbreite: (2x) 8x 600MB/sek, CMOS 56,3 GF Peak, 31,6 GF Linpack,
ZDV: CC NUMA 1.5.2002: HP Superdome/32 PA8700/750 32 CPUs 750 MHz PA-Risc 8700 64 GB Memory HP-UX11 Organisiert als 8 Nodes á 4 CPUs und 8GB Memory Interconnect 2Stufiger Crossbar, Latenz: 212ns /366nsec Bandbreite/crossbar: 5,2GB/sek 96 GF Peak, 67,2 GF Linpack
ZDV: DM Cluster 1.2.2004: LC1 84 Knoten dual 1.8 Ghz Opteron, 2 Vorrechner MSI K1000D (baugleich IBM E-Server 325) 336GB Memory: 32x2GB, 36x4GB, 16x 8GB Memoy Vernetzung 4 Gbit Ethernet, 1xWartungsnetz, 3xFNN Latenz 35µsec, Bandbreite 100MB/s SLES 8 + Mgmt Software 604,8 GF Peak, 406 GF Linpack
ZDV: DM Cluster 1.4.2007: LC2 110 Knoten dual dualcore 2.6GHz Opteron, 2 Vorrechner Sun X2200M2 1200GB Memory: 86x8GB, 16x16GB, 8x32GB Vernetzung: 1x DDR Infiniband (MPI) 1x Gbit (Wartung, normale Kommunikation) Latenz: 3.36 µs, Bandbreite: 1,44 GB/s SLES 10+ Mgmt Software 2,288 TFlops Peak, 1,932 TFlops Linpack
ZDV: DM Cluster 1.4.2009: LC2(Upgrade) 134 Knoten dual quadcore 2.7GHz Opteron, 2 Vorrechner Sun X2200M2 2656 GB Memory: 86x8GB, 16x16GB, 8x32GB Vernetzung: 1x DDR Infiniband (MPI) 1x Gbit (Wartung, normale Kommunikation) Latenz: 3.36 µs, Bandbreite: 1,44 GB/s SLES 10+ Mgmt Software 11,578 TFlops Peak, >8.1 TFlops Linpack
Gigaflops HPC Leistung im ZDV seit 1995 100000 10000 Peak/system Linpack/system 1000 100 10 1 01.01.1994 01.01.1998 01.01.2002 01.01.2006 01.01.2010
Erweiterungen Cluster LC2 seit 2009 durch verschiedene Arbeitsgruppen erweitert Arbeitsgruppen sind Eigentümer: eigene Queues im gemeinsamen LSF teilweise Lastübername bei Unterausnutzung Unterschiedliche Architekturen 2p und 4p GigE und IB (beide mit zentralem Netzverbunden) Intel Harpertown, Nehalem und Westmere AMD Magny Cours und Interlagos Integration in ZDV Clustermgmt 1088 Cores 3412 Cores 11,75 TF Peak 36,8 TF Peak Zusätzliche HPC Resourcen an der Uni Mainz Mehrere Cluster im ZDV gehostet oder auf dem Campus Insgesamt über 34 TF Peak Einige kleine GPU Testcluster 12
Gigaflops HPC Leistung auf dem Campus 100000 10000 Peak/system Linpack/system Total (N+(N-1)) Sum of Campus- Compute-Clusters 1000 100 10 1 01.01.1994 01.01.1998 01.01.2002 01.01.2006 01.01.2010 01.01.2014
Analyse des Zielsystemes (1) Orientierung am Bedarf der Hauptkunden (Geldgeber für ca 75%) Beispiele: Kondensierte Materie: Monte Carlo Simulationen: Hauptlast Throughput, VIELE Single P. jobs Aber auch SMP mit großem Memory, Paralleljobs mit MD Programmen GPUs teilweise, extrem fortgeschrittene Programmierung, Consumer grade LHC Analyse: I/O Bound, viele single P. Jobs gleichzeitig, OS Constrains Monte Carlo Produktion: Viele single P. Jobs, CPU bound GEOLOGIE Finite Elemente oder F. Differenzen Verfahren, anspruchsvolle Paralleljobs Gewinn durch große SMPs Earth System Modelling Große Paralleljobs, teilweise hohe I/O Anforderungen Diverse Anwender von NGS basierter Gen (o.ä) Analyse Sehr unterschiedliches Verhalten der Programme: Jobfarming, MPI Programme aber auch SMP Programme mit SEHR großem Speicherbedarf, I/O Probleme 14
Analyse des Zielsystemes (2) Hauptkriterium aller Anwender: Durchsatz, nur mäßiger Fokus auf MPI parallele Jobs mit N(CPUs) >> 100 Auswahl von vier Benchmarks nach Nutzerprofil HEPspec (für LHC) leicht modifiziert auf unsere OS-Anforderungen SPECrate werte mit vorgeschriebener Baseoptimierung und GCC 4.6.1 MC Hardwareflags erlaubt Festkörperphysik Monte Carlo Simulation, Programm des größten Kunden HPL Wert für das gesamte Cluster keine Messung gefordert, sondern Leistungszusage Unterschiedlicher Hauptspeicher ca. 80% mit 2GB/(Core/HW-Thread), ca. 20% mit 4GB/Core 15 Rechner mit 512GB Diverse Vorteile in 4 Sockel SMP Rechnern =>Leistungsplus von 1,1 von 2 Sockelrechnern gefordert Schnelles Netz mit QDR IB, Full Fat Tree bis 648 Ports, darüber 2:1 Blocking Mindestens 2 Disks, 2TB insgesamt pro Knoten 15
Software Scientific Linux >= 6.2 Cluster Management Software LSF 8.x Koppelung an KL via LSF Multicluster Softwareentwicklung: 5+x Compiler, Debugger Mathematica, Matlab, R, 16
Verfahren Aufteilung in verschiedene Beschaffungen ca 80% CPU Cluster - Beschaffung Anfang 2012 Intel und AMD sollten neue Generation haben ca 10 % paralleler Fileserver - Beschaffung Anfang bis Mitte 2012 >> 500 TB, > 10GB/sek I/O ca 10 % GPU cluster Beschaffung Ende 2012 bis Anfang 2013 Nächste Generation erst dann verfügbar Dient dem campusweiten Einstieg in GPU Technik Verfahren: EU weite Ausschreibung im Verhandlungsverfahren. Verhandlungsverfahren Arbeitsintensiver und langsamer, erlaubt aber Anpassung an unterschiedliche Technikparameter, z.b.: Intel oder AMD 2S gegen 4S Infiniband Optionen Taktfrequenz gegen Throughput 17
Entscheidung Megware ausgewählt 535 4 Wege SMP mit AMD Opteron 6272 (16C, 2,1 GHz) 424 mit 128 GB, 96 mit 256 GB, 15 mit 512 GB Alle mit QDR Infiniband Alle mit 2x 1TB disk 34240 Cores 2 Master Rechner, redundant 2 Login Rechner QDR Infiniband von Mellanox, Full Fat Tree Topology 18 Spine- und 33 Edge Switches (55 Ports frei für Fileserver, Erweiterungen ) Rittal Water cooled Racks mit bis zu 54 KW Kühlleistung(ZDV) Rittal Power Distribution mit Auslesemöglichkeit pro 16A Sicherung Überspannungsfeinschutz integriert Notabschaltung bei Übertemperatur 18
Gigaflops HPC Leistung auf dem Campus 1000000 100000 10000 Peak/system Linpack/system Total (N+(N-1)) Campus Peak summe 1000 100 10 1 01.01.1994 01.01.1998 01.01.2002 01.01.2006 01.01.2010 01.01.2014
AHRP High Speed link Sofort 10 Gbit via RLP Netz In Realisierung: 12 Farben für 12x10 Gbit direkt zwischen den Ausgangsroutern der Cluster Evtl Option: stattdessen 3x 40 Gbit Höhere Datenrate für wenige Datenströme Ziel: gegenseitige Übernahme von Jobs auch mit großer Datenmenge 20
Als Vorabvision 21