FH Giessen Friedberg Supercomputer Blue Gene/L Sven Wagner
Übersicht Einführung Supercomputer Begriffe Geschichte TOP500 Anwendung 2
Übersicht Blue Gene/L Historie Architektur & Packaging ASIC Netzwerk Software Anwendungsbeispiel Zusammenfassung und Fazit 3
Supercomputer Definition Was macht einen Supercomputer aus? operieren im obersten Leistungsbereich hohe Rechenleistung durch viele Prozessoren Parallelrechner Cluster mit Knoten oder Vektorrechner 4
Supercomputer Begriffe FLOPS = FLoating point OPerations per Second Anzahl der Gleitkommazahl-Operationen (Additionen oder Multiplikationen), pro Sekunde ausgeführt Intel Pentium 4 Prozessor ( 3 GHz) leistet ca 6 GFLOPS Benchmark Linpack lineare Gleichungssysteme FORTRAN aber auch C, C++, Pascal oder Java 5
Supercomputer Historie 1976 Cray-1 250 MFLOPS Los Alamos National Labartory, New Mexico (USA) 1997 Intel ASCI Red 1,338 TFLOPS Sandia National Laboratories, New Mexico (USA) 2004 Blue Gene/L 70,72 TFLOPS Lawrence Livermore National Laboratory, Kalifornien (USA) 2007 Blue Gene/L 280,6 TFLOPS Lawrence Livermore National Laboratory, Kalifornien (USA) 6
Supercomputer TOP500 Juni 2007 1. BlueGene/L: 280,6 TFLOPS Lawrence Livermore National Laboratory (USA) 131.072 PowerPC 440-Prozessoren 700 MHz 2. Jaguar (Cray TX3): 101,7 TFLOPS Oak Ridge National Lab (USA) 23.016 DC-Opteron, 2.6 GHz 3. Red Storm (Cray): 101,4 TFLOPS Sandia National Labs (USA) 26.544 DC-Opteron, 2.4 GHz 7
Supercomputer Entwicklung 8
Supercomputer Anwendungen Simulationen Echtzeit-Datenverarbeitung Off-line Datenanalyse Anwendungen in großen amerikanischen Forschungslabors 9
Blue Gene/L Historie 1999 IBM kündigt Blue Gene Projekt 5 Jahre, 100 Millionen US Dollar Investition Entwicklung eines PFLOPS skalierbaren Supercomputer 2001 Partnerschaft mit LLNL 2004 Blue Gene/L ist auf Platz 1 der TOP500 Liste 70,72 TFLOPS mit 32768 Prozessoren 2007 Blue Gene/Q bis 2010-2012 10 PFLOPS 10
Blue Gene/L Lawrence Livermore National Laboratory 11
Blue Gene/L Entwicklungsgrundsätze 10.000 parallele Prozesse => skalierbar Kosten senken Verwendung üblicher Supercomputer Software (zb. MPI) Ausfallsicherheit, Verfügbarkeit und Wartbarkeit Skalierbarkeit 12
Blue Gene/L Entwicklungsgrundsätze Komplexität und Grösse reduzieren ~25KW/rack ist Maximum für die Kühlung performance/power Verhältnis verbessern 700MHz PowerPC440 für ASIC ideal (FLOP/Watt) On chip: kompletter ASIC (SoC) ohne Hauptspeicher Off chip: Maximale Anzahl von Knoten in einem Rack 13
Blue Gene Supercomputer Blue Gene/L Customer Sites IBM Sites 14
Blue Gene/L Packaging Rack 32 Node Cards System System 64 Racks, 64x32x32 Node Card (32 chips 4x4x2) 16 compute, 0-2 IO cards 180/360 TF/s 32 TB Compute Card 2.8/5.6 TF/s 512 GB 2 chips, 1x2x1 Chip 2 processors 2.8/5.6 GF/s 4 MB 5.6/11.2 GF/s 1.0 GB 90/180 GF/s 16 GB 15
Blue Gene/L Packaging Knoten: ASIC + DRAM Bis zu 32*32*64 (skalierbar) = 65536 Knoten 5 Netzwerke verbinden Knoten-Knoten & Knoten-Welt 16
Dual Node Compute Card 206 mm (8.125 ) wide, 54mm high (2.125 ), 14 layers, single sided, ground referenced Heatsinks designed for 15W 9 x 512 Mb DRAM; 16B interface; no external termination Metral 4000 high speed differential connector (180 pins) 17
16 compute cards Supercomputer Blue Gene/L Midplane (450 pins) torus, tree, barrier, clock, Ethernet service port Ethernet- JTAG FPGA 2 optional IO cards Custom dual voltage, dc-dc converters; I2C control 32- way (4x4x2) node card 18 IO Gb Ethernet connectors through tailstock Latching and retention
Blue Gene/L Verkabelung X Cables Y Cables Z Cables 19
Blue Gene/L Link Knoten 20
Blue Gene/L Service Knoten 21
Blue Gene/L ASIC Daten 2 IBM PowerPC 440 FPU 700 MHz Torus & Ethernet Lockbox & SRAM 32 kb L1 Cache 2 kb L2 Cache 4 MB EDRAM L3 Cache ext. Hauptspeicher 512MB DRAM erweiterbar bis 2GB http://www.tcp-net.ad.jp/danbo/m/image/cbga.jpg 22
BlueGene/L System-on-a-Chip Chip Area usage Cell Count Transistor Count Placeable Objects Clock Freq. Power Dissipation Bit Count edram Bit Count esram 57M 95M 1.1M 700MHz 13W 38M 2.6M 23
Blue Gene/L ASIC technische Daten IBM CU-11 (130 nm Technologie) 11 x 11 mm 25 x 32 mm CBGA 474 pins, 328 signal 1.5/2.5 Volt 24
Blue Gene/L Netzwerke 64 x 32 x 32 drei Dimensionales Torus Global Collective Network Global Barrier and Interrupt Network I/O Network (Gigabit Ethernet) Service Network Optimiert für Parallelprogrammierung (MPI) 25
Blue Gene/L Netzwerk Verbindungen 3-D Torus verbindet alle Rechenknoten (65,536) virtual-cut-through (VCT) Routing Bandbreite 175MBit/s bidirektional hohe Bandbreite durch geringe Distanz Deadlockfrei Quelle: http://www.llnl.gov/asc/computing_resources/bluegenel/images/torus.jpg 26
Blue Gene/L Netzwerk Verbindungen Global Collective Network Broadcast Funktionalität Baumstruktur 2.8 GB Ethernet point to point messaging zwischen I/O und Rechen Knoten 27
Blue Gene/L Netzwerk Verbindungen Barriernetzwerk schützt das Gesamtsystem bei Fehlern und regelt das Abschalten der Racks Kontrollnetzwerk Booten, Überwachung und Diagnose JTAG, FPGA Control Gigabit Ethernet Integriert im ASIC Aktiv in den I/O Knoten 28
Blue Gene/L 2 Modi pro Knoten Virtual Node Mode beide Prozessoren führen je einen MPI Task aus beide Prozessoren rechnen Co Prozessor Mode ein Prozessor rechnet der andere ist für die Kommunikation zuständig (MPI) die Kommunikation der Prozessoren in einem Knoten erfolgt über den L3 Cache im ASIC (scratchpad) 29
Blue Gene/L System Software Rechenknoten Compute Node Kernel (CNK) einfache Software Anbindung an Torus und Tree Netzwerk I/O Knoten Linux Kernel (angepasst an PowerPC 440) keine Anwendungen nur System Software Anfragen von Rechenknoten 30
Blue Gene/L System Software Service Knoten Single Multiprocessor Rechner mit gängigen OS Kontrolle über das ganze System midplane Monitoring Front-End Knoten Linux Kernel GNU Tool Chain (binutils, gcc, glibc und gdb), IBM XL Compiler Login und Kontroll Rechner für Service Knoten 31
Blue Gene/L Software Übersicht 32
Blue Gene/L System Software Architektur 64 Rechenknoten und 1 I/O Knoten = pset (logisch) 33
Blue Gene/L Software Ein Programm und viele Daten Programm pro CPU einmal starten Daten aufteilen Nachrichtenaustausch zwischen Prozessen Ergebnisse sammeln 34
Blue Gene/L Software MPI (MPICH2) 3D Torus Netzwerk mit VCT Routing point to point: MPI_SEND, MPI_RECV Global broadcast tree network (Latenzzeit ~2,5µs) collectives: MPI_GATHER, MPI_SCATTER Global interrupt network (Latenzzeit ~1,5µs) fast MPI_BARRIER IBM XL Compiler XL C,XL C++,XL Fortran 35
Anwendungen On-line Datenverarbeitung 15000 Antennen in NL und D einfache Antennen univ. Einsatz versch. Sensoren versch. Anwendungen z.b. Windmessung für Windparks 6 Blue Gene/L Racks mit 37 Terabit/s WAN lofar.org Kosten ca 50 Mill. EURO 36
Supercomputer Anwendungen Biophysik am Forschungszentrum Jülich (FZJ): Proteinfaltung Quelle: Forschungszentrum Jülich, Prof. Uli Hansmann (FZJ), Dr. A. Baumgärtner (FZJ) 37
Blue Gene/L Fazit spezielle Hardware strukturierter, skalierbarer Aufbau extreme Rechenleistung hohe Kosten und Verbrauch komplexes Anwendungsgebiet 38
Quellen IBM Journal of Research and Development http://researchweb.watson.ibm.com/journal/rd49-23.html TOP500 Supercomputer Sites http://www.top500.org/ Lawrence Livermore National Laboratory http://www.llnl.gov/ Forschungszentrum Juelich http://www.fz-juelich.de/ 39