Supercomputer Blue Gene/L

Ähnliche Dokumente
BlueGene. Seminarvortrag WS 2004/05 Sven Kapferer Lehrstuhl für Rechnerarchitektur Universität Mannheim

Rechnerarchitektur. Beispielarchitekturen: IBM BlueGene

Spielst du noch oder rechnest du schon?

ModProg 15-16, Vorl. 13

Das HLRN-System. Peter Endebrock, RRZN Hannover

Distributed Memory Computer (DMC)

Ein kleiner Einblick in die Welt der Supercomputer. Christian Krohn

Linux in allen Lebenslagen. Diskless Cluster und Lustre Erfahrungsbericht zum CHiC. Frank Mietke. Chemnitzer Linux-Tage 2007

Ruprecht-Karls-Universität Heidelberg

Inhalt. Prozessoren. Curriculum Manfred Wilfling. 28. November HTBLA Kaindorf. M. Wilfling (HTBLA Kaindorf) CPUs 28. November / 9

Cell and Larrabee Microarchitecture

Orientierungsveranstaltungen 2009 Informatikstudien der Universität Wien

XSC. Reimar Bauer, Rebecca Breu. Dezember Forschungszentrum Jülich. Weihnachtsfeier, 10. Dezember

-0 FDDI-Anschluß. m 256MB. m 512 MB Memory. Parallelrechner IBM SP. HRZ Uni Marburg. Frame 2. Frame 3. Frame 1. Ethernet mit allen Knoten

Parallele Rechnerarchitektur II

Der neue Hessische Hochleistungsrechner HHLR

High Performance Computing

Embedded Linux für SoC Applikationen

Erfahrungen bei der Installation und vergleichende Messungen zu verschiedenen MPI Implementierungen auf einem Dual Xeon Cluster

HPC und paralleles Rechnen

EyeCheck Smart Cameras

Device Treiber für FlexPath- Netzwerkprozessoren

Einleitung. Dr.-Ing. Volkmar Sieh WS 2005/2006. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg

Ausblick auf den HLRN III - die neue HPC Ressource für Norddeutschland

Prof. Dr. Vincent Heuveline

Einleitung. Dr.-Ing. Volkmar Sieh. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2006/2007

CHiC Chemnitzer Hochleistungs-Linux Cluster. Stand HPC Cluster CHiC. Frank Mietke, Torsten Mehlan, Torsten Höfler und Wolfgang Rehm

Embedded VisionBox und VisionCam

Zum Aufwärmen nocheinmal grundlegende Tatsachen zum Rechnen mit reelen Zahlen auf dem Computer. Das Rechnen mit Gleitkommazahlen wird durch den IEEE

Verteidigung der Bachelorarbeit, Willi Mentzel

HLRN III - HPC Ressource für Norddeutschland

Übersicht. Einleitung. Übersicht. Architektur. Dr.-Ing. Volkmar Sieh WS 2008/2009

Auf die Plätze - fertig los! OSL Unified Virtualisation Environment

Clearspeed. Matthias Kunst.

Einleitung Performance Netzwerk Leistungsaufnahme Skalierbarkeit Sicherheit Zuverlässigkeit Kompatibilität. Ziele und Maße. Dr.-Ing.

Supercomputer - Eine einfache Einführung

Eine kurze Einführung in Rechnerarchitektur und Programmierung von Hochleistungsrechnern als zentrales Werkzeug in der Simulation

Performanceoptimierung von parallelen Programmen Die Formel 1 der Informatik. Philipp Gschwandtner, Universität Innsbruck, 28.

step Electronic GmbH

Supercomputing 2003: Nichts geht ohne Linux

Gemeinsames TUM-LMU Seminar

Next generation of Power

HPC an der Uni Mainz

PROVIGO MICROSOFT NAS 2170M

Die Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien

Wichtige Rechnerarchitekturen

Sun HPC Agenda

Towards Modular Supercomputing with Slurm

Im Bereich der Entwicklung und Herstellung von Prozessoren spielen

N Bit Binärzahlen. Stelle: Binär-Digit:

Gateway-Lösungen für die Anbindung ans Wissenschaftsnetz X-WiN, ein Update

B Einführung. 1 Historische Entwicklung. 1 Historische Entwicklung (3) 1 Historische Entwicklung (2)

Referat Seminar Innovative Architekturen. Supercomputer

Die Technik hinter IoT: Arduino, Raspberry Pi & Co.

Technische Daten. Technische Daten. Technische Daten. Betriebssystem. Prozessor. Festplattenlaufwerk. Standard-RAM. Maximaler RAM

Parallelrechner: Klassifikation. Parallelrechner: Motivation. Parallelrechner: Literatur. Parallelrechner: PC-Technologie SMP-Multiprozessorsysteme 69

Mehrprozessorarchitekturen

Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP)

Wichtige Rechnerarchitekturen

RZ.RWTH-AACHEN.DE

ZigBee Zuverlässige Datenübertragung per Funk Prozess E/A-Module, Konverter, Repeater

Computer-Generationen

Globales GPFS. ZKI-Arbeitskreises Sys Bommerholz 21. März Lothar Wollschläger

Computer-Generationen

Enterprise Computing

bluechip Modular Server Sven Müller

Hochleistungsrechnen in Darmstadt: Der Lichtenberg- Hochleistungsrechner. Dr. Andreas Wolf. Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum

Technische Grundlagen der Informatik 2 SS Einleitung. R. Hoffmann FG Rechnerarchitektur Technische Universität Darmstadt E-1

step Electronic GmbH

Übersicht. Vergleich der Spielekonsole mit dem PC. Historie der Spielekonsolen von 1976 bis 1999

CompactPCI Tualatin CPU CC7-JAZZ

Erhöhung der Ausfallsicherheit einer Mikropumpensteuerung mit Hilfe einer hierarchisch organisierten, heterogenen Controllerplattform

Embedded OS-9 auf RISC-Prozessoren von Motorola

Trend der letzten Jahre in der Parallelrechentechnik

2 Rechnerarchitekturen

. EMC Folie: 1 Prof. Dr.-Ing. Alfred Rozek Berlin. SoC. Rapid Prototyping VoIP

Aufbau und Funktionsweise eines Computers

Modelle der Parallelverarbeitung

Titelmasterformat durch Klicken bearbeiten

Manycores: Hardware und Low-Level Programmierung

Open Source - Mikrokontroller für Mixed Signal ASIC

DOAG Konferenz 2007 in Nürnberg

Übersicht. Ziele und Maße. Leistungsgrößen. Übersicht. Dr.-Ing. Volkmar Sieh WS 2008/2009. Leistungsgrößen wichtig für

ASIC-SYNTHESE DER SHAP-MIKROARCHITEKTUR

Outline. Cell Broadband Engine. Application Areas. The Cell

Performance Analysis of Computersystems

Computergrundlagen Moderne Rechnerarchitekturen

2. Der ParaNut-Prozessor "Parallel and more than just another CPU core"

The world we live in and Supercomputing in general

CLAIX Vorstellung und Technik Christian Terboven

Cell Broadband Engine

Paradigmenwechsel: Von der Rechner-zentrierten zur Informationszentrierten DV Skalierbarkeit: Erweiterung von Ressourcen ohne Erhöhung der

VOLLE KONTROLLE. Verwaltung und Administration des gesamten CoaxData-Netzwerks mit einem einzigen Gerät COAXBOX (REF )

Enterprise Computing

Computational Biology: Bioelektromagnetismus und Biomechanik

moderne Prozessoren Jan Krüger

Architektur paralleler Plattformen

NI crio - Chassis von National Instruments Preisliste

Datenblatt: TERRA PC-BUSINESS 5000 GREENLINE 539,00. Bestseller Core i5 PC. Zusätzliche Artikelbilder IT. MADE IN GERMANY

Transkript:

FH Giessen Friedberg Supercomputer Blue Gene/L Sven Wagner

Übersicht Einführung Supercomputer Begriffe Geschichte TOP500 Anwendung 2

Übersicht Blue Gene/L Historie Architektur & Packaging ASIC Netzwerk Software Anwendungsbeispiel Zusammenfassung und Fazit 3

Supercomputer Definition Was macht einen Supercomputer aus? operieren im obersten Leistungsbereich hohe Rechenleistung durch viele Prozessoren Parallelrechner Cluster mit Knoten oder Vektorrechner 4

Supercomputer Begriffe FLOPS = FLoating point OPerations per Second Anzahl der Gleitkommazahl-Operationen (Additionen oder Multiplikationen), pro Sekunde ausgeführt Intel Pentium 4 Prozessor ( 3 GHz) leistet ca 6 GFLOPS Benchmark Linpack lineare Gleichungssysteme FORTRAN aber auch C, C++, Pascal oder Java 5

Supercomputer Historie 1976 Cray-1 250 MFLOPS Los Alamos National Labartory, New Mexico (USA) 1997 Intel ASCI Red 1,338 TFLOPS Sandia National Laboratories, New Mexico (USA) 2004 Blue Gene/L 70,72 TFLOPS Lawrence Livermore National Laboratory, Kalifornien (USA) 2007 Blue Gene/L 280,6 TFLOPS Lawrence Livermore National Laboratory, Kalifornien (USA) 6

Supercomputer TOP500 Juni 2007 1. BlueGene/L: 280,6 TFLOPS Lawrence Livermore National Laboratory (USA) 131.072 PowerPC 440-Prozessoren 700 MHz 2. Jaguar (Cray TX3): 101,7 TFLOPS Oak Ridge National Lab (USA) 23.016 DC-Opteron, 2.6 GHz 3. Red Storm (Cray): 101,4 TFLOPS Sandia National Labs (USA) 26.544 DC-Opteron, 2.4 GHz 7

Supercomputer Entwicklung 8

Supercomputer Anwendungen Simulationen Echtzeit-Datenverarbeitung Off-line Datenanalyse Anwendungen in großen amerikanischen Forschungslabors 9

Blue Gene/L Historie 1999 IBM kündigt Blue Gene Projekt 5 Jahre, 100 Millionen US Dollar Investition Entwicklung eines PFLOPS skalierbaren Supercomputer 2001 Partnerschaft mit LLNL 2004 Blue Gene/L ist auf Platz 1 der TOP500 Liste 70,72 TFLOPS mit 32768 Prozessoren 2007 Blue Gene/Q bis 2010-2012 10 PFLOPS 10

Blue Gene/L Lawrence Livermore National Laboratory 11

Blue Gene/L Entwicklungsgrundsätze 10.000 parallele Prozesse => skalierbar Kosten senken Verwendung üblicher Supercomputer Software (zb. MPI) Ausfallsicherheit, Verfügbarkeit und Wartbarkeit Skalierbarkeit 12

Blue Gene/L Entwicklungsgrundsätze Komplexität und Grösse reduzieren ~25KW/rack ist Maximum für die Kühlung performance/power Verhältnis verbessern 700MHz PowerPC440 für ASIC ideal (FLOP/Watt) On chip: kompletter ASIC (SoC) ohne Hauptspeicher Off chip: Maximale Anzahl von Knoten in einem Rack 13

Blue Gene Supercomputer Blue Gene/L Customer Sites IBM Sites 14

Blue Gene/L Packaging Rack 32 Node Cards System System 64 Racks, 64x32x32 Node Card (32 chips 4x4x2) 16 compute, 0-2 IO cards 180/360 TF/s 32 TB Compute Card 2.8/5.6 TF/s 512 GB 2 chips, 1x2x1 Chip 2 processors 2.8/5.6 GF/s 4 MB 5.6/11.2 GF/s 1.0 GB 90/180 GF/s 16 GB 15

Blue Gene/L Packaging Knoten: ASIC + DRAM Bis zu 32*32*64 (skalierbar) = 65536 Knoten 5 Netzwerke verbinden Knoten-Knoten & Knoten-Welt 16

Dual Node Compute Card 206 mm (8.125 ) wide, 54mm high (2.125 ), 14 layers, single sided, ground referenced Heatsinks designed for 15W 9 x 512 Mb DRAM; 16B interface; no external termination Metral 4000 high speed differential connector (180 pins) 17

16 compute cards Supercomputer Blue Gene/L Midplane (450 pins) torus, tree, barrier, clock, Ethernet service port Ethernet- JTAG FPGA 2 optional IO cards Custom dual voltage, dc-dc converters; I2C control 32- way (4x4x2) node card 18 IO Gb Ethernet connectors through tailstock Latching and retention

Blue Gene/L Verkabelung X Cables Y Cables Z Cables 19

Blue Gene/L Link Knoten 20

Blue Gene/L Service Knoten 21

Blue Gene/L ASIC Daten 2 IBM PowerPC 440 FPU 700 MHz Torus & Ethernet Lockbox & SRAM 32 kb L1 Cache 2 kb L2 Cache 4 MB EDRAM L3 Cache ext. Hauptspeicher 512MB DRAM erweiterbar bis 2GB http://www.tcp-net.ad.jp/danbo/m/image/cbga.jpg 22

BlueGene/L System-on-a-Chip Chip Area usage Cell Count Transistor Count Placeable Objects Clock Freq. Power Dissipation Bit Count edram Bit Count esram 57M 95M 1.1M 700MHz 13W 38M 2.6M 23

Blue Gene/L ASIC technische Daten IBM CU-11 (130 nm Technologie) 11 x 11 mm 25 x 32 mm CBGA 474 pins, 328 signal 1.5/2.5 Volt 24

Blue Gene/L Netzwerke 64 x 32 x 32 drei Dimensionales Torus Global Collective Network Global Barrier and Interrupt Network I/O Network (Gigabit Ethernet) Service Network Optimiert für Parallelprogrammierung (MPI) 25

Blue Gene/L Netzwerk Verbindungen 3-D Torus verbindet alle Rechenknoten (65,536) virtual-cut-through (VCT) Routing Bandbreite 175MBit/s bidirektional hohe Bandbreite durch geringe Distanz Deadlockfrei Quelle: http://www.llnl.gov/asc/computing_resources/bluegenel/images/torus.jpg 26

Blue Gene/L Netzwerk Verbindungen Global Collective Network Broadcast Funktionalität Baumstruktur 2.8 GB Ethernet point to point messaging zwischen I/O und Rechen Knoten 27

Blue Gene/L Netzwerk Verbindungen Barriernetzwerk schützt das Gesamtsystem bei Fehlern und regelt das Abschalten der Racks Kontrollnetzwerk Booten, Überwachung und Diagnose JTAG, FPGA Control Gigabit Ethernet Integriert im ASIC Aktiv in den I/O Knoten 28

Blue Gene/L 2 Modi pro Knoten Virtual Node Mode beide Prozessoren führen je einen MPI Task aus beide Prozessoren rechnen Co Prozessor Mode ein Prozessor rechnet der andere ist für die Kommunikation zuständig (MPI) die Kommunikation der Prozessoren in einem Knoten erfolgt über den L3 Cache im ASIC (scratchpad) 29

Blue Gene/L System Software Rechenknoten Compute Node Kernel (CNK) einfache Software Anbindung an Torus und Tree Netzwerk I/O Knoten Linux Kernel (angepasst an PowerPC 440) keine Anwendungen nur System Software Anfragen von Rechenknoten 30

Blue Gene/L System Software Service Knoten Single Multiprocessor Rechner mit gängigen OS Kontrolle über das ganze System midplane Monitoring Front-End Knoten Linux Kernel GNU Tool Chain (binutils, gcc, glibc und gdb), IBM XL Compiler Login und Kontroll Rechner für Service Knoten 31

Blue Gene/L Software Übersicht 32

Blue Gene/L System Software Architektur 64 Rechenknoten und 1 I/O Knoten = pset (logisch) 33

Blue Gene/L Software Ein Programm und viele Daten Programm pro CPU einmal starten Daten aufteilen Nachrichtenaustausch zwischen Prozessen Ergebnisse sammeln 34

Blue Gene/L Software MPI (MPICH2) 3D Torus Netzwerk mit VCT Routing point to point: MPI_SEND, MPI_RECV Global broadcast tree network (Latenzzeit ~2,5µs) collectives: MPI_GATHER, MPI_SCATTER Global interrupt network (Latenzzeit ~1,5µs) fast MPI_BARRIER IBM XL Compiler XL C,XL C++,XL Fortran 35

Anwendungen On-line Datenverarbeitung 15000 Antennen in NL und D einfache Antennen univ. Einsatz versch. Sensoren versch. Anwendungen z.b. Windmessung für Windparks 6 Blue Gene/L Racks mit 37 Terabit/s WAN lofar.org Kosten ca 50 Mill. EURO 36

Supercomputer Anwendungen Biophysik am Forschungszentrum Jülich (FZJ): Proteinfaltung Quelle: Forschungszentrum Jülich, Prof. Uli Hansmann (FZJ), Dr. A. Baumgärtner (FZJ) 37

Blue Gene/L Fazit spezielle Hardware strukturierter, skalierbarer Aufbau extreme Rechenleistung hohe Kosten und Verbrauch komplexes Anwendungsgebiet 38

Quellen IBM Journal of Research and Development http://researchweb.watson.ibm.com/journal/rd49-23.html TOP500 Supercomputer Sites http://www.top500.org/ Lawrence Livermore National Laboratory http://www.llnl.gov/ Forschungszentrum Juelich http://www.fz-juelich.de/ 39