Parallele Rechnerarchitektur II

Transkript

1 Parallele Rechnerarchitektur II Stefan Lang Interdisziplinäres Zentrum für Wissenschaftliches Rechnen Universität Heidelberg INF 368, Raum 532 D-692 Heidelberg phone: 622/ WS /2 Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 / 37

2 Parallele Rechnerarchitektur II Multiprozessor Architekturen Nachrichtenaustausch Netzwerktopologien Architekturbeispiele Routing TOP 5 TOP2 Architekturen Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 2 / 37

3 Kommunikationsarchitekturen Speicher Speicher Speicher CPU CPU CPU CPU CPU CPU Speicher Speicher Speicher Verbindungsnetzwerk (a) verteilte Speicherorganisation, lokaler Adressraum Verbindungsnetzwerk (b) verteilte Speicherorganisation, globaleradressraum CPU CPU CPU CPU CPU CPU Verbindungsnetzwerk Verbindungsnetzwerk Speicher Speicher (c) zentrale Speicherorganisation, (d) zentrale Speicherorganisation, lokaler Adressraum globaleradressraum architecture types distinguished by memory organization Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 3 / 37

4 Einteilung von MIMD-Architekturen physische Speicheranordnung gemeinsamer Speicher verteiler Speicher Adressraum global lokal Programmiermodell gemeinsamer Adressraum Nachrichtenaustausch Kommunikationsstruktur Speicherkopplung Nachrichtenkopplung Synchronisation Semaphore Barriers Latenzbehandlung Latenz verstecken Latenz minimieren Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 4 / 37

5 Distributed Memory: MP P C M P C M Verbindungsnetzwerk VN Multiprozessoren haben einen lokalen Adressraum: Jeder Prozessor kann nur auf seinen Speicher zugreifen. Interaktion mit anderen Prozessoren ausschließlich über das Senden von Nachrichten. Prozessoren, Speicher und Cache sind Standardkomponenten: Volle Ausnutzung des Preisvorteils durch hohe Stückzahlen. Verbindungsnetzwerk von Fast Ethernet bis Myrinet. Ansatz mit der höchsten Skalierbarkeit: IBM BlueGene > K Prozessoren Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 5 / 37

6 Distributed Memory: Message Passing Prozeße kommunizieren Daten zwischen verteilten Adreßräumen expliziter Nachrichenaustausch notwendig Sende-/Empfangsoperationen Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 6 / 37

7 Eine generische Parallelrechnerarchitektur Rechenknoten Rechenknoten CPU MEM MEM CPU I/O NI Verbindungsnetzwerk NI I/O R Daten- R I/O Knoten R leitungen R Rechenknoten I/O NI NI MEM I/O I/O I/O CPU Generischer Aufbau eines skalierbaren Parallelrechners mit verteiltem Speicher Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 7 / 37

8 Skalierbarkeit: Parameter Parameter, welche die Skalierbarkeit eines Systems bestimmen: Bandbreite [MB/s] Latenzzeit [µs] Kosten [$] Physische Größe [m 2,m 3 ] Eine skalierbare Architektur sollte harte Grenzen vermeiden! Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 8 / 37

9 Einfluß von Parallelen Architekturen? from Culler, Singh, Gupta: Parallel Computer Architecture Eine skalierbare Architekture ist Voraussetzung für skalierbares Rechnen Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 9 / 37

10 Nachrichtenaustausch Speicherblock (variabler Länge) soll von einem Speicher zum anderen kopiert werden Genauer: Vom Adressraum eines Prozesses in den eines anderen (auf einem anderen Prozessor) Das Verbindungsnetzwerk ist paketorientiert. Jede Nachricht wird in Pakete fester Länge zerlegt (z. B. 32 Byte bis 4 KByte) Nachspann Nutzdaten Kopf Kopf: Zielprozessor, Nachspann: Prüfsumme Kommunikationsprotokoll: Bestätigung ob Paket (richtig) angekommen, Flusskontrolle Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 / 37

11 Nachrichtenaustausch Schichtenmodell (Hierarchie von Protokollen): Pi_i Pi_j Betriebssystem Betriebssystem Netzwerktreiber Netzwerktreiber Netzwerk interface Netzwerk interface Verbindungsnetzwerk Modell der Übertragungszeit: t mess (n) = t s + n t b. t s : setup-zeit (latency), t b : Zeit pro Byte, /t b : Bandbreite, abh. von Protokoll Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 / 37

12 Netzwerktopologien I (a) (b) (c) (d) (e) (a) full connected, (b) star, (c) array (d) hypercube, (e) torus, (f) folded torus (f) Hypercube: der Dimension d hat 2 d Prozessoren. Prozessor p ist mit q verbunden wenn sich deren Binärdarstellungen in genau einem Bit unterscheiden. Netzwerkknoten: Früher (vor 99) war das der Prozessor selbst, heute sind es dedizierte Kommunikationsprozessoren Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 2 / 37

13 Netzwerktopologien II Kennzahlen: Netzwerktopologie Knotengrad K Leitungsanzahl L Durchmesser D Bisektionsbandbreite B Symmetrie Volle Konnektivität N N(N (N/2) 2 Ja )/2 Stern N N 2 N/2 nein 2D-Gitter 4 2N 2 2( N N nein N ) 3D-Torus 6 3N 3 N/2 2 N ja Hypercube log 2 N nn log 2 N n N/2 ja k-ärer n-cube (N = k n ) 3N n k/2 nn 2k n ja Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 3 / 37

14 Store & Forward Routing Store-and-forward routing: Nachricht der Länge n wird in Pakete der Länge N zerlegt. Pipelining auf Paketebene: Paket wird aber vollständig im NK gespeichert M M NK NK NK2 NKd NKd Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 4 / 37

15 Store & Forward Routing Übertragung eines Paketes: Quelle Ziel Zeit Routing Routing Routing Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 5 / 37

16 Store & Forward Routing Laufzeit: ( n ) t SF (n, N, d) = t s + d(t h + Nt b )+ N (t h + Nt b ) ( = t s + t h d + n )+t N b (n+n(d )). t s : Zeit, die auf Quell und Zielrechner vergeht bis das Netzwerk mit der Nachrichenübertragung beauftragt wird, bzw. bis der empfangende Prozess benachrichtigt wird. Dies ist der Softwareanteil des Protokolls. t h : Zeit die benötigt wird um das erste Byte einer Nachricht von einem Netzwerkknoten zum anderen zu übertragen (engl. node latency, hop time). t b : Zeit für die Übertragung eines Byte von Netzwerkknoten zu Netzwerkknoten. d: Hops bis zum Ziel. Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 6 / 37

17 Cut-Through Routing Cut-through routing oder wormhole routing: Pakete werden nicht zwischengespeichert, jedes Wort (sog. flit) wird sofort an nächsten Netzwerkknoten weitergeleitet Übertragung eines Paketes: Quelle Ziel Routing Routing Routing Zeit 3 2 Laufzeit: t CT (n, N, d) = t s + t h d + t b n Zeit für kurze Nachricht (n = N): t CT = t s + dt h + Nt b. Wegen dt h t s (Hardware!) quasi entfernungsunabhängig Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 7 / 37

18 Deadlock In paketvermittelnden Netzwerken besteht die Gefahr des store-and-forward deadlock: D an A C an D an B A an C B Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 8 / 37

19 Deadlock Zusammen mit cut-through routing: Verklemmungsfreies dimension routing. Beispiel 2D-Gitter: Zerlege Netzwerk in +x, x, +y und y Netzwerke mit jeweils eigenen Puffern. Nachricht läuft erst in Zeile, dann in Spalte. Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 9 / 37

20 Multi-Processor Performance from Culler, Singh, Gupta: Parallel Computer Architecture Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 2 / 37

21 Message Passing Architectures I erste Machine mit parallelem Unix Intel Paragon: Prozeßmigration, Gangscheduling Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 2 / 37

22 Message Passing Architectures II IBM SP2: Rechenknoten sind RS 6 workstations Switching Netzwerk Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 22 / 37

23 Message Passing Architectures III hohe Packungsdichte ein systemweiter Taktgeber virtual shared memory Cray T3E: Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 23 / 37

24 Top5 Top5 Benchmark: LINPACK Benchmark wird zur Evaluation der Systeme verwendet Benchmarkleistung reflektiert nicht die Gesamtleistung des Systems Benchmark zeigt Performanz bei der Lösung von dichtbesetzten linearen GLS Sehr reguläres Problem: erzielte Leistung ist sehr hoch (nahe peak performance) Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 24 / 37

25 Top of Top5 Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 25 / 37

26 Top5 key facts alle Systeme haben mehrfache TeraFlop/s Leistung. Rechner (roadrunner) hat.26 PFlop/s in LINPACK benchmark. Rechner (roadrunner) ist der Energieeffizienteste der Liste Energieverbrauchsdurchschnitt von TOP ist.32 MW und 248 MFlops/W 5. Rechner hat 9. TFlop/s in LINPACK benchmark akkumulierte Leistung ist.7 PFlop/s (4.92 PFlop/s) TOP Mindestleistung 2.97 TFlop/s (9.29 TFlop/s) 4 (8%) Systeme sind Cluster, Rest MPP Prozessortyp: Intel Harpertown 375, IBM Power 68, AMD Opteron 56 Quad core vorwiegende Chip Architektur (56%) InfiniBand Technologie in 2 Systemen Skalarprozessor 95.8%, Vectorprozessor 4.2% Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 26 / 37

27 Top5 Country + Processor Count Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 27 / 37

28 Top5 Processor + Interconnect Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 28 / 37

29 IBM Blue Gene/L Architecture Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 29 / 37

30 IBM Blue Gene/L Specification 367 teraflop/s (in symmetric mode) 84 teraflop/s (in communications co-processor mode)...peak computational rate 6 TB (6 2 4 bytes)...aggregate memory 4 TB (4 2 bytes)...aggregate global disk 4 GB/s (4 9 bytes/second)...delivered I/O bandwidth to applications,24 x -Gb/s Ethernet (in 9 bits/second)...external networking 65,536 (3,72)...Number of nodes (processors) 256 MB ( bytes)...memory per node Dual PowerPC 44...Microprocessor technology 2 MW (2 6 Watts)...Power required for computer and cooling >4,5, BTU/hr...Heat generated >5,...Cables in the machine >2 miles...aggregate cable length Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 3 / 37

31 IBM Blue Gene/L Networks Knoten verbunden über drei integrierte Netzwerke 3 Dimensional Torus Virtual cut-through hardware routing to maximize efficiency 2.8 Gb/s on all 2 node links (total of 4.2 GB/s per node) Communication backbone 34 TB/s total torus interconnect bandwidth Global Tree One-to-all or all-all broadcast functionality Arithmetic operations implemented in tree ~.4 GB/s of bandwidth from any node to all other nodes Latency of tree traversal less than usec Ethernet Incorporated into every node ASIC Disk I/O Host control, booting and diagnostics Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 3 / 37

32 Cray RedStorm Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 32 / 37

33 Cray RedStorm Configuration Normally Unclassified Switchable Nodes Normally Classified Disconnect Cabinets Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 33 / 37

34 Cray RedStorm Building Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 34 / 37

35 Cray RedStorm Compute Node DRAM (or 2) Gbyte or more ASIC = Application Specific Integrated Circuit, or a custom chip CPUs AMD Opteron ASIC NIC + Router Six Links To Other Nodes in X, Y, and Z Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 35 / 37

36 Cray RedStorm Cabinet Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 36 / 37

37 Blue Gene L vs Red Storm BGL 36 TF version, Red Storm TF version Blue Gene L Red Storm Node speed 5.6 GF 5.6 GF (x) Node memory GB 2 (-8 GB) (4x) Network latency 7 us 2 us (2/7x) Network link bw.28 GB/s 6. GB/s (22x) BW Bytes/Flops.5. (22x) Bi-Section B/F.6.38 (24x) #nodes/problem 4,, (/4x) Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 37 / 37