Message-Passing: Einführung

Transkript

1 Message-Passing: Einführung Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 1 Punkt zu Punkt Senden und Empfangen Message-Passing Mechanismus Erzeugung von Prozessen. Übertragung einer Nachricht zwischen den Prozessen durch send() und recv() Funktionen. Prozess 1 Object x;.. send (&x, 2);... Datentransfer Prozess 2 Object y;.. recv (&y, 1);... Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 2 1

2 Message Passing Interface (MPI) Bibliothek (C, C++, Fortran) für den Austausch von Nachrichten zwischen Prozessen. Prozesse werden statisch allokiert und mit 0,...,N-1 nummeriert. Jeder Prozess startet das gleiche Programm (Single Program Multiple Data - SPMD). Stellt Funktionen und Datentypen beginnend mit MPI_ bereit. (logische) Topologie ist eine Clique Jeder Prozessor kann direkt mit jedem anderen kommunizieren Kommunikatoren regeln die Kommunikation zwischen den Prozessen Jeder Prozess gehört zu mindestens einem Kommunikator Jede Nachricht wird in einem Kommunikator transportiert Kommunikatoren können beliebig neu erzeugt werden Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 3 Version 1.0: (1994) 129 MPI-Funktionen C und Fortran77 Version 1.1 Spezifikation verfeinert Version 1.2 Weitere Eindeutigkeiten MPI Versionen Version 2.0: (1997) Mehr Funktionalitäten, 193 weitere Funktionen Dynamische Generierung von Prozessen Einseitige Kommunikation MPI-Funktionen für I/O C++ und Fortran90 Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 4 2

3 SPMD Ausführungsmodell Single Program Multiple Data (SPMD) lässt sich aber auch erweitern: #include <mpi.h> main (int argc, char *argv[]) { MPI_Init(&argc, &argv); MPI_Comm_rank(MPI_COMM_WORLD, & myrank); /* find process rank */ if (myrank == 0) master(); else worker();... MPI_Finalize(); } Dabei sind master() und worker() Funktionen die durch einen Master- und ggf. mehrere Worker-Prozesse ausgeführt werden sollen. Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 5 Basisroutinen MPI_Init(int *,char ***); Startet MPI. Muss erste MPI-Routine sein, die aufgerufen wird MPI_Finalize(); Beendet MPI und schließt die Kommunikationskanäle. MPI_Comm_rank( MPI_Comm, int *) Rückgabe: Eigene Prozessnummer innerhalb Des Kommunikators. Menge von MPI-Prozessen, die Nachrichten austauschen können. MPI_COMM_WORLD enthält alle Prozesse MPI_Comm_size( MPI_Comm, int *) Rückgabe: Anzahl der Prozesse innerhalb Des Kommunikators. Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 6 3

4 Basisroutinen MPI_Send(void *, int, MPI_Datatype, int, int, MPI_Comm); Zeiger auf Message- s. Tab. Ziel- Tag s.o. Message länge pro- Im Speicher zess(or) MPI_Datatype C-Datentyp MPI_CHAR char MPI_SHORT short MPI_INT int MPI_LONG long MPI_UNSIGNED_CHAR (unsigned) char MPI_UNSIGNED_SHORT unsogned short MPI_UNSIGNED unsigned int MPI_UNSIGNED_LONG unsigned long MPI_FLOAT float MPI_DOUBLE double MPI_DOUBLE_LONG long double MPI_BYTE - MPI_PACKED - Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 7 Basisroutinen MPI_Recv(void *, int, MPI_Datatype, int, int, MPI_Comm, MPI_Status*); Zeiger auf Buffer- s. Tab. Tag s.o. Status der Message größe Sender Empfangs- Im Speicher operation MPI_ANY_SOURCE + MPI_ANY_TAG sind Wildcarts Tag und Communicator des MPI_Send und MPI_Recv müssen übereinstimmen MPI_Status enthält u.a.: status MPI_SOURCE (Sender der Nachricht) status MPI_TAG (Message-Tag) status MPI_ERROR (0, falls kein Fehler) MPI_Send/MPI_Recv blockiert (eventuell!) Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 8 4

5 MPI für Java Objekt-orientiertes Java-Interface für MPI entwickelt im HPJava Projekt mpijava 1.2 unterstützt MPI unterstützt u.a. MPICH unter Linux import mpi.*; public class MPI_HelloWorld { public static void main(string[] args) { System.out.println( Hello, world ); } } Ausführung javac MPI_HelloWorld.java prunjava 4 MPI_HelloWorld Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 9 Further MPI bindings MPI for Python and more Common LISP Ruby Perl Caml Common Language Infrastructure (CLI) Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 10 5

6 Kommunikationsmethoden buffernd bzw. nicht buffernd buffernd: Nachricht wird (beim Sender) zwischengespeichert synchron bzw. nicht synchron synchron: Programmflusskontrolle wird nicht zurückgegeben, bis die zu sendende Nachricht angekommen ist. blockierend bzw. nicht blockierend blockierend: Programmflusskontrolle wird nicht zurückgegeben, bis die zu sendende Nachricht gesichert ist, d.h. entweder beim Empfänger angekommen, oder in einem Systembuffer zwischengespeichert ist. User-Speicher ist danach wieder frei. Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 11 Send Kommunikationsmodi (1) Standard Mode Send passendes Recv muss nicht vor Send ausgeführt werden. Größe des Buffers nicht im MPI-Standard definiert. Falls Buffer genutzt, kann das Send beendet werden bevor das passende Recv erreicht ist. Buffered Mode Send kann vor dem passenden Recv starten und beenden. Speicher für Buffer muss explizit allokiert werden MPI_Buffer_attach(). Synchronous Mode Send und Recv können beliebig starten, beenden aber gemeinsam. Ready Mode Send kann nur starten, wenn passendes Recv bereits erreicht wurde. Ansonsten kommt eine Fehlermeldung. Muss mit Vorsicht eingesetzt werden. Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 12 6

7 Send Kommunikationsmodi (2) Alle vier Modi können mit einem blocking oder non-blocking Send kombiniert werden. Nur der Standardmodus ist für das blocking und non-blocking Recv möglich. Jeder Send Typ kann mit jedem Recv Typ matchen. Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 13 Beispiel: Blockierendes Senden Blockierendes Senden eines Werts x von Prozess 0 zu Prozess 1 int myrank; int msgtag = 4711; int x;... MPI_Comm_rank (MPI_COMM_WORLD, & myrank); /* find process rank */ if (myrank == 0) MPI_Send (&x, 1, MPI_INT, 1, msgtag, MPI_COMM_WORLD); else if (myrank == 1) { int status; int x; MPI_Recv (&x, 1, MPI_INT, 0, msgtag, MPI_COMM_WORLD, status); } Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 14 7

8 Non-Blocking Routinen Non-blocking Send: MPI_Isend(buf, count, datatype, dest, tag, comm, request) Kommt sofort zurück, auch wenn die zu versendenden Daten noch nicht geändert werden dürfen. Non-blocking Receive: MPI_Irecv(buf, count, datatype, dest, tag, comm, request) Kommt sofort zurück, auch wenn noch keine Daten vorliegen Beendigung durch MPI_Wait() und MPI_Test() erkennen MPI_Waits() wartet bis Operation beendet ist und kehrt danach zurück. MPI_Test() kommt sofort mit dem Zustand der Send- / Recv-routine (beendet bzw. nicht-beendet) zurück Dafür muss der request Parameter verwendet werden Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 15 Beispiel: Nichtblockierendes Senden Nichtblockierendes Senden eines Werts x von Prozess 0 zu Prozess 1, wobei Prozess 0 mit Ausführung unmittelbar fortfahren kann. int myrank; int msgtag = 4711; MPI_Comm_rank (MPI_COMM_WORLD, & myrank); /* find process rank */ if (myrank == 0) { int status; int x; MPI_Isend (&x, 1, MPI_INT, 1, msgtag, MPI_COMM_WORLD, req1); compute(); MPI_Wait (req1, status); } else if (myrank == 1) { int status; int x; MPI_Recv (&x, 1, MPI_INT, 0, msgtag, MPI_COMM_WORLD, status); }... Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 16 8

9 Kollektive Kommunikation Kommunikation innerhalb einer Gruppe aus Prozessen. Keine Message-Tags verwendet. Broadcast- und Scatter-Routinen MPI_Bcast() - Broadcast from root to all other processes MPI_Gather() - Gather values for group of processes MPI_Scatter() - Scatters buffer in parts to group of processes MPI_Alltoall() - Sends data from all processes to all processes MPI_Reduce() - Combine values on all processes to single value MPI_Reduce_Scatter() - Combine values and scatter results MPI_Scan() - Compute prefix reductions of data on processes Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 17 Kollektive Kommunikation Vorher Nachher root B MPI_BCAST B B B B root A B C D MPI_SCATTER A B C D A B C D MPI_GATHER root A B C D A B C D A B C D MPI_ALLGATHER A B C D A B C D A B C D A B C D A B C D A B C D A B C D E F G H I J K L M N O P MPI_ALLTOALL A B C D E F G H I J K L M N O P A E I M B F J N C G K O D H L P RANK Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 18 9

10 Beispiel: MPI_Gather Beachte, dass MPI_Gather von allen Prozessen inkl. Root aufgerufen werden muss! int data[10]; (* data to be gathered from processes */ MPI_Comm_rank (MPI_COMM_WORLD, & myrank); /* find process rank */ if (myrank == 0) { MPI_Comm_Size(MPI_COMM_WORLD, &grp_size); buf = (int*)malloc(grp_size*10*sizeof(int)); /* allocate memory /* } MPI_Gather (data, 10, MPI_INT, buf, grp_size*10, MPI_INT, 0, MPI_COM_WORLD);... Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 19 Einseitige Kommunikation Verfügbar in MPI Version 2 Remote Memory Access, put + get Operationen Initialisierungen MPI_Alloc_mem, MPI_Free_mem MPI_Win_create, MPI_Win_free Kommunikationsroutine MPI_Put MPI_Get MPI_Accumulate Synchronizationen MPI_Win_fence MPI_Win_post, MPI_Win_start, MPI_Win_complete, MPI_Win_wait MPI_Win_lock, MPI_Win_unlock Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 20 10

11 Message-Passing-Modell Pro s: Programmierer bestimmt Daten- und Arbeitsverteilung Eindeutigkeit der Lokalität Con s: Relativ hoher Kommunikationsaufwand bei kleinen Nachrichten Korrektheit der Programme schwer zu überprüfen Beispiel: Message Passing Interface (MPI) Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 21 Shared-Memory-Modell Pro s: Einfache Befehle Lesen / Schreiben des entfernten Speichers durch Bilden eines Ausdrucks bzw. einfache Wertzuweisung Programmierwerkzeuge vorhanden Con s: Manipulation von gemeinsam genutzten Speicherzellen erfordern meistens doch explizite Synchronizationspunkte Keine Eindeutigkeit der Lokalität Beispiele: OpenMP POSIX Threads Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 22 11

12 Hybrides Modell: Shared Mem. + Message Passing Beispiele: POSIX Threads innerhalb der Knoten und MPI zwischen Knoten OpenMP für Intra- und MPI für Inter-Knoten- Kommunikation Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 23 Hybride Programmierung processes message passing MPI threading shared memory OpenMP Pthreads Domain decomposition accelerated operations SIMD MIC GPU FPGA Libraries CUDA OpenCL OpenACC Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 24 12

13 OpenCL Open Computing Language parallel execution on single or multiple processors for heterogeneous platforms of CPUs, GPUs, and other processors Desktop and handheld profiles works with graphics APIs such as OpenGL based on a proposal by Apple Inc. supported processors: Intel, AMD, Nvidia, and ARM work in progress: FPGA Design Goals Data- and task-parallel compute model based on C99 language Implements a relaxed consistency shared memory model with multiple distinct address spaces OpenCL 1.2 Device partitioning, separate compilation and linking, Enhanced image support, Built-in kernels, DirectX functionality Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 25 OpenCL Implements a relaxed consistency shared memory model Multiple distinct address spaces Address space can be collapsed depending on the device s memory subsystem Address qualifiers private local constant / global Example: global float4 *p; Built-in Data Types Scalar and vector data types Pointers Data-type conversion functions Image type (2D/3D) Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 26 13

14 OpenACC Open Accelerator High level gateway to lower level CUDA GPU programming language accelerate C and FORTRAN code directives identifies parallel regions Initially developed by PGI, Cray, Nvidia supported processors: AMD, NVIDIA, Intel? Design Goals No modification or adaption of programs to use accelerators OpenACC compiler First compilers from Cray, PGI, and CAPS 1Q2012 Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 27 MPI + X X = OpenMP, Pthreads, spezielle Bibliotheken Pros Wenige MPI-Prozesse Ggf. bessere Skalierung Weniger Overhead für die Zwischenspeicherungen von Daten Schnellere Synchronisation in (Unter-) Gruppen Cons Zwei unterschiedliche Programmierparadigmen Portabilität könnte problematisch sein Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 28 14

15 Partitioned Global Address SPACE PGAS parallel programming model Global memory address space that is logically partitioned A portion of the memory is local to each process or thread Combines advantages of SPMD programming for distributed memory systems with data referencing semantics of shared memory systems Variables and arrays can be shared or local Thread can use references to its local variables and all shared variables Thread has fast access to its local variables and its portion of shared variables Higher latencies to remote portions of shared variables node 0 loc[..] node 1 node m s[..] s[..] s[..] local address space global address space Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 29 Implementations of PGAS PGAS ist ein Modell für paralleles Programmieren verwendet einen global adressierbaren Speicherbereich kennt aber auch lokal nutzbare Speicherbereiche Affinitäten von Threads zu Bereichen des globalen Speichers möglich Languages Unified Parallel C Co-array Fortran Titanium Fortress Chapel X10 Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 30 15

16 Quelle: David Grove (IBM) PGAS Example: X10 PGAS: Replicated Data Local Heap Remote Heap Locality Rule: Any access to a mutable datum must be performed by a local activity remote data accesses can be performed by creating remote activities Place = collection of resident activities and objects Activity = sequential computation that runs at a place Locally Synchronous: Guaranteed coherence for local heap sequential consistency Globally Asynchronous: No ordering of inter-place activities use explicit synchronization for coherence Storage classes: Activity-local Place-local Partitioned global Immutable Ordering Constraints (Memory Model) Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 31 Abstraktionsebenen der Programmierung Programmiersprache PGAS Pthreads OpenMP MPI Threads Shared-Memory Message-Passing verteiltes Shared-Memory MPP Cluster SMP CC-NUMA Cray-Link 3d-Netz IB MyriNet Ethernet Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 32 16

17 Parallelarbeit vs. Parallelitätsebenen Parallelarbeitstechniken Suboperationsebene Anweisungsebene Blockebene Prozeßebene Programmebene SIMD-Techniken Vektorrechnerprinzip X Feldrechnerprinzip X Techniken der Parallelarbeit in der Prozessorarchitektur Befehlspipelining X Superskalar X VLIW X Überlappung von E/A- mit CPU-Operationen X Feinkörniges Datenflußprinzip X Techniken der Parallelarbeit durch Prozessorkopplung Speicherkopplung (SMP) X X X Speicherkopplung (DSM) X X X Grobkörniges Datenflußprinzip X X Nachrichtenkopplung X X Techniken der Parallelarbeit durch Rechnerkopplung Workstation-Cluster X X Grid- und Cloud-Computer X X Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 33 activity Apocalypse of the two Elephants Research >> investment Standards time Burst of research activities after initial discovery Wave of investments hits after corporations discover the subject Essentials that the standards be written in the trough between the two elephants To early, subject may be poorly understood To late, companies may have already made major investments in different ways Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 34 17

18 Grundlagen der Rechnerarchitektur Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 35 Von Neumann Architektur Adressbus CPU Program Control Unit I/O Arithmetic-Logic Unit RAM Program + Data Steuerbus Datenbus 1947: John von Neumann entwickelte einen programmgesteuerten Univeralrechner Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 36 18

19 Nach wie vor eingesetzte Architektur Prozessor (CPU) Daten-Bus Adress-Bus Kontroll-Bus Hauptspeicher Controller Controller Gerät Gerät Gerät Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 37 Prozessor Grundelemente eines Prozessors sind Rechenwerk: führt die arithmetischen und die logischen Operationen aus Steuerwerk: stellt Daten für das Rechenwerk zur Verfügung, d.h. holt die Befehle aus dem Speicher, koordiniert den internen Ablauf Register: Speicher mit Informationen über die aktuelle Programmbearbeitung, z.b. Rechenregister, Indexregister Stapelzeiger (stack pointer) Basisregister (base pointer) Befehlszähler (program counter, PC) Unterbrechungsregister, Moderne Prozessoren bestehen aus Prozessorkernen und Caches Jeder Prozessorkern hat mehrere Rechenwerke (Funktionseinheiten) Steuerwerk Befehlsdekodierung und Ablaufsteuerung PC, Befehlsregister, Zustandsregister Rechenwerk arithmetische/ logische Einheit Gleitkommaeinheit Register R 1 -R n CPU CPU Prozessor Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 38 L1-$ Prozessorkern L2-$ L1-$ 19

20 Hauptspeicher Hauptspeicher (Arbeitsspeicher): flüchtige Speicherung der aktiven Programme und der dazugehörigen Daten typische Größe derzeit bei PCs 4 GByte bis 64 GByte Organisation des Speichers Folge aus Bytes, auf die einzeln lesend oder schreibend zugegriffen werden kann (Random Access Memory, RAM) theoretische Größe des Speichers wird durch die Breite des Adressbusses festgelegt Virtualisierung des Speichers einheitliche logische Adressräume effizienter Nutzung des physischen Speichers max Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 39 Daten-Cache Die Geschwindigkeit des Hauptspeichers ist zu gering für die Rechenleistung der Prozessoren Einsatz von Cache-Speichern notwendig Prozessor Adresse Daten Cache Adresse Daten Hauptspeicher Adress- Tag* Block-Offset: Index: Byte Byte Byte Byte Byte Cache-Line Adresse: Datenblock 111 Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 40 20

21 Assoziativität eines Caches / t Direct-mapped Cache Tag Index Block-Offset V Tag / k Datenblock / / t 2-Way Set-Associative Cache Tag Index Block-Offset / k b V Tag Datenblock V Tag / b Datenblock 2 k Lines / t = / t = = HIT Datenwort oder -Byte HIT Datenwort oder -Byte Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 41 Cache-Aufbau und Charakteristika Cache-Lines (Blockgröße als Parameter; z.b. 64 Bytes) Caches deutlich kleiner als Hauptspeicher mapping von HS-Blöcken notwendig direct mapped jeder Block wird auf festen Bereich abgebildet fully associate Block kann überall im Cache abgelegt werden m-way set associative: Block kann beliebig in einer Menge von m Cache-Lines abgelegt werden Replacement: zufällig oder LRU verallgemeinert die beiden anderen Prinzipien Weitere Charakteristika: Latenzzeit Bandbreite Kapazität des Caches Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 42 21

22 Cache-Miss-Typen Compulsory-Miss: auch cold-start-miss genannt erster Zugriff auf Block führt zu einem Cache-Miss Capacity-Miss: Cache nicht groß genug für alle benötigten Blöcke Cache-Miss ist aufgetreten, obwohl der Block schon einmal im Cache war und verdrängt wurde Conflict-Miss: Adresskollision auch collision-miss oder interferences-miss genannt Capacity-Miss der durch eine zu geringe Assoziativität des Caches oder zu große Blöcke begründet ist Ping-Pong Effekt möglich Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 43 Compulsory-Misses Problem: Noch nicht genutzte Daten sind typischerweise nicht im Cache Folge: erster Zugriff auf Daten potentiell sehr teuer Optimierung: größere Cache-Lines (räumliche Lokalität nutzen) erhöht Latenzzeit bei Cache-Miss kann Anzahl der Conflict-Misses erhöhen Prefetching Datenwort laden bevor es tatsächlich benötigt wird Überlappung von Berechnungen und Ladeoperationen nur sinnvoll bei nicht-blockierenden Caches Varianten nächstes Datenwort laden (unit stride access) wiederkehrende Zugriffsmuster erkennen und laden (stream prefetch) Zeigerstrukturen laden Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 44 22

23 Strategien beim Design Latenzzeit bei Hit und Miss reduzieren Multi-Level-Cache Speicherzugriffe überlappend ausführen (Pipelining) diverse andere Hardwaretechniken (s. Computer Architecture: A Cache-Trefferrate erhöhen Hardware-Techniken Datenzugriffstransformationen Daten-Layout-Transformationen Latenzzeit verdecken Out-of-Order Execution Multithreading Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 45 Speicherhierarchien Memory Wall Der Unterschied zwischen Prozessor- und Speichergeschwindigkeit wird immer größer Leistungsfähigere Speicherhierarchien notwendig Größere Speicherkapazitäten kleinere Fertigungsstrukturen nutzbar Höhere Frequenzen Steigerung beschränkt durch die Physik Breitere Datenpfade beschränkt durch Parallelität in der Anwendung Mehr Speicherebenen Potentiell auf mehreren Ebenen nachfolgende Misses Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 46 23

24 Beispiel: Highend Server IBM Power 770 Modell: IBM Power bis 8 Power7 Prozessormodule (je 8 Kerne) max. 64 Prozessorkerne 3.1 GHz max. 48 Prozessorkerne 3.5 GHz Shared-memory, NUMA-Architektur max. 1 TByte DDR max. 2 TByte DDR3-800 Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 47 IBM Power8 Chip with 12 cores Core clock rate GHz Massive multithreaded chip with 96 hwthreads Each core with 64 kb L1 D-cache 32 kb L1 I-cache Power8 Core 512 kb SRAM L2-cache 96 MB edram shared L3-cache 8 MB per core Up to 128 MB edram off-chip L4-cache On-chip memory controller Ca. 1 TByte memory ~ 230 GByte/s 4.2 billion transistors, 22nm Available 5/2014 Power8 Chip Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 48 24

25 Power8 Caches L2: 512 kb 8 way per core L3: 96 MB (12 x 8MByte 8 way bank) NUCA cache policy (Non-Uniform Cache Architecture) Scalable bandwidth and latency Migrate Hot lines to local L2, then local L3 (replicate L2 contained footprint) Chip Inteconnect: 150 GB/s x 12 segments per direction = 3.6 TB/s Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 49 POWER8 Memory Buffer Chip Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 50 25

26 POWER8 Memory Organization Up to 8 high speed channels, each running up to 9.6 GB/s (230 GB/s sustained) Up to 32 total DDR ports (410 GB/s peak at the DRAM) Up to 1 Tbyte memory capacity Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 51 IBM POWER8 Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 52 26

27 IBM Power7 Supercomputer Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 53 Interconnection Network HUB/Switch (one per SMP node) 192 GB/s to host node 336 GB/s to 7 other nodes in same drawe 240 GB/s to 24 nodes in other 3 drawers in same SuperNode 320 GB/s to hubs in other SuperNodes Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 54 27

28 Speicherhierarchie: Beispiel IBM Power 595 (Power6) CPU Kapazität Bandbreite Latenz Register 256 Byte 120 GByte/s 0.2 ns 1. Level Cache 64 kbyte 75 GByte/s 1 ns 2. Level Cache 4 MByte 150 GByte/s 4 ns 3. Level Cache 1 32 MByte 20 GByte/s 32 ns Lokal Main Memory GByte 42 GByte/s 90 ns Remote Main Memory GByte 140 GByte/s < 1 µs Remote Main Memory GByte 8 x 140 GByte/s ~ 1 µs Swap Space on SSD > X * 500 GByte/s < 1 ms Swap Space on Harddisk >> X * 200 MByte/s ~5 ms 1 shared by 2 Cores 2 shared by 8 Cores 3 shared by up to 64 Cores Vorlesung: Architektur Paralleler Rechnersysteme WS14/15 J.Simon 55 28