Multicore-Architekturen

Transkript

1 Universität Erlangen- Nürnberg Technische Universität München Universität Stuttgart Multicore-Architekturen Vortrag im Rahmen der Ferienakademie 2009 Kurs 1: Programmierkonzepte für Multi-Core Rechner Sascha Roloff Reinswald, den 23. September

2 Inhalt Einführung Multicore-Techniken Der Cell Prozessor NVidia Tesla Intel Larrabee Zusammenfassung 2

3 Einführung Multicore-Architekturen Fortschreiten des Miniaturisierungsprozesses Klassische Methoden zur Erhöhung der Rechenleistung Verbesserung der Mikroarchitektur Erhöhung der Taktrate Problem: zu teuer zu energiehungrig langsam erschöpft 3

4 Einführung Multicore-Architekturen Entwicklung neuer Architekturen mehrere Prozessorkerne auf einem Chip Vorteile: Berechnungen können parallel ausgeführt werden Prozessortakt kann niedrig gehalten werden Nachteile: Software muss auf Mehrkernprozessoren angepasst werden Nebenläufigkeit kann auftreten 4

5 Einführung Begriffe Core Kontext: Registersatz Befehlszeiger Stackpointer Ausführungseinheiten: ALU FPU MEM L1-Cache einfädig Core Kontext ALU FPU MEM L1-Cache mehrfädig Core Kontext ALU FPU MEM L1-Cache Kontext 5

6 Einführung Begriffe Singlecore-Prozessor (Ein-Kern-Prozessor) ein Chip - ein Kern Multicore-Prozessor (Mehr-Kern-Prozessor) ein Chip - mehrere Kerne Core Core L2-Cache Core Multiprozessor mehrere Chips - je Ein-Kern- od. Mehr-Kern- Prozessoren L2-Cache Core Core L2-Cache L2-Cache 6

7 Einführung Begriffe Singlecore-Prozessor (Ein-Kern-Prozessor) ein Chip - ein Kern Multicore-Prozessor (Mehr-Kern-Prozessor) ein Chip - mehrere Kerne Core Core L2-Cache Core Multiprozessor mehrere Chips - je Ein-Kern- od. Mehr-Kern- Prozessoren L2-Cache Core Core L2-Cache L2-Cache 7

8 Einführung Leistungsgrenzen parallelen Rechnens Gesetz von Amdahl (1967) Speedup: T p S = T l p T 0 + T s = T T 0 p l 1 + T T s 0 = 1 β + (1 β ) l T 0 l Grad der Parallelisierung β... Anteil der Gesamtzeit, der von der Parallelisierung beeinflusst ist (T p /T 0 ) 8

9 Einführung Leistungsgrenzen parallelen Rechnens Gesetz von Amdahl (1967) 9

11 Multicore-Techniken homogene, heterogene Multicores Homogene Multicores alle Kerne eine Chips sind identisch heutzutage am weitesten verbreitet einfach für Hardware-/ Software-Entwickler Heterogene Multicores unterschiedliche Kerne in einem Chip ein Kern für das Betriebssystem mehrere spezialisierte Kerne für Berechnungen Spezialaufgaben (Decodierung, Verschlüsselung) 11

12 Multicore-Techniken Kommunikation Kommunikation der Kerne über gemeinsamen Speicher getrennte Caches implizit über Cache-Synchronisation über DMA-Transfers zwischen lokalem Speicher expliziter Nachrichtenversand Topologien Bus, Ring, Grid, Crossbar 3D-Topologien noch zu teuer 12

13 Multicore-Techniken Speicherverteilung Globaler Hauptspeicher Zugriff für alle Kerne gleich schnell (UMA) Lokaler Speicher pro Kern (Scratchpad) kein Zugriff von anderen Kernen 16 bis 256 KB Cache-Topologien kein Cache getrennter L1-Cache, gemeinsamer L2-Cache gemeinsamer L2-Cache für Gruppen von Kernen getrennte L1- und L2-Caches mit gemeinsamen L3-Cache 13

15 Der Cell Prozessor Übersicht Gemeinschaftsprojekt von IBM, Sony u. Toshiba Heterogener Multicore-Prozessor mit 9 Kernen 1 Hauptprozessor (Steuerung) 8 Co-Prozessoren (Berechnungen) können versch. Code ausführen 256 GFlops Peakperformance 15

16 Der Cell Prozessor Die Architektur 2 Typen von Kernelementen 1x PPE (Power Processing Element) 8x SPE (Synergistic Processing Element) Verbindungsstruktur EIB (Element Interconnect Bus) Memory-Interface MIC (Memory Interface Controller) I/O-Interface BIC (Bus Interface Controller) 16

17 Der Cell Prozessor Die Architektur Busanbindung 17

18 Der Cell Prozessor Die Architektur PPE (Power Processing Element) 64-bit PowerPC Architektur L1-Cache: 32 KB Instruktionen 32 KB Daten L2-Cache: 512 KB Daten und Instruktionen 2 Hardware-Threads verteilt Rechenaufgaben an die SPU s liefert systemweite Dienste 18

19 Der Cell Prozessor Die Architektur SPE (Synergistic Processor Element) SIMD-Prozessor SPU (Synergistic Processor Unit) 128x 128-bit Register, 2 Pipelines Local Store: 256 KB MFC (Memory Flow Controller) DMA-Transfer zw. SPE SPE, SPE Hauptspeicher 2 Hardware-Threads entkoppelte Ausführung von Rechenoperationen und Datentransfers 19

20 Der Cell Prozessor Programmierung Ablauf 1. PPE lädt Befehle 2. PPE initiiert DMA-Transfer 3. DMA-Transfer 4. Starte SPU an Adresse X 5. MFC startet SPU-Ausführung Programm wird mit Cell SDK erstellt 20

21 Der Cell Prozessor Parallelisierung 128 Bit SIMD-Befehl Ebenen des Parallelismus innerhalb einer SPE SIMD Instruktionen: 4 Fließkommaoperationen (SP) pro Takt 2 Hardware-Threads entkoppelte Rechen- u. Übertragungsthreads 32 Bit 32 Bit 32 Bit 32 Bit zwischen SPE-Kernen heterogenes Threadmodell Software Pipelining Image DCT QUANT ZZS RLC HC Bitstream 21

23 NVidia Tesla Paralleles Programmieren auf GPUs GPGPU Berechnung allgemeiner Aufgaben mit Grafikprozessoren Homogener Multicore-Prozessor mit 240 Streamprozessoren alle führen den gleichen Code aus Co-Prozessor für die CPU NVidia Tesla Grafikkarte GT200 Chip 1 TFlops Peakperformance 23

24 NVidia Tesla Die Architektur 16 Multiprozessoren (SIMD) Multiprozessor: 8 Thread Prozessoren (32-bit) 16 KB gemeinsamer Speicher Thread Prozessor: single-precision FPU 1024x 32-bit Register lokaler Speicher ergibt 128 Thread Prozessoren 24

25 NVidia Tesla Die Architektur Aufbau 25

26 NVidia Tesla Die Architektur Speicherzugriffszeiten DRAM: 500 Takte Global Memory Local Memory DRAM gecached: 10 Takte Constant Memory (read-only) Texture Memory (read-only) On-Chip: ein Takt Register Shared Memory globaler, lokaler Speicher, Konstanten, Texturen 26

27 NVidia Tesla Programmierung Ausführung GPU fungiert als Co-Prozessor für CPU GPU bearbeitet rechenintensive Teile einer Anwendung Kernel: GPU-Programm in spezieller Programmiersprache CUDA wird von CPU auf GPU geladen (Host-Speicher Device- Speicher) wird datenparallel von GPU ausgeführt 27

28 NVidia Tesla Parallelisierung Rechenfeld in Blöcke einteilen Durnholzer See im Sarntal 28

29 NVidia Tesla Parallelisierung Rechenfeld in Blöcke einteilen Datenparallelisierung Durnholzer See im Sarntal 29

30 NVidia Tesla Parallelisierung Abbildung auf CUDA Grid Thread Block 0 Thread Block 1 Thread Block N Shared Memory Shared Memory Shared Memory Durnholzer See im Sarntal ein Block im Rechenfeld entspricht einem Thread Block in CUDA 30

31 NVidia Tesla Parallelisierung Abbildung auf die Hardware Gitter: wird auf alle Multiprozessoren verteilt Thread Block: wird von einen Multiprozessor ausgeführt wird Warp-weise abgearbeitet Warp: Einplanungseinheit 32 Threads 4 Takte Thread Block Thread Block Thread Block Shared Memory Shared Memory Shared Memory ein Multiprozessor kann maximal 8 Thread Blöcke und insgesamt 768 Threads nebenläufig bearbeiten 31

33 Intel Larrabee Graphics Processing with CPU GPCPU Berechnung von grafikbasierten Anwendungen mit CPUs Homogener Multicore-Prozessor 32 Kerne (basieren auf x86 CPUs) flexibel programmierbar schnelles Verbindungsnetz 2 TFlops Peakperformance 33

34 Intel Larrabee Die Architektur Gesamtansicht In-Order Kerne mit L1-, L2-Cache (voll kohärent) Verbindungsbus als bi-direktionaler Ring Textureinheiten Speichercontroller 34

35 Intel Larrabee Die Architektur Larrabee Core Skalare Einheit (x86 kompatibel) Skalare Register Vektor Einheit (SIMD-Erweiterung) Vektor Register Kommunikation zw. Registern über L1-Cache 256 KB L2-Cache Kommunikation zw. den Cores implizit über L2-Cache Synchronisation! 35

36 Intel Larrabee Die Architektur Skalare Einheit zuständig für skalare Operationen 64-bit Unterstützung 4 Hardware-Threads Vektor Einheit Berechnung von Ganzzahlen und Fließkommazahlen mit einfacher, doppelter Genauigkeit 512-bit SIMD Befehle 16x 32-bit Operation pro Takt 36

37 Intel Larrabee Parallelisierung Larrabee kann Aufgaben einer GPU und einer CPU übernehmen Grafik Pipeline beschleunigt Bildverarbeitung Rechenkraft kommt aus den Vektor Einheiten Breites Spektrum an parallelem Rechnen General Purpose Programmierung parallel durch viele Cores und viele Threads 37

39 Zusammenfassung Multicore-Architekturen es gibt viele weitere Multicore-Prozessoren Sun UltraSPARC T2 (Niagara 2) AMD Istanbul Intel Dungington Intel Terascale es gibt große Architektur-Unterschiede Effiziente Programmierkonzepte sind der Schlüssel, um die Leistungsfähigkeit dieser Architekturen auszunutzen! 39

40 Ende Multicore-Architekturen Danke für eure Aufmerksamkeit! Gibt s Fragen? 40

41 Quellenangaben Cell,, Tesla, Larrabee 1. IBM Research Report: The Cell Broadband Engine: Exploiting Multiple Levels of Parallelism in a Chip Multiprocessor Parallel Processing with CUDA: Nvidia s High-Performance Computing Platform Uses Massive Multithreading 5. NVIDIA CUDA Compute Unified Device Architecture: Programming Guide 6. Johan Seland: CUDA Programmierung 7. Tom Forsyth: SIMD Programming with Larrabee 41

42 Quellenangaben Cell,, Tesla, Larrabee Philipp Wender: Seminar Multicore-Programmierung 11. Larrabee: A Many-Core x86 Architecture for Visual Computing 42