Implementierung einer adaptiven Speicherarchitektur für einen heterogenen SHAP-Mehrkernprozessor mit Hardwarebeschleuniger

Transkript

1 Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Statusvortrag Diplomarbeit Implementierung einer adaptiven Speicherarchitektur für einen heterogenen SHAP-Mehrkernprozessor mit Marco Zulkowski Dresden,

2 Gliederung 1. Motivation 2. HMP-Systeme und deren Bussysteme 3. Heterogener SHAP-Mehrkernprozessor (Konzept) 4. Zusammenfassung TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 2 von 26

3 1. Motivation Amdahl's Law (1967) Beschreibung eines Geschwindigkeitszuwachses (speedup) bei Ausführung eines Programms mit n Prozessoren mit parallelisierbarem Zeitanteil f des Programms Speedup parallel ( f, n) = 1 (1 f )+ f n Damalige Schlussfolgerung: Typische Werte für (1-f) sind groß genug um Einzelprozessoren zu favorisieren TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 3 von 26

4 1. Motivation Everyone knows Amdahl's Law, but quickly forgets it. -Dr. Thomas Puzak, IBM, 2007 Sequenzielle Programmteile stellen nach wie vor Flaschenhals dar Beschleunigen der sequenziellen Verarbeitungsleistung bei Multi-Core Prozessoren TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 4 von 26

5 1. Motivation Mehrkern-Varianten Kern Kern Kern Beschleuniger Kern Kern Kern Kern Kern Kern SMP AMP HMP Symmetrischer Mehrkernprozessor Asymmetrischer Mehrkernprozessor Heterogener Mehrkernprozessor [1] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 5 von 26

6 2. HMP-Systeme und deren Bussysteme Beispiele heterogener Mehrkernprozessoren & -prozessorsysteme Highperformance Computing / Desktopsysteme CPU + dedizierte Grafikkarte General Purpose Computation on GPU (GPGPU) z.b. mittels OpenCL, Cuda AMD APU (Accelerated Processing Unit) bis zu 4 Prozessorkerne und 384 Shadereinheiten NVIDIA Volta (geplant für ende 2015) ARM-Kern in GPU integriert Cell-Prozessor TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 6 von 26

7 2. HMP-Systeme und deren Bussysteme Beispiele heterogener Mehrkernprozessoren & -prozessorsysteme Samsung Exynos 4 64 Bit Multilayer AMBA AHB und AXI (z.b. Samsung Galaxy S2) [3] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 7 von 26

8 2. HMP-Systeme und deren Bussysteme Beispiele heterogener Mehrkernprozessoren & -prozessorsysteme Snapdragon S4 64 Bit AMBA AXI (z.b. HTC One) [4] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 8 von 26

9 2. HMP-Systeme und deren Bussysteme Beispiele heterogener Mehrkernprozessoren & -prozessorsysteme TI OMAP 4470 Network-On-Chip (Arteris) (z.b. Kindle Fire HD) [6] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 9 von 26

10 2. HMP-Systeme und deren Bussysteme Zusammenfassung Bussysteme Exynos 4 Snapdragon S4 OMAP 4470 Topologie Shared-Bus und Crossbar (Multi-Layer) Crossbar Network-on-Chip Bus-Protokoll AMBA AHB + AXI AMBA AXI Properitär Datenbreite Arbitrierung Keine Angaben Für jedes Slave- Interface extra Für jedes Slave- Interface extra Arbitrierungsalgorithmus Keine Angaben Keine Angaben Statische Prioritäten, AgedPriority, RoundRobin,... Kontroll- / Datenpfade getrennt getrennt getrennt TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 10 von 26

11 Heterogener SHAP-Mehrkernprozessor Altes System SHAP-Mehrkernprozessor GC-Bus konfigurierbar Kern n-1 Stacks Objekt - Cache Methoden - Cache Wishbone Bus Kern 1 Stacks Kern 0 Stacks Daten Code 8 Objekt - Cache Methoden - Cache Objekt - Cache Methoden - Cache Speichermanager Garbage Collector 32 Speichercontroller 32 GC-Bus DDR: 16 SDR : 32 Grafikeinheit Ethernet MAC UART / USB 32 DMA Heap und Bytecode SRAM oder DDR-SDRAM [5] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 11 von 26

12 Heterogener SHAP-Mehrkernprozessor Neues System SHAP-Mehrkernprozessor konfigurierbar GC-Bus Wishbone Bus Kern n-1 Stacks Kern 1 Stacks Kern 0 Stacks Daten Code 8 Objekt - Cache Methoden - Cache Objekt - Cache Methoden - Cache Objekt - Cache Methoden - Cache Garbage Collector DMA 128 Shared-Bus Arbiter Speichermanager 1 (Master) DMA 2 (Master) DMA n (Master) DMA 32 GC-Bus 128 Grafikeinheit Ethernet MAC UART / USB 32 DMA Universelle Speicherschnittstelle (DDR2-SDRAM) (Slave) 64 DDR2 Speicher SATA-Controller 32 SSD TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 12 von 26

13 3. Heterogener SHAP-Mehrkernprozessor Architekturkonzept: Kontrollfluss über vorhandenen Wishbone-Bus Ersatz des integrierten Speichercontrollers Einführung von Shared-Bus Shared-Bus: Anbindung des Speichermanagers Anbindung aller Anbindung von DDR2-Controller Arbitrierung des Buszugriffes TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 13 von 26

14 3. Heterogener SHAP-Mehrkernprozessor Schnittstelle Wiederverwendung der universellen Speicherschnittstelle aus Belegarbeit [15] Burstorientierte-Zugriffe (Speichercontroller) Adressierung durch Startadresse und Blockanzahl Zuordnung von Request zu Master (Tag) Allgemein: Vereinfachte Konfiguration Einfaches Protokoll TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 14 von 26

15 3. Heterogener SHAP-Mehrkernprozessor Schnittstelle Topologie AMBA AXI 4 AMBA AHB 3 Wishbone B4 Punkt-zu- Punkt, Crossbar Shared-Bus Shared-Bus, Punkt-zu-Punkt, Crossbar Universelle Speicherschnittstelle Shared-Bus Datenbreite (Bit) , 16, 32, 64 beliebig Adressierung Bis 64 Bit 32 Bit Bis 64 Bit beliebig Datenmaskierung Byte Nein Byte Nein Tags Ja Nein Ja Ja Komplexität Sehr hoch hoch hoch mittel [11, 12, 13, 15] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 15 von 26

16 3. Heterogener SHAP-Mehrkernprozessor Arbitrierung Klassisch: Feste Prioritäten Zeitmultiplex (TDMA) Round Robin Lottery Scheduling Credit-Based Scheduling TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 16 von 26

17 3. Heterogener SHAP-Mehrkernprozessor Lottery Scheduling Motivation Testresultate zeigen: Niedrige Latenzen für hoch-priorisierte Master Bei gleichzeitiger Bandbreitengarantie für andere Master Aber keine harte Echtzeit Stochastisch fair Erwartete Zuweisung ist proportional zu Losverhältnissen Keine Starvation Jeder Master mit Los gewinnt früher oder später TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 17 von 26

18 3. Heterogener SHAP-Mehrkernprozessor Lottery Scheduling Motivation 4-Port ATM-Switch: Port 1 Port 3 mit Bandbreitenverhältnis (1:1:4) Port 4 mit niedriger Latenz Algorithmus Port 4 Latenz (Takte/ Wort) Port 4 Bandbreite (%) Port 3 Bandbreite (%) Port 2 Bandbreite (%) Port 1 Bandbreite (%) Static priority 1,39 9,69 45,72 44,58 0,01 TDMA 9,84 10,09 47,29 21,31 21,31 Lottery 1,4 9,67 59,03 17,00 14,30 [8] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 18 von 26

19 3. Heterogener SHAP-Mehrkernprozessor Lottery Scheduling [2, 7, 8] 1994 am MIT entwickelt (Prozess- / Threadscheduling) Zufallsbasierter Arbitrierungsalgorithmus 2001 implementierung des LOTTERYBUS für SoC-Busse Diverse Weiterentwicklungen TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 19 von 26

20 3. Heterogener SHAP-Mehrkernprozessor Lottery Scheduling - Prinzip 1. Master bekommen Lose (Tickets) zugeordnet 2. Jeder Master mit Request-Wunsch gibt seine Lose in einen Lostopf 3. Arbiter zieht per Zufall ein Los aus dem Lostopf 4. Master dem das gezogene Los gehört bekommt Buszugriff Master1 (4 Lose) Interface Master2 (2 Lose) Interface Master3 (1 Los) Interface Arbiter Shared Bus Interface Shared Memory [8] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 20 von 26

21 3. Heterogener SHAP-Mehrkernprozessor Lottery Scheduling - Prinzip Master1 (4 Lose) R = 1 0 : M1 1 : M1 2 : M1 Rand(0,6) = 4 Master2 (2 Lose) R=1 Lostopf 3 : M1 Master3 (1 Los) R=1 4 : M2 5 : M2 6 : M3 [8] R...Request TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 21 von 26

22 Heterogener SHAP-Mehrkernprozessor Beispielsystem: Farbraumkonvertierung von YCbCr nach RGB mittels SHAP-Mehrkernprozessor konfigurierbar GC-Bus Kern n-1 Stacks Objekt - Cache Methoden - Cache DMA 128 Arbiter 128 Farbraumkonverter (Master) DMA Wishbone Bus Kern 1 Stacks Kern 0 Stacks Daten Code 8 Objekt - Cache Methoden - Cache Objekt - Cache Methoden - Cache Speichermanager Garbage Collector Shared-Bus VGA/DVI Ausgabemodul (Master) DMA DMA SATA (Master) 32 GC-Bus 128 SSD Grafikeinheit Ethernet MAC UART / USB 32 DMA Universelle Speicherschnittstelle (DDR2-SDRAM) (Slave) 64 DDR2 Speicher TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 22 von 26

23 3. Heterogener SHAP-Mehrkernprozessor Beispielsystem: Farbraumkonvertierung von YCbCr nach RGB mittels Bandbreitenbedarf: FullHD ~ 1GiB/s SHAP Speichermanager 320 MiB/s Farbraumkonverter 300 MiB/s SATA- Controller 120 MiB/s VGA/DVI Ausgabemodul 180 MiB/s 3200 MiB/s DDR2- Speichercontroller 3000 MiB/s TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 23 von 26

24 4. Zusammenfassung Kurzer Überblick zu heterogenen Mehrkernprozessorsystemen Vorstellung des Konzepts Vergleich neues und altes System Arbitrierung (Lotterybus) Beispielsystem TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 24 von 26

25 Ausgewählte Quellen [1] V. Gupta, R. Nathuji and K. Schwan. An Analysis of Power Reduction in Datacenter using Heterogeneous Chip Multiprocessors [2] M. D. Hill and Michael R. Marty. Amdahl's Law in the Multicore Era [3] [4] [5] M. Zabel. Effiziente Mehrkernarchitektur für eingebettete Java-Bytecode-Prozessoren. Dissertation TU Dresden [6] [7] K. Lahiri, A. Raghunathan and G. Lakshminarayana. LOTTERYBUS: A New High-Performance Communication Architecture for System-On-Chip Designs [8] K. Lahiri, A. Raghunathan and G. Lakshminarayana. The LOTTERYBUS On-Chip-Communication Architecture [9] C. A. Waldspurger and W. E. Weihl. Lottery Scheduling: Flexible Proportional-Share Resource Management [10] html :28 [11] Wishbone B4 [12] AMBA AXI Protocol Version 2.0 Specification & AMBA Specification Revision 2.0 [13] On-Chip Communication Architectures: System on Chip Interconnect von Sudeep Pasricha,Nikil Dutt [14] Devices.pdf [15] M. Zulkowski. Universelle Speicherschnittstelle für große externe Speicher. Großer Beleg TU Dresden [16] Clive Max Maxfield. FPGAs: World Class Designs. Newnes, ISBN [17] IBM. Cell Broadband Engine Architecture. Version Oktober 2007 TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 25 von 26

26 Vielen Dank für ihre Aufmerksamkeit! TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 26 von 26

27 Messwerte DDR2-Controller Messung mit Blockgröße von 128Byte TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 27 von 26

28 4-Port ATM-Switch TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 28 von 26 [8]

29 Grant-Wahrscheinlichkeit p(t i,t, k)= t i T k 1( 1 t i T n=0 )n TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 29 von 26 [8]

30 TDMA vs. Lottery [8] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 30 von 26

31 Allgemein: Slave Master DMA Beispielimplementierung: WB Adapter Slave Universelle Speicherschnittstelle Master DMA TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 31 von 26