Software Engineering für moderne, parallele Plattformen. 9. GPGPUs: Grafikkarten als Parallelrechner. Dr. Victor Pankratius

Transkript

1 Software Engineering für moderne, parallele Plattformen 9. GPGPUs: Grafikkarten als Parallelrechner Dr. Victor Pankratius Dr. Victor Pankratius, Dipl.Inform. Frank Otto IPD Tichy Lehrstuhl für Programmiersysteme KIT die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH)

2 Agenda GPGPU - Erläuterung Motivation Performanzaspekte Beispiele: NVidia GeForce Das CUDA-Programmiermodell Organisation und modell Ausgewählte Sprachkonstrukte (V 2, Fokus auf allgemeine Programmierung, keine Grafik) Ausblick 2

3 GPGPU Was ist das? GPGPU engl. Abkürzung für General purpose computation on Graphics Processor Units (GPUs) Idee: Nutzung von Grafikkarten als allgemeine Parallelrechner 3

4 Motivation Performanz bei Gleitkommaberechnungen Peak GFLOP/s GT200 GT400 GT400: GeForce GT480 GT200: GeForce GTX 280 G92: GeForce 9800 GTX G80: GeForce 8800 GTX G71: GeForce 7900 GTX G70: GeForce 7800 GTX NV40: GeForce 6800 Ultra NV35: GeForce FX 5950 Ultra NV30: GeForce FX G80 G80 Ultra G NV30 NV35 NV40 G70 G71 3GHz Intel Core2 Duo 3.2GHz Harpertown 0 Quelle: NVidia, Juni 2010 Jan Jun Apr Jun Mar Nov Mai 2007 Jun 2008 Jan

5 Gründe für Gleitkomma-Performanz Spezialisierung GPU vs. CPU Kontroll- Logik ALU ALU ALU ALU CPU geeignet für allgemeine Anwendungen Cache DRAM GPU gut geeignet für spezielle Anwendungen mit großen Datenmengen, Datenparallelität, SIMD- Arbeitsweise daher weniger komplexe Kontrollflusslogik nötig mit großem Verhältnis Latenzzeiten bei Zugriff auf Hauptspeicher werden durch viele Berechnungen, weniger durch Cache-Effekte amortisiert DRAM 5

6 Beispiel - Nvidia GeForce 8 Graphics Processing Unit (GPU) Prozessor, je nach Modell ~ MHz, 32-Bit FPU,1024 ~16 KB ~86,4 GB/s 128 Prozessoren insgesamt, jeder mit 96 Fäden in Hardware Insgesamt HW-Fäden! DRAM- auf Grafikkarte insg: ~ MB Neuere Entwicklung: GTX280 mit: 240 Prozessoren, 1GB RAM 6 6

7 Beispiel - Nvidia GeForce 400 Serie Graphics Processing Unit (GPU) GeForce GTX 465, 470, 480 Seit März/Mai 2010 auf dem Markt Kerne Grafik-Taktfrequenz MHz Prozessor-Taktfrequenz MHz Taktfrequenz MHz Standard-konfiguration MB GDDR Bit schnittstelle Bandbreite 102,6-177,4 GB/s Quelle: 7

8 Wieso hat man bis jetzt nicht Grafikkarten als Parallelrechner benutzt? Programmiermodelle waren traditionell speziell auf Grafikverarbeitung ausgerichtet Eingeschränkter Befehlssatz Hardware-Nähe bei Programmierung Allgemeine Programmierung der Grafikkarte eher Ausnahmefall Verbesserungen in den letzten Jahren bei Grafikkarten Mehr parallel arbeitende Einheiten Mehr höhere Bandbreite bei Hauptspeicherzugriff Neue Trends: Programmiermodelle werden erweitert und verallgemeinert Standard-PCs haben leistungsfähige Grafikkarten 8

9 CUDA: Compute Unified Device Architecture Von NVidia entwickelt Beinhaltet allgemeines Programmiermodell für Grafikkarten Momentan realisiert als Erweiterung der Programmiersprache C durch zusätzliche Sprachkonstrukte Grafikkarte wird als Co-Prozessor für datenparallele Verarbeitung verwendet Entwickler schreibt Programm, das datenparallele Teile auf der Grafikkarte (GPU) und den Rest auf dem Prozessor (CPU) ausgeführt Sprachkonstrukte kennzeichnen entsprechende Teile Integrierter CPU+GPU Quelltext Nvidia C Compiler GPU Assembly CUDA Treiber GPU CPU Quelltext Standard C Compiler CPU 9

10 Unterschiede zw. Fäden auf GPU vs. CPU Fäden auf GPU leichtgewichtig, wenig Mehraufwand bei Erstellung GPU braucht eine große Zahl von Fäden (tausende!), um effizient zu arbeiten Empfehlung für GeForce 8: Etwa 5000 (!) Fäden Multicore-CPUs im Vergleich dazu nur wenige Fäden Datenparallele Teile eines Programms werden auf der GPU als sog. Kernroutinen (engl. Kernels ) ausgeführt 10

11 Organisation von Fäden (1) Wirtsrechner (Host) Kern 1 GPU Gitter 1 Block (0, 0) Block (1, 0) Block (2, 0) Ein Kern wird mit Hilfe eines Gitters aus -Blöcken ausgeführt Dimensionen und Größe der Blöcke gleich Kern 2 Block (1, 1) (0, 0) (0, 1) (0, 2) (1, 0) (1, 1) (1, 2) Block (0, 1) Gitter 2 (2, 0) (2, 1) (2, 2) Block (1, 1) (3, 0) (3, 1) (3, 2) (4, 0) (4, 1) (4, 2) Block (2, 1) Ein -Block besteht aus einer (limitierten) Anzahl mehrerer Fäden, die miteinander kooperieren können Datenaustausch durch Zugriff auf schnellen gemeinsamen Fäden innerhalb eines Blocks können ihre Zugriffe synchronisieren Fäden aus verschiedenen Blöcken können nicht miteinander kooperieren 11

12 Organisation von Fäden (2) Wirtsrechner (Host) Kern 1 GPU Gitter 1 Block (0, 0) Block (0, 1) Block (1, 0) Block (1, 1) Block (2, 0) Block (2, 1) Fäden und Blöcke haben IDs Zur Vereinfachung der Adressierung: Zählung in verschiedenen Dimensionen möglich Block: 1D, 2D Gitter 2 : 1D, 2D, 3D Kern 2 Beispiel GeForce 8800 Block (1, 1) Max. Fäden/Block: 512 (0, 0) (1, 0) (2, 0) (3, 0) (4, 0) Max. Länge einer Dimension: (0, 1) (1, 1) (2, 1) (3, 1) (4, 1) (0, 2) (1, 2) (2, 2) (3, 2) (4, 2) 12

13 modell (1) Gitter Block (0, 0) Gemeinsamer (0, 0) (1, 0) Lokaler Globaler mit konstanten Daten (Initialisierung durch Host) Textur- Lokaler Block (1, 0) Gemeinsamer (0, 0) (1, 0) Lokaler Lokaler Wirtsrechner (Host) Logische Sicht: Jeder kann folgende Zugriffe durchführen : Lesen+schreiben Lokaler : Lesen+schreiben Gemeinsamer im Block: Lesen+schreiben Globaler im Gitter: Lesen+schreiben mit konstanten Daten im Gitter: Nur lesen Textur- im Gitter: Nur lesen Wirtsrechner kann auf globalen, konstanten und Textur- lesend und schreibend zugreifen Dadurch Kommunikation zw. Wirtsrechner und GPU 13

14 modell (2) Gitter Block (0, 0) Gemeinsamer (0, 0) (1, 0) Lokaler Globaler Lokaler mit konstanten Daten (Initialisierung durch Host) Block (1, 0) Gemeinsamer (0, 0) (1, 0) Lokaler Lokaler Wirtsrechner (Host) cudamalloc() Alloziert im globalen bereich Benötigt zwei Parameter: cudafree() Adresse eines Zeigers zu Anfang der allozierten Daten Größe der Daten Gibt wieder frei Benötigt Zeiger Textur- 14

15 modell (3) Gitter Block (0, 0) Gemeinsamer (0, 0) (1, 0) Lokaler Globaler Lokaler mit konstanten Daten (Initialisierung durch Host) Block (1, 0) Gemeinsamer (0, 0) (1, 0) Lokaler Lokaler Wirtsrechner (Host) cudamemcpy() -Datentransfer Benötigt vier Parameter Zeiger auf Quelle, Ziel Anzahl zu kopierender Bytes Art des Transfers Host nach Host Host nach GPU GPU nach Host GPU nach GPU In CUDA 1.0 asynchron Textur- 15

16 modell (4) Physische Sicht Globaler, für konstante Daten und Textur- sind lediglich Regionen im RAM- der Grafikkarte Grafikkarte Prozessorgruppe N Prozessorgruppe 2 Prozessorgruppe 1 Gemeinsamer Prozessor 1 Prozessor 2 Prozessor M Instruktionseinheit Cache für konstante Daten Textur- Cache 16 RAM- auf Grafikkarte - Gobaler (hat keinen Cache!) - mit konstanten Daten - Texturspeicher

17 Spracherweiterungen (1) - Variablen Erweiterungen für Variablendeklarationen Ablageort device local int localvar; Lokaler device shared int sharedvar; Gemeinsamer device int globvar; Globaler device constant int constvar; auf GPU mit konstanten Daten Block Gitter Gitter Sichtbarkeit Lebensdauer Block Applikation Applikation Zeiger sind nur auf globalen erlaubt. 17

18 Spracherweiterungen (2) - Funktionen Erweiterungen für Funktionsdeklarationen Nur ausführbar auf Nur aufrufbar auf device float gpufunction() GPU GPU global void kernelfunction() GPU Wirtsrechner host float hostfunction() Wirtsrechner Wirtsrechner device und global-funktionen unterstützen keine Rekursion Deklaration statischer Variablen innerhalb der Funktion Variable Anzahl an Argumenten 18

19 Spracherweiterungen (3) Eine Funktion, die auf der GPU ausgeführt werden soll, erhält eine Ausführungskonfiguration global void kernelfunktion(params); //Aufruf kernelfunktion<<<gitterdim, BlockDim, BytesSharedMem>>>(params) Anzahl Blöcke im Gitter Anzahl Fäden in einem Block Die Konfigurationsparameter der Ausführungskonfiguration werden vor den Funktionsparametern evaluiert. Alle Parameter werden der GPU über den gemeinsamen übergeben. Größe des gemeinsamen s, der dynamisch pro Block alloziert werden soll 19

20 Spracherweiterungen (4) Atomare Operationen atomicadd(), Sub, Min, Max, Inc, Dec atomicand(), Or, Xor atomicexch(), atomiccas() //nur für globalen Synchronisation void synchthreads(); Ist Barriere, die (nur) für alle Fäden in einem Block gilt Sonst keine weiteren Synchronisationskonstrukte 20

21 Spracherweiterungen (5) Abfrage von IDs threadidx Variable enthält den Index eines s innerhalb eines Blocks blockidx Variable enthält Index eines Blocks innerhalb eines Gitters blockdim Abfrage der Dimensionen eines Blocks (z.b. blockdim.x) 21

22 Beispiel: Vektoraddition (1/2) Ausführung auf GPU //Berechne elementweise C = A + B //jeder führt Addition aus //Aufruf von Wirtsrechner, Ausführung auf GPU global void vecadd(float* A, float* B, float* C) { int i = threadidx.x + blockdim.x * blockidx.x; Index eines s #Fäden/Block Index eines Blocks C[i] = A[i] + B[i]; 22 }

23 Beispiel: Vektoraddition (2/2) int main() {... //alloziere & initialisiere für A, B auf Host float *h_a=...; *h_b=...; Ausführung auf Wirtsrechner (Host) //alloziere für A, B, C auf GPU float *d_a, *d_b, *d, C; cudamalloc( (void**) &d_a, N*sizeof(float)); cudamalloc( (void**) &d_b, N*sizeof(float)); cudamalloc( (void**) &d_c, N*sizeof(float)); //kopiere Inhalte von Host auf GPU cudamemcpy( d_a, h_a, N*sizeof(float), cudamemcpyhosttodevice) ); cudamemcpy( d_b, h_b, N*sizeof(float), cudamemcpyhosttodevice) ); 23 } //Vektoraddition für Vektorlänge N, mit N/256 Blöcken //und mit je 256 Fäden pro Block vecadd<<<n/256, 256>>>(d_A, d_b, d_c);

24 Anmerkungen CUDA-Konzept im Hinblick auf allgemeine Programmierung an vielen Stellen noch verbesserbar bzw. erweiterbar (z.b. bessere Transparenz der zugriffe, Parallelisierungskonstrukte auf höherer Abstraktionsebene, ) Vorgehen bei Fehlersuche CUDA-Übersetzer in Emulationsmodus versetzen Hardware + Fäden werden komplett auf CPU (sequenziell) emuliert Nutzung von Konsolenausgabe, setzen von Haltepunkten, usw. dann möglich FPUs halten sich bei Gleitkommaberechnungen nicht an den gängigen IEEE 754-Standard Numerische Ergebnisse können abweichen 24

25 CUDA 3.0 Einige Neuerungen und Verbesserungen Unterstützung von C++ Template- und Klassenvererbung Verbessert Programmierbarkeit / Produktivität API für Direct3D und OpenGL Verbesserung des Debuggers cuda-gdb Performanz: Bis zu Faktor 100 schneller Hardware-Unterstützung für Debugging in Anwendungen, welche die CUDA Driver API verwenden CUDA Memory Checker (neu) u.a. Erkennung von Out of Bounds Fehlern Unterstützung von OpenCL Mehr Informationen: 25

26 OpenCL Open Computing Language first open, royalty-free standard for general-purpose parallel programming of heterogeneous systems Teilmenge von ISO C99 mit einigen Erweiterungen Standard: Khronos Group Ziel: Effizienter und portabler Code für heterogene Architekturen, die gemischt aus Multikern-CPUs, GPUs, Cell oder z.b. DSP bestehen. Start: Juni 2008; aktuell: V. 1.1 (Juni 2010) IEEE 754 konform In Mac OS Snow Leopard bereits enthalten Kernroutinen (Kerlnel) -Konzept ähnlich zu CUDA 26

27 OpenCL Vergleich zu CUDA Konzepte ähnlich (z.b. Kernel-Konzept, vgl. Vektoraddition-Bsp.) modell Quelle: Synchronisation: Mit Barrieren, nur innerhalb einer workgroup 27

28 Ausblick Weitere Co-Prozessor-Ansätze Beispiel: Clearspeed Advance e720 Erweiterungskarte für PC ~96 GFLOPS 2GB RAM Bandbreiten: 192 GB/s zum internen, 8GB/s zum Rechner-Hauptspeicher Bit Genauigkeit Konform zu IEEE-Gleitkomma-Standard 28