GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm. Einführung CUDA. Ralf Seidler. Friedrich-Alexander-Universität Erlangen-Nürnberg

Größe: px

Ab Seite anzeigen:

Download "GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm. Einführung CUDA. Ralf Seidler. Friedrich-Alexander-Universität Erlangen-Nürnberg"

Franz Damian Falk
vor 7 Jahren
Abrufe

1 Einführung CUDA Friedrich-Alexander-Universität Erlangen-Nürnberg PrakParRA,

2 Outline 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm

3 Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm

4 Eine kurze Geschichte der Grafikkarten Ursprünglich: Video Card steuert Monitor an Mitte 80er: Grafikkarten mit 2D-Beschleunigung angelehnt an Arcade- und Home-Computer Frühe 90er: erste 3D-Beschleunigung: Matrox Mystique, 3dfx Voodoo Rastern von Polygonen Textur Polygon Abbildung

5 Eine kurze Geschichte der Grafikkarten Direct3D 10 Pipeline

6 Eine kurze Geschichte der Grafikkarten 2000er: Zunächst nur Fixed-Function-Pipeline Shader-Programme bieten mehr Flexibilität Shader-Programme ursprünglich nur einfache Listen 2002: ATI Radeon 9700 kann Loops in Shadern ausführen Heute: Shader turing-vollständig Hersteller: Intel, ATI und NVIDIA Massenmarkt niedrige Preise

7 GPGPUs GPGPU = General Purpose Graphics Processing Unit Grafikkarten zunehmend flexibler programmierbar Stetig wachsende Leistung Geeignet für Streamprocessing: Geringes Verhältnis IO-zu-Rechenlast Datenparallelität (SIMD-Verarbeitung) Single precision wichtiger als double precision

8 Aufbau GPGPU Bus- Interface (z.b. PCIe) GPGPU Multi-Prozessor Shader Shader... Lokaler Speicher Globaler Speicher Multi-Prozessor...

9 Eigenschaften von GPGPUs Viele einfache Cores, genannt Skalarprozessoren (SP) Keine Sprungvorhersage etc. Gruppiert in Multi-Prozessoren (Vektorprozessoren) Probleme bei nicht einheitlichen Sprüngen Viele Register Großer, langsamer, globaler Speicher (Latenz: Taktzyklen) Kleine, schnelle on-chip Shared-Memory-Blöcke Integer und DP FP langsam

10 GPGPU: Nvidia G80

11 Neue Architektur - Nvidia GF100 Noch mehr Cores Globaler Speicher gecached Wenige, größere Multiprozessoren Integer und DP FP schnell Zwei Warp-Scheduler pro SM

12 GPGPU: Nvidia GF100

13 Programmierung Sehr viele, kurzlebige Threads Threads in Blöcken gruppiert Blöcke auf Multi-Prozessoren verteilt Standards: CUDA (NVIDIA, Marktführer) OpenCL (offener Standard, entsprechend zu OpenGL) FireStream (AMD) DirectCompute (Microsoft)

14 GPU Systeme am Lehrstuhl faui36i und faui36j mit je 2 Intel Xeon 2.66 GHz 24 GB DDR3-Ram faui36i - Fermi-System: 2 Nvidia Tesla C2050 (448 Cores (14 x 32 Cores)) 3 GB GDDR TFlops SP, 515 GFlops DP 1 Nvidia Geforce GTX 480 (480 Cores (15 x 32 Cores)) 1.5 GB GDDR TFlops SP, 100 GFlops DP faui36j: 3 Nvidia Tesla C1060 (240 Cores (30 x 8 Cores)) 4 GB GDDR TFlops SP, 74 GFlops DP

15 Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm

16 CUDA Einstieg I Programmierung in C einzelne Funktionen laufen auf GPU in sog. Kernels (Function-Offloading) Compiler nvcc separiert Code, baut auf gcc auf Programm wird in Host-Code (Standard C) und Device-Code (CUDA) unterteilt Unterscheidung der Funktionen durch Qualifier host als CPU Funktionen (nicht notwendig) device GPGPU Funktionen (wichtig) global Einsprungpunkte in CUDA Code, definieren Kernel

CUDA Einstieg II - Programmiermodell 1-,2- oder 3-dimensionale Thread-Anordnung Unterscheidung zwischen Thread-Block und Grid Thread-Block: Zusammenschluss von bis zu 1024 Threads Threads

17 CUDA Einstieg II - Programmiermodell 1-,2- oder 3-dimensionale Thread-Anordnung Unterscheidung zwischen Thread-Block und Grid Thread-Block: Zusammenschluss von bis zu 1024 Threads Threads innerhalb eines Thread-Blocks synchronisierbar Shared Memory zum Datenaustausch Immer 32 Threads gleichzeitig aktiv (Warp) Grid: Zusammenschluss der Thread-Blöcke maximal in einer kardinalen Richtung

18 CUDA Einstieg III - Speicherverwaltung Speicher wird ebenfalls durch Qualifier beschrieben normaler Speicher im System-RAM device in globalem Speicher auf der GPU shared im Shared-Memory auf den Multiprozessoren CUDA-API für Speicheroperationen Allokation/Deallokation von globalem Speicher (cudamalloc(), cudafree()) Transfer System-RAM GPU-RAM (cudamemcpy()) In Kernels Transfer globaler Speicher Shared-Memory Zusätzliche spezielle Speicherbereiche (read-only) Konstanten (gecached) Texturen (gecached, mehrdimensionale Adressierung, Filterung)

19 CUDA Einstieg IV - Globale-Speicherzugriffe I Zugriff auf aufeinander folgende Speicheradressen ideal

20 CUDA Einstieg IV - Globale-Speicherzugriffe II Neuere GPUs haben kein Problem mit überkreuzenden Zugriffen

21 CUDA Einstieg IV - Globale-Speicherzugriffe III Aber: Verschobene Zugriffe sind schlecht

22 CUDA Einstieg V - Shared Memory Zugriffe Shared Memory bestehen aus je 32 Bänken Aufeinanderfolgende 32-Bit Wörter in aufeinanderfolgenden Bänken Bandbreite: Je Bank 32 Bits pro 2 Takte Bankkonflikte treten nur auf, wenn zwei oder mehr Threads unterschiedliche 32 Bit Wörter einer Bank adressieren

23 CUDA - Weiterführende Details I Atomic-Funktionen für Thread-Exklusiven Zugriff auf Speicherbereiche: atomicmin/atomicmax atomicadd/atomicsub atomicinc/atomicdec Bis Compute-Capability 1.3 nur auf Integer Daten definiert 2.0 unterstützt auch float Assoziativität? L1-Cache/Shared Memory bei Fermi konfigurierbar: 64 kbyte pro SM verfügbar cudafuncsetcacheconfig(function, cudafunccachepreferl1 cudafunccacheprefershared) L1 48k/Shared 16k L1 16k/Shared 48k

24 CUDA - Weiterführende Details II Multi-GPU: OpenMP Pragmas benutzen cudasetdevice() - setzt die aktuelle Device-ID des Threads Page-Locked Host-Memory: Allokieren von Host-Speicher, der nicht ausgelagert werden darf (pinned memory) cudahostalloc()/cudafreehost() Übertragungsrate Host Device höher Nebenläufige Ausführung und Datentransfers zu Host möglich Teilweise Zero-Copy möglich ACHTUNG: Pinned-Memory ist kostbares Gut

25 CUDA - Weiterführende Details III Host-Funktionen von Kernel ausführbar Seit Compute-Capability 2.0 unterstützt printf() Einfacheres Debugging möglich Achtung: Ausgabe erfolgt PRO Thread, Puffer sehr schnell voll malloc()/free() Maximale Heapsize vorher angeben (Standard 8MB) cudathreadsetlimit(cudalimitmallocheapsize, size) Jeder Thread kann dann Speicher vom Heap allokieren Bleibt über gesamte Ausführung (auch über Kernel-Calls) bestehen und MUSS mit free() freigegeben werden

26 Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm

27 Matrixmultiplikation - Kernel global void matmul ( f l o a t a, f l o a t b, f l o a t c ) { i n t 2 i d ; i d. x = blockdim. x b l o c k I d x. x+ threadidx. x ; i d. y = blockdim. y b l o c k I d x. y+ threadidx. y ; f l o a t sum =0; for ( i n t z =0; z<dim ; z ++) { sum +=a [ i d. y DIM+z ] b [ z DIM+ i d. x ] ; } c [ i d. y DIM+ i d. x ]=sum ; }

28 Matrixmultiplikation - Main i n t main ( ) { dim3 threads ( 1 6, 1 6, 1 ) ; dim3 g r i d ( DIM / threads. x, DIM / threads. y, 1 ) ; f l o a t a [ DIM DIM ], b [ DIM DIM ], res [ DIM DIM ] ; f l o a t deva, devb, devres ; i n t matsize = DIM DIM sizeof ( f l o a t ) ; cudamalloc ( ( void )&deva, matsize ) ; cudamalloc ( ( void )&devb, matsize ) ; cudamalloc ( ( void )&devres, matsize ) ; cudamemcpy ( deva, a, bytesize, cudamemcpyhosttodevice ) ; cudamemcpy ( devb, b, bytesize, cudamemcpyhosttodevice ) ; matmul<<< grid, threads >>>(deva, devb, devres ) ; cudathreadsynchronize ( ) ; cudamemcpy ( res, devres, matsize, cudamemcpydevicetohost ) ; for ( i n t i =0; i <DIM ; i ++) { for ( i n t j =0; j <DIM ; j ++) p r i n t f ( "%d ", res [ i + j DIM ] ) ; p r i n t f ( " \ n " ) ; } return 0; }

Ähnliche Dokumente

Einführung. GPU-Versuch. Andreas Schäfer Friedrich-Alexander-Universität Erlangen-Nürnberg

Einführung. GPU-Versuch. Andreas Schäfer Friedrich-Alexander-Universität Erlangen-Nürnberg GPU-Versuch andreas.schaefer@cs.fau.de Friedrich-Alexander-Universität Erlangen-Nürnberg Praktikum Parallele Rechnerarchitekturen SS2014 Outline 1 Einführung 2 Outlook 1 Einführung 2 Eine kurze Geschichte