GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm Organiosatorisches. Tutorial CUDA. Ralf Seidler

Größe: px

Ab Seite anzeigen:

Download "GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm Organiosatorisches. Tutorial CUDA. Ralf Seidler"

Vincent Messner
vor 7 Jahren
Abrufe

1 Friedrich-Alexander-Universität Erlangen-Nürnberg

2 Outline 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm 4 Organiosatorisches

3 Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm 4 Organiosatorisches

4 Eine kurze Geschichte der Grafikkarten Ursprünglich: Video Card steuert Monitor an Mitte 80er: Grafikkarten mit 2D-Beschleunigung angelehnt an Arcade- und Home-Computer Frühe 90er: erste 3D-Beschleunigung: Matrox Mystique, 3dfx Voodoo Rastern von Polygonen Textur Polygon Abbildung

5 Eine kurze Geschichte der Grafikkarten Direct3D 10 Pipeline

6 Eine kurze Geschichte der Grafikkarten 2000er: Zunächst nur Fixed-Function-Pipeline Shader-Programme bieten mehr Flexibilität Shader-Programme ursprünglich nur einfache Listen 2002: ATI Radeon 9700 kann Loops in Shadern ausführen Heute: Shader turing-vollständig Hersteller: Intel, ATI und NVIDIA Massenmarkt niedrige Preise

7 GPGPUs GPGPU = General Purpose Graphics Processing Unit Grafikkarten zunehmend flexibler programmierbar Stetig wachsende Leistung Geeignet für Streamprozessing: Geringes Verhältnis IO-zu-Rechenlast Datenparallelität (SIMD-Verarbeitung) Single precision wichtiger als double precision

8 Aufbau GPGPU Bus- Interface (z.b. PCIe) GPGPU Multi-Prozessor Shader Shader... Lokaler Speicher Globaler Speicher Multi-Prozessor...

9 Eigenschaften von GPGPUs Viele einfache Cores, genannt Skalarprozessoren (SP) Keine Sprungvorhersage etc. Gruppiert in Multi-Prozessoren (Vektorprozessoren) Probleme bei nicht einheitlichen Sprüngen Viele Register Großer, langsamer, globaler Speicher (Latenz: Taktzyklen) Kleine, schnelle on-chip Shared-Memory-Blöcke

10 GPGPU: GeForce G80

11 Programmierung Sehr viele, kurzlebige Threads Threads in Blöcken gruppiert Blöcke auf Multi-Prozessoren verteilt Standards: CUDA (NVIDIA, Marktführer) OpenCL (offener Standard, entsprechend zu OpenGL) FireStream (AMD) DirectCompute (Microsoft)

12 NVIDIA Tesla System am Lehrstuhl Core i7 2.6 GHz 12 GB DDR3-RAM 3 Tesla C 1060 mit je: 30 Multiprozessoren mit je 8 SPs = 240 Cuda-Cores 1.3 GHz SPs je 16 kb Shared Memory 3 MPs teilen sich einen Texturcache 512 Bit Speicherinterface 4 GB GDDR3 800 MHz damit Speicherdurchsatz von max. 102 GB/s maximal 933 GFlops SP - 78 GFlops DP

13 Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm 4 Organiosatorisches

14 CUDA Einstieg I Programmierung in C einzelne Funktionen laufen auf GPU in sog. Kernels (Function-Offloading) Compiler nvcc separiert Code, baut auf gcc auf Programm wird in Host-Code (Standard C) und Device-Code (CUDA) unterteilt Unterscheidung der Funktionen durch Qulifier host als CPU Funktionen (nicht notwendig) device GPGPU Funktionen (wichtig) global Einsprungpunkte in CUDA Code

15 CUDA Einstieg - Speicherverwaltung Speicher wird ebenfalls durch Qualifier beschrieben normaler Speicher im System-RAM device in globalem Speicher auf der GPU shared im Shared-Memory auf den Multiprozessoren CUDA-API für Speicheroperationen Allokation/Deallokation von globalem Speicher (cudamalloc()) Transfer System-RAM GPU-RAM (cudamemcpy()) In Kernels Transfer globaler Speicher Shared-Memory Zusätzliche spezielle Speicherbereiche Konstanten (gecached) Texturen (gecached, mehrdimensionale Adressierung, Filterung)

16 CUDA Einstieg - SDK Auf Tesla ist CUDA Toolkit 3.0 installiert unter /opt/cuda/sdk liegt CUDA SDK 3.0 Beta in Home-Verzeichnis kopieren unter C/src/ finden sich einige Beispiele, die als Template für die Implementierung dienen können Makefiles in jedem Projekt vorhanden make erzeugt ausführbare Datei in C/bin/linux/release make emu=1 erzeugt in C/bin/linux/emurelease Emulations-Code in dem dann auch Host-Funktionen wie z.b. printf() genutzt werden dürfen

17 Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm 4 Organiosatorisches

18 Matrixmultiplikation - Kernel global void matmul ( f l o a t a, f l o a t b, f l o a t c ) { i n t 2 coord ; coord. x = blockdim. x b l o c k I d x. x+ threadidx. x ; coord. y = blockdim. y b l o c k I d x. y+ threadidx. y ; f l o a t sum =0; for ( i n t z =0; z<dim ; z ++) { sum +=a [ coord. y DIM+z ] b [ z DIM+coord. x ] ; } c [ coord. y DIM+coord. x ]=sum ; }

19 Matrixmultiplikation - Main i n t main ( ) { dim3 blockdim (128,128,1); dim3 griddim ( DIM/128,DIM / 1 2 8, 1 ) ; i n t a [ DIM DIM ], b [ DIM DIM ], res [ DIM DIM ] ; i n t deva, devb, devres ; i n t bytesize = DIM sizeof ( i n t ) ; cudamalloc ( ( void )&deva, bytesize ) ; cudamalloc ( ( void )&devb, bytesize ) ; cudamalloc ( ( void )&devres, bytesize ) ; cudamemcpy ( deva, a, bytesize, cudamemcpyhosttodevice ) ; cudamemcpy ( devb, b, bytesize, cudamemcpyhosttodevice ) ; matmul<<<griddim, blockdim, 0>>>(devA, devb, devres ) ; cudamemcpy ( res, devres, bytesize, cudamemcpydevicetohost ) ; for ( i n t i =0; i <DIM ; i ++) { for ( i n t j =0; j <DIM ; j ++) p r i n t f ( "%d ", res [ i + j DIM ] ) ; p r i n t f ( " \ n " ) ; } return 0; }

20 Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm 4 Organiosatorisches

21 Organisatorisches Bei CUDA zwei 2er Gruppen: 1 Verfahren nach Hunt 2 Raytracing Für Accounts auf der Tesla an: andreas.schaefer@informatik.uni-erlangen.de

Ähnliche Dokumente

GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm. Einführung CUDA. Ralf Seidler. Friedrich-Alexander-Universität Erlangen-Nürnberg

GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm. Einführung CUDA. Ralf Seidler. Friedrich-Alexander-Universität Erlangen-Nürnberg Einführung CUDA Friedrich-Alexander-Universität Erlangen-Nürnberg PrakParRA, 18.11.2010 Outline 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell