OPENCL. Praktikum Parallele Rechnerarchitekturen, 2015w Franz Richter-Gottfried

Größe: px

Ab Seite anzeigen:

Download "OPENCL. Praktikum Parallele Rechnerarchitekturen, 2015w Franz Richter-Gottfried"

Annika Schmid
vor 7 Jahren
Abrufe

1 OPENCL Praktikum Parallele Rechnerarchitekturen, 2015w Franz Richter-Gottfried

2 INFRASTRUCTURE Overview, Manuals Login, Development, Interactive test $ssh faui36b $srun --pty bash 2

3 OPENCL Open standard (Khronos) Alternative to CUDA on Nvidia GPUs Started by Apple, supported by AMD, Intel, others Under active development Supports CPU, GPU, Xeon Phi, FPGA, Programmer expresses data dependencies explicitly Inherently parallel programming model 3

4 FALLACY OpenCL platform independent But: Portable code portable performance Target aware optimization required! 4

5 OPENCL SDK OpenCL Plattform: Header, Compiler, Host-Library Kernel: Actual program Host-Library: Create/manage Kernels ICD: Installable Client Driver to select platform at runtime of host 5

6 OPENCL PLATFORM MODEL 6

7 LEBENSZYKLUS clcreatecontext() clcreatecommandqueue() clcreateprogramwithsource() or clcreateprogramwithbinary() clbuildprogram() clcreatekernel() clsetkernelarg() clenqueuendrangekernel() clfinish() clreleasekernel() clreleaseprogram() clreleasecommandqueue() clreleasecontext() 7

8 OPENCL MEMORY MODEL OpenCL CUDA Location Global Global VRAM Local Shared GPU Constant Constant VRAM Private Register/Local GPU/VRAM 8

9 OPENCL MEMORY MODEL 9

10 OPENCL EXECUTION MODEL 10

11 COMPILATION 11

12 COMPILER clbuildprogram() Select Devices Compiler optiones (-D..., -w, -cl-opt-disable, ) Possible to compile asynchronously clgetprogrambuildinfo() Check compiler status Get compiler output Useful to fix errors in code 12

13 KERNEL PARAMETERS kernel void foo(int scalar, global float* buffer) { } Scalars by-value clsetkernelarg(kernel, 0, sizeof(int), &example_int); Buffer in Global Memory clsetkernelarg(kernel, 1, sizeof(cl_mem), &example_buffer); No data transfer at that time! 13

14 START KERNEL clenqueuendrangekernel() Configures Dimension (1D,2D,3D) Global-Size Local-Size (optional) Local-Size can be chosen by OpenCL-driver But: often limited performance Non-blocking call! 14

15 DATA TYPES Size of C types platform dependent OpenCL provides types for host: cl_(u)char, cl_(u)short, cl_(u)int, cl_(u)long, cl_float, cl_double Use normal types in OpenCL program Vectors (u)charn, (u)shortn, (u)intn, (u)longn, floatn, doublen, with n 2,3,4,8,16 double in OpenCL 1.1 #pragma OPENCL EXTENSION cl_khr_fp64 : enable in OpenCL program 15

16 TYPICAL CALLS Functions: clcreatebuffer() Allocate buffer on host clenqueuemapbuffer() Access buffer on host clenqueuewritebuffer() Start data transfer clenqueuecopybuffer() Copy buffer clenqueuendrangekernel() Execute clenqueuereadbuffer() Read results clreleasememobject() Release buffer 16

17 COMMAND QUEUE Part of one OpenCL context Queue with jobs for device In-order or out-of-order clflush() sent all jobs to device clfinish() wait for completion clenqueuebarrier() manual memory synchronization Course-grained synchronization (alternative: events) 17

18 BUILT-INS Functions for Kernel to Identify current work item get_work_dim(), get_global_size(), get_global_id(), get_local_id(), Synchronize [read_/write_]mem_fence() barrier() Transfer data async_work_group_copy() prefetch() Compute cross(), dot(), sin(), pow() min(), max(), Atomics atomic_add(), atomic_sub(), 18

19 ADDRESS SPACE Global variables (outside of functions/kernel) constant, must be initialized Arguments private (auto) Pointer to global, local, constant Local variables private (auto) local global: VRAM constant: VRAM, read-only local: shared in work group private: only visible for work item 19

20 LOCAL MEMORY Shared memory for work group In kernel: local float foo[256]; Or: declaration in kernel kernel void foo( local float* var) allocation in host: clsetkernelarg(kernel, 0, 256 * sizeof(cl_float), NULL); 20

21 SYNCHRONIZATION Only between work items of the same work group barrier() mem_fence() read_mem_fence() write_mem_fence() No synchronization between work groups Split kernels, enqueuer separately 21

22 TIME On CPU Synchronize non-blocking functions (with clfinish(), clwaitforevents()) Problem: Multiple command queues On Device OS independent (events) clgeteventprofilinginfo() returns start, end in ns Create command queue with flag CL_QUEUE_PROFILING_ENABLE 22

23 EXERCISE 1: CPU Query all platforms and devices on faui36b Write Hello World -kernel, run on each SMT core Reserve node via Slurm for benchmarks Measure memory bandwidth, data size 1KiB 1GiB (64 samples) for different work group sizes (auto, 2, 4, 8, 16, 32, 64). Compare results to theoretical peak performance 23

24 EXERCISE 2 Implement Jacobi Iteration as OpenCL kernel Benchmark different grid sizes (again 1KiB 1GiB) Try to optimize kernel, e.g. by blocking, vectors, amount of work items, Can you achieve optimal performance using OpenCL? 24

25 GPGPU WITH OPENCL Praktikum Parallele Rechnerarchitekturen, 2015w Franz Richter-Gottfried

26 INFRASTRUCTURE Enqueue interactive job srun --gres <card> --pty bash Graphics cards available for <card> tesla_k20, tesla_c2050 Run OpenCL kernel 26

27 GPGPU Grafikprozessor (GPU) Hoch parallel Programmierbar Grafikspezifische Sonderfunktionen Speicher (VRAM) Optimiert auf Bandbreite Derzeit meist GDDR5 oder DDR3 PCIe Anbindung an CPU Kommunikation, Steuerung, Datentransfer 27

28 EVOLUTION GPGPU (NVIDIA) Former: fixed Pixelpipeline SIMT (Single Instrunction, Multiple Thread) Since Tesla: programmable Streaming Multiprocessors (SMs) SMs execude programs on scalar CUDA Cores 32 Threads work synchronously (Warp) Compute Capability reflects Hardware features 28

29 NVIDIA GENERATIONS ? 29

30 TESLA (CC 1.0, 1.3) Bis zu 30 Streaming-Multiprozessors (SM) 8 Streaming-Processors (SP,Cuda Cores) 30 FP64/Takt 16 Cluster, je 2x8SM 2 SFUs, 1 Warp Scheduler 16KiB Shared Memory (L1/L2 nur für Texturen) 32KiB Register File Constant Cache PCIe Gen 1 GDDR3, 384/512 Bit/Takt SP: 933 GFLOPS, DP: 78 GFLOPS (GT200) 30

31 FERMI (2.0) Bis zu 16 SM 32 SP Cuda Cores 16 Load/Store 4 SFUs 64 KiB Shared Mem/L1 (16/48 oder 48/16) SP unterstützt DP, benötigt kein Dual Issue mehr 32k x 4 Byte Register pro SM PCIe Gen2 768 KiB Unified L2 (D, I, Textur) Bis zu 6GiB GDDR5, 192 GiB/s, Latenz: Zyklen SP: 1.3 TFLOPS, DP: 0,6 TFLOPS 31

32 KEPLER (3.0, 3.5, 3.7) Bis zu 15 SMX 192 SP 4 Warp Scheduler, je 2 Dispatch Units 64k Register Dedizierte FP64 Cores ECC 255 Register/Thread 64 KiB Shared Memory/L1 (16,32,48), 256 B/Takt 48KiB Read-Only Cache 1.5 MiB L2 Cache PCI Gen 3.0 GDDR5 mit 192 GiB/s SP: 4,3 TFLOPS, DP: 1,4 TFLOPS Verwendete Grafikkarte: Geforce 630, 2 GiB DDR3, CC

33 MAXWELL (5.0, 5.2) Bis zu 16 SMM 128 SP 4 Blöcke mit je 32 SP Warp Scheduler, 2 Instr. Scheduler 16k Register 96 KiB Shared Memory Bis zu 2 MiB L2 Cache, für alle SM GDDR5 mit 224 GiB/s SP: 6.6 TFLOPS, DP: 0,2 TFLOPS 33

34 OPTIMIERUNG Geschwindigkeit abhängig von Auslastung Speicherbandbreite Instruktionsdurchsatz Architekturabhängig Für andere Generationen ggf. andere Werte optimal cl_nv_device_attribute_query() liefert u.a. Compute Capability Warp-Größe 34

35 COMPILERFLAGS FP-Optimierungen nutzen -cl-mad-enable -cl-fast-relaxed-math Nvidia-spezifisch: -cl-nv-maxrregcount <N> Begrenzt Registeranzahl pro Thread. Gerundet auf Vielfache von 4 Standard: Unbegrenzt -cl-nv-opt-level <N> Optimierungsgrad 0: keine, Standard: 3 -cl-nv-verbose Informationen über Register-, Speicherverbrauch im Build Log Unterstützt bei Optimierung der Partitionierung 35

36 INSTRUKTIONEN Mehr Work-Items statt Vektoren char, short müssen meist in int konvertiert werden float-konstanten als x.yf angeben, sonst double Divergierende Ausführungspfade innerhalb Warps vermeiden divergierende Warps (local_id/warp_size) Native Hardwarefunktionen (native_sqrt(), native_exp(), ) 36

37 PINNED MEMORY cudahostalloc() Verhindert Auslagerung von Pages auf der Festplatte Zuordnung virtuelle physikalische Adresse konstant Kann DMA-Transfer zwischen RAM und VRAM beschleunigen In OpenCL treiberabhängig, nicht garantiert Empfehlung von Nvidia: clcreatebuffer(, CL_MEM_ALLOC_HOST_PTR, ) clenqueuemapbuffer() 37

38 COALESCING V.a. für GPUs ohne Cache (CC < 2) Optimiert Zugriff auf Global Memory Zugriffe benachbarter Work-Items (innerhalb eines Half-Warps) auf benachbarte Elemente im Speicher kann zu einem Zugriff zusammengefasst werden 38

39 LOCAL MEMORY Entspricht shared memory Speichert Kernelargumente Aufgeteilt in unabhängig adressierbare Bänke 32 Bit pro Bank werden pro Takt übertragen Bankanzahl architekturabhängig Verwendung: Zwischenspeichern von Daten aus Global Memory Umordnen von Daten für coalescen Zugriff 39

40 NDRANGE Anzahl Work-Items abhängig von Maximaler Anzahl Threads pro SM Registeranzahl Hohe Anzahl an Work-Items um ALU-Latenz durch Warp-Wechsel zu verstecken Auslastung bestimmbar mittels Cuda Occupancy Calculator ( tools) Faustregeln Mehr Work Groups als Multiprozessoren (Faktor 2, Faktor 100 für künftige GPUs) Work Group Size vielfaches der Warp-Größe Mindestens 64 Work-Items pro Work Group, besser , falls mehrere Work Groups Meist keine höhere Geschwindigkeit durch Optimierung, wenn Auslastung bereits ~50% Experimentieren 40

41 WERKZEUGE Nvidia Nsight for Visual Studio OpenCL Visual Profiler 41

Ähnliche Dokumente

GPGPU WITH OPENCL. Praktikum Parallele Rechnerarchitekturen, 2015w Franz Richter-Gottfried

GPGPU WITH OPENCL. Praktikum Parallele Rechnerarchitekturen, 2015w Franz Richter-Gottfried GPGPU WITH OPENCL Praktikum Parallele Rechnerarchitekturen, 2015w Franz Richter-Gottfried INFRASTRUCTURE Enqueue interactive job srun --gres --pty bash Graphics cards available for tesla_k20,