Intel Xeon Phi. Praktikum Parallele Rechnerarchitekturen May 13,

Größe: px

Ab Seite anzeigen:

Download "Intel Xeon Phi. Praktikum Parallele Rechnerarchitekturen May 13,"

Gregor Wagner
vor 6 Jahren
Abrufe

1 Intel Xeon Phi Praktikum Parallele Rechnerarchtitekturen Praktikum Parallele Rechnerarchitekturen May 13,

2 Overview Aufbau & Programmierung State-of-the-Art Manycore Chip HPC Tools Performance-Modellierung Slides Fragen/Kontakt Johannes Büro (Blaues Hochhaus) Praktikum Parallele Rechnerarchitekturen May 13,

3 Outline Hardware SLURM Intel C Compiler STREAM Benchmark likwid Exercises Praktikum Parallele Rechnerarchitekturen May 13,

4 Zum Aufwärmen Sandy Bridge-EP Package 0 Package 1 Memory MC shared LLC QPI QPI QPI QPI shared LLC MC Memory Praktikum Parallele Rechnerarchitekturen May 13,

5 256 bit 32KB L1 Instruction Cache 128 bit Predecode Instruction Queue Complex Decoder Simple Decoder Simple Decoder Simple Decoder MSROM 1536 uop (L0) Cache 256KB Unified L2 Cache Decoded Instruction Queue Renamer / Scheduler / Dispatcher Port 0 Port 1 Port 5 Port 2 Port 3 Port 4 ALU V-MUL V-SHUF Fdiv 256- FP MUL 256- FP Blend ALU V-ADD V-SHUF 256- FP ADD ALU JMP 256- FP Shuf 256- FP Bool 256- FP Blend Load Data AGU Load Data AGU Store Data Memory Control 256 bit 128 bit 256 bit 32KB L1 Data Cache Praktikum Parallele Rechnerarchitekturen May 13,

6 Übersicht Intel Xeon Phi core core core core L2 cache L2 cache L2 cache L2 cache PCIe Logic CRI CRI CRI CRI GDDR5 MC TD TD TD TD GDDR5 MC GDDR5 MC TD TD TD TD GDDR5 MC core core core core L2 cache L2 cache L2 cache L2 cache CRI CRI CRI CRI Praktikum Parallele Rechnerarchitekturen May 13,

7 Core Pipeline Intel Xeon Phi 256 bit 32 KiB L1 Instruction Cache Instruction Fetcher and Branch Prediction Unit Tag Directory Core Ring Interconnect 512 KiB Unified L2 Cache B0-V B1-V B0-U B0-V B0-U B0-V B0-U B0-V B0-U B1-U B1-V B1-U B1-V B1-U B1-V B1-U Thread 0 Thread 1 Thread 2 Thread 3 Decode V-Pipe U-Pipe Memory Control Prefetch Buffers Picker Function Execution Pipelines 512 bit 512 bit 32 KiB L1 Data Cache Praktikum Parallele Rechnerarchitekturen May 13,

8 SIMD Vektorisierung Vektorregister Auf der CPU o SSE (128bit) o AVX (256bit) 256 bits A[0] A[1] A[2] A[3] A[4] A[5] A[6] A[7] ymmx 256 bits A[0] A[1] A[2] A[3] 32 bits (1 float) 64 bits (1 double) A[0] A[1] A[2] A[3] xmmx A[0] A[1] 128 bits 128 bits Auf dem Xeon Phi o IMCI (512bit) 512 bits A[0] A[1] A[2] A[3] A[4] A[5] A[6] A[7] A[8] A[9] A[10] A[11] A[12] A[13] A[14] A[15] 32 bits (1 float) A[0] A[1] A[2] 512 bits A[3] A[4] A[5] A[6] A[7] 64 bits (1 double) Praktikum Parallele Rechnerarchitekturen May 13,

9 SIMD Vektorisierung Instruktionen 256 bits A[0] A[1] A[2] A[3] A[4] A[5] A[6] A[7] ymmx B[0] B[1] B[2] B[3] B[4] B[5] B[6] B[7] ymmy C[0] C[1] C[2] C[3] C[4] C[5] C[6] C[7] ymmz 32 bits bits k1 1 bit 512 bits A[0] A[1] A[2] A[3] A[4] A[5] A[6] A[7] A[8] A[9] A[10] A[11] A[12] A[13] A[14] A[15] zmm0 32 bits (1 float) B[0] B[1] B[2] B[3] B[4] B[5] B[6] B[7] B[8] B[9] B[10] B[11] B[12] B[13] B[14] B[15] zmm1 C[0] C[1] C[2] C[3] C[4] C[5] C[6] C[7] C[8] C[9] C[10] C[11] C[12] C[13] C[14] C[15] zmm2 Praktikum Parallele Rechnerarchitekturen May 13,

10 Comparison Hardware Cores/Clock SIMD Peak TFlop/s Peak BW Price* Tesla K20 13/706MHz 192SP/64DP 3.5SP/1.2DP 208GB/s $3,000 Knights Corner 60/1.05GHz 16SP/8DP 2.0SP/1.0DP 320GB/s $2,600 2S-SandyEP 2x8/ca. 3GHz 8SP/4DP 0.8SP/0.4DP 2x51GB/s $3,000 * Fall 2013 Praktikum Parallele Rechnerarchitekturen May 13,

11 Outline Hardware SLURM Intel C Compiler STREAM Benchmark likwid Exercises Praktikum Parallele Rechnerarchitekturen May 13,

12 SLURM Einloggen auf Headnode o ssh faui36b Interaktiven Job submitten o srun -w nomad -c1 -t100:00 --pty bash l Hinweise o nomad Hostrechner mit zwei Intel Xeon Phi Acceleratoren o -c1 Anzahl reservierte Cores (1 zum Arbeiten/Übersetzen, 32 zum Messen) o -t100:00 Reservierungszeit, 100 Minuten ist Maximum (Speichern nicht vergessen, wenn die Zeit abgelaufen ist, werdet ihr vom System gekickt!) o --pty bash l Interaktiver Job (Terminal kaputt? ssh nomad nach Allokation) Per SSH auf MIC-Acceleratoren verbinden o ssh mic0 o ssh mic1 Praktikum Parallele Rechnerarchitekturen May 13,

13 Outline Hardware SLURM Intel C Compiler STREAM Benchmark likwid Exercises Praktikum Parallele Rechnerarchitekturen May 13,

14 Intel C Compiler Statt der Gnu Compiler Collection (GCC) benutzen wir den Intel C Compiler: Der Intel C Compiler (icc) optimiert teilweise erheblich besser für Intel Architekturen als GCC Die meißten Argumente sind identisch, z.b. o gcc O3 fopenmp test.c o test o icc O3 openmp test.c o test Hinweise für Xeon Phi o Per default wird Code für x86 generiert à Zielarchitektur mit Flag mmic ändern o Übersetzen immer auf Hostrechner (nomad) Kurzfristig aufgetretener Bug mit dem Lizenzserver o Fix: $ export LM_PROJECT=iwi3 Praktikum Parallele Rechnerarchitekturen May 13,

15 Outline Hardware SLURM Intel C Compiler STREAM Benchmark likwid Exercises Praktikum Parallele Rechnerarchitekturen May 13,

16 The STREAM Benchmark URL Zum Messen der Hauptspeicherbandbreite stream.c laden und übersetzen icc -openmp -fno-alias -O3 mmic stream.c -o stream Compilerflags -openmp Aktiviert OpenMP-Support -fno-alias Kein Pointer-Aliasing -O3 Diverse Optimierungen (ggf. auf Kosten d. Genauigkeit) -mmic Zielarchitetur MIC (Many Integrated Cores) Praktikum Parallele Rechnerarchitekturen May 13,

17 Outline Hardware SLURM Intel C Compiler STREAM Benchmark likwid Exercises Praktikum Parallele Rechnerarchitekturen May 13,

18 likwid Entwickelt von Jan Treibig am RRZE Schweizer Armeemesser für HPC o likwid-topology Zeigt Informationen über Node o likwid-pin Affinität einstellen o likwid-bench - Microbenchmarks o likwid-perfctr Auslesen der Hardware Performance Counter o likwid-powermeter Energieverbrauch messen Praktikum Parallele Rechnerarchitekturen May 13,

19 Thread Affinität Bsp. Sandy Bridge-EP Package 0 Package 1 Memory MC shared LLC QPI QPI QPI QPI shared LLC MC Memory Praktikum Parallele Rechnerarchitekturen May 13,

20 likwid-pin Ohne Argumente werden alle logischen Cores benutzt o likwid-pin <binary> Komplexeres Thread-Pinning o Auszug aus likwid-pin --help [...] 2. Expressions based thread list generation with compact processor numbering. Example usage expression: likwid-pin -c E:N:8./myApp This will generate a compact list of thread to processor mapping for the node domain with eight threads. The following syntax variants are available: [...] 1. -c E:<thread domain>:<number of threads> 2. -c E:<thread domain>:<number of threads>:<chunk size>:<stride> For two SMT threads per core on a SMT 4 machine use e.g. -c E:N:122:2:4 Praktikum Parallele Rechnerarchitekturen May 13,

21 likwid-pin Beispiele o likwid-pin c E:N:1:1:4 1 Thread pro Core, 1 Core o likwid-pin c E:N:10:1:4 o likwid-pin c E:N:30:2:4 o likwid-pin c E:N:120:3:4 1 Thread pro Core, 10 Cores 2 Threads pro Core, 15 Cores 3 Threads pro Core, 40 Cores o likwid-pin c E:N:240:4:4 4 Threads pro Core, 60 Cores Praktikum Parallele Rechnerarchitekturen May 13,

22 Setup von likwid Neuestes stable release mit support für KNC Download unter o o oder Nach entpacken Datei config.mk anpassen o o compiler = MIC PREFIX = Installationspfad, z.b. $(HOME)/likwid/MIC/ Übersetzen & Installieren o make && make install Testen nomad:~ hofmann$ ssh mic0 ~ $./likwid/mic/bin/likwid-topology CPU type: Intel Xeon Phi Coprocessor [...] Praktikum Parallele Rechnerarchitekturen May 13,

23 Outline Hardware SLURM Intel C Compiler STREAM Benchmark likwid Exercises Praktikum Parallele Rechnerarchitekturen May 13,

24 Exercises Aufgaben für diese Woche: 1. Core-Scaling-Plot (x-achse: Zahl der Cores; y-achse Bandbreite) für Copy Kernel aus dem STREAM Benchmark für Xeon Phi mit o o 1 Thread/Core; und 4 Threads/Core 2. Stencil-Code aus vorherigen Übungen auf Xeon Phi o o o Implementieren Vorlage: Optimieren (z.b. sinnvolles Cache-Blocking für große Gitter, pragma vector nontemporal) Messungen für Größen 2ˆ5...2ˆ13 Plot (x-achse: Problemgröße, y-achse: Performance in GUP/s) Messen mit & ohne likwid o Bei likwid-messungen mit Zahl der Threads pro Core experimentieren Praktikum Parallele Rechnerarchitekturen May 13,

25 Bsp: Single-Socket STREAM Copy auf Sandy-EP Copy (no SMT) Copy (2-SMT) bandwidth [MiB/s] core count Praktikum Parallele Rechnerarchitekturen May 13,

Ähnliche Dokumente

Multicore Parallelismus! in modernen CPUs

Multicore Parallelismus! in modernen CPUs Johannes Hofmann, 21.5.2014 Seminar Architekturen von Multi- und Vielkern-Prozessoren Universität Erlangen-Nürnberg Lehrstuhl für Rechnerarchitektur Informatik