Beispielvortrag: HPCG auf Intel Haswell-EP

Größe: px

Ab Seite anzeigen:

Download "Beispielvortrag: HPCG auf Intel Haswell-EP"

Teresa Bretz
vor 6 Jahren
Abrufe

1 Beispielvortrag: HPCG auf Intel Haswell-EP Johannes Hofmann 1 Seminarvortrag Architekturen von Multi- und Vielkern-Prozessoren Erlangen, Computer Architecture, University Erlangen-Nuremberg

2 Hinweise 20 Minuten Vortrag + 5 Minuten Fragen Fragen stellt das Publikum NACH, nicht während des Vortrags Ihr kommt dadurch erstens vielleicht aus dem Konzept Zeitplanung kommt durcheinander Gliederungsfolie optional Normalerweise ergibt sich Ablauf von selbst Für Anfänger dennoch sinnvoll Hilft euch evtl. bei Strukturierung eures Vortrags 2-3 Minuten pro Folie einplanen, sonst ziehen Folien zu schnell an Publikum vorüber Statt alles nur oberflächlich zu erklären, sucht euch die interessantesten Aspekte/Optimierungen und seid bei diesen ausführlich Komplizierte Sachverhalte lassen sich mit einer Grafik oft leichter kommunizieren 2

3 Gliederung Einführung HPCG Verwendete Hardware Optimierungen Single-Core Optimierungen Multi-Core Ergebnisse Conclusion 3

Simulationen Ablauf Algorithmus while (true) { compute daxpy compute

4 HPCG Basiert auf Konjugierte Gradienten Methode Wird benutzt zur Lösung linearer Gleichungssysteme x Findet Anwendung in vielen physikalischen Simulationen Ablauf Algorithmus while (true) { compute daxpy compute spmv compute dot product } compute something else if (converged) break; x 0 4

Verwendete Hardware Xeon E5-2695 v3 (Haswell EP) Nonimal CPU Clock: 2.

5 Verwendete Hardware Xeon E v3 (Haswell EP) Nonimal CPU Clock: 2.3 GHz Number of Cores/Threads 14/28 SIMD width: 256bit (AVX) Caches: 32kB L1, 256kB L2, 35MB L3 Core-private L1 and L2 caches Shared Last-Level (L3) Cache: 14x2.5MB Main memory 4xDDR Theoretical peak bandwidth: 69.3 GB/s 5

6 Sparse Matrix-Vector (SpMV) im Detail int HPC_sparsemv(HPC_Sparse_Matrix *A, double *x, double *y) { int nrow = (int) A->local_nrow; for (int i=0; i< nrow; i++) { double sum = 0.0; double *cur_vals=(double *) A->ptr_to_vals_in_row[i]; int *cur_inds=(int *) A->ptr_to_inds_in_row[i]; int cur_nnz = (int) A->nnz_in_row[i]; for (int j=0; j< cur_nnz; j++) sum += cur_vals[j]*x[cur_inds[j]]; y[i] = sum; } return(0); } Sparse Matrix: Compressed Row Storage (CRS) wird verwendet cur_vals = { 5, 8, 3, 6 }; // matrix cur_inds = { 0, 1, 2, 1 }; // col ptr nnz_in_row = { 0, 0, 2, 3, 4 }; 6

7 Optimierung 1: SIMD Vektorisierung Analyse zeigt, Compiler erzeugt skalaren Code Warum? Weil Abhilfe schafft Compiler Flags (...), hat nicht geklappt Verwendung von Intrinsics (...), hat nicht geklappt Innere Schleife musste in Assembly implementiert werden (ich hoffe, das bleibt euch erspart),... Skalara Addition durch AVX ADD ersetzt Wir erwarten Speedup von... Wir erhalten Speedup von..., weil bit / 32 byte A[0] A[1] A[2] A[3] A[4] A[5] A[6] A[7] B[0] B[1] B[2] B[3] B[4] B[5] B[6] B[7] = = = = = = = = C[0] C[1] C[2] C[3] C[4] C[5] C[6] C[7] 7

8 Weitere Optimierungen Blocking? Unrolling? Instruction Replacement (Division vs. Mult mit Reziprok)? Instruction Reordering (Instruktionslatenzen)? Non-temporal stores? SMT? Änderung Datenstruktur? 8

9 Zusammenfassung: Single-Core Baseline ist naive implementierung Single-Core Performance: x Some Metric Optimierung 1: SIMD Single-Core Performance: x Some Metric (Speedup y) Optimierung 2:??? Single-Core Performance: x Some Metric (Speedup y) Performance [made up unit] Naive opt1 opt2 opt3 Optimierung 3:??? Single-Core Performance: x Some Metric (Speedup y)

10 Multi-Core Parallelisierung Jeder Thread arbeitet hauptsäschlich auf eigenen Daten Kommunikation maximal mit zwei Nachbarn Reguläres Muster beim Datenzugriff Statische Partitionierung #pragma omp parallel for schedule(static) private(y,x) for (int i=0; i< nrow; i++) {... 10

11 Multi-Core Ergebnisse Performance [made up unit] Naive AVX +Blocking +SMT Bandwidth Limit SIMD Vektorisierung bringt Steigerung der Performance um Faktor 2 Wir erwarten Steigerung um Faktor 4, Problem hier ist Code saturiert mit AVX+Blocking ab 12 Kernen Mit SMT Saturierung schon bei 8 Kernen Weniger Energieverbraucht, da nur 8 (statt 12) Kerne benutzt werden müssen Number of Cores 11

12 Zusammenfassung Single-Core SIMD Vektorisierung leicht? Schwierig? Bringt Faktor 2 an Performance, nicht 4 wie erwartet, weil Blocking Steigert Performance um Faktor... SMT... Multi-Core Parallelisierung einfach/schwierig Datenstrukturen mussten (nicht?) angepasst werden Arbeit musste dynamisch verteilt werden? Insgesamt Steigerung der Performance um Faktor 4,6 gegenüber Referenzimplementierung War (nicht?) zu erwarten, weil... 12

13 Fragen Fragen? 13

Ähnliche Dokumente

Die Sandy-Bridge Architektur

Fakultät Informatik - Institut für Technische Informatik - Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Die Sandy-Bridge Architektur René Arnold Dresden, 12. Juli 2011 0. Gliederung 1.