C-to-CUDA-Compiler. Johannes Kölsch. October 29, 2012

Transkript

1 October 29, 2012

2 Inhaltsverzeichnis

3 Motivation Motivation CUDA bietet extreme Leistung für parallelisierbare Programme Kompliziert zu programmieren, da multi-level parallel und explizit verwalteter Speicher Daher gibt es viel Interesse daran, prozeduralen Code automatisch in effizienten CUDA-Code zu überführen.

4 Eigenschaften des C-Codes Eigenschaften des C-Codes Allgemein C-Code ist sehr weit verbreitet. Er reicht von Anwendungen im PC-Bereich bis hin zu eingebetteten Systemen und Kerneln für Betriebssysteme.

5 Eigenschaften des C-Codes Eigenschaften des C-Codes Allgemein C-Code ist sehr weit verbreitet. Er reicht von Anwendungen im PC-Bereich bis hin zu eingebetteten Systemen und Kerneln für Betriebssysteme. Imperativ-prozedural

6 Eigenschaften des C-Codes Eigenschaften des C-Codes Allgemein C-Code ist sehr weit verbreitet. Er reicht von Anwendungen im PC-Bereich bis hin zu eingebetteten Systemen und Kerneln für Betriebssysteme. Imperativ-prozedural keinerlei Parallelität vorhanden

7 Eigenschaften des C-Codes Eigenschaften des C-Codes Allgemein C-Code ist sehr weit verbreitet. Er reicht von Anwendungen im PC-Bereich bis hin zu eingebetteten Systemen und Kerneln für Betriebssysteme. Imperativ-prozedural keinerlei Parallelität vorhanden auf aktuellen Prozessoren eher langsam

8 OpenMP C OpenMP C Implementierung für Multithreading in C

9 OpenMP C OpenMP C Implementierung für Multithreading in C Design für Multiprozessoren mit einem gemeinsamen Speicher

10 OpenMP C OpenMP C Implementierung für Multithreading in C Design für Multiprozessoren mit einem gemeinsamen Speicher Master-Thread verantwortlich für eine Menge von Slave-Threads

11 OpenMP C OpenMP C Implementierung für Multithreading in C Design für Multiprozessoren mit einem gemeinsamen Speicher Master-Thread verantwortlich für eine Menge von Slave-Threads erlaubt dem Programmierer in eine bereits bestehendes Programm Multi-Threading Funktionalität einzufügen

12 OpenMP C OpenMP C Implementierung für Multithreading in C Design für Multiprozessoren mit einem gemeinsamen Speicher Master-Thread verantwortlich für eine Menge von Slave-Threads erlaubt dem Programmierer in eine bereits bestehendes Programm Multi-Threading Funktionalität einzufügen Vergleich zu CUDA Wie man leicht sieht, hat OpenMP viele Parallelen zu CUDA. Daher ist es ein weitaus komplexerer aber auch nẗzlicherer Ansatz, von reinem C-Code in CUDA zu übersetzen.

13 Übersicht Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG Figure :

14 Einordnung ins Framework Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG Figure : Pluto innerhalb des Frameworks

15 Pluto Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG Automatisches Parallelisierungs-Tool Output ähnlich wie OpenMP-C

16 Scanner und Parser Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG Abstract Syntax-Tree (AST) des Input C-Programms wird erzeugt Iterationsraum-Polytope werden erstellt Array-Access-Functions werden erstellt Datenabhängigkeiten werden analysiert

17 Affine Transformation Framework Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG Abhängigkeits-Polytope werden generiert Affine Transformationen werden erstellt kommunikationsoptimiert lokalitätsoptimiert wird später gebraucht, um optimal Daten von Off-Chip in On-Chip Memory und zurück zu verschieben

18 Einordnung ins Framework Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG Figure : Schritt 2 im Compiler-Framework

19 Multi-level Tiling Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG Tiling Hyperplanes müssen gefunden werden Affine Transformationen, die von Pluto gefunden wurden, werden überprüft Daten-Abhängigkeiten nur in Vorwärtsrichtung auf der Tiling Hyperplane Transformationen werden als Schleifen im transformierten Programm implementiert

20 Parallelism Extraction Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG Die Transformationen enhalten doall- und doacross-loops doall-loops können direkt parallel abgearbeitet werden doacross-loops können direkt in einer Pipeline abgearbeitet werden, da die Abhängigkeiten in Vorwärtsrichtung sind

21 Einordnung ins Framework Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG Figure : Schritt 3 im Compiler-Framework

22 On-Chip Memory Management Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG Iterationsraum-Polytope und Array-Access-Functions, die vorher schon bestimmt wurden kommen nun zum Einsatz Array-Referenzen mit ausreichend Daten-Wiederverwendung sind gute Kandidaten für On-Chip memory

23 Data Movement Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG 2 Arten: copy-in statements: Bewegen Daten in den shared memory copy-out statements: Bewegen Daten aus dem shared memory wieder zurück Auf Thread-Block Ebene wie folgt realisiert: copy-in computation copy-out

24 Data Movement Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG Schedule muss entsprechend angepasst werden Neue statements werden für die beiden Movement-Befehle jeweils eingefügt

25 Einordnung ins Framework Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG Figure : CLooG im Compiler-Framework

26 Input Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG Menge von statements Iterationsraum-Polytope der statements statement-weise affine Transformation für jedes level (bei CUDA 2 Levels)

27 Code Generation Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG CLooG scannt die Iterationsraum-Polytope (statement-polytope) die von Pluto erstellt wurden nutzt die neuen Scheduling-functions um neue lexicografische Ordnung herzustellen Da die gegebenen Tranformationen affin sind, wird das erstellte Programm korrekt ausgeführt

28 Loop-Generation Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG wenn doall-loops erkannt werden, so werden diese direkt als parallel markiert doacross-loops werden wie folgt transformiert: loop wird so lange in kleinere loops aufgeteilt, bis nurnoch doall-loops bestehen äusserer loop wird als als sequentiell markiert innere loops als parallel

29 AST Post-processing Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG Der von CLooG so erzeugt Code ist noch nicht CUDA-kompatibel Er muss nun noch Thread-centric transformiert werden synchronisierungs- Methoden müssen noch eingefügt werden

30 Thread-centric Code Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG äusseres level des generierten Codes wird auf Thread-Blocks abgebildet inneres level wird auf Threads abgebildet Data movement Code platziert noch thread-identifier in seine Schleifen

31 Synchronisierungsmethoden Übersicht Schritt 1: Pluto Schritt 2: Multi-level Tiling und Parallelism extraction Schritt 3: On-Chip Memory Management und Data Movement Schritt 4: CLooG CUDA bringt bereits Methoden um zwischen den Threads innerhalb eines Blocks zu synchronisieren Auf Thread-Block Ebene müssen noch Barrieren errichtet werden an jeder Iteration einer sequentiellen Schleife am Ende des Data Movement Codes

32 Eigenschaften des generierten CUDA-Codes Eigenschaften des generierten CUDA-Codes Kompilierbarkeit Der vom vorgestellten Framework erstellte Code ist direkt vom CUDA-Compiler kompilierbar.

33 Eigenschaften des generierten CUDA-Codes Eigenschaften des generierten CUDA-Codes Kompilierbarkeit Der vom vorgestellten Framework erstellte Code ist direkt vom CUDA-Compiler kompilierbar. Anzahl von Threads und Thread Blocks Anzahl der Threads und Thread-Blocks werden vom Benutzer des Codes zur Kompilierzeit als symbolische Konstanten angegeben.

34 Erklärung des Benchmarks Coulomb-Potential Berechnung von elektrischen Feldern in einem Volumen mit Punktladungen

35 Erklärung des Benchmarks Coulomb-Potential Berechnung von elektrischen Feldern in einem Volumen mit Punktladungen Verschiedene Optimierungen

36 Erklärung des Benchmarks Coulomb-Potential Berechnung von elektrischen Feldern in einem Volumen mit Punktladungen Verschiedene Optimierungen Automatic (no unroll, shared memory)

37 Erklärung des Benchmarks Coulomb-Potential Berechnung von elektrischen Feldern in einem Volumen mit Punktladungen Verschiedene Optimierungen Automatic (no unroll, shared memory) Automatic (no unroll, constant memory)

38 Erklärung des Benchmarks Coulomb-Potential Berechnung von elektrischen Feldern in einem Volumen mit Punktladungen Verschiedene Optimierungen Automatic (no unroll, shared memory) Automatic (no unroll, constant memory) Automatic (inner loop unrolling)

39 Erklärung des Benchmarks Coulomb-Potential Berechnung von elektrischen Feldern in einem Volumen mit Punktladungen Verschiedene Optimierungen Automatic (no unroll, shared memory) Automatic (no unroll, constant memory) Automatic (inner loop unrolling) Hand-tuned

40 Erklärung des Benchmarks Coulomb-Potential Berechnung von elektrischen Feldern in einem Volumen mit Punktladungen Verschiedene Optimierungen Automatic (no unroll, shared memory) Automatic (no unroll, constant memory) Automatic (inner loop unrolling) Hand-tuned icc fast parallel (4 cores)

41 Algorithmus zur Berechnung Coulomb-Potential for t1 0 to VOLX do for t2 0 to VOLY do for t3 0 to NATOMS do energy[zdim*volx*voly + t1*volx + t2] = f(t3) ; end end end

42 Algorithmus zur Berechnung Coulomb-Potential for t1 0 to VOLX do for t2 0 to VOLY do for t3 0 to NATOMS do energy[zdim*volx*voly + t1*volx + t2] = f(t3) ; end end end Anmerkung Man kann leicht erkennen, dass die inneren Schleifen komplett ausrollbar sind, da keine Datenabhängigkeiten bestehen.

43 Versuchsergebnisse Coulomb-Potential

44 Vergleich mit Prozessorleistung Coulomb-Potential Leistungssteigerung Der Benchmark zeigt, dass das Compiler-Framework eine extreme Leistungssteigerung gegenüber der Berechnung auf einem Prozessor bringt. Die Leistung reicht fast an die des Hand-optimierten Codes heran.