Projekt Parallelrechnerevaluation

Transkript

1 Projekt Parallelrechnerevaluation Thema Autor Datum In Zusammenarbeit mit Fortran Parallelisierung Anna Fuchs September 2012 Petra Nerge Julian Kunkel Michal Kuhn Nathanael Hübbe

2 Überblick Fortran Architekturen Interner Parallelismus Externer Parallelimus OpenMP MPI Hybrid GPU Beispielanalyse Quellen 2

3 Fortran Überblick FORmula TRANslation Erste funktionsfähige höhere prozedurale Programmiersprache 1954 Backus, IBM Einsatz: Wissenschaft, Militär, Ingineurwesen Klima, Ströhmungsmechanik, Astronomie etc. Neben C/C++ führend auf dem HLR Markt 3

4 Fortran Versionen FORTRAN I 1954 FORTRAN II 1958 FORTRAN III FORTRAN IV 1961 FORTRAN FORTRAN /1978 FORTRAN HPF (High Performance Fortran) FORTRAN FORTRAN Co-Array Fortran FORTRAN /2010 Erster Compiler 1957 Einzelne Module kompilieren Nie veröffentlicht Überarbeitung von FORTRAN II Von ASA (American Standards Association) standardisiert print, if, include, character, open/close Modularisierung, dynamische Speicherverwaltung, Überladn der Operatoren forall, Trend: parallel Überarbeitung des Vorgängers Objektorientierung, C-Kompatibilität PGAS PGAS 4

5 Architekturen Gemeinsamer Speicher (shared memory) Mehrere CPUs/Rechner teilen sich den Speicher Schneller, weitgehen gleicher Speicherzugriff UMA (Uniform Memory Access) Verteilter Speicher (distributed memory) Jede CPU/Rechner hat jeweils eigenen Speicher Langsamer Zugriff auf fremden Speicher Mittelweg: Vernetzte Rechnerknoten mit gemeinsamem Speicher NUMA (Non-uniform Memory Access) Problem: Manipulation auf fremdem Speicher Cache / Hauptspeicher synchronisieren Lösung: virtueller gemeinsamer Speicher, Interconnects ccnuma First Touch Strategie Wer rechnet, der initialisiert auch 5

6 Interner Parallelismus PGAS (partitioned global address space) Parallel C Co-Array Fortran Co-Array Fortran Adressbereich logisch aufgeteilt Effeziente Unterteilung großer Datenmengen Komplexe Variablenverwaltung Ggf. guter Lastausgleich Codereplizierung, Daten aufgeteilt Asynchrone Ausführung der Kopien Syntaxerweiterung Von Intel aufgegriffen, verbreitet sich weiter SSE Intrinsics (Streaming SIMD Extension) Befehlssatzerweiterung der X86-Architektur (Intel) 16 Register mit 128 (256) Bit Breite 1 Taktzyklus für z.b. Addition, 4 Additionen in 1 Taktzyklus Hardwarenahes Programmieren aufwendig, aber gut Fortran intern, ermöglicht Vektorisierung forall Angeblich besser vom Compiler zu verarbeiten Funktioniert nicht wird später erläutert 6

7 Interner Parallelismus OpenMP (gemeinsamer Speicher) Schwerpunkt MPI (verteilter Speicher) Hybrid GPU Beschleuniger 7

8 Externer Parallelismus OpenMP Open Multi-Processing Programmierschnittstelle für C/C++ und Fortran Ab 1997 von Hardware- und Compilerherstellern entwickelt Für Fortran und C/C++ getrennt entwickelt, erst 2005 vereint Aktuelle Version OpenMP 3.1 (Juli 2011) Schwache Kontrolle über Variablen und Abläufe 8

9 Externer Parallelismus OpenMP - Einführung Kompilieren gfortran -fopenmp -o test test.f90 # für gfortran ifort -openmp -o bsp bsp.f90 # für Intel Fortran Compiler use omp_lib, NICHT include 'omp_lib.h' Mit!$omp Direktiven eingeleitet Wenn nicht mit OpenMP Flag kompiliert, als Kommentar gewertet Threads erzeugen/zertören!$omp parallel /!$omp end parallel Threadszahl!$omp parallel num_threads(10) omp_get_max_threads() Synchronisierung!$omp barrier Am Ende jedes parallelen Blocks eine implizite barrier, kann mit nowait aufgelöst werden 9

10 Externer Parallelismus OpenMP - Einführung Sequentieller Ablauf single Von 1 Thread ausgeführt - der als erster den Block erreicht master Von 1 Thread ausgeführt - der Master Thread Hinweis: wenn mehrere parallele Blöcke von wenigen sequentiellen Anweisungen getrennt: Sequentiellen Ablauf im parallelen Block erzwingen, spart Erzeugung und Zerstörung der Threads critical section Von allen Threads ausgeführt - aber nie gleichzeitig Ressorucenverwaltung shared (default), private, lastprivate, firstprivate firstprivate Initialisierung mit dem letzten Wert vor dem parallelen Block lastprivate Der Wert der letzten Iteration wird rausgeschrieben 10

11 Externer Parallelismus OpenMP - Einführung Schleifen!$omp do /!$omp end do Hier auch möglich Variablen zu deklarieren (private, shared etc.) Laufindex immer private, auch wenn explizit als shared deklariert canonical shape Keine dynamische Grenzenänderung Keine Sprünge: break, exit, return, goto Nur <, >, = erlaubt, keine.and.,.or. In- bzw. Dekrementierung nur mit +, - Verschachtelte Schleife mit collapse(x) zusammenführen Sonst nur äußere Iterationen aufgeteilt 11

12 Externer Parallelismus OpenMP - Einführung Scheduling keine aussagekräftigen Tests schedule (type, chunk) type [static / dynamic / guided / runtime / auto] static Aufteilung in Blöcke fester Größe [chunk] zur Kompilierzeit schlechtere Verteilung, weniger Overhead dynamic guided Aufteilung in Blöcke fester Größe [chunk] zur Laufzeit bessere Verteilung, mehr Ovrhead Immer kleiner werdende Blöcke zugewiesen (dynamisch) chunk ist nicht die Anfangsgröße max(chunk, i/pn), i Zahl der verbliebenen Iterationen, pn Zahl der Threads Weniger Blöcke als beim guided, mehr Overhead runtime setenv OMP_SCHEDULE dynamic, 10 auto Vom Compiler zur Laufzeit entschieden 12

13 Externer Parallelismus OpenMP - Einführung Folgendes ist nicht standardisiert Anzahl der Threads, falls nicht vorgegeben Anzahl der Ebenen beim nested parallelism Default scheduling chunk-größe runtime scheduling include 'omp_lib.h' oder use omp_lib Realisierung der atomic Anweisungen (ggf. wird es mit critical section gemacht) 13

14 Externer Parallelismus MPI MPI (Message Parsing Interface) de-facto Standard für verteilten Speicher Nachrichtenaustausch Interessante Gegenüberstellungen zum Testen: blockierend p2p vs. nichtblockierend p2p kollektiv vs. One-sided Intel Compiler vs. GNU Compiler mpich Bibliothek vs. openmpi Bibliothek 14

15 Externer Parallelismus Hybrid Mischung aus mehreren Strategien z.b. MPI und OpenMP nicht trivial 15

16 Externer Parallelismus GPU Beschleuniger GPU (grapfic processor unit) Ungeschlagen in Anzahl der Operation/Sekunde CUDA (Compute Unified Device Architecture) von Nvidia OpenCL (Open Computing Language) universeller Kernelquellcode von speziellen Compilern übersetzt, Rest von gewöhnlichen Virtueller Maschinencode zur Laufzeit für jeweilige GPU eingebettet - weitere Bibliotheken nötig Aufwendige Programmierung - wenig geeignete Anwendungen Keine gute Auslastung der Knotenpaare CPU/GPU y-achse: Peak in Gflops/sec 16 16

17 Analyse O3 Optimierung nicht immer hilfreich zum Testen Möglichst keine Systemaufrufe wie write Cluster - Masterknoten (!) sollte man nicht tun Mittelwert aus 3 Druchläufen sofern keiner der Wert signifikant abweicht Zeit mit time./run gemessen Geht alternativ mit call cpu_time() oder omp_get_wtime() pro Thread Hilfsschleife für aussagekräfitge Zeitmessung 17

18 Analyse Hilfsschleife 1 program race 2!NICHT NACHMACHEN 3 USE omp_lib 4 implicit none 5 INTEGER, PARAMETER :: second = INTEGER, PARAMETER :: third = INTEGER, PARAMETER :: first = INTEGER :: one, two, three 9 INTEGER, DIMENSION (1:second, 1:third) :: matrix = !$omp parallel num_threads(12) 11!$omp do 12 DO one = 1, first 13 DO three= 1, third 14 DO two = 1, second 15 matrix(two, three) = matrix(two, three) & 16 + two + three 17 END DO 18 END DO 19 END DO Es gibt immer wieder verschiedene Ergebnisse one nicht an der Berechnung beteiligt Nur äußere Iterationen aufgeteilt Gleichzeitiger Zugriff auf die Matrix Race Conditions Wettlaufsituationen Laufzeitabhängiges Ergebnis Intel Thread Checker Lösung: Hilfsschleife außerhalb des parallelen Blocks Unnötige Threasderzeugung 20!$omp end do 21!$omp end parallel 22 write(*,*) matrix(30,30) END program race

19 Beispiele Array - Initialisierung sec program init_imm_seq 2 implicit none 3 4 INTEGER, DIMENSION( ) :: a 5 a = 0 6 END program init_imm_seq init_seq Elemente init_imm_seq init_for_seq 1 program init_for_seq 2 implicit none 3 4 INTEGER, DIMENSION( ) :: a 5 INTEGER :: i 6 7 DO i = 1, a(i) = 0 9 END DO END program init_for_seq Elemente init_imm_seq init_for_seq ,003 0, ,01 0, ,06 0, ,49 1, ,72 9,16 Äquivalente Programme Einzeiler lässt sich nicht parallelisieren, Schleife schon Lohnt sich nur für letzte Messwerte OpenMP lässt so viel Speicher nicht reservieren Der Einzeiler ist gut! 19

20 Beispiele Race Conditions - Abhängige Iterationen 1 program fix_me 2 USE omp_lib 3 implicit none 4! NICHT NACHMACHEN 5 INTEGER, PARAMETER :: m_end = INTEGER :: in, it 7 INTEGER :: it_stop = INTEGER, DIMENSION (1:m_end) :: matrix_a = 10 9 INTEGER, DIMENSION (1:m_end) :: matrix_b = 0 10 DO it = 1, it_stop!hilfsschleife Zugriff auf Werte ggf. eines anderen Threads Keine logische Reihenfolge der Abarbeitung Read/write Konflikt in Z. 14 und Z !$omp parallel num_threads(2) 12!$omp do 13 DO in = 2, m_end 14 matrix_a(in) = 2 * in * (in - 1) 15 matrix_b(in) = matrix_a(in) - matrix_a(in-1) 16 END DO 17!$omp end do 18!$omp end parallel 19 END DO END program fix_me 2 Lösungen Werte nicht auslesen, redundant berechnen Berechnung in 2 Schleifen aufsplitten 20

21 Beispiele Race Conditions - Abhängige Iterationen 14 matrix_a(in) = 2 * in * (in - 1) 15 matrix_b(in) = matrix_a(in) - 2 * (in -1) * (in - 2) «elegant» für redundante Berechnung non_elegant_x für Aufsplittung der Berechnungen in 2 Schleifen; x für 1 oder 2 Hilfsschleifen Threaderzegung offensichtlich nicht merkbar Seqeuntielle Lösungen geringfügig langsamer «elegante» Lösung besser, weil redundante Berechnung nicht sehr teuer 21

22 Beispiele Race Conditions - Abhängige Iterationen 1 program fix_me_real 2 implicit none 3!NICHT NACHMACHEN 4 INTEGER, PARAMETER :: m_end = INTEGER :: in, it 7 INTEGER :: it_stop = REAL, DIMENSION (1:m_end) :: matrix_a = REAL, DIMENSION (1:m_end) :: matrix_b = DO it = 1, it_stop 11 DO in = 2, m_end 12 matrix_a(in) = sin(real(in)) * matrix_b(in) = matrix_a(in) - matrix_a(in-1) 14 END DO 15 END DO 16 END program fix_me_real Seqentielle Zeit bei redundanter Berechnung doppelt so hoch Abwägen zwischen Speicherzugriff und Berechnungskosten Lokaler Speicher, fremder Speicher Sinus nicht die teuerste Operation 22

23 Beispiele Race Conditions - Abhängige Iterationen 1 program fixed_real 2 USE omp_lib 3 implicit none 4 INTEGER, PARAMETER :: m_end = INTEGER :: in, it_begin 6 INTEGER :: it_stop = REAL, DIMENSION (1:m_end) :: matrix_a = REAL, DIMENSION (1:m_end) :: matrix_b = DO it_begin = 1, it_stop!hilfsschleife 10!$omp parallel num_threads(12) 11!$omp do 12 DO in = 2, m_end 13 matrix_a(in) = sin(real(in)) * END DO 15!$omp end do 16!!$omp barrier 17!$omp do 18 DO in = 2, m_end 19 matrix_b(in) = matrix_a(in) - matrix_a(in-1) 20 END DO 21!$omp end do 22!$omp end parallel 23 END DO 24 END program fixed_real barrier auskommentiert, weil implizit schon eine da Zeiten zwischen fix_me_int und fix_me_real nicht direkt verlgeichbar m_end unterschiedlich groß Integer und Real Berechnung unterschiedlich aufwendig 23

24 Beispiele Race Conditions - private 1 program no_private 2! NICHT NACHMACHEN 3 USE omp_lib 4 implicit none 5 6 INTEGER, DIMENSION( ) :: arr = 1 7 INTEGER :: i, j, sum = 0 8!$omp parallel num_threads(100) 9!$omp do 10 DO i = 1, sum = sum + arr(i) 12 END DO 13!$omp end do 14!$omp end no_parallel write(*,*) sum 17 END program no_private 1 program p_private 2 3 USE omp_lib 4 implicit none 5 6 INTEGER, DIMENSION( ) :: arr = 1 7 INTEGER :: i, j, sum = 0 8!$omp parallel num_threads(100), firstprivate(sum) 9!$omp do 10 DO i = 1, sum = sum + arr(i) 12 END DO 13!$omp end do 14!$omp end no_parallel write(*,*) sum 17 END program p_private no_private weist Race conditions auf, liefert immer unterschiedliche Ergebnisse p_private weist keine Race Conditions auf, liefert aber nur Teilsummen 24

25 Beispiele Race Conditions - private 25

26 Beispiele Verschachtelte Schleifen - Optimierung If Block abhängig von nur 4 Variablen k-schleife im If block effezienter Speicherzugriffe optimieren 26

27 Beispiele Verschachtelte Schleifen - Optimierung 27

28 Beispiele Verschachtelte Schleifen - Optimierung Was ist besser - viele Iterationen außen oder wenig Iterationen außen? 28

29 Beispiele Verschachtelte Schleifen - collapse 29

31 Beispiele Verschachtelte Schleifen - collapse a_diagramm time(sec) num_threads fifth = 4, collapse(1) fifth = 4, collapse(2) 31

34 Beispiele Verschachtelte Schleifen - collapse b_diagramm time(sec) num_threads fifth = 4, collapse(2) fifth = 2100, collapse(1) Absolute Zeiten gering, prozentual aber ausreichend 34

35 Beispiele Verschachtelte Schleifen - collapse Ausreichend viele Iterationen außen, kein collapse Jedoch nicht zu viele, sonst steigt Aufteilungsoverhead Weiß man sicher, dass außen sind immer wenige Iterationen Entweder Schleife nach innen verschieben Oder collapse einbauen Mindestens so viele Iterationen wie es Threads gibt 35

36 Beispiele forall 1 program main 2 3 USE omp_lib 4 implicit none 5 6 REAL, DIMENSION(1:10000, 1:10000) :: A = REAL, DIMENSION(1:10000) :: B 8 INTEGER :: i, t 9 10 DO t= 1, $call omp_set_num_threads (1) $omp parallel 14 $omp workshare 15 forall (i = 1:10000) A(i,i) = sin(real(i)) / i 16! B(i) = A(i,i) 17 $omp end workshare 18 $omp end parallel 19 END DO END program main Einzeiler oder Block Maske Mit workshare zu parallelisieren Idexzugriff oder Wertezugriff Nur für Fortran 90/95, nur GNU, ab OpenMP 2.0 Arbeit wird in getrennte units aufgeteilt Läuft nicht parallel (Compiler? ) seq:36 sec ohne -fopenmp, seq:50 sec mit -fopenmp thr(2):40 sec 36

37 Vorgehensweise 1. Verteilter oder gemeinsamer Speicher? 1a. Konkrete Architektur (ggf. Sockets, Nodes etc) 1b. Hardwareunterstützung 1c. Umfang der Skalierbarkeit (100 oder cores?) 2. Analyse der sequentiellen Umsetzung 2.1 Profiler, Speicheranalyse, Algorithmen-analyse 3. Optimierung der sequentiellen Umsetzung 3.1 Cache Optimierung 3.2 Speicherzugriffe 3.3 Umstrukturierung 4. Entwurf auf Papier (domain decomposition, critical section) 5. Kommunikation schätzen für verteilten Speicher / Kritische Bereiche für gemeinsamen Speicher bestimmen 6. Abschätzung der Vorteile das Prinzip alleine sollte effizient sein, sequentielle Messungen 7. Implementieren Standard beachten! 8. Testen / Profilen / Analysieren / Debuggen 9. Optimierung/Skalierbarkeit: 9.1 Maß der Skalierbarkeit bestimmen, wann bricht Speed-up ein, Maßnahmen ergreifen 9.2 Lastausgleich 9.3 Compiler-Optimierung 9.4 Portabilität ermitteln 37

38 Was hätte ich besser machen können? Kein time./run verwenden Testfälle gut durchdenken, bevor Zeit investieren Prioritäten besser setzen - welche Tests will ich unbedingt zeigen Von Fehlern nicht so lange aufhalten lassen OpenMP Standard als Buch benutzen Gern in die OpenMP Implementierung reingeschaut Realistischer sein 38

39 Quellen Literatur 1. Stephen J. Chapman, Fortran 95/2003 for Scientists and Engineers, Heiko Bauke, Stephan Mertens, Cluster Computing, Rolf Rabenseifner, Parallel Programming Workshop, 2012 Web

40 Danke für die Aufmerksamkeit =) 40