OpenMP - Geschichte. 1997: OpenMP Version 1.0 für Fortran

Transkript

1 OpenMP - Geschichte 1997: OpenMP Version 1.0 für Fortran Standard für f r die Shared-Memory Memory-Programmierung inzwischen für f r alle namhaften SMP-Rechner verfügbar wird im techn.-wiss. Rechnen die proprietären ren Direktiven und die unmittelbare Verwung der pthreads abgelösen 1998:OpenMP Version 1.0 für C und C : OpenMP Erläuterungen für Fortran 2000: OpenMP Version 2.0 für Fortran Unterstützung tzung des Fortran90-Module Module-Konzeptes

2 OpenMP - Verbreitung OpenMP Version 1.0 ist inzwischen auf allen wesentlichen Plattformen verfügbar Im Rechenzentrum: HP V-Class V und J-Class J mit dem KAP/Pro-Toolset von KAI (Teilmenge ab Version 2.4 auch im HP-Fortran90 Compiler) SGI Origin 200 im SGI-Compiler integriert (Version 7.3) LINUX-PC mit dem PGI-Compiler (Version 3.1) Informationen ->

3 OpenMP - die wichtigsten Direktiven parallel... Der Code innerhalb einer parallelen Region... parallel wird von allen Threads ausgeführt do... Die Berechnung einer Schleife innerhalb einer... parallelen Region wird auf die Threads verteilt sections... Die Berechnung von unterschiedlichen Code-... section... Abschnitten innerhalb einer parallelen... sections Region wird auf die Threads verteilt critical... Kritische Bereiche werden zu einer Zeit immer critical nur von einem Thread ausgeführt single... Der eingeschlossene Code-Abschnitt wird nur... single von einem Thread ausgeführt master... Der eingeschlossene Code-Abschnitt wird nur... master wird nur vom Master-Thread ausgeführt barrier Synchronisationspunkt

4 OpenMP - die wichtigsten Klauseln shared (list) private(list) reduction(op:list) gemeinsam genutzter Speicherbereich (Variablen, Felder) Die Threads arbeiten auf privaten Instanzen der aufgelisteten Variablen und Felder Die Variablen (und Felder) der Liste werden zunächst privat behandelt und am Ende des zugeh. Konstruktes in einer Reduktion (meist op=+) zusammengeführt threadprivate(list) Anlegen von privaten Kopien globaler Daten ( COMMON-Blöcke )

5 Skalarprodukt - serielle Version real*8 a(100),b(100),x integer*4 i read (unit=10,fmt=*) b do i = 1,100 x = x + a(i) * b(i) Einlesen der Daten Berechnung des Skalarproduktes x = Σ i=1,...,100 a i * b i Ausgabe des Ergebnisses

6 Skalarprodukt - 1. OpenMP Version (Fortran) real*8 a(100), b(100), x, h integer*4 i Vereinbarungen read x = (unit=10,fmt=*) 0.0d0 a Master Thread liest die Daten ein read (unit=10,fmt=*) b!$omp parallel private(i,h) shared(a,b,x)!$omp x = do0.0d0 do i = 1, 100 Sie liegen in globalen Feldern und h = a(i) * b(i) müssen nicht kopiert werden do i = 1, 100!$omp critical h = a(i) * b(i) x = x + h Die Berechnung der Teile des!$omp x = x critical + h Skalarproduktes wird aufgeteilt. Die globalen Variable x muß in einem!$omp parallel geschützten Bereich geändert werden!$omp parallel private(i,h) shared(a,b,x)!$omp do!$omp critical!$omp critical!$omp parallel Der Master gibt das Gesamtergebnis aus

7 Skalarprodukt - 1. OpenMP Version (Fortran) real*8 a(100), b(100), x, h integer*4 i read (unit=10,fmt=*) b Vereinbarungen Master Thread liest die Daten ein!$omp parallel private(i,h) shared(a,b,x)!$omp do do i = 1, 100 h = a(i) * b(i)!$omp critical x = x + h!$omp critical!$omp parallel gesch Sie liegen in globalen Feldern und müssen nicht kopiert werden Die Berechnung der Teile des Skalarproduktes wird aufgeteilt. Die globalen Variable x muß in einem geschützten Bereich geändert werden Der Master gibt das Gesamtergebnis aus

8 Skalarprodukt - 2. OpenMP Version (Fortran) real*8 a(100), b(100), x, x_local integer*4 i Vereinbarungen!$ompopen parallel (unit=10,file="input.dat") private(i,x_local) Master shared(a,b,x) Thread liest die Daten ein read x_local (unit=10,fmt=*) = 0.0d0 b!$omp do!$omp parallel do i = private(i,x_local) 1, 100 shared(a,b,x) Sie liegen in globalen Feldern und x_local x_local = 0.0d0 = x_local + a(i) müssen * b(i) nicht kopiert werden!$omp do i = 1, do100!$omp x_local do = x_local + a(i) * b(i) Die Berechnung der Teile des!$omp critical do Skalarproduktes wird aufgeteilt.!$omp critical x = x + x_local!$ompx = x + critical x_local critical Die globalen Variable x muß in einem!$omp parallel parallel geschützten Bereich geändert werden Der Master gibt das Gesamtergebnis aus

9 Skalarprodukt - 3. OpenMP Version (Fortran) real*8 a(100), b(100), x integer*4 i Vereinbarungen Master Thread liest die Daten ein!$ompread parallel (unit=10,fmt=*) private(i) b shared(a,b) reduction(+:x)!$omp do Sie liegen in globalen Feldern und do i = 1, 100 müssen nicht kopiert werden!$omp parallel private(i) shared(a,b) reduction(+:x)!$omp x = x + a(i) * b(i) Die Berechnung der Teile des do i = do 1, 100!$omp x = do x + a(i) * b(i) Skalarproduktes wird aufgeteilt.!$omp parallel Einfache Programmierung durch!$omp parallel Benutzung der Reduktions-Klausel Der Master gibt das Gesamtergebnis aus

10 Skalarprodukt - 3. OpenMP Version (Fortran) real*8 a(100), b(100), x integer*4 i Vereinbarungen Master Thread liest die Daten ein read (unit=10,fmt=*) b Sie liegen in globalen Feldern und müssen nicht kopiert werden!$omp parallel private(i) shared(a,b) reduction(+:x)!$omp do do i = 1, 100 x = x + a(i) * b(i)!$omp parallel Die Berechnung der Teile des Skalarproduktes wird aufgeteilt. Einfache Programmierung durch Benutzung der Reduktions-Klausel Der Master gibt das Gesamtergebnis aus

11 Skalarprodukt - 4. OpenMP Version (Fortran)!$omp parallel private(i) shared(a,b,x) real*8 a(100), b(100), x, x_local integer*4 i!$omp parallel private(i) shared(a,b,x) read (unit=10,fmt=*) b!$omp read (unit=10,fmt=*) master a read (unit=10,fmt=*) b!$omp master!$omp x barrier = 0.0d0!$omp do reduction(+:x)!$omp barrier!$omp do doreduction(+:x) i = 1, 100 do i = 1, 100 x = x + a(i) * b(i) do!$omp master!$omp parallel!$omp parallel x = x + a(i) * b(i)!$omp master Vereinbarungen Master Thread liest die Daten ein Sie liegen in globalen Feldern und müssen nicht kopiert werden Die Berechnung der Teile des Skalarproduktes wird aufgeteilt. Einfache Programmierung durch Benutzung der Reduktions-Klausel Der Master gibt das Gesamtergebnis aus

12 Skalarprodukt - 4. OpenMP Version (Fortran) real*8 a(100), b(100), x, x_local integer*4 i!$omp parallel private(i) shared(a,b,x) read (unit=10,fmt=*) b!$omp master!$omp barrier!$omp do reduction(+:x) do i = 1, 100 x = x + a(i) * b(i)!$omp master!$omp parallel Vereinbarungen Master Thread liest die Daten ein Sie liegen in globalen Feldern und müssen nicht kopiert werden Die Berechnung der Teile des Skalarproduktes wird aufgeteilt. Einfache Programmierung durch Benutzung der Reduktions-Klausel Der Master gibt das Gesamtergebnis aus

13 !$omp parallel private(i) shared(a,b,x) Fehlersuche mit Assure (Fortran) real*8 read a(100), (unit=10,fmt=*) b(100), x, x_local b!$omp integer*4 master i!!$omp Die parallel Barriere private(i) steht shared(a,b,x) an der falschen Stelle!!$omp barrier Vereinbarungen Master Thread liest die Daten ein read x = (unit=10,fmt=*) 0.0d0 b!$omp master! Wird u.u. von späten Threads noch Sie liegen ausgeführt in globalen Feldern und müssen nicht kopiert werden! nachdem frühe Threads schon ihren Beitrag aufaddiert haben!$omp barrier!$omp do reduction(+:x) do i = 1, 100 dox i = x = + 1, a(i) 100 * b(i)!$omp do reduction(+:x) x = x + a(i) * b(i)!$omp master!$omp parallel!$omp master!$omp parallel Die Berechnung der Teile des Skalarproduktes wird aufgeteilt. Einfache Programmierung durch Benutzung der Reduktions-Klausel Der Master gibt das Gesamtergebnis aus

14 Fehlersuche mit Assure (HP)

15 TotalView + OpenMP (SGI, HP?, Linux?)

16 Hybride Parallelisierung mit OpenMP + MPI (HP, Linux) Skalarprodukt - kombinierte Version include "mpif.h" real*8 a(100), b(100), x, x_local integer i, islave, itag, ierror, nproc, myrank, master parameter ( master = 0 ) data itag / 4711 / call MPI_Init ( ierror ) call MPI_Comm_size ( MPI_COMM_WORLD, nproc, ierror ) call MPI_Comm_rank ( MPI_COMM_WORLD, myrank, ierror ) if ( myrank == master ) then read (unit=10,fmt=*) b if call MPI_Bcast ( a, 100, MPI_DOUBLE_PRECISION, master, MPI_COMM_WORLD, ierror ) call MPI_Bcast ( b, 100, MPI_DOUBLE_PRECISION, master, MPI_COMM_WORLD, ierror ) x_local = 0.0d0!$omp parallel do private(i) shared(a,b) reduction(+:x_local) do i = 1+myrank, 100, nproc x_local = x_local + a(i) * b(i) call MPI_Reduce ( x_local, x, 1, MPI_DOUBLE_PRECISION, MPI_SUM, master, MPI_COMM_WORLD, ierror ) if ( myrank == master ) then if call MPI_Finalize ( ierror )

17 call MPI_Init ( ierror ) Hybride Parallelisierung mit OpenMP + MPI (HP, Linux) call MPI_Comm_size ( MPI_COMM_WORLD, nproc, ierror ) Skalarprodukt - kombinierte Version call MPI_Comm_rank ( MPI_COMM_WORLD, myrank, ierror ) if ( myrank == master ) then include "mpif.h" real*8 a(100), b(100), x, x_local read (unit=10,fmt=*) integer i, islave, itag, ierror, nproc, a myrank, master parameter ( master = 0 ) read (unit=10,fmt=*) data itag / 4711 / b call MPI_Init ( ierror ) if call MPI_Comm_size ( MPI_COMM_WORLD, nproc, ierror ) call MPI_Comm_rank MPI_COMM_WORLD, myrank, ierror ) call MPI_Bcast ( a, 100, MPI_DOUBLE_PRECISION, master,... ) if ( myrank == master ) then call MPI_Bcast ( b, 100, MPI_DOUBLE_PRECISION, master,... ) x_local = read 0.0d0 (unit=10,fmt=*) b if!$omp parallel do private(i) shared(a,b) reduction(+:x_local) call MPI_Bcast ( a, 100, MPI_DOUBLE_PRECISION, master, MPI_COMM_WORLD, ierror ) call MPI_Bcast ( b, 100, MPI_DOUBLE_PRECISION, master, MPI_COMM_WORLD, ierror ) do i = 1+myrank, 100, nproc 0.0d0 x_local = x_local + a(i) * b(i)!$omp parallel do private(i) shared(a,b) reduction(+:x_local) do i = 1+myrank, 100, nproc x_local = x_local + a(i) * b(i) call MPI_Reduce (x_local,x,1,mpi_double_pr.,mpi_sum,master,...) call MPI_Reduce ( x_local, x, 1, MPI_DOUBLE_PRECISION, MPI_SUM, master, MPI_COMM_WORLD, ierror ) if ( myrank if ( myrank == master master ) then ) then write x if if call MPI_Finalize ( ierror ) call MPI_Finalize ( ierror )