Matrix Transposition mit gaspi_read_notify. Vanessa End HPCN Workshop 11. Mai 2016

Größe: px

Ab Seite anzeigen:

Download "Matrix Transposition mit gaspi_read_notify. Vanessa End HPCN Workshop 11. Mai 2016"

Götz Fleischer
vor 6 Jahren
Abrufe

1 Matrix Transposition mit gaspi_read_notify Vanessa End HPCN Workshop 11. Mai 2016

2 Überblick Motivation Matrix Transposition GASPI Matrix Transposition in GASPI Zusammenfassung und Ausblick 2

3 Motivation Bottleneck vieler HPC Anwendungen ist die Kommunikation Keine Aussicht auf Besserung bei Exascale Neue Kommunikations- und Programmiermodelle RDMA einseitige Kommunikation PGAS UPC OpenSHMEM GASPI Hybride Programmierung: MPI oder GASPI + OpenMP pthreads 3

4 Motivation Einseitige, asynchrone Kommunikationsroutinen erfordern ein Umdenken in HPCtypischen Kommunikationsschemata, wie zum Beispiel Halo Exchange Alltoall Matrix Transposition Stencil Kleine Sammlung von Benchmarks auf GitHub: 4

5 Motivation Einseitige, asynchrone Kommunikationsroutinen erfordern ein Umdenken in HPCtypischen Kommunikationsschemata, wie zum Beispiel Halo Exchange Alltoall Matrix Transposition Stencil Kleine Sammlung von Benchmarks und Kommunikationskerneln auf GitHub: 5

6 Matrix Transposition Matrix Transposition ist eine Erweiterung einer allgemeinen Alltoall Funktion 6

7 Matrix Transposition Matrix Transposition ist eine Erweiterung einer allgemeinen Alltoall Funktion Nach der Kommunikation folgt die lokale Transposition Multithreaded, im Idealfall 7

8 Matrix Transposition in MPI 8

9 Matrix Transposition in MPI - Probleme - Keine Überlappung von Kommunikation und lokaler Transposition Barrier für die Threads notwendig Lösung: Überlappung durch einseitige Kommunikation (GASPI) 9

10 GASPI BMBF Projekt bis 06/2015 PGAS Standard Skalierbarkeit Asynchrones, einseitiges Kommunikationsmodell Fehlertoleranz Timeouts und variable Knotennutzung Status einzelner Knoten mit dem Statevector überwachbar Flexibilität Interoperabel mit MPI Kein festgelegtes Speichermodell Segmente 10

11 GASPI Segmente 11

12 GASPI Einseitige Kommunikation U.a. gaspi_read und gaspi_write Queues Einfache Benachrichtigung des passiven Prozesses U.a. gaspi_notify und gaspi_notify_waitsome Passive Kommunikation Gruppen und kollektive Operationen Global Atomics GPI2 implementiert GASPI 12

Einseitige Kommunikation und Queues gaspi_write und gaspi_read erstellen Kommunikationsaufträge in verschiedenen Queues, die dann vom Netzwerk

13 Einseitige Kommunikation und Queues gaspi_write und gaspi_read erstellen Kommunikationsaufträge in verschiedenen Queues, die dann vom Netzwerk abgearbeitet werden. gaspi_wait pollt auf eine bestimmte Queue, bis alle einseitigen Kommunikationsaufträge in dieser Queue abgearbeitet sind. 13

14 GASPI Notifications Notifications zur Benachrichtigung des passiven Prozesses durch gaspi_write und gaspi_notify oder gaspi_write_notify Überprüfung der Notifications mit gaspi_notify_waitsome 14

GASPI Notifications Notifications zur Benachrichtigung des passiven Prozesses durch gaspi_write und gaspi_notify oder gaspi_write_notify Überprüfung der

15 GASPI Notifications Notifications zur Benachrichtigung des passiven Prozesses durch gaspi_write und gaspi_notify oder gaspi_write_notify Überprüfung der Notifications mit gaspi_notify_waitsome Notification erst dann sichtbar, wenn zuvorgehende writes an gleiches Segment, gleichen Knoten und gleiche Queue geschrieben wurden 15

16 Matrix Transpose mit gaspi_write_notify #pragma omp parallel{ if(tid == 0){ for (rank!= my_rank) gaspi_write_notify(submatrix[rank]) while (!complete){ gaspi_notify_waitsome(&my_submatrix) transpose(&my_submatrix) Kein Barrier mehr Alle Kommunikationsanfragen werden vom Netzwerk behandelt, während gleichzeitig lokal transponiert wird Gezielte Abfrage geschriebener Daten möglich 16

17 Matrix Transpose mit gaspi_write_notify #pragma omp parallel{ if(tid == 0){ for (rank!= my_rank) gaspi_write_notify(submatrix[rank]) while (!complete){ gaspi_notify_waitsome(&my_submatrix) transpose(&my_submatrix) Alle Nachrichten werden gleichzeitig an das Netzwerk abgegeben Statische Aufteilung der Untermatrizen auf die Threads Kein Barrier mehr Alle Kommunikationsanfragen werden vom Netzwerk behandelt, während gleichzeitig lokal transponiert wird Gezielte Abfrage geschriebener Daten möglich 17

18 Motivation für Matrix Transposition mit reads Nicht alle Daten müssten sofort kommuniziert werden Entlastung des Netzwerks Bessere Überlappung von Kommunikation und lokaler Transposition, bessere Auslastung der Threads möglich ABER: gaspi_read und gaspi_notify funktionieren nicht so, wie gaspi_write und gaspi_notify Lösung: Implementierung von gaspi_read_notify 18

gaspi_read_notify als GASPI Applikation https://github.

19 gaspi_read_notify als GASPI Applikation Emulation eines read_notify als GASPI Applikation innerhalb des Pipelined Transpose Pro Queue 1 read Warten bis zuvor gestarteter read fertig ist Notify auf eigenes Segment Nächsten read starten 19

20 Pipelined Transpose mit read_notify Emulation #pragma omp parallel{ if(tid == 0){ for (rank!= my_rank){ read_notify_em(submatrix[rank]) while (!complete){ gaspi_notify_waitsome(&my_submatrix) transpose(&my_submatrix) Es werden nur dann neue reads abgesetzt, wenn auch Kapazitäten frei sind (wait auf Queue) Weiterhin Überlappung von Kommunikation und Transposition 20

Community Benchmark Ergebnisse https://github.

21 Community Benchmark Ergebnisse InfiniBand 7D Enhanced Hypercube 12 Cores/Prozess native Implementierung von gaspi_read_notify 21

gaspi_read_notify Implementierung Innerhalb der GPI2-1.

22 gaspi_read_notify Implementierung Innerhalb der GPI Direkt auf ibverbs 2 aufeinanderfolgende, geordnete reads read2 read1 22

23 Pipelined Transpose mit read_notify Variante 1 Statische Verteilung der reads und der bearbeiteten Blöcke #pragma omp parallel for(i < num_initial_reads){ gaspi_read_notify(&i) while(!complete) if(!my_submatrix.transpose) if(gaspi_notify_waitsome(&my_submatrix, GASPI_TEST) == GASPI_SUCCESS){ transpose(&my_submatrix) if(my_reads!= complete){ gaspi_read_notify(&next_read) 23

24 Pipelined Transpose mit read_notify Variante 2 Dynamische Verteilung der reads und der bearbeiteten Blöcke #pragma omp parallel for(i < num_initial_reads){ gaspi_read_notify(&i) while(!complete) if(gaspi_notify_waitsome(&any_submatrix, GASPI_TEST) == GASPI_SUCCESS){ transpose(&any_submatrix) if(reads!= complete){ gaspi_read_notify(&next_read) 24

25 Eigene Ergebnisse Cluster 1 InfiniBand QDR Fat Tree 6 Cores/Prozess Intel(R) Xeon(R) 2.93GHz 25

26 Eigene Ergebnisse Cluster 2 InfiniBand FDR10 Fat Tree 8 Cores/Prozess 2x Intel(R) Xeon(R) 2.6 GHz 26

27 Zusammenfassung Neue Programmierparadigmen ermöglichen und erfordern ein Neugestalten der Kommunikation Relevante Kommunikationsschemata können als Kernel implementiert werden PGAS Community Benchmarks gaspi_write_notify ist ein mächtiges Werkzeug für die Umgestaltung der Kernel Ein notified read scheint vielversprechend Implementierung noch ausbaufähig 27

28 Ausblick Implementierungsalternativen für gaspi_read_notify Wechsel des Anwendungsfalls Graph Traversal Forschungsergebnisse gegebenenfalls nutzbar für teilevaluierbaren, asynchronen Alltoall(v) 28

29 Fragen, Anregungen und Diskussionen sind herzlich willkommen! THE END 29

Ähnliche Dokumente

GASPI. HPCN Braunschweig

GASPI. HPCN Braunschweig GASPI HPCN Braunschweig 9.5.2012 Projektpartner Fraunhofer Gesellschaft e.v. Fraunhofer ITWM Fraunhofer SCAI T-Systems Solutions for Research GmbH Forschungszentrum Jülich Karlsruher Institut für Technologie