Eine kurze Einführung in Rechnerarchitektur und Programmierung von Hochleistungsrechnern als zentrales Werkzeug in der Simulation

Größe: px

Ab Seite anzeigen:

Download "Eine kurze Einführung in Rechnerarchitektur und Programmierung von Hochleistungsrechnern als zentrales Werkzeug in der Simulation"

Joachim Brauer
vor 5 Jahren
Abrufe

1 Eine kurze Einführung in Rechnerarchitektur und Programmierung von Hochleistungsrechnern als zentrales Werkzeug in der Simulation Dr. Jan Eitzinger Regionales Rechenzentrum (RRZE) der Universität Erlangen-Nürnberg

2 On Computable Numbers, with an Application to the Entscheidungsproblem (1936) Alan Turing A Symbolic Analysis of Relay and Switching Circuits (1937) Claude Shannon Programmierbarer elektromechanischer Rechner Z1 (1938) Konrad Zuse

3 Speicher for (int j=0; j<size; j++){ sum = sum + V[j]; } Kontroll Einheit Arithmetic Logical Unit Prozessor 401d08: f3 0f addss xmm0,[rdx + rax * 4] 401d0d: c0 01 add rax,1 401d11: 39 c7 cmp edi,eax 401d13: 77 f3 ja 401d08 Eingabe Ausgabe Instruktionsaddressen Binärcode Assembler code Beschleunigung für relevante Programme Was ist technisch umsetzbar? Wirtschaftliche Erwägungen Takterhöhung Parallelisierung Spezialisierung

4 Begriffsklärung Speicher Instruktion Anweisung bzw. Befehlscode Prozessor for (int j=0; j<size; j++){ sum = sum + V[j]; } Adresse Bezeichnung Arithmetic von Speicherzellen im Hauptspeicher Kontroll Logical Einheit Unit 401d08: f3 0f addss xmm0,[rdx + rax * 4] 401d0d: c0 01 add rax,1 401d11: 39 c7 cmp edi,eax 401d13: 77 f3 ja 401d08 Register Direkt mit Rechenwerk verbundener Speicher für Operanden Assembler Textdarstellung von binärem Programmcode Instruktionsaddressen mindestens einem Binärcode (Rechen-)Kern Eingabe Ausgabe Bauelement mit Rechenwerk Chip Ein Stück integrierter Siliziumschaltkreis Beschleunigung für relevante Programme Takterhöhung Sockel Steckplatzvorrichtung für Computerprozessoren Was ist technisch umsetzbar? Parallelisierung (Rechen-)Knoten Bauelement bestehend aus einer Hauptplatine Wirtschaftliche Erwägungen Spezialisierung Taktfrequenz Komponenten laufen mit einem vorgegebenen Takt Assembler code

5 Geschwindigkeitssteigerung durch Takterhöhung Durchsatz: 1 Einheit pro Sekunde Durchsatz: 4 Einheiten pro Sekunde Begrenzung: Kühlung physikalisch nicht möglich!

6 Geschwindigkeitssteigerung durch Parallelisierung Probleme Es muss genug Arbeit vorhanden sein Es darf keine Abhängigkeiten geben Nutzung meist explizit Durchsatz: 1 Einheit pro Sekunde Durchsatz: 8 Einheiten pro Sekunde

7 Parallelisierung der Instruktionsausführung Fließbandprinzip Superskalare Ausführung Instruktionen I5 I4 I3 I2 I1 4-fach superskalar Stufen Takt Durchsatz: 1 Instruktion pro Takt Beschleunigung um Faktor 5 Durchsatz: 4 Instruktionen pro Takt

8 Datenparallele Ausführungseinheiten (SIMD) for (int j=0; j<size; j++){ A[j] = B[j] + C[j]; } Skalare Ausführung = +

9 Datenparallele Ausführungseinheiten (SIMD) for (int j=0; j<size; j++){ A[j] = B[j] + C[j]; } Breite Register 1 Wert Skalare Ausführung 4 Werte = +

10 Speicherhierarchie Man kann entweder einen kleinen und schnellen Speicher oder einen Latenz [s] 10-9 Kern L1 Cache Bandbreite [bytes/s] großen und langsamen Speicher L2 Cache bauen L3 Cache Ziel vieler Optimierungen ist es daher, möglichst viele Daten aus schnellen Speicherebenen zu laden Hauptspeicher Festplatte 10 9

11 Mehrkern-Architekturen Kern ALU LSU core core core core core core core core core core core core Chip (bis zu 28 Kerne) Speicher FPU Sockel FPU Sockel L1 Cache Speicher L2 Cache Knoten (2 Chips) Ca. 8 Mrd. Transistoren auf 500 mm2 Intel

12 Gleitkomma-Rechenleistung pro Knoten 23 P "#$%&# = n *+,-. / n "&0#& / n.1-&0 / n 245 / n 6748 / f Chips pro Knoten Kerne pro Chip Superskalarität FMA Faktor SIMD Faktor Takt Beispiel Intel Xeon Skylake SP 8170 P "#$%&# = 2 / 26 / 2 / 2 / 8 / Operationen Sekunde Operationen = Sekunde

13 Entwicklung der Intel Xeon Chipleistung Chipleistung ohne SIMD 14 Kerne 8 Kerne 22 Kerne Haswell 120W 2 Kerne 4 Kerne Tausch Cores gegen Takt Broadwell 145W Skylake 165W

14 Entwicklung der Intel Xeon Chipleistung Chipleistung mit SIMD/FMA FMA AVX SSE

15 Architektur-Entscheidungen Kernkomplexität Intel Multi-Core Intel Many-Core Eingeschlossene Fläche entspricht: Energiebudget Transistorbudget # Kerne SIMD GPU Frequenz

16 Beispiel-Topologie von Supercomputern Knoten (2 Chips) Schrank (3 Chassis) Speicher Speicher Chassis Chassis Sockel Sockel Chassis Knoten Knoten SuperMUC LRZ Knoten Knoten Ein System besteht aus vielen Schränken! (4 Knoten) Chassis (16 s)

17 Gleitkomma-Rechenleistung Supercomputer P 6G.%&H = n 6I+0ä#K& / n *+L..,. / n MNLO&. / n "#$%&# / P "#$%&# Anzahl Schränke Chassis pro Schrank s pro Chassis Knoten pro Leistung Knoten Beispiel 3 PetaFlop System: P 6G.%&H = 5 / 3 / 16 / 4 / S Operationen Sekunde = 3, Operationen Sekunde 960 Knoten mit Rechenkernen

18 Meggie 728 Rechenknoten ( Kerne) Linpack: P max = 470 TF/s Top500 Liste: Linpack Benchmark 93 Pflops/s 15 MWatt #346@TOP500 Nov. 2016

19 Top500 Liste: Linpack Benchmark 93 Pflops/s 15 MWatt

20 Gemeinsamer und verteilter Speicher Speicher Speicher Speicher Speicher Kommunikations-Netzwerk Innerhalb eines Knotens: Austausch über Hauptspeicher Gemeinsamer Speicher Zwischen mehreren Knoten: Austausch über Netzwerknachrichten Verteilter Speicher

21 Gebietszerlegung Datenaustausch an Gebietsgrenzen Rechnen Datenaustausch Rechnen Datenaustausch

22 Starke Skalierung Maximale parallele Beschleunigung bei konstanter Problemgröße Arbeiter Zeit Amdahls Gesetz Serieller Anteil 10% Problemgröße Beschleunigung = s + 1 (1 s) p

23 Starke Schwache Skalierung Maximale Skalierung parallele Beschleunigung bei konstanter Lösen einesproblemgröße größeren Problems in gleicher Zeit Arbeiter Zeit unter Verwendung einer 1 entsprechenden Anzahl 2 von Arbeitern Gustavsons Gesetz Serieller Anteil 10% Problemgröße Beschleunigung = s + 1 (1 s) p

24 Wie programmiert man HPC Systeme? Message Passing Interface (MPI) Standard Programmierschnittstellen für: Punkt-zu-Punkt Kommunikation Kollektive Kommunikation Parallele Dateioperationen Prozess 1 Prozess 2 Nachricht Barriere Erste Spezifikation 1994 Zeitachse Funktioniert für gemeinsamen und verteilten Speicher

25 MPI + X X: Beliebiges anderes Programmiermodell auf Knotenebene OpenMP Programmierschnittstelle für gemeinsamen Speicher. Erster Standard 1997 CUDA Programmierschnittstelle für GPGPUs von Nvidia Weitere Lösungen: OpenACC, OpenCL, SHMEM

26 Alternativen zu MPI Partitioned global address space (PGAS) Programmiermodelle: Unified Parallel C und Coarray Fortran Chapel und X10 SHMEM Aus dem Big-Data Umfeld: Apache Spark Apache Hadoop Google TensorFlow

27 Vielen Dank für Ihre Aufmerksamkeit!

Ähnliche Dokumente

2 Rechnerarchitekturen

2 Rechnerarchitekturen Rechnerarchitekturen Flynns Klassifikation Flynnsche Klassifikation (Flynn sche Taxonomie) 1966 entwickelt, einfaches Modell, bis heute genutzt Beschränkung der Beschreibung auf