Paralleles Höchstleistungsrechnen Einführung

Größe: px

Ab Seite anzeigen:

Download "Paralleles Höchstleistungsrechnen Einführung"

Ute Zimmermann
vor 5 Jahren
Abrufe

1 1/40 Paralleles Höchstleistungsrechnen Einführung Peter Bastian Interdisziplinäres Zentrum für Wissenschaftliches Rechnen Universität Heidelberg Im Neuenheimer Feld 368 D Heidelberg 2. Oktober 2008

2 2/40 Inhalt Organisatorisches Motivation Einige Beispielanwendungen Superrechner Inhalt der Vorlesung

3 3/40 Vorlesung Dozent Peter Bastian zu finden in: INF 368, Raum Vorlesung Di 9-11 in 368/532, Do 9-11 in 350/U014 Skript, Folien (falls verfügbar), Übungsaufgaben:

4 4/40 Übung Leiter: Christian Engwer findet statt im CIP-Pool des IWR, Otto-Meierhof-Zentrum Zeit: Noch zu vereinbaren! Anmeldung zur Übung Schein auf Übungsaufgaben Bachelor/Master: mündliche Prüfung (bzw. Klausur bei großem Andrang) Voraussetzung für die Teilnahme an der mündlichen Prüfung/Klausur: 50% der Übungsaufgaben C/C++ Kentnisse erforderlich

5 5/40 Inhalt Organisatorisches Motivation Einige Beispielanwendungen Superrechner Inhalt der Vorlesung

6 6/40 Warum parallel Rechnen? Nebenläufigkeit Abarbeitung mehrerer Prozesse auf einem Prozessor Multi-Tasking Betriebssysteme seit den 60er Jahren Bedienung mehrerer Geräte und Benutzer Ziel: Steigerung der Auslastung Hyperthreading : Nutze Wartezeiten des Prozessors Mehrere Dinge gleichzeitig : Web-Browser, Desktop Koordinationsproblematik tritt bereits hier auf Verteilte Anwendungen Datenbasis ist inhärent verteilt: betriebswirtschaftliche Software, Warenfluß in großen Unternehmen Hier wichtig: plattformübergreifende Kommunikation, Client-Server Architekturen Auch wichtig: Sicherheit, VPN, etc. (behandeln wir nicht)

7 7/40 High Performance Computing Treibt Rechnerentwicklung seit Anfang 1940er Anwendungen: mathematische Modellierung und numerische Simulation ungestillter Hunger nach Rechenzeit: Modellfehler detailliertere Physik Approximationsfehler mehr Freiheitsgrade Grand Challenges: Kosmologie, z. B. Galaxiendynamik Proteinfaltung Erdbebenvorhersage Klimaentwicklung ASCI Program (Advanced Simulation and Computing) Programm amerikanischer Parallelrechner seit 1992, Funding 2004: 200 Mio US-$ DoE, 87 Mio US-$ NSF

8 8/40 Earth Simulator (Japan) Juni 2002 bis Juni 2004 der leistungsfähigste Computer der Welt Kosten: 350 bis 500 Mio US-$ Folie (und die folgenden) von J. Dongarra

9 Earth Simulator Architecture 9/40

10 Earth Simulator Gebäude 10/40

11 Earth Simulator Gebäude 11/40

12 ... die Kabel 12/40

13 ... die Kabel 13/40

14 ... und ein Kraftwerk 14/40

15 15/40 Terascale Simulation Facility Lawrence Livermore National Laboratory BlueGene/L Prozessoren, 478 TFLOPS seit 2007

16 Couplex Benchmark far field 3000 m near field 6 m 0.9 m 5 m 15 m seal container gallery 50 m repository Couplex1, Couplex2 16/40

17 17/40 Inhalt Organisatorisches Motivation Einige Beispielanwendungen Superrechner Inhalt der Vorlesung

18 Couplex Transport Model Flow equation: u = f in Ω, u = K H Transport equations i = silica, 135 Cs, 238 Pu, 242 Pu, 234 U, 238 U: ( ) Ci Rω t + λc i + j i = q(c 1,...,C n ) in Ω, Processes: j i = uc i D(u) C i Convection-dispersion (Scheidegger) Radioactive decay 238 Pu 234 U, 242 Pu 238 U Precipitation: 238 Pu, 242 Pu, 234 U, 238 U as disolved components and (immobile) solid phase 18/40

19 19/40 Couplex 2 [Micromole/yr] 4e e-10 3e e-10 2e e-10 1e-10 5e-11 0 U234 Host to Outside -5e e+06 2e+06 3e+06 4e+06 5e+06 6e+06 Time [yr] 1622 vertices vertices vertices vertices P Unbekannte Par. Rechenzeit [h] Seq. Rechenzeit [h] (Gemeinsame Arbeit mit Stefan Lang)

20 Dichteströmung brine, 1200 kg/m3 perturbation water, 1000 kg/m3 periodic boundary conditions Salzstock, Ozean, Atmosphäre, Sterninneres, Erdmantel, Kaffeetasse 20/40

21 21/40 Density driven flow in Porous Media Flow equation (Bussinesq approximation): u = f, u = K ( p (C)g), (C) = C b+(1 C) 0 in µ Ω Transport equation: (ΦC) t + j + q = 0, j = Cu D C Elliptic flow equation coupled to parabolic/hyperbolic transport equation Cell centered finite volume discretization, second order Godunov scheme for convective terms Cell centered multigrid method Decoupled solution scheme

22 22/40 Simulation Results Comparison of two-dimensional and three-dimensional simulation 2d 3d

23 23/40 Simulation Data Grid size: , about 9000 time steps Solves linear system with unknowns per time step (requires 30 seconds on 384 processors) Data produced per time step: 3.2 GByte in binary float Data produced by whole simulation: 29 TByte Visualization requires intelligent ways of data reduction and/or parallelized visualization tools In addition I/O capabilities of HELICS should be improved in the future

Diffusion) Visualisierung großer Datenmengen ist ein

24 24/40 Virtuelles Labor Verändere physikalische Parameter (links wenig Diffusion, rechts viel Diffusion) Visualisierung großer Datenmengen ist ein Problem Alle Komponenten einer Simulation müssen parallel bearbeitet werden

25 25/40 In-Situ Reinigungsverfahren 100 m Pumpbrunnen 400 m Schadstoff Boden mit variabler Durchlässigkeit Förderbrunnen

26 3D Transport in Heterogenem Medium Zellenzentrierte Finite-Volumen Verfahren (CCMG, HOG) Zellen, time steps 26/40

27 27/40 Numerische Strömungsberechnung p, C Pro Zelle: Phys. Größen wie Druck, Temperatur, Konzentration Je mehr Zellen desto genauer das Ergebnis

28 28/40 Datenparallelität Datenzerlegung/Datenaufteilung Datenaustausch (muss minimiert werden)

29 Beschleunigung ideal festes Problem wachsendes Problem Beschleunigung Prozessoren Gegebenes Problem immer schneller rechnen Mit mehr Prozessoren immer größere Probleme rechnen 29/40

30 30/40 Inhalt Organisatorisches Motivation Einige Beispielanwendungen Superrechner Inhalt der Vorlesung

31 31/40 Was ist ein Superrechner? Gerät Jahr $ Takt [MHz] MBytes MFLOPS CDC M $ Cray 1A M $ Cray X-MP/ M $ C ASCI Red Pentium Core 2 XE QX > X-MP/48: P=4, C90: P=16, ASCI Red: P=9152 PC von heute = Superrechner von gestern

32 Entwicklung Einzelprozessoren in den 90ern 1 1 Culler/Singh, Parallel Computer Architecture. 32/40

33 Entwicklung Multiprozessoren 2 2 Culler/Singh, Parallel Computer Architecture. 33/40

34 HELICS Entwicklung seit den 90er Jahren: Cluster Computer Aufbau aus Standardbauteilen 34/40

35 35/40 Aktuelle Entwicklung Multicore Prozessoren Coprozessoren Cell, Clearspeed General Puropse GPU-Computing Petaflop Computer: Gleitkommaoperationen pro Sekunde erreicht im Juni 2008 der IBM Roadrunner Cores, Opteron mit Cell Coprozessoren

36 General Purpose GPU-Computing Quelle: NVIDIA 36/40

37 37/40 Effiziente Algorithmen Schnelle Rechner sind nicht alles! Rechenzeiten zur (approximativen) Lösung spezieller linearer Gleichungssysteme: N Gauß ( 2 3 N3 ) Mehrgitter (100N) s 10 4 s s 10 3 s Tage 10 2 s Jahre 0.1 s Jahre 1 s (für einen Rechner mit 1 GFLOP/s) Parallelisierung kann einem ineffizienten Verfahren nicht helfen! Schnelle Rechner und schnelle Algorithmen

38 38/40 Inhalt Organisatorisches Motivation Einige Beispielanwendungen Superrechner Inhalt der Vorlesung

39 Inhalt der Vorlesung I Hardware Prozessorentwicklung, Pipelining, SIMD, MIMD, Caches, Cachekonsistenz, Multicore Verbindungsnetzwerke Grafikprozessoren II Programmierung gemeinsamer Speicher: Locks, Semaphore PThreads, OpenMP verteilter Speicher: MPI-I, MPI-II RPC, Corba CUDA III Algorithmen Bewertung von Algorithmen, prinzipielles Vorgehen, Lastverteilung dichtbesetzte Matrizen dünnbesetzte Gleichungssysteme Sortieren, N-Körper-Problem 39/40

40 40/40 Links Vorlesung ASCI Program Seymour Cray craytalk/ TOP 500 Supercomputer Sites

Ähnliche Dokumente

Wissenschaftliches Rechen

Wissenschaftliches Rechen Paralleles Höchstleistungsrechnen Christian Engwer Uni Münster April 5, 2011 Christian Engwer (Uni Münster) Wissenschaftliches Rechen April 5, 2011 1 / 20 Organisatorisches Vorlesung