High Performance Computing

Größe: px

Ab Seite anzeigen:

Download "High Performance Computing"

Arthur Boer
vor 5 Jahren
Abrufe

1 High Performance Computing SS 2002 PD Dr. A. Strey Abteilung Neuroinformatik, Universität Ulm Inhalt Einführung hohe Leistung durch Parallelität! kurze Historie des High Performance Computing (HPC) Top 500 Architekturen für HPC Exkurs: SIMD-Parallelrechner und Vektorrechner Hochleistungsprozessoren Parallelrechner mit gemeinsamem Speicher (SMP = Symmetric Multiprocessor ) Parallelrechner mit verteiltem Speicher (DMC = Distributed Memory Computer ) Parallelrechner mit virtuellem gemeinsamem Speicher (ccnuma = cache-coherent Non-Uniform Memory Access ) Cluster aus PCs/Workstations 2 1

2 Inhalt (Forts.) Programmierumgebungen für HPC High Performance Fortran PVM ( Parallel Virtual Machine ) MPI ( Message Passing Interface ) Threads OpenMP automatische Parallelisierung Leistungsbewertung von HPC-Systemen Typische HPC Anwendungen, z.b.: Lösen großer Gleichungssysteme Simulation neuronaler Netze Sequenzanalyse in Bioinformatik Ausblick: Trends und Perspektiven 3 Literatur D.E. Culler, J.P. Singh, Parallel Computer Architecture: A Hardware/Software Approach, Morgan Kaufmann, 1999 Ch. Märtin, Rechnerarchitekturen: CPUs, Systeme, Software- Schnittstellen, Carl Hanser Verlag, K. Dowd, Ch. Severance, High Performance Computing, O Reilly, 1998 G.C. Fox, R.D. Williams, Parallel Computing Works, Morgan Kaufmann, 1994 (Online-Version unter I. Foster, Designing and Building Parallel Programs, Addison- Wesley, 1995 (Online-Version unter www-unix.mcs.anl.gov/dbpp) 4 2

3 Organisatorisches Vorlesung: Mi., 12-14, Raum O27/122 (!?) voraussichtliche Vorlesungstermine: (Fr), , (Fr), , , , , , , , , Übung: Fr., , Raum O27/122 voraussichtliche Übungstermine: 1. Rechnerarchitekturen für HPC MPI, Teil MPI, Teil OpenMP, Teil OpenMP, Teil Leistungsbewertung Warum HPC? zur Reduktion der Rechenzeit bei der Lösung eines Problems zur Berechnung größerer Probleme bei gleicher Rechenzeit (Problemgröße wächst permanent., weil Wunsch nach Realitätsnähe bei Modellierung ständig zunimmt) zur Ermöglichung von Simulationen in Echtzeit typische heutige HPC Anwendungen: Wettervorhersage, Vorhersage von Molekülstrukturen, Proteinanalyse, Simulation von Autos, Schiffen und Flugzeugen, Visualisierung zur Lösung von zukünftigen noch bedeutend komplexeren Aufgaben ( Grand Challenge Problems ) mit ggf. neuen Algorithmen : Globale Klima-Simulation, Molekulardynamik, Erdbebenvorhersage, Simulation der Ozeanströmungen, Analyse des menschlichen Genoms 6 3

4 Parallelität hohe Leistung überwiegend durch hohe Taktraten und durch Ausnutzung von Parallelität in der Rechnerarchitektur Verteilung von Arbeit und Daten auf viele gleichzeitig arbeitende Rechenknoten Arten der Organisation von Parallelität (Flynn s Taxonomie) SISD ( Single Instruction, Single Data, keine Parallelität!) SIMD ( Single Instruction, Multiple Data ) MIMD ( Multiple Instruction, Multiple Data ) SPMD ( Same Program, Multiple Data ) Arten der Organisation des Speichers Gemeinsamer Speicher ( Shared Memory ) Verteilter Speicher ( Distributeted Memory ) 7 Parallelität (Forts.) Vor-/Nachteile paralleler Verarbeitung: + kürzere Ausführungszeit aufwendige Programmierung (hohe Kosten für Entwicklung und Pflege) effiziente Parallelisierung oft nicht trivial Schlüsselprobleme: Partitionierung eines Problems und ggf. Lastverteilung (Ziele: hohe Lokalität, maximale Auslastung, minimale Kommunikation) Skalierbarkeit (d.h. Erhöhung der Leistung bei Erhöhung der Prozessoranzahl) Portabilität der Anwendungen (d.h. rechnerunabhängige parallele Programmierung) Koordination und Synchronisation bei der parallelen Verarbeitung Kopplung sehr vieler Prozessoren 8 4

5 SIMD-Parallelrechner Kontrolleinheit broadcastet Instruktionen an viele einfache Prozessorelemente (PEs) Alle PEs führen taktsynchron die gleiche Instruktion auf unterschiedlichen Daten aus datenparallele Programmierung einzige Ausnahme: Maskierung durch paralleles if-konstrukt gut für Operationen auf Vektoren und Matrizen Beispiele: Connection Machine CM1 und CM2, ILLIAC IV, ICL DAP, MasPar MP1 und MP2 9 MIMD-Parallelrechner mehrere komplexe und unabhängig arbeitende Prozessoren prozeßparallele Programmierung gemeinsamer Speicher (mit globalem Adreßraum) oder verteilter Speicher größere Flexibilität als bei SIMD preiswerter dank Standardkomponenten weites Spektrum an Architekturen, z.b.: Symmetrische Multiprozessoren (SMP) Parallelrechner mit verteiltem Speicher (DMC = Distributed Memory Computer ) Cluster aus PCs/Workstations Beispiele: Intel ipsc und Paragon, Cray T3D und T3E, SP2, Sun HPC 10 5

Historie HPC : Meilensteine 1972: Slotnick entwickelt Illiac IV (erster SIMD-Computer mit 64 64-Bit PEs in Gitter-Topologie) 1976: Cray installiert ersten Vektorrechner Cray-1 mit einer Leistung von

8000, 8 CPUs 1988: Intel stellt ipsc/2 vor (MIMD-Rechner mit bis zu 128 in einem Hyperkubus angeordneten 386-Prozessoren) 1992: MasPar liefert MP2 aus (SIMD-Computer mit 16k 32-Bit

6 Historie HPC : Meilensteine 1972: Slotnick entwickelt Illiac IV (erster SIMD-Computer mit Bit PEs in Gitter-Topologie) 1976: Cray installiert ersten Vektorrechner Cray-1 mit einer Leistung von 100 MFlop/s 1982: Fujitsu installiertvp-200 Vektorrechner mit 500 MFlop/s 1985: Thinking Machines stellt Connection Machine CM1 vor (SIMD-Computer mit 64k 1-Bit PEs) 1986: erster SMP: Sequent Balance 8000, 8 CPUs 1988: Intel stellt ipsc/2 vor (MIMD-Rechner mit bis zu 128 in einem Hyperkubus angeordneten 386-Prozessoren) 1992: MasPar liefert MP2 aus (SIMD-Computer mit 16k 32-Bit Prozessorelementen) 11 Historie HPC : Meilensteine (Forts.) 1993: Cray baut MIMD-Rechner Cray T3D (bis zu 2048 DEC Alpha-Prozessoren verbunden in 3DTorus-Topologie) 1994: SP2: Kopplung vieler RISCSystem/6000 Workstations über ein schnelles, skalierbares Netzwerk 1995: DEC Alpha Prozessor mit 4-facher Superskalarität 1996: SGI Origin (erster Parallelrechner mit virtuellem gemeinsamem Speicher) 1997: System Deep Blue schlägt Weltschachmeister Kasparov 1997: ASCI Red mit 4536 Pentium Pro Prozessoren erreicht eine Leistung von mehr als 1 TFlop/s : ASCI White aus 512 SMPs erreicht mehr als 10 TFlop/s (Details:

7 Leistung von HPC Systemen (für LINPACK) 13 Leistung von Prozessoren 14 7

8 Technologie für Prozessoren Taktrate bei Mikroprozessoren erhöhte sich von 1 MHz (1980) auf 1 GHz () Mooresches Gesetz: Verdopplung von Geschwindigkeit des Prozessors und Kapazität der Speicherbausteine alle 1,5 Jahre! gibt es physikalische Grenzen? Lichtgeschwindigkeit: 30 cm/ns Geschwindigkeit der Signalausbreitung in Kupfer: 9 cm/ns (1 GHz entspricht einer Taktbreite von 1ns) Energieverbrauch (und somit Wärmeentwicklung) wachsen linear mit Taktfrequenz (Reduktion der Betriebsspannung, kann nicht beliebig klein werden!) weitere Leistungssteigerungen langfristig hauptsächlich nur durch Ausnutzung von Parallelität! 15 TOP 500 seit 1993 wird jährlich eine Liste der weltweit 500 schnellsten HPC-Systeme erstellt Bewertungsmaßstab ist die Leistung bei der Lösung eines großen Systems linearer Gleichungen (LINPACK Benchmark): R max gibt die Leistung eines Systems in GigaFlop/s bei einer individuell gewählten optimalen Problemgröße N max an Details unter

9 Top 500 Auszug (Top 20, international) Rank Manufact. Computer R max (GFlops) Installation Site Country Year #Proc 1 ASCI White, Lawrence Livermore National Laboratory Compaq AlphaServer SC ES45/1 GHz Pittsburgh Supercomputing Center way NERSC/LBNL Intel ASCI Red Sandia National Labs ASCI Blue-Pacific, SP 604e Lawrence Livermore National Laboratory Compaq AlphaServer SC ES45/1 GHz Los Alamos National Laboratory Hitachi SR8000/MPP University of Tokyo Japan SGI ASCI Blue Mountain Los Alamos National Laboratory Naval Oceanographic Office way Deutscher Wetterdienst Germany way Center for Atmospheric NEC SX-5/128M8 3.2ns Osaka University Japan Center for Environmental Prediction Center for Environmental Prediction T3E Government way Lawrence Livermore National Laboratory Hitachi SR8000-F1/ Leibniz Rechenzentrum Germany way UCSD/San Diego Supercomputer Center Hitachi SR8000-F1/ High Energy Accelerator Org. Japan T3E US Army HPC Center at NCS Top 500 Auszug (Country = Germany) Rank Manufacturer Computer R max (GFlops) Installation Site Year Inst. Type #Proc way Deutscher Wetterdienst Hitachi SR8000-F1/ Leibniz Rechenzentrum Academic T3E Deutscher Wetterdienst Rottendorf Pharma GmbH T3E Forschungszentrum Juelich (FZJ) T3E Max-Planck-Gesellschaft MPI/IPP T3E HWW/Universitaet Stuttgart DeTeCSM T3E ZIB/Konrad Zuse-Zentrum fuer Informationstechnik 1999 Academic SP PC604e 332 MHz Bayer AG T3E Forschungszentrum Juelich (FZJ) GWDG Academic Self-made CLIC PIII 800 MHz Technische Universitaet Chemnitz Academic Bayer AG HP SuperDome/HyperPlex Braun GmbH HP SuperDome/HyperPlex Wirth Adolf GmBH way PIK HP SuperDome/HyperPlex DKFZ DeTeCSM

10 19 10

Ähnliche Dokumente

High Performance Computing

High Performance Computing SS 2004 PD Dr. A. Strey Abteilung Neuroinformatik, Universität Ulm Email: strey@informatik.uni-ulm.de Inhalt Einführung hohe Leistung durch Parallelität! kurze Historie des High