High Performance Computing



Ähnliche Dokumente
High Performance Computing

Ein kleiner Einblick in die Welt der Supercomputer. Christian Krohn

Projektseminar Parallele Programmierung

XSC. Reimar Bauer, Rebecca Breu. Dezember Forschungszentrum Jülich. Weihnachtsfeier, 10. Dezember

Proseminar Rechnerarchitekturen. Parallelcomputer: Multiprozessorsysteme

Intel 80x86 symmetrische Multiprozessorsysteme. Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte

Distributed Memory Computer (DMC)

moderne Prozessoren Jan Krüger

Kapitel 5. Parallelverarbeitung. Formen der Parallelität

Grundlagen der Parallelisierung

Orientierungsveranstaltungen 2009 Informatikstudien der Universität Wien

Centre of Excellence for High Performance Computing Erlangen Kompetenzgruppe für Supercomputer und Technisch-Wissenschaftliche Simulation

Computeranwendung in der Chemie Informatik für Chemiker(innen)

Parallelrechner (1) Anwendungen: Simulation von komplexen physikalischen oder biochemischen Vorgängen Entwurfsunterstützung virtuelle Realität

Codesigned Virtual Machines

Dienstleistungen Abteilung Systemdienste

Mikrocontroller Grundlagen. Markus Koch April 2011

Excel beschleunigen mit dem mit Windows HPC Server 2008 R2

Johann Wolfgang Goethe-Universität

MOGON. Markus Tacke HPC ZDV. HPC - AHRP Markus Tacke, ZDV, Universität Mainz

Verkürzung von Entwurfszeiten

Big Data in der Forschung

The world we live in and Supercomputing in general

2 Rechnerarchitekturen

Einleitung. Dr.-Ing. Volkmar Sieh WS 2005/2006. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg

Enterprise Computing

Super rechnen ohne Superrechner Oder: Was hat das Grid mit Monte Carlo zu tun?

Einführung in die Informatik

2.5. VERBINDUNGSNETZWERKE GESTALTUNGSKRITERIEN DER NETZWERKE TOPOLOGIE ALS GRAPH. Vorlesung 5 TOPOLOGIE: DEFINITIONEN : Sei G = (V, E) ein Graph mit:

Einführung in die Systemprogrammierung

Programmierung von Multicore-Rechnern

Einleitung. Dr.-Ing. Volkmar Sieh. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2006/2007

C C. Hochleistungsrechnen (HPC) auf dem Windows Compute Cluster des RZ der RWTH Aachen. 1 WinHPC Einführung Center. 31.

Select & Preprocessing Cluster. SPP Server #1. SPP Server #2. Cluster InterConnection. SPP Server #n

MATCHING VON PRODUKTDATEN IN DER CLOUD

Computational Biology: Bioelektromagnetismus und Biomechanik

Die deutsche Windows HPC Benutzergruppe

Inhaltsangabe zu den Systemvoraussetzungen:

Architektur von Parallelrechnern 50

PROLAG WORLD 2.0 PRODUKTBESCHREIBUNG SERVERSYSTEM, CLUSTERSYSTEME FÜR PROLAG WORLD

Übersicht. Einleitung. Übersicht. Architektur. Dr.-Ing. Volkmar Sieh WS 2008/2009

CHARON-AXP Alpha Hardwarevirtualisierung

Fragestellung: Wie viele CPU Kerne sollte eine VM unter Virtualbox zugewiesen bekommen?

Hardware-Architekturen

Virtual System Cluster: Freie Wahl mit Open Source

Das HLRN-System. Peter Endebrock, RRZN Hannover

Übersicht. Nebenläufige Programmierung. Praxis und Semantik. Einleitung. Sequentielle und nebenläufige Programmierung. Warum ist. interessant?

The Modular Structure of Complex Systems Seminar SoftwareArchitektur Fabian Schultz

Brückenkurs / Computer

Grundlagen der Programmierung 2. Parallele Verarbeitung

Adaptive und fehlertolerante MPI-Varianten. Heiko Waldschmidt

Überblick über das Institut für Telematik

Systemaspekte Verteilter Systeme Wintersemester 2004/05

Symmetric Multiprocessing mit einer FPGA basierten. Marco Kirschke INF-M3 Seminar Wintersemester 2010/ November 2010

Georg Hager Regionales Rechenzentrum Erlangen (RRZE)

Übergang vom Diplom zum Bachelor

Multicore Herausforderungen an das Software-Engineering. Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück

Studiengang Angewandte Informatik Master-AI. Institut für Neuroinformatik

1 Konzepte der Parallelverarbeitung

Technische Informatik I

Mehrprozessorarchitekturen (SMP, Cluster, UMA/NUMA)

Hardware-Empfehlungen PrefSuite V2008

IT für Führungskräfte. Zentraleinheiten Gruppe 2 - CPU 1

Hochleistungsrechnen für Wissenschaft und Wirtschaft im internationalen Verbund

Processors for mobile devices

Aktuelle Trends und Herausforderungen in der Finite-Elemente-Simulation

Einführung in die Informatik II

Systeme 1. Kapitel 10. Virtualisierung

INDEX. Netzwerk Überblick. Benötigte Komponenten für: Windows Server Windows Server 2008 R2. Windows Server 2012

WIE ERHÖHT MAN DIE EFFIZIENZ DES BESTEHENDEN RECHENZENTRUMS UM 75% AK Data Center - eco e.v. 1. Dezember 2009

GPGPU mit NVIDIA CUDA

Systemanforderungen für MSI-Reifen Release 7

SAP Systeme. Windows-Basierend. Heinrich Gschwandner SAP Competence Center. November 2004

OSL Storage Cluster und RSIO unter Linux Storage-Attachment und Hochverfügbarkeit in 5 Minuten

Parallel Computing. Einsatzmöglichkeiten und Grenzen. Prof. Dr. Nikolaus Wulff

Moderne parallele Rechnerarchitekturen

Proseminar Technische Informatik A survey of virtualization technologies

Parallele Programmierung mit OpenMP

Strukturelemente von Parallelrechnern

PERI Softwarefinder Leitfaden

Energiesparmechanismen des

Systemvoraussetzungen

NEC SX-ACE HPC-System

Windows 7 ist da! Der Nachfolger von Vista kommt noch vor dem Sommer

Systemvoraussetzungen für Autodesk Revit Produkte (gemäß Angaben von Autodesk)

Systeme 1: Architektur

Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce

Ressourceneffiziente IT- Lösungen

Über uns. HostByYou Unternehmergesellschaft (haftungsbeschränkt), Ostrastasse 1, Meerbusch, Tel , Fax.

Kingston Technology WHD. November 30, Andreas Scholz, BDM Integration und Server D-A

Modulbeschreibung. The course is principally designed to impart: technical skills 50%, method skills 40%, system skills 10%, social skills 0%.

Systemanforderungen Verlage & Akzidenzdruck

High Performance Computing Cluster-Lösung mit MOSIX im Einsatz bei VA-TECH HYDRO

Aktuelle Themen der Informatik: Virtualisierung

Preisvergleich ProfitBricks - Amazon Web Services M3 Instanz

Systemanforderungen (Mai 2014)

Manycores: Hardware und Low-Level Programmierung

Vorstellung des Fachgebietes Technische Informatik

Institut für Informatik

Transkript:

High Performance Computing SS 2004 PD Dr. A. Strey Abteilung Neuroinformatik, Universität Ulm Email: strey@informatik.uni-ulm.de Inhalt Einführung hohe Leistung durch Parallelität! kurze Historie des High Performance Computing (C) Top 500 Architekturen für C Exkurs: SIMD-Parallelrechner und Vektorrechner Hochleistungsprozessoren (z.b. UltraSparc, Pentium 4, Itanium, Opteron) Parallelrechner mit gemeinsamem Speicher (SMP = Symmetric Multiprocessor ) Parallelrechner mit verteiltem Speicher (DMC = Distributed Memory Computer ) Parallelrechner mit virtuellem gemeinsamem Speicher (ccnuma = cache-coherent Non-Uniform Memory Access ) Cluster aus PCs/Workstations/SMPs 2

Inhalt (Forts.) Programmierumgebungen für C High Performance Fortran PVM ( Parallel Virtual Machine ) MPI ( Message Passing Interface ) Threads OpenMP automatische Vektorisierung / Parallelisierung Leistungsbewertung von C-Systemen Typische C Anwendungen, z.b.: Lösen großer Gleichungssysteme Simulation neuronaler Netze Sequenzanalyse in Bioinformatik Ausblick: Trends und Perspektiven 3 Lernziele Verständnis der wichtigsten Architekturkonzepte moderner C-Systeme Grundlagen der prozessparallelen Programmierung von C- Systemen Entwicklung eigener prozessparalleler Programme mit MPI Grundlagen der threadparallelen Programmierung von C- Systemen Entwicklung eigener threadparalleler Programme mit OpenMP Leistungsbewertung von C-Systemen 4

Aufbau Vorlesung: Di., 16-18, Raum O27/121 Übung: Fr., 8.30-10, Raum O27/121 voraussichtliche Übungstermine: 1) Rechnerarchitekturen für C 14.05.04 2) MPI, Teil 1 04.06.04 3) MPI, Teil 2 11.06.04 4) OpenMP, Teil 1 25.06.04 5) OpenMP, Teil 2 02.07.04 6) Leistungsbewertung 16.07.04 5 Literatur V. Kumar, A. Grama, A. Gupta, Introduction to Parallel Computing, Addison-Wesley, 2003 D.E. Culler, J.P. Singh, Parallel Computer Architecture: A Hardware/Software Approach, Morgan Kaufmann, 1999 K. Dowd, Ch. Severance, High Performance Computing, O Reilly, 1998 T. Rauber, G. Rünger, Parallele und Verteilte Programmierung, Springer, 2000 I. Foster, Designing and Building Parallel Programs, Addison- Wesley, 1995 (Online-Version unter www-unix.mcs.anl.gov/dbpp) G.C. Fox, R.D. Williams, Parallel Computing Works, Morgan Kaufmann, 1994 (Online-Version unter www.npac.syr.edu/pcw) 6

Warum C? zur Reduktion der Rechenzeit bei der Lösung eines Problems zur Berechnung größerer Probleme bei gleicher Rechenzeit (Problemgröße wächst permanent, weil Wunsch nach Realitätsnähe bei Modellierung ständig zunimmt) zur Ermöglichung von Simulationen in Echtzeit typische heutige C Anwendungen: Wettervorhersage, Simulation von Autos und Flugzeugen, Data Mining, Simulation neuronaler Netze, Analyse von DNA- oder Proteinsequenzen zur Lösung von zukünftigen noch bedeutend komplexeren Aufgaben (Grand Challenge Problems) mit ggf. neuen Algorithmen : Globale Klima-Simulation, Erdbebenvorhersage, Simulation der Ozeanströmungen, Evolution von Galaxien, Analyse des menschlichen Genoms 7 Parallelität hohe Leistung überwiegend durch hohe Taktraten und durch Ausnutzung von Parallelität in der Rechnerarchitektur Verteilung von Arbeit und Daten auf viele gleichzeitig arbeitende Rechenknoten Arten der Organisation von Parallelität (Flynn s Taxonomie) SISD (Single Instruction, Single Data, keine Parallelität!) SIMD (Single Instruction, Multiple Data) MIMD (Multiple Instruction, Multiple Data) SPMD (Same Program, Multiple Data) Arten der Organisation des Speichers Gemeinsamer Speicher (Shared Memory) Verteilter Speicher (Distributeted Memory) 8

Parallelität (Forts.) Vor-/Nachteile paralleler Verarbeitung: + kürzere Ausführungszeit aufwendige Programmierung ( hohe Kosten für Entwicklung und Pflege) effiziente Parallelisierung oft nicht trivial Schlüsselprobleme: Partitionierung eines Problems und ggf. Lastverteilung (Ziele: hohe Lokalität, maximale Auslastung, minimale Kommunikation) Skalierbarkeit (d.h. Erhöhung der Leistung bei Erhöhung der Prozessoranzahl) Portabilität der Anwendungen (d.h. rechnerunabhängige parallele Programmierung) Koordination und Synchronisation bei der parallelen Verarbeitung Kopplung sehr vieler Prozessoren 9 SIMD-Parallelrechner Kontrolleinheit broadcastet Instruktionen an viele einfache Prozessorelemente (PEs) alle PEs führen taktsynchron die gleiche Instruktion auf unterschiedlichen Daten aus datenparallele Programmierung einzige Ausnahme: Maskierung durch paralleles if-konstrukt gut für Operationen auf Vektoren und Matrizen Beispiele: Connection Machine, ILLIAC IV, ICL DAP, MasPar MP1 und MP2 Prinzip heute auch zu finden in SIMD-Einheiten moderner Ps 10

MIMD-Parallelrechner mehrere komplexe und unabhängig arbeitende Prozessoren prozeßparallele Programmierung gemeinsamer Speicher (mit globalem Adreßraum) oder verteilter Speicher größere Flexibilität als bei SIMD preiswerter dank Standardkomponenten weites Spektrum an Architekturen, z.b.: Symmetrische Multiprozessoren (SMP) Parallelrechner mit verteiltem Speicher (DMC = Distributed Memory Computer ) Cluster aus PCs/Workstations Beispiele: Intel ipsc und Paragon, Cray T3D und T3E, SP2, Sun C 11 Historie C : Meilensteine 1972: Slotnick entwickelt Illiac IV (erster SIMD-Computer mit 64 64-Bit PEs in Gitter-Topologie) 1976: Cray Research installiert ersten Vektorrechner Cray-1 mit einer Leistung von 100 MFlop/s 1982: Fujitsu installiertvp-200 Vektorrechner mit 500 MFlop/s 1985: Thinking Machines stellt Connection Machine CM1 vor (SIMD-Computer mit 64k 1-Bit PEs) 1986: erster SMP: Sequent Balance 8000, 8 CPUs 1988: Intel stellt ipsc/2 vor (MIMD-Rechner mit bis zu 128 in einem Hyperkubus angeordneten 386-Prozessoren) 1992: MasPar liefert MP2 aus (SIMD-Computer mit 16k 32-Bit Prozessorelementen) 12

Historie C : Meilensteine (Forts.) 1993: Cray baut MIMD-Rechner Cray T3D (bis zu 2048 DEC Alpha-Prozessoren verbunden in 3DTorus-Topologie) 1994: SP2: Kopplung vieler RISCSystem/6000 Workstations über ein schnelles, skalierbares Netzwerk 1995: DEC Alpha 21164 Prozessor mit 4-facher Superskalarität 1996: SGI Origin 2000 (erster Parallelrechner mit virtuellem gemeinsamem Speicher) 1997: System Deep Blue schlägt Weltschachmeister Kasparov 1997: ASCI Red mit 4536 Pentium Pro CPUs erreicht eine Leistung von mehr als 1 TFlop/s 2003: ASCI Q aus 4096 Alpha CPUs erreicht mehr als 10 TFlop/s (Details: www.llnl.gov/asci) 13 Leistung von C Systemen 14

Leistung von Prozessoren 15 Technologie für Prozessoren Taktrate bei Mikroprozessoren erhöhte sich von 1 MHz (1980) auf 1 GHz (2000) Mooresches Gesetz: Verdopplung von Geschwindigkeit des Prozessors und Kapazität der Speicherbausteine alle 1,5 Jahre! gibt es physikalische Grenzen? Lichtgeschwindigkeit: 30 cm/ns Geschwindigkeit der Signalausbreitung in Kupfer: 9 cm/ns (1 GHz entspricht einer Taktbreite von 1ns) Energieverbrauch (und somit Wärmeentwicklung) wachsen linear mit Taktfrequenz (Reduktion der Betriebsspannung, kann nicht beliebig klein werden!) weitere Leistungssteigerungen langfristig hauptsächlich nur durch Ausnutzung von Parallelität! 16

TOP 500 seit 1993 wird halbjährlich eine Liste der weltweit 500 schnellsten C-Systeme erstellt Bewertungsmaßstab ist der LINPACK Benchmark (Lösung eines großen linearen Gleichungssystems der Form A x = b) R max gibt die Leistung eines Systems in GigaFlop/s bei einer individuell gewählten optimalen Problemgröße N max an R peak gibt die theoretisch erreichbare Spitzenleistung an Details unter www.top500.org 17 Top 500 Auszug (Top 20, international, Teil 1) Rank Site Country/Year Computer / Processors Manufacturer R max R peak 1 Earth Simulator Center Japan/2002 Earth-Simulator / 5120 NEC 35860 40960 2 Los Alamos National Laboratory United States/2002 ASCI Q - AlphaServer SC45, 1.25 GHz / 8192 13880 20480 3 Virginia Tech 1100 Dual 2.0 GHz Apple G5/Infiniband 4X/Cisco GigE / 2200 Self-made 10280 17600 4 NCSA PowerEdge 1750, P4 Xeon 3.06 GHz, Myrinet / 2500 Dell 9819 15300 5 Pacific Northwest National Laboratory Integrity rx2600 Itanium2 1.5 GHz, Quadrics / 1936 8633 11616 6 Los Alamos National Laboratory Opteron 2 GHz, Myrinet / 2816 Linux Networx 8051 11264 7 Lawrence Livermore National Lab United States/2002 MCR Linux Cluster Xeon 2.4 GHz - Quadrics / 2304 Linux Networx/Quadrics 7634 11060 8 Lawrence Livermore National Lab United States/2000 ASCI White, SP Power3 375 MHz / 8192 7304 12288 9 NERSC/LBNL United States/2002 SP Power3 375 MHz 16 way / 6656 7304 9984 10 Lawrence Livermore National Lab xseries Cluster Xeon 2.4 GHz - Quadrics / 1920 /Quadrics 6586 9216 18

Top 500 Auszug (Top 20, international, Teil 2) 11 National Aerospace Laboratory of Japan Japan/2002 PRIMEPOWER C2500 (1.3 GHz) / 2304 Fujitsu 5406 11980 12 Pittsburgh Supercomputing Center United States/2001 AlphaServer SC45, 1 GHz / 3016 4463 6032 13 NCAR (National Center for Atmospheric Research) pseries 690 Turbo 1.3 GHz / 1600 4184 8320 14 Chinese Academy of Science China/2003 DeepComp 6800, Itanium2 1.3 GHz, QsNet / 1024 Legend 4183 5324.8 15 Commissariat a l'energie Atomique (CEA) France/2001 AlphaServer SC45, 1 GHz / 2560 3980 5120 16 Cx United Kingdom/2002 pseries 690 Turbo 1.3GHz / 1280 3406 6656 17 Forecast Systems Laboratory United States/2002 Aspen Systems, Dual Xeon 2.2 GHz, Myrinet2000 / 1536 Ti 3337 6758 18 Naval Oceanographic Office United States/2002 pseries 690 Turbo 1.3GHz / 1184 3160 6156.8 19 Government Cray X1 / 252 Cray Inc. 2932.9 3225.6 20 Oak Ridge National Laboratory Cray X1 / 252 Cray Inc. 2932.9 3225.6 19 Top 500 Auszug (Top 20, Deutschland, Teil 1) Rank Site Country/Year Computer / Processors Manufacturer R max R peak 31 Max-Planck-Gesellschaft MPI/IPP pseries 690 Turbo 1.3 GHz / 822 2198.44 4274.4 37 Deutscher Wetterdienst SP Power3 375 MHz 16 way / 1920 2106 2880 64 Leibniz Rechenzentrum Germany/2002 SR8000-F1/168 / 168 Hitachi 1653 2016 69 DKRZ - Deutsches Klimarechenzentrum SX-6/192M24 / 192 NEC 1484 1536 119 HLRN at Universitaet Hannover / RRZN Germany/2002 pseries 690 Turbo 1.3GHz / 384 1038 1996.8 120 HLRN at ZIB/Konrad Zuse-Zentrum fuer Informationstechnik Germany/2002 pseries 690 Turbo 1.3GHz / 384 1038 1996.8 151 Universitaet Aachen/RWTH Fire 15k/6800 Cluster / 672 Sun 891.4 1209.6 165 Universitaet Heidelberg - IWR Germany/2002 HELICS AMD 1.4 GHz - Myrinet / 512 Megware 825 1433.6 182 EDS/ Adam Opel AG pseries 690 Turbo 1.3GHz / 264 755 1372.8 221 Fraunhofer Institut, Ernst-Mach Institute xseries Cluster Xeon 2.0 GHz - Myrinet / 256 654.7 1024 20

Top 500 Auszug (Top 20, Deutschland, Teil 2) 226 BMW AG Integrity Superdome, 1.5 GHz, lex / 128 642.9 768 261 Consumer Industry xseries Xeon 2.8 GHz, GigEthernet / 234 591.073 1310.4 262 W. Karmann GmbH xseries Xeon 2.8 GHz, GigEthernet / 234 591.073 1310.4 265 Postbank Germany/2002 pseries 690 Turbo 1.3 GHz, GigEth / 256 590.2 1331.2 269 Hewlett Packard Integrity rx2600 Itanium2 1.5 GHz, Myrinet / 128 579 768 273 PIK pseries 655 1.1GHz / 240 574.9 1056 284 Deutsche Telekom AG Germany/2000 SP Power3 375 MHz / 528 553 792 299 Government AlphaServer SC45, 1.25 GHz / 256 538.4 640 301 Pharmaceutical Company Germany/2001 SP Power3 375 MHz / 510 536 765 307 OverWrite SuperDome 875 MHz/HyperPlex / 256 530.5 896 21 TOP 500, Trend bei C-Architekturen 22

TOP 500, Trend bei Prozessorherstellern 23 TOP 500, Trend bei Chiptechnologie 24

TOP 500, Trend bei C-Nutzung 25