Hochleistungsrechnen in Darmstadt: Der Lichtenberg- Hochleistungsrechner. Dr. Andreas Wolf. Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum

Ähnliche Dokumente
Zukunft Hochleistungsrechnen an der TU-Darmstadt

Introduction Workshop 11th 12th November 2013

HLRN III - HPC Ressource für Norddeutschland

Ausblick auf den HLRN III - die neue HPC Ressource für Norddeutschland

ZKI AK Supercomputing Herbsttagung Scientific Computing in Düsseldorf

Games with Cellular Automata auf Parallelen Rechnerarchitekturen

MOGON. Markus Tacke HPC ZDV. HPC - AHRP Markus Tacke, ZDV, Universität Mainz

GPGPUs am Jülich Supercomputing Centre

Hochleistungsrechnen mit Windows Interaktive Benutzung und das Batchsystem Christian Terboven Rechen- und Kommunikationszentrum RWTH Aachen

HPC an der Uni Mainz

Die deutsche Windows HPC Benutzergruppe

Storage Summit Zellescher Weg 14 Willers-Bau A206 Tel

Thema: Hardware-Shader

CUDA 3230 GPU-COMPUTE NODE, KEPLER READY

GPGPU mit NVIDIA CUDA

Aktuelle Trends und Herausforderungen in der Finite-Elemente-Simulation

High Performance Computing

Brainware für Green IT

Das Prinzip der kleinsten Überraschung Konfiguration des neuen HPC-Clusters am RRZ

Wissenschaftliches Rechnen an der Christian- Albrechts-Universität zu Kiel

science + computing ag

Orientierungsveranstaltungen 2009 Informatikstudien der Universität Wien

Symposium on Scalable Analytics. Skalierbare Analysen mit EXASolution

High Performance Computing Cluster-Lösung mit MOSIX im Einsatz bei VA-TECH HYDRO

Grafikkarten-Architektur

CHiC Chemnitzer Hochleistungs-Linux Cluster. Stand HPC Cluster CHiC. Frank Mietke, Torsten Mehlan, Torsten Höfler und Wolfgang Rehm

Staff. Tim Conrad. Zeitplan. Blockseminar: Verteiltes Rechnen und Parallelprogrammierung. Sommer Semester Tim Conrad

Formulieren von Leistungsverzeichnissen

Supercomputing 2003: Nichts geht ohne Linux

Endorsed SI Anwenderbericht: Einsatz von System Platform 2012 R2 in virtualisierten Umgebungen zur Prozessvisualisierung

NEC SX-ACE HPC-System

UBELIX University of Bern Linux Cluster

Multicore-Architekturen

Big Data in der Forschung

C C. Hochleistungsrechnen (HPC) auf dem Windows Compute Cluster des RZ der RWTH Aachen. 1 WinHPC Einführung Center. 31.

Software Distributed Shared Memory. Vortrag im Rahmen des Seminars Ausgewählte Themen in Hardwareentwurf und Optik Sarah Neuwirth, 05.

Diskless Cluster und Lustre Erfahrungsbericht zum CHiC

Projektseminar Parallele Programmierung

Zweite Umfrage zur Bedarfsermittlung von Ressourcen zum wissenschaftlichen Rechnen an der TU Dortmund

Manycores: Hardware und Low-Level Programmierung

HP Server Solutions Event The Power of ONE

MULTICORE- UND GPGPU- ARCHITEKTUREN

XEN Performance. Projektpraktikum Informatik. Arne Klein Arne Klein () XEN Performance / 25

Oracle EngineeredSystems

Ein kleiner Einblick in die Welt der Supercomputer. Christian Krohn

Hochleistungsberechnungen für Industrie und Weltraum

Leistungsanalyse von Rechnersystemen

Foliensatz. Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen

Einführung in die Systemprogrammierung

Hochleistungsrechnen Hybride Parallele Programmierung. Prof. Dr. Thomas Ludwig Universität Hamburg Informatik Wissenschaftliches Rechnen

CFD in KMU Swiss VPE Symposium 2012

Windows HPC Server 2008 aus der Betreiberperspektive

Patagonia - Ein Mehrbenutzer-Cluster für Forschung und Lehre

Energy-Efficient Cluster Computing

GSCC General Storage Cluster Controller. TSM Verfügbarkeit

Multicore Herausforderungen an das Software-Engineering. Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück

PARADOM. Parallele Algorithmische Differentiation in OpenModelica für energietechnische Simulationen und Optimierungen.

Virtuelle Desktops. Virtuelle Desktops. an der TU Chemnitz. Andreas Heik. TU-Chemnitz, Universitätsrechenzentrum. 6.

Servervirtualisierung bei der GWDG GWDG IK,

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center

Neues in Hyper-V Version 2

Agenda. HPC-Benutzerkolloquium. EM64T-Clustererweiterung. EM64T-Clustererweiterung am RRZE

Effizient, sicher und flexibel: Desktop-Virtualisierung mit Citrix XenDesktop

Fluent auf Windows HPC Server ict ag - Mit uns können Sie rechnen

Kirchstrasse 11 CH Sins Telefon: Fax: info@tinline.ch

Grundlagen der Parallelisierung

200 Millionen Messwerte pro Tag. App-Monitoring bei RTLs wer-kennt-wen.de

Freiberuflicher IT-Berater Schwerpunkte: Unix, Oracle, Netzwerk. Dipl.-Inform. Joachim Jäckel

Das bwgrid High Performance Compute Cluster als flexible, verteilte Wissenschaftsinfrastruktur

PROLAG WORLD 2.0 PRODUKTBESCHREIBUNG SERVERSYSTEM, CLUSTERSYSTEME FÜR PROLAG WORLD

<Insert Picture Here> RAC Architektur und Installation

Current and Emerging Architectures Multi-core Architectures and Programming

Systemanforderungen Verlage & Akzidenzdruck

Übersicht. Vergleich der Spielekonsole mit dem PC. Historie der Spielekonsolen von 1976 bis 1999

bwgrid heute ein Überblick Sven Hermann (KIT)

bw-grid Cluster in Mannheim

Systemanforderungen Verlage & Akzidenzdruck

Programmierung und Leistungsanalyse des bwgrid-clusters. Dr. Heinz Kredel und Dr. Hans-Günther Kruse

internationalen Verbund

Architektur paralleler Plattformen

OpenCL. OpenCL. Boris Totev, Cornelius Knap

Persona-SVS e-sync GUI/Client Installation

Systemanforderungen Verlage & Akzidenzdruck

Hochleistungsrechnen für Wissenschaft und Wirtschaft im internationalen Verbund

Verteilte Systeme. Einführung. Prof. Dr. Oliver Haase

Aktuelle Themen der Informatik: Virtualisierung

Virtualisierung im Echtzeitbereich. Andreas Hollmann FH Landshut EADS Military Air Systems

HPC und paralleles Rechnen

kernkonzept L4Re ISOLATION UND SCHUTZ IN MIKROKERNBASIERTEN SYSTEMEN kernkonzept 1

Neue Ansätze der Softwarequalitätssicherung

K&R Monza Office, Internet und Multimedia-PC!

Bahnhofstr Kempten Gebäude und Zimmerangabe wird nach Zuschlag mitgeteilt

Anleitung zur Installation eines Clusters unter VMWare 4.0 (Built 4460)

CAD Arbeitsplatz Einstieg

Skalierbarkeit von Clustersystem

Dienstleistungen Abteilung Systemdienste

Informatikdienste Virtualisierung im Datacenter mit VMware vsphere

( ZIH ) Zentrum für Informationsdienste und Hochleistungsrechnen. Kooperation mit Microsoft und Dell

Der neue Hochleistungsrechner der RWTH Aachen

Private Cloud mit Eucalyptus am SCC

Transkript:

Hochleistungsrechnen in Darmstadt: Der Lichtenberg- Hochleistungsrechner Dr. Andreas Wolf Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum

Überblick Randbedingungen der HPC Beschaffung an der TU Die Ausschreibung Was ist es geworden? Probleme 2

Randbedingungen der HPC- Beschaffung an der TU 3

Die TU Darmstadt braucht einen flexiblen Rechner Der neue Hochleistungsrechner dient der Verbesserung der Möglichkeiten der TU Darmstadt im wissenschaftlichen Wettbewerb. Die HPC-Anwendungsvielfalt an der TU ist groß. Codes, die auf dem TU HPC Rechner laufen, werden auch auf anderen Plattformen eingesetzt. Für die meisten unserer Nutzer ist die Programmierung Mittel zum Zweck, nicht Selbstzweck. 4

Die TU profitiert von architektonischer Vielfalt Mit der Beschaffung des Hochleistungsrechners der TU ein Systemkomplex ausgeschrieben, der durch architektonische Flexibilität den Anwendern die effiziente Nutzung von HPC Ressourcen erleichtert: 1. Cluster mit SMP Nodes 2. SMPs mit viel gemeinsamem Speicher 3. Beschleunigercluster mit NVIDIA GPU (wg. CUDA Programmierung) und Intel Xeon Phi (ehemals MIC). 5

Die Ausschreibung 6

Ziele der Ausschreibung Bis 2012 Power 5/6 Systeme Vorwiegend MPI Programme 50-100 Rechenkerne (MPI Tasks) 2-4 GByte pro MPI-Task Eingeschränkter Nutzerkreis (auch wegen Softwarelimitierung) Neues System MPI-Programme mit 500 bis 2000 Tasks Neben Distributed-Memory auch Shared-Memory Unterstützung Besondere Applikationen mit Bedarf von 300 bis 1000 GByte Moderne und zukunftsträchtige Akzelerator-Unterstützung Linux 7

Nebenbedingungen zur Ausschreibung Administration Zuvor 2x Admins Großes System benötigt mehr Admin-Team wird vergrößert, muss aber auch erst noch Erfahrungen sammeln Ein wartungsarmes und stabiles System ist daher unbedingt notwendig Akzeleratoren Ein Teil muss CUDA programmierbar sein Wegen Zukunftsorientierung ansonsten möglichst flexibel und offen für alle Standards 8

Wartungsaufwand versus Komplexität des Systems Geringer Wartungsaufwand ist normalerweise ein Widerspruch zu dem Betreiben eines komplexen Systems. Wenn das System stabil und leicht wartbar ist, dann darf das System auch komplex sein. Deshalb Entscheidung für eine komplexes aber dafür flexibles System. Um so wichtiger wurde damit, dass es sich um ausgereifte und getestete Komponenten von Anbietern mit Erfahrung bei Projekten in dieser Größenordnung handelt. Rechenleistung durch Mindestanforderungen abgesichert, aber Raum für ausgereifte Komponenten, wenn auch zum höheren Preis 9

Fokus auf HPC-Anwendungen Erwartete Anwendungen Simulations-Anwendungen Bearbeitung großer Datenmengen (Bild oder Gitter- Verarbeitung) Aber auch Unterstützung kommerzieller wissenschaftlicher Produkte: z.b. Matlab und Ansys Was nicht passt wird passend gemacht Unterstützung der Nutzer bei Wahl der richtigen Plattform und der effizienten Programmierung (und Algorithmen) Kooperation mit Hessischem HPC Kompetenzzentrum -> Vortrag: Prof. C. Bischof morgen 10

Ausrichtung der Leistungsbeschreibung Bewertungskriterieren: Parallele Rechenleistung Speicherbandbreite Latenzprobleme müssen dann ggf. durch Code-Optimierung (Prefetching) ausgeglichen werden Auswahl der Leistungsbenchmarks Minimierung der Anzahl der Benchmark-Programme, und Einsatz von zusammenfassenden Benchmarks (z.b. SPEC MPI ausreichend komplex) Wichtig zur Vorhersagbarkeit der Leistung von zukünftiger Hardware (z.b. Prozessoren in 2014) Vermeidung von Systemen die nur auf sehr speziellen User- Code optimiert sind (Vorteil wenn einzige Anwendung) 11

Erfahrungen Ausschreibung trotzdem kompliziert wegen Zwei Phasen Wettbewerb: Offenheit für möglichst verschiedene Anbieter und Komponenten-Hersteller (z.b. AMD, Intel etc.) Erster Eindruck des gelieferten Systems Erste positive Erfahrungen in Hinblick auf die Rechenleistung der MPI-Knoten Für alles andere ist es noch zu früh 12

Was ist es geworden? 13

Infiniband Ethernet Installation Juni 2013 Phase I HOME MPI MEM ACC SCRATCH 704(+2) x MPI (inkl. 5x32 von Dez. 2012) 2 Prozessoren, Intel Sandybridge Je 8 Kerne mit 2,6 GHz 32 GByte (10% 64 GByte) 4 x MEM 8 Prozessoren, je 8 Kerne 1024 GByte (MAX5) 44+24(+2) x ACC 2 Prozessoren + 2 Akzeleratoren Nvidia Kepler Intel Xeon Phi (ehem. MIC) 32 GByte Platten Scratch: 768 TByte, 20 GB/s Home: 500 TByte, 5 GB/s Infiniband FDR-10 14

Infiniband Ethernet Installation Ende 2014 Phase II MPI MEM MPI MEM Zusätzliche MPI 2 Prozessoren Nachfolge Architektur 4 zusätzliche MEM 4 Prozessoren Nachfolge Architektur 1024 GByte ACC ACC Zusätzliche ACC 2 Prozessoren 2 Akzeleratoren Nachfolge Architektur HOME SCRATCH SCRATCH Platten Scratch: +768 TByte Summe 1,5 PByte Infiniband FDR 15

Offene Punkte Was sind die Nachfolge Architekturen Prozessoren: Haswell? Akzeleratoren: Nvidia oder Intel? Unser Ziel Nutzer sammeln Erfahrungen in Hinblick auf Programmierbarkeit und Leistung bei den Akzeleratoren Entscheidung für Nachfolge Architektur (Nvidia vs. Intel) Abwägung von Prozessoren zu Akzeleratoren z.b. 2x Prozessoren ~ 0,6-0,7 TFlops (Haswell) 10.000 ~ 3-4 Knoten (1,8 2.8 TFlops) z.b. 1x Akzelerator ~ 1-1,3 TFlops (K20X) 10.000 ~ 1 Knoten mit 2x Akzeleratoren (3-4 TFlops) 16

Probleme 17

Verzögerungen am Bau so sollte es aussehen 19

Verzögerungen am Bau so sieht es heute aus (Okt. 2013) 20

Der Dachkühler (Juni 2013) 26

Das Parkdeck (Okt. 2013) 28

Fragen? 31