HPC an der Uni Mainz

Ähnliche Dokumente
MOGON. Markus Tacke HPC ZDV. HPC - AHRP Markus Tacke, ZDV, Universität Mainz

Ausblick auf den HLRN III - die neue HPC Ressource für Norddeutschland

HLRN III - HPC Ressource für Norddeutschland

T-Systems SfR - HPCN Workshop

ZKI AK Supercomputing Herbsttagung Scientific Computing in Düsseldorf

CLAIX Vorstellung und Technik Christian Terboven

Hochleistungsrechnen in Darmstadt: Der Lichtenberg- Hochleistungsrechner. Dr. Andreas Wolf. Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum

Einsatz von GPFS an der JGU

Infiniband Kopplung Heidelberg Mannheim

Erfahrungen mit LSF an der RWTH. Eine kurze Geschichte der LoadSharingFacility

Towards Modular Supercomputing with Slurm

magnitude Erste Erfahrungen mit dem neuen HPC-System der UDE

CHiC Chemnitzer Hochleistungs-Linux Cluster. Stand HPC Cluster CHiC. Frank Mietke, Torsten Mehlan, Torsten Höfler und Wolfgang Rehm

Das Prinzip der kleinsten Überraschung Konfiguration des neuen HPC-Clusters am RRZ

Diskless Cluster und Lustre Erfahrungsbericht zum CHiC

Vienna Scientific Cluster

Orientierungsveranstaltungen 2009 Informatikstudien der Universität Wien

Infiniband Diagnose und Cluster HealthCheck Arbeitskreis Supercomputing Hamburg, Peter Niessen

Erste Erfahrungen mit Installation und Betrieb

TecNews: Sandy Bridge

Die neuen Sun x64 Server Hubert Reith

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

moderne Prozessoren Jan Krüger

LOEWE-CSC and it s data center

GPGPUs am Jülich Supercomputing Centre

Die deutsche Windows HPC Benutzergruppe

Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP)

Wissenschaftliches Rechnen an der Christian- Albrechts-Universität zu Kiel

Titelmasterformat durch Klicken bearbeiten

Hochleistungs-Disk-I/O

UBELIX University of Bern Linux Cluster

Die Marvel, ein gedrosselter Supercomputer

Dell HPC Solutions. Dieter Schuett Sr. Sales Engineer Business Development HPC

Oracle Database 10g RAC Plattformen im Detail

Leistungsanalyse von Rechnersystemen

Zum Aufwärmen nocheinmal grundlegende Tatsachen zum Rechnen mit reelen Zahlen auf dem Computer. Das Rechnen mit Gleitkommazahlen wird durch den IEEE

Dienstleistungen Abteilung Systemdienste

bw-grid Cluster in Mannheim

Programmierung und Leistungsanalyse des bwgrid-clusters. Dr. Heinz Kredel und Dr. Hans-Günther Kruse

Motivation Cluster? H/W+Architektur Cluster Netzwerke OpenSource Cluster Demonstration Quellen. Cluster Netzwerke. Robert Hilbrich

Seminar Multicore-Programmierung

Performance Analysis of Computer Systems

Das HLRN-System. Peter Endebrock, RRZN Hannover

Xeon, Opteron, UltraSPARC höher, schneller, weiter?

HPC in Unternehmen Ein Überblick

science + computing ag

C C. Hochleistungsrechnen (HPC) auf dem Windows Compute Cluster des RZ der RWTH Aachen. 1 WinHPC Einführung Center. 31.

Erfahrungen mit parallelen Dateisystemen

Mehrprozessorarchitekturen

Zukunft Hochleistungsrechnen an der TU-Darmstadt

Überblick. HP Beowulf Cluster. Beowulf: Ursprung und Geschichte High Performance Computing (HPC) Einsatzgebiete Aufbau Software 4/7/2005 HP

Oracle HA-Technologien Lizenzierung

High Performance Computing

ODA Erfahrungen und Neuigkeiten

Supercomputer-Hardware auf Basis von x86-prozessoren

Kopplung der bwgrid Cluster. Heidelberg und Mannheim

transtec Entry Level HPC Cluster

BIG UNIVERSITÄTSRECHENZENTRUM

Exadata in der Champions League - Ein Fazit nach der 1. Saison Rainer Marekwia Oracle STU, Oracle Deutschland GmbH DOAG SIG DWH, München 25.

Virtualisierung: Neues aus 2010 und Trends 2011

<Insert Picture Here> Oracle Exadata Database Machine: Was gibt es Neues?

2 Rechnerarchitekturen

Einführung in LiDO3. Einführung LiDO3. Ingo Schulz Fakultät für Informatik / ITMC CC:HPC TU Dortmund

IBM RS/6000 SP

Storage an der JGU. Storage an der JGU. Klaus Merle, ZDV, Universität Mainz Storage Consortium, Mainz

Transkript:

Einwicklung vom ersten Top500 Rechner bis zum AHRP HPC - AHRP - ZKI Markus Tacke, ZDV, Universität Mainz AK Supercomputer Kaiserslautern 19.4.2012

ZDV: CC NUMA 1.1.1995: Convex SPP1000/16 16 PA Risc 7100 @100MHZ 1 GB Memory SPP-UX 4 Organisiert als 2 Nodes á 8 CPUs und 512 MB Memory Latenz: 500ns/2µs Bandbreite: 4x600MB/sek, GaAs 3,2 GF Peak, 1,653 GF Linpack

ZDV: CC NUMA 1.1.1996: Convex SPP1200 XA/48 48 PA Risc 7200@120MHz 6 GB Memory SPP-UX5 Organisiert als 6 Nodes á 8 CPUs und 1GB Memory Latenz: 500ns/2µs Bandbreite: 4x600MB/sek, GaAs 11,52 GF Peak, 5,66 GF Linpack, Top500: Platz 298(191)/11-1995, 243/6-1996

ZDV: CC NUMA 30.7.1997: HP X/48 (Convex SPP2000-XA/48) 48 PA Risc 8000@180MHZ 6 GB Memory SPP-UX5 Organisiert als 3 Nodes á 16 CPUs und 2GB Memory Latenz: 500ns/2µs Bandbreite: (2x) 8x 600MB/sek, CMOS 34,5 GF Peak, 22,3 GF Linpack, Top500: Platz 144(141)/11-1997

ZDV: CC NUMA 10.1.2000: HP V2500-SCA/32 32 PA Risc 8500@440MHz 16 GB Memory HP-UX11 Organisiert als 2 Nodes á 16 CPUs und 8 GB Memory Latenz: 500ns/2µs Bandbreite: (2x) 8x 600MB/sek, CMOS 56,3 GF Peak, 31,6 GF Linpack,

ZDV: CC NUMA 1.5.2002: HP Superdome/32 PA8700/750 32 CPUs 750 MHz PA-Risc 8700 64 GB Memory HP-UX11 Organisiert als 8 Nodes á 4 CPUs und 8GB Memory Interconnect 2Stufiger Crossbar, Latenz: 212ns /366nsec Bandbreite/crossbar: 5,2GB/sek 96 GF Peak, 67,2 GF Linpack

ZDV: DM Cluster 1.2.2004: LC1 84 Knoten dual 1.8 Ghz Opteron, 2 Vorrechner MSI K1000D (baugleich IBM E-Server 325) 336GB Memory: 32x2GB, 36x4GB, 16x 8GB Memoy Vernetzung 4 Gbit Ethernet, 1xWartungsnetz, 3xFNN Latenz 35µsec, Bandbreite 100MB/s SLES 8 + Mgmt Software 604,8 GF Peak, 406 GF Linpack

ZDV: DM Cluster 1.4.2007: LC2 110 Knoten dual dualcore 2.6GHz Opteron, 2 Vorrechner Sun X2200M2 1200GB Memory: 86x8GB, 16x16GB, 8x32GB Vernetzung: 1x DDR Infiniband (MPI) 1x Gbit (Wartung, normale Kommunikation) Latenz: 3.36 µs, Bandbreite: 1,44 GB/s SLES 10+ Mgmt Software 2,288 TFlops Peak, 1,932 TFlops Linpack

ZDV: DM Cluster 1.4.2009: LC2(Upgrade) 134 Knoten dual quadcore 2.7GHz Opteron, 2 Vorrechner Sun X2200M2 2656 GB Memory: 86x8GB, 16x16GB, 8x32GB Vernetzung: 1x DDR Infiniband (MPI) 1x Gbit (Wartung, normale Kommunikation) Latenz: 3.36 µs, Bandbreite: 1,44 GB/s SLES 10+ Mgmt Software 11,578 TFlops Peak, >8.1 TFlops Linpack

Gigaflops HPC Leistung im ZDV seit 1995 100000 10000 Peak/system Linpack/system 1000 100 10 1 01.01.1994 01.01.1998 01.01.2002 01.01.2006 01.01.2010

Erweiterungen Cluster LC2 seit 2009 durch verschiedene Arbeitsgruppen erweitert Arbeitsgruppen sind Eigentümer: eigene Queues im gemeinsamen LSF teilweise Lastübername bei Unterausnutzung Unterschiedliche Architekturen 2p und 4p GigE und IB (beide mit zentralem Netzverbunden) Intel Harpertown, Nehalem und Westmere AMD Magny Cours und Interlagos Integration in ZDV Clustermgmt 1088 Cores 3412 Cores 11,75 TF Peak 36,8 TF Peak Zusätzliche HPC Resourcen an der Uni Mainz Mehrere Cluster im ZDV gehostet oder auf dem Campus Insgesamt über 34 TF Peak Einige kleine GPU Testcluster 12

Gigaflops HPC Leistung auf dem Campus 100000 10000 Peak/system Linpack/system Total (N+(N-1)) Sum of Campus- Compute-Clusters 1000 100 10 1 01.01.1994 01.01.1998 01.01.2002 01.01.2006 01.01.2010 01.01.2014

Analyse des Zielsystemes (1) Orientierung am Bedarf der Hauptkunden (Geldgeber für ca 75%) Beispiele: Kondensierte Materie: Monte Carlo Simulationen: Hauptlast Throughput, VIELE Single P. jobs Aber auch SMP mit großem Memory, Paralleljobs mit MD Programmen GPUs teilweise, extrem fortgeschrittene Programmierung, Consumer grade LHC Analyse: I/O Bound, viele single P. Jobs gleichzeitig, OS Constrains Monte Carlo Produktion: Viele single P. Jobs, CPU bound GEOLOGIE Finite Elemente oder F. Differenzen Verfahren, anspruchsvolle Paralleljobs Gewinn durch große SMPs Earth System Modelling Große Paralleljobs, teilweise hohe I/O Anforderungen Diverse Anwender von NGS basierter Gen (o.ä) Analyse Sehr unterschiedliches Verhalten der Programme: Jobfarming, MPI Programme aber auch SMP Programme mit SEHR großem Speicherbedarf, I/O Probleme 14

Analyse des Zielsystemes (2) Hauptkriterium aller Anwender: Durchsatz, nur mäßiger Fokus auf MPI parallele Jobs mit N(CPUs) >> 100 Auswahl von vier Benchmarks nach Nutzerprofil HEPspec (für LHC) leicht modifiziert auf unsere OS-Anforderungen SPECrate werte mit vorgeschriebener Baseoptimierung und GCC 4.6.1 MC Hardwareflags erlaubt Festkörperphysik Monte Carlo Simulation, Programm des größten Kunden HPL Wert für das gesamte Cluster keine Messung gefordert, sondern Leistungszusage Unterschiedlicher Hauptspeicher ca. 80% mit 2GB/(Core/HW-Thread), ca. 20% mit 4GB/Core 15 Rechner mit 512GB Diverse Vorteile in 4 Sockel SMP Rechnern =>Leistungsplus von 1,1 von 2 Sockelrechnern gefordert Schnelles Netz mit QDR IB, Full Fat Tree bis 648 Ports, darüber 2:1 Blocking Mindestens 2 Disks, 2TB insgesamt pro Knoten 15

Software Scientific Linux >= 6.2 Cluster Management Software LSF 8.x Koppelung an KL via LSF Multicluster Softwareentwicklung: 5+x Compiler, Debugger Mathematica, Matlab, R, 16

Verfahren Aufteilung in verschiedene Beschaffungen ca 80% CPU Cluster - Beschaffung Anfang 2012 Intel und AMD sollten neue Generation haben ca 10 % paralleler Fileserver - Beschaffung Anfang bis Mitte 2012 >> 500 TB, > 10GB/sek I/O ca 10 % GPU cluster Beschaffung Ende 2012 bis Anfang 2013 Nächste Generation erst dann verfügbar Dient dem campusweiten Einstieg in GPU Technik Verfahren: EU weite Ausschreibung im Verhandlungsverfahren. Verhandlungsverfahren Arbeitsintensiver und langsamer, erlaubt aber Anpassung an unterschiedliche Technikparameter, z.b.: Intel oder AMD 2S gegen 4S Infiniband Optionen Taktfrequenz gegen Throughput 17

Entscheidung Megware ausgewählt 535 4 Wege SMP mit AMD Opteron 6272 (16C, 2,1 GHz) 424 mit 128 GB, 96 mit 256 GB, 15 mit 512 GB Alle mit QDR Infiniband Alle mit 2x 1TB disk 34240 Cores 2 Master Rechner, redundant 2 Login Rechner QDR Infiniband von Mellanox, Full Fat Tree Topology 18 Spine- und 33 Edge Switches (55 Ports frei für Fileserver, Erweiterungen ) Rittal Water cooled Racks mit bis zu 54 KW Kühlleistung(ZDV) Rittal Power Distribution mit Auslesemöglichkeit pro 16A Sicherung Überspannungsfeinschutz integriert Notabschaltung bei Übertemperatur 18

Gigaflops HPC Leistung auf dem Campus 1000000 100000 10000 Peak/system Linpack/system Total (N+(N-1)) Campus Peak summe 1000 100 10 1 01.01.1994 01.01.1998 01.01.2002 01.01.2006 01.01.2010 01.01.2014

AHRP High Speed link Sofort 10 Gbit via RLP Netz In Realisierung: 12 Farben für 12x10 Gbit direkt zwischen den Ausgangsroutern der Cluster Evtl Option: stattdessen 3x 40 Gbit Höhere Datenrate für wenige Datenströme Ziel: gegenseitige Übernahme von Jobs auch mit großer Datenmenge 20

Als Vorabvision 21