Vienna Scientific Cluster

Ähnliche Dokumente
HPC an der Uni Mainz

Ausblick auf den HLRN III - die neue HPC Ressource für Norddeutschland

HLRN III - HPC Ressource für Norddeutschland

MOGON. Markus Tacke HPC ZDV. HPC - AHRP Markus Tacke, ZDV, Universität Mainz

Ein kleiner Einblick in die Welt der Supercomputer. Christian Krohn

Orientierungsveranstaltungen 2009 Informatikstudien der Universität Wien

Die Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien

Cluster? schnelles Netzwerk verbunden. Ziel des Clustering

Enterprise Computing

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

CHiC Chemnitzer Hochleistungs-Linux Cluster. Stand HPC Cluster CHiC. Frank Mietke, Torsten Mehlan, Torsten Höfler und Wolfgang Rehm

Formulieren von Leistungsverzeichnissen

Architektur paralleler Plattformen

Spielst du noch oder rechnest du schon?

Introduction Workshop 11th 12th November 2013

UBELIX University of Bern Linux Cluster

Die Vision Landschaft und was sie mit Moore s Gesetz zu tun hat

ModProg 15-16, Vorl. 13

Multicore-Architekturen

Proseminar Rechnerarchitekturen. Parallelcomputer: Multiprozessorsysteme

ZKI AK Supercomputing Herbsttagung Scientific Computing in Düsseldorf

Freiberuflicher IT-Berater Schwerpunkte: Unix, Oracle, Netzwerk. Dipl.-Inform. Joachim Jäckel

Busse. Dr.-Ing. Volkmar Sieh. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2008/2009

Opteron und I/O. Toni Schmidbauer. 11. Mai Zusammenfassung. Eine kurze Beschreibung der AMD Opteron Architektur.

Das Prinzip der kleinsten Überraschung Konfiguration des neuen HPC-Clusters am RRZ

XEN Performance. Projektpraktikum Informatik. Arne Klein Arne Klein () XEN Performance / 25

Rechnerstrukturen. 6. System. Systemebene. Rechnerstrukturen Wintersemester 2002/03. (c) Peter Sturm, Universität Trier 1. Prozessor.

Neues in Hyper-V Version 2

Rechner Architektur. Martin Gülck

Erfahrungen mit parallelen Dateisystemen

Betrieb eines heterogenen Clusters

Oracle EngineeredSystems

Grundlagen der Rechnerarchitektur

moderne Prozessoren Jan Krüger

Die neuen Sun x64 Server Hubert Reith

Inhalt. Prozessoren. Curriculum Manfred Wilfling. 28. November HTBLA Kaindorf. M. Wilfling (HTBLA Kaindorf) CPUs 28. November / 9

Programmierung und Leistungsanalyse des bwgrid-clusters. Dr. Heinz Kredel und Dr. Hans-Günther Kruse

z/architektur von IBM

Leistungsanalyse von Rechnersystemen

Die deutsche Windows HPC Benutzergruppe

Multicore Herausforderungen an das Software-Engineering. Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück

Energiesparmechanismen des

Hardware-Architekturen

Protected User-Level DMA in SCI Shared Memory Umgebungen

Projektseminar Parallele Programmierung

Einfach, sicher, schnell & unkompliziert! Mieten Sie einfach Ihre komplette HotSpot-Installation

Big Data in der Forschung

High Performance Computing

bw-grid Cluster in Mannheim

Xeon, Opteron, UltraSPARC höher, schneller, weiter?

Kleine Speichersysteme ganz groß

Grundlagen der Rechnerarchitektur. Ein und Ausgabe

Die Sandy-Bridge Architektur

transtec Entry Level HPC Cluster

Agenda. HPC-Benutzerkolloquium. EM64T-Clustererweiterung. EM64T-Clustererweiterung am RRZE

The Unbreakable Database System

Was ist Reference Counting Implementierung. Ende. Reference Counting. Kevin Köster. Uni Hamburg. 31. März Kevin Köster Reference Counting 1/58

Testbericht Thomas-Krenn.AG Open-E DSS

Intel 80x86 symmetrische Multiprozessorsysteme. Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte

( ZIH ) Zentrum für Informationsdienste und Hochleistungsrechnen. Kooperation mit Microsoft und Dell

IT-Infrastruktur, WS 2014/15, Hans-Georg Eßer

Mindestanforderungen an Systemumgebung Für die Nutzung von excellenttango

Untersuchung und Vorstellung moderner Grafikchiparchitekturen

Hardware für das Internet. Lorenz Wallner

Hochleistungsrechnen mit Windows Interaktive Benutzung und das Batchsystem Christian Terboven Rechen- und Kommunikationszentrum RWTH Aachen

Jede zweite SSD jetzt GRATIS!

Grundlagen der Rechnerarchitektur

Datenblatt: TERRA PC-GAMER ,00. Gaming-PC mit 120GB SSD + NVIDIA GTX 970 Grafik. Zusätzliche Artikelbilder IT. MADE IN GERMANY

Supercomputing 2003: Nichts geht ohne Linux

Hochleistungs-Disk-I/O

Felix Großkreuz Philipps-Universität Marburg Fachbereich 12 Seminar IT-Administration SS2011

Instruktionssatz-Architektur

Performance Tuning & Scale-Out mit MySQL

AMD : Ein Preis, beliebig viele virtuelle Server?

Datenblatt: TERRA PC-GAMER ,00. Zusätzliche Artikelbilder IT. MADE IN GERMANY

Datenblatt: TERRA PC-GAMER ,00. Gaming-PC mit 240GB SSD + NVIDIA GTX 970 Grafik. Zusätzliche Artikelbilder IT. MADE IN GERMANY

Exklusive Preisliste für Nur für Sie!! Ihr exone Systemhauspartner Friedrich Ritschel GmbH & Co. KG Herr Jacobsen edv@ritschelkg.

Diskless Cluster und Lustre Erfahrungsbericht zum CHiC

SSDs als Cache für HDDs

PVFS (Parallel Virtual File System)

Mehrprozessorarchitekturen (SMP, Cluster, UMA/NUMA)

Green IT Fraunhofer ITWM Rechenzentrum

C C. Hochleistungsrechnen (HPC) auf dem Windows Compute Cluster des RZ der RWTH Aachen. 1 WinHPC Einführung Center. 31.

PROVIGO MICROSOFT NAS 2170M

Titelmasterformat durch Klicken bearbeiten

IBM RS/6000 SP

Datenblatt: TERRA PC-GAMER ,00. Gaming-PC mit 240GB SSD + AMD R9 Grafik. Zusätzliche Artikelbilder IT. MADE IN GERMANY

MATRIX FÜR HITACHI VIRTUAL STORAGE PLATFORM-PRODUKTFAMILIE

Hyperthreads in Itanium - Prozessoren

RAC auf Sun Cluster 3.0

Einige Grundlagen zu OpenMP

Einsatz von GPFS an der JGU

OpenCL. OpenCL. Boris Totev, Cornelius Knap

GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm. Einführung CUDA. Ralf Seidler. Friedrich-Alexander-Universität Erlangen-Nürnberg

NEC SX-ACE HPC-System

Virtualisierung am Beispiel des LRZ Stefan Berner

Datenblatt: TERRA PC-GAMER ,00. Gaming-PC mit 240GB SSD + NVIDIA GTX 970 Grafik. Zusätzliche Artikelbilder IT. MADE IN GERMANY

Virtualisierung Phase II: Die Verschmelzung von Server & Netzwerk

Staff. Tim Conrad. Zeitplan. Blockseminar: Verteiltes Rechnen und Parallelprogrammierung. Sommer Semester Tim Conrad

Arbeitsfolien - Teil 4 CISC und RISC

Transkript:

Vienna Scientific Cluster Die Hochleistungsrechner der Wiener Universitäten Universität Wien, BOKU, TU Wien Herbert Störi Betreiber der Systeme

Wir messen die Rechenleistung Instruktionen /Sekunde IPS, kips, MIPS F Taktfrequenz M Takte/Instruktion Q[ IPS]= F M P Faktor für parallele Ausführung von Instruktionen (inklusive Pipelining) Es startet 1 Instruktion /Zyklus wenn P =M Instruktionen laufen bereit parallel ab, selbst für P=1! P Faktor für Parallele Ausführung ohne Pipelining P = P*M P = N pipeline * N core * N node Q[ IPS]= F M P Q [ IPS ]= FgP

Parallele Ausführung Pipeline: Je Takt startet eine Instruktion, benötigt aber mehrere Takte Die folgende Instruktion startet, bevor die erste fertig wird. P=1, P =M Parallele Pipelines in einem Prozessor-Kern Bei jedem Takt starten mehrere Instruktionen P>1, typisch 4 10

Intra-Core-Parallelisierung Pipelining Mehrere Pipelines /Core Viele Instruktionen gleichzeitig in Arbeit Es ist schwierig, das zu nutzen Optimierung im Compiler Hardwareoptimierung Hyperthreading Technische Grenzen F < 5 GHz Eher F<3,5 GHz wegen Energieverbrauch Anzahl der Pipelines <=10 Praktisch vorkommende Programme können mehr nicht nutzen Q=F*N pipeline < 35 GIPS Es gibt eine Grenze für die Rechenleistung, die einem Thread zur Verfügung steht. Die Leistung eines Cores ist seit ca. 2005 nicht mehr gewachsen.

Multi-Core-Systeme Wir bauen mehrere Cores in ein Computersystem Symmetric Multi Processing, SMP Die Cores greifen auf denselben Hauptspeicher zu. Wir müssen unser Programm in parallel bearbeitbare Threads zerteilen. Threads sollten gleich lang rechnen. openmp als Softwareumgebung Auto-Parallelisierung verschiedener Compiler Aber: Wir müssen die Daten nicht zerteilen! Problem: Bandbreite des Hauptspeichers Grenze 4 6 Cores Echtes SMP Alle Cores haben auf alle Speicheraddressen dieselbe Zugriffszeit 2 3 GHz, 2 3x DDR3, 1333 MHz RAM

Problemzone Hauptspeicherzugriff Bus führt nur einen Transfer gleichzeitig aus Viele schnelle CPUs überlasten den Bus Cache hilft bis zu einem bestimmten Punkt Problem: Caches der einzelnen CPUs müssen konsistente Inhalte haben (cache coherency, cc) Alle CPUs sehen den gleichen Speicher (uniform memory architecture UMA) ein Datenelement hat aus Sicht aller CPUs dieselbe Adresse CPU1 Haupt- Speicher1 CPU2 Memory-Bus Haupt- Speicher2 CPU3 Master/ Slave Bridge Bus-Contr. Disk- Netzwerk Controller Master/ Master/ Slave Slave I/O-Bus (PCI-Bus) Master/ Slave Slave I/O- Device

Lösungen für HS-Zugriff Extrem leistungsfähiger Speicherbus Beispiel IBM Power3 2048 Bit Breite (sehr teuer) Mehrere getrennte Speicherbusse mit Cross-Bar-Switch Hilft statistisch nicht alle CPUs greifen gleichzeitig auf denselben Speicherbus zu (Aufwand?) Mehrere getrennte Speicher für jeweils eine oder einige CPUs (non uniform memory architecture NUMA) Variante A: Kopplung über Netzwerk, jede CPU sieht nur ihren Speicher (Cluster, Kommunikation explizit in Software) Adressraum separat je CPU/Knoten Variante B: Kopplung über spezielles Netzwerk, jede CPU sieht alle Speicher Zugriffszeit auf fremde Speicherbereiche ist erhöht Cache-Ladung aus fremden Speichern ist transparent aber langsam (cache coherent non uniform memory architecture (ccnuma) Kernel sorgt dafür, dass jede CPU oft Gebrauchtes im lokalen Speicher hat Einheitlicher Adressraum

Cross-Bar-Switch Anzahl der gleichzeitigen Zugriffe Max(N CPU, N Speicher ) Aufwand: N CPU X N speicher Frage: Was machen wir mit dem I/O-Bus? CPU1 CPU2 CPU3 Haupt- Speicher1 Haupt- Speicher2

Verteilter Hauptspeicher CPU1 CPU2 CPU3 Knoten 1 CPU1 CPU2 CPU3 Knoten 4 Memory-Bus Memory-Bus Haupt- Speicher1 Haupt- Speicher2 Inter- Connect Haupt- Speicher1 Haupt- Speicher2 Inter- Connect Moderne Lösung z. B. 1 Knoten VSC-2 Knoten 2 Knoten 3 CPU1 CPU2 CPU3 CPU1 CPU2 CPU3 Memory-Bus Memory-Bus Haupt- Speicher1 Haupt- Speicher2 Inter- Connect Haupt- Speicher1 Haupt- Speicher2 Inter- Connect

2 Sockel 12 core Intel Westmere System

Mehr-Sockel Systeme Der 4. HT-Link je Prozessor-Chip dient für I/O Chipsets oder Verbindung zu weiteren CPUs

Cluster Einzelne Knoten werden zu einem Clustersystem verbunden. Ein Knoten ist ein vollwertiger Computer mit CPUs, Hauptspeicher, Disks, etc. Kann auch ein SMP-System mit verteiltem Hauptspeicher sein Die Knoten werden mit einem Netzwerk verbunden Ethernet in vielen Fällen zu langsam, lange round-trip-time InfiniBand relativ teuer, sehr schnell, deterministisch Beispiel QDR4x (4 Kanäle, quad data rate) 32 Gbit/sec Topologie meist ein Baum 36 port nonblocking switches weitere... Die Daten sind verteilt Code und Daten werden verteilt Zugriff nur auf Daten auf demselben Node Software: Message Passing Interface MPI Keine automatische Parallelisierung

InfiniBand 1 Ebene: 1 switch max 36 Knoten (einfach) 2 Ebenen: max 54 (36+18) switches max 624 (18x36 Knoten) 3 Ebenen: max 1596 (54x18+624) switches max 11232 Knoten Alternativen Überbuchtes Netzwerk obere Ebenen haben nicht die volle Bandbreite Andere Topologie und Netzwerktechnologie Grosse switches (2 Ebenen in 1 Kasten)

InfiniBand (2) Switch 1 Ebene, 36 Knoten maximal K1... K36 Uplinks: Jede Linie entspr. 6 Verbindungen 2 Ebenen Beispiel: 9 Switches, 108 Knoten (6x18) maximal Volle Bandbreite. Jeder Switch 1. Ebene hat 18 down- und 18 uplinks Switch2.1 Switch2.2 Switch2.3 Switch1 Switch2... Switch6 K1.1... K1.18 K2.1... K2.18 K6.1... K6.18 Wir könnten auch einen Switch 2. Ebene einsparen. Dann hätte jeder Switch 1. Ebene nur 12 uplinks und 24 ports für downlinks. Dann hätten wir 8 Switches und 6x24=144 Knoten. Das Netzwerk wäre dann 2fach überbucht, was meist kein Problem ist.

Leistungsmessung für Hochleistungsrechner Wir zählen nur Gleitkomma-Operationen (DOUBLE) engl.: floating point OK für Physik, Chemie, Meteorologie, Ingenieurwissenschaften Instruktionen mit mehreren Gleitkomma-Operationen zählen mehrfach Vektor, Fused Multiply-Add (FMA) Der Wert anderer Instruktionen ist zu variabel Frage: Bioinformatik, Bildverarbeitung, Parallelverarbeitungsfaktor für Gleitkomma PF=NF*Ncore*Nnode NF Zahl der Gleitkomma-Operationen /Takt/Core NF=4 für alle gängigen Cores NF=8 IBM Power7 und Hitachi Sparc8 R peak [FLOPS] = F*PF theoretisch maximale Gleitkommaleistung R max [FLOPS] < R peak praktisch erreichbare Gleitkommaleistung wird mit Testprogammen (Benchmarks) gemessen

Benchmarks - Testprogramme Leistungs-Benchmark: Absolute Zeit um ein Problem zu lösen Meist mehrere verschiedene Probleme Punkte = 1/Zeit Beispiele: SPECint2006, SPECfp2006 http://www.spec.org LINPACK-Benchmark für HPC: Invertiert eine Matrix, auch parallel http://www.netlib.org/benchmark/hpl/. Durchsatz-Benchmark Wie oft kann das Problem in einer bestimmten Zeit gelöst werden, auch parallel Meist eine Mischung von Problemen Beispiele: SPECint_rate2006, SPECfp_rate2006 http://www.spec.org Unser Benchmark für HPC-Ausschreibungen Testet auch, ob die wichtigsten Programme laufen. Resultate sehr ähnlich SPECfp_rate2006

TOP500-Liste 2mal jährlich neu 500 leistungsfähigste Computer Verwendung des Linpack-Benchmarks Man löst A Matrix n*n x,b Vektoren ε Genauigkeit der Gleitkomma-Operationen 10-53 für DOUBLE R max = FLOP/Zeit VSC-2: n 2.000.000 Gleichung: Test : FLOP : A r x = r b A r x r b A g r x 2 3 n3 + 2n 2 < nε

Vienna Scientific Cluster U Universität für Bodenkultur Wien

Vienna Scientific Cluster Universität für U Bodenkultur Wien Sommer 2008: Anforderungen: Ziele: Das HPC-Projekt der drei Wiener Universitäten Compute-Nodes (X86 Architektur, min. 2GB mem/core) Zugangs- und Managementknoten InfiniBand-Netzwerk Gbit-Netzwerk, Clustermanagement max. 180KW Anschlussleistung (inkl. Interner Kühlung) Platz ~200 in der TOP500-Liste (Nov.2009) EU-weite Ausschreibung: Auftragsvolumen: max. 1.6 Mio Veröffentlichung: 28. 02. 2009 Zuschlag: 08. 05. 2009

Vienna Scientific Cluster Installationsbeginn: Ende Juni 2009 Ergebnis der Ausschreibung 13 Angebote von 10 Firmen (2x AMD, 9x Intel) Zuschlag an IPS/SUN für folgende Komponenten: - 436 Compute-Nodes SUN Fire X2270 (2x Intel X5550 QC, 2.66 GHz) je 24 Gbyte Memory (6x 4 GB DDR3, 1333) - 5 Zugangs- und Managementknoten (SUN Fire X4245) - InfiniBand-Netzwerk von QLogic (DDR und QDR) - Gbit-Netzwerk, - Clustermanagement (Serviceprozessor pro Node) - 16 x 19 Serverschränke + 6 CoolLoops (Knuerr) - Betriebsystem: Linux CentOS - Batch-System: Sun Open Source Grid Engine - Parallelisierung: QLogic MPI

Vienna Scientific Cluster Abnahme Leistungstest (Benchmarks): bessere Werte als im Angebot Dauertest (14 Tage) Linpack-Benchmark auf 3650 cores, 35.5 Tflops TOP500: 156 Green500: 94 Abnahme der Cluster-Infrastruktur, Messung der Stromaufnahme (180 KW) 16 x 19 Serverschränke + 6 CoolLoops (Knuerr) Benutzer-Testbetrieb ab 19.10.09, Produktionsbetrieb ab 01.01.2010 - Betriebsystem: Linux CentOS AWS: - Gaussian 09 - Batch-System: Sun Grid Engine - OpenFOAM - HDF5 - R - Global Arrays

Vienna Scientific Cluster Blockdiagramm SUN Fire X2270

Netzwerkstruktur VSC Vienna Scientific Cluster

Vienna Scientific Cluster U Universität für Bodenkultur Wien

Vienna Scientific Cluster

Vienna Scientific Cluster

Vienna Scientific Cluster

Vienna Scientific Cluster Zugang: Begutachtete Projekte Förderprojekte: Sind Projekte von externen Forschungsfinanzierern (etwa: EU, ERC, FWF, FFG, WWTF,...) begutachtet und finanziert, verlassen wir uns auf das Begutachtungsverfahren der Fördergeber. Wir legen die Rechenzeit gewissermaßen drauf. Interne Projekte: Wir lassen begutachten. Das macht das Vizerektorat für Forschung, kommt aber selten vor. Andere Projekte Externe Projekte: Rechenzeit wird bezahlt. Bisher nicht vorgekommen. Testprojekte: 30.000 core-h innerhalb von 2 Monaten werden von den Systembetreuern vergeben, typischerweise innerhalb von 1-2 Tagen.

Vienna Scientific Cluster Anwendungen (ca 60 aktive Projekte): Materialwisssenschaften Ab-initio Festkörperphysik und -chemie (VASP, WIEN2k,..) Moleküldynamik, Phasenübergänge, Quanten-Monte-Carlo Weiche Materie Physik, Astronomie Quantenchromodynamik Quark-Gluon-Plasma Quantenphysik Wechsewirkung Strahlung mit Atomen Relativitätstheorie Sternmodelle (ANTARES) Chemie Quantenchemie (GAUSSIAN) Ionische Flüssigkeiten Verfahrenstechnik, Strömung (openfoam)

Vienna Scientific Cluster Anwendungen (2): Meteorologie, Klima Kleinräumige Klimamodelle (MM5,...) Hydrologie, Schneetransport Strahlungstransport im gebirgigen Gelände Boden, Grundwasser, Transport von Schadstoffen Bioinformatik Analyse von DNA-Sequenzen (BLAST) Genom-Analyse: Erstellung von Vererbungsbäumen Problem: Große Datensätze brauchen großes virtuelles Memory Mathematik, Informatik, Statistik MATLAB, Mathematica,...

Vienna Scientific Cluster Parallelisierungsgrad

Weitere Entwicklung: Vienna Scientific Cluster Erweiterung VSC-1 4 Knoten mit je 2 GPUs, weitere Knoten Zykluszeit (Plan): Neues System alle 18 Monate (eher 24 M) im stationären Zustand 3 Systeme parallel Neuer Standort Arsenal (Nähe neuer Hauptbahnhof) Science Center der TU Wien (Standort für Großlabors) Mehr Leistung, mehr Kühlung, mehr Platz Umbau ab Herbst 2010 (Tatsächlich März 11) Personal-Aufstockung Zusätzlich 2 Personen (Kvasnicka, Stöhr) VSC-2 Ausschrebung im Sommer 2010 Kosten ca 4 Mio. incl MWSt. Betrieb ab März 2011 (September 11)

Vienna Scientific Cluster VSC-2: Ausschreibung (veröffentlicht 30. September 2010): Architectur: offen, keine GPU s Finanzrahmen: 4,2 M (plus optional file servers) Site: Arsenal, ScienceCenter der TUW Kriterien: 60% Durchsatz., 30% Energieeff, 10% Preis Resultat 14 Angebote von 10 Firmen Sieger: MEGWARE 1314 compute nodes mit zwei 8-core Opteron 6132HE, 2,2 GHz und je 32 Gbyte Infiniband QDR 3-level fabric with 2- and 7-fold oversubsription R peak =185 Tflop/s 30 Racks mit cool doors (passive Wasserkühlung) Start der Installation: 3. Mai, 2011 Zur Zeit: Abnahme

March 2011 Vienna Scientific Cluster VSC-2

Vienna Scientific Cluster VSC-2 20. Mai

Vienna Scientific Cluster VSC-2

Infrastruktur System Disks 16 Gbyte SSD (oft Benötigtes) 2 NFS-Server (seltener Benötigtes) Head Nodes Sun Grid Engine (Queing System) Fabric Manager Cluster Management Software Login Nodes 3 Stück, einer je Universität Im LAN der entsprechenden UNI (VLAN) /home 2 NFS-Server, ca 60 TByte /scratch 12 Fileserver, ca 250 Tbyte Paralleles Filesytem: Fraunhofer FHGFS Metadaten: Verteilt auf Fileserver, je Server 128GByte SSD Durchsatz ca. 6 Gbyte/sec Vergabeasistent: Webbasiertes Projektmanagement Netzwerkanbindung: 2x 10Gbit/s redundant nach aussen Interne Netzwerke Infiniband Gbit LAN zu allen Nodes Gbit Management LAN zu den Serviceprozessoren

Vienna Scientific Cluster VSC-2 Power and cooling

Vienna Scientific Cluster Energie Aspeckte (VSC-2) Zusammenstellung Energieverbrauch: System Fileservers Total Computer Pumpen, Raumkühler Total 1 430 kw 20 kw 450 kw 50 kw (Nennleistungen) 500 kw Kompressoren (Abhängig von der Kühlwassertemperatur) 50 kw (18 C Kühlwasser, teilweise freie Kühlung) Ventilatoren außen 40 kw (Nennleistung) Grand Total 600 kw = 1,33 x Total Computer Größere Kühler mit geringer Luftgeschwindigkeit und noch höhere Kühlwassertemperatur würden helfen

Vienna Scientific Cluster VSC-2 Status: Baustelle Infrastruktur System noch immer nicht ganz fertig temporäres Kühlaggregat kein Raumklima nur Cool Doors temporäre elektrische Anspeisung Benutzertestbetrieb Top-500 Test: Rmax=135,6Tflops Platz 56 (Juni 2011) Green-500: 315,35 Mflops/Watt Platz 71 Nach dem Wechsel aller Memories Rmax=152,9 Tflops (82% Rpeak) 354 Mflops/Watt (Blue Gene P 363-378)

Vienna Scientific Cluster Projektkosten (VSC-2) Vollkosten für 4 Jahre: Hardware 50% Energie 30% Industriepreis, keine Erhöhungen inkludiert Gebäude 10% Personal 10%

Verlässlichkeit Mean time between failure MTBF MTBF für 1 Knoten 100.000 Stunden (12 Jahre) MTBF für 1314 Knoten 100.000/1314 = 76 Stunden (ca. 3 Tage) Problem: stirbt 1 Knoten den ein Programm verwendet, bricht das Programm ab. Speicherinhalt des kaputten Knotens ist verloren. Über redundante Software-Techniken wird nachgedacht

Vienna Scientific Cluster Vergleich VSC-1 VSC-2 Nacktes Sytem, ohne File Server, etc. System VSC-1 VSC-2 Ratio R max Tflop/s 35,5 152.1 4,28 Preis M 1,6 4,2 2,63 Anschlussleistung kw 180 430 2,38 Preis/Leistung Tflop/s/M 22,2 36,2 1,63 Energie effizienz MFlop/s/W 200 353 1,77 R peak /core Gflop/s 10,66 8,8 0,83 Conclusion: VSC-2 hat nach knapp 2 Jahren nahezu doppelte Energie und Preis- Effizienz Aber: VSC-1 hat schnellere Prozessor-Kerne!

Vienna Scientific Cluster Vergabepoliitk 2 Prioritäten: regular: Projekte mit verfügbarem Kontingent idle: Projekte mit verbrauchtem Kontingent System VSC-1 VSC-2 Min job size Max job size without operator 1 core 512 cores 16 cores 1 node 4096 cores 256 nodes Max run time 72 hours 72 hours Accounting and scheduling unit 1 core 1 node

Vienna Scientific Cluster U Universität für Bodenkultur Wien

Vienna Scientific Cluster Ausblick: Ende Oktober 11: Jänner 2012: Februar 2012: Herbst 2012: Anfang 2013: Fertigstellung Energie, Klima Regulärer Benutzerbetrieb (wird verrechnet) Benutzerworkshop Fragen: Architektur und Auslegung VSC-3 Start Vorbereitung Ausschreibung VSC-3 Anlieferung VSC-3 Betrieb VSC-3