Leibniz-Rechenzentrum Data Center Infrastructure@lrz.de: Ein Erfahrungsbericht Dr. Detlef Labrenz (labrenz@lrz.de) 16.3.2014
Übersicht Leibniz-Rechenzentrum Gebäudeinfrastruktur Energieeffizienz - Kenngrößen - Stromverbrauch - Kühlung Zusammenfassung -2-
Aufgaben des LRZ München Bayern Deutschland&Europa 1. Gemeinsames wissenschaftliches Rechenzentrum der Münchner Hochschulen: > 150.000 Studenten und Wissenschaftler 2. Landes-RZ für alle bayer. Hochschulen + weitere wiss. Einrichtungen Compute-Dienste (Spitzenbedarf); auch Housing Mail-, Web-, Hosting-, Cloud-Services, Landeslizenzen Backup- und Archivzentrum (40 Petabyte; > 10 Milliarden Dateien) IT-Kompetenzzentrum (Netze, HPC, Grid-Computing, IT- Management) 3. Nationales Supercomputer-Zentrum für universitäre Forschung: Gauß-Zentrum für Supercomputing mit Jülich und Stuttgart (Simulation als Erkenntnisquelle tritt zu Theorie und Experiment) 4. Seit 2012: europäisches Supercomputer-Zentrum -3-
Münchner Wissenschaftsnetz Betrieb zentraler Kommunikationsdienste, u.a. E-Mail: 30 Server, ca. 2 Mio. eingehende Mails/Tag (davon >98% Müll), ca. 175 Einrichtungen, >80.000 Mailboxen >400 (z.t. virtuelle) WWW-Server Betrieb von Firewalls, Intrusion-Detection-Systemen usw. Backbone und Gebäude-Netz (Univ.-Institutsnetze) 500 km Glasfaserkabel zwischen Gebäuden (innen: 1.100 km) Gebäudenetz: strukturierte Verkabelung (Multimode-Glas und Kupfer/TP); >700 LANs in 60 Arealen (>440 Gebäude) Die aktiven Komponenten des MWN (> 1.000) beschafft das LRZ selbst (Bedingung: remote-managebarkeit) -4-
SuperMUC Konfiguration Visualization Internet Archive and Backup ~ 30 PB Snapshots/Replika 1.5 PB (separate fire section) NAS 80 Gbit/s Desaster Recovery Site $HOME 1.5 PB / 10 GB/s pruned tree (4:1) GPFS for $WORK $SCRATCH non blocking non blocking SB-EP 16 cores/node 2 GB/core WM-EX 40cores/node 6.4 GB/core 10 PB 200 GB/s Compute nodes 18 Thin node islands (each >8000 cores) Compute nodes 1 Fat node island (8200 cores) also used as Migration System I/O nodes
SuperMUC: IBM System x idataplex mit Warmwasserkühlung Torsten Bloth, IBM Lab Services - IBM Corporation idataplex DWC Rack w/ water cooled nodes (rear view of water manifolds) -6-
EVU Nachbargebäude Energieeffizientes HPC: Das Vier-Säulen-Modell Ziel: Verbesserung des PUE (Power Usage Effectiveness) Ziel: Reduzierung von Stromverbrauch Ziel: Optimierung Resourcenverbrauch, Systemtuning Ziel: Optimimierung Application Performance Gebäudeinfrastruktur HPC Systeme Hardware HPC System Software HPC Applicationen Data Center (Ziel: Minimierung von Total Cost of Operations ) -7-
Gebäudeinfrastruktur -8-
SuperMUC Interconnect ( RDHX ) Servers (25x KKT Kraus Racks) Servers ( 95x Racks) Network & Core Servers I Network & Core Servers II Kältemaschinen 5x+2x freie Kühlung (Winter) Rückkühlung Gelände Direkte Modul-Kühlung 30 60 C Übersicht Kühlung und Klimatisierung Kühltürme (4x Gohl) Dach Präzisionskühler Dunstturm (1x Gohl) Kühltürme (2x Gohl + 5x Jäggi) 3.OG 2.OG KKG 5x KKG 4x 1.OG EG UG HRR NSR DAR WKZ Elektro KKG 3x+3x Trafo 6x+6x SuperMUC Compute Section ( 150 Racks) UKG 5x Disks Tape Libraries USV stat 3x+3x Mittel- SP SuperMUC Storage USV dyn. 3x+6x NSHVs UKG NEA UKG UKG 6x RLT 2x GEA RLT 2xGEA UKG RLT (2x) RLT (2x) KW-Verteiler/-Sammler Gelände Brunnen EG Wasseraufbereitung (3x Umkehrosmose) Kältemaschinen (2x McQuay + 5x Carrier)
Kühlungsinfrastruktur Equipment: - Kühltürme: Gohl, Jaeggi - Kältemaschinen: McQuay, CARRIER - UKG/KKG: GEA, WEISS, STULZ, RC Group - Pumpen: Grundfoss/ABB&KSB Messen: - Krohne (Durchfluss) - Calec (Wärme) - WIKA u.a. (Druck, Temperatur) Monitoring & Betrieb - JCI Metasys -10-
Funktionschema Kühlung und Heizung 23.03.2015 Leibniz-Rechenzentrum 11
Kenngrößen Leistungsaufnahme, Wärmeabgabe/Kältebedarf P, Q Power Usage Effectiveness (Rechenzentrum, Anlage) PUE = Gesamtleistung IT-Leistung Coefficient Of Performance (Gewerk/Einzelgerät) COP = Kälteleistung el. Leistung Power&Cooling Overhead (Gewerk/Einzelgerät) PCO = el. Leistung Infra. Subsystem IT-Leistung -12-
Kenngrößen (cont.) (1) P(DC) = P(IT) + P(EV) + P(KT) + P(Inst) (2) P(SuperMUC) = P(SuperMUC_IT) + P(SuperMUC_EV) + P(SuperMUC_KT) (3) PUE(SuperMUC) = P(SuperMUC) / P(SuperMUC_IT) = 1 + P(SuperMUC_EV) / P(SuperMUC_IT) + + P(SuperMUC_KT) / P(SuperMUC_IT) = 1 + PCO(SuperMUC_EV) +PCO(SuperMUC_KT) (4) P(SuperMUC_IT) = S [P(EV1HRR1..3)] (5) P(SuperMUC_EV) = S [P(EV1inUSV11..16) - P(EV1outUSV11..16)] (6) P(SuperMUC_KT) = funct. {P, Q} Wilde, T. et al.: DWPE, A New Data Center Energy-Efficiency Metric Bridging the Gap Between Infrastructure and Workload; in Proc. of 2014 Int. Conf. on High Performance Computing & Simulation (HPCS 2014), July 2014, p.893-90 -13-
Messung Leistungsaufnahme: Grundlagen Leistung (elektr.): P = I * U [kw] p(t) = i(t) * u(t) P = < p(t) > Arbeit: W = P * t [kwh] W = E(t2) E(t1) P = E(t2) E(t1) t2 t1 Gebäudeleittechnik (WinCC, M5i): P, E(ti) -14-
Übersicht Elektroversorgung
20kV Einspeisung: Vergleich -16-
20 kv Einspeisung: Differenz (cont.) -17-
20 kv Einspeisung: Differenz (cont.) -18-
20 kv Einspeisung: Lösung Measurement 20kV MS-Nord (14.-15.4.2014) E(t+ t) = E(t) + ( t) [ (1 min) [< P >(1sec) ] ] -19-
Kühlung: Lastspitzen Jan. 2014-20-
Kühlung: Lastspitzen Jan. 2014 (cont.) -21-
Energieeffizienz SuperMUC Jan. 2014-22-
Zusammenfassung Best Practices Data Center Infrastructure (1) Fix cooling first (2) Optimize electrical distribution (3) Measure and improve Chris Malone, Google Inc. Efficient Data Centers Anywhere (2011) www.youtube.com/watch?v=z0fz-hbnz_s -23-
WWW.SIMOPEK.DE -24-
??? -25-
Danke!