Erfahrungen mit parallelen n frank.mietke@informatik.tu-chemnitz.de Fakultätsrechen- und Informationszentrum (FRIZ) Professur Rechnerarchitektur Technische Universität Chemnitz 25.09.2007 - Megware HPC Users Meeting
Gliederung 1 2 3 4
Gliederung 1 2 3 4
Speicherwachstum Alle 18 Monate Verdopplung Speicherbedarf (IDC) Gesetzliche Regularien (Archivierung, Verfügbarkeit usw.) Ressourcen-intensive Anwendungen (z.b. HPC) > Speichernetze grundlegend wie DB und LAN > Parallele finden breiten Einsatz
Speicherwachstum Alle 18 Monate Verdopplung Speicherbedarf (IDC) Gesetzliche Regularien (Archivierung, Verfügbarkeit usw.) Ressourcen-intensive Anwendungen (z.b. HPC) > Speichernetze grundlegend wie DB und LAN > Parallele finden breiten Einsatz Gary Grider s HPC Faustregel: 1GB/s zum I/O-System für jedes TFlop Leistung
Festplatten Durchsatz (SATA) Bild entnommen von www.storagereview.com (Anfang 2006)
Festplatten Durchsatz (SCSI) Bild entnommen von www.storagereview.com (Anfang 2006)
Amdahl s Law 1 S = (1 f ) + f k S Effektiver Speedup f Anteil welcher Speedup erfährt k Speedup des f Anteils
Amdahl s Law 1 S = (1 f ) + f k S Effektiver Speedup f Anteil welcher Speedup erfährt k Speedup des f Anteils Beispiel: 10% I/O und 90% Berechnung. Bei Speedup von 10 der Berechnung?? Bei Speedup von 100 der Berechnung??
Auswege aus diesen Speichernöten Einzelne Festplatte aktuell bis 1TB internes RAID (Redundant Array of Independant Disks)
Auswege aus diesen Speichernöten Einzelne Festplatte aktuell bis 1TB internes RAID (Redundant Array of Independant Disks) DAS (Direct Attached Storage)
Auswege aus diesen Speichernöten Einzelne Festplatte aktuell bis 1TB internes RAID (Redundant Array of Independant Disks) DAS (Direct Attached Storage) NAS (Network Attached Storage)
Auswege aus diesen Speichernöten Einzelne Festplatte aktuell bis 1TB internes RAID (Redundant Array of Independant Disks) DAS (Direct Attached Storage) NAS (Network Attached Storage) SAN ( Network) Fibre-Channel iscsi / InfiniBand
Auswege aus diesen Speichernöten Einzelne Festplatte aktuell bis 1TB internes RAID (Redundant Array of Independant Disks) DAS (Direct Attached Storage) NAS (Network Attached Storage) SAN ( Network) Fibre-Channel iscsi / InfiniBand Parallele
Gliederung 1 2 3 4
Allgemein Speicherzentriertes Storage Speicherkonsolidierung Statt SCSI-Kabel nun neues Netzwerk Fibre-Channel oder iscsi Multipathing Blockbasiert, SCSI-Schnittstelle
SAN Aufbau Bild entnommen aus dem Buch Speichernetze von U. Troppens und R. Erkens
Gliederung 1 2 3 4
Wieso das Alles? Klassisch: Nutzung von Netzwerkdateisystemen (AFS, NFS, CIFS usw.) Aber: Was, wenn ein großer Job Checkpointing durchführt? Beispiel: Cluster mit 128 Knoten und jeweils 4GB RAM. Checkpoint soll in 10 Minuten durchgeführt werden.
Wieso das Alles? Klassisch: Nutzung von Netzwerkdateisystemen (AFS, NFS, CIFS usw.) Aber: Was, wenn ein großer Job Checkpointing durchführt? Beispiel: Cluster mit 128 Knoten und jeweils 4GB RAM. Checkpoint soll in 10 Minuten durchgeführt werden. 51,2 GB/min oder 853MB/s
Anforderungen an ein Dateisystem für Cluster Sehr hohe Leistung (Lesen/Schreiben) Unterstützung von großen Dateien oder DB-Tabellen Multi-User und Multi-Client Unterstützung Datenkonsistenz Fehlertoleranz Skalierbarkeit
Arten von n Shared SAN FS Klienten importieren Storage direkt Block-level Sharing Geringe Klientenanzahl Re-Export möglich GFS, OpenGFS, PolyServe Matrix FS, GPFS u.a. Parallel FS Klient Server Struktur Server-level Sharing Große Anzahl Klienten möglich PVFS2, Lustre, Panasas, GPFS u.a.
Metadatenverwaltung Dient dem Auffinden der Daten Gibt Aufschluss über Verteilung Journaling und Locking Symmetrisch (In-Band) Dedizierter Metadatenserver nicht immer nötig Asymmetrisch (Out-of-Band)
Fallbeispiel: Lustre Bild entnommen aus Building Clustered Linux Systems
Clusterarchitektur 12 x 1GbE 530 Nodes...... InfiniBand Gigabit Ethernet 00 11 00 11 00 11 00 11 00 11 00 11 00 11 00 11 00 11 00 11 12 Vis. Node Storage COMPUTE (no HDD) LOGIN (RAID 5) Campus 01 01 01 MANAGE (RAID 5) MDS (Lustre) (HDD) RAM DISK (Lustre) (HDD) Vis. Node (HDD) IB REDUNDANT IB HA CONFIG (active/active) HA CONFIG (active/passive)
Storagearchitektur CHiC SAS OSS RAID Controller InfiniBand RAID Controller OSS IBM x3455 IBM x3455 MDS 00000 11111 00000 11111 00000 11111 00000 11111 5x
Storage Hardware CHiC 160x SATA (OSS) 16x SAS (MDS) 3,5GB/s (write) 1,7GB/s (read) RAID-5 / RAID-10
Programmierung paralleles IO Anwendungen mit nicht kontinuierlichen IO Zugriffen Aufspalten in viele kontinuierliche Zugriffe MPI-2 Feature (MPI-IO) nicht kontinuierliche Zugriffe nun mit einem Aufruf ROMIO Implementierung existiert PVFS-1/-2 ist optimiert
Gliederung 1 2 3 4
Erfahrungen Hardware Hochfrequenzkabel problematisch (IB, SAS) Trennung zu Stromkabel Warm-Kalt-Regionen vermeiden Festplattenleistungswerte stagnieren mindestens RAID-6 ist Pflicht LSI RAID-Controller SW-Handhabung SMART Monitoring nicht möglich
Erfahrungen Lustre Pro: Einfache/schnelle Installation (<20 Minuten) Sehr gute Netzwerkunterstützung (natives IB) Flexible Anbindung Plattenspeicher Sehr gute HA-Fähigkeiten (einfaches mount) Kontra: Quotaunterstützung auf bene fehlt Keine gute ACL Unterstützung (Gruppen) Metadatenserver noch nicht parallelisiert RAID über Server noch nicht möglich flock() Unterstützung schlecht
Was die Zukunft bringen wird SSD bzw. Festplatte + Flash RAID Performance / Level (Triple RAID) HSM (RAM->HDD) pnfs in Planung Konsolidierung Storage Markt (Sun + Lustre) Einsatz Virtualisierungstechniken
Interface Standard Zukunft OSD Object-based Storage Device, SNIA TWG Object Interface anstatt Block-based Metadaten helfen beim Management Echtes Prefetch möglich Zusammenführung SAN + NAS Bild entnommen von SNIA TWG OSD
Danke für die Aufmerksamkeit Clusterführung CHiC gewünscht?