Speichersysteme am LRZ Leibniz-Rechenzentrum der Bayerischen Akademie der Wissenschaften
Agenda Die LRZ Speichersystemumgebung Erfahrungen mit VMware mit NFS und Deduplikation Flash-basiertes Read-Caching Erfahrungen mit Sun 7xxx Storage NFS im HPC-Bereich 2
Die LRZ Online-Speicherumgebung LRZ ist IT-Dienstleister für TU München und LMU E-Mail, WWW, Dateidienste, VMware usw. Unterstützende Speichersysteme im Online-Bereich 8 Netapp NAS-Filer 3 HA-Cluster + 2 Replikationssysteme 150 + 150 TB nutzbar, >> 1000 Disks Im Primärbereich bisher FC-Disks, neuestes System hat SATA Ausschliessliche Nutzung von NFS, CIFS und iscsi Nur Gigabit / 10 Gigabit Ethernet Kein FC im Online-Bereich (im Backup/Archiv schon!) 3
Typisches Setup 4
VMware mit NFS NFS ist eine gut erprobte Alternative zu FC oder iscsi in VMware-Umgebungen VMware-Disk = eine Datei im NFS Vorteile Deutlich einfacheres Management Vergrößern/Verkleinern in Sekunden >200 VMs in einem Datastore möglich, keine Queue-Probleme VMware HA wird unterstützt Replikation / Deduplikation ist sehr einfach Nachteile Benötigt echten NAS-Filer Linux NFS-Server für größere Umgebungen eher sinnlos Latenz entscheidet! 5
Wichtige Einstellungen für VMware NFS I/O-Timeout auf den Clients muss angepasst werden Failover am NAS-Filer und kleinere Netzstörungen werden ohne I/O-Fehler toleriert Wichtig auch für Rolling-Updates am NAS-Filer (ca. 40-60s) Bei uns 190 Sekunden Linux-Default: 60s NFS-Heartbeat auf den VMware-Servern anpassen Partitionsalignment NAS-Filer benutzt 4kB Datenblocks Partitionsbeginn in den VMDKs sollte auf 4k-Boundary liegen Garantiert, dass ein Blockzugriff in einer VM auch nur einen Block am NAS-Filer betrifft und nicht zwei (wg. Überlappung) 6
Deduplikation mit VMware Viele Daten in VMware sind doppelt und x-fach vorhanden VMs werden aus Templates erzeugt Am Anfang 99% identisch, danach kommen echte Daten dazu Netapp ASIS: Deduplikation im Dateisystem Erkennt mehrfach vorhandene 4 kb-datenblöcke Deduplikation läuft nach einem einstellbaren Zeitplan Effizientere Cache-Nutzung: Blöcke werden nur 1x gecached Einsparungen bei VMware 57% sind problemlos (=3.9 TB statt 9.1 TB!) Reale LRZ-Umgebung mit Snapshots der letzten 10 Tage Bei neuen und Testumgebungen auch mal 75-90% Gilt auch für das Replikationssystem 7
Einsparungen durch Deduplikation Gesamt 3877 5231 VMware 3.5 / 4 über NFS ca. 500 VMs Linux + Windows Produktion 2546 2817 Auf NAS-Filer belegter Speicherplatz: 3877 GB statt 9108 GB = 57% weniger Daten 64% weniger Staging/Test 1331 2414 Belegt Dedupliziert 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 8
Beispiel Deduplikation Deduplikation aktiviert Monitoring-System lernt endlich, Dedup-Einsparungen aufzuzeichnen 9
Flash-basierte Read-Caches Netapp PAM2 Erweiterungskarte 512 GB Erweiterung als Second-Level Lese-Cache Übernimmt Daten, die aus dem normalen Cache herausfallen Wahlweise nur Metadaten oder alle Daten Betrieb von zwei Karten à 512 GB (=1 TB) im Replikationssystem Entlastung um durchschnittlich 3.500 Disk I/Os Entspricht etwa 40-50 SATA-Festplatten CPU des NAS-Filers ist jetzt bei 100% Beschleunigung von NDMP-Backups um bis zu 30% Demnächst Einsatz unter VMware NAS-Cluster mit je 1 TB Read-Cache pro Filer 10
Sun 7xxx NAS-Filer Sun (Oracle?) Storage-Appliances Basieren auf Solaris + ZFS Appliance : kein Kontakt mit Solaris nötig Verfügbare Modelle zum Beispiel Sun 7210: 48 SATA-Disks in 4 HE (analog X4500) Sun 7310: 1 HE NAS-Filer mit externen 24x SATA-Shelves Auch als Cluster SSDs verfügbar als Write-Log (ZIL): 18 GB SSD (auch mehrere) Read-Cache (L2ARC): bis zu 6x100 GB Software-Features NFS, CIFS, iscsi, Snapshots, Cloning, Replikation, Analytics,... 11
Sun 7210 + 7310 12
Erfahrungen mit Sun NAS Am LRZ vorhandene Systeme Sun 7210 seit Anfang 2009 im Betrieb am LRZ (primär VMware -Tests) Sun 7310 Cluster seit Ende 2009 (noch Testbetrieb) Stabilität: für NFS sehr gut (keine Probleme) Management generell: OK Teilweise trickreich Beispiel: Anpassung eines Snapshot-Schedule löscht automatisch alle nicht mehr passenden alten Snapshots Updates kommen recht regelmäßig Replikation zwischen 7210 -> 7310 Snapshot-basiert, analog zu Snapmirror auf der Netapp Nur 30 MB/s pro Share wg. Verschlüsselung... 13
Erfahrungen mit Sun NAS (forts.) ZFS Gute Features (Kompression, demnächst auch Deduplikation) RAID Z2 hat spezifische Performanceeigenschaften Sehr schwach bei Random-Reads bei kleinen Blocks Ein Dateisystem-Block (!) wird über mehrere Platten verteilt Pro RAID-Gruppe Random I/O-Performance einer einzelnen Platte Im (theoretischen) Extremfall nur 700-800 IOps aus einer 7210 mit 48 Disks... Sun-Hardware hat aber viel RAM und Read-SSD kann helfen Triple-Mirroring, RAID Z3 sind verfügbar Disk-Scrubbing killt die Performance, weil nicht einstellbar Läuft nur manuell Reboot: sehr langsam (mehrere Minuten) 14
Erfahrungen mit Sun NAS (forts.) Analytics (=Dtrace + Oberfläche) ist genial 15
Das Linux-Cluster am LRZ 16
Speichersysteme am Linux-Cluster Homeverzeichnisse und Software Netapp-NAS-Cluster mit 6 Filern, 70 TB Gemeinsam mit Hochleistungsrechner HLRB 2 Snapshots + Replikation + Bandsicherung als Backup Stabiler Betrieb seit 2006 PTMP-Bereich und Projektbereiche Bis 02/2010: Lustre (6+12 Server, 50+150 TB) Ab 02/2010: Netapp-NAS-Cluster mit 6 Filern, 150 TB Backup / Archivierung durch Benutzer Schwieriger Workload Viele gleichzeitig laufende, unterschiedliche Programme Viele kleine Dateien (Durchschnitt unter 800 kb) 17
Ablösung von Lustre am LRZ Lustre im Betrieb seit 2005, letzte Version 1.6.* Keine zufriedenstellende Betriebsstabilität Diverse Bugs in Lustre (inkl. Datenkorruption) Insgesamt wenig Liebe zum Detail bei der QA in 1.6.* Schwieriges Lastprofil für ein paralleles Dateisystem Management-Tools und Features nicht zeitgemäß Datei -System ist leider nur ein Teil von Speicher -System Monitoring, HA, Datenintegrität, Support,... Kernel-Abhängigkeit behindert Sicherheitsupdates HPC-Hosting / Housing am Cluster für externe Kunden Anfang 2010: Umwidmung der Lustre-Hardware und Ersatz durch NAS-System 18
Neues System Technische Daten Cluster aus sechs NAS-Filern Netapp 3170 96 x 1 TB SATA - Disks pro Filer, insgesamt 288 Disks RAID DP (=analog zu RAID 6) Sechs 10 GigE-Interfaces zum Cluster Zwölf interne 10 GigE-Interfaces mit 2 Switches Stromverbrauch: ca. 2,2 kw pro Paar - insg. 6,6 kw Zum Vergleich bisheriges Lustre 12 Server mit 12x10 GigE-Interfaces Sechs RAID-Kontroller mit 104 300 GB FC-Disks jeder = 624 Disks Stromverbrauch ca. 18 kw 19
Netapp Ontap 8 Cluster Mode Klassische Netapp NAS-Filer Features WAFL-Dateisystem, NVRAM für geringe NFS-Latenz beim Schreiben + Ein Cluster mit Single Namespace und gemeinsamen Mgmt. Zuverlässiges HA-Failover mit jeweils zwei Filern als Paar Failover-Zeit ~60 Sekunden Datenintegrität Checksummen im Dateisystem, Disk- und Memory-Scrubbing Snapshots, asynchrone Replikation möglich Datenmigration von Volumes im laufenden Betrieb Auch zwischen verschiedenen Hardware-Modellen Thin-Provisioning 20
Single-Namespace NFS Single-Namespace Alle Datenbereiche ( Volumes ) im NAS-Cluster unter einem Einstiegspunkt sichtbar Analog wie Microsoft-DFS oder AFS Clientsicht NFS v3, keine Client-Software nötig Ein Clientrechner mountet genau einen Filer Round-Robin DNS für Lastverteilung Weiterleitung der Daten intern im NAS-Cluster Dediziertes Netzwerk Kostet etwas Performance 21
Single Namespace 22
Striped Volumes Normales Volume Daten liegen auf genau einem NAS-Filer Striped Volume Daten werden über mehrere Filer verteilt Jeweils eigenes Metadaten-Volume Ähnlich wie ein paralleles Dateisystem, aber Komplexität vollständig innerhalb des NAS-Clusters Ziel: Bessere Performance und mehr Kapazität Basis-Features wie Snapshots oder Replikation bleiben erhalten Werden aber für PTMP nicht genutzt Performance: 1.4 GB/s Schreiben, 2.2 GB/s Lesen unter Benchmarkbedingungen 23
Striped Volumes 24
Verteilte Metadaten-Server ( Acro ) Der Heilige Gral der verteilten Dateisysteme In Lustre seit Jahren auf der Roadmap Netapp hat eine Implementierung in Ontap 8.0 RC3 Ähnlich wie striped volume, aber verteilte Metadaten Leider kein offizielles Feature (mehr) Erstellen von Dateien (Dateien / Sekunde) 20 Clients Acro -Volume über 1...6 NAS-Filer verteilt 90000 80000 70000 60000 50000 40000 30000 20000 10000 0 1 2 3 4 5 6 Create Files/s Linear 25
Vielen Dank! 26