Zukünftige Entwicklungen

Ähnliche Dokumente
CLAIX Vorstellung und Technik Christian Terboven

Speicherklassen außerhalb des Arrays. Dr. Carsten Haak ESD Practice Manager EMEA EMC Corp.

Einleitung Architektur Schnittstellen Dateisysteme 3D XPoint im Vergleich Zusammenfassung Literatur. 3D XPoint. Patrick Wittke

HYPER-CONVERGED INFRASTRUCTURE. Höhere Performance Reduzierte Ausfallzeiten Verbesserte Auslastung Niedrigere Kosten

Big Data Mythen und Fakten

WISSENSWERTES ÜBER WINDOWS SCALE-OUT FILE SERVER

Dateisysteme und Datenverwaltung in der Cloud

Fast Analytics on Fast Data

Parallele verteilte Dateisysteme

Top 3 Herausforderungen bei der forensischen Analyse von macos

BIG UNIVERSITÄTSRECHENZENTRUM

Neues aus der nicht-, semi- und relationalen Welt

Seminarvortrag: Direktivenbasierte Programmierung von Beschleunigern mit OpenMP 4.5 und OpenACC 2.5 im Vergleich

Hochleistungsrechnen in Darmstadt: Der Lichtenberg- Hochleistungsrechner. Dr. Andreas Wolf. Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum

Wenn Sie es damals gewusst haben was wissen Sie heute. Das Warum, Was und Wer von horizontal skalierbarem Speicher

RavenDB, schnell und skalierbar

Die Sicht eines Sysadmins auf DB systeme

Verteilte Betriebssysteme

Automatisierung, Virtualisierung & Management Es muss nicht immer VMware sein

Copyright 2015 DataCore Software Corp. All Rights Reserved. 1

ein verteiltes und repliziertes Dateisystem XtreemOS IP project is funded by the European Commission under contract IST-FP

Storage as a Service - STaaS

ODA Erfahrungen und Neuigkeiten

Neue Speichermedien für Datenbanken

Storage-Trends am LRZ. Dr. Christoph Biardzki

Das Prinzip der kleinsten Überraschung Konfiguration des neuen HPC-Clusters am RRZ

HLRN III - HPC Ressource für Norddeutschland

Mehrprozessorarchitekturen

Ausblick auf den HLRN III - die neue HPC Ressource für Norddeutschland

Lehrveranstaltung Speichersysteme Sommersemester Kapitel 13: Parallele Dateisysteme. André Brinkmann

Erfahrungen mit parallelen Dateisystemen

Protected User-Level DMA in SCI Shared Memory Umgebungen

NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE

Hochverfügbare Virtualisierung mit Open Source

Speichergeräte und -verbünde

Big Data in der Forschung

Hochleistungs-Disk-I/O

Oracle Database Appliance und Virtualisierung: OVM oder KVM?

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen.

Einführung in Hauptspeicherdatenbanken

1. Übersicht Public Cloud Anbieter (PaaS und IaaS)


Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Was ist Windows Azure? (Stand Juni 2012)

Konzepte und Methoden der Systemsoftware. Aufgabe 1: Polling vs Interrupts. SoSe bis P

Datenverwaltung in der Cloud. Überblick. Google File System. Anforderungen der Anwendungen an das Dateisystem

Software Defined Storage

In heutigen Computern findet man schnellen/teuren als auch langsamen/billigen Speicher

Frederik Wagner Leibniz-Rechenzentrum der Bayerischen Akademie der Wissenschaften

DIGITALISIERUNG. Smart EcoSystem

Oracle Automatic Storage Management (ASM) Best Practices

Roadshow - What s new in SQL Server 2016

5.1 Verteilung von Aktualisierungshinweisen

Amazon S3 - Daten in den Wolken

Symposium on Scalable Analytics. Skalierbare Analysen mit EXASolution

Die Marvel, ein gedrosselter Supercomputer

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Einfu hrende Betrachtung des USB und Mo glichkeiten der Integration in das Rainbow-Betriebssystem. Georg Gottleuber 23. Juni 2010 Verteilte Systeme

Storage News wie viele IOPS sind zeitgemäß? Mathias Riediger & Sven Willholz Systems Engineering

Oracle Bare Metal Cloud Service

Schneller als Hadoop?

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

actinas Cube 3.0 RDX

5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)?

Ist nur Appliance ODA schon Rechenzentrum in der Kiste?

Dokumentenorientierte Datenbanken - MongoDB

Veeam und Microsoft. Marco Horstmann System Engineer, Veeam

ORACLE PROZESSARCHITEKTUR J O N N Y R I L L I C H

Open Telekom Cloud. Use Cases Retail

Titelmasterformat durch Klicken bearbeiten

LEISTUNGSVERGLEICH VON FPGA, GPU UND CPU FÜR ALGORITHMEN ZUR BILDBEARBEITUNG PROSEMINAR INF-B-610

Betriebssysteme I WS 2017/18. Prof. Dr. Dirk Müller. 05a 64-/32-Bit-Architekturen

Lizenzkosten im Griff mit der richtigen Hardware-Strategie

VTL oder Storage Pools? Ein Vergleich von VTL Produkten mit TSM Basis Funktionen. Martin Mrugalla

Kostengünstige Virtuelle Speicher-Pools im Petabyte-Bereich mithilfe von MARS. GUUG 2017 Vortrag von Thomas Schöbel-Theuer

CPU-Caches. Christian Duße. Seminar Effiziente Programmierung in C

ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS. Sascha Kath

Möglichkeiten für bestehende Systeme

Die wichtigsten Funktionen von Red Hat Storage Server 2.0 im Überblick:

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Hochverfügbarkeit mit Data Guard Möglichkeiten und Grenzen

3 MILLIARDEN GIGABYTE AM TAG ODER WELCHE KAPAZITÄTEN MÜSSEN NETZE TRAGEN?

RST-Labor WS06/07 GPGPU. General Purpose Computation On Graphics Processing Units. (Grafikkarten-Programmierung) Von: Marc Blunck

Information Lifecycle Management (ILM) - neue Speicherkonzepte für die digitale Archivierung. Dr. Bernhard Wentz

Grundlagen Internet-Technologien INF3171

Die nächste Storage Generation Vorteile und Änderungen mit 12Gb/s SAS von Avago Storage Dominik Mutterer, Field Application Engineer

M5000 einfach ablösen durch T4/T5 LDoms und Solaris Zonen

FLASHRECOVER SNAPSHOTS. Sofortige, unlimitierte Snapshots, speziell für 100 % Flash-Speicherung

Überblick. Multi-Cloud Computing Motivation Redundant Array of Cloud Storage (RACS) Zusammenfassung. c td MWCC (WS14/15) Multi-Cloud Computing 13 1

WILLKOMMEN Quantum ist der weltweit GRÖSSTE Spezialist für Backup, Recovery und Archivierung von Daten.

Version Handbuch RAMSyncDrive V 1.0

Q5 AG Q5 AG S T O R A G E N EU D E F I N I E R T. Das Q5 Team begrüsst Sie zum Storage Innovation Spotlight 2014,mit dem Thema:

ZFS Filesystem und KVM-Virtualisierung

Persönlichkeiten bei bluehands

Analyse von Synchronisation

Optimieren Sie Ihre Speicherinfrastruktur mit intelligenter Storage Management Software

BSD Alternativen zu Linux

Transkript:

Zukünftige Entwicklungen Hochleistungs-Ein-/Ausgabe Michael Kuhn Wissenschaftliches Rechnen Fachbereich Informatik Universität Hamburg 2016-07-01 Michael Kuhn Zukünftige Entwicklungen 1 / 36

1 Zukünftige Entwicklungen Motivation Hardware Zusammenfassung 2 Michael Kuhn Zukünftige Entwicklungen 2 / 36

Motivation Exascale Supercomputer werden immer leistungsfähiger Speichersysteme werden immer größer Höhere Anforderungen durch hohe Prozesszahlen Häufig eine Datei pro Prozess TaihuLight besitzt über 40.000 Knoten Mehr als 10.000.000 Kerne POSIX immer noch weit verbreitet Strikte Kohärenzanforderungen Globale Sichtbarkeit aller Änderungen Immer weiter wachsende Datenmengen Supercomputer haben mehr als 1 PB RAM Bei 1 TB/s mehr als 15 Minuten für einen Checkpoint Michael Kuhn Zukünftige Entwicklungen 3 / 36

Hardware Speicherhierarchie Aktueller Stand L1-, L2-, L3-Cache, RAM, SSD, HDD, Band Große Latenz-Lücke zwischen RAM und SSD Hohe Leistungsverluste sobald Daten nicht im RAM liegen Overhead durch das Netzwerk ist noch nicht eingerechnet Lücke ist auf Supercomputern besonders offensichtlich Knotenlokal im RAM oder im parallelen verteilten Dateisystem Neue Technologien sollen die Lücke schließen NVRAM, 3D XPoint etc. Dadurch eventuell auch zusätzliche Stufen im Supercomputer Michael Kuhn Zukünftige Entwicklungen 4 / 36

Hardware Speicherhierarchie... Bisher ein Faktor von 1.000 zwischen RAM und SSD Stufe Latenz L1-Cache 1 ns L2-Cache 5 ns L3-Cache 10 ns RAM 100 ns NVRAM 1.000 ns 3D XPoint 10.000 ns SSD 100.000 ns HDD 10.000.000 ns Band 50.000.000.000 ns Tabelle: Latenzen [5, 4] Michael Kuhn Zukünftige Entwicklungen 5 / 36

Hardware Speicherhierarchie... Abbildung: Latenzen [5, 8] Michael Kuhn Zukünftige Entwicklungen 6 / 36

Hardware Speicherhierarchie... Abbildung: Aktuelle und zukünftige Speicherhierarchie [1] Michael Kuhn Zukünftige Entwicklungen 7 / 36

Hardware Exascale [2] E/A-Knoten mit Burst Buffern nahe an Rechenknoten Langsameres Speichernetzwerk zu Dateisystem-Knoten Michael Kuhn Zukünftige Entwicklungen 8 / 36

Hardware Exascale... E/A-Knoten können zusätzliche Aufgaben übernehmen Auslagerung von Berechnungen und Transformationen Umsortieren und Zusammenfassen der E/A-Anfragen Umorganisation der Daten Z. B. explizites Speichern von Unterdatenmengen Dafür aber Wissen über Datenformat notwendig Je näher an den Rechenknoten, desto mehr Rechenleistung Andererseits müssen Daten zuerst übertragen werden Michael Kuhn Zukünftige Entwicklungen 9 / 36

Hardware Burst Buffer E/A-Verhalten ist meist nicht gleichmäßig Anwendungen rechnen, schreiben dann gemeinsam Checkpoint Hohe E/A-Last während Checkpoint, danach deutlich weniger Lastspitzen bremsen Anwendungen aus Mehrere Anwendungen schreiben gleichzeitig Speichersysteme oft unterdimensioniert Koordination zwischen Anwendungen nicht gegeben Könnte genutzt werden, um Last auszugleichen Ist allerdings auch schwierig zu realisieren Hohe Kosten, um Durchsatz bereitzustellen HDDs für Kapazität, SSDs für Durchsatz Außerdem beschränkt durch das Netzwerk Michael Kuhn Zukünftige Entwicklungen 10 / 36

Hardware Burst Buffer... [7] Michael Kuhn Zukünftige Entwicklungen 11 / 36

Hardware Burst Buffer... [6] Michael Kuhn Zukünftige Entwicklungen 12 / 36

Hardware Burst Buffer... [6] Michael Kuhn Zukünftige Entwicklungen 13 / 36

Hardware Burst Buffer... Hohe Kosteneinsparungen möglich E/A-System muss nicht mehr für Lastspitzen ausgelegt werden Dadurch ist u. U. ein kleineres Speichersystem ausreichend Eventuell können langsamere Technologien genutzt werden Ethernet statt InfiniBand 5.400 RPM statt 7.200 RPM Insgesamt erhöht sich die Ausnutzung der Hardware Burst Buffer absorbieren auch ungünstige E/A problemlos E/A wird aufbereitet an das Speichersystem weitergegeben Michael Kuhn Zukünftige Entwicklungen 14 / 36

Hardware Beschleuniger Zusätzliche Berechnungen teilweise aufwendig Deduplikation, Kompression etc. GPUs ungeeignet, da PCIe-Bus die E/A beschränkt Maximal 16 GB/s In Zukunft eventuell interessant Seit Haswell QuickAssisst mit DEFLATE und LZS Xeon Phi in Zukunft gesockelt, direkt am RAM angebunden Michael Kuhn Zukünftige Entwicklungen 15 / 36

Lustre [1] Das klassische parallele verteilte Dateisystem gilt als überholt Teile davon sollen als Basis für zukünftige Systeme dienen Außerdem momentan einzige verfügbare Lösung Für Lustre ist eine Vielzahl neuer Funktionen geplant Verschlüsselung Kompression Komplexe Dateilayouts Weitere E/A-Optimierungen Michael Kuhn Zukünftige Entwicklungen 16 / 36

Lustre... [1] Verschlüsselung zunehmend wichtig Regierungen, Militär etc. Mehrere Zugriffsstufen Frei zugänglich, vertraulich, geheim, streng geheim Kein Datentransfer zwischen unterschiedlichen Stufen Authentifizierung und Autorisierung Z. B. via Kerberos Verschlüsselung der Kommunikation Und in Zukunft auch der persistenten Daten Michael Kuhn Zukünftige Entwicklungen 17 / 36

Lustre... [1] Unterschiedliche Anforderungen an Dateiverteilung Kleine Dateien nur auf wenige OSTs Große Dateien auf möglichst viele Automatische Anpassung der Streifenparameter Michael Kuhn Zukünftige Entwicklungen 18 / 36

Lustre... [1] Replikation von Dateien Kann pro Datei festgelegt werden High Availability, Robustheit, höhere Lesegeschwindigkeit, Migration zwischen Speicherklassen etc. Michael Kuhn Zukünftige Entwicklungen 19 / 36

Lustre... [1] Daten kleiner Dateien werden direkt auf dem MDT gespeichert Spart Kommunikation mit OSTs Erlaubt diverse Optimierungen wie z. B. Readahead MDTs sind üblicherweise für kleine Anfragen optimiert Große Anfragen werden weiterhin über OSTs abgewickelt Daten müssen u. U. migriert werden, wenn Dateien wachsen Michael Kuhn Zukünftige Entwicklungen 20 / 36

Lustre... [1] Metadatenoperationen sind typischerweise klein Verursachen daher viel Netzwerk-Overhead Ein Cache erlaubt das Zusammenfassen mehrerer Operationen Nur mit Sperren möglich, da sonst Konflikte auftreten können Z. B. kann ein Verzeichnis gesperrt werden und darin viele Dateien angelegt werden Michael Kuhn Zukünftige Entwicklungen 21 / 36

POSIX POSIX stellt aber immer noch eine Limitierung dar POSIX ist portabel, schränkt aber Leistung ein Einige Alternativen MPI-IO meist aber doch auf POSIX Häufig POSIX-Dateisysteme auf unterster Ebene Abkehr von POSIX Object Stores oft ausreichend Häufig Einschränkungen einiger Garantien Michael Kuhn Zukünftige Entwicklungen 22 / 36

POSIX... Keine globale Kohärenz mehr Stattdessen nicht-kohärente Zonen Zum Beispiel durch Burst Buffer oder Forwarder Beispiel: Cache-Domains in BeeGFS Anwendungen laufen in unterschiedlichen Domänen Daten werden zuerst in nicht-kohärenten Cache geschrieben Caches befinden sich beispielsweise auf lokalem NVRAM Daten werden aus Cache in Dateisystem migriert Michael Kuhn Zukünftige Entwicklungen 23 / 36

POSIX... [3] Michael Kuhn Zukünftige Entwicklungen 24 / 36

DAOS Ganzheitlichere Ansätze in Arbeit Distributed Application Object Storage (DAOS) DAOS unterstützt mehrere Speichermodelle Container: eine Menge von Shards Shard: eine Menge von Objekten Objekt: Key-Value-Speicher Unterstützung für Versionierung Operationen werden in Transaktionen durchgeführt Transaktionen werden als Epochen persistiert Ausnutzung moderner Speichertechnologien Michael Kuhn Zukünftige Entwicklungen 25 / 36

DAOS... E/A-Granularität problematisch Momentan 1 MiB, bald 16 MiB Dadurch mehr Konflikte und Sperren notwendig Bedingt durch darunterliegende Speichermedien 3D XPoint bietet bytebasierten Zugriff Michael Kuhn Zukünftige Entwicklungen 26 / 36

DAOS... [2] Üblicherweise synchrone E/A Anwendungen werden durch den langsamsten ausgebremst Ähnliches Problem bei kollektiver Kommunikation E/A-Schwankungen sind der Normalfall Speichersystem ist eine geteilte Ressource Selten Quality of Service oder andere Garantien Michael Kuhn Zukünftige Entwicklungen 27 / 36

DAOS... [2] E/A sollte komplett asynchron stattfinden Dadurch keine Wartezeiten mehr Frage: Wann ist die Datei konsistent? Prozess könnte nächste Iteration schreiben während andere Prozesse noch mit der vorherigen beschäftigt sind Michael Kuhn Zukünftige Entwicklungen 28 / 36

DAOS... [2] Lösung: Transaktionen bzw. Epochen Operationen finden in Transaktionen statt Mehrere Transaktionen können zu einer Epoche zusammengefasst werden Epochen sind global konsistente Schnappschüsse Epochen werden pro Objekt vergeben Dadurch keine Kohärenzprobleme beim Lesen Michael Kuhn Zukünftige Entwicklungen 29 / 36

DAOS... [2] Native Unterstützung für HDF5 HDF-Datenstrukturen werden direkt in DAOS-Objekte überführt Dadurch z. B. Umorganisation der Daten für effizienten Zugriff Unterstützung für unterschiedliche Anwendungen POSIX für Legacy-Anwendungen Big-Data-Formate für MapReduce etc. Michael Kuhn Zukünftige Entwicklungen 30 / 36

Big Data Big Data wird immer wichtiger Häufig leistungstechnisch suboptimal Hadoop nutzt normalerweise HDFS Daten werden auf lokale Speichergeräte kopiert Kommunikation über HTTP Zunehmend Unterstützung für Big-Data-Anwendungen Lustre, OrangeFS etc. Michael Kuhn Zukünftige Entwicklungen 31 / 36

Big Data... Andererseits interessante Ansätze aus dem Big-Data-/Cloud-Umfeld Elastizität zur dynamischen Anpassung des Dateisystems Zuschalten von zusätzlichen Dateisystem-Servern bei Bedarf Nutzung von Object Stores Viele Anwendungen benötigen keine POSIX-Dateisysteme MPI-IO-Funktionalität kann auf Object Stores abgebildet werden Michael Kuhn Zukünftige Entwicklungen 32 / 36

Zusammenfassung Zusammenfassung Neue Hardware-Technologien werden den E/A-Stack verändern Neue Hierarchieschichten durch NVRAM und 3D XPoint Systeme werden dadurch komplexer und leistungsfähiger Gleichzeitig sind Kosteneinsparungen möglich Datentransformationen immer weiter verbreitet (Kompression) Die aktuelle E/A- wird grundlegend überarbeitet High-Level-Schnittstellen für Anwendungen POSIX schränkt Leistung ein und wird nicht mehr benötigt Neue Ansätze aus Datenbanken und Big Data Michael Kuhn Zukünftige Entwicklungen 33 / 36

1 Zukünftige Entwicklungen Motivation Hardware Zusammenfassung 2 Michael Kuhn Zukünftige Entwicklungen 34 / 36

I [1] Brent Gorda. HPC Storage Futures A 5-Year Outlook. http://lustre.ornl.gov/ecosystem-2016/ documents/keynotes/gorda-intel-keynote.pdf. [2] Brent Gorda. HPC Technologies for Big Data. http://www.hpcadvisorycouncil.com/events/ 2013/Switzerland-Workshop/Presentations/Day_ 2/3_Intel.pdf. [3] DEEP-ER. DEEP-ER. http://www.deep-er.eu/. [4] Jian Huang, Karsten Schwan, and Moinuddin K. Qureshi. Nvram-aware logging in transaction systems. Proc. VLDB Endow., 8(4):389 400, December 2014. Michael Kuhn Zukünftige Entwicklungen 35 / 36

II [5] Jonas Bonér. Latency Numbers Every Programmer Should Know. https://gist.github.com/jboner/2841832. [6] N. Liu, J. Cope, P. Carns, C. Carothers, R. Ross, G. Grider, A. Crume, and C. Maltzahn. On the role of burst buffers in leadership-class storage systems. In 012 IEEE 28th Symposium on Mass Storage Systems and Technologies (MSST), pages 1 11, April 2012. [7] Mike Vildibill. Advanced IO Architectures. http://storageconference.us/2015/ Presentations/Vildibill.pdf. [8] N/A. Latency Numbers Every Programmer Should Know. http://i.imgur.com/k0t1e.png. Michael Kuhn Zukünftige Entwicklungen 36 / 36