Erfahrungen mit InfiniBand. Forschungzentrum Karlsruhe, IWR-GES



Ähnliche Dokumente
Die Marvel, ein gedrosselter Supercomputer

InfiniBand Low Level Protocol

4D Server v12 64-bit Version BETA VERSION

5. PC-Architekturen und Bussysteme

Speichernetze (Storage Area Networks, SANs)

Konfigurationsanleitung Access Control Lists (ACL) Funkwerk. Copyright Stefan Dahler Oktober 2008 Version 1.0.

CHARON-AXP Alpha Hardwarevirtualisierung

Konfiguration von Igel ThinClients fu r den Zugriff via Netscaler Gateway auf eine Storefront/ XenDesktop 7 Umgebung

Systemanforderungen Verlage & Akzidenzdruck

Anleitung zur Nutzung des SharePort Utility

Storage Area Networks im Enterprise Bereich

Systemanforderungen Verlage & Akzidenzdruck

Systemanforderungen für MSI-Reifen Release 7

Systemanforderungen (Mai 2014)

High Performance Datenerfassung Tests am Beispiel WEGA

Blade Schulung Teil I, Systemhardware

Excel beschleunigen mit dem mit Windows HPC Server 2008 R2

QUICK INSTALLATION GUIDE

Oracle Real Application Clusters: Requirements

LOG-FT BAG Filetransfer zum Austausch mit dem Bundesamt für Güterverkehr (BAG) Kurzanleitung

Persona-SVS e-sync GUI/Client Installation

Switch 1 intern verbunden mit onboard NICs, Switch 2 mit Erweiterungs-NICs der Server 1..6

Agenda. Einleitung Produkte vom VMware VMware Player VMware Server VMware ESX VMware Infrastrukture. Virtuelle Netzwerke

Felix Großkreuz Philipps-Universität Marburg Fachbereich 12 Seminar IT-Administration SS2011

FTP-Leitfaden Inhouse. Benutzerleitfaden

Verfügbarkeit von Applikationen und Failover Szenarien. Winfried Wojtenek.

Freiberuflicher IT-Berater Schwerpunkte: Unix, Oracle, Netzwerk. Dipl.-Inform. Joachim Jäckel

Systemanforderungen ab Version 5.31

Vorstellung - "Personal Remote Desktop" für (fast) alle Hardwareplattformen und Betriebssysteme

Bei unserem letzten Ausflug in die Welt der Highend Mainboards konnten wir bereits feststellen das Intel seine Hausaufgaben gemacht hat.

FTA-400 File Transfer Appliance. File Transfer Appliance. Über Qiata. Key Features: Einfacher Dateitransfer

R-ADSL2+ Einrichthinweise unter Windows 98/ME

Formular»Fragenkatalog BIM-Server«

Installation USB-Modem unter Windows XP

Hardware- und Softwarevoraussetzungen

Lizenzen auschecken. Was ist zu tun?

Installationsvoraussetzungen

Systemvoraussetzungen

2. Braunschweiger Linux-Tage. Vortrag über RAID. von. Thomas King Braunschweiger Linux-Tage Seite 1/16

Preisvergleich ProfitBricks - Amazon Web Services M3 Instanz

Workshop: Eigenes Image ohne VMware-Programme erstellen

Windows Server 2008 (R2): Anwendungsplattform

Systemvoraussetzungen

Systemvoraussetzungen

Einrichtung des Cisco VPN Clients (IPSEC) in Windows7

Systemvoraussetzungen Stand

SolarWinds Engineer s Toolset

Paul Petzold Firmengründer, Verwaltungsratspräsident und Delegierter der Mirus Software AG

Virtuelle Maschinen. von Markus Köbele

ProSeminar Speicher- und Dateisysteme

Bluetooth Low Energy Demo mit dem Apple iphone 4s

Mit lebenslanger StarTech.com-Garantie sowie lebenslanger kostenloser technischer Unterstützung.

ORGA 6000 in Terminalserver Umgebung

Systemvoraussetzungen

Frederik Wagner Leibniz-Rechenzentrum der Bayerischen Akademie der Wissenschaften

Wir bringen Ihre USB Geräte ins Netz Ohne Wenn und Aber!

Systemvoraussetzungen

A1 Desktop Security Installationshilfe. Symantec Endpoint Protection 12.1 für Windows/Mac

Well-Balanced. Performance Tuning

Fluent auf Windows HPC Server ict ag - Mit uns können Sie rechnen

Versuch 3: Routing und Firewall

Dokumentation IBIS Monitor

PVFS (Parallel Virtual File System)

AbaWeb Treuhand. Hüsser Gmür + Partner AG 30. Oktober 2008

USB 2.0 PCI-Karte mit NEC CHIPSATZ

MATRIX FÜR HITACHI VIRTUAL STORAGE PLATFORM-PRODUKTFAMILIE

Hochleistungsrechnen mit Windows Interaktive Benutzung und das Batchsystem Christian Terboven Rechen- und Kommunikationszentrum RWTH Aachen

Websites mit Dreamweaver MX und SSH ins Internet bringen

Inhaltsverzeichnis. BüroWARE Systemanforderungen ab Version Generelle Anforderungen SoftENGINE BüroWARE SQL / Pervasive. 2

Firmware-Update, CAPI Update

PRODUKTINFORMATION LOCKING SYSTEM MANAGEMENT 3.3 BASIC BASIC ONLINE BUSINESS PROFESSIONAL STAND: FEBRUAR 2016

Herzlich Willkommen bei der nfon GmbH

1 Installation QTrans V2.0 unter Windows NT4

FastViewer Remote Edition 2.X

ONE Technologies AluDISC 3.0

Update / Inbetriebnahme domovea Server. Update/Inbetriebnahme domovea Server Technische Änderungen vorbehalten

Fragen zur GridVis MSSQL-Server

ABB i-bus KNX. Software-Information. Melde- und Bedientableau. Typ: MT 701.2

Hinweise zur Installation der USB Treiber für Windows XP 32bit

Systemanforderungen für MuseumPlus und emuseumplus

Systemvoraussetzungen

Inbetriebnahme Profinet mit Engineer. Inhaltsverzeichnis. Verwendete Komponenten im Beispiel:

Backup-Server einrichten

Systemvoraussetzungen winvs office winvs advisor

Digi Vox Ultimate Pro

Keep your SAN simple Spiegeln stag Replizieren

Embedded Linux, OpenWRT

How-to: Webserver NAT. Securepoint Security System Version 2007nx

3PAR STORESERV STORAGE. itelio Hausmesse 2014

PROVIGO MICROSOFT NAS 2170M

Erforderliche Änderung des Firewire (IEEE1394) Kartentreibers für die Kodak Scanner i600/i700/i1800 unter Microsoft Windows 7

Monitoring - Vorher Wissen was passieren wird

ERPaaS TM. In nur drei Minuten zur individuellen Lösung und maximaler Flexibilität.

Review Intel Cedar Trail (D2500HN, D2500CC, D2700DC, D2700MUD, DN2800MT)

Installation OMNIKEY 3121 USB

KURZANLEITUNG CYBERDUCK MIT CLOUD OBJECT STORAGE

Dr. Joerg Schulenburg, URZ-S. Tel QEMU Virtualisierung und Prozess-Emulation

Installationsanleitung für das Touch Display: S170E1-01 LCD A170E1-T3 ChiMei - egalaxy

Speichermanagement auf Basis von Festplatten und optischer Jukebox

Transkript:

Erfahrungen mit InfiniBand (, IWR) Technologie, Markt vom Testsystem (Jan. 2003) zum IWARP Cluster Vorläufige Ergebnisse mit den ersten drei Testrechnern MPI Latenzzeit und Bandbreite Eigenentwicklungen: direkte Messung der Latenzzeit schnelle Dateitransfers mit RFIO Erfahrungen Ausblick http://www.fzk.de/infiniband

Was ist InfiniBand? A fast interconnect technology with open specifications Schlüsseleigenschaften: kanalorientiertes geswitchtes Netzwerk niedriger Latenz Kupfer oder optische Verbindungen Geschwindigkeiten 2.5, 10 or 30 GBit/s (1x,4x,12x) (un)reliable and (un)connected Datentransfers RDMA fähig redundante Anbindungen möglich ein einziges Netzwerk für HTC and HPC Anwendungen Anmerkungen: reliable connections: Hardware ist für Datenintegrität zuständig RDMA: Remote Direct Memory Access TeraScale System/Virginia (No. 3 der 500 Liste) basiert auf InfiniBand (TM)

Programmierung der Hardware: VERBS Spezifikationen definieren Software Layer zur Programmierung lediglich Funktionsklassen und ihre Funktionsweise werden definiert jeweilige Implementierung dieser VERBS ist herstellerspezifisch Kanalorientierung: getrennte Queues zum Senden und Empfangen

Kanalorientierte Verbindungen: Queues und Queue Pairs Work Requests gehen in Work Request Queues (WRQ) zu jeder WRQ gehört eine Completion Queue (CQ) Hardware erzeugt Einträge in der CQ Warteschlangen für Senden und Empfangen sind getrennt Je zwei Warteschlangen bilden einen QP (Queue Pair) Transporttyp ist (RC, UC etc) ist eine Eigenschaft der QP

Connections: Queue pair Konzept a QP is associated with one (or more) remote QP's the send queue talks to the receive queue of the remote QP and vice versa error events occure as CQE (taken from IBTA InfiniBand Specifications)

Queue Status: Überblick (aus Spezifikationen) QP Creation

upper level protocols (snapshot) Hardwaretreiber für verschiedene Architekturen und Betriebssysteme (IA32, IA64, X86_64, PowerPC OS: Linux und Windows) Fabric Manager: mehrere Implementierungen, MiniSM, OpenSM... IPoIB : Emulation von Ethernet Schnittstellen SRP : SCSI RDMA Protokoll: Blockorientierte Massenspeicherverwaltung MPI : mehrere InfiniBand Implementierungen, u.a. Ohio State University SDP : Socket Direct Protocol NFS über RDMA : (selbsterklärend). DAFS, DAPL, und andere... http://openib.org http://infiniband.sourceforge.org

Marktsituation Chips für Host Channel Adapter: Mellanox(4x), Intel (1x),... Switch Chips: Mellanox, Agilent/RedSwitch,... 4x HCA's von verschiedenen Anbietern (meist mit Mellanox Chipsatz) Preise: fallende Tendenz, nach Rabatten fragen lohnt sich Switches: 4x, neuerdings mit 12x Ports, bis >100 Ports pro Switch HCA's: 2Ports mit je 4x, 133MHz 3.3V PCI-X, full und low profile boards (nur ein Port in eine Richtung voll nutzbar!) neuerdings: HCA's (2 4x Ports) für PCI-Express Kupfer, neuerdings auch optische Verbindungen erhältlich (teuer)

Infiniband-Projekt des IWR: Fabric Setup (seit Jan.2003) Infiniband Fabric Hardware: Infiniband Fabric Software: InfinIO 7000 chassis mit 4X Backplane ICS firmware version 1.1 4X Switch Modul, 6 externe Ports 2 Port 2Gb FC auf Infiniband Modul (TCA) MiniSM/ICS/Lane15 SM im Test ICS InfiniView Chassis 3 Port 1Gb-Ethernet auf Infiniband Modul (TCA) Hersteller: InfiniCon Systems Kontrollprogramm

Ergebnisse mit dem ersten Testsystem: Dual Xeon 2.4 GHz 512MB und 1 GB RAM Tyan Thunder i7500 and Tiger i7501 Boards Intel E7500/E7501 chipset Fast (i82550) and Gb(i82544GC) Ethernet PCI-X 133MHz 3.3V 3 InfiniServ 7000 HCA's 1 Mellanox Cougar HCA Software: RH Linux 7.3 Kernel 2.4.18-27.7x with Lustre Patches ICS InfiniHost 1.1beta ICS subnet manager ICS MPI ausgestellt am Linuxtag 2003 in Karlsruhe Mellanox SDK 0.120 and 0.20 MPICH 1.2.2.2 (Ohio-State Univ. 0.91)

Latenzzeit mit OSU MPI Testprogramm ICS MPI, basiert auf MPICH 1.222 OSU, ICS Infiniband Treiber Vergleich mit on-board GE (Switched) GigaBit Ethernet: etwa 60μs (30μs vom Switch) Infiniband : ca. 7μs Preliminary (auf IA64 und X86_64: Latenzzeit 5.5-6μs)

Bandbreitenmessung mit OSU MPI Testprogrammen ICS MPI, basiert auf MPICH 1.222 OSU ICS Infiniband Treiber Vergleich mit GE (switched) GigaBit Ethernet: bis zu 60MB/s Infiniband : bis zu 780MB/s (x86_64: bis 830MB/s) Preliminary

Eigenentwicklung: Latenzzeitmessungen Idee: direkte Messung der Signallaufzeit t2 t1 Erfordert exakte Synchronisation der Systemuhren

One way Latency Vergleich GE and Infiniband Preliminary Preliminary

Weiterer Testsystem Ausbau: IWARP Projekt Projektziele: Skalierbarkeitstudien Prototyp für größere Installation Benutzerbetrieb als MPI Parallelrechencluster Testsystem für Eigenentwicklungen

Weiterer Testsystem Ausbau: IWARP Cluster Projekt Hardware setup: 13 Rechenknoten, 2.4GHz Dual Xeon, 533MHz FSB, Supermicro Boards 1HE, PCI-X 133MHz 64Bit (3.3V) Slot mit Riser Card Je 2 GB Hauptspeicher, 60GB IDE local disk InfiniCon InfiniServ7000 4X Infiniband-Karten Status: 16 Port Mellanox Switch (Referenzdesign) Seit September in Betrieb Erste Tests: MM5, HPL Benchmark, Lattice QCD

IWARP Test Cluster Projekt Cluster-Setup: Installation der Rechenknoten mit LCFGng LCFGng Server in User-Mode-Linux Umgebung Rechenknoten in privatem Netzwerk (FE und IPoIB) Zugang nur über Vorrechner Open-PBS, Ganglia Monitoring Software Konfiguration: Kernel Vanilla 2.4.25 Mellanox OS-SDK, MiniSM, OpenSM (Test) MPI OSU 0.92 mit IFC (FuL) und GCC InfiniBand-RFIO (Eigenentwicklung) NFS home directories (über fast-ethernet)

Überblick Hardware 13x Dual Xeon 2.4GHz Knoten 16 port 4x-InfiniBand Switch (Mellanox) Vorrechner (IWARP) für logins InfinIO-7000 (FC, GE, Switch) 2x IDE RAID Systeme mit 2GB FC Testknoten (Dual Xeon 2.4GHz) Schrankmanager/Subnetmanagerknoten

Erfahrungen: MPI: HPL Benchmark (26 CPU's) 92 GFlops ca. 74% der theoretischen Performance gute Skalierbarkeit Hardware: kleinere Kabelprobleme (gelöst) bislang keine Probleme/Ausfälle aufgetreten Treibersoftware: Inzwischen OpenSource (BSD oder GPL)

HPL Benchmark: 92.6 Gflop/s R max / Rpeak = 74% ============================================================================ T/V N NB P Q Time Gflops ---------------------------------------------------------------------------W10R2C4 46000 96 2 13 700.66 9.262e+01 --------------------------------------------------------------------------- Ax-b _oo / ( eps * A _1 * N ) = 0.0012610... PASSED Ax-b _oo / ( eps * A _1 * x _1 ) = 0.0027576... PASSED Ax-b _oo / ( eps * A _oo * x _oo ) = 0.0005016... PASSED ============================================================================

Eigenentwicklung: rfio über Infiniband RFIO: effizientes Protokoll für Zugriff auf Files auf entfernten Rechnern entwickelt am CERN (seit 1990, SHIFT Projekt) heute Teil des CASTOR (HSM System) Projekt Idee: Verwendung von RDMA und RC Technik zur Datenübertragung Adressierung/Kontaktaufbau weiterhin über Ethernet (Transparenz!) Zusammenarbeit mit CERN (Gruppe Ari van Praag) und CASTOR Entwickler Vorteile: Transparent für Anwender Nutzung bereits bestehender Interfaces zu Programmen wie ROOT

Erste Ergebnisse (ACAT03) Netz+Overhead Datei im Cache ->/dev/null

Messergebnisse: (rfcp Dateitransfers) RDMA raw performance: ca. 780MB/s remote read (Netzwerk + RFIO Overhead): ca.: 550MB/s remote read (Cached -> /dev/null) echte Transfers: : ca.: 300MB/s limitiert durch Plattenperformance (ca. 120MB/s) GE: immer limitiert durch Netzwerkperformance Interpretation: Netzwerk (InfiniBand) KEIN Flaschenhals mehr! sehr niedrige CPU Last insbesondere bei grossen Dateien Speicheranbindung im XEON Rechner ist Flaschenhals Ergebnisse vom CERN auf Itanium2 (gleicher Code): Cached->/dev/null 580MB/s

Vergleich mit 10 Gbit/s Ethernet: A.Horvath, CERN 10GE heavy tuning Parameter: ifconfig eth2 mtu 9000 sysctl sysctl sysctl sysctl sysctl sysctl sysctl sysctl sysctl sysctl sysctl -w -w -w -w -w -w -w -w -w -w -w net.ipv4.tcp_sack=0 net.ipv4.tcp_timestamps=0 net.core.rmem_max=524287 net.core.wmem_max=524287 net.core.optmem_max=524287 net.core.netdev_max_backlog=300000 net.ipv4.tcp_rmem="10000000 10000000 10000000" net.ipv4.tcp_wmem="10000000 10000000 10000000" net.ipv4.tcp_mem="10000000 10000000 10000000" net.ipv4.tcp_tw_recycle=1 net.ipv4.tcp_tw_reuse=1

rfcp: READ Performance Vergleich mit 4x (10Gb/s) IBA mit 10GE preliminary Credits: A. Horvath (CERN)

rfcp: READ Performance Vergleich mit 4x (10Gb/s) IBA mit 10GE preliminary Credits: A. Horvath (CERN)

rfcp: WRITE Performance Vergleich mit 4x (10Gb/s) IBA mit 10GE preliminary Credits: A. Horvath (CERN)

rfcp: WRITE Performance Vergleich mit 4x (10Gb/s) IBA mit 10GE preliminary Credits: A. Horvath (CERN)

Einige Erfahrungen Probleme mit einigen Kabeln PCI-X (133MHz) über Risercard können nicht alle Boards MPI über SMP könnte besser sein Lizenzpolitik war ziemliches Ärgernis für Eigenentwicklungen und Kernelupdates Seit Umbau im Winter läuft IWARP stabil und ohne größere Probleme Performance bei User-Applikationen: Lattice QCD Applikationen teilweise sehr schöne Skalierbarkeit andere (parform) nicht so toll (wird untersucht) MM5 Benchmark: erste Tests ok, sollte wiederholt werden

Lizenzpolitik: bislang restriktive Lizenzpolitik einiger Hersteller (NDA etc) inzwischen OS Versionen fast aller Hersteller erhältlich starke Unterstützung für InfiniBand SF Projektes und openib.org Bespiel: Mellanox SDK unter Wahlweise GPL oder BSD Lizenz ftp://ftp.mellanox.com

IWARP als PC Cluster im CampusGrid IWARP Cluster Projekt wird in den Userbetrieb überführt erreichbar innerhalb des CampusGrid Projektes für MPI Jobs derzeit 24 CPU's (12 Knoten) im Betrieb Umbau und Umzug sind abgeschlossen Ausblick: Aufbau eines Opteronclusters mit InfiniBand im CampusGrid

Zusammenfassung zukunfsweisende, offene Technologie RDMA mit 10GB/s schon jetzt zu erschwinglichen Preisen 12x (30GB/s) und optische Verbindungen bald erhältlich Kinderkrankheiten sind vorhanden, werden aber weniger Hemmschuh Lizenzpolitik erledigt