Netzwerke Teil 2. Dr. Victor Pankratius David J. Meder. IPD Tichy Lehrstuhl für Programmiersysteme

Netzwerke Teil 2 Dr. Victor Pankratius David J. Meder IPD Tichy Lehrstuhl für Programmiersysteme KIT die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH)

Vorlesung Rechnerbündel Architektur von Rechnerbündeln Hochgeschwindigkeitsnetzwerke Netztopologie Vermittlungstechnik Myrinet Infiniband SCI Hochgeschwindigkeitskommunikation 2

Myrinet-2000 ANSI/VITA Standard Weniger Protokoll-Overhead als z.b. Ethernet Übertragungsleistung 2 Gbit/s jeweils für Senden+Empfangen, voll duplex 2.6µs-3.2µs Latenz auf MPI-Ebene Topologie beliebig, CBB-Netz bevorzugt Paketvermittlung, Wormhole, Source Routing Kupfer (8+1 Bit parallel) oder Glasfaserverkabelung Flusskontrolle auf jeder Verbindung Adapterkarten frei programmierbarer RISC-Prozessor 333 MHz, PCI und PCI-X Anschluss, bis zu 133 MHz, 64-Bit, 8 GBit/s Bandbreite über PCI-X Bus unidirektional 2 MByte Speicher Wird in den letzten Jahren aus Top500.org verdrängt VITA: VME bus International Trade Association http://www.vita.com/ 3

Myrinet CBB-Netz (128 Knoten) 16x16 Kreuzschiene Quelle: Guide to Myrinet-2000, Aug, 2001 4

PCI-Brücke Myrinet PCI-Bus-Adapter Netzwerk- Kabel Netz- DMA 2 MB SRAM Netzschnittstelle Host- DMA LanAI CPU 2MB SRAM PCI (-X)-Brücke, 64 Bit, 66-133 MHz LanAI RISC, 333 MHz 2 LWL-Anschlüsse, beide duplex Quelle (Bild): http://www.myri.com/myrinet/pcix/m3f2-pcixe.html 5

Myrinet 16x16 Kreuzschiene 8 Rechner werden vorne angeschlossen (je 2 Kanäle) Hinten 8 Ausgänge (2 Kanäle) zur nächsten Ebene des CBB-Netzes. Auch 32x32 Kreuzschiene erhältlich. Quelle (Bild): http://www.myri.com/myrinet/m3switch/m3-sw16-8f/index.html 6

128-Knoten CBB-Vermittlungsnetz Baustein von vorhin An der Hinterwand liegt eine Platine, die die Bausteine untereinander verbindet (vertikal, 2. Ebene) Quelle (Bild): Myri.com 7

Myrinet 256+256-CBB-Netz Vermittlungsnetz mit Bisektionsbreite 256. Vorne 256 Anschlüsse für Rechner. Hinten 256 Anschlüsse für andere Vermittlungseinheiten (z.b. nächste Ebene im CBB-Netz). Quelle (Bild): http://www.myri.com/news/041021/ 8

CBB-Netze mit voller Bisektionsbreite 64 Knoten 32 Knoten 9

Myrinet: Paketvermittlung Abstand Pfad Paketkopf Daten (beliebiger Länge) CRC & Endemarkierung Pfad wird vom Sender vorbestimmt und von den durchlaufenen Vermittlungsstufen auf dem Weg schrittweise entfernt (source routing). Paketkopf ermöglicht unterschiedliche Protokolle (Administrationsdaten, Bestätigungs-Pakete, Datenpakete, Adressierung des Empfängerprozesses, Absenderangaben). Pakete unterliegen keiner Längenbeschränkung. Paket-Endesignal: Prüfsumme und Endemarkierung. Paketauslieferung reihenfolgetreu. 10

Myrinet: Datenfluss Anwendung Anwendung Copy Copy Kern / DMA Memory Copy Copy Kern / DMA Memory DMA DMA Myrinet SRAM DMA Netz DMA Myrinet SRAM Sender, Netz und Empfänger operieren als Fließband Copy = PIO oder DMA oder Kombination (s.u.) 11

Myrinet: Software Anwendung OS Kern TCP UDP Myrinet-API (GM) Ethernet IP Myrinet mmap Eigene Protokolle, z.b. ParaStation Ethernet GM Myrinet 12

InfiniBand: Übersicht InfiniBand Architecture (IBA) ist ein Industriestandard für ein Hochgeschwindigkeitsnetzwerk. Paketvermittlung verbindet Rechenknoten und E/A-Geräte untereinander Anspruch: alle E/A-Aufgaben können mit InfiniBand (IB) realisiert werden Infiniband: Wortspiel Infinite Bandwidth Besondere Eigenschaften hohe Bandbreite (bis zu 30 Gb/s insgesamt) geringe Latenz (ca. 7.5µsec auf MPI-Ebene) Zero-Copy Data Transfers : Daten werden aus dem Speicher einer Anwendung in den Speicher einer anderen Anwendung transportiert ohne Kopien im Hauptspeicher der beteiligten Rechenknoten. Remote DMA (RDMA): Direktzugriff auf entfernten Speicher Bündelung mehrerer virtueller Kanäle durch die Hardware Informationen z.b. auf http://www.infinibandta.org 14

InfiniBand: Hardware CPU CPU Mem Cntlr HCA Link Mem Cntlr HCA Link Focus f. Rechnerbündel xca Router Storage Target TCA Link Switch Link Link Netzwerkkomponenten: Host Channel Adaper (HCA) verbinden Prozessoren mit dem Netzwerk über PCI-X, PCI-Express Target Channel Adapter (TCA) verbinden E/A-Kontroller mit dem Netzwerk, z.b. Fibre Channel, Ethernet, SCSI Switches (Vermittlungsknoten) Router verbinden Subnetze Leitungsebene Datenrate: 2.5 Gb/s pro Link Kupfer bis 17m Glasfaser 100m 10km höhere Bandbreiten erreichbar durch Bündelung von Kanälen (mehrere Netzanschlüsse pro HCA) 2.5, 10, 30 Gb/s (1x, 4x, 12x) aktuell erhältliche Hardware ist für 4x ausgelegt Verbindungen sind duplex fähig. 15

InfiniBand: Hardware Topologie geschaltetes Netz (Punkt-zu-Punkt-Verbindungen, kein Bus) ~ 64k Knoten pro Subnetz Subnetze können über Router verbunden werden Zuverlässigkeit Unterstützung für redundante Netzwerkverbindungen automatische Umkonfigurierung im Fehlerfall QoS (unterschiedliche Qualitätsstufen) 16 virtuelle Verbindungen mit zugesicherter Bandbreite und getrennter Flusskontrolle pro Verknüpfung (Knoten -> Knoten, Knoten -> Switch/Router, ) 16

InfiniBand: Software IB Access Interface (user level) HCA Verbs Interface (user level) IB Access Interface (kernel) HCA Verbs Interface (kernel) Mgmt Apps Mgmt APIs IB Access HCA Library SRP, IPoIB, SDP IB Access HCA Driver IB HCA Socket APIs kdapl User Apps udapl (RDMA Transport) OS User Infrastructure OS Kernel Infrastructure Other Interconnects Es gibt eine Vielzahl von Schnittstellen, auf verschiedenen Ebenen, um den Anforderungen der verwendeten Protokolle gerecht zu werden. Insbesondere gibt es die IB Access Schnittstelle und DAPL Schnittstelle (RDMA) sowohl privilegiert (im Kern), als auch unprivilegiert (als Bibliothek). k/u DAPL: Direct Access Provider ist eine API für RDMA (entfernter Speicherzugriff) Gemeinsame Eigenschaften: Vermeidung von Kopieroperationen Verwendung von RDMA jeweils nur noch wenige Protokollschichten/Treiber beteiligt 17

InfiniBand: Verbs API Nutzer kommuniziert mit dem Host Channel Adapter über Nachrichtenschlangen. Consumer Work Queue WQE Work Request Work Queue WQE WQE WQE Hardware Work Compl. Completion Queue CQE CQE CQE Es gibt getrennte Schlangen für Sende- und Empfangsaufträge. RDMA-Aufträge kommen ohne korrespondierenden Auftrag auf der anderen Seite aus. 18

InfiniBand: Adressierung GID: Globale Identifikationsnummer 128bit, IPv6-kompatibel mindestens eine GID für jeden HCA-, Switch- und Router-Port besteht aus einer 64bit Identifikation und einem 64bit Präfix LID: Lokale Identifikationsnummer adressiert einen Port im Subnetz wird von dem jeweiligen Subnetz-Manager vergeben 16bit, aber von den 65536 möglichen Adressen sind einige reserviert, z.b. als Multicast-Adressen Aufbau eines Paketes Local Routing Header Global Routing Header Transport Header Ext. Transport Header Daten inv. CRC var. CRC 19

Infiniband: aktuelle Hardware Host-Channel-Adapter z.b. als PCI (-X) Einsteckkarten Links Abb. einer Karte der Firma JNI Zwei 10GBit/s Ports PCI (2.2) bzw. PCI-X (1.0) 64bit, 66-133MHz DDR-Speicher aufsteckbar Integration in Hauptplatine wünschenswert, denn die Übertragungsrate des PCI Busses ist beschränkt (8 GBit/s) unidirektional für PCI-X). 20

SCI Scalable Coherent Interface IEEE Standard (1596-1992), aber proprietäre Implementierungen Schnelle unidirektionale Punkt-zu-Punkt-Kanäle Bandbreite ~ 1GB/s 500MHz über 16 parallele Kanäle Latenzen < 2 s möglich (über MPI) Topologien: Ring, 2D-Torus, 3D-Torus Paketvermittlung, feste Paketlänge (bis zu 256bytes) Speicherkoppelndes Verbindungsnetz eigener 64bit Adressraum in Hardware Erlaubt Fernlese-, Fernschreib-, Fernsperroperationen DMA-Nachrichtentransfers Optional: Cache-Kohärenz Mittelweg zwischen enger und loser Kopplung: Knoten sind einerseits unabhängig (eigenes BS), andererseits gekoppelt, weil sie gemeinsam auf verteilten Speicher zugreifen können. Implementiert Distributed Shared Memory in Hardware 22

SCI: Adressraumabbildung Knoten A Prozess 1 Knoten B Prozess 2 Virtueller Adressraum Prozess 1 Virtueller Adressraum Prozess 2 MMAP (MMU) MMAP (MMU) PCI Adressraum auf A. Zugriff hier Löst eine Komm. mit B aus. IMPORT SCI-ATT (Address Translation Table) EXPORT Lokaler physikalischer Speicher auf B (hier sind die Daten) SCI Adressraum 23

SCI mit Cache-Kohärenz P P P P P P P P P P P P P P P P M I/O SCI M I/O SCI M I/O SCI M I/O SCI SCI-Controller am Speicherbus überwacht alle Bustransaktionen und ist somit in der Lage, die Cache- Kohärenz aller angeschlossenen Module zu gewährleisten. 24

SCI mit Cache-Kohärenz Greift ein Prozessor auf eine entfernte Speicherstelle zu, gibt es in der Regel einen Cache-Aussetzer". Cache-Steuerung holt über SCI die erforderlichen Daten. SCI lauscht Speicherzugriffen und kann daher Schreibzugriffe entdecken, die Cache-Einträge anderer SCI-Module ungültig machen könnten. 25

SCI ohne Cache-Kohärenz P P M P P M I/O PCI- Brücke I/O PCI- Brücke SCI NIC SCI NIC PCI-Brücke zwischen Speicherbus und PCI-Bus verhindert das Überwachen der Speicheroperationen durch den SCI-Controller. Damit ist Cache-Kohärenz nicht mehr möglich. Dolphin-Karten ohne Cache-Kontrolleinheit, aber mit Speicherabbildung. 26

Hochgeschwindigkeitsnetze: Ausblick PCI-Bus für doppelte und höhere Bandbreite bereits standardisiert (PCI-X) PCI-Bus-Kopplung einfach, aber auf Dauer zu langsam direkter Anschluss an Speicherbus notwendig 27

Beispiele: Jaguar Cray XT 5 Mehrstufiges InfiniBand DDR-Netzwerk Pro Knoten eine Cray SeaStar 2+ mit DMA-Unterstützung 6 Ports mit einer Datenrate von 9.6 GByte/s pro Port Netzwerktopologie: 3D-Torus Bisektionsbandbreite: 889 GByte/s 3 Switches: 288-Port Cisco 7024D IB Quelle (Bild): http://www.lrr.in.tum.de/~gerndt/home/teaching/ss2009/parallelprogramming/jaguar.pdf 28

Beispiele: Skizze zu RoadRunner (1) 12 intra-cu Kanäle Detailansicht einer CU CU 12 CU 11 CU 2 CU 1 24-port X-bar 4 inter- 8 Compute nodes CU Kanäle 8 4 8 6 6 I/O I/O 180 180 180 180 24 Zu den ersten 12 CUs Detailansicht eines mittleren InfiniBand-Switches 24-port X-bar 180 180 frei Zu den letzten 5 CUs Quelle: Barker, K.J., et al., Entering the Petaflop Era: The Architecture and Performance of RoadRunner, 2009. CU 17 CU 13 29

Beispiele: RoadRunner (2) InfiniBand DDR-Netzwerk in einer Compute Unit (CU) Ein Mellanox 4x DDR InfiniBand-Adapter pro PowerXCell 8i Blade Ein Voltaire ISR 9288 4x DDR Switch pro CU mit jeweils 36 24-port Kreuzschienenverteilern InfiniBand DDR-Netzwerk zwischen den CUs: Fat-Tree 30