Netzwerke Teil 2. Dr. Victor Pankratius David J. Meder. IPD Tichy Lehrstuhl für Programmiersysteme

Ähnliche Dokumente
Universität Karlsruhe (TH)

Rechnerbündel (Cluster Computing) Wintersemester 2005/06

InfiniBand Low Level Protocol

Protected User-Level DMA in SCI Shared Memory Umgebungen

Distributed Memory Computer (DMC)

Foliensatz. Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen

Storage Area Networks im Enterprise Bereich

HORUS. Seminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HWS Martin Scherer

Seminar Cluster Interconnects. Infiniband. Holger Fröning Lehrstuhl für Rechnerarchitektur Universität Mannheim

Einführung in DAT. Swen Habenberger. Wintersemester 2004/2005. Lehrstuhl für Rechnerarchitektur

Speichernetze (Storage Area Networks, SANs)

Kommunikationsmodelle

Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen

Rechnernetze I. Rechnernetze I. 1 Einführung SS Universität Siegen Tel.: 0271/ , Büro: H-B 8404

Enterprise Computing

9 Netzwerke in Cluster-Rechnern

Computeranwendung in der Chemie Informatik für Chemiker(innen) 4. Netzwerke

Current Implementations of the Virtual Interface Architecture (VIA)

Parastation3. Design und Implementierung. ALiCE-Seminar 13. November Thomas Moschny

Überblick über die InfiniBand Architecture

Virtueller Speicher und Memory Management

User Level Device Driver am Beispiel von TCP

Rechnernetze I SS Universität Siegen Tel.: 0271/ , Büro: H-B Stand: 21.

Grundkurs Computernetzwerke

Rechnerbündel (Cluster Computing)

Kosten der Abschirmung von Code und Daten

Trend der letzten Jahre in der Parallelrechentechnik

Rechnernetze I SS Universität Siegen Tel.: 0271/ , Büro: H-B Stand: 25.

5.) Nach erfolgreicher Übertragung entfernt der Sender seinen Daten-Rahmen vom Ring. Wodurch kann ein verwaister Rahmen entstehen?

ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS. Sascha Kath

PCI VME Interface SIS1100/SIS3100

IP Adressen & Subnetzmasken

6.6.4 Cluster Interconnect im Private Network

Rechnernetze I. Rechnernetze I. 1 Einführung SS Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/ , Büro: H-B 8404

Schreiben von Pages. Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen).

Rechnerorganisation. 1. Juni 201 KC Posch

Vorlesung "Verteilte Systeme" Sommersemester Verteilte Systeme. Empfänger Kommunikationssystem. Netzwerk

Tutorübung zur Vorlesung Grundlagen Rechnernetze und Verteilte Systeme Übungsblatt 6 (27. Mai 31. Mai 2013)

Einführung in Speichernetze

Busse. Dr.-Ing. Volkmar Sieh. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2008/2009

Busse. Dr.-Ing. Volkmar Sieh WS 2005/2006. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg

Self-aware Memory: Hardware-Prototyp eines Prozessorknotens

Multi-Port-Speichermanager für die Java-Plattform SHAP

Universität Karlsruhe (TH)

5. PC-Architekturen und Bussysteme

Wie groß ist die Page Table?

Intelligenter Modemadapter für den PC

erstellt durch Fixel-Computer

Neues in Hyper-V Version 2

Mehrprozessorarchitekturen

Datenblatt: TERRA MINISERVER G ,00. Chipsatz: Intel C232 / Sockel 1151 / Single-Prozessor-System. Zusätzliche Artikelbilder IT. MADE IN GERMANY.

Rechnerstrukturen. 6. System. Systemebene. Rechnerstrukturen Wintersemester 2002/03. (c) Peter Sturm, Universität Trier 1. Prozessor.

3PAR STORESERV STORAGE. itelio Hausmesse 2014

Rechnernetze Übung 11. Frank Weinhold Professur VSR Fakultät für Informatik TU Chemnitz Juni 2012

Verteilte Systeme. Protokolle. by B. Plattner & T. Walter (1999) Protokolle-1. Institut für Technische Informatik und Kommunikationsnetze

Übungsblatt 4. (Router, Layer-3-Switch, Gateway) Aufgabe 2 (Kollisionsdomäne, Broadcast- Domäne)

Adressierung und Routing

é Er ist software-transparent, d.h. der Benutzer braucht nichts von seiner Existenz zu wissen. Adreßbus Cache- Control Datenbus

Vorlesung "Verteilte Systeme" Wintersemester 2000/2001. Verteilte Systeme. Empfänger Kommunikationssystem. Netzwerk

aktive Netzwerk-Komponenten Repeater Hub Bridge Medienkonverter Switch Router

Verteidigung der Diplomarbeit 3D-Netzwerk-Visualisierung

Produktnummer Produktbeschreibung Listpreis HP 2-Wege 1 GHz PA-RISC 8900 Prozessor mit 1.5 MB L1 Cache und keinem L2

Betriebssysteme Vorstellung

Übungsblatt 4. (Router, Layer-3-Switch, Gateway) Aufgabe 2 (Kollisionsdomäne, Broadcast- Domäne)

Verteilte Systeme Übung T5

Multiuser Client/Server Systeme

Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP)

Konzepte und Methoden der Systemsoftware. Aufgabe 1: Polling vs Interrupts. SoSe bis P

FCoE (Fibre Channel over Ethernet) Eine Lösung für konvergente Datencenter

Hardware PCI-Bus. Dr.-Ing. Matthias Sand. Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg

Hardware PCI-Bus. Dr.-Ing. Matthias Sand. Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg

Grundlagen der Rechnerarchitektur. Ein und Ausgabe

PCI-to-PCI-Bridge mit sicherheitsrelevanten Eigenschaften

GigE Vision: Der Standard

Symbian OS. OS für kleine Endgeräte: Sven Walter

Netzwerk Linux-Kurs der Unix-AG

Rechnernetze Übung 11

Netzwerk-Kenngrößen und -Topologien

Implementierung eines universellen IPv6 Protokollstapels

Opteron und I/O. Toni Schmidbauer. 11. Mai Zusammenfassung. Eine kurze Beschreibung der AMD Opteron Architektur.

Kü /Info Oberstufe Netzwerke SJ. 2014/2015

Tutorübung zur Vorlesung Grundlagen Rechnernetze und Verteilte Systeme Übungsblatt 10 (24. Juni 28. Juni 2013)

IP-Adressen und Ports

FAQ 12/2015. PROFINET IO- Kommunikation.

Adressierung eines Kommunikationspartners in der TCP/IP-Familie

1. Erläutern Sie den Begriff Strukturierte Verkabelung

Fachbereich Medienproduktion

Ein- und Ausgabegeräte

Einführung in die Netzwerktechnik

Quiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset.

Symmetrischer Multiprozessor (SMP)

Mobilkommunikationsnetze - TCP/IP (und andere)-

Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur. PCI Express. Dirk Wischeropp. Dresden,

ZENTRALEINHEITEN GRUPPE

Rechnernetze II WS 2013/2014. Betriebssysteme / verteilte Systeme Tel.: 0271/ , Büro: H-B 8404

LAN & Internet. Grundlagen Netzwerke LAN-2. Saarpfalz-Gymnasium. Router. Router LAN-3. Router. Kommunikation in Rechnernetzen

Grundlagen Rechnernetze und Verteilte Systeme IN0010, SoSe 2017

Rechnernetzwerke. Rechnernetze sind Verbünde von einzelnen Computern, die Daten auf elektronischem Weg miteinander austauschen können.

Das Internet-Protocol. Aufteilung von Octets. IP-Adressformat. Class-A Netzwerke. Konventionen für Hostadressen

Computer: PC. Informationstechnik für Luft-und Raumfahrt Aerospace Information Technology

Transkript:

Netzwerke Teil 2 Dr. Victor Pankratius David J. Meder IPD Tichy Lehrstuhl für Programmiersysteme KIT die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH)

Vorlesung Rechnerbündel Architektur von Rechnerbündeln Hochgeschwindigkeitsnetzwerke Netztopologie Vermittlungstechnik Myrinet Infiniband SCI Hochgeschwindigkeitskommunikation 2

Myrinet-2000 ANSI/VITA Standard Weniger Protokoll-Overhead als z.b. Ethernet Übertragungsleistung 2 Gbit/s jeweils für Senden+Empfangen, voll duplex 2.6µs-3.2µs Latenz auf MPI-Ebene Topologie beliebig, CBB-Netz bevorzugt Paketvermittlung, Wormhole, Source Routing Kupfer (8+1 Bit parallel) oder Glasfaserverkabelung Flusskontrolle auf jeder Verbindung Adapterkarten frei programmierbarer RISC-Prozessor 333 MHz, PCI und PCI-X Anschluss, bis zu 133 MHz, 64-Bit, 8 GBit/s Bandbreite über PCI-X Bus unidirektional 2 MByte Speicher Wird in den letzten Jahren aus Top500.org verdrängt VITA: VME bus International Trade Association http://www.vita.com/ 3

Myrinet CBB-Netz (128 Knoten) 16x16 Kreuzschiene Quelle: Guide to Myrinet-2000, Aug, 2001 4

PCI-Brücke Myrinet PCI-Bus-Adapter Netzwerk- Kabel Netz- DMA 2 MB SRAM Netzschnittstelle Host- DMA LanAI CPU 2MB SRAM PCI (-X)-Brücke, 64 Bit, 66-133 MHz LanAI RISC, 333 MHz 2 LWL-Anschlüsse, beide duplex Quelle (Bild): http://www.myri.com/myrinet/pcix/m3f2-pcixe.html 5

Myrinet 16x16 Kreuzschiene 8 Rechner werden vorne angeschlossen (je 2 Kanäle) Hinten 8 Ausgänge (2 Kanäle) zur nächsten Ebene des CBB-Netzes. Auch 32x32 Kreuzschiene erhältlich. Quelle (Bild): http://www.myri.com/myrinet/m3switch/m3-sw16-8f/index.html 6

128-Knoten CBB-Vermittlungsnetz Baustein von vorhin An der Hinterwand liegt eine Platine, die die Bausteine untereinander verbindet (vertikal, 2. Ebene) Quelle (Bild): Myri.com 7

Myrinet 256+256-CBB-Netz Vermittlungsnetz mit Bisektionsbreite 256. Vorne 256 Anschlüsse für Rechner. Hinten 256 Anschlüsse für andere Vermittlungseinheiten (z.b. nächste Ebene im CBB-Netz). Quelle (Bild): http://www.myri.com/news/041021/ 8

CBB-Netze mit voller Bisektionsbreite 64 Knoten 32 Knoten 9

Myrinet: Paketvermittlung Abstand Pfad Paketkopf Daten (beliebiger Länge) CRC & Endemarkierung Pfad wird vom Sender vorbestimmt und von den durchlaufenen Vermittlungsstufen auf dem Weg schrittweise entfernt (source routing). Paketkopf ermöglicht unterschiedliche Protokolle (Administrationsdaten, Bestätigungs-Pakete, Datenpakete, Adressierung des Empfängerprozesses, Absenderangaben). Pakete unterliegen keiner Längenbeschränkung. Paket-Endesignal: Prüfsumme und Endemarkierung. Paketauslieferung reihenfolgetreu. 10

Myrinet: Datenfluss Anwendung Anwendung Copy Copy Kern / DMA Memory Copy Copy Kern / DMA Memory DMA DMA Myrinet SRAM DMA Netz DMA Myrinet SRAM Sender, Netz und Empfänger operieren als Fließband Copy = PIO oder DMA oder Kombination (s.u.) 11

Myrinet: Software Anwendung OS Kern TCP UDP Myrinet-API (GM) Ethernet IP Myrinet mmap Eigene Protokolle, z.b. ParaStation Ethernet GM Myrinet 12

Vorlesung Rechnerbündel Architektur von Rechnerbündeln Hochgeschwindigkeitsnetzwerke Netztopologie Vermittlungstechnik Myrinet Infiniband SCI Hochgeschwindigkeitskommunikation 13

InfiniBand: Übersicht InfiniBand Architecture (IBA) ist ein Industriestandard für ein Hochgeschwindigkeitsnetzwerk. Paketvermittlung verbindet Rechenknoten und E/A-Geräte untereinander Anspruch: alle E/A-Aufgaben können mit InfiniBand (IB) realisiert werden Infiniband: Wortspiel Infinite Bandwidth Besondere Eigenschaften hohe Bandbreite (bis zu 30 Gb/s insgesamt) geringe Latenz (ca. 7.5µsec auf MPI-Ebene) Zero-Copy Data Transfers : Daten werden aus dem Speicher einer Anwendung in den Speicher einer anderen Anwendung transportiert ohne Kopien im Hauptspeicher der beteiligten Rechenknoten. Remote DMA (RDMA): Direktzugriff auf entfernten Speicher Bündelung mehrerer virtueller Kanäle durch die Hardware Informationen z.b. auf http://www.infinibandta.org 14

InfiniBand: Hardware CPU CPU Mem Cntlr HCA Link Mem Cntlr HCA Link Focus f. Rechnerbündel xca Router Storage Target TCA Link Switch Link Link Netzwerkkomponenten: Host Channel Adaper (HCA) verbinden Prozessoren mit dem Netzwerk über PCI-X, PCI-Express Target Channel Adapter (TCA) verbinden E/A-Kontroller mit dem Netzwerk, z.b. Fibre Channel, Ethernet, SCSI Switches (Vermittlungsknoten) Router verbinden Subnetze Leitungsebene Datenrate: 2.5 Gb/s pro Link Kupfer bis 17m Glasfaser 100m 10km höhere Bandbreiten erreichbar durch Bündelung von Kanälen (mehrere Netzanschlüsse pro HCA) 2.5, 10, 30 Gb/s (1x, 4x, 12x) aktuell erhältliche Hardware ist für 4x ausgelegt Verbindungen sind duplex fähig. 15

InfiniBand: Hardware Topologie geschaltetes Netz (Punkt-zu-Punkt-Verbindungen, kein Bus) ~ 64k Knoten pro Subnetz Subnetze können über Router verbunden werden Zuverlässigkeit Unterstützung für redundante Netzwerkverbindungen automatische Umkonfigurierung im Fehlerfall QoS (unterschiedliche Qualitätsstufen) 16 virtuelle Verbindungen mit zugesicherter Bandbreite und getrennter Flusskontrolle pro Verknüpfung (Knoten -> Knoten, Knoten -> Switch/Router, ) 16

InfiniBand: Software IB Access Interface (user level) HCA Verbs Interface (user level) IB Access Interface (kernel) HCA Verbs Interface (kernel) Mgmt Apps Mgmt APIs IB Access HCA Library SRP, IPoIB, SDP IB Access HCA Driver IB HCA Socket APIs kdapl User Apps udapl (RDMA Transport) OS User Infrastructure OS Kernel Infrastructure Other Interconnects Es gibt eine Vielzahl von Schnittstellen, auf verschiedenen Ebenen, um den Anforderungen der verwendeten Protokolle gerecht zu werden. Insbesondere gibt es die IB Access Schnittstelle und DAPL Schnittstelle (RDMA) sowohl privilegiert (im Kern), als auch unprivilegiert (als Bibliothek). k/u DAPL: Direct Access Provider ist eine API für RDMA (entfernter Speicherzugriff) Gemeinsame Eigenschaften: Vermeidung von Kopieroperationen Verwendung von RDMA jeweils nur noch wenige Protokollschichten/Treiber beteiligt 17

InfiniBand: Verbs API Nutzer kommuniziert mit dem Host Channel Adapter über Nachrichtenschlangen. Consumer Work Queue WQE Work Request Work Queue WQE WQE WQE Hardware Work Compl. Completion Queue CQE CQE CQE Es gibt getrennte Schlangen für Sende- und Empfangsaufträge. RDMA-Aufträge kommen ohne korrespondierenden Auftrag auf der anderen Seite aus. 18

InfiniBand: Adressierung GID: Globale Identifikationsnummer 128bit, IPv6-kompatibel mindestens eine GID für jeden HCA-, Switch- und Router-Port besteht aus einer 64bit Identifikation und einem 64bit Präfix LID: Lokale Identifikationsnummer adressiert einen Port im Subnetz wird von dem jeweiligen Subnetz-Manager vergeben 16bit, aber von den 65536 möglichen Adressen sind einige reserviert, z.b. als Multicast-Adressen Aufbau eines Paketes Local Routing Header Global Routing Header Transport Header Ext. Transport Header Daten inv. CRC var. CRC 19

Infiniband: aktuelle Hardware Host-Channel-Adapter z.b. als PCI (-X) Einsteckkarten Links Abb. einer Karte der Firma JNI Zwei 10GBit/s Ports PCI (2.2) bzw. PCI-X (1.0) 64bit, 66-133MHz DDR-Speicher aufsteckbar Integration in Hauptplatine wünschenswert, denn die Übertragungsrate des PCI Busses ist beschränkt (8 GBit/s) unidirektional für PCI-X). 20

Vorlesung Rechnerbündel Architektur von Rechnerbündeln Hochgeschwindigkeitsnetzwerke Netztopologie Vermittlungstechnik Myrinet Infiniband SCI Hochgeschwindigkeitskommunikation 21

SCI Scalable Coherent Interface IEEE Standard (1596-1992), aber proprietäre Implementierungen Schnelle unidirektionale Punkt-zu-Punkt-Kanäle Bandbreite ~ 1GB/s 500MHz über 16 parallele Kanäle Latenzen < 2 s möglich (über MPI) Topologien: Ring, 2D-Torus, 3D-Torus Paketvermittlung, feste Paketlänge (bis zu 256bytes) Speicherkoppelndes Verbindungsnetz eigener 64bit Adressraum in Hardware Erlaubt Fernlese-, Fernschreib-, Fernsperroperationen DMA-Nachrichtentransfers Optional: Cache-Kohärenz Mittelweg zwischen enger und loser Kopplung: Knoten sind einerseits unabhängig (eigenes BS), andererseits gekoppelt, weil sie gemeinsam auf verteilten Speicher zugreifen können. Implementiert Distributed Shared Memory in Hardware 22

SCI: Adressraumabbildung Knoten A Prozess 1 Knoten B Prozess 2 Virtueller Adressraum Prozess 1 Virtueller Adressraum Prozess 2 MMAP (MMU) MMAP (MMU) PCI Adressraum auf A. Zugriff hier Löst eine Komm. mit B aus. IMPORT SCI-ATT (Address Translation Table) EXPORT Lokaler physikalischer Speicher auf B (hier sind die Daten) SCI Adressraum 23

SCI mit Cache-Kohärenz P P P P P P P P P P P P P P P P M I/O SCI M I/O SCI M I/O SCI M I/O SCI SCI-Controller am Speicherbus überwacht alle Bustransaktionen und ist somit in der Lage, die Cache- Kohärenz aller angeschlossenen Module zu gewährleisten. 24

SCI mit Cache-Kohärenz Greift ein Prozessor auf eine entfernte Speicherstelle zu, gibt es in der Regel einen Cache-Aussetzer". Cache-Steuerung holt über SCI die erforderlichen Daten. SCI lauscht Speicherzugriffen und kann daher Schreibzugriffe entdecken, die Cache-Einträge anderer SCI-Module ungültig machen könnten. 25

SCI ohne Cache-Kohärenz P P M P P M I/O PCI- Brücke I/O PCI- Brücke SCI NIC SCI NIC PCI-Brücke zwischen Speicherbus und PCI-Bus verhindert das Überwachen der Speicheroperationen durch den SCI-Controller. Damit ist Cache-Kohärenz nicht mehr möglich. Dolphin-Karten ohne Cache-Kontrolleinheit, aber mit Speicherabbildung. 26

Hochgeschwindigkeitsnetze: Ausblick PCI-Bus für doppelte und höhere Bandbreite bereits standardisiert (PCI-X) PCI-Bus-Kopplung einfach, aber auf Dauer zu langsam direkter Anschluss an Speicherbus notwendig 27

Beispiele: Jaguar Cray XT 5 Mehrstufiges InfiniBand DDR-Netzwerk Pro Knoten eine Cray SeaStar 2+ mit DMA-Unterstützung 6 Ports mit einer Datenrate von 9.6 GByte/s pro Port Netzwerktopologie: 3D-Torus Bisektionsbandbreite: 889 GByte/s 3 Switches: 288-Port Cisco 7024D IB Quelle (Bild): http://www.lrr.in.tum.de/~gerndt/home/teaching/ss2009/parallelprogramming/jaguar.pdf 28

Beispiele: Skizze zu RoadRunner (1) 12 intra-cu Kanäle Detailansicht einer CU CU 12 CU 11 CU 2 CU 1 24-port X-bar 4 inter- 8 Compute nodes CU Kanäle 8 4 8 6 6 I/O I/O 180 180 180 180 24 Zu den ersten 12 CUs Detailansicht eines mittleren InfiniBand-Switches 24-port X-bar 180 180 frei Zu den letzten 5 CUs Quelle: Barker, K.J., et al., Entering the Petaflop Era: The Architecture and Performance of RoadRunner, 2009. CU 17 CU 13 29

Beispiele: RoadRunner (2) InfiniBand DDR-Netzwerk in einer Compute Unit (CU) Ein Mellanox 4x DDR InfiniBand-Adapter pro PowerXCell 8i Blade Ein Voltaire ISR 9288 4x DDR Switch pro CU mit jeweils 36 24-port Kreuzschienenverteilern InfiniBand DDR-Netzwerk zwischen den CUs: Fat-Tree 30