Eine PCI-SCI-Adapterkarte für ein PC-Cluster mit verteiltem gemeinsamen Speicher

Transkript

1 Eine PCI-SCI-Adapterkarte für ein PC-Cluster mit verteiltem gemeinsamen Speicher Georg Acher, Hermann Hellwagner, Wolfgang Karl, Markus Leberecht Lehreinheit für Rechnertechnik und Rechnerorganisation / Parallelrechnerarchitektur (LRR-TUM) Institut für Informatik, Technische Universität München D München {hellwagn,karlw,leberech}@informatik.tu-muenchen.de Kurzfassung Das Projekt SMiLE (Shared Memory in a LAN-like Environment) am LRR-TUM nutzt Scalable Coherent Interface (SCI) zum Aufbau eines Clusters von Standard-PCs mit verteiltem gemeinsamen Speicher (Distributed Shared Memory, DSM). Die SCI-Vernetzung bietet hohe Bandbreite und (vor allem über DSM) kurze Latenzzeiten für Interprozessorkommunikation und macht das Cluster bei geringen Kosten für Parallelverarbeitung gut geeignet. Auf diese Plattform werden zunächst Programmiersysteme für die Entwicklung paralleler Software adaptiert und unter Nutzung des DSM optimiert, z.b. Active Messages, eine Bibliothek für Kommunikation über Sockets und Parallel Virtual Machine (PVM). Weitere Forschungsarbeiten haben zum Ziel, Programmiersysteme und Werkzeuge zur effizienten Nutzung von DSM-Systemen zu entwickeln und zu erproben. Der Beitrag umreißt zunächst Ziele, bisherige Arbeiten und Ergebnisse des SMiLE-Projekts. Im Schwerpunkt wird eine am LRR-TUM entwickelte PCI-SCI-Adapterkarte vorgestellt, die zum Aufbau des PC-Clusters verwendet wird. Funktionsmerkmale, Architektur, einige Entwurfsentscheidungen und Ergebnisse erster Leistungsmessungen dieser Netzwerkkarte werden beschrieben. Die Karte wird in einer weiteren Version mit Monitoring- Hardware ausgestattet, die u.a. entfernte Speicherzugriffe zu erfassen erlaubt und Leistungsanalyse und -optimierung von DSM-Programmen ermöglicht. 1 Einleitung Workstation-Netze haben sich in den letzten Jahren als die kostengünstigste Plattform für Parallelverarbeitung etabliert, eine Entwicklung, die auch maßgeblich durch die freie Verfügbarkeit von Kommunikationsbibliotheken wie PVM [5] getragen wurde. Als Schwachpunkte heutiger Workstation-Cluster bei Nutzung als Parallelrechner gelten ihre geringe Kommunikationsleistung sowie die (für praktische Belange und effiziente parallele Programme nicht zu umgehende) Festlegung auf ein Programmiermodell mit Nachrichtenaustausch, wie es etwa durch PVM gegeben ist. Die geringe Kommunikationsleistung rührt daher, daß der Botschaftenaustausch über Standard-LANs, z.b. Ethernet, auf der TCP/IP-Protokollfamilie basiert. Der hohe Software-Aufwand für die Protokollbearbeitung bedingt Latenzzeiten von Nachrichtentransfers im Millisekundenbereich für effiziente Parallelverarbeitung zwei bis drei Größenordnungen zu hoch [10]. Dies trifft auch für sog. schnelle Netze zu, z.b. LANs auf der Basis von ATM. In einer Reihe von Projekten wurden neue Kommunikationsarchitekturen in Hardware und Software und alternative Programmiersysteme zur Lösung der beiden genannten Probleme

2 entwickelt. Diese zielen insbesondere darauf ab, die für Parallelverarbeitung zu hohen Latenzzeiten von Standardnetzen und -protokollen entscheidend zu verringern, Speicherkopplung über Knotengrenzen hinweg zu ermöglichen oder dem Programmierer die Abstraktion eines gemeinsamen Speichers zur Verfügung zu stellen (DSM); siehe z.b. [6][10][13][15]. Eine Technologie, die diese angestrebten Eigenschaften eines Clusters besonders gut unterstützt, ist Scalable Coherent Interface (SCI) [16]. Dieser Verbindungsstandard spezifiziert die üblichen Dienste eines Computer-Busses, zeigt aber deren vollständig verteilte Implementierung mit schnellen Punkt-zu-Punkt-Verbindungen. DSM in Hardware (optional mit Erhaltung von Cache-Kohärenz), Übertragungsprotokolle mit Split Transactions, hohe Bandbreiten sowie Sicherungs- und Fehlererkennungsmechanismen in Hardware sind einige Merkmale von SCI; siehe z.b. [9][16]. Über DSM kann somit Kommunikation in einem SCI-Netz auf Benutzerebene und ohne schwergewichtige, im Betriebssystem integrierte Protokolle wie TCP/IP stattfinden. Dies bedeutet Kommunikationslatenzen im Mikrosekundenbereich und (über in SCI ebenso definierte Nachrichtentransfers) hohe Durchsatzraten [14]. Das Projekt SMiLE (Shared Memory in a LAN-like Environment) am LRR-TUM nutzt SCI zum Aufbau eines kostengünstigen Clusters von Standard-PCs mit DSM, das durch hohe Kommunikationsleistung für Parallelverarbeitung gut geeignet sein soll. Der Beitrag geht in Abschnitt 2 kurz auf die Ziele, bisher durchgeführte Arbeiten und erzielte Ergebnisse des SMiLE-Projekts ein. Abschnitt 3 beschreibt eines dieser Ergebnisse: eine PCI-SCI-Adapterkarte, die zum Aufbau des PC-Clusters verwendet wird. Funktionsmerkmale, Architektur, einige wichtige Entwurfsentscheidungen und erste Leistungsmessungen werden beschrieben. Abschnitt 4 faßt zusammen und gibt einen Ausblick. 2 Das Projekt SMiLE Das Projekt SMiLE verfolgt als übergeordnete Ziele, ein sehr kostengünstiges, weitgehend aus Standard-PC-Komponenten bestehendes und dennoch für Parallelverarbeitung ausreichend leistungsfähiges Cluster mit verteiltem gemeinsamen Speicher aufzubauen und im weiteren dieses für die Entwicklung paralleler Basis- und Anwendungssoftware und für Forschungsarbeiten zur effizienten Nutzung von DSM-Systemen zu nutzen. PCs wurden wegen ihrer weiten Verbreitung (vor allem auch in kleinen und mittelständischen Unternehmen) und ihres guten Preis-/Leistungsverhältnisses gewählt, das ein solches Cluster als kostengünstige Plattform für Parallelverarbeitung erscheinen läßt. Eine Schlüsselrolle spielt das Verbindungssystem SCI, das DSM, hohe Bandbreite und (vor allem über DSM) kurze Latenzzeiten für Interprozessorkommunikation ermöglicht. Entsprechend den Zielen sind die Arbeiten in SMiLE in folgende Bereiche aufgeteilt. Zu diesen Bereichen werden im weiteren die bisherigen Arbeiten und Ergebnisse genannt. Aufbau eines Clusters mit DSM aus Pentium-PCs auf Basis einer SCI-Kopplung In diesen Bereich fällt die Eigenentwicklung einer PCI-SCI-Adapterkarte, die im weiteren Beitrag beschrieben wird. Die Karte ist als Prototyp vorhanden und funktionsfähig. Sie wird in kleiner Stückzahl gefertigt werden, so daß ein kleines PC-Cluster aufgebaut werden kann. Die Entwicklung von Gerätetreibern für Linux und Windows NT, die für die weiteren Software-Arbeiten genutzt werden und die vor allem eine komfortable Nutzung gemeinsamer

3 Speicherbereiche unterstützen sollen, ist im Gange; ebenso der Entwurf von Monitoring- Hardware, die in einer zweiten Version der SCI-Adapter-Hardware entfernte Speicherzugriffe zu erfassen erlaubt. Anpassung und Optimierung von Basissoftware für parallele Programmierung Dies geschieht mit dem Ziel, die besonderen Eigenschaften einer SCI-Kopplung, vor allem gemeinsame Speicherbereiche zwischen Knoten, für hohe Kommunikationsleistung zu nutzen. Da das SMiLE-Cluster noch nicht verfügbar ist, wurden bisherige Software-Arbeiten auf Test-Clustern von SPARCstations-2 bzw. von UltraSPARCs durchgeführt, die über SBus-SCI-Adapterkarten von Dolphin Interconnect Solutions gekoppelt sind. Die Anpassung und Leistungsmessungen von PVM-Routinen zum direkten Datentransfer über SCI [7][8], die Implementierung von Active Messages [4] auf Basis von SCI-Speichertransaktionen [3] und eine Bibliothek, die Kommunikation über Sockets [12] unterstützt und diese intern über SCI-DSM abwickelt [17], sind abgeschlossen. Auf der Sockets-Bibliothek wird eine Implementierung von PVM aufbauen. Die bisherige Software ist weitgehend unter Linux getestet (mit Simulation der SCI-Kommunikation) und wird daher ohne großen Aufwand auf das SMiLE-Cluster unter Linux übertragen werden können. Entwicklung und Erprobung von Konzepten, Programmiermodellen und Werkzeugen zur effizienten Nutzung eines DSM-Clusters Das SMiLE-Cluster bietet hardware-gestützten DSM mit geringen Latenzzeiten von entfernten Speicherzugriffen, die aber zumindest eine Größenordnung über denen lokaler Speicherzugriffe liegen (NUMA-Charakteristik) [11]. Die Nutzung von lokalen Speicherzugriffen ist daher von entscheidender Bedeutung für die Effizienz eines parallelen Programms. Als weiterer Forschungsschwerpunkt sollen daher DSM-Programmiersysteme und Werkzeuge entwickelt, implementiert und erprobt werden, mit deren Hilfe Datenlokalität im Programm (z.b. durch Direktive) spezifiziert, zur Laufzeit (auf Basis von Laufzeitstatistiken) hergestellt und genutzt bzw. (mit Hilfe eines Tools) analysiert werden kann. Dafür wurde ein Monitoring-Konzept erarbeitet; die Hardware wird, wie oben erwähnt, derzeit entworfen. Eine Alternative, mit den langen Latenzen entfernter Speicherzugriffe umzugehen, ist die Nutzung einer speziellen Eigenschaft des SCI-basierten DSM: Buffered Writes auf entfernte Speicher lassen den Prozessor weiterarbeiten, sobald die SCI-Adapterkarte die Kontrolle über den Schreibvorgang übernommen hat; Lesezugriffe über SCI hingegen blockieren den Prozessor, bis ihm das angeforderte Datum zugestellt werden kann. Mit einem Multithreading-Ausführungsmodell, das Threads nach Datenflußprinzipien zur Ausführung bringt und dazu den wartenden Threads die erforderlichen Daten mittels Buffered Writes zustellt, anstelle sie ihre Eingangsdaten lesen zu lassen, gewinnt man Ausführungszeit. Die gewonnene Zeit wird für Scheduling-Aktivitäten genutzt. Diese Ideen werden in dem System MuSE (Multithreading Scheduling Environment) realisiert und erprobt [11]. 3 Die PCI-SCI-Adapterkarte Der Entwicklung einer eigenen PCI-SCI-Schnittstellenkarte [1][2] für die SCI-Vernetzung der PCs hatte zwei Gründe: Zum einen war zu Projektbeginn keine PCI-SCI-Schnittstellen-

4 karte kommerziell erhältlich; zum anderen sollte im Sinne der Projektziele die Möglichkeit geschaffen werden, Monitoring-Hardware in die PCI-SCI-Schnittstelle zu integrieren. 3.1 Funktionsmerkmale Die PCI-SCI-Adapterkarte bildet die Schnittstelle zwischen dem PCI-Bus eines PCs und dem SCI-Netz. Jede Karte hat einen SCI-Eingangs- und einen SCI-Ausgangs-Link. Die angeschlossenen Knoten sind ringförmig verbunden. (Komplexere Topologien können aus Ringen als Basisblock aufgebaut werden.) Die PCI-SCI-Karte bildet SCI-Speicherbereiche in PCI-Adreßbereiche ab. Lese- und Schreibzugriffe auf dem PCI-Bus in SCI-DSM werden von der PCI-SCI-Karte erkannt, in SCI-Transaktionen umgesetzt und auf das SCI-Netz gesandt; ähnlich in umgekehrter Richtung bei eingehenden SCI-Transaktionen. Für andere Knoten adressierte SCI-Pakete werden weitergeleitet. Der PCI-SCI-Adapter übernimmt Adreßumsetzungen sowie die Erzeugung und Abwicklung von SCI-Request- und Response-Paketen und von PCI-Bustransaktionen. An die PCI-SCI-Adapterkarte wurden folgende, für effiziente Parallelverarbeitung in einem SCI-Cluster als notwendig erachtete Anforderungen gestellt: Anbindung an PCI und SCI unter Einhaltung der jeweiligen Standards. Umsetzung von PCI-Transaktionen auf SCI-Transaktionen und umgekehrt. Lesen und Schreiben auf entfernte Speicherbereiche, transparent für Software. Mehrere ausstehende Transaktionen (Split Transactions) für entferntes Schreiben. Schnelle Nachrichtenzustellung über SCI (DSM) mit DMA-Transfers in Endknoten. Eine atomare, in SCI definierte Read-Modify-Write-Speicheroperation zur Konstruktion von Synchronisationsprimitiven. Adreßumsetzung zur Adressierung ausreichend vieler SCI-Knoten. Schnittstelle zu einem Hardware-Monitor. Die entwickelte Karte erfüllt diese Anforderungen. Konkret weist sie SCI-seitig folgende Eigenschaften auf [16]: 16 ausstehende writesb-transaktionen (Buffered Writes). 16 ausstehende nwrite64-transaktionen, die DMA-Transfers nutzen. 1 ausstehende readsb-transaktion. 1 ausstehende locksb-transaktion mit bounded_add als Synchronisationsbefehl. Alle ausstehenden Transaktionen werden durch Timeout-Logik überwacht. Andere SCI-Pakete bis zu 64 Bytes explizit (in Software) konstruierbar. Adreßübersetzung für 8192 Seiten zu je 4 KB möglich. Puffer für 64 eingehende SCI-Pakete. Interrupt-Erzeugung auf entfernter Karte möglich. Es ist zu beachten, daß die PCI-SCI-Karte die in SCI definierten Cache-Kohärenz-Protokolle nicht unterstützt. Dies ist für die in Entwicklung befindliche Software nicht erforderlich und würde darüber hinaus zu hohen Realisierungsaufwand erfordern. Treiber- und Testprogramme ergänzen die Hardware. 3.2 Architektur Bild 1 zeigt den grundlegenden Aufbau der PCI-SCI-Schnittstellenkarte.

5 In der PCI-Einheit sorgt ein PCI9060-Chip von PLX Technologies für die Anbindung an den PCI-Bus. Dieser setzt das PCI-Busprotokoll in das einfachere i960-busprotokoll um, wobei Adressen und Daten im Multiplexbetrieb übertragen werden. Durch die Entwurfsentscheidung, als lokalen Bus der PCI-Einheit den i960-bus in dieser Betriebsart zu verwenden, konnte die Kontrollogik der Karte wesentlich vereinfacht werden. Zudem enthält der PCI9060-Baustein auch zwei DMA-Einheiten, die von den nwrite64-transaktionen genutzt werden. Local Clock FPGA#1 Handshake Bus FPGA#2 CTL SUPER_MAN BAT_MAN PCI PCI9060 AD 32 i960 Local Bus A 12 ATC RAM D DPR Bus DPR 8Kx24 4Kx32 2Kx64 D A A D B-Link 64 B-Link CTL SCI In LC-1 SCI Out EEPROM IO BUF IO SCI Clock PCI Unit Dual Ported RAM SCI Unit Bild 1 Architektur der PCI-SCI-Adapterkarte FPGA#1 (SCI Upload and Packet EncodeR MANager, SUPER_MAN) sorgt für die Umsetzung von Lese- und Schreibzugriffen, die auf dem Bus auftreten, in sog. B-Link-Pakete und umgekehrt. Über Buspuffer (BUF) gelangen die Daten in ein Dual-Ported-RAM (DPR). In einem schnellen RAM (Address Translation Cache, ATC) werden erforderliche PCI-SCI- Adreßumsetzungen vorgenommen (siehe Abschnitt 3.3). Diese Vorgänge (sowie andere wie die Zeitüberwachung ausstehender SCI-Transaktionen) finden unter der Kontrolle des Bausteins SUPER_MAN statt, der unten näher beschrieben wird. Das Dual-Ported-RAM (DPR) puffert und vermittelt im wesentlichen ein- und ausgehende SCI-Pakete zwischen PCI-Einheit und SCI-Einheit. Im DPR sind bereits Rohpakete mit festgelegten Parametern abgelegt, so daß der Paketaufbau sich darauf beschränken kann, die für jede Transaktion spezifischen Daten und Adreßinformationen an den richtigen Stellen einzufügen. Damit kann dieser Schritt schnell abgewickelt werden. Es können auch andere, nicht vorgegebene Pakete zusammengestellt werden. In der SCI-Einheit wickelt der Link Controller LC-1 von Dolphin Interconnect Solutions die SCI-spezifischen Protokolle ab. SCI-Pakete, die für den lokalen Knoten bestimmt sind, werden vom SCI-Netz genommen und in B-Link-Pakete umgewandelt (Backside Link, ein von Dolphin für SCI-Bausteine definierter Bus). FPGA#2 (B-Link Access and Transaction MANager, BAT_MAN) kontrolliert diesen Vorgang (und den umgekehrten); er ist für die Arbitrierung und Steuerung des B-Link sowie Lesen und Schreiben des DPR verantwortlich. Die beiden FPGAs in der PCI- und der SCI-Einheit tauschen Informationen über zu überge-

6 bende Pakete mittels eines Handshake-Busses aus. Der Großteil der Steuerfunktionen der Adapterkarte liegt in dem komplexen FPGA-Baustein SUPER_MAN. Bild 2 zeigt sein Blockdiagramm. TRANS_AM Start Action/Status TRANSAction Manager Transaction Queue 1 + Timeout Transaction Queue 2 + Timeout To/from BAT_MAN CMD Status CONAN CONfiguration manager Microprogram Bus Status PAC_MAN PACket MANager CMD PAN_AM Port/Access/ enable Manager OE WE DPR ADR CMD CMD DPR ADR Local Bus LB_MAN Local Bus MANager Slave Burst Master Latch LSB/Byte Enables SCI CMD Gen. D_MAN Data MANager Accu Adder Compare DPR DATA ATC ADR LC INIT Bild 2 Aufbau des Bausteins SUPER_MAN Die zentrale Steuereinheit des Bausteins ist der PACket MANager (PAC_MAN). Er ist als Mikrocode-Sequenzer mit schreibbarem Mikroprogrammspeicher (mit 64 Mikrobefehlsworten) implementiert. Die Mikrobefehlsworte sind in unabhängige Felder unterteilt, die direkt die anderen Funktionseinheiten steuern sowie die Adresse des Folgebefehls angeben. Damit können die Einheiten von SUPER_MAN parallel arbeiten. Der entscheidende Vorteil, den die Entwurfsentscheidung für eine mikroprogrammierte Steuerung mit sich brachte, ist die Flexibilität und einfache Programmiermöglichkeit von PAC_MAN. Dies hat sich angesichts der Parallelität und Komplexität der Abläufe in SUPER_MAN sehr bewährt. Der Local Bus MANager (LB_MAN) verwaltet den lokalen i960-bus. Er erkennt z.b. Auftreten und Art eines Zugriffs am i960-bus, entscheidet, welches Mikroprogramm auszuführen ist, und gibt diese Information an den TRANSAction Manager (TRANS_AM) weiter. Dieser überprüft, ob in der entsprechenden Transaktionswarteschlange ein Eintrag frei ist und gibt, falls dies der Fall ist, das Kommando zum Start des Mikroprogramms an PAC_MAN ab. Bei eintreffenden SCI-Paketen ist das Vorgehen ähnlich: Aus einem 7-Bit SCI-Kommando wird über eine Umsetzungstabelle (ROM) direkt ein entsprechendes PAC_MAN-Kommando generiert. TRANS_AM verwaltet Ein- und Ausgangspuffer für SCI-Pakete im DPR und startet und überwacht ausstehende Transaktionen. Dies schließt die Warteschlangen- und Timeout-Verwaltung für die jeweils bis zu 16 aktiven writesb- und nwrite64-transaktionen ein. Bei einem Timeout wird die Transaktion abgebrochen und ein Fehlersignal (Interrupt) erzeugt.

7 Der Data Manager (D_MAN) erzeugt die SCI-Kommandos und führt die arithmetischen Operationen bei einer locksb-transaktion auf dem DPR-Bus aus. Der Port, Access und enable Manager (PAN_AM) erzeugt einige spezielle DPR-Adressen und Chip-Select- und Write-Enable-Signale. Der CONfiguration manager (CONAN) schließlich verwaltet und decodiert die internen Konfigurationsregister von SUPER_MAN. Eine weitergehende Architekturbeschreibung sowie ein Beispiel für den Ablauf einer Transaktion sind in [2] zu finden. 3.3 Adressierung und Adreßübersetzung Die PCI-SCI-Schnittstellenkarte belegt einen 64 MB großen Bereich im PCI-Adreßraum. Ein 16 MB-Block bietet Zugriff auf die Hardware-Ressourcen der Karte: die DMA-Register des PCI9060, die internen Register von SUPER_MAN (z.b. zur Mikroprogrammierung), das DPR und das ATC-RAM. Ein weiterer 16 MB-Bereich ist derzeit ungenutzt. Die restlichen beiden 16 MB-Blöcke stellen Adreßfenster in den SCI-Adreßraum dar und werden zur Realisierung des SCI-DSM und für Nachrichtenzustellung verwendet. Über den in Bild 3 dargestellten (mittels des ATC-RAM realisierten) Adreßübersetzungsmechanismus können Speicherbereiche von bis zu 256 SCI-Knoten in den lokalen PCI-Adreßraum eingeblendet und (für die Software transparent) mit Speicherzugriffen erreicht werden. Die Adreßabbildung basiert auf einer Seitengröße von 4 KB. Es ist zu beachten, daß diese Adreßumsetzung (in der PCI-SCI-Karte) zusätzlich zu der (von der MMU des Prozessors ausgeführten) Übersetzung der virtuellen Adresse in eine reale (PCI-) Adresse vorgenommen wird. SCI-DSM erfordert also ein zweistufiges Adreßübersetzungsschema. PCI Address: RAM 8192*8 RAM 8192*16 SCI Address: 15 Node ID Local Address Bild 3 Übersetzung von PCI-Adressen in SCI-Adressen 3.4 Entwicklungsmethodik und -umgebung Die FPGAs als zentrale Komponenten der Karte wurden in VHDL beschrieben, simuliert und zum überwiegenden Teil synthetisiert. Verwendung fand die Entwicklungsumgebung der Firma Synopsis. Als FPGAs wurden Bausteine der Familie XC4000E von Xilinx und die zugehörigen Werkzeuge eingesetzt. 3.5 Erste Leistungsmessungen Der Prototyp des PCI-SCI-Adapters ist getestet, aber noch nicht optimiert. Derzeit sind Systemtakt und B-Link-Takt auf 18 MHz beschränkt. (Der LC-1-Takt läuft mit 100 MHz, der

8 SCI-Takt mit 50 MHz, PCI mit 33 MHz.) Durch Optimierungen an der synthetisierten Schaltung sind die projektierten 25 MHz für den Systemtakt zu erreichen. Bild 4 zeigt erste Latenzmessungen bei einer Schreiboperation an der nicht-optimierten Karte im Loopback-Modus (da nur eine Karte verfügbar ist). Die Zeiten wurden jeweils zu einer Transaktion auf den drei Bussystemen PCI, i960-bus und B-Link genommen. Die gesamte Latenz beträgt etwa 3,1 μs. Dies ist trotz der noch geringen Taktrate erheblich besser als die 5 6 μs Latenzzeit der Dolphin SBus-1-Karten, die im SPARCstation-Cluster des LRR-TUM eingesetzt werden. Bei 25 MHz Systemtakt sollte sich diese Latenz auf ca. 2,4 μs reduzieren. Zudem bietet die PCI-SCI-Karte noch die Möglichkeit des Pipelining von bis zu 16 Schreiboperationen. PCI FRAME i960 ADS B-Link FRAME Mbytes/s Write to SCI 400 ns ca. 7T 550 ns 10T ns (LC, SCI) 8 PCI FRAME i960 ADS B-Link FRAME 6 Write to Mem. PCI: 33 MHz i960/b-link: 1 8MHz SCI: 50 MHz 400 ns ca. 7T Incoming Flag 550 ns 10T 825 ns 15T 275 ns 5T Bild 4 Latenz eines Schreibzugriffs über SCI (Loopback, 18 MHz) Data Transfer Size [bytes] Bild 5 Durchsatz DMA-basierter Transfers über SCI (Loopback, 12 MHz) In Bild 5 ist schließlich der Durchsatz von mit Hilfe von DMA durchgeführten Speichertransfers über SCI (Serie von nwrite64-transaktionen) dargestellt, die zur Realisierung schneller Nachrichtentransfers verwendet werden können. Die Tests wurden wieder im Loopback-Modus, diesmal mit 12 MHz Takt, durchgeführt und schließen den Software-Aufwand für das Setzen und Lesen der DMA-Register mit ein. Bis zu einer zu übertragenden Datenmenge von 1024 Bytes (16 64-Byte-Pakete) ergibt sich ein linearer Anstieg des Durchsatzes bis etwa 9 MB/s, da bis zu 16 nwrite64-transaktionen genutzt und ausstehend sein können. Bei größeren Blöcken ergibt sich keine signifikante Durchsatzsteigerung mehr, da auf die Beendigung der Transaktionen gewartet werden muß. Der resultierende Durchsatz beträgt etwa 10 MB/s, mit 25 MHz Takt sollte er auf etwa 20 MB/s ansteigen. 4 Zusammenfassung und Ausblick Der Beitrag stellt eine PCI-SCI-Schnittstellenkarte vor, die zum Aufbau eines SCI-gekoppelten Clusters von PCs eingesetzt wird. DSM und hohe Kommunikationsleistung, insbesondere kurze Latenzzeiten, sind vorteilhafte Eigenschaften dieses Clusters. Das Projekt SMiLE wird kurz dargestellt, in dem dieses Cluster für parallele Programmierung und für Forschungsarbeiten zur effizienten Nutzung von DSM-Systemen genutzt wird. Ein Prototyp der PCI-SCI-Karte ist funktionsfähig. Derzeit werden Verbesserungen vorgenommen, die die projektierte Leistung der Karte (25 MHz Takt) erbringen sollen. Die Fertigung einiger dieser Karten wird vorbereitet, so daß ein kleines Cluster in Betrieb genommen

9 werden kann. Die PCI-SCI-Schnittstellenkarte wird in einem nächsten Schritt um Monitoring-Hardware erweitert, mit der von einem Knoten ausgehende, entfernte Speicherzugriffe erfaßt und einem Leistungsanalysewerkzeug zur Verfügung gestellt werden können. Die Software-Entwicklungen konzentrieren sich bisher auf die effiziente Realisierung von Bibliotheken zur Nachrichtenkommunikation. Aktuelle Messungen zeigen, daß z.b. für Active Messages durch Nutzung des DSM niedrige Latenzen und hohe Durchsatzraten erzielt werden können, z.b. 15 μs Zwei-Wege-Latenz auf einem SCI-Cluster von UltraSPARCs [9]. Literatur [1] G. Acher. Entwicklung eines SCI-Knotens zur Kopplung von PCI-basierten Arbeitsplatzrechnern mit Hilfe von VHDL. Diplomarbeit, Institut für Informatik, Technische Universität München, Okt [2] G. Acher, H. Hellwagner, W. Karl, M. Leberecht. A PCI-SCI Bridge for Building a PC Cluster with Distributed Shared Memory. Proc. 6th SCIzzL Workshop on SCI-based Local Area Multiprocessors. Santa Clara Univ., Sept [3] M. Eberl. Realisierung einer DSM-Implementation von Active Messages am Beispiel eines SCIgekoppelten Sun Workstation Clusters. Diplomarbeit, Institut für Informatik, Technische Universität München, Aug [4] T. von Eicken, D.E. Culler, S.C. Goldstein, K.E. Schauser. Active Messages: a Mechanism for Integrated Communication and Computation. Proc. 19th Int l. Symp. on Computer Architecture. ACM Press [5] A. Geist, A. Beguelin, J. Dongarra, W. Jiang, R, Manchek, V. Sunderam. PVM: Parallel Virtual Machine. A User s Guide and Tutorial for Networked Parallel Computing. MIT Press [6] R.B. Gillett. Memory Channel for PCI. IEEE Micro, Feb. 1996, [7] H. Hellwagner, V. Sunderam. Parallel Distributed Computing on SCI Workstation Clusters: Early Experiences. PARS-Mitteilungen, Nr. 14, Dez [8] H. Hellwagner, I. Zoraja, V. Sunderam. PVM Data Transfers on SCI Workstation Clusters: Early Experiences. Proc. PVM User Group Meeting 1996, Santa Fe, New Mexico, /bay.lanl.gov/pvmug96/proceedings.html. [9] H. Hellwagner, M. Leberecht, W. Karl. Enabling a PC Cluster for High Performance Computing. To appear in: The SPEEDUP Journal, Vol. 11, No. 1, [10] Special Issue on Hot Interconnects. IEEE Micro, Feb [11] M. Leberecht. A Concept for a Multithreaded Scheduling Environment. Proc. 4th PASA Workshop on Parallel Systems and Architectures. World Scientific Publishing [12] S.J. Leffler, M.K. McKusick, M.J. Karels, J.S. Quarterman. The Design and Implementation of the 4.3BSD UNIX Operating System. Addison-Wesley [13] Proc. Second NOW/Cluster Workshop. [14] K. Omang, B. Parady. Performance of Low-Cost UltraSparc Multiprocessors Connected by SCI. Research Report 219. Dept. of Informatics, University of Oslo, June [15] J. Protic, M Tomasevic, V. Milutinovic. Distributed Shared Memory: Concepts and Systems. IEEE Parallel and Distributed Technology, Summer 1996, [16] ANSI/IEEE Std : IEEE Standard for Scalable Coherent Interface (SCI). IEEE Computer Society Press [17] J. Weidendorfer. Entwurf und Implementierung einer Socket-Bibliothek für ein SCI-Netzwerk. Diplomarbeit, Institut für Informatik, Technische Universität München, Feb