A New Generation of Cluster Interconnect: The SiCortex Family

Größe: px
Ab Seite anzeigen:

Download "A New Generation of Cluster Interconnect: The SiCortex Family"

Transkript

1 Ruprecht-Karls-Universität Heidelberg Institut für technische Informatik (ZITI) Sommersemester 2013 Seminar: Themen der technischen Informatik Dozent: Prof. Dr. Ulrich Brüning Betreuer: Dr. Frank Lemke Studentin: Hanna Khoury Datum: A New Generation of Cluster Interconnect: The SiCortex Family Hanna Khoury Matrikelnr.: Fächer: Deutsch/LA, Spanisch/LA, Informatik/LA Fachsemester: 15/15/6 Anschrift: Karlsruher Straße Heidelberg -Adresse: hanna.s.khoury@googl .com

2 Inhaltsverzeichnis 1) EINFÜHRUNG: DER SUPERCOMPUTER ) KLASSISCHER AUFBAU ) WOZU EIN NEUER ANSATZ? ) DIE SICORTEX FAMILIE ) HINTERGRÜNDE ) DIE HARDWARE ) DMA-Engine ) Fabric-Switch ) Fabric-Link ) DAS SOFTWARE-INTERFACE ) DIE SOFTWARE ) Grundbefehle ) Zubehör ) DIE KAUTZ-TOPOLOGIE ) PERFORMANCE-VERGLEICH: HERKÖMMLICHES CLUSTER VS. SC ) FAZIT UND DISKUSSION ) QUELLENVERZEICHNIS ) PAPER UND INTERNETQUELLEN ) ABBILDUNGSVERZEICHNIS ) SELBSTSTÄNDIGKEITSERKLÄRUNG... 19

3 1) Einführung: Der Supercomputer Ein Supercomputer [1] ist ein Computer-Cluster, das heißt es werden diverse Einzelrechner miteinander vernetzt. Diese einzelnen Knoten enthalten ihrerseits mehrere Rechenkerne und können sich Peripheriegeräte und Hauptspeicher teilen. Diese Vorgehensweise eignet sich besonders zur Lösung sehr komplexer Probleme, die sich gut verteilen lassen und von Einzelsystemen nicht mehr effizient berechnet werden können, wie beispielsweise Klimasimulationen, Aerodynamikprobleme oder Proteinfaltungen, auf die verschiedenen Knoten verteilt und berechnet werden können. Dabei werden entweder die Operationen in Teiloperationen untergliedert, die auf die Prozessoren verteilt werden, oder der Datensatz wird in kleinere Teildatensätze zerlegt. Im Folgenden wird nun zunächst der klassische Aufbau eines Supercomputers skizziert, woraufhin es zu diskutieren gilt, an welchen Kritikpunkten dieses Systems ein alternativer Ansatz anknüpfen kann. Das zweite Kapitel stellt dann die SiCortex Familie vor, wobei erst auf die Firmenhintergründe eingegangen wird. Anschließend werden von der Hardware aufwärts erst die wichtigsten Hardware-Komponenten, dann das Software-Interface und schließlich die Software vorgestellt. Zuletzt wird auf die dem Interconnect zugrunde liegende Idee der Kautz-Topologie erläutert. 1.1) Klassischer Aufbau Meist werden Hochleistungsprozessoren verwendet, um ein Computer-Cluster zu bauen. So soll das gesamte System von der hohen Leistung und der Schnelligkeit der Einzelprozessoren profitieren. Häufig werden diese Cluster von Rechenzentren, Forschungseinrichtungen oder Firmen eingesetzt. Daher handelt es sich zumeist um im freien Handel erwerbbare Einzelprozessoren und Open-Source-Software. Als ein Beispiel für eine herkömmliche Cluster-Technik kann das Myrinet- Netzwerk der Firma Myricom [2] dienen. Es verwendet eine Clos-Topologie und zeichnet sich durch geringen Protokollsteuerungsaufwand, einen dadurch höheren Datendurchsatz, wenige Schnittstellenkarten und kurze Latenzzeiten aus. Es verwendet 2,2 GHz Opteron Prozessoren und ein Portable Batch System (PBS), welches das Job-Scheduling regelt [3].! "!

4 1.2) Wozu ein neuer Ansatz? Herkömmliche Systeme erreichen oft nicht ihre Spitzenleistung, weil die Latenzzeiten so hoch sind. SiCortex wollte dagegen vorgehen, indem nicht einfach die Rechenzeit verkürzt wird, sondern auch Wartezeiten reduziert werden [4]; hierbei geht es zum einen um Speicherzugriffen, zum anderen um die Kommunikation zwischen den Prozessoren. Die enorme Zeitersparnis ist das gewichtigste Argument seitens SiCortex für ihr System und wird auch durch das effiziente Interconnect ermöglicht. Zudem ist die Skalierbarkeit häufig verbesserungswürdig, da bei steigender Prozessorenzahl die Kommunikation zwischen den Einzelprozessoren immer aufwändiger wird. Anstatt diese also als zeitintensive I/O-Funktion anzusehen, soll eine dichte Konstruktion mit sechs Prozessoren auf einem Node Chip geringe Latenz, hohe Bandbreite und schnelle Kommunikation zwischen den Knoten ermöglichen. Auch wollte SiCortex die Zahl der Einzelkomponenten reduzieren und so Fehlerquellen ausräumen. Gerade die Zuverlässigkeit lässt sich in herkömmlichen Systemen nur schlecht sichern, weil zu viele Einzelelemente involviert sind, welche die Fehleranfälligkeit des gesamten Systems drastisch erhöhen. Ist so beispielsweise ein Crash pro Jahr noch akzeptable, solange es sich um einen Einzelknoten handelt, ist dies bei mehreren Hundert Knoten nicht mehr zu verantworten. Weil die von SiCortex verwendeten Prozessoren jedoch wenig Strom brauchen, wird weniger Hitze erzeugt und viele Knoten können näher zusammengebracht werden. Dadurch können die Links des Interconnects elektrische Signale direkt auf dem Board verwenden, sodass keine externen Elemente notwendig sind. 2) Die SiCortex Familie 2.1) Hintergründe SiCortex [5] war eine Firma, die sich auf die Herstellung von Supercomputern spezialisiert hat. Sie wurde 2003 gegründet und hatte ihren Hauptsitz in Maynard, Massachusetts. Gefertigt wurde ein komplettes Cluster-System, in dem alle Elemente vom einzelnen Kernprozessor über den Compiler bis hin zur Software aufeinander abgestimmt sind, und das somit als Spezialrechner bezeichnet werden kann. Eine Besonderheit der SiCortex-Systeme! #!

5 ist die Verwendung der Kautz-Topologie aus, die besagt, dass alle Einzelrechner (Knoten / nodes) in einem Kautz-Graphen angeordnet sein sollen. Die Idee, die hinter dem System steht, gründet auf der Überlegung, dass mit wachsender Knotenzahl vor allem die Latenzzeiten, die Länge der Übertragungswege und die Anzahl der nötigen Hops innerhalb eines Pfades die Prozesse verlangsamen. Dies hat zur Folge, dass ab einer gewissen Knotenzahl keine Steigerung der Effizienz mehr dadurch zu erreichen ist, dass noch mehr Prozessoren verwendet werden, da gerade auf diese Weise auch die Übertragungswege wieder länger werden. SiCortex setzte deshalb nicht auf Hochleistungsprozessoren, sondern auf ein effizientes Clustering, welches gerade mit Hilfe der Kautz-Topologie erreicht werden sollte. Die SiCortex-Familie bestand aus vier Modellen [4], dem SC072, SC648, SC1458 und dem SC5832, wobei das kleinste Modell zwölf, das größte 972 Knoten aufweist. Obwohl das System als Erfolg versprechend eingestuft wurde, musste die Firma 2009 geschlossen werden, weil ihr während der Wirtschaftskrise kein weiteres Kapital zur Verfügung gestellt wurde. In einer Auktion wurden die Patente verkauft, wobei Cray Inc. [6] die Rechte am PathScale Compiler erwarb. 2.2) Die Hardware Der wichtigste Teil der Hardware [7] ist der sogenannte Node Chip, d.h. der Einzelknoten und seine Gestaltung, welcher in Abbildung 1 zu sehen ist. Der Node Chip besteht aus sechs 64- bit-prozessoren mit ihren jeweiligen L1-Caches und einem gemeinsamen kohärenten L2- Cache. Für jedes der beiden Speichermodule gibt es einen Memory-Controller. Das PCI- Express-Interface (Peripheral-Connect-Interface) regelt die Ein- und Ausgabe von bzw. nach außen. Weitere Interconnect-Komponenten, die im Folgenden näher erläutert werden sollen, sind der DMA-Engine, der Fabric-Switch und der Fabric-Link.! $!

6 Abb. 1: Aufbau des Node-Chips [7] 2.2.1) DMA-Engine Der DMA-Engine implementiert das Software-Interface des Interconnects und übersetzt Anfragen in sogenannte Packet Streams. Er stellt somit die Verbindung zwischen Prozessor und Fabric Switch dar und kommuniziert auf Cache-Level mit dem L2-Cache. Dadurch sind zum einen alle Aktivitäten innerhalb des Nodes Cache-kohärent, zum anderen reduziert sich die Latenzzeit der Nachrichten von Programmen, weil sie nicht durch den Hauptspeicher müssen. Die Kommunikation mit dem Fabric-Switch erfolgt über je drei Transmit- und Receive-Ports ) Fabric-Switch Der Fabric-Switch koordiniert die Verbindungen vom und zum DMA-Engine. Anstatt hierfür das übliche Store-and-forward-Routing [8] zu verwenden, welches die Daten vor der Weiterleitung an die Zieladresse in Zwischenspeichern anhand einer CRC-Prüfsumme auf Integrität prüft, kommt das Cut-Through-Routing [9] zum Einsatz. Dieses verzichtet darauf, die Integrität der Daten vorab zu prüfen und schickt die Nachricht stattdessen sofort nach Erhalt der Zieladresse weiter. Dadurch kann die Latenz verringert werden. Außerdem verhindert dieses Routing Deadlocks, weil die Weiterleitung der Prozesse nicht von Zwischenergebnissen abhängig ist. Der verwendete Error-Correcting-Code (ECC) erhöht! %!

7 zudem die Fehlertoleranz. Liegt trotz verwendeten ECC-Verfahrens immer noch ein Fehler vor, so wird dieser erst nach Erhalt der Nachricht gefunden, da der CRC-Check erst am Ende des Packets erfolgt. Fehlerhafte Pakete werden verworfen und erneut gesendet. Hier kommt der Replay Buffer zum Einsatz, welcher im Falle eines Fehlers alle Packets ab dem letzten korrekten Packet erneut senden. Dieses Re-Transmit erfolgt in-order, wodurch sichergestellt ist, dass keine Informationen durcheinander geraten oder sich anderweitige Fehler einschleichen. Für den Fall, dass ein Kanal besetzt ist, werden zusätzlich eingebaute Store-and- Forward-Buffer eingesetzt. Diese speichern die Nachricht, bis der Kanal wieder frei ist, sodass keine Teilnachrichten verloren gehen. So müssen die längeren Latenzzeiten nur in Kauf genommen werden, wenn tatsächlich Kanalengpässe vorliegen ) Fabric-Link Der Fabric-Link stellt eine direkte Verbindung zu den anderen Node Chips dar. Jeder Link ist eine multiple Spur aus SerDes PHYs, die eine Übertragungsrate von 2GB/s haben. Die Links übertragen nun die Packet-Streams, die vom Fabric-Switch an andere Knoten geschickt werden. Die Packet-Streams enthalten die Informationen, die für die CRC-Fehlererkennung und die Data Recovery über den Replay Buffer notwendig sind. Ein einzelnes Datenpaket, wie in Abbildung 2 dargestellt, besteht dabei aus maximal bit-Wörtern, wobei der Header die Zieladresse speichert, die für das Cut-through- Routing gleich zu Beginn übertragen werden muss. Optional kann dann ein Kontrollwort für den entfernten Zielknoten (RDMA) angegeben werden. Es folgen 16 Wörter, die für Nutzdaten in einer Größe von insgesamt 128 Bytes reserviert sind. Der Anteil der Nutzdaten lässt sich mit folgender Gleichung errechnen: Payload = Datenwörter / Gesamtpaketlänge = 16 / 19! 0,842 Somit können pro Packet zirka 84,2% Nutzdaten übertragen werden, wogegen beispielsweise über Ethernet bei gleichem Payload nur eine Auslastung von ca. 77% möglich ist. Im letzten Wort sind die CRC-Prüfsumme und Typinformationen enthalten.! &!

8 Abb. 2: Aufbau eines Daten-Packets [7] 2.3) Das Software-Interface Der DMA-Engine implementiert das Software-Interface [7], welches den Programmen erlaubt, die Hardware zu verwenden. Das Interface besteht aus 14 DMA-Kontexten pro Knoten. Jeder Kontext ist dabei das Set aus Registern und Datenstrukturen, welches die Programme mit dem DMA-Engine teilen. Folgende Datenstrukturen sind im Software- Interface verfügbar: Die Command Queue (CQ) und die Event Queue (EQ) sind zirkuläre Zwischenspeicher, wobei erstere Befehle für den DMA Engine zur Verfügung stellt und letztere erhaltene Kurzmitteilungen oder Events weiterleitet, die anzeigen, dass die Aktivität am RDMA abgeschlossen ist. Auf dem Heap werden Befehlsketten abgelegt, der DMA kann eigene Mitteilungen dazuschreiben. In der Route Descriptor Table (RDT) werden über Indizes Routen zu anderen DMA-Kontexten festgelegt. Ebenfalls über Indizes werden in der Buffer Descriptor Table (BDT) Seiten im virtuellen Speicher des Nutzers ausgewiesen. Das implementierte Message Passing Interface (MPI) stellt neben den üblichen MPI- Funktionen spezielle Hardware-Unterstützung für DMA-Driven Collectives und eine eigene Barrier zur Verfügung. Gerade die optimierten Collectives stellen eine Besonderheit dar, die nicht jedes System, welches MPI unterstützt, bieten kann. Sie ermöglichen, dass Daten gleichzeitig von mehreren Knoten geschickt und empfangen werden können. Dieser Prozess lässt sich darüber hinaus noch beschleunigen, indem verschiedene Kommunikationsschritte schon innerhalb eines DMA-Engines ablaufen, anstatt die Prozessoren zu involvieren, welche! '!

9 so entlastet werden. Auch eine Barrier wird nicht von jedem MPI integriert und fungiert so als besonderes Feature des SiCortex Software-Interface. Die Barrier ist eine Grenze für Instruktionen, die erst passiert werden kann, wenn alle Prozesse abgeschlossen sind. Die so erfolgende Synchronisierung der Prozesse verhindert Fehler, die auftreten könnten, wenn Prozesse von Zwischenergebnissen anderer Prozesse abhängig sind, die jedoch noch nicht am Ende angelangt sind. Umgesetzt wird die Barrier, indem zunächst in einer Reduktionsphase ein Zähler im DMA-Engine dekrementiert wird, sobald ein Packet vollständig ankommt. Bekommt der Zähler einen negativen Wert, so wird eine Befehlsfolge ausgelöst, welche die Software in einer Baumstruktur anordnet. Sobald die Wurzel dieses Baumes erreicht ist, wird ein Broadcast ausgelöst, welches eine Nachricht der Länge Null sendet. Die Barrier soll in maximal zwölf Schritten passiert werden können, wobei sie ebenso wie die Collectives keine Prozessorleistung erfordert. 2.4) Die Software 2.4.1) Grundbefehle Die Software, die mit dem Interconnect mitgeliefert wird, stellt vor allem Grundbefehle [7] für den DMA (DMA-Primitives) zur Verfügung. Diese Befehle werden zunächst in die CQ geschrieben, dann wird ein I/O-Register erstellt, dass die Existenz neuer Befehle rückmeldet. Das größte Potential dieser Primitives ist, dass Befehle an entfernte DMA-Kontexte (RDMA) geschickt werden können. So leitet der Befehl send-event einzelne Packets an die EQ, der Befehl send-command einen DMA-Befehl an einen entfernten DMA-Kontextes weiter. Write-heap schreibt die Daten eines einzelnen Packets an einen Speicherplatz eines entfernten Heaps. Do-command dekrementiert einen Zähler und wenn das Ergebnis negativ ist, wird eine Liste von Befehlen im lokalen Heap ausgeführt. Mit put-buffer kann ein ganzer Speicherteil an einen entfernten Kontext geschickt werden. Optional kann dort dann ein Event ausgelöst oder ein Befehl ausgeführt werden. Auch lassen sich Befehle zu wichtigen Funktionen kombinieren: So setzen sich beispielsweise get-funktionen, die einem RDMA gelten, aus Send-Befehlen und einem eingebetteten put-buffer -Befehl zusammen.! (!

10 2.4.2) Zubehör Wie bereits erwähnt, enthalten die SiCortex-Produkte alle notwendigen Komponenten bereits ab Werk. So wird neben der Software auch einiges an Zubehör mitgeliefert, welches explizit für die übrigen SiCortex-Komponenten angelegt ist. Im Folgenden werden kurz die Treiber, Compiler und mitgelieferten Bibliotheken [4] vorgestellt. Das Linux-System hat drei Treiber, die extra an die SiCortex-Produkte angepasst sind. Der Fabric-Treiber unterstützt den DMA-Engine mit Hilfe von Anwendungen der Bibliotheken des MPI. Der SCethernet-Treiber ist ein Treiber des Linux-Netzwerkes, der IP- Frames überträgt. Der dritte mitgelieferte Treiber ist der MSP-Treiber, der die Kommunikation von Netzwerk und Konsole mit dem MSP (Module Service Processor) und dem SSP (System Service Processor) unterstützt. Auch zwei Compiler sind gehören zu jedem Cluster-Modell dazu: Der GNU-Compiler unterstützt C und C++, der QLogic PathScale-Compiler ist spezifisch an die SiCortex- Produkte angepasst und unterstützt Fortran 77, Fortran 95, C und C++. Ebenso stehen zwei Debugger zur Verfügung: der GNU gdb Debugger und der TotalView-Debugger. Die enthaltenen Bibliotheken sind besonders hilfreich für die Entwicklung wissenschaftlicher Anwendungen, weil besonders mathematische und wissenschaftliche Pakete angeboten werden, wie beispielsweise BLAS, LINPACK, FFT, LAPACK, CBLAS, BLACS, Hypre und ScaLAPACK. Diese wurden darüber hinaus ständig von SiCortex im Rahmen ihres Benutzerservices optimiert, getestet und gewartet. 2.5) Die Kautz-Topologie Das mit der Kautz-Topologie [10] implementierte Netzwerk ist das Kernstück, auf das sich die SiCortex Familie am meisten stützt, wenn es um die Optimierung der Kommunikation zwischen den Knoten geht. Durch die Vernetzung der Knoten in einem Kautz-Graphen soll die Anzahl der nötigen Hops im Pfad zwischen zwei entfernten Knoten reduziert werden. N Bei einem Kautz-Graphen K +1 M handelt es sich um einen gerichteten Graph mit dem Grad M und der Dimension N+1. Die einzelnen Knoten des Graphen lassen sich mit Wörtern benennen, die aus einer Zeichenkette s 0... s N mit der Länge N+1 bestehen. Die Zeichen sind Buchstaben aus einem Alphabet A mit insgesamt M+1 Zeichen. Innerhalb eines Wortes! )!

11 dürfen benachbarte Buchstaben nicht gleich sein (s i! s i+1 ). Die Knoten des Graphen werden jeweils so verbunden, dass der letzte Buchstabe eines Knotennamens mit dem ersten Buchstaben des folgenden Knotennamens übereinstimmt, wie beispielsweise in Abbildung 3: AB! BA, AB! BC. Aus diesen Bestimmungen lassen sich zudem sowohl die Anzahl der Knoten als auch die Anzahl der Kanten in Abhängigkeit von M und N berechnen. So besitzt ein Kautz-Graph (M+1)*M N Knoten und (M+1)*M N+1 Kanten. Abb. 3: Kautz-Graph mit Grad M = 2, Anzahl der Buchstaben (N+1) = 3 Wortlänge (N+1) = 2 [10] Aufgrund seiner mathematischen Gegebenheiten besitzt der Kautz-Graph viele wertvolle Eigenschaften, die den Anforderungen eines Interconnects durchaus gewachsen sind. So hat er den kleinstmöglichen Durchmesser bei festem Grad, was bedeutet, dass der Pfad zwischen den beiden am weitesten voneinander entfernten Knoten so kurz wie möglich gehalten wird. Ohne den Grad zu verändern und pro Knoten Kanten hinzuzufügen, kann also die maximale Obergrenze für die Länge des längsten Pfades gering gehalten werden. Eine Übersicht darüber, was dies konkret für das Interconnect bedeutet, veranschaulicht Abbildung 4. Durchmesser Grad = Grad = Grad = Abb. 4: Anzahl der Knoten im Kautz-Interconnect In dieser Tabelle lässt sich leicht ablesen, dass selbst für sehr viele Knoten sowohl der Grad als auch der Durchmesser sehr gering bleiben. Hier soll exemplarisch das größte der vier! *+!

12 SiCortex-Modelle, der SC5832, betrachtet werden: Der SC5832 hat 972 Einzelknoten, das heißt, dass ihm laut der Tabelle ein Kautz-Graph mit Grad M=3 und einem Durchmesser d=6 zugrunde liegt. Folglich kann jeder Knoten Nachrichten von drei anderen Knoten empfangen (entsprechend gibt es drei Transmit- und drei Receive-Ports an jedem Fabric-Switch), und der längste Pfad zwischen zwei beliebigen Knoten benötigt maximal sechs Hops. Außerdem enthält jeder Kautz-Graph sowohl einen Eulerkreis als auch einen Hamiltonkreis. Da der Eulerkreis [11] eine geschlossene Tour ist, die keine Kante mehr als einmal entlang fährt, müssen auch im Interconnect keine redundanten Wege zwischen zwei Knoten zurückgelegt werden. Der Hamiltonkreis [12] ist ebenfalls ein geschlossener Kreis und besagt umgekehrt, dass jeder Knoten nur einmal getroffen werden darf. Mit der Kombination dieser beiden Kreise ermöglicht der Kautz-Graph also ein maximal effizientes Routing, da sowohl redundante Wege als auch mehrfaches Passieren desselben Knotens ausgeschlossen sind. Zusätzlich hat ein Kautz-Graph des Grades k auch k disjunkte Pfade von einem beliebigen Knoten x zu einem beliebigen zweiten Knoten y. Disjunkte bzw. alternative Pfade ermöglichen auch alternatives Routing für den Fall, dass bestimmte Verbindungen bereits genutzt werden, wodurch wiederum Latenzzeiten verringert und Deadlocks vermieden werden können. 3) Performance-Vergleich: herkömmliches Cluster vs. SC072 Die Sandia National Laboratories, Albuquerque, haben das kleinste Modell der SiCortex Familie mit einem herkömmlichen Computer-Cluster verglichen. Dabei haben sie zum einen die Kommunikation zwischen den Prozessoren und zum anderen einige Mikro-Anwendungen auf beiden Systemen durchgeführt. Zuletzt wurde der Fokus des Vergleichs auf die Performance pro Watt gelegt. Hier soll nicht der gesamte Perfomance-Vergleich [3] nachgezeichnet, sondern nur einige Microbenchmarks, der HPCCG und der phdmesh, herausgegriffen werden. Verglichen wurde, wie bereits angedeutet, der SC072, zwölf Knoten und bit MIPS Kernprozessoren mit 500 MHz, mit einem Cluster das ebenfalls 72 Prozessoren, jedoch handelt es sich bei letzterem um 2,2 GHz AMD Opteron-Prozessoren. Die Vergleichbarkeit der beiden Systeme wurde auf die gleiche Prozessorenzahl zurückgeführt. Da besonders Aufmerksamkeit der Leistung pro Watt zukam, ist an dieser Stelle anzumerken, dass der! **!

13 SC072 eine Single Core Peak Floating Point Rate von einem GFLOPS (Floating Point Operation Per Second) hat, des bei einem Stromverbrauch von 15 Watt, während das alternative System eine Single Core Peak Floating Point Rate von 4,4 GFLOPS aufweist, bei einem Stromverbrauch von 85,3 Watt. Dies entspricht einem durchschnittlichen Stromverbrauch von zirka 19,3 Watt pro GFLOPS beim herkömmlichen Cluster, also knapp fünf Watt mehr als beim SC072. Der phdmesh ist ein Microbenchmark, das Operationen auf parallelen, heterogenen und dynamisch-unstrukturierten Netzen durchführt. Diese Anwendung berechnet die Zeit für parallele geometrische Suchen pro Schritt. Wie auch bei den übrigen Microbenchmarks wurde von drei Durchläufen der Durchschnitt der Werte errechnet und aus diesen Werten wurde ein Plotting erstellt. In Abbildung 5 ist das Strong Scaling des phdmeshs [13] zu sehen, das heißt, die Problemgröße war für die Gesamtheit der Prozessoren festgelegt. Abb. 5: phdmesh, Strong Scaling [3] Hier ist auffällig, dass der SC072 zwar zu Beginn recht langsam ist, sich aber mit steigender Prozessorenzahl stark dem Vergleichscluster annähert. Dies überrascht angesichts der leistungsschwächeren Prozessoren des SC072 und spricht für die Effektivität des Interconnects. Hier ist hinzuzufügen, dass der SC072 bei den Tests zur Kommunikation zwischen den Knoten tatsächlich recht gut abgeschnitten hatte. Der HPCCG-Microbenchmark [13] löst partielle Differentialgleichungen und trifft so eine Aussage über die Performanz des jeweiligen Clusters. Als Maß für die Leistung dienen die bereits erwähnten FLOPS, eine Einheit, welche die für Gleitkommaoperationen wie die! *"!

14 Addition oder die Multiplikation benötigte Zeit ausdrückt. Das Plotting in Abbildung 6 zeigt ein Weak Scaling, die Problemgröße ist also für den Einzelprozessor, nicht für die Gesamtheit der Prozessoren festgelegt. Abb. 6: HPCCG, Performance in MFLOPS [3] Hier bietet sich nun ein umgekehrtes Bild. Die Performanz des SC072 ist nur zu Beginn mit der des herkömmlichen Clusters zu vergleichen. Mit steigender Prozessorzahl bleibt er jedoch hinter diesem weit zurück, was auf die Hochleistungsprozessoren des Opteron-Clusters zurückzuführen ist. Auch wenn die Performanz in FLOPS nicht unbedingt für das SiCortex-Produkt spricht, so erreicht das System wenigstens die eingangs geforderte Skalierbarkeit. Die Skalierbarkeit drückt aus, ob die Leistung proportional zur Erhöhung der Knoten zunimmt, und ist daher eine wichtige Größe für High-Performance-Computing-Systeme. Die Grafik in Abbildung 7 zeigt die Ergebnisse des HPCCGs zur Skalierbarkeit.! *#!

15 Abb. 7: HPCCG, Skalierbarkeit [3] Hier zeigt das SiCortex-Cluster durchgängig eine bessere Leistung pro Knoten (da hier ebenfalls ein Weak Scaling vorliegt) als das Opteron-Cluster. Die SiCortex-Prozessoren erreichen bei bis zu 72 Prozessoren eine Leistung von über 95%, während das Opteron- Cluster unter 88% fällt. Daher kann man sagen, dass der ausbalancierte Ansatz von SiCortex fast volle Leistungsfähigkeit gewährleistet. 4) Fazit und Diskussion Das SiCortex Cluster Interconnect sollte eine ausbalancierte Alternative zu den herkömmlichen HPC-Clustern, in denen nicht alle Komponenten aufeinander abgestimmt und optimiert sind, darstellen. Die Idee war, einen Spezialrechner zu bauen, der bereits alle nötigen Features enthält angefangen bei der Hardware, die effizient und Fehler reduzierend entworfen ist, über direkt abgestimmte Compiler und Treiber bis hin zur Software. Das Ziel war es, das System zuverlässiger zu gestalten, dabei trotz hoher Leistung wenig Strom zu verbrauchen und das Cluster noch zu einem günstigen Preis anbieten zu können. Tatsächlich bewarb SiCortex das Produkt mit niedrigem Stromverbrauch wegen leistungsschwächeren Prozessoren, einer hohen Fehlertoleranz dank ECC-Verfahren und redundantem Routing sowie großer Zuverlässigkeit und Stabilität aufgrund der leistungsschwächeren, aber robusteren Prozessoren. Zudem wurden Zuverlässigkeit und Stabilität auch erhöht, indem! *$!

16 viele Prozessorkerne auf einem Node Chip angelegt waren und so auch externe Verbindungen und Verkabelungen reduziert werden konnten. Gerade die Verkabelung ist eine häufige Fehlerquelle, die so minimiert wurde. Open-Source-Software anstatt der teuren Softwarelösungen herkömmlicher Systeme sollte das System anpassungsfähig und kostengünstiger machen. Der Clou hinter dem System ist die Einsparung von Wartezeit und Kommunikationszeit zwischen den Prozessoren, die das Cluster ebenso leistungsstark machen sollte wie herkömmliche Cluster. Dabei sollte die geringere Prozessorleistung ausgeglichen werden, indem Latenzzeiten gering gehalten werden, sodass in den Softwareanwendungen versucht wurde, die Hauptspeicherzugriffe zu minimieren und Operationen in den DMA- Engine zu verlagern. Letzteres vermeidet die Involvierung der Prozessoren, sodass diese zusätzlich entlastet werden. Die größte Besonderheit ist wohl die Kautz-Topologie, welche die Prozessorknoten miteinander verbindet. Dieses Interconnect bietet zum einen alternative Pfade zwischen den Knoten, sodass fehlerhafte oder belegte Routen vermieden werden können. Zum anderen bietet es aufgrund der Eigenschaften des Kautz-Graphen auch bei sehr hoher Knotenzahl die Möglichkeit, mit wenigen Hops Daten von einem Knoten zu einem beliebigen anderen zu schicken. Hierbei ist zu betonen, dass diese Möglichkeit kein Best- Case-Szenario darstellt, sondern auch der Worst-Case aufgrund geringem Durchmesser bei festem Grad nur wenige Hops benötigt. Betrachtet man den Performance-Vergleich, fällt jedoch auf, dass das Cluster tatsächlich hinter den beworbenen Vorzügen zurückbleibt. Das Opteron-Cluster schneidet besser ab, wenn es um Performance geht, lediglich der Stromverbrauch und die Skalierbarkeit sind bei SiCortex besser, während die Kommunikation zwischen den Knoten vergleichbar gut ist. Einerseits lässt sich hier argumentieren, dass dieses Ergebnis beim Performance-Test pro Knoten nicht weiter überrascht, weil das Opteron-Cluster die leistungsstärkeren Prozessoren verwendet. Das SiCortex-Cluster setzt dabei jedoch darauf, dieselben Operationen in vergleichbarer Zeit ausführen zu können, obwohl schwächere Prozessoren verarbeitet wurden. Eine Leistung, die nur der phdmesh wirklich darstellen kann, bei dem das Ergebnis auch zufriedenstellend war. Inwiefern sich dieses Interconnect durchgesetzt hätte, wenn sich nicht die Weltwirtschaftskrise 2009 [14] auch auf die HPC-Industrie ausgewirkt und SiCortex weiterhin Kapitalzuschüsse erhalten hätte, lässt sich nur vermuten. Hier kann man sich einerseits auf Erfahrungsberichte der ersten Kunden stützen: So erwarb eine Universität [15] in den Vereinigten Staaten von Amerika den SC648 für $, um dann festzustellen, dass die Leistungsfähigkeit nicht ausreicht. Das nächstgrößere Modell, der SC1458, lief dagegen! *%!

17 keine vier Monate ohne Hardware-Fehler, was neben der tatsächlichen Performanz auch die Zuverlässigkeit des Systems in Frage stellt. Hier muss eingeräumt werden, dass die Firma nie Gelegenheit hatte, seine Produkte tatsächlich zu überarbeiten und zu optimieren. Die ersten Modelle auf dem Markt stehen somit exemplarisch für das Produkt an sich; da SiCortex geschlossen werden musste, konnte die Technologie in den Folgejahren jedoch nicht ausreifen. Die Universität Magdeburg [16] erwarb das größte Modell, den SC5832 und war mit diesem System dagegen zufrieden, was vor allem auf den niedrigen Stromverbrauch zurückzuführen ist, der noch niedriger gewesen sein soll als beworben. Auch die Komplexität der Kautz-Topologie ist ein wichtiger Faktor. So effizient das hierdurch ermöglichte Routing auch sein mag, so kompliziert, zeitaufwändig und fehleranfällig ist die Konstruktion dieses Interconnects und folglich auch die Wartung und Reparatur. Dies mag auch einer der Gründe sein, warum die Idee seit dem Niedergang der Firma nicht mehr von anderen Entwicklern aufgegriffen wurde. Dieses Mammutprojekt, in dem jede einzelne Komponente die Produktion der Hardwareteile, die Implementierung der Kautz-Topologie, die Bereitstellung und Abstimmung von Compilern, Treibern und sonstiger Software schon eine eigene Geschäftsidee darstellt, birgt trotz der Genialität der Idee ein großes finanzielles Risiko, das heute noch weniger als damals den Aufwand und die Kosten angesichts der gut entwickelten Konkurrenz rechtfertigt.! *&!

18 5) Quellenverzeichnis 5.1) Paper und Internetquellen! [1] [2] [3] Brian J. Martin, Andrew J. Leiker, James H. Laros III and Doug W. Doerfler: Performance Analysis of the SiCortex SC [4] Stewart, C. Lawrence & Gingold, David et.al.: SiCortex Technical Summary. Dezember 2006 [5] [6] [7] Stewart, C. Lawrence & Gingold, David: A New Generation of Cluster Interconnect. Dezember 2006 [8] [9] [10] [11] [12] [13] [14] [15] [16] erhaelt_energieeffizientesten_supercomputer_europas-182.aspx Letzte Zugriffe jeweils am 19. Juli 2013 um 12:52 Uhr. 5.2) Abbildungsverzeichnis! Abbildung 1: Aufbau des Node-Chips [7] Abbildung 2: Aufbau eines Daten-Packets [7] Abbildung 3: Kautz-Graph mit Grad M = 2, Anzahl der Buchstaben (N+1) = 3, Wortlänge (N+1) = 2 [10] Abbildung 4: Anzahl der Knoten im Kautz-Interconnect Abbildung 5: phdmesh, Strong Scaling [3]! *'!

19 Abbildung 6: HPCCG, Performance in MFLOPS [3] Abbildung 7: HPCCG, Skalierbarkeit [3]! *(!

20 6) Selbstständigkeitserklärung Hiermit erkläre ich, Hanna Khoury, dass ich diese Ausarbeitung mit dem Thema A New Generation of Cluster Interconnect: The SiCortex Family im Rahmen des Seminars Themen der technischen Informatik bei Prof. Dr. Ulrich Brüning nur mit Hilfe der gekennzeichneten Quellen angefertigt habe. Heidelberg, den Hanna Khoury! *)!

Distributed Memory Computer (DMC)

Distributed Memory Computer (DMC) Distributed Memory Computer (DMC) verteilter Speicher: jeder Prozessor kann nur auf seinen lokalen Speicher zugreifen Kopplung mehrerer Prozessoren über E/A-Schnittstellen und Verbindungsnetzwerk, nicht

Mehr

Laptop A location aware peer-to-peer overlay network

Laptop A location aware peer-to-peer overlay network Laptop A location aware peer-to-peer overlay network Chi-Jen Wu, De-Kai Liu and Ren-Hung Hwang Seminar peer-to-peer Netzwerke Prof. Dr. Christian Schindelhauer 29. Juli 2009 Überblick Was ist Laptop? Aufbau

Mehr

Informatik 12 Kapitel 2 - Kommunikation und Synchronisation von Prozessen

Informatik 12 Kapitel 2 - Kommunikation und Synchronisation von Prozessen Fachschaft Informatik Informatik 12 Kapitel 2 - Kommunikation und Synchronisation von Prozessen Michael Steinhuber König-Karlmann-Gymnasium Altötting 9. Februar 2017 Folie 1/40 Inhaltsverzeichnis I 1 Kommunikation

Mehr

Oberseminar Netzwerk & Systemmanagement OLSR-NG Optimized Link State Routing Next Generation

Oberseminar Netzwerk & Systemmanagement OLSR-NG Optimized Link State Routing Next Generation Oberseminar Netzwerk & Systemmanagement OLSR-NG Optimized Link State Routing Next Generation Hochschule für Technik, Wirtschaft und Kultur Leipzig 18.11.2008 Oberseminar Netzwerk & Systemmanagement - OLSR-NG

Mehr

Wie groß ist die Page Table?

Wie groß ist die Page Table? Wie groß ist die Page Table? Im vorigen (typischen) Beispiel verwenden wir 20 Bits zum indizieren der Page Table. Typischerweise spendiert man 32 Bits pro Tabellen Zeile (im Vorigen Beispiel brauchten

Mehr

Verteilte Systeme Übung T5

Verteilte Systeme Übung T5 Verteilte Systeme Übung T5 IP- Multicast Exkurs W M-Übertragung an der ETH Nachbesprechung T5 Vorbesprechung T6 Ziele IP-Multicast Exkurs Eine praxistaugliche Technologie aufzeigen I P -Multicast = rel.

Mehr

Kapitel 1 Parallele Modelle Wie rechnet man parallel?

Kapitel 1 Parallele Modelle Wie rechnet man parallel? PRAM- PRAM- DAG- R UND R Coles und Kapitel 1 Wie rechnet man parallel? Vorlesung Theorie Paralleler und Verteilter Systeme vom 11. April 2008 der Das DAG- Das PRAM- Das werkmodell Institut für Theoretische

Mehr

2 Rechnerarchitekturen

2 Rechnerarchitekturen 2 Rechnerarchitekturen Rechnerarchitekturen Flynns Klassifikation Flynnsche Klassifikation (Flynn sche Taxonomie) 1966 entwickelt, einfaches Modell, bis heute genutzt Beschränkung der Beschreibung auf

Mehr

One of the few resources increasing faster than the speed of computer hardware is the amount of data to be processed. Bin Hu

One of the few resources increasing faster than the speed of computer hardware is the amount of data to be processed. Bin Hu Bin Hu Algorithmen und Datenstrukturen 2 Arbeitsbereich fr Algorithmen und Datenstrukturen Institut fr Computergraphik und Algorithmen Technische Universität Wien One of the few resources increasing faster

Mehr

Seminar Mobile Computing Routing in Ad Hoc Netzen

Seminar Mobile Computing Routing in Ad Hoc Netzen Seminar Mobile Computing Routing in Ad Hoc Netzen Bär Urs ubaer@student.ethz.ch Inhalt Was ist ein Ad Hoc Netz? Probleme beim Routing Ausgesuchte Routingverfahren - Destination Sequenced Distance Vector

Mehr

GigE Vision: Der Standard

GigE Vision: Der Standard GigE Vision: Der Standard Rupert Stelz Entwicklung STEMMER IMAGING GmbH Technologie-Tag GigE Vision und GenICam München, 14. September 2006 M E M B E R O F T H E S T E M M E R I M A G I N G G R O U P Gigabit

Mehr

In heutigen Computern findet man schnellen/teuren als auch langsamen/billigen Speicher

In heutigen Computern findet man schnellen/teuren als auch langsamen/billigen Speicher Speicherhierarchie In heutigen Computern findet man schnellen/teuren als auch langsamen/billigen Speicher Register Speicherzellen, direkt mit der Recheneinheit verbunden Cache-Speicher Puffer-Speicher

Mehr

Schreiben von Pages. Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen).

Schreiben von Pages. Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen). Schreiben von Pages Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen). Write Through Strategie (siehe Abschnitt über Caching) ist hier somit nicht sinnvoll. Eine sinnvolle

Mehr

Ein kleiner Einblick in die Welt der Supercomputer. Christian Krohn 07.12.2010 1

Ein kleiner Einblick in die Welt der Supercomputer. Christian Krohn 07.12.2010 1 Ein kleiner Einblick in die Welt der Supercomputer Christian Krohn 07.12.2010 1 Vorschub: FLOPS Entwicklung der Supercomputer Funktionsweisen von Supercomputern Zukunftsvisionen 2 Ein Top10 Supercomputer

Mehr

Busse. Dr.-Ing. Volkmar Sieh WS 2005/2006. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg

Busse. Dr.-Ing. Volkmar Sieh WS 2005/2006. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg Einleitung Bus-Konfiguration Bus-Arbitrierung Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2005/2006 Einleitung Bus-Konfiguration Bus-Arbitrierung

Mehr

Tutorübung zur Vorlesung Grundlagen Rechnernetze und Verteilte Systeme Übungsblatt 6 (27. Mai 31. Mai 2013)

Tutorübung zur Vorlesung Grundlagen Rechnernetze und Verteilte Systeme Übungsblatt 6 (27. Mai 31. Mai 2013) Technische Universität München Lehrstuhl Informatik VIII Prof. Dr.-Ing. Georg Carle Dipl.-Ing. Stephan Günther, M.Sc. Nadine Herold, M.Sc. Dipl.-Inf. Stephan Posselt Tutorübung zur Vorlesung Grundlagen

Mehr

Busse. Dr.-Ing. Volkmar Sieh. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2008/2009

Busse. Dr.-Ing. Volkmar Sieh. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2008/2009 Busse Dr.-Ing. Volkmar Sieh Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2008/2009 Busse 1/40 2008-10-13 Übersicht 1 Einleitung 2 Bus-Konfiguration

Mehr

IP routing und traceroute

IP routing und traceroute IP routing und traceroute Seminar Internet-Protokolle Dezember 2002 Falko Klaaßen fklaasse@techfak.uni-bielefeld.de 1 Übersicht zum Vortrag Was ist ein internet? Was sind Router? IP routing Subnet Routing

Mehr

Chord und Varianten. Vortrag Seminar P2P Systeme. Werner Gaulke Das Chord Projekt Grundlagen Aufbau Varianten Fazit

Chord und Varianten. Vortrag Seminar P2P Systeme. Werner Gaulke Das Chord Projekt Grundlagen Aufbau Varianten Fazit Chord und Varianten Vortrag Seminar P2P Systeme Werner Gaulke 17.07.2007 Werner Gaulke Chord und Varianten 1/22 Outline 1 Das Chord Projekt 2 Grundlagen Distributed Hash Tables 3 Aufbau Ringförmiger Aufbau

Mehr

Lehrstuhl Netzarchitekturen und Netzdienste Institut für Informatik Technische Universität München. IP Fast Reroute. Deniz Ugurlu.

Lehrstuhl Netzarchitekturen und Netzdienste Institut für Informatik Technische Universität München. IP Fast Reroute. Deniz Ugurlu. Lehrstuhl Netzarchitekturen und Netzdienste Institut für Informatik Technische Universität München IP Fast Reroute Deniz Ugurlu ugurlu@in.tum.de Agenda 1. Motivation 2. Loop Free Alternates 3. Not-Via

Mehr

Weitere Verbesserungen

Weitere Verbesserungen Weitere Verbesserungen Welcher Cache liefert aktuellen Block falls mehrere Caches Block im Zustand S halten? Lösung: Einführung eines weiteren Zustands O (Owner) Zustand O besagt: Eigentümer des Blocks

Mehr

Konzepte und Methoden der Systemsoftware. Aufgabe 1: Polling vs Interrupts. SoSe bis P

Konzepte und Methoden der Systemsoftware. Aufgabe 1: Polling vs Interrupts. SoSe bis P SoSe 2014 Konzepte und Methoden der Systemsoftware Universität Paderborn Fachgebiet Rechnernetze Präsenzübung 3(Musterlösung) 2014-05-05 bis 2014-05-09 Aufgabe 1: Polling vs Interrupts (a) Erläutern Sie

Mehr

Dynamisches Huffman-Verfahren

Dynamisches Huffman-Verfahren Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über

Mehr

High Performance Embedded Processors

High Performance Embedded Processors High Performance Embedded Processors Matthias Schwarz Hardware-Software-Co-Design Universität Erlangen-Nürnberg martin.rustler@e-technik.stud.uni-erlangen.de matthias.schwarz@e-technik.stud.uni-erlangen.de

Mehr

Zum Aufwärmen nocheinmal grundlegende Tatsachen zum Rechnen mit reelen Zahlen auf dem Computer. Das Rechnen mit Gleitkommazahlen wird durch den IEEE

Zum Aufwärmen nocheinmal grundlegende Tatsachen zum Rechnen mit reelen Zahlen auf dem Computer. Das Rechnen mit Gleitkommazahlen wird durch den IEEE Zum Aufwärmen nocheinmal grundlegende Tatsachen zum Rechnen mit reelen Zahlen auf dem Computer. Das Rechnen mit Gleitkommazahlen wird durch den IEEE 754 Standard festgelegt. Es stehen sogenannte einfach

Mehr

Verwenden von Hubs. Geräte der Schicht 1 Günstig Eingang an einem Port, Ausgang an den anderen Ports Eine Kollisionsdomäne Eine Broadcast-Domäne

Verwenden von Hubs. Geräte der Schicht 1 Günstig Eingang an einem Port, Ausgang an den anderen Ports Eine Kollisionsdomäne Eine Broadcast-Domäne Von Hubs zu VLANs Verwenden von Hubs Geräte der Schicht 1 Günstig Eingang an einem Port, Ausgang an den anderen Ports Eine Kollisionsdomäne Eine Broadcast-Domäne Hub 1 172.30.1.24 172.30.1.22 Ein Hub Ein

Mehr

ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS. Sascha Kath

ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS. Sascha Kath ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS Sascha Kath Dresden, Gliederung 1. Motivation & Zielstellung 2. Systembeschreibung 3. Implementierung und Messungen

Mehr

Quiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset.

Quiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset. Quiz Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset 32 Bit Adresse 31 3 29... 2 1 SS 212 Grundlagen der Rechnerarchitektur

Mehr

Protected User-Level DMA in SCI Shared Memory Umgebungen

Protected User-Level DMA in SCI Shared Memory Umgebungen Protected User-Level DMA in SCI Shared Memory Umgebungen Mario Trams University of Technology Chemnitz, Chair of Computer Architecture 6. Halle Chemnitz Seminar zu Parallelverarbeitung und Programmiersprachen

Mehr

Übungsblatt 4. (Router, Layer-3-Switch, Gateway) Aufgabe 2 (Kollisionsdomäne, Broadcast- Domäne)

Übungsblatt 4. (Router, Layer-3-Switch, Gateway) Aufgabe 2 (Kollisionsdomäne, Broadcast- Domäne) Übungsblatt 4 Aufgabe 1 (Router, Layer-3-Switch, Gateway) 1. Welchen Zweck haben Router in Computernetzen? (Erklären Sie auch den Unterschied zu Layer-3-Switches.) 2. Welchen Zweck haben Layer-3-Switches

Mehr

Hardware PCI-Bus. Dr.-Ing. Matthias Sand. Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg

Hardware PCI-Bus. Dr.-Ing. Matthias Sand. Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg Hardware PCI-Bus Dr.-Ing. Matthias Sand Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2008/2009 Hardware PCI-Bus 1/23 2008-08-06 Übersicht Inhalt:

Mehr

Hardware PCI-Bus. Dr.-Ing. Matthias Sand. Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg

Hardware PCI-Bus. Dr.-Ing. Matthias Sand. Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg Hardware PCI-Bus Dr.-Ing. Matthias Sand Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2007/2008 Hardware PCI-Bus 1/23 2007-10-26 Übersicht Inhalt:

Mehr

HORUS. Seminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HWS Martin Scherer

HORUS. Seminar Ausgewählte Themen in Hardwareentwurf und Optik im HWS Martin Scherer HORUS Seminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HWS 2006 Martin Scherer Horus Inhalt 1 Einführung 2 Cachekohärenz 3 ExtendiScale Architektur 4 Übertragungsbeispiele 5 Performance Erweiterungen

Mehr

Übungsblatt 4. (Router, Layer-3-Switch, Gateway) Aufgabe 2 (Kollisionsdomäne, Broadcast- Domäne)

Übungsblatt 4. (Router, Layer-3-Switch, Gateway) Aufgabe 2 (Kollisionsdomäne, Broadcast- Domäne) Übungsblatt 4 Aufgabe 1 (Router, Layer-3-Switch, Gateway) 1. Welchen Zweck haben Router in Computernetzen? (Erklären Sie auch den Unterschied zu Layer-3-Switches.) 2. Welchen Zweck haben Layer-3-Switches

Mehr

Abschlussklausur. Computernetze. 14. Februar Legen Sie bitte Ihren Lichtbildausweis und Ihren Studentenausweis bereit.

Abschlussklausur. Computernetze. 14. Februar Legen Sie bitte Ihren Lichtbildausweis und Ihren Studentenausweis bereit. Abschlussklausur Computernetze 14. Februar 2014 Name: Vorname: Matrikelnummer: Tragen Sie auf allen Blättern (einschlieÿlich des Deckblatts) Ihren Namen, Vornamen und Ihre Matrikelnummer ein. Schreiben

Mehr

Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP)

Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP) Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP) @wefinet Werner Fischer, Thomas-Krenn.AG Webinar, 17. Oktober 2017 Intel Xeon Scalable Performance _ Das ist NEU: Neue

Mehr

Lernmodul 7 Algorithmus von Dijkstra

Lernmodul 7 Algorithmus von Dijkstra Folie 1 von 30 Lernmodul 7 Algorithmus von Dijkstra Quelle: http://www.map24.de Folie 2 von 30 Algorithmus von Dijkstra Übersicht Kürzester Weg von A nach B in einem Graphen Problemstellung: Suche einer

Mehr

GERICHTETER GEWICHTETER GRAPH DESIGNDOKUMENT

GERICHTETER GEWICHTETER GRAPH DESIGNDOKUMENT User Requirements GERICHTETER GEWICHTETER GRAPH DESIGNDOKUMENT Softwareentwicklung Praktikum, Übungsbeispiel 1 Gruppe 18 Andreas Hechenblaickner [0430217] Daniela Kejzar [0310129] Andreas Maller [0431289]

Mehr

Manycores: Hardware und Low-Level Programmierung

Manycores: Hardware und Low-Level Programmierung Manycores: Hardware und Low-Level Programmierung Florian Sattler Universität Passau 18. Juni 2014 Übersicht Einführung Neue Architekturen Programmierung Supercomputing Fazit 2 / 29 Top 500 3 / 29 Motivation

Mehr

Algorithmen und Datenstrukturen 1

Algorithmen und Datenstrukturen 1 Algorithmen und Datenstrukturen 1 6. Vorlesung Martin Middendorf / Universität Leipzig Institut für Informatik middendorf@informatik.uni-leipzig.de studla@bioinf.uni-leipzig.de Merge-Sort Anwendbar für

Mehr

RST-Labor WS06/07 GPGPU. General Purpose Computation On Graphics Processing Units. (Grafikkarten-Programmierung) Von: Marc Blunck

RST-Labor WS06/07 GPGPU. General Purpose Computation On Graphics Processing Units. (Grafikkarten-Programmierung) Von: Marc Blunck RST-Labor WS06/07 GPGPU General Purpose Computation On Graphics Processing Units (Grafikkarten-Programmierung) Von: Marc Blunck Ablauf Einführung GPGPU Die GPU GPU Architektur Die Programmierung Programme

Mehr

Verteilte Betriebssysteme

Verteilte Betriebssysteme Verteiltes System Eine Sammlung unabhängiger Rechner, die dem Benutzer den Eindruck vermitteln, es handle sich um ein einziges System. Verteiltes Betriebssystem Betriebssystem für verteilte Systeme Verwaltet

Mehr

é Er ist software-transparent, d.h. der Benutzer braucht nichts von seiner Existenz zu wissen. Adreßbus Cache- Control Datenbus

é Er ist software-transparent, d.h. der Benutzer braucht nichts von seiner Existenz zu wissen. Adreßbus Cache- Control Datenbus 4.2 Caches é Cache kommt aus dem Französischen: cacher (verstecken). é Er kann durch ein Anwendungsprogramm nicht explizit adressiert werden. é Er ist software-transparent, d.h. der Benutzer braucht nichts

Mehr

Foliensatz. Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen

Foliensatz. Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen Foliensatz Center for Information Services and High Performance Computing (ZIH) Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen Hochgeschwindigkeitskommunikationen 13. Juli

Mehr

Spielst du noch oder rechnest du schon?

Spielst du noch oder rechnest du schon? Spielst du noch oder rechnest du schon? Mit Spielkonsole und Co. zum Supercomputer der Zukunft Fachbereich Elektrotechnik und Informationstechnik Fachhochschule Bielefeld University of Applied Sciences

Mehr

Mehrprozessorarchitekturen

Mehrprozessorarchitekturen Mehrprozessorarchitekturen (SMP, UMA/NUMA, Cluster) Arian Bär 12.07.2004 12.07.2004 Arian Bär 1 Gliederung 1. Einleitung 2. Symmetrische Multiprozessoren (SMP) Allgemeines Architektur 3. Speicherarchitekturen

Mehr

D-Link s Super G mit Smart Antenna MIMO-Technologie

D-Link s Super G mit Smart Antenna MIMO-Technologie D-Link s Super G mit Smart Antenna MIMO-Technologie Die neue Super G MIMO-Serie von D-Link bietet höchste Leistungsfähigkeit, maximale Reichweite und größtmögliche Kompatibilität. Die Produkte verfügen

Mehr

Supercomputer Blue Gene/L

Supercomputer Blue Gene/L FH Giessen Friedberg Supercomputer Blue Gene/L Sven Wagner Übersicht Einführung Supercomputer Begriffe Geschichte TOP500 Anwendung 2 Übersicht Blue Gene/L Historie Architektur & Packaging ASIC Netzwerk

Mehr

Aufgaben zur Klausurvorbereitung

Aufgaben zur Klausurvorbereitung Vorlesung Graphen und Optimierung Sommersemester 2013/14 Prof. S. Lange Aufgaben zur Klausurvorbereitung Hier finden Sie eine Reihe von Übungsaufgaben, die wir an den beiden Vorlesungsterminen am 29.01.2014

Mehr

Aktuelle RTOS-Entwicklungen aus der Forschung

Aktuelle RTOS-Entwicklungen aus der Forschung Aktuelle RTOS-Entwicklungen aus der Forschung Lennart Downar Seminar Fehlertoleranz und Echtzeit 16. Februar 2016 Aktuelle RTOS-Entwicklungen aus der Forschung Lennart Downar 1/28 Übersicht 1 Einführung

Mehr

Rechnernetze 2. Grundlagen

Rechnernetze 2. Grundlagen Rechnernetze 2. Grundlagen Typische Topologien Dedizierte Leitungen Bus Zugangsverfahren Kollisionsfreier Zugang Kollisionserkennung Multicast & Broadcast Eigenschaftsgarantien Zugangsverfahren Ethernet

Mehr

Virtueller Speicher und Memory Management

Virtueller Speicher und Memory Management Virtueller Speicher und Memory Management Speicher-Paradigmen Programmierer ein großer Adressraum linear adressierbar Betriebssystem eine Menge laufender Tasks / Prozesse read-only Instruktionen read-write

Mehr

Einleitung Performance Netzwerk Leistungsaufnahme Skalierbarkeit Sicherheit Zuverlässigkeit Kompatibilität. Ziele und Maße. Dr.-Ing.

Einleitung Performance Netzwerk Leistungsaufnahme Skalierbarkeit Sicherheit Zuverlässigkeit Kompatibilität. Ziele und Maße. Dr.-Ing. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2005/2006 Übersicht 1 Einleitung 2 Performance 3 Netzwerk 4 Leistungsaufnahme 5 Skalierbarkeit 6 Sicherheit

Mehr

Wo geht's lang: I Ro R u o t u i t n i g

Wo geht's lang: I Ro R u o t u i t n i g Wo geht's lang: IP Routing Inhalt Was ist Routing? Warum ist Routing notwendig? Funktion von IP-Routing: -TCP/IP zur Kommunikation im Internet -IP-Datagramme -Was ist ein IP-Router? Inhalt Routingprotokolle:

Mehr

Grundlagen der Informatik

Grundlagen der Informatik Jörn Fischer j.fischer@hs-mannheim.de Willkommen zur Vorlesung Grundlagen der Informatik ADS-Teil Page 2 Überblick Inhalt 1 Eigenschaften von Algorithmen Algorithmenbegriff O-Notation Entwurfstechniken

Mehr

Routing im Internet Wie findet ein IP Paket den Weg zum Zielrechner?

Routing im Internet Wie findet ein IP Paket den Weg zum Zielrechner? Wie findet ein IP Paket den Weg zum Zielrechner? Bildung von Subnetzen, welche über miteinander verbunden sind. Innerhalb einer Collision Domain (eigenes Subnet): Rechner startet eine ARP (Address Resolution

Mehr

CHiC Chemnitzer Hochleistungs-Linux Cluster. Stand HPC Cluster CHiC. Frank Mietke, Torsten Mehlan, Torsten Höfler und Wolfgang Rehm

CHiC Chemnitzer Hochleistungs-Linux Cluster. Stand HPC Cluster CHiC. Frank Mietke, Torsten Mehlan, Torsten Höfler und Wolfgang Rehm CHiC er Hochleistungs-Linux Cluster Stand HPC Cluster CHiC, Torsten Mehlan, Torsten Höfler und Wolfgang Rehm Fakultätsrechen- und Informationszentrum (FRIZ) / Professur Rechnerarchitektur Technische Universität

Mehr

Ausblick auf den HLRN III - die neue HPC Ressource für Norddeutschland

Ausblick auf den HLRN III - die neue HPC Ressource für Norddeutschland Ausblick auf den HLRN III - die neue HPC Ressource für Norddeutschland Holger Naundorf RRZN Leibniz Universität IT Services Schloßwender Straße 5 30159 Hannover naundorf@rrzn.uni-hannover.de 14. März 2013

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Dipl. Inform. Andreas Wilkens aw@awilkens.com Überblick Grundlagen Definitionen Eigene Entwicklungen Datenstrukturen Elementare Datentypen Abstrakte Datentypen Elementare

Mehr

Grundlagen der Rechnerarchitektur

Grundlagen der Rechnerarchitektur Grundlagen der Rechnerarchitektur Einführung Unsere erste Amtshandlung: Wir schrauben einen Rechner auf Grundlagen der Rechnerarchitektur Einführung 2 Vorlesungsinhalte Binäre Arithmetik MIPS Assembler

Mehr

ModProg 15-16, Vorl. 13

ModProg 15-16, Vorl. 13 ModProg 15-16, Vorl. 13 Richard Grzibovski Jan. 27, 2016 1 / 35 Übersicht Übersicht 1 Supercomputing FLOPS, Peak FLOPS Parallelismus Praktische Aspekte 2 Klausur von 2009 2 / 35 Supercomputing: HPC Modellierung

Mehr

Seminarvortrag: Direktivenbasierte Programmierung von Beschleunigern mit OpenMP 4.5 und OpenACC 2.5 im Vergleich

Seminarvortrag: Direktivenbasierte Programmierung von Beschleunigern mit OpenMP 4.5 und OpenACC 2.5 im Vergleich Seminarvortrag: Direktivenbasierte Programmierung von Beschleunigern mit Direktivenbasierte Programmierung von Beschleunigern mit Agenda Einführung / Motivation Überblick zu OpenMP und OpenACC Asynchronität

Mehr

Rechnernetze Übung 10. Frank Weinhold Professur VSR Fakultät für Informatik TU Chemnitz Juni 2011

Rechnernetze Übung 10. Frank Weinhold Professur VSR Fakultät für Informatik TU Chemnitz Juni 2011 Rechnernetze Übung 10 rank Weinhold Professur VSR akultät für Informatik TU hemnitz Juni 2011 Das Weiterleiten (Routing) erfüllt die wichtige ufgabe, einzelne Teilstrecken des Kommunikationsnetzes so zu

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Vernetzte Systeme. Übungsstunde Adrian Schüpbach 30. Juni 2006

Vernetzte Systeme. Übungsstunde Adrian Schüpbach 30. Juni 2006 Vernetzte Systeme Übungsstunde 30.06.2006 Adrian Schüpbach scadrian@student.ethz.ch 30. Juni 2006 Adrian Schüpbach (ETH Zürich) Vernetzte Systeme SS 2006 1 / 33 Letzte Serie! Letzte Serie! Adrian Schüpbach

Mehr

Kommunikation im lokalen Netz

Kommunikation im lokalen Netz Kommunikation im lokalen Netz Ein einfaches lokales Netz stellt man sich als Gebilde vor, in dem mehrere Computer oder andere Netzwerk-Endgeräte über einen oder mehrere e miteinander verbunden sind. In

Mehr

Grundlagen der Rechnerarchitektur. Einführung

Grundlagen der Rechnerarchitektur. Einführung Grundlagen der Rechnerarchitektur Einführung Unsere erste Amtshandlung: Wir schrauben einen Rechner auf Grundlagen der Rechnerarchitektur Einführung 2 Vorlesungsinhalte Binäre Arithmetik MIPS Assembler

Mehr

Georg Hager Regionales Rechenzentrum Erlangen (RRZE)

Georg Hager Regionales Rechenzentrum Erlangen (RRZE) Erfahrungen und Benchmarks mit Dual- -Prozessoren Georg Hager Regionales Rechenzentrum Erlangen (RRZE) ZKI AK Supercomputing Karlsruhe, 22./23.09.2005 Dual : Anbieter heute IBM Power4/Power5 (Power5 mit

Mehr

Tutorübung zur Vorlesung Grundlagen Rechnernetze und Verteilte Systeme Übungsblatt 10 (24. Juni 28. Juni 2013)

Tutorübung zur Vorlesung Grundlagen Rechnernetze und Verteilte Systeme Übungsblatt 10 (24. Juni 28. Juni 2013) Technische Universität München Lehrstuhl Informatik VIII Prof. Dr.-Ing. Georg Carle Dipl.-Ing. Stephan Günther, M.Sc. Nadine Herold, M.Sc. Dipl.-Inf. Stephan Posselt Tutorübung zur Vorlesung Grundlagen

Mehr

Freispeicherverwaltung Martin Wahl,

Freispeicherverwaltung Martin Wahl, Freispeicherverwaltung Martin Wahl, 17.11.03 Allgemeines zur Speicherverwaltung Der physikalische Speicher wird in zwei Teile unterteilt: -Teil für den Kernel -Dynamischer Speicher Die Verwaltung des dynamischen

Mehr

Einleitung Architektur Schnittstellen Dateisysteme 3D XPoint im Vergleich Zusammenfassung Literatur. 3D XPoint. Patrick Wittke

Einleitung Architektur Schnittstellen Dateisysteme 3D XPoint im Vergleich Zusammenfassung Literatur. 3D XPoint. Patrick Wittke 3D XPoint Patrick Wittke Arbeitsbereich Wissenschaftliches Rechnen Fachbereich Informatik Fakultät für Mathematik, Informatik und Naturwissenschaften Universität Hamburg 2015-06-07 Patrick Wittke 3D XPoint

Mehr

Grundlagen der Rechnerarchitektur. Ein und Ausgabe

Grundlagen der Rechnerarchitektur. Ein und Ausgabe Grundlagen der Rechnerarchitektur Ein und Ausgabe Übersicht Grundbegriffe Hard Disks und Flash RAM Zugriff auf IO Geräte RAID Systeme SS 2012 Grundlagen der Rechnerarchitektur Ein und Ausgabe 2 Grundbegriffe

Mehr

Hauptdiplomklausur Informatik März 2001: Internet Protokolle

Hauptdiplomklausur Informatik März 2001: Internet Protokolle Universität Mannheim Fakultät für Mathematik und Informatik Lehrstuhl für Praktische Informatik IV Professor Dr. W. Effelsberg Hauptdiplomklausur Informatik März 200: Internet Protokolle Name:... Vorname:...

Mehr

Das HLRN-System. Peter Endebrock, RRZN Hannover

Das HLRN-System. Peter Endebrock, RRZN Hannover Das HLRN-System Peter Endebrock, RRZN Hannover vorweg (1) Heute Vorträge im Dreierpack: Peter Endebrock: Das HLRN-System Gerd Brand: MPI Simone Knief: OpenMP Peter Endebrock, RRZN Hannover, Kolloquium,

Mehr

Parallelrechner (1) Anwendungen: Simulation von komplexen physikalischen oder biochemischen Vorgängen Entwurfsunterstützung virtuelle Realität

Parallelrechner (1) Anwendungen: Simulation von komplexen physikalischen oder biochemischen Vorgängen Entwurfsunterstützung virtuelle Realität Parallelrechner (1) Motivation: Bedarf für immer leistungsfähigere Rechner Leistungssteigerung eines einzelnen Rechners hat physikalische Grenzen: Geschwindigkeit von Materie Wärmeableitung Transistorgröße

Mehr

Vermaschte, drahtlose Sensornetzwerke für Grossanlagen

Vermaschte, drahtlose Sensornetzwerke für Grossanlagen Vermaschte, drahtlose Sensornetzwerke für Grossanlagen Dominic Ast (asdo@zhaw.ch) Mirco Gysin (gysn@zhaw.ch) Institute of Embedded Systems ZHAW Zürcher Hochschule für Angewandte Wissenschaften Inhalt Einführung

Mehr

Rolf Wanka Sommersemester Vorlesung

Rolf Wanka Sommersemester Vorlesung Peer-to to-peer-netzwerke Rolf Wanka Sommersemester 2007 7. Vorlesung 05.06.2007 rwanka@cs.fau.de basiert auf einer Vorlesung von Christian Schindelhauer an der Uni Freiburg Lookup in CAN Verbindungsstruktur:

Mehr

Rechner Architektur. Martin Gülck

Rechner Architektur. Martin Gülck Rechner Architektur Martin Gülck Grundlage Jeder Rechner wird aus einzelnen Komponenten zusammengesetzt Sie werden auf dem Mainboard zusammengefügt (dt.: Hauptplatine) Mainboard wird auch als Motherboard

Mehr

2.1 Rechnersichten 2.2 Rechnerorganisation: Aufbau und Funktionsweise

2.1 Rechnersichten 2.2 Rechnerorganisation: Aufbau und Funktionsweise Teil 1 Kapitel 2 Rechner im Überblick 2.1 Rechnersichten 2.2 Rechnerorganisation: Aufbau und Funktionsweise Frank Schmiedle Technische Informatik I 2.1 Rechnersichten Modellierung eines Rechners Zusammenspiel

Mehr

Cswitch Seminar. HWS 08 Von Andreas Peters. Cswitch Seminar, Andreas Peters

Cswitch Seminar. HWS 08 Von Andreas Peters. Cswitch Seminar, Andreas Peters Cswitch Seminar Von Andreas Peters 1 Gliederung Einführung Daten / Anwendungsgebiete Aufbau: Kommunikationsstruktur Vier Tiles Sonstige Features Kleine Zusammenfassung 2 Einführung Was ist Cswitch? 3 Exceeding

Mehr

Der neue Hessische Hochleistungsrechner HHLR

Der neue Hessische Hochleistungsrechner HHLR Der neue Hessische Hochleistungsrechner HHLR Erste Erfahrungen Norbert Conrad, conrad@hrz.tu-darmstadt.de ZKIHessen 26.8.2002 1 Darmstädter Hochleistungsrechner 1987: IBM 3090 VF ( 2 x 0,12 GFLOPS Vektor

Mehr

Verteilte Systeme. 7. Fehlertoleranz

Verteilte Systeme. 7. Fehlertoleranz Verteilte Systeme 7. Fehlertoleranz Sommersemester 2011 Institut für Betriebssysteme und Rechnerverbund TU Braunschweig Dr. Christian Werner Bundesamt für Strahlenschutz 7-2 Überblick Motivation für Fehlertoleranz

Mehr

Wireless LAN Meßverfahren

Wireless LAN Meßverfahren Wireless LAN 802.11 Meßverfahren Ad-hoc-Netzwerke für mobile Anlagen und Systeme 199. PTB-Seminar und Diskussionssitzung FA 9.1 Meßverfahren der Informationstechnik Berlin, 3. - 4.11.2004 Martin Weiß Rohde

Mehr

2008 Jiri Spale, Programmierung in eingebetteten Systemen 1

2008 Jiri Spale, Programmierung in eingebetteten Systemen 1 2008 Jiri Spale, Programmierung in eingebetteten Systemen 1 NetX - Einführung 2008 Jiri Spale, Programmierung in eingebetteten Systemen 2 NetX is... a highly integrated network controller with a new system

Mehr

jinvent iolinker Press Kit

jinvent iolinker Press Kit jinvent iolinker Press Kit 1 Wer wir sind jinvent wurde 2008 im Raum Nürnberg gegründet, und hat seit dem innovative Hard- und Software entwickelt. Viel Erfahrung mit integrierten Industrie- und Konnektivitäts-Lösungen

Mehr

Computeranwendung in der Chemie Informatik für Chemiker(innen) 4. Netzwerke

Computeranwendung in der Chemie Informatik für Chemiker(innen) 4. Netzwerke Computeranwendung in der Chemie Informatik für Chemiker(innen) 4. Netzwerke Jens Döbler 2003 "Computer in der Chemie", WS 2003-04, Humboldt-Universität VL4 Folie 1 Grundlagen Netzwerke dienen dem Datenaustausch

Mehr

Rechnernetze I. Rechnernetze I. 1 Einführung SS Universität Siegen Tel.: 0271/ , Büro: H-B 8404

Rechnernetze I. Rechnernetze I. 1 Einführung SS Universität Siegen Tel.: 0271/ , Büro: H-B 8404 Rechnernetze I SS 2012 Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, Büro: H-B 8404 Stand: 20. April 2012 Betriebssysteme / verteilte Systeme Rechnernetze I (1/12) i Rechnernetze

Mehr

ATM LAN Emulation. Prof. Dr. W. Riggert

ATM LAN Emulation. Prof. Dr. W. Riggert ATM LAN Emulation Prof. Dr. W. Riggert Inhalt Das Tutorial ist in drei Abschnitte gegliedert. Abschnitt 1 behandelt die Frage, warum LAN Emulation benötigt wird, Abschnitt 2 widmet sich der Frage, welche

Mehr

Electronic Design Automation (EDA) Technology Mapping

Electronic Design Automation (EDA) Technology Mapping Electronic Design Automation (EDA) Technology Mapping Überblick digitale Synthese Technology Mapping Abbildung durch die Abdeckung eines Baumes Partitionierung des DAG Dekomposition und Abdeckung Beispiel

Mehr

Algorithmen & Komplexität

Algorithmen & Komplexität Algorithmen & Komplexität Angelika Steger Institut für Theoretische Informatik steger@inf.ethz.ch Kürzeste Pfade Problem Gegeben Netzwerk: Graph G = (V, E), Gewichtsfunktion w: E N Zwei Knoten: s, t Kantenzug/Weg

Mehr

Dekodierung eines Funkfernschreibersignals mithilfe der Zynq-Plattform. Lehrstuhlseminar Benjamin Koch

Dekodierung eines Funkfernschreibersignals mithilfe der Zynq-Plattform. Lehrstuhlseminar Benjamin Koch Dekodierung eines Funkfernschreibersignals mithilfe der Zynq-Plattform Lehrstuhlseminar Benjamin Koch Dresden, 27.08.2015 Gliederung Aufgabenstellung Funkfernschreiben (RTTY) Aufbau des Systems Fazit und

Mehr

Studienprojekt HP-MOM

Studienprojekt HP-MOM Institute of Parallel and Distributed Systems () Universitätsstraße 38 D-70569 Stuttgart Studienprojekt HP-MOM High Performance Message Oriented Middleware 23. Januar 2013 Kurt Rothermel, Frank Dürr, Patrick

Mehr

Grundlagen der Rechnerarchitektur

Grundlagen der Rechnerarchitektur Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie

Mehr

Betrieb eines heterogenen Clusters

Betrieb eines heterogenen Clusters Betrieb eines heterogenen Clusters Georg Hager Regionales Rechenzentrum Erlangen (RRZE) ZKI AK Supercomputing Karlsruhe, 22./23.09.2005 Transtec GBit/IB-Cluster am RRZE IA32-Cluster 04/2003 86+2 Knoten

Mehr

UBERBLICK ZU NETWORKS-ON-CHIP:

UBERBLICK ZU NETWORKS-ON-CHIP: Fakultät Informatik Institut für Technische Informatik UBERBLICK ZU NETWORKS-ON-CHIP: Architekturen, Herausforderungen und Lösungen Jan Hoyer Dresden, 7.7.2010 Gliederung Motivation Network-on-Chip Herausforderungen

Mehr

Einfu hrende Betrachtung des USB und Mo glichkeiten der Integration in das Rainbow-Betriebssystem. Georg Gottleuber 23. Juni 2010 Verteilte Systeme

Einfu hrende Betrachtung des USB und Mo glichkeiten der Integration in das Rainbow-Betriebssystem. Georg Gottleuber 23. Juni 2010 Verteilte Systeme Einfu hrende Betrachtung des USB und Mo glichkeiten der Integration in das Rainbow-Betriebssystem Georg Gottleuber 23. Juni 2010 Verteilte Systeme Seite 2 G. Gottleuber USB und Rainbow 23. Juni 2010 Inhaltsverzeichnis

Mehr

Rolf Wanka Sommersemester Vorlesung

Rolf Wanka Sommersemester Vorlesung Peer-to to-peer-netzwerke Rolf Wanka Sommersemester 2007 10. Vorlesung 28.06.2007 rwanka@cs.fau.de basiert auf einer Vorlesung von Christian Schindelhauer an der Uni Freiburg Inhalte Kurze Geschichte der

Mehr

Very simple methods for all pairs network flow analysis

Very simple methods for all pairs network flow analysis Very simple methods for all pairs network flow analysis obias Ludes 0.0.0. Einführung Um den maximalen Flusswert zwischen allen Knoten eines ungerichteten Graphen zu berechnen sind nach Gomory und Hu nur

Mehr