Rechnerarchitektur. Vorlesungsbegleitende Unterlagen WS 2003/2004. Klaus Waldschmidt

Größe: px
Ab Seite anzeigen:

Download "Rechnerarchitektur. Vorlesungsbegleitende Unterlagen WS 2003/2004. Klaus Waldschmidt"

Transkript

1 Rechnerarchitektur Vorlesungsbegleitende Unterlagen WS 2003/2004 Klaus Waldschmidt Teil 17 Parallelarchitekturen Seite 1 Klassifikation nach Flynn (1972) SISD (single instruction, single data stream) Rechner mit einfachem Befehls- und Datenstrom MISD (multiple instruction, single data stream) Rechner mit mehrfachem Befehls- und einfachem Datenstrom SIMD (single instruction, multiple data stream) Rechner mit einfachem Befehls- und mehrfachem Datenstrom MIMD (multiple instruction, multiple data stream) Rechner mit mehrfachem Befehls- und mehrfachem Datenstrom Seite 2 1

2 Einteilung von Rechnerstrukturen nach der Flynnschen Klassifikation Klasse Strukturen SISD SIMD Sequentielle Rechner ( von-neumann-struktur oder Harvard-Struktur ) Arrays von Rechenelementen; Vektormaschinen; Feldrechner MISD --- MIMD Rechner mit mehreren Prozessoren ( Multiprozessor-Systeme der verschiedensten Architekturformen ) Seite 3 IS CU IS PE DS MM (a) SISD computer PE 1 DS 1 MM 1 CU IS IS... PE 2 PE n DS 2 DS n SM... MM 2 MM m (b) SIMD computer CU: control unit SM: shared memory PE: processing unit IS: instruction stream MM: memory module DS: data stream Seite 4 2

3 IS 1 CU 1 IS 2 CU 2... IS n CU n IS 1 IS 2 PE 1 PE 2... DS... MM 1 MM 2 MM m IS n... PE n DS IS n IS 2 IS 1 SM (c) MISD computer IS1 CU 1 IS 1 PE 1 DS 1 MM 1 IS 1 IS 2 CU 2... IS n CU n IS 2 IS n PE 2... PE n DS 2 DS n SM MM 2... MM m... IS 2 IS n (d) MIMD computer Seite 5 Taxonomie von Parallelrechnerarchitekturen Parallelrechner Kriterien Datenstruktur- Typen Skalar-Typen Art der Datentypen Datenstruktur- Parallelität Programm- Parallelität Art der Parallelität Vektorisierung SPMD Datenparallel Nachrichten orientiert Gemeinsamer Speicher Programmiermodell SIMD MIMD/SIMD MIMD Datenfluß Kontroll- Struktur Pipelinie (Syst. Array) Array von Rechenelem. Multipipeline Multi-Prozessor Prozessor- Struktur Speicherkopplung (Systeme mit gemeinsamem Speicher) Speicherkopplung (Systeme mit verteiltem Speicher) Nachrichtenaustausch (Systeme mit verteiltem Speicher) Kommunikations- Struktur Seite 6 3

4 Architektur eines Vektorrechners Skalareinheit Vektoreinheit Skalar Register Register Vektor- Lade/speichereinheit Vektor- Vektorverarbeitungspipeline Vektorverarbeitungspipeline Instruktionsholeeinheit Instruktionspuffer Instruktionsausgabe Skalarkontrolleinheit Skalarlade/speichereinheit Skalarverarbeitungseinheit Vektorkontrolleinheit Hauptspeicher Seite 7 Architektur eines Feldrechners Programmspeicher Instruktionsholeeinheit Instruktionsausgabe Maskiereinheit Instruktion Maske PE Skalar Register Skalarkontrolleinheit Maskiereinheit Skalarverarbeitungseinheit PE PE PE PE Speicher VN kontrolleinheit VN Datenpfad VN Verbindungsnetzwerk Instruktionspfad PE Processing element Seite 8 4

5 Architektur eines systolischen Arrays Eingabe (Befehle und/oder Operanden) I C PE1 J B I D C J PE3 J B I D C J PE4 J A I D J A I C A I C PE2 I D I C PE5 I D I C PE9 I D I C B I C I C PE6 B I D I C PE8 I D I C 13 I A I C I C I C J B D I C J J A D I C J J B A I C J b Seite 9 I C Ausgabe (Rechenergebnis) MIMD-Architekturen Programmiermodell Behandlung der Kommunikationslatenz Nachrichtenorientiert globaler Adressraum Latenz minimieren Latenz verstecken Distributed Memory Architecture Multiprocessor System with Central Memory Distributed Shared Memory Architecture Virtual Shared Memory Architecture Multithreaded Architecture Architekturen mit verteiltem Speicher Eigenschaften: Speicherzugriff: nur lokal Granularität: grob Skalierbarkeit: sehr gut Working Sets: nicht genutzt Multiprozessor mit zentralem Speicher Eigenschaften: Speicherzugriff: zentral Granularität: fein Skalierbarkeit: schlecht Working Sets: nicht genutzt Architektur mit verteiltem gem. Speicher Eigenschaften: Speicherzugriff: lokal und entfernt Granularität: fein Skalierbarkeit: mittel Working Sets: genutzt, im Cache Architektur mit virtuell geme. Speicher Eigenschaften: Speicherzugriff: nur lokal Granularität: grob Skalierbarkeit: gut Working Sets: genutzt, im lok. Sp. Mehrfädige Architektur Eigenschaften: Speicherzugriff: lokal und entfernt Granularität: fein oder mittel Skalierbarkeit: gut Working Sets: nicht genutzt Seite 10 5

6 Merkmale von MIMD-Architekturen physikalische Speicheranordnung gemeinsamer Speicher verteilter Speicher Adressraum Programmiermodell global, gemeinsam lokal, privat globaler Adressraum Nachrichtenorientiert Kommunikationsstruktur Synchronisation Speicherkopplung Nachrichtenaustausch Gemeinsame Variablen synchronisierende Semaphoren Nachrichten Latenzbehandlung verstecken minimieren Seite 11 Globale Architektur von MIMD-Parallelrechnern Eigenschaften M g M g M g M g VN P P P P central memory Multiprozessor Mischformen Effizient nur für eine geringe Anzahl von P. VN mit hoher Bandbreite notwendig. Kommunikation durch gemeinsame Variablen. Synchronisation durch Kritische Bereiche. VN P P P P M p M p M p M p message based Multiprozessor Sehr hohe Anzahl von P möglich. VN mit geringerer Bandbreite möglich. Kommunikation durch Datentransport von Objekten. Synchronisation durch Botschaftenaustausch. Seite 12 6

7 UMA-Architektur (Tanzsaal-Modell) Prozessor Prozessor Prozessor Prozessor VN Speichermodul Speichermodul Speichermodul Speichermodul Hauptspeicher UMA Uniform Memory Access Seite 13 NUMA-Architekturformen P P P P P lokaler Zugriff M globaler Zugriff M C C C VN globaler Zugriff VN P Prozessor M Speicher VN Verbindungsnetzwerk C Cache, resp. Cachehierarchie M M M NUMA Non Uniform Memory Access CCNUMA Cache Coherent Non Uniform Memory Access In diesem Fall wird ein Kohärenzprotokoll berücksichtigt (z.b. MESI). Seite 14 7

8 COMA-Architektur P P P C C C D D D VN P Prozessor D Directory VN Verbindungsnetzwerk C Cache COMA Cache Only Memory Architeture Cache und Directory bilden ein sog. Attraction Memory. Alle Caches bilden den gemeinsamen Hauptspeicher. Seite 15 Parallelrechner mit verteiltem Speicher Rechnerknoten Rechnerknoten Rechnerknoten M M M nur lokale Zugriffe P P P VNI VNI VNI Botschaftenaustausch VN Seite 16 8

9 Kommunikation in Parallelrechnern gemeinsamer Adressraum Prozess A gemeinsame Variable Prozess B Botschaftenaustausch lokaler Adressraum lokaler Adressraum Prozess A Botschaft Prozess B Seite 17 Verbindungsstrukturen Beurteilungskriterien, Unterscheidungsmerkmale u. Klassifikation Das Verbindungsnetz ist das Medium, über das die Kommunikation der Prozessoren untereinander und der Zugriff auf gemeinsame Ressourcen abgewickelt werden. Beurteilungskriterien: Komplexität Durchmesser Regelmäßigkeit Blockierungseigenschaft Erweiterbarkeit Skalierbarkeit Ausfalltoleranz Wegefindung Systematik Die Einteilung der Verbindungsnetzwerke wird nach folgenden Kriterien vorgenommen: 1. Topologie 2. Verbindungsarten 3. Steuerung des Verbindungsaufbaues 4. Arbeitsweise Die Topologie spielt die herausragende Rolle, da sie die Skalierbarkeit wesentlich mitbestimmt. Seite 18 9

10 In Monoprozessoren und in Parallelrechnern wird das Verbindungsnetzwerk häufig abstrakt als black box dargestellt. Es ist jedoch häufig sowohl innerhalb eines Prozessors als auch in Parallelrechnern höherer Granularität die entscheidende architekturelle Hardwareressource. Innerhalb von SIMD-Architekturen findet man Verbindungsnetzwerke zur Ankopplung von Speichern und zur Konfiguration von Mehrfachpipelines. In MIMD-Architekturen dienen sie zur Kommunikation zwischen Prozessen auf den Prozessoren. Verbindungsnetzwerke dienen dem Transport von Daten und Botschaften zwischen den Modulen innerhalb eines Prozessors als auch zwischen Prozessoren. Seite 19 Klassifikation von Verbindungsnetzwerken Topologie regulär irregulär statisch dynamisch 1dim 2dim 3dim einstufig mehrstufig vollst. Vernetzung Hypercube Bus Crossbar Banyan... Delta Seite 20 10

11 Arbeitsweise von Verbindungsnetzwerken Verbindungsart Verbindungsaufbau Leitungsvermittlung Paketvermittlung verteilt zentral Arbeitsweise synchron gemischt asynchron Seite 21 Methoden der Wegfindung Wegfindung Adreßspezifikation Wegewahl Flußsteuerung zielbasiert quellenbasiert deterministisch adaptiv Virtual Store-and- Wormcut-through forward hole e-cube- Routing x-y-routing oder x-y-z-routing Seite 22 11

12 Direkte Netze (statische Netze, einstufige Netze) In einem direkten Netz besitzt jedes PE eine Anzahl fester Leitungen zu benachbarten PEs, entlang derer Nachrichten unmittelbar von PE zu PE gesendet werden können. Das Netz beschränkt sich somit auf Verbindungsleitungen; Vermittlungsfunktionen werden durch die PEs selbst ausgeübt, indem Nachrichten entlang der existierenden Leitung gesendet werden. Da in direkten Netzen nur eine Stufe von Verbindungsleitungen existiert, wird in vielen Arbeiten die Bezeichnung einstufige Netze genutzt. Benutzt wird auch gerne der Begriff statische Netze, da die Verbindung zwischen Paaren von PEs ohne Möglichkeit der Rekonfiguration erfolgt. Seite 23 Topologie direkter Netze Kette Ring Chordaler Ring Gitter Seite 24 12

13 2D-Torus Gitter mit acht Nachbarknoten Stern Baum Seite 25 Petersen-Netz vollständige Vermaschung Cube 3D-Torus Seite 26 13

14 Cube connected cycles Netz (CCC) Pyramide (dreistufig) Seite 27 Hypercube Hypercube Hypercube als Bild einer Booleschen Funktion mit vier Literalen Seite 28 14

15 Verbindungsfunktionen Topologische Verbindungsstrukturen direkter Netze können mittels Verbindungsfunktionen beschrieben werden. Verfügt ein Knoten Q eines Netzes über eine Verbindungsfunktion f(q), so werden beim Ausführen dieser Funktion Daten von Knoten Q zum Knoten D = f(q) transferiert. In einigen Netzen (z.b. Ring und Cube) ist die Verbindungsfunktion für alle Knoten gleich, in anderen Netzen (z.b. Baum) ist sie von Knoten zu Knoten unterschiedlich. Seite 29 Indirekte Netze, dynamische Netze, ein- oder mehrstufige indirekte Netze Ein indirektes Netz führt die Vermittlungsaufgaben mittels aktiver Koppelelemente eigenständig durch. In vielen indirekten Netzen ist jedes PE nur über einen Ein- und einen Ausgang mit dem Netz verbunden. Die Netze bedienen sich einer oder mehrerer Stufen von Koppelelementen, in denen die Nachrichten durch das Netz geleitet werden. Die Koppelelemente dieses Netzes haben im einfachsten Fall zwei Ein- und zwei Ausgänge und können zur Datenvermittlung die Zustände straight und exchange annehmen. Durch Hinzufügen der Zustände upper broadcast und lower broadcast können Nachrichten von einem Eingang zu beiden Ausgängen vermittelt werden. Da die Verbindungsstruktur durch die Koppelelemente verändert und somit den jeweiligen Eigenschaften angepasst werden kann, wird oft der Begriff dynamische Netze genutzt, im Gegensatz zu den direkten statischen Netzen. Indirekte Netze unterscheiden sich in der Komplexität, Größe und Funktionalität der Koppelelemente, der Anzahl der Stufen und der Struktur der Leitungsführung zwischen den Stufen. Seite 30 15

16 Grundstrukturen der dynamischen Netze sind der 2 x 2 Crossbar, das Shuffle und der Bus. Sie stellen einstufige Netze dar. I1 I2 Q11 Q21 Q12 Q22 O1 I1 I2 Q1 Q1 Q1 Q1 O1 I1 I2 I3 Q1 Q2 Q3 O2 O2 O1 O1 2 x 2 Crossbar Shuffle Bus Schaltelement Ausgangsknoten (readport) I - Eingangssignale O - Ausgangssignale Q - Steuersignale Seite 31 Einstufige Shuffle-Exchange Netz Das Shuffle dient als Grundstruktur für den Aufbau mehrstufiger Verbindungsnetzwerke. 0 1 Verbindungsnetz x 2 Koppelelement (Shuffle) Q (unwahr) Q (wahr) Straight Exchange Q B Q B Koppelelement Die Shuffle-Funktion wird von den Verbindungsleitungen ausgeführt. Ein 2x2- Koppelelement kann die Daten entweder geradeaus (Straight) vermitteln oder austauschen (Exchange). Um die Daten von Lower Broadcast Upper Broadcast von einer Quelle zu einer Senke zu transportieren sind üblicherweise mehrere Durchläufe (maximal log 2 n) durch das Netz notwendig (rezirkulierendes Netz). Einstufige Shuffle-Exchange Netze werden für Durchschalte- und Paketvermittlung verwendet. Seite 32 16

17 Einstufiges Verbindungsnetz mit Shuffle und exchange Funktion der Koppelelemente shuffle exchange p 2 p 1 p 0 p 2 p 1 p 0 p 1 p 0 p 2 p 1 p 0 p Seite 33 Mehrstufige Netze mit Shuffle-Elementen Bayan Baseline Cube Delta Flip Indirekt Cube OMEGA Alle diese Netze sind nicht blockierungsfrei. Als Schaltelemente werden Shuffle-Koppelelemente eingesetzt. Die Unterschiede zwischen den Netzen liegen in der Art der Leitungsführung zwischen den Koppelelementen. Bei n Ein-/Ausgängen werden log n Ebenen und n/2 log n Elementen benötigt. Seite 34 17

18 Schaltmethodiken Es wird unterschieden in: - Durchschaltevermittlung, Leitungsvermittlung - Paketvermittlung Durchschaltevermittelndes Netz Paketvermittlung In einem durchschaltevermittelnden Netz wird vor dem Datentransfer eine vollständige Verbindung zwischen Quelle und Senke aufgebaut, entlang der dann Daten transferiert werden. Dies kann auf unterschiedliche Weise geschehen; so kann der Verbindungsaufbau zum Beispiel durch eine zentrale Steuerung erfolgen oder durch Versenden eines Vermittlungspaketes, das durch das Netz transferiert wird und dabei eine Verbindung aufbaut. In einem paketvermittelnden Netz werden Vermittlungsinformationen und Daten zu einem Paket zusammengefasst, das durch das Netz transferiert wird, ohne jedoch eine vollständige Verbindung aufzubauen. Im einfachsten Fall der Speichervermittlung wird ein Paket, das über mehrere Zwischenstufen vermittelt werden muss, in jeder dieser Stufen komplett zwischengepuffert (Store-and-Forward-Methode). Seite 35 Vermittlungsfunktion und Datentransport Es wird unterschieden in: - Verbindungsorientierte Kommunikation - Verbindungslose Kommunikation Verbindungsorientierte Kommunikation Bei der verbindungsorientierten Kommunikation wird eine Verbindung zwischen Quelle und Senke etabliert, die für die gesamte Dauer der Datenübertragung genutzt wird. Die Verbindung kann in einem durchschaltevermittelnden System physikalisch über eine feste Leitung bestehen, oder sie kann in einem paketvermittelnden System lediglich virtuell existieren, indem die Pakete, aus denen die Nachricht besteht, stets über den gleichen Kommunikationsweg geleitet werden. Verbindungslose Kommunikation Bei einer verbindungslosen Kommunikation werden Nachrichtenpakete über die jeweils günstigsten Verbindungsleitungen gesendet, wobei kein bevorzugter Kommunikationsweg existiert. Dies ist nur in einem paketvermittelnden System möglich, in dem während des Datentransports auch Vermittlungsfunktionen ausgeübt werden. Bei durchschaltevermittelnden Systemen werden nach erfolgtem Verbindungsaufbau lediglich Nutzdaten transportiert. In Kommunikationssystemen herrscht die verbindungsorientierte Kommunikation vor, sowohl im klassischen analogen Telefonnetz als auch im modernen Breitbandnetz. Bei paketvermittelnden Parallelrechnern wird je nach Netz auch die verbindungslose Kommunikation eingesetzt, (beispielsweise bei direkten Netzen mit adaptiver Wegsuche). Seite 36 18

19 Paketvermittlung Es wird unterschieden in: - store-and-forward Strategie - worm-hole Strategie Store-and-forward Strategie Bei der store-and-forward Strategie werden die Pakete in jeder Vermittlungsstation vollständig zwischengespeichert. Die Adressinformation wird interpretiert und wenn der erforderliche Leitungsweg zur Verfügung steht, wird das Paket zur nächsten Vermittlungsstation weitergereicht. Die Vermittlung ist völlig dezentral und eine Flußkontrolle wird erst erforderlich, wenn die Speicherkapazität der Vermittlungsstellen nicht mehr ausreicht. Worm-hole Strategie Bei der worm-hole Strategie wird das Paket vom Sender in das VN eingespeist und sucht sich wie ein Wurm den Weg durch die Vermittlungsstationen. In den Vermittlungsstellen ist nur ein minimaler Speicher vorhanden, der gerade ausreicht um den Kopf einer Nachricht aufzunehmen und die dort gespeicherte Adressinformation zu interpretieren. Der Rest der Nachricht liegt dann in den davor benutzten Vermittlungsstellen und wird durch die automatische Flußkontrolle beim Weiterschalten des Kopfes hinterher gezogen. Am Ende des Pakets befindet sich eine Endemarkierung, die den Weg für weitere Pakete wieder freigibt. Die Vorteile dieser Strategie, nämlich die geringe Speicherkapazität in den Vermittlungsstellen und der schnelle Weitertransport (Pipelining) durch das Netzwerk, haben sie sehr bekannt gemacht. Seite 37 Vermittlungsstrategie bei der Paketvermittlung (worm-hole) worm-hole Nachrichtenkopf Nachrichtenende Nachrichtenpaket Vermittlungsstelle Verbindungskanal Seite 38 19

20 Worm-hole-Routing Beim Worm-hole-Routing erfolgt der Datentransport über Zwischenschritte. Hierbei werden die Pakete in kleinere Komponenten, die Flits, aufgeteilt. Das erste Flit enthält die Verbindungsinformation, und in jeder Stufe wird auf dieser Basis die erforderliche Verbindung geschaltet. Nach Aufbau der Verbindung erstrecken sich die Flits eines Paketes daher über mehrere Stufen zwischen Quelle und Senke. Wenn das Paket länger als der aufgebaute Weg ist, wird eine vollst. Verbindung verfügbar, entlang derer weitere Flits schnell transportiert werden können. Die wesentlichen Vorteile des Worm-hole- Routing sind die reduzierte Latenzzeit zwischen dem Absenden einer Nachricht und dem Empfang an der Senke sowie die variable Paketlänge, die nicht durch Pufferplatz in einer Zwischenstufe beschränkt wird. Ein Nachteil ist die Möglichkeit von Verklemmungen, wodurch Nachrichten nie an ihr Ziel gelangen können. Seite 39 Vor- und Nachteile des Worm-hole-Routing Vorteile: reduzierte Latenzzeit zwischen Absenden einer Nachricht und dem Empfang an der Senke Nachteile: Möglichkeit von Verklemmungen Nachrichten gelangen nie an ihr Ziel variable Paketlänge die Paketlänge wird nicht durch Pufferplatz in einer Zwischenstufe beschränkt. Abhilfe schafft das Mad Postman Routing oder das Virtual-Cut-Through Routing in paketvermittelnden Netzen. Seite 40 20

21 Worm-hole-Routing PE A PE B PE C Router A Router B Router C Es liegt eine geschaltete Verbindung zwischen den Prozessorelementen A und C in einem durchgeschalteten Netz vor. Weitere Verbindungsanfragen können zu Konflikten führen. Seite 41 Virtual-Cut-Through-Routing Das Virtual-Cut-Through Routing ist eine Erweiterung des Worm-hole Routing für paketvermittelnde Netze. Pakete werden über das Netz transferiert und in jeder Stufe weitervermittelt. Ist ein Weg zur nächsten Stufe verfügbar, wird nicht auf das Eintreffen des gesamten Paketes gewartet. Stattdessen werden die schon verfügbaren Flits schnellstmöglich weitergeleitet. Somit entspricht es dem Worm-hole Routing bei dem ein Paket den gesamten Weg von der Quelle bis zur Senke belegen kann. Ist jedoch keine Verbindungsleitung zur nächsten Stufe verfügbar, so muss der Transfer gestoppt werden. Hierzu existieren in den einzelnen Stufen des Netzes Pufferspeicher, die die Pufferung eines kompletten Paketes ermöglichen (Storeand Forward Routing). Das Paket wird weitergeleitet, sobald eine freie Leitung zur nächsten Stufe existiert. Eine längere Wegblockierung kann nicht eintreten, weil gestoppte Pakete vollständig in den Routern zwischengespeichert werden können. Jedoch ist die Paketlänge durch die Größe des kleinsten Puffers begrenzt. Wird diese Begrenzung nicht eingehalten, erfolgt ein Pufferüberlauf. Seite 42 21

22 Konflikte Quelle A Quelle B Quelle A Quelle B Zugriffskonflikt am Netzausgang Konflikt im Inneren des Netzes Senke A Senke B Senke A Senke B Werden Nachrichten von zwei oder mehr Quellen gleichzeitig zur selben Senke gesendet, so resultiert ein Ausgangskonflikt und nur eine der Nachrichten kann vermittelt werden. In vielen Netzen ergeben sich Konflikte auch innerhalb des Netzes, wenn Nachrichten zwar an unterschiedliche Senken adressiert sind, intern streckenweise jedoch denselben Weg benötigen. Während interne Konflikte in blockierungsfreien oder rearrangierbaren Netzen vermieden werden können, sind Ausgangskonflikte verkehrsabhängig und können daher durch topologische Maßnahmen nicht umgangen werden. Seite 43 Klassifizierung indirekter Netze Indirekte Verbindungsnetze können einstufig (s = 1) oder mehrstufig (s > 1) sein. Beispiele für einstufige indirekte Netze sind das Crossbar Netz und das einstufige Shuffle- Exchange Netz. Mehrstufige Netze werden auch als Multistage Interconnection Networks (MINs) bezeichnet. Verbindungsnetze, in denen genau ein Weg von jeder Quelle zu jeder Senke existiert, werden als indirekte Einpfadnetze bezeichnet. Existiert mehr als ein Weg, so handelt es sich um indirekte Mehrpfadnetze. Seite 44 22

23 Verhalten eines Crossbar Netzes Das Crossbar Netz (such Kreuzschienenverteiler oder Koppelvielfach) ermöglicht beliebige blockierungsfreie Permutationen (auch Multicast und Broadcast) ohne Rekonfiguration. Der Verteiler besteht aus horizontalen und vertikalen Bussen. An jedem Kreuzungspunkt (Koppelpunkt) befindet sich ein Schalter durch den der horizontale mit dem vertikalen Bus verbunden werden kann Koppelpunkt Die eingezeichneten Verbindungen zeigen eine Permutation von Eingang k zu Ausgang (k+1)mod Crossbar mit 4 Ein- und Ausgängen Seite 45 Einsatz von Crossbar Netzen Dieses einstufige und indirekte Netz findet aufgrund der hohen Leistungsfähigkeit und der hohen Regularität in sehr schnellen Systemen und als Baustein mehrstufiger, hierarchischer großer Netze Verwendung Insgesamt sind jedoch E A Schalter erforderlich, so dass die Netzgröße aufgrund der hohen Hardwarekomplexität und aus Kostengründen begrenzt bleibt. Die eingezeichneten Leitungen zeigen Multicast-Verbindungen von Eingang 0 nach 0 und 3 sowie von Eingang 3 zu den Ausgängen 1, 2, 4 und Crossbar mit 4 Ein- und 6 Ausgängen Seite 46 23

24 Selbstroutendes paketvermittelndes Crossbar Netz In einem selbstroutenden paketvermittelnden Crossbar Netz wird ein am Eingang eintreffendes Datenpaket in einem Eingangspuffer zwischengespeichert. Die Routinginformationen dieses Paketes werden an eine zentrale Steuerlogik weitergeleitet. Diese Steuerlogik entscheidet, welche Pakete aus dem Puffer im nächsten Schritt an die Ausgänge weitergeleitet werden und löst somit die Ausgangskonflikte auf. Eingangsinformationen Steuerlogik Steuerung der Router Eingänge Puffer Ausgänge Seite 47 24

Kapitel 5. Parallelverarbeitung. Formen der Parallelität

Kapitel 5. Parallelverarbeitung. Formen der Parallelität Kapitel 5 Parallelverarbeitung é Formen der Parallelität é Klassifikation von parallelen Rechnerarchitekturen é Exkurs über Verbindungsstrukturen Bernd Becker Technische Informatik I Formen der Parallelität

Mehr

Proseminar Rechnerarchitekturen. Parallelcomputer: Multiprozessorsysteme

Proseminar Rechnerarchitekturen. Parallelcomputer: Multiprozessorsysteme wwwnet-texde Proseminar Rechnerarchitekturen Parallelcomputer: Multiprozessorsysteme Stefan Schumacher, , PGP Key http://wwwnet-texde/uni Id: mps-folientex,v

Mehr

Architektur paralleler Plattformen

Architektur paralleler Plattformen Architektur paralleler Plattformen Freie Universität Berlin Fachbereich Informatik Wintersemester 2012/2013 Proseminar Parallele Programmierung Mirco Semper, Marco Gester Datum: 31.10.12 Inhalt I. Überblick

Mehr

Überblick. Einleitung. Befehlsschnittstelle Mikroarchitektur Speicherarchitektur Ein-/Ausgabe Multiprozessorsysteme,...

Überblick. Einleitung. Befehlsschnittstelle Mikroarchitektur Speicherarchitektur Ein-/Ausgabe Multiprozessorsysteme,... Überblick Einleitung Lit., Motivation, Geschichte, v.neumann- Modell, VHDL Befehlsschnittstelle Mikroarchitektur Speicherarchitektur Ein-/Ausgabe Multiprozessorsysteme,... Kap.6 Multiprozessorsysteme Einsatz

Mehr

Parallelrechner (1) Anwendungen: Simulation von komplexen physikalischen oder biochemischen Vorgängen Entwurfsunterstützung virtuelle Realität

Parallelrechner (1) Anwendungen: Simulation von komplexen physikalischen oder biochemischen Vorgängen Entwurfsunterstützung virtuelle Realität Parallelrechner (1) Motivation: Bedarf für immer leistungsfähigere Rechner Leistungssteigerung eines einzelnen Rechners hat physikalische Grenzen: Geschwindigkeit von Materie Wärmeableitung Transistorgröße

Mehr

2 Rechnerarchitekturen

2 Rechnerarchitekturen 2 Rechnerarchitekturen Rechnerarchitekturen Flynns Klassifikation Flynnsche Klassifikation (Flynn sche Taxonomie) 1966 entwickelt, einfaches Modell, bis heute genutzt Beschränkung der Beschreibung auf

Mehr

Systeme 1: Architektur

Systeme 1: Architektur slide 1 Vorlesung Systeme 1: Architektur Prof. Dr. Ulrich Ultes-Nitsche Forschungsgruppe Departement für Informatik Universität Freiburg slide 2 Prüfung 18. Februar 2004 8h00-11h40 13h00-18h20 20 Minuten

Mehr

Distributed Memory Computer (DMC)

Distributed Memory Computer (DMC) Distributed Memory Computer (DMC) verteilter Speicher: jeder Prozessor kann nur auf seinen lokalen Speicher zugreifen Kopplung mehrerer Prozessoren über E/A-Schnittstellen und Verbindungsnetzwerk, nicht

Mehr

Mehrprozessorarchitekturen

Mehrprozessorarchitekturen Mehrprozessorarchitekturen (SMP, UMA/NUMA, Cluster) Arian Bär 12.07.2004 12.07.2004 Arian Bär 1 Gliederung 1. Einleitung 2. Symmetrische Multiprozessoren (SMP) Allgemeines Architektur 3. Speicherarchitekturen

Mehr

Agenda. Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen. Agenda. Dynamische Verbindungsnetzwerke

Agenda. Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen. Agenda. Dynamische Verbindungsnetzwerke Agenda Center for Information Services and High Performance Computing (ZIH) Einführung Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen Dynamische Verbindungsnetzwerke 9.

Mehr

Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen

Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen Center for Information Services and High Performance Computing (ZIH) Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen Klassifizierung von Verbindungsnetzwerken 26. April 2013

Mehr

Foliensatz. Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen

Foliensatz. Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen Foliensatz Center for Information Services and High Performance Computing (ZIH) Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen Klassifizierung von Verbindungsnetzwerken

Mehr

Johann Wolfgang Goethe-Universität

Johann Wolfgang Goethe-Universität Flynn sche Klassifikation SISD (single instruction, single data stream): IS IS CU PU DS MM Mono (Mikro-)prozessoren CU: Control Unit SM: Shared Memory PU: Processor Unit IS: Instruction Stream MM: Memory

Mehr

Foliensatz. Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen

Foliensatz. Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen Foliensatz Center for Information Services and High Performance Computing (ZIH) Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen Dynamische Verbindungsnetzwerke 8. Juni Verfügbarkeit

Mehr

Gliederung Seite 1. Gliederung

Gliederung Seite 1. Gliederung Gliederung Seite 1 Gliederung 1. Klassifikationen...6 1.1. Klassifikation nach der Kopplung der rechnenden Einheiten...6 1.1.1. Enge Kopplung...6 1.1.2. Lose Kopplung...6 1.2. Klassifikation nach der Art

Mehr

1. Die Organisation von RISC-Prozessoren 2

1. Die Organisation von RISC-Prozessoren 2 1. Die Organisation von RISC-Prozessoren 2 1.1. Superskalarität 3 1.2. Parallelverarbeitung 4 1.2.1 Multi Core- und Many Core-CPUs 10 1.2.2 Automatische Parallelisierung im Instruction Window 11 1.3. Dynamische

Mehr

Architektur von Parallelrechnern 50

Architektur von Parallelrechnern 50 Architektur von Parallelrechnern 50 Rechenintensive parallele Anwendungen können nicht sinnvoll ohne Kenntnis der zugrundeliegenden Architektur erstellt werden. Deswegen ist die Wahl einer geeigneten Architektur

Mehr

Grundlagen der Informatik III Wintersemester 2010/ Vorlesung Dr.-Ing. Wolfgang Heenes

Grundlagen der Informatik III Wintersemester 2010/ Vorlesung Dr.-Ing. Wolfgang Heenes Grundlagen der Informatik III Wintersemester 2010/2011 28. Vorlesung Dr.-Ing. Wolfgang Heenes int main() { printf("hello, world!"); return 0; } msg: main:.data.asciiz "Hello, world!".text.globl main la

Mehr

Verteilte Betriebssysteme

Verteilte Betriebssysteme Verteiltes System Eine Sammlung unabhängiger Rechner, die dem Benutzer den Eindruck vermitteln, es handle sich um ein einziges System. Verteiltes Betriebssystem Betriebssystem für verteilte Systeme Verwaltet

Mehr

Maik Zemann. Flynn s Taxonomie. Parallele Rechnerarchitekturen SS 2004 Technische Fakultät Universität Bielefeld. 3. Mai 2004 Flynn's Taxonomie 1

Maik Zemann. Flynn s Taxonomie. Parallele Rechnerarchitekturen SS 2004 Technische Fakultät Universität Bielefeld. 3. Mai 2004 Flynn's Taxonomie 1 Maik Zemann Flynn s Taxonomie Parallele Rechnerarchitekturen SS 2004 Technische Fakultät Universität Bielefeld 3. Mai 2004 Flynn's Taxonomie 1 Gliederung Einleitung Gliederung Flynn s Taxonomie Das SISD-Modell

Mehr

Strukturelemente von Parallelrechnern

Strukturelemente von Parallelrechnern Strukturelemente von Parallelrechnern Parallelrechner besteht aus einer Menge von Verarbeitungselementen, die in einer koordinierten Weise, teilweise zeitgleich, zusammenarbeiten, um eine Aufgabe zu lösen

Mehr

Rechnernetze 2. Grundlagen

Rechnernetze 2. Grundlagen Rechnernetze 2. Grundlagen Typische Topologien Dedizierte Leitungen Bus Zugangsverfahren Kollisionsfreier Zugang Kollisionserkennung Multicast & Broadcast Eigenschaftsgarantien Zugangsverfahren Ethernet

Mehr

Kapitel 1 Parallele Modelle Wie rechnet man parallel?

Kapitel 1 Parallele Modelle Wie rechnet man parallel? PRAM- PRAM- DAG- R UND R Coles und Kapitel 1 Wie rechnet man parallel? Vorlesung Theorie Paralleler und Verteilter Systeme vom 11. April 2008 der Das DAG- Das PRAM- Das werkmodell Institut für Theoretische

Mehr

Übung 1. Letzte Änderung: 5. Mai 2017

Übung 1. Letzte Änderung: 5. Mai 2017 Übung 1 Letzte Änderung: 5. Mai 2017 Abhängigkeitsanalyse Synthese Mul prozessor Mul computer Compiler Parallelismustest Vektorrechner Rechenfelder Op mierung Flynns Schema Modelle Theorie Parallele Systeme

Mehr

RO II Übungen ohne Lösungen V20

RO II Übungen ohne Lösungen V20 H. Richter 05.04.2017 RO II Übungen ohne Lösungen V20 Übung 1: Gesamtpunktzahl [76] (76P) 1 Aufgabe: Superskalarität [22] 1.) Worin besteht der Unterschied zwischen einem skalaren Prozessor und einem superskalaren

Mehr

Rechnernetze I. Rechnernetze I. 1 Einführung SS Universität Siegen Tel.: 0271/ , Büro: H-B 8404

Rechnernetze I. Rechnernetze I. 1 Einführung SS Universität Siegen Tel.: 0271/ , Büro: H-B 8404 Rechnernetze I SS 2012 Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, Büro: H-B 8404 Stand: 20. April 2012 Betriebssysteme / verteilte Systeme Rechnernetze I (1/12) i Rechnernetze

Mehr

Rechneraufbau und Rechnerstrukturen

Rechneraufbau und Rechnerstrukturen Rechneraufbau und Rechnerstrukturen von Prof. Dr. em. Walter Oberschelp, RWTH Aachen und Prof. Dr. Gottfried Vossen, Universität Münster 9. Auflage Oldenbourg Verlag München Wien Inhaltsverzeichnis Vorwort

Mehr

Konzepte der parallelen Programmierung

Konzepte der parallelen Programmierung Fakultät Informatik, Institut für Technische Informatik, Professur Rechnerarchitektur Konzepte der parallelen Programmierung Parallele Programmiermodelle Nöthnitzer Straße 46 Raum 1029 Tel. +49 351-463

Mehr

6. Parallele Algorithmen

6. Parallele Algorithmen 6. Parallele Algorithmen 6.1 Vorbemerkungen Bisher: Instruktionen von Programmen werden durch einen einzigen Prozessor sequentiell ausgeführt. Eine Beschleunigung von Algorithmen ist dabei nur möglich,

Mehr

Parallele Rechnerarchitektur II

Parallele Rechnerarchitektur II Parallele Rechnerarchitektur II Stefan Lang Interdisziplinäres Zentrum für Wissenschaftliches Rechnen Universität Heidelberg INF 368, Raum 532 D-692 Heidelberg phone: 622/54-8264 email: Stefan.Lang@iwr.uni-heidelberg.de

Mehr

Abkürzungen. Kapitel 1 - Einleitung Stand der Automobilelektronik Historische Entwicklung Gegenwärtige Probleme 2

Abkürzungen. Kapitel 1 - Einleitung Stand der Automobilelektronik Historische Entwicklung Gegenwärtige Probleme 2 Inhalt Abkürzungen X Kapitel 1 - Einleitung 1 1.1 Stand der Automobilelektronik 1 1.1.1 Historische Entwicklung 1 1.1.2 Gegenwärtige Probleme 2 1.2 Zielsetzung 5 1.3 Aufbau der Arbeit 6 1.4 Veröffentlichungen

Mehr

Rechnernetze I SS Universität Siegen Tel.: 0271/ , Büro: H-B Stand: 21.

Rechnernetze I SS Universität Siegen Tel.: 0271/ , Büro: H-B Stand: 21. Rechnernetze I SS 2016 Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, Büro: H-B 8404 Stand: 21. April 2016 Betriebssysteme / verteilte Systeme Rechnernetze I (1/13) i Rechnernetze

Mehr

Paralleles Rechnen. (Architektur verteilter Systeme) von Thomas Offermann Philipp Tommek Dominik Pich

Paralleles Rechnen. (Architektur verteilter Systeme) von Thomas Offermann Philipp Tommek Dominik Pich Paralleles Rechnen (Architektur verteilter Systeme) von Thomas Offermann Philipp Tommek Dominik Pich Gliederung Motivation Anwendungsgebiete Warum paralleles Rechnen Flynn's Klassifikation Theorie: Parallel

Mehr

Rechnernetze I SS Universität Siegen Tel.: 0271/ , Büro: H-B Stand: 25.

Rechnernetze I SS Universität Siegen Tel.: 0271/ , Büro: H-B Stand: 25. Rechnernetze I SS 2012 Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, Büro: H-B 8404 Stand: 25. April 2014 Betriebssysteme / verteilte Systeme Rechnernetze I (1/12) i Rechnernetze

Mehr

2.5. VERBINDUNGSNETZWERKE GESTALTUNGSKRITERIEN DER NETZWERKE TOPOLOGIE ALS GRAPH. Vorlesung 5 TOPOLOGIE: DEFINITIONEN : Sei G = (V, E) ein Graph mit:

2.5. VERBINDUNGSNETZWERKE GESTALTUNGSKRITERIEN DER NETZWERKE TOPOLOGIE ALS GRAPH. Vorlesung 5 TOPOLOGIE: DEFINITIONEN : Sei G = (V, E) ein Graph mit: Vorlesung 5.5. VERBINDUNGSNETZWERKE Kommunikation zwischen den einzelnen Komponenten eines arallelrechners wird i.d.r. über ein Netzwerk organisiert. Dabei unterscheidet man zwei Klassen der Rechner: TOOLOGIE:

Mehr

Parallelverarbeitung. Parallelverarbeitung. 2. Grundlagen. 2. Grundlagen. 2.1 Parallelität

Parallelverarbeitung. Parallelverarbeitung. 2. Grundlagen. 2. Grundlagen. 2.1 Parallelität 2. Grundlagen Parallelverarbeitung SS 2005 Inhalt Parallelität Ebenen der Parallelität Parallelrechnerarchitekturen Parallele Programmiermodelle 18.04.05 Roland Wismüller, Univ. Siegen roland.wismueller@uni-siegen.de

Mehr

CPU Speicher I/O. Abbildung 11.1: Kommunikation über Busse

CPU Speicher I/O. Abbildung 11.1: Kommunikation über Busse Kapitel 11 Rechnerarchitektur 11.1 Der von-neumann-rechner Wir haben uns bisher mehr auf die logischen Bausteine konzentriert. Wir geben jetzt ein Rechnermodell an, das der physikalischen Wirklichkeit

Mehr

Rechneraufbau und Rechnerstrukturen

Rechneraufbau und Rechnerstrukturen Rechneraufbau und Rechnerstrukturen von Prof. Dr. Walter Oberschelp, RWTH Aachen und Prof. Dr. Gottfried Vossen, Universität Münster 7, vollständig überarbeitete und aktualisierte Auflage R.Oldenbourg

Mehr

Hardware-Architekturen

Hardware-Architekturen Kapitel 3 Hardware-Architekturen Hardware-Architekturen Architekturkategorien Mehrprozessorsysteme Begriffsbildungen g Verbindungsnetze Cluster, Constellation, Grid Abgrenzungen Beispiele 1 Fragestellungen

Mehr

Carsten Harnisch. Der bhv Routing & Switching

Carsten Harnisch. Der bhv Routing & Switching Carsten Harnisch Der bhv Co@ch Inhaltsverzeichnis Einleitung 11 Zielgruppe Aufbau 11 11 Modul 1 Das OSl-Referenzmodell 13 1.1 Historie und Entstehung 1.2 Protokoll und Schnittstellen 1.3 Zielsetzung von

Mehr

Routing. Was ist Routing?

Routing. Was ist Routing? Das Internet Protocol (IP) ist das wichtigste routingfähige Protokoll und aus keinem Netzwerk mehr weg zu denken. Es kann die Daten über jede Art von physikalischer Verbindung oder Übertragungssystem vermitteln.

Mehr

Fakultät Informatik Institut für Technische Informatik NETWORK ON CHIP. Architekturen, Herausforderungen, Lösungen. Thomas Frank

Fakultät Informatik Institut für Technische Informatik NETWORK ON CHIP. Architekturen, Herausforderungen, Lösungen. Thomas Frank Fakultät Informatik Institut für Technische Informatik NETWORK ON CHIP Architekturen, Herausforderungen, Lösungen Thomas Frank Dresden, 24.05.2011 Inhalt 1. Einleitung 2. Architektur 3. NoC Bespiele 4.

Mehr

Verwenden von Hubs. Geräte der Schicht 1 Günstig Eingang an einem Port, Ausgang an den anderen Ports Eine Kollisionsdomäne Eine Broadcast-Domäne

Verwenden von Hubs. Geräte der Schicht 1 Günstig Eingang an einem Port, Ausgang an den anderen Ports Eine Kollisionsdomäne Eine Broadcast-Domäne Von Hubs zu VLANs Verwenden von Hubs Geräte der Schicht 1 Günstig Eingang an einem Port, Ausgang an den anderen Ports Eine Kollisionsdomäne Eine Broadcast-Domäne Hub 1 172.30.1.24 172.30.1.22 Ein Hub Ein

Mehr

Leistungsbewertung rekonfigurierbarer Verbindungsnetze für Multiprozessorsysteme

Leistungsbewertung rekonfigurierbarer Verbindungsnetze für Multiprozessorsysteme Dietmar Tutsch SPP Rekonfigurierbare Rechensysteme 1 Leistungsbewertung rekonfigurierbarer Verbindungsnetze für Multiprozessorsysteme Günter Hommel und Dietmar Tutsch Institut für Technische Informatik

Mehr

Paketvermittlung (1/9)

Paketvermittlung (1/9) Paketvermittlung (1/9) 1 Daten- und Telekommunikationsnetze sind traditionell leitungsvermittelt Leitungsvermittelte Netze Switching Networks, z.b. Telefonnetzwerk Kommunikationspartnern wird stehende

Mehr

High Performance Embedded Processors

High Performance Embedded Processors High Performance Embedded Processors Matthias Schwarz Hardware-Software-Co-Design Universität Erlangen-Nürnberg martin.rustler@e-technik.stud.uni-erlangen.de matthias.schwarz@e-technik.stud.uni-erlangen.de

Mehr

Vorlesung Hochleistungsrechnen SS 2010 (c) Thomas Ludwig 16

Vorlesung Hochleistungsrechnen SS 2010 (c) Thomas Ludwig 16 Vorlesung Hochleistungsrechnen SS 2010 (c) Thomas Ludwig 16 Vorlesung Hochleistungsrechnen SS 2010 (c) Thomas Ludwig 17 Die beiden Zitate sind dem Buch von Bauke/Mertens über Cluster Computing entnommen.

Mehr

RO II Übungen ohne Lösungen V16

RO II Übungen ohne Lösungen V16 RO II Übungen ohne Lösungen V16 HRI 23.04.2015 1 Übung 1 (149P) Superskalarität, Parallelität Allgemein, Dynamische Befehlsausführung 1.1 Aufgabe: Superskalarität (27P) 1.) Was bedeutet der Begriff Superskalarität?

Mehr

Prozessorarchitektur. Kapitel 1 - Wiederholung. M. Schölzel

Prozessorarchitektur. Kapitel 1 - Wiederholung. M. Schölzel Prozessorarchitektur Kapitel - Wiederholung M. Schölzel Wiederholung Kombinatorische Logik: Ausgaben hängen funktional von den Eingaben ab. x x 2 x 3 z z = f (x,,x n ) z 2 z m = f m (x,,x n ) Sequentielle

Mehr

SCHICHTENMODELLE IM NETZWERK

SCHICHTENMODELLE IM NETZWERK SCHICHTENMODELLE IM NETZWERK INHALT Einführung Schichtenmodelle Das DoD-Schichtenmodell Das OSI-Schichtenmodell OSI / DOD Gegenüberstellung Protokolle auf den Osi-schichten EINFÜHRUNG SCHICHTENMODELLE

Mehr

Ein Verteiltes System ist eine Ansammlung von unabhängigen Rechnern, die für seine Benutzer wie ein einzelnes Computersystem aussieht.

Ein Verteiltes System ist eine Ansammlung von unabhängigen Rechnern, die für seine Benutzer wie ein einzelnes Computersystem aussieht. Verteilte Systeme Verteilte etriebssysteme 2001-2004, F. Hauck, P. Schulthess, Vert. Sys., Univ. Ulm [2003w-VS--VS.fm, 2003-10-17 08.38] 1 1 Definition Definition nach Tanenbaum/van Steen Ein Verteiltes

Mehr

Mehrprozessorarchitekturen (SMP, Cluster, UMA/NUMA)

Mehrprozessorarchitekturen (SMP, Cluster, UMA/NUMA) Proseminar KVBK Mehrprozessorarchitekturen (SMP, Cluster, UMA/NUMA) Arian Bär 12.07.2004 1. Einleitung 2. Symmetrische Multiprozessoren (SMP) 2.1. Allgemeines 2.2. Architektur 3. Speicherarchitekturen

Mehr

Rechnernetze I SS Universität Siegen Tel.: 0271/ , Büro: H-B Stand: 18.

Rechnernetze I SS Universität Siegen Tel.: 0271/ , Büro: H-B Stand: 18. Rechnernetze I SS 2017 Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, üro: H- 8404 Stand: 18. Mai 2017 etriebssysteme / verteilte Systeme Rechnernetze I (1/13) i Rechnernetze

Mehr

RO II Übungen ohne Lösungen V24

RO II Übungen ohne Lösungen V24 H. Richter 26.04.2018 RO II Übungen ohne Lösungen V24 Übung 1: Gesamtpunktzahl [100] (100P) 1 Aufgabe: Superskalarität 1.) Was bedeutet der Begriff Superskalarität? (1P)[1] 2.) Worin besteht der Unterschied

Mehr

Cache-Kohärenz und -Konsistenz. Betreuer: Prof. Brüning Veton Kajtazi Mat.-Nr.: Universität Heidelberg

Cache-Kohärenz und -Konsistenz. Betreuer: Prof. Brüning Veton Kajtazi Mat.-Nr.: Universität Heidelberg Cache-Kohärenz und -Konsistenz Betreuer: Prof. Brüning Veton Kajtazi Mat.-Nr.: 3220501 Universität Heidelberg Inhaltsverzeichnis Wozu Caches? Unterschied Kohärenz und Konsistenz MESI-Protokoll Fazit 2

Mehr

Rechneraufbau und Rechnerstrukturen

Rechneraufbau und Rechnerstrukturen Rechneraufbau und Rechnerstrukturen von Walter Oberschelp RWTH Aachen und Gottfried Vossen Universität Münster 10. Auflage c 2006 R. Oldenbourg Verlag GmbH, München Inhaltsverzeichnis Auszug... x... aus

Mehr

ATM LAN Emulation. Prof. Dr. W. Riggert

ATM LAN Emulation. Prof. Dr. W. Riggert ATM LAN Emulation Prof. Dr. W. Riggert Inhalt Das Tutorial ist in drei Abschnitte gegliedert. Abschnitt 1 behandelt die Frage, warum LAN Emulation benötigt wird, Abschnitt 2 widmet sich der Frage, welche

Mehr

Token Coherence. Background

Token Coherence. Background Token Coherence Architecture of Parallel Computer Systems WS15/16 J.Simon 1 Background single-writer or many-readers cache coherence invariant Invalidation based Protocol is a distributed algorithm of

Mehr

2 Reproduktion oder Verwendung dieser Unterlage bedarf in jedem Fall der Zustimmung des Autors.

2 Reproduktion oder Verwendung dieser Unterlage bedarf in jedem Fall der Zustimmung des Autors. 1 Definition Definition nach Tanenbaum/van Steen Ein Verteiltes System ist eine Ansammlung von unabhängigen Rechnern, die für seine enutzer wie ein einzelnes Computersystem aussieht. Verteilte Systeme

Mehr

Parallele und verteilte Programmierung

Parallele und verteilte Programmierung Thomas Rauber Gudula Rünger Parallele und verteilte Programmierung Mit 165 Abbildungen und 17 Tabellen Jp Springer Inhaltsverzeichnis 1. Einleitung 1 Teil I. Architektur 2. Architektur von Parallelrechnern

Mehr

Parallel Computing. Einsatzmöglichkeiten und Grenzen. Prof. Dr. Nikolaus Wulff

Parallel Computing. Einsatzmöglichkeiten und Grenzen. Prof. Dr. Nikolaus Wulff Parallel Computing Einsatzmöglichkeiten und Grenzen Prof. Dr. Nikolaus Wulff Parallel Architekturen Flynn'sche Klassifizierung: SISD: single Instruction, single Data Klassisches von-neumann sequentielles

Mehr

x Inhaltsverzeichnis 2. von NEUMANN-Rechner Grundkonzept Interne und externe Busse Prozessorregister Stackpointer

x Inhaltsverzeichnis 2. von NEUMANN-Rechner Grundkonzept Interne und externe Busse Prozessorregister Stackpointer Inhaltsverzeichnis 1. Komplexe Schaltwerke 1 1.1 Zeitverhalten von Schaltwerken 2 1.1.1 Wirk- und Kippintervalle 3 1.1.2 Rückkopplungsbedingungen 6 1.2 Entwurf von Schaltwerken 9 1.3 Kooperierende Schaltwerke

Mehr

Gregor Michalicek, Marcus Schüler. Multiprozessoren

Gregor Michalicek, Marcus Schüler. Multiprozessoren Gregor Michalicek, Marcus Schüler Gregor Michalicek Marcus Schüler Gregor Michalicek, Marcus Schüler Vorteile gegenüber Singleprozessoren ¾ sind zuverlässiger. Einige Multiprozessorsysteme können trotz

Mehr

Multiprozessor System on Chip

Multiprozessor System on Chip Multiprozessor System on Chip INF-M1 AW1-Vortrag 25. November 2009 Übersicht 1. Einleitung und Motivation 2. Multiprozessor System on Chip (MPSoC) 3. Multiprozessoren mit Xilinx EDK 4. FAUST SoC Fahrzeug

Mehr

Cell and Larrabee Microarchitecture

Cell and Larrabee Microarchitecture Cell and Larrabee Microarchitecture Benjamin Grund Dominik Wolfert Universität Erlangen-Nürnberg 1 Übersicht Einleitung Herkömmliche Prozessorarchitekturen Motivation für Entwicklung neuer Architekturen

Mehr

Weitere Verbesserungen

Weitere Verbesserungen Weitere Verbesserungen Welcher Cache liefert aktuellen Block falls mehrere Caches Block im Zustand S halten? Lösung: Einführung eines weiteren Zustands O (Owner) Zustand O besagt: Eigentümer des Blocks

Mehr

Intel 80x86 symmetrische Multiprozessorsysteme. Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte

Intel 80x86 symmetrische Multiprozessorsysteme. Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte Intel 80x86 symmetrische Multiprozessorsysteme Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte Gliederung I. Parallel Computing Einführung II.SMP Grundlagen III.Speicherzugriff

Mehr

Parallele Programmiermodelle

Parallele Programmiermodelle Parallele Programmiermodelle ProSeminar: Parallele Programmierung Semester: WS 2012/2013 Dozentin: Margarita Esponda Einleitung - Kurzer Rückblick Flynn'sche Klassifikationsschemata Unterteilung nach Speicherorganissation

Mehr

System-Architektur und -Software

System-Architektur und -Software System-Architektur und -Software Sommersemester 2001 Lutz Richter Institut für Informatik Universität Zürich Obligatorische Veranstaltung des Kerngebietes System-Architektur und -Software Voraussetzungen

Mehr

Quiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset.

Quiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset. Quiz Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset 32 Bit Adresse 31 3 29... 2 1 SS 212 Grundlagen der Rechnerarchitektur

Mehr

Virtueller Speicher und Memory Management

Virtueller Speicher und Memory Management Virtueller Speicher und Memory Management Speicher-Paradigmen Programmierer ein großer Adressraum linear adressierbar Betriebssystem eine Menge laufender Tasks / Prozesse read-only Instruktionen read-write

Mehr

Vorlesung "Verteilte Systeme" Sommersemester Verteilte Systeme. Empfänger Kommunikationssystem. Netzwerk

Vorlesung Verteilte Systeme Sommersemester Verteilte Systeme. Empfänger Kommunikationssystem. Netzwerk Verteilte Systeme 1. Netzwerke Grundstruktur Sender Empfänger Kommunikationssystem Empfänger Systemsoftware Systemsoftware Hardware Hardware Netzwerk Verteilte Systeme, Sommersemester 1999 Folie 1.2 (c)

Mehr

Vorlesung "Verteilte Systeme" Wintersemester 2000/2001. Verteilte Systeme. Empfänger Kommunikationssystem. Netzwerk

Vorlesung Verteilte Systeme Wintersemester 2000/2001. Verteilte Systeme. Empfänger Kommunikationssystem. Netzwerk Verteilte Systeme 1. Netzwerke Grundstruktur Sender Empfänger Kommunikationssystem Empfänger Systemsoftware Systemsoftware Hardware Hardware Netzwerk Verteilte Systeme, Wintersemester 2000/2001 Folie 1.2

Mehr

GPGPU Basiskonzepte. von Marc Kirchhoff GPGPU Basiskonzepte 1

GPGPU Basiskonzepte. von Marc Kirchhoff GPGPU Basiskonzepte 1 GPGPU Basiskonzepte von Marc Kirchhoff 29.05.2006 GPGPU Basiskonzepte 1 Inhalt Warum GPGPU Streams, Kernels und Prozessoren Datenstrukturen Algorithmen 29.05.2006 GPGPU Basiskonzepte 2 Warum GPGPU? Performance

Mehr

Technische Informatik 2

Technische Informatik 2 W. Schiffmann R. Schmitz Technische Informatik 2 Grundlagen der Computertechnik 3., überarbeitete Auflage mit 146 Abbildungen Ä} Springer Inhaltsverzeichnis 1. Komplexe Schaltwerke 1 1.1 Aufbau eines Schaltwerks

Mehr

Netzwerktopologien. Unter Netzwerktopologie versteht man die Art und Weise (Struktur), in der die einzelnen Netzwerkelemente verbunden werden.

Netzwerktopologien. Unter Netzwerktopologie versteht man die Art und Weise (Struktur), in der die einzelnen Netzwerkelemente verbunden werden. Netzwerktopologien Folie: 1 Unter Netzwerktopologie versteht man die Art und Weise (Struktur), in der die einzelnen Netzwerkelemente verbunden werden. Unter physikalischer Topologie versteht man die räumliche

Mehr

IT für Führungskräfte. Zentraleinheiten. 11.04.2002 Gruppe 2 - CPU 1

IT für Führungskräfte. Zentraleinheiten. 11.04.2002 Gruppe 2 - CPU 1 IT für Führungskräfte Zentraleinheiten 11.04.2002 Gruppe 2 - CPU 1 CPU DAS TEAM CPU heißt Central Processing Unit! Björn Heppner (Folien 1-4, 15-20, Rollenspielpräsentation 1-4) Harald Grabner (Folien

Mehr

Rechnergrundlagen SS 2007. 11. Vorlesung

Rechnergrundlagen SS 2007. 11. Vorlesung Rechnergrundlagen SS 2007 11. Vorlesung Inhalt Evaluation der Lehre (Auswertung) Synchroner/asynchroner Systembus Kontrollfluss/Datenfluss RISC vs. CISC Speicherhierarchie Cache Lesen Schreiben Überschreiben

Mehr

TECHNISCHE HOCHSCHULE NÜRNBERG GEORG SIMON OHM Die Mikroprogrammebene eines Rechners Das Abarbeiten eines Arbeitszyklus eines einzelnen Befehls besteht selbst wieder aus verschiedenen Schritten, z.b. Befehl

Mehr

Struktur der CPU (1) Die Adress- und Datenpfad der CPU: Befehl holen. Vorlesung Rechnerarchitektur und Rechnertechnik SS Memory Adress Register

Struktur der CPU (1) Die Adress- und Datenpfad der CPU: Befehl holen. Vorlesung Rechnerarchitektur und Rechnertechnik SS Memory Adress Register Struktur der CPU (1) Die Adress- und Datenpfad der CPU: Prog. Counter Memory Adress Register Befehl holen Incrementer Main store Instruction register Op-code Address Memory Buffer Register CU Clock Control

Mehr

Energieeffizienz und Performance von Networks-on-Chip

Energieeffizienz und Performance von Networks-on-Chip Fakultät Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Energieeffizienz und Performance von Networks-on-Chip Marco Zulkowski Marco.Zulkowski@mailbox.tu-dresden.de Dresden,

Mehr

Skalierbare Rechensysteme für Echtzeitanwendungen

Skalierbare Rechensysteme für Echtzeitanwendungen Skalierbare Rechensysteme für Echtzeitanwendungen Institut für Informatik TU Clausthal Echtzeit 2011: Herausforderungen durch Echtzeitbetrieb 3. und 4. November 2011 in Boppard am Rhein Multitasking Task

Mehr

Lehrveranstaltung: PR Rechnerorganisation Blatt 8. Thomas Aichholzer

Lehrveranstaltung: PR Rechnerorganisation Blatt 8. Thomas Aichholzer Aufgabe 8.1 Ausnahmen (Exceptions) a. Erklären Sie den Begriff Exception. b. Welche Arten von Exceptions kennen Sie? Wie werden sie ausgelöst und welche Auswirkungen auf den ablaufenden Code ergeben sich

Mehr

Verteilte Systeme. Protokolle. by B. Plattner & T. Walter (1999) Protokolle-1. Institut für Technische Informatik und Kommunikationsnetze

Verteilte Systeme. Protokolle. by B. Plattner & T. Walter (1999) Protokolle-1. Institut für Technische Informatik und Kommunikationsnetze Protokolle Protokolle-1 Kommunikationssubsystem Ein System, welches innerhalb eines verteilten Systems für den Nachrichtentransport zwischen Kommunikationspartnern (= Prozesse) zuständig ist (Hardware

Mehr

UBERBLICK ZU NETWORKS-ON-CHIP:

UBERBLICK ZU NETWORKS-ON-CHIP: Fakultät Informatik Institut für Technische Informatik UBERBLICK ZU NETWORKS-ON-CHIP: Architekturen, Herausforderungen und Lösungen Jan Hoyer Dresden, 7.7.2010 Gliederung Motivation Network-on-Chip Herausforderungen

Mehr

Kommunikationsmodelle

Kommunikationsmodelle Kommunikationsmodelle Dr. Victor Pankratius David J. Meder IPD Tichy Lehrstuhl für Programmiersysteme KIT die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH) Grundlegende

Mehr

CUDA. Jürgen Pröll. Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg Jürgen Pröll 1

CUDA. Jürgen Pröll. Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg Jürgen Pröll 1 CUDA Jürgen Pröll Multi-Core Architectures and Programming Jürgen Pröll 1 Image-Resize: sequentiell resize() mit bilinearer Interpolation leicht zu parallelisieren, da einzelne Punkte voneinander unabhängig

Mehr

Netzwerk-Kenngrößen und -Topologien

Netzwerk-Kenngrößen und -Topologien Netzwerk-Kenngrößen und -Topologien Dr. Victor Pankratius David J. Meder IPD Tichy Lehrstuhl für Programmiersysteme KIT die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH)

Mehr

Universität Karlsruhe (TH)

Universität Karlsruhe (TH) Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Netzwerk-Kenngrößen und -Topologien Prof. Dr. Walter F. Tichy Dr. Victor Pankratius A. Jannesari Vorlesung Cluster Computing Architektur

Mehr

Rechnerarchitektur. Lösungsvorschlag 6. Übung. Sommersemester Aufgabe: Zyklische Verschiebung

Rechnerarchitektur. Lösungsvorschlag 6. Übung. Sommersemester Aufgabe: Zyklische Verschiebung Rechnerarchitektur Lösungsvorschlag 6. Übung Sommersemester 2010 Fachgebiet Rechnerarchitektur Prof. R. Hoffmann Patrick Ediger 1. Aufgabe: Zyklische Verschiebung Gegeben sei eine Folge von n Variablen

Mehr

Cache Blöcke und Offsets

Cache Blöcke und Offsets Cache Blöcke und Offsets Ein Cache Eintrag speichert in der Regel gleich mehrere im Speicher aufeinander folgende Bytes. Grund: räumliche Lokalität wird wie folgt besser ausgenutzt: Bei Cache Miss gleich

Mehr

Lernbüro - Unterlagen Netzwerktechnik

Lernbüro - Unterlagen Netzwerktechnik Lernbüro - Unterlagen Netzwerktechnik Einführung in die Netzwerktechnik 1. Semester Heft #1 Modul 1.1-1.4 Version 3.0 WS2018 Copyright 2018 Christoph Roschger, Markus Schabel verein lernen im aufbruch

Mehr