Weitere Verbesserungen

Größe: px
Ab Seite anzeigen:

Download "Weitere Verbesserungen"

Transkript

1 Weitere Verbesserungen Welcher Cache liefert aktuellen Block falls mehrere Caches Block im Zustand S halten? Lösung: Einführung eines weiteren Zustands O (Owner) Zustand O besagt: Eigentümer des Blocks hat besondere Aufgaben Block ggf. verändert, aber noch nicht im geschrieben Valide Kopien des Blocks in anderen Caches möglich Alle anderen Kopien des Blocks sind im Zustand S Architecture of Parallel Computer Systems WS5/6 J.Simon Zustandsübergangsdiagramm MOESI Cache-to-Cache Sharing: im Zustand M, O oder E ohne Wirkung auf den Hauptspeicher Write-Back BusWB im Zustand M und O Im Zustand O mit zusätzlichem Inval aller Kopien. PrWr / BusRdX BusRd( S) BusUpgrd BusUpgrd BusRd(S) M O E S BusRd / BusUpgrd/ BusUpgrd/ BusRdX / Architecture of Parallel Computer Systems WS5/6 J.Simon I

2 P u:5 Beispiel: MOESI u:5 / / 7 9 u:9 4 u:7/ P u=9 I/O-Geräte P () P liest u () P schreibt u () P liest u (4) P schreibt u (5) P liest u (6) P liest u Aktion Pr-Aktion Bus-Aktion Signal Quelle Zustand in P Zustand in P Zustand in P E - - PrWr () M - - a PrRd () BusRd? b () S Cache P O - S 4a PrWr () BusRdX 4b () - Cache P I M I 5a PrRd () BusRd? 5b () S Cache P S O I 6a PrRd () BusRd? 6b () S Cache P S O S Architecture of Parallel Computer Systems WS5/6 J.Simon ccnuma Unterstützung MESI kann viele redundante Nachrichten erzeugen Z.B. Anfrage nach einem Block der in mehreren Caches vorhanden ist (O-Zustand kann das natürlich auch verbessern) Einführung eines neuen Zustandes Forward (F) Cache mit Block im F-Zustand antwortet auf BusRd, Caches mit Block im S-Zustand müssen nichts machen Nach einem BusRd mit Teilhaber wandert der Zustand F zum Cache dessen Prozessor das PrRd initiiert hat Cache-Line im alten F-Zustand geht in Zustand S Cache-Line mit neuer Kopie geht in Zustand F Vorteile: Verdrängung einer Cache-Line im Zustand F wird weniger wahrscheinlich (wegen zeitlicher Lokalität) bessere Verteilung der Rolle des antwortenden Caches über alle Knoten (weniger Hot-Spots) Architecture of Parallel Computer Systems WS5/6 J.Simon 4

3 Zustandsübergangsdiagramm MESIF Cache-to-Cache Sharing im Zustand M, E und F, ohne Wirkung auf den Hauptspeicher. Write-Back BusWB im Zustand M und F, Im Zustand F zusätzlich Inval aller Teilhaber. BusUpgrd M F E BusÚpgrd/ PrWr / BusRdX BusUpgrd BusRd( S) BusRd(S) S I BusÚpgrd/ Architecture of Parallel Computer Systems WS5/6 J.Simon 5 P u=7 u:5 Beispiel: MESIF u:5 / 7/ 9 u:9 4 u:7/ 5 4 P u=9 u=9 I/O-Geräte P () P liest u () P schreibt u () P liest u (4) P schreibt u (5) P liest u Aktion Pr-Aktion Bus-Aktion Signal Quelle Zustand in P Zustand in P Zustand in P PrRd () BusRd? b - Memory E - - PrWr () M - - a PrRd () BusRd b () S Cache P S - F 4a PrWr () BusRdX 4b () - Cache P I M I 5a PrRd () BusRd 5b () S Cache P F S I Architecture of Parallel Computer Systems WS5/6 J.Simon 6

4 Source Snooping Geht das auch ohne Bus? aktueller Block Beispiel: System mit vier Prozessoren HyperTransport (AMD HT) oder Quick Path Interconnect (Intel QPI) als Verbindungsstruktur Jeder Prozessor mit lokalem Globaler Adressraum verteilt über lokale CPU CPU mem?? mem CPU? CPU mem Cache-Miss BusRd? mem PrRd Architecture of Parallel Computer Systems WS5/6 J.Simon 7 Protokolle ohne Snooping-BUS Request Response ACKS MOESI (z.b. AMD Opteron) Ursprung MESIF (z.b. Intel Core i7) I S I S O Read Cache- Miss F Read Cache- Miss Hop Protokoll Hop Protokoll Architecture of Parallel Computer Systems WS5/6 J.Simon 8 4

5 Update-basierte Protokolle Invalidierungsbasierte Protokolle schicken Inval-Nachrichten Kann dabei nicht auch der aktuelle Wert bekannt gegeben werden? => Update-basiertes Protokoll => Damit kein expliziter Zustand I notwendig! Architecture of Parallel Computer Systems WS5/6 J.Simon 9 DRAGON: Update-basiertes Protokoll für Write- Back Caches 4 Zustände Exclusive-clean (E): Man selber und haben aktuellen Wert Shared-clean (Sc): Man selber, andere und ggf. haben den Wert; anderer ist Eigentümer Shared-modified (Sm): Man selber und andere haben den Wert, aber nicht der ; man selber ist Eigentümer Sm and Sc können gleichzeitig in unterschiedlichen Caches sein (!), aber nur einer mit Sm Modified oder Dirty (M): Nur man selber hat den Wert Bemerke: Es gibt kein Invalid Zustand im Cache nicht Invalid (Protokoll hält Blöcke immer Valid) nicht im Cache kann als Invalid angesehen werden (Bootstrap des Protokolls) neue Prozessor-Ereignisse: PrRdMiss, PrWrMiss falls Block nicht im Cache enthalten; Initialisierung des Zustands neue Bus-Transaktion: BusUpd Broadcast eines einzelnen Worts über Bus; Update anderer Caches Architecture of Parallel Computer Systems WS5/6 J.Simon 0 5

6 Dragon Zustandsübergangsdiagramm BusUpd/ Update Write-Back: BusWB im Zustand M und Sm. PrRdMiss/BusRd( S) E BusUpd(S) Sc PrRdMiss/BusRd(S) BusUpd( S) PrWrMiss/ (BusRd(S); BusUpd) BusUpd/ Update Sm BusUpd(S) BusUpd( S) M PrWrMiss/BusRd( S) Architecture of Parallel Computer Systems WS5/6 J.Simon Beispiel für Dragon () P P P u=7 () P liest u aus Hauptspeicher () P beschreibt u Snoop H/W tags u:5/ 7 u:7 Snoop H/W tags Snoop H/W tags Shared-Line u:5 I/O-Geräte Bus Pr-Aktion Bus-Aktion Signal Source Zustand in P Zustand in P Zustand in P a PrRdMiss () BusRd? b - Memory E - - a PrWrMiss () BusRd? b S Memory Sc - Sm c BusUpd u aus Cache P Sc - Sm Architecture of Parallel Computer Systems WS5/6 J.Simon 6

7 P u:5/ 7 4 u=? Beispiel für Dragon () P 5 u=? P u=7 u:5/ 7 () P liest u aus Hauptspeicher () P liest u aus Hauptspeicher () P beschreibt u in Caches u:5 I/O-Geräte (4) P liest u aus eigenem Cache (5) P liest u aus P Cache Pr-Aktion Bus-Aktion Signal Source Zustand in P Zustand in P Zustand in P PrRdMiss () BusRd - Memory E - - PrRdMiss () BusRd S Memory Sc - Sc PrWr () BusUpd S u aus Cache P Sc - Sm 4 PrRd () - - Sc - Sm 5 PrRdMiss () BusRd S Cache P Sc Sc Sm Architecture of Parallel Computer Systems WS5/6 J.Simon Design und Implementierung von Snoop-based Multiprozessorsystemen Im Folgenden geht es um: nicht-atomare Zustandsübergänge Multilevel-Caches Busse mit Split-Transactions Architecture of Parallel Computer Systems WS5/6 J.Simon 4 7

8 Design Goals Leistung und Kosten einer Rechnerarchitektur hängen nicht so sehr von der Wahl des Cache-Kohärenzprotokolls ab, sondern vielmehr von dessen Design und Implementierung. Voneinander abhängige Ziele gelten: Korrektheit (z.b. wegen nicht-atomaren Aktionen nicht leicht beweisbar) Hohe Leistung (z.b. mehrere ausstehende low-level Ereignisse mehr potenzielle Bugs) Minimale Hardware (reduzierte Komplexität führt zu kürzerer time-to-market) Architecture of Parallel Computer Systems WS5/6 J.Simon 5 Korrektheitsfragen Erfüllung der Bedingungen für Kohärenz und Konsistenz CC: Write-Propagierung, Serialisierung SC: Vollständigkeit, Atomarität Deadlock: Das System führt keine Aktivität durch Kreis aus Ressource-Abhängigkeiten B A Livelock: kein Prozessor schreitet in der Ausführung fort, Transaktionen werden aber ausgeführt Z.B. simultane Schreiboperationen im invalidation-based Protokoll jeder fragt nach Ownership, invalidiert andere, verliert dieses bevor Arbitrierungsrecht auf Bus zugeteilt wurde Starvation: Ein oder mehrere Prozessoren schreiten in ihrer Ausführung nicht fort, während aber andere weiterkommen. z.b. interleaved Memory System mit NACK bei Bank-Busy oftmals nicht vollständig auszuschließen (sehr geringe Wahrscheinlichkeit, damit nicht katastrophal) Architecture of Parallel Computer Systems WS5/6 J.Simon 6 8

ccnuma Unterstützung Zustandsübergangsdiagramm MESIF

ccnuma Unterstützung Zustandsübergangsdiagramm MESIF ccnuma Unterstützung Einführung eines neuen Zustandes Forward (F) Cache mit Block im F-Zustand antwortet auf BusRd, Caches mit Block im S-Zustand müssen nichts machen Nach einem BusRd mit Teilhaber wandert

Mehr

Variante des MSI-Protokolls

Variante des MSI-Protokolls Variante des MSI-Protokolls Im Zustand M wird BusRd gesehen. Welche Transition ist durchzuführen? hängt vom Zugriffsmuster der Anwendung ab: Übergang zu S erwartet eher ein nachfolgendes Read und nicht

Mehr

Invalidierungs- und Update-basierte Cache-Kohärenz-Protokolle

Invalidierungs- und Update-basierte Cache-Kohärenz-Protokolle Invalidierungs- und Update-basierte Cache-Kohärenz-Protokolle Architecture of Parallel Computer Systems WS15/16 J.Simon 1 SC mit Write-Back Caches Beweisidee: Behandlung von Reads wie beim Write-Through

Mehr

Einfaches MSI-Writeback-Inval-Protokoll

Einfaches MSI-Writeback-Inval-Protokoll Einfaches MSI-Writeback-Inval-Protokoll Write-Back Cache typischerweise Write-allocate bei einem Write-Miss Zustände Invalid (I): Shared (S): Kopien in einem oder mehreren Caches Dirty or Modified (M):

Mehr

Liefert das Protokoll Kohärenz?

Liefert das Protokoll Kohärenz? Liefert das Protokoll Kohärenz? Benötigt: Konstruktion einer (totalen) Ordnung der Speicheroperationen unter Beachtung der Programmordnungen Voraussetzung: atomare Bus-Transaktionen und Speicheroperationen

Mehr

Cache-Kohärenz und -Konsistenz. Betreuer: Prof. Brüning Veton Kajtazi Mat.-Nr.: Universität Heidelberg

Cache-Kohärenz und -Konsistenz. Betreuer: Prof. Brüning Veton Kajtazi Mat.-Nr.: Universität Heidelberg Cache-Kohärenz und -Konsistenz Betreuer: Prof. Brüning Veton Kajtazi Mat.-Nr.: 3220501 Universität Heidelberg Inhaltsverzeichnis Wozu Caches? Unterschied Kohärenz und Konsistenz MESI-Protokoll Fazit 2

Mehr

Liefert das Protokoll Kohärenz?

Liefert das Protokoll Kohärenz? Liefert das Protokoll Kohärenz? Konstruktion einer (totalen) Ordnung der Speicheroperationen unter Beachtung der Programmordnungen Voraussetzung: atomare Bus-Transaktionen und Speicheroperationen alle

Mehr

Rechnerarchitektur SS 2012

Rechnerarchitektur SS 2012 Rechnerarchitektur SS 2012 Cachekohärenz TU Dortmund, Fakultät für Informatik XII Literatur: Hennessy/Patterson: Computer Architecture, 3. Auflage, 2003, Abschnitte 6.2, S. 549ff und 6.5, S. 576ff. Huang:

Mehr

Rechnerarchitektur SS 2012

Rechnerarchitektur SS 2012 Rechnerarchitektur SS 2012 Cachekohärenz Michael Engel TU Dortmund, Fakultät für Informatik Teilweise basierend auf Material von Gernot A. Fink und R. Yahyapour 11. Juni 2013 Speicher in MP-Systemen Zentrales

Mehr

Cache II. Dr.-Ing. Volkmar Sieh. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg SS 2011

Cache II. Dr.-Ing. Volkmar Sieh. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg SS 2011 Cache II Dr.-Ing. Volkmar Sieh Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg SS 2011 Cache II 1/14 2012-02-29 Schreibstrategien Es sind verschiedene Fälle

Mehr

Transiente Zustände. Nicht-Atomarität: Transiente Zustände

Transiente Zustände. Nicht-Atomarität: Transiente Zustände Transiente Zustände Bus-Akquirierung: Aufteilung in zwei Phasen BusReq und BusGrant erste Phase (BusReq): Bus-Anforderung und Übergang in transienten Zustand zweite Phase (BusGrant): Beginn mit Bus-Zuteilung

Mehr

Directory-Ansatz bietet

Directory-Ansatz bietet Directory-Ansatz bietet Directories ermöglichen skalierbare Kohärenz auf allgemeinen Netzwerken kein für Broadcast optimiertes Medium erforderlich viele Möglichkeiten der Organisation von Directories und

Mehr

GLEICHES BEISPIEL, write-back STRATEGIE

GLEICHES BEISPIEL, write-back STRATEGIE GLEICHES BEISPIEL, write-back STRATEGIE e 1 Vorlesung 4 2.4.3. CACHE-KOHÄRENZ UND SPEICHER-KONSISTENZ Einfache aber wichtige Eigenschaft des (sequentiellen) Computerspeichers: Beim Lesen einer Speicherzelle

Mehr

Mehrprozessorarchitekturen

Mehrprozessorarchitekturen Mehrprozessorarchitekturen (SMP, UMA/NUMA, Cluster) Arian Bär 12.07.2004 12.07.2004 Arian Bär 1 Gliederung 1. Einleitung 2. Symmetrische Multiprozessoren (SMP) Allgemeines Architektur 3. Speicherarchitekturen

Mehr

1 Organisationsaspekte RISC- und CISC-Prozessoren Ausnutzen von Cache-Effekten

1 Organisationsaspekte RISC- und CISC-Prozessoren Ausnutzen von Cache-Effekten McFarling [1989] konnte Cache Misses um 75% in 8KB direkt abbildenden Caches durch Softwaremaßnahmen senken. Instruktionen Umordnen im Speicher, um Conflict-Misses zu reduzieren Profiling : spezielle Konfliktvermeidungsmaßnahmen

Mehr

Writebacks. Nicht-Atomare Zustandsübergänge

Writebacks. Nicht-Atomare Zustandsübergänge Writebacks Um den Prozessor ein schnelles fortführen zu ermöglichen, soll zuerst der Miss bedient und dann erst ein Writeback asynchron realisiert werden P Data Addr Cmd write-back buffer notwendig Snooping

Mehr

HORUS. Seminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HWS Martin Scherer

HORUS. Seminar Ausgewählte Themen in Hardwareentwurf und Optik im HWS Martin Scherer HORUS Seminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HWS 2006 Martin Scherer Horus Inhalt 1 Einführung 2 Cachekohärenz 3 ExtendiScale Architektur 4 Übertragungsbeispiele 5 Performance Erweiterungen

Mehr

Grundlagen der Rechnerarchitektur

Grundlagen der Rechnerarchitektur Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie

Mehr

2 Rechnerarchitekturen

2 Rechnerarchitekturen 2 Rechnerarchitekturen Rechnerarchitekturen Flynns Klassifikation Flynnsche Klassifikation (Flynn sche Taxonomie) 1966 entwickelt, einfaches Modell, bis heute genutzt Beschränkung der Beschreibung auf

Mehr

Problem: Write-Atomarität

Problem: Write-Atomarität Problem: Write-Atomarität Initial: A=B=0 A = 1; while (A==0); B=1; while (B==0); print A; P1 P2 P3 Mem Cache Mem Cache A:0->1 A:0 Cache B:0->1 Mem A=1 delay B=1 A=1 Verbindungsnetzwerk Vorlesung: Architektur

Mehr

Schreiben von Pages. Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen).

Schreiben von Pages. Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen). Schreiben von Pages Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen). Write Through Strategie (siehe Abschnitt über Caching) ist hier somit nicht sinnvoll. Eine sinnvolle

Mehr

RAM. Konsistenzprobleme entstehen => CPU - durch Verzögerung in Warteschlange, Umfangreiche Pufferung in den PCI Brücken. lesen. EOP-Signal.

RAM. Konsistenzprobleme entstehen => CPU - durch Verzögerung in Warteschlange, Umfangreiche Pufferung in den PCI Brücken. lesen. EOP-Signal. 11. s 11.1 Pufferspeicher Lesepuffer um vorauszulesen: - erste Leseoperation hat lange Latenzzeit, - Folgedaten vorsorglich schon gelesen, - "prefetch buffer". Schreibpuffer um ein Blockieren des schreibenden

Mehr

Proseminar Rechnerarchitekturen. Parallelcomputer: Multiprozessorsysteme

Proseminar Rechnerarchitekturen. Parallelcomputer: Multiprozessorsysteme wwwnet-texde Proseminar Rechnerarchitekturen Parallelcomputer: Multiprozessorsysteme Stefan Schumacher, , PGP Key http://wwwnet-texde/uni Id: mps-folientex,v

Mehr

11. Caches Pufferspeicher

11. Caches Pufferspeicher Lesepuffer um vorauszulesen: - erste Leseoperation hat lange Latenzzeit, - Folgedaten vorsorglich schon gelesen, - "prefetch buffer". 11. s 11.1 Pufferspeicher Schreibpuffer um ein Blockieren des schreibenden

Mehr

Wie groß ist die Page Table?

Wie groß ist die Page Table? Wie groß ist die Page Table? Im vorigen (typischen) Beispiel verwenden wir 20 Bits zum indizieren der Page Table. Typischerweise spendiert man 32 Bits pro Tabellen Zeile (im Vorigen Beispiel brauchten

Mehr

Cache Grundlagen. Schreibender Cache Zugriff. SS 2012 Grundlagen der Rechnerarchitektur Speicher 22

Cache Grundlagen. Schreibender Cache Zugriff. SS 2012 Grundlagen der Rechnerarchitektur Speicher 22 Cache Grundlagen Schreibender Cache Zugriff SS 212 Grundlagen der Rechnerarchitektur Speicher 22 Eine einfache Strategie Schreibt man nur in den Cache, werden Cache und darunter liegender Speicher inkonsistent.

Mehr

IT-Infrastruktur, WS 2014/15, Hans-Georg Eßer

IT-Infrastruktur, WS 2014/15, Hans-Georg Eßer ITIS-D'' IT-Infrastruktur WS 2014/15 Hans-Georg Eßer Dipl.-Math., Dipl.-Inform. Foliensatz D'': Rechnerstrukturen, Teil 3 v1.0, 2014/11/27 Folie D''-1 Dieser Foliensatz Vorlesungsübersicht Seminar Wiss.

Mehr

Mar&n Hoffmann HARDWAREUNTERSTÜTZUNG FÜR NICHT BLOCKIERENDE SYNCHRONISATION

Mar&n Hoffmann HARDWAREUNTERSTÜTZUNG FÜR NICHT BLOCKIERENDE SYNCHRONISATION Mar&n Hoffmann HARDWAREUNTERSTÜTZUNG FÜR NICHT BLOCKIERENDE SYNCHRONISATION 1 Es ist ziemlich eindeu&g, dass Moore s Law nicht mehr die Taktrate, sondern die Zahl der Kerne misst. Es scheint so, als ob

Mehr

Quiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset.

Quiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset. Quiz Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset 32 Bit Adresse 31 3 29... 2 1 SS 212 Grundlagen der Rechnerarchitektur

Mehr

Cache-Speicher. Design Digitaler Systeme. Prof. Dr.-Ing. Rainer Bermbach

Cache-Speicher. Design Digitaler Systeme. Prof. Dr.-Ing. Rainer Bermbach Cache-Speicher Design Digitaler Systeme Prof. Dr.-Ing. Rainer Bermbach Übersicht Cache-Speicher Warum Cache-Speicher? Cache-Strukturen Aufbau und Organisation von Caches Cache-Architekturen Cache-Strategien

Mehr

Gregor Michalicek, Marcus Schüler. Multiprozessoren

Gregor Michalicek, Marcus Schüler. Multiprozessoren Gregor Michalicek, Marcus Schüler Gregor Michalicek Marcus Schüler Gregor Michalicek, Marcus Schüler Vorteile gegenüber Singleprozessoren ¾ sind zuverlässiger. Einige Multiprozessorsysteme können trotz

Mehr

Hardware PCI-Bus. Dr.-Ing. Matthias Sand. Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg

Hardware PCI-Bus. Dr.-Ing. Matthias Sand. Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg Hardware PCI-Bus Dr.-Ing. Matthias Sand Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2008/2009 Hardware PCI-Bus 1/23 2008-08-06 Übersicht Inhalt:

Mehr

Hardware PCI-Bus. Dr.-Ing. Matthias Sand. Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg

Hardware PCI-Bus. Dr.-Ing. Matthias Sand. Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg Hardware PCI-Bus Dr.-Ing. Matthias Sand Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2007/2008 Hardware PCI-Bus 1/23 2007-10-26 Übersicht Inhalt:

Mehr

Grundlagen der Rechnerarchitektur. Speicher

Grundlagen der Rechnerarchitektur. Speicher Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie

Mehr

5.1 Verteilung von Aktualisierungshinweisen

5.1 Verteilung von Aktualisierungshinweisen 5.1 Verteilung von Aktualisierungshinweisen Verteilung von Nachrichten über eine Aktualisierung lokaler Datenspeicher erfährt, dass Aktualisierung stattfand z.b. Invalidierungsnachricht vgl. erste DSM-Implementierung

Mehr

Computergrundlagen Moderne Rechnerarchitekturen

Computergrundlagen Moderne Rechnerarchitekturen Computergrundlagen Moderne Rechnerarchitekturen Axel Arnold Institut für Computerphysik Universität Stuttgart Wintersemester 2010/11 Aufbau eines modernen Computers DDR3- Speicher Prozessor Prozessor PEG

Mehr

Inhalt Teil 10 (Caches) aus 6. Speicherorganisation

Inhalt Teil 10 (Caches) aus 6. Speicherorganisation Inhalt Teil 10 (Caches) aus 6. Speicherorganisation 1 6.2 Caches 6.2.1 Systemstrukturen 6.2.2 Laden des Cache 6.2.3 Cache-Strukturen Vollassoziativer Cache Direkt zuordnender Cache N-fach assoziativer

Mehr

Virtueller Speicher und Memory Management

Virtueller Speicher und Memory Management Virtueller Speicher und Memory Management Speicher-Paradigmen Programmierer ein großer Adressraum linear adressierbar Betriebssystem eine Menge laufender Tasks / Prozesse read-only Instruktionen read-write

Mehr

Rechnerarchitektur. Vorlesungsbegleitende Unterlagen. WS 2003/2004 Klaus Waldschmidt

Rechnerarchitektur. Vorlesungsbegleitende Unterlagen. WS 2003/2004 Klaus Waldschmidt Rechnerarchitektur Vorlesungsbegleitende Unterlagen WS 2003/2004 Klaus Waldschmidt Teil 15 Speicherhierarchie und s Seite 1 Speicherhierarchie: Der Speicherraum wird in einzelne Schichten unterteilt, die

Mehr

Punkt-zu-Punkt Event-Synchronisation

Punkt-zu-Punkt Event-Synchronisation Methoden in Software unkt-zu-unkt Event-Synchronisation 1. Interrupts: Signalbehandlung 2. Busy-Waiting: normale Variablen als Flaggen 3. Blocking: Nutzung von Semaphoren Beispielsweise Unterstützung in

Mehr

(Allgemeine) Gesetz von Amdahl

(Allgemeine) Gesetz von Amdahl (Allgemeine) Gesetz von Amdahl Amdahl s Law: The performance improvements to be gained from using some faster mode of execution is limited by the fraction of the time the faster mode can be used. Damit

Mehr

Transactional Memory for Distributed Systems

Transactional Memory for Distributed Systems Transactional Memory for Distributed Systems Michael Schöttner, Marc-Florian Müller, Kim-Thomas Möller, Michael Sonnenfroh Heinrich-Heine Universität Düsseldorf Abteilung Betriebssysteme 1 Michael Schöttner,

Mehr

Konzepte und Methoden der Systemsoftware. Aufgabe 1: Polling vs Interrupts. SoSe bis P

Konzepte und Methoden der Systemsoftware. Aufgabe 1: Polling vs Interrupts. SoSe bis P SoSe 2014 Konzepte und Methoden der Systemsoftware Universität Paderborn Fachgebiet Rechnernetze Präsenzübung 3(Musterlösung) 2014-05-05 bis 2014-05-09 Aufgabe 1: Polling vs Interrupts (a) Erläutern Sie

Mehr

Speicherhierarchie, Caches, Consistency Models

Speicherhierarchie, Caches, Consistency Models Speicherhierarchie, Caches, Consistency Models Maximilian Langknecht Lehrstuhl für Rechnerarchitektur Betreuer: Prof. Dr. Ulrich Brüning 1 Inhaltsverzeichnis Speicherhierarchie Warum gibt es Speicherhierarchie?

Mehr

Grob-Struktur des Prozessor-Speichersystems

Grob-Struktur des Prozessor-Speichersystems 2.3.2 Speicherstruktur (1) Grob-Struktur des Prozessor-Speichersystems Chipsatz (Erklärung s. später, Folie 104) 22.4.-27.5.2013, Folie 52 2.3.2 Speicherstruktur (2) Zugriff Prozessor zumeist auf schnelle

Mehr

Grundlagen der Rechnerarchitektur. Speicher

Grundlagen der Rechnerarchitektur. Speicher Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie

Mehr

Vorlesung "Verteilte Systeme" Sommersemester 1999. Verteilte Systeme. Adreßraum. Rechner. Verteilte Systeme, Sommersemester 1999 Folie 19.

Vorlesung Verteilte Systeme Sommersemester 1999. Verteilte Systeme. Adreßraum. Rechner. Verteilte Systeme, Sommersemester 1999 Folie 19. Verteilte Systeme 19. Distributed Shared Memory Sharing!! No Sharing! Sharing? Evolution der Berechnungsmodelle Vergangenheit Gemeinsamer Speicher Einzelrechner Gegenwart Nachrichtenkommunikation Verteilte

Mehr

Analyse aktueller Cache-Architekturen hinsichtlich Struktur und Effizienz. Markus Krause

Analyse aktueller Cache-Architekturen hinsichtlich Struktur und Effizienz. Markus Krause Analyse aktueller Cache-Architekturen hinsichtlich Struktur und Effizienz Markus Krause Dresden, Gliederung 1. Einführung 2. Problemstellung 3. Lösungen a) Miss Rate b) Miss Penalty c) Hit Time 4. Zusammenfassung

Mehr

OpenCL. Programmiersprachen im Multicore-Zeitalter. Tim Wiersdörfer

OpenCL. Programmiersprachen im Multicore-Zeitalter. Tim Wiersdörfer OpenCL Programmiersprachen im Multicore-Zeitalter Tim Wiersdörfer Inhaltsverzeichnis 1. Was ist OpenCL 2. Entwicklung von OpenCL 3. OpenCL Modelle 1. Plattform-Modell 2. Ausführungs-Modell 3. Speicher-Modell

Mehr

Kapitel 1 Parallele Modelle Wie rechnet man parallel?

Kapitel 1 Parallele Modelle Wie rechnet man parallel? PRAM- PRAM- DAG- R UND R Coles und Kapitel 1 Wie rechnet man parallel? Vorlesung Theorie Paralleler und Verteilter Systeme vom 11. April 2008 der Das DAG- Das PRAM- Das werkmodell Institut für Theoretische

Mehr

Parallelrechner: Klassifikation. Parallelrechner: Motivation. Parallelrechner: Literatur. Parallelrechner: PC-Technologie SMP-Multiprozessorsysteme 69

Parallelrechner: Klassifikation. Parallelrechner: Motivation. Parallelrechner: Literatur. Parallelrechner: PC-Technologie SMP-Multiprozessorsysteme 69 Parallelrechner: Motivation immer höhere Performance gefordert => schnellere Einzelprozessoren aber Takte oberhalb von 10 GHz unrealistisch => mehrere Prozessoren diverse Architekturkonzepte shared-memory

Mehr

Klausur Mikroprozessortechnik

Klausur Mikroprozessortechnik 1 Prof. Dr. K. Wüst WS 2001 FH Gießen Friedberg, FB MNI Studiengang Informatik Nachname: Vorname: Matrikelnummer: Klausur Mikroprozessortechnik 14.9.2001 Punkteverteilung Aufgabe Punkte erreicht 1 3 2

Mehr

Computergrundlagen Moderne Rechnerarchitekturen

Computergrundlagen Moderne Rechnerarchitekturen Aufbau eines modernen Computers Computergrundlagen Moderne Rechnerarchitekturen Axel Arnold Institut für Computerphysik Universität Stuttgart DDR3- Speicher Prozessor Prozessor PEG Graphikkarte(n) weitere

Mehr

Linux Paging, Caching und Swapping

Linux Paging, Caching und Swapping Linux Paging, Caching und Swapping Inhalte Paging Das Virtuelle Speichermodell Die Page Table im Detail Page Allocation und Page Deallocation Memory Mapping & Demand Paging Caching Die verschiedenen Caches

Mehr

Cache Blöcke und Offsets

Cache Blöcke und Offsets Cache Blöcke und Offsets Ein Cache Eintrag speichert in der Regel gleich mehrere im Speicher aufeinander folgende Bytes. Grund: räumliche Lokalität wird wie folgt besser ausgenutzt: Bei Cache Miss gleich

Mehr

Virtueller Speicher. SS 2012 Grundlagen der Rechnerarchitektur Speicher 44

Virtueller Speicher. SS 2012 Grundlagen der Rechnerarchitektur Speicher 44 Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 44 Die Idee Virtuelle Adressen Prozess 1 Speicherblock 0 Speicherblock 1 Speicherblock 2 Speicherblock 3 Speicherblock 4 Speicherblock

Mehr

é Er ist software-transparent, d.h. der Benutzer braucht nichts von seiner Existenz zu wissen. Adreßbus Cache- Control Datenbus

é Er ist software-transparent, d.h. der Benutzer braucht nichts von seiner Existenz zu wissen. Adreßbus Cache- Control Datenbus 4.2 Caches é Cache kommt aus dem Französischen: cacher (verstecken). é Er kann durch ein Anwendungsprogramm nicht explizit adressiert werden. é Er ist software-transparent, d.h. der Benutzer braucht nichts

Mehr

Der Front Side Bus ist eine Schnittstelle zwischen dem Hauptprozessor (CPU) und der

Der Front Side Bus ist eine Schnittstelle zwischen dem Hauptprozessor (CPU) und der Die CPU eines PC kommuniziert mit den anderen Bestandteilen des Systems über den Chipsatz. Die direkt mit der CPU verbundene Komponente des Chipsatzes wird als Northbridge bezeichnet. An die Northbridge

Mehr

Verteilte Systeme. Replikation & Konsistenz II. Prof. Dr. Oliver Haase

Verteilte Systeme. Replikation & Konsistenz II. Prof. Dr. Oliver Haase Verteilte Systeme Replikation & Konsistenz II Prof. Dr. Oliver Haase 1 Überblick Replikation & Konsistenz I Ziele von Replikation Replikationsmodelle datenzentriert Client-zentriert Replikation & Konsistenz

Mehr

Architektur und Programmierung von Grafik- und Koprozessoren

Architektur und Programmierung von Grafik- und Koprozessoren Architektur und Programmierung von Grafik- und Koprozessoren Performanz von Computerprogrammen Stefan Zellmann Lehrstuhl für Informatik, Universität zu Köln SS2018 Multithreading Moderne Prozessoren haben

Mehr

Hochleistungsrechnen mit Windows Verifikations- und Analyseprogramme Christian Terboven Rechen- und Kommunikationszentrum RWTH Aachen

Hochleistungsrechnen mit Windows Verifikations- und Analyseprogramme Christian Terboven Rechen- und Kommunikationszentrum RWTH Aachen Hochleistungsrechnen mit Windows Verifikations- und Analyseprogramme hristian Terboven Rechen- und Kommunikationszentrum RWTH Aachen 1 Hochleistungsrechnen mit Windows enter omputing and ommunication Agenda

Mehr

Vorlesung "Systemsoftware II" Wintersemester 2002/03

Vorlesung Systemsoftware II Wintersemester 2002/03 (c) Peter Sturm, Universität Trier 1 Verteilte Systeme 16. Transaktionen Motivation Sicherung konsistenter Systemzustände Beispiele Amnesieproblematik bei zustandsbehafteten Servern Sicherung des Primaries

Mehr

Vorlesung "Verteilte Systeme" Wintersemester 2000/2001. Verteilte Systeme. 14. Transaktionen

Vorlesung Verteilte Systeme Wintersemester 2000/2001. Verteilte Systeme. 14. Transaktionen Verteilte Systeme 14. Transaktionen Motivation Sicherung konsistenter Systemzustände Beispiele Amnesieproblematik bei zustandsbehafteten Servern Sicherung des Primaries (Primary-Backup- Approach) Aktive

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. Blatt Nr. 07 Übung zur Vorlesung Einsatz und Realisierung von Datenbanksystemen im SoSe16 Moritz Kaufmann

Mehr

Intel 80x86 symmetrische Multiprozessorsysteme. Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte

Intel 80x86 symmetrische Multiprozessorsysteme. Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte Intel 80x86 symmetrische Multiprozessorsysteme Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte Gliederung I. Parallel Computing Einführung II.SMP Grundlagen III.Speicherzugriff

Mehr

Mehrprozessorarchitekturen (SMP, Cluster, UMA/NUMA)

Mehrprozessorarchitekturen (SMP, Cluster, UMA/NUMA) Proseminar KVBK Mehrprozessorarchitekturen (SMP, Cluster, UMA/NUMA) Arian Bär 12.07.2004 1. Einleitung 2. Symmetrische Multiprozessoren (SMP) 2.1. Allgemeines 2.2. Architektur 3. Speicherarchitekturen

Mehr

Paralleler Cuckoo-Filter. Seminar: Implementierungstechniken für Hauptspeicherdatenbanksysteme Jeremias Neth München, 21.

Paralleler Cuckoo-Filter. Seminar: Implementierungstechniken für Hauptspeicherdatenbanksysteme Jeremias Neth München, 21. Paralleler Cuckoo-Filter Seminar: Implementierungstechniken für Hauptspeicherdatenbanksysteme Jeremias Neth München, 21. November 2017 1 Paralleler Cuckoo-Filter Cuckoo-Hashtabelle Serieller Cuckoo-Filter

Mehr

Die Sicht eines Sysadmins auf DB systeme

Die Sicht eines Sysadmins auf DB systeme Die Sicht eines Sysadmins auf DB systeme Robert Meyer 21. Oktober 2016 Robert Meyer Die Sicht eines Sysadmins auf DB systeme 21. Oktober 2016 1 / 20 Inhaltsverzeichnis 1 Einleitung 2 IO unter Linux typische

Mehr

Cache Kohärenz. von Rainer Leisen

Cache Kohärenz. von Rainer Leisen Cache Kohärenz von Rainer Leisen Vorwort Diese Seminararbeit Cache Kohärenz wurde parallel zu der Veranstaltung Verteilte und Parallele Systeme II der Fachhochschule Bonn-Rhein-Sieg erstellt. In diesem

Mehr

Device Treiber für FlexPath- Netzwerkprozessoren

Device Treiber für FlexPath- Netzwerkprozessoren Device Treiber für FlexPath- Netzwerkprozessoren Michael Meitinger Rainer Ohlendorf Dr. Thomas Wild Prof. Dr. Andreas Herkersdorf 1 Übersicht Übersicht FlexPath Einsatz von Device Treibern in der FlexPath

Mehr

Speicherarchitektur (23) Suchen einer Seite:

Speicherarchitektur (23) Suchen einer Seite: Speicherarchitektur (23) Suchen einer Seite: Vorlesung Rechnersysteme SS `09 E. Nett 7 Speicherarchitektur (24) Adressschema inklusive Seitenfehler: Vorlesung Rechnersysteme SS `09 E. Nett 8 Speicherarchitektur

Mehr

CUDA. Jürgen Pröll. Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg Jürgen Pröll 1

CUDA. Jürgen Pröll. Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg Jürgen Pröll 1 CUDA Jürgen Pröll Multi-Core Architectures and Programming Jürgen Pröll 1 Image-Resize: sequentiell resize() mit bilinearer Interpolation leicht zu parallelisieren, da einzelne Punkte voneinander unabhängig

Mehr

Rechnerorganisation. Überblick über den Teil 13

Rechnerorganisation. Überblick über den Teil 13 Rechnerorganisation Teil 3 9. Juni 2 KC Posch Überblick über den Teil 3 Arbiter: Wie können sich 2 aktive Partner vertragen? Direkter Speicherzugriff: Ein Ko Prozessor zum Daten Schaufeln Die Verbesserung

Mehr

Betriebssysteme (BS) Multiprozessorsysteme. Olaf Spinczyk.

Betriebssysteme (BS) Multiprozessorsysteme. Olaf Spinczyk. Betriebssysteme (BS) Multiprozessorsysteme http://ess.cs.tu-dortmund.de/de/teaching/ss2015/bs/ Olaf Spinczyk olaf.spinczyk@tu-dortmund.de http://ess.cs.tu-dortmund.de/~os AG Eingebettete Systemsoftware

Mehr

Vorstellung der SUN Rock-Architektur

Vorstellung der SUN Rock-Architektur Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Vorstellung der SUN Rock-Architektur Hauptseminar Ronald Rist Dresden, 14.01.2009

Mehr

Betriebssysteme, Rechnernetze und verteilte Systeme 1 (BSRvS 1)

Betriebssysteme, Rechnernetze und verteilte Systeme 1 (BSRvS 1) Betriebssysteme, Rechnernetze und verteilte Systeme 1 (BSRvS 1) Multiprozessorsysteme Olaf Spinczyk Arbeitsgruppe Eingebettete Systemsoftware Lehrstuhl für Informatik 12 TU Dortmund Olaf.Spinczyk@tu-dortmund.de

Mehr

Vorlesung: Rechnerstrukturen, Teil 2 (Modul IP7)

Vorlesung: Rechnerstrukturen, Teil 2 (Modul IP7) Vorlesung: Rechnerstrukturen, Teil 2 (Modul IP7) Vorlesung: Rechnerstrukturen, Teil 2 (Modul IP7) J. Zhang zhang@informatik.uni-hamburg.de Universität Hamburg AB Technische Aspekte Multimodaler Systeme

Mehr

Grundlagen der Rechnerarchitektur. Ein und Ausgabe

Grundlagen der Rechnerarchitektur. Ein und Ausgabe Grundlagen der Rechnerarchitektur Ein und Ausgabe Übersicht Grundbegriffe Hard Disks und Flash RAM Zugriff auf IO Geräte RAID Systeme SS 2012 Grundlagen der Rechnerarchitektur Ein und Ausgabe 2 Grundbegriffe

Mehr

Konzepte von Betriebssystem-Komponenten: Effiziente Manycore-Systeme

Konzepte von Betriebssystem-Komponenten: Effiziente Manycore-Systeme Konzepte von Betriebssystem-Komponenten: Effiziente Manycore-Systeme Florian Schmaus, Stefan Reif Lehrstuhl für Informatik 4 Verteilte Systeme und Betriebssysteme Friedrich-Alexander-Universität Erlangen-Nürnberg

Mehr

Systeme I: Betriebssysteme Kapitel 4 Prozesse. Wolfram Burgard

Systeme I: Betriebssysteme Kapitel 4 Prozesse. Wolfram Burgard Systeme I: Betriebssysteme Kapitel 4 Prozesse Wolfram Burgard Version 18.11.2015 1 Inhalt Vorlesung Aufbau einfacher Rechner Überblick: Aufgabe, Historische Entwicklung, unterschiedliche Arten von Betriebssystemen

Mehr

Zeit als Mittel der Reihenfolgebestimmung

Zeit als Mittel der Reihenfolgebestimmung Uhrensynchronisation Notwendigkeit von Uhrensynchronisation Zeit als Mittel der Reihenfolgebestimmung Probleme der Uhrensynchronisation Lamport Vektorduhren Synchronisation von physikalischen Uhren Grundlagen

Mehr

Ziele der Replikation Unterschiedliche Replikationsanforderungen Replikationsmodelle. Verteilte Systeme. 6. Konsistenz und Replikation

Ziele der Replikation Unterschiedliche Replikationsanforderungen Replikationsmodelle. Verteilte Systeme. 6. Konsistenz und Replikation 6-2 Überblick Verteilte Systeme 6. Konsistenz und Replikation Sommersemester 2011 Institut für Betriebssysteme und Rechnerverbund TU Braunschweig Dr. Christian Werner Bundesamt für Strahlenschutz Ziele

Mehr

Single- und Multitasking

Single- und Multitasking Single- und Multitasking Peter B. Ladkin ladkin@rvs.uni-bielefeld.de Peter B. Ladkin Command Interpreter (ComInt) läuft wartet auf Tastatur-Eingabe "liest" (parst) die Eingabe (für Prog-Name) Macht "Lookup"

Mehr

Opteron und I/O. Toni Schmidbauer. 11. Mai Zusammenfassung. Eine kurze Beschreibung der AMD Opteron Architektur.

Opteron und I/O. Toni Schmidbauer. 11. Mai Zusammenfassung. Eine kurze Beschreibung der AMD Opteron Architektur. Opteron und I/O Toni Schmidbauer 11. Mai 2005 Zusammenfassung Eine kurze Beschreibung der AMD Opteron Architektur Inhaltsverzeichnis 1 Allgemeines 2 2 Was ist ein Interconnect? 2 3 Traditionelles PC Chipset

Mehr

Rechnerorganisation. 1. Juni 201 KC Posch

Rechnerorganisation. 1. Juni 201 KC Posch .6.2 Rechnerorganisation. Juni 2 KC Posch .6.2 2 .6.2 Front Side Bus Accelerated Graphics Port 28 MHz Front Side Bus North Bridge RAM idge South Bri IDE USB PCI Bus 3 .6.2 Front Side Bus Front Side Bus

Mehr

Verteilte Systeme. Verteilte Systeme. 5 Prozeß-Management SS 2016

Verteilte Systeme. Verteilte Systeme. 5 Prozeß-Management SS 2016 Verteilte Systeme SS 2016 Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, Büro: H-B 8404 Stand: 31. Mai 2016 Betriebssysteme / verteilte Systeme Verteilte Systeme (1/14) i

Mehr

Self-aware Memory: Hardware-Prototyp eines Prozessorknotens

Self-aware Memory: Hardware-Prototyp eines Prozessorknotens Self-aware Memory: Hardware-Prototyp eines Prozessorknotens Robert Schelkle Universität Karlsruhe (TH) Institut für Technische Informatik (ITEC) Lehrstuhl für Rechnerarchitektur 24. März 2009 Robert Schelkle

Mehr

Systeme I: Betriebssysteme Kapitel 4 Prozesse. Maren Bennewitz

Systeme I: Betriebssysteme Kapitel 4 Prozesse. Maren Bennewitz Systeme I: Betriebssysteme Kapitel 4 Prozesse Maren Bennewitz Version 21.11.2012 1 Begrüßung Heute ist Tag der offenen Tür Willkommen allen Schülerinnen und Schülern! 2 Testat nach Weihnachten Mittwoch

Mehr

Protected User-Level DMA in SCI Shared Memory Umgebungen

Protected User-Level DMA in SCI Shared Memory Umgebungen Protected User-Level DMA in SCI Shared Memory Umgebungen Mario Trams University of Technology Chemnitz, Chair of Computer Architecture 6. Halle Chemnitz Seminar zu Parallelverarbeitung und Programmiersprachen

Mehr

Hypertransport. Parallele Rechnerarchitekturen. Patrice Weisemann

Hypertransport. Parallele Rechnerarchitekturen. Patrice Weisemann Hypertransport Parallele Rechnerarchitekturen Patrice Weisemann Gliederung Meilensteine der Hypertransport-Entwicklung Motivation & Ziele Technischer Überblick Anwendungsgebiete Hypertransport vs. Infiniband

Mehr