Weitere Verbesserungen

Größe: px

Ab Seite anzeigen:

Download "Weitere Verbesserungen"

Lukas Blau
vor 6 Jahren
Abrufe

1 Weitere Verbesserungen Welcher Cache liefert aktuellen Block falls mehrere Caches Block im Zustand S halten? Lösung: Einführung eines weiteren Zustands O (Owner) Zustand O besagt: Eigentümer des Blocks hat besondere Aufgaben Block ggf. verändert, aber noch nicht im geschrieben Valide Kopien des Blocks in anderen Caches möglich Alle anderen Kopien des Blocks sind im Zustand S Architecture of Parallel Computer Systems WS5/6 J.Simon Zustandsübergangsdiagramm MOESI Cache-to-Cache Sharing: im Zustand M, O oder E ohne Wirkung auf den Hauptspeicher Write-Back BusWB im Zustand M und O Im Zustand O mit zusätzlichem Inval aller Kopien. PrWr / BusRdX BusRd( S) BusUpgrd BusUpgrd BusRd(S) M O E S BusRd / BusUpgrd/ BusUpgrd/ BusRdX / Architecture of Parallel Computer Systems WS5/6 J.Simon I

2 P u:5 Beispiel: MOESI u:5 / / 7 9 u:9 4 u:7/ P u=9 I/O-Geräte P () P liest u () P schreibt u () P liest u (4) P schreibt u (5) P liest u (6) P liest u Aktion Pr-Aktion Bus-Aktion Signal Quelle Zustand in P Zustand in P Zustand in P E - - PrWr () M - - a PrRd () BusRd? b () S Cache P O - S 4a PrWr () BusRdX 4b () - Cache P I M I 5a PrRd () BusRd? 5b () S Cache P S O I 6a PrRd () BusRd? 6b () S Cache P S O S Architecture of Parallel Computer Systems WS5/6 J.Simon ccnuma Unterstützung MESI kann viele redundante Nachrichten erzeugen Z.B. Anfrage nach einem Block der in mehreren Caches vorhanden ist (O-Zustand kann das natürlich auch verbessern) Einführung eines neuen Zustandes Forward (F) Cache mit Block im F-Zustand antwortet auf BusRd, Caches mit Block im S-Zustand müssen nichts machen Nach einem BusRd mit Teilhaber wandert der Zustand F zum Cache dessen Prozessor das PrRd initiiert hat Cache-Line im alten F-Zustand geht in Zustand S Cache-Line mit neuer Kopie geht in Zustand F Vorteile: Verdrängung einer Cache-Line im Zustand F wird weniger wahrscheinlich (wegen zeitlicher Lokalität) bessere Verteilung der Rolle des antwortenden Caches über alle Knoten (weniger Hot-Spots) Architecture of Parallel Computer Systems WS5/6 J.Simon 4

3 Zustandsübergangsdiagramm MESIF Cache-to-Cache Sharing im Zustand M, E und F, ohne Wirkung auf den Hauptspeicher. Write-Back BusWB im Zustand M und F, Im Zustand F zusätzlich Inval aller Teilhaber. BusUpgrd M F E BusÚpgrd/ PrWr / BusRdX BusUpgrd BusRd( S) BusRd(S) S I BusÚpgrd/ Architecture of Parallel Computer Systems WS5/6 J.Simon 5 P u=7 u:5 Beispiel: MESIF u:5 / 7/ 9 u:9 4 u:7/ 5 4 P u=9 u=9 I/O-Geräte P () P liest u () P schreibt u () P liest u (4) P schreibt u (5) P liest u Aktion Pr-Aktion Bus-Aktion Signal Quelle Zustand in P Zustand in P Zustand in P PrRd () BusRd? b - Memory E - - PrWr () M - - a PrRd () BusRd b () S Cache P S - F 4a PrWr () BusRdX 4b () - Cache P I M I 5a PrRd () BusRd 5b () S Cache P F S I Architecture of Parallel Computer Systems WS5/6 J.Simon 6

4 Source Snooping Geht das auch ohne Bus? aktueller Block Beispiel: System mit vier Prozessoren HyperTransport (AMD HT) oder Quick Path Interconnect (Intel QPI) als Verbindungsstruktur Jeder Prozessor mit lokalem Globaler Adressraum verteilt über lokale CPU CPU mem?? mem CPU? CPU mem Cache-Miss BusRd? mem PrRd Architecture of Parallel Computer Systems WS5/6 J.Simon 7 Protokolle ohne Snooping-BUS Request Response ACKS MOESI (z.b. AMD Opteron) Ursprung MESIF (z.b. Intel Core i7) I S I S O Read Cache- Miss F Read Cache- Miss Hop Protokoll Hop Protokoll Architecture of Parallel Computer Systems WS5/6 J.Simon 8 4

5 Update-basierte Protokolle Invalidierungsbasierte Protokolle schicken Inval-Nachrichten Kann dabei nicht auch der aktuelle Wert bekannt gegeben werden? => Update-basiertes Protokoll => Damit kein expliziter Zustand I notwendig! Architecture of Parallel Computer Systems WS5/6 J.Simon 9 DRAGON: Update-basiertes Protokoll für Write- Back Caches 4 Zustände Exclusive-clean (E): Man selber und haben aktuellen Wert Shared-clean (Sc): Man selber, andere und ggf. haben den Wert; anderer ist Eigentümer Shared-modified (Sm): Man selber und andere haben den Wert, aber nicht der ; man selber ist Eigentümer Sm and Sc können gleichzeitig in unterschiedlichen Caches sein (!), aber nur einer mit Sm Modified oder Dirty (M): Nur man selber hat den Wert Bemerke: Es gibt kein Invalid Zustand im Cache nicht Invalid (Protokoll hält Blöcke immer Valid) nicht im Cache kann als Invalid angesehen werden (Bootstrap des Protokolls) neue Prozessor-Ereignisse: PrRdMiss, PrWrMiss falls Block nicht im Cache enthalten; Initialisierung des Zustands neue Bus-Transaktion: BusUpd Broadcast eines einzelnen Worts über Bus; Update anderer Caches Architecture of Parallel Computer Systems WS5/6 J.Simon 0 5

6 Dragon Zustandsübergangsdiagramm BusUpd/ Update Write-Back: BusWB im Zustand M und Sm. PrRdMiss/BusRd( S) E BusUpd(S) Sc PrRdMiss/BusRd(S) BusUpd( S) PrWrMiss/ (BusRd(S); BusUpd) BusUpd/ Update Sm BusUpd(S) BusUpd( S) M PrWrMiss/BusRd( S) Architecture of Parallel Computer Systems WS5/6 J.Simon Beispiel für Dragon () P P P u=7 () P liest u aus Hauptspeicher () P beschreibt u Snoop H/W tags u:5/ 7 u:7 Snoop H/W tags Snoop H/W tags Shared-Line u:5 I/O-Geräte Bus Pr-Aktion Bus-Aktion Signal Source Zustand in P Zustand in P Zustand in P a PrRdMiss () BusRd? b - Memory E - - a PrWrMiss () BusRd? b S Memory Sc - Sm c BusUpd u aus Cache P Sc - Sm Architecture of Parallel Computer Systems WS5/6 J.Simon 6

7 P u:5/ 7 4 u=? Beispiel für Dragon () P 5 u=? P u=7 u:5/ 7 () P liest u aus Hauptspeicher () P liest u aus Hauptspeicher () P beschreibt u in Caches u:5 I/O-Geräte (4) P liest u aus eigenem Cache (5) P liest u aus P Cache Pr-Aktion Bus-Aktion Signal Source Zustand in P Zustand in P Zustand in P PrRdMiss () BusRd - Memory E - - PrRdMiss () BusRd S Memory Sc - Sc PrWr () BusUpd S u aus Cache P Sc - Sm 4 PrRd () - - Sc - Sm 5 PrRdMiss () BusRd S Cache P Sc Sc Sm Architecture of Parallel Computer Systems WS5/6 J.Simon Design und Implementierung von Snoop-based Multiprozessorsystemen Im Folgenden geht es um: nicht-atomare Zustandsübergänge Multilevel-Caches Busse mit Split-Transactions Architecture of Parallel Computer Systems WS5/6 J.Simon 4 7

8 Design Goals Leistung und Kosten einer Rechnerarchitektur hängen nicht so sehr von der Wahl des Cache-Kohärenzprotokolls ab, sondern vielmehr von dessen Design und Implementierung. Voneinander abhängige Ziele gelten: Korrektheit (z.b. wegen nicht-atomaren Aktionen nicht leicht beweisbar) Hohe Leistung (z.b. mehrere ausstehende low-level Ereignisse mehr potenzielle Bugs) Minimale Hardware (reduzierte Komplexität führt zu kürzerer time-to-market) Architecture of Parallel Computer Systems WS5/6 J.Simon 5 Korrektheitsfragen Erfüllung der Bedingungen für Kohärenz und Konsistenz CC: Write-Propagierung, Serialisierung SC: Vollständigkeit, Atomarität Deadlock: Das System führt keine Aktivität durch Kreis aus Ressource-Abhängigkeiten B A Livelock: kein Prozessor schreitet in der Ausführung fort, Transaktionen werden aber ausgeführt Z.B. simultane Schreiboperationen im invalidation-based Protokoll jeder fragt nach Ownership, invalidiert andere, verliert dieses bevor Arbitrierungsrecht auf Bus zugeteilt wurde Starvation: Ein oder mehrere Prozessoren schreiten in ihrer Ausführung nicht fort, während aber andere weiterkommen. z.b. interleaved Memory System mit NACK bei Bank-Busy oftmals nicht vollständig auszuschließen (sehr geringe Wahrscheinlichkeit, damit nicht katastrophal) Architecture of Parallel Computer Systems WS5/6 J.Simon 6 8

Ähnliche Dokumente

ccnuma Unterstützung Zustandsübergangsdiagramm MESIF

ccnuma Unterstützung Zustandsübergangsdiagramm MESIF ccnuma Unterstützung Einführung eines neuen Zustandes Forward (F) Cache mit Block im F-Zustand antwortet auf BusRd, Caches mit Block im S-Zustand müssen nichts machen Nach einem BusRd mit Teilhaber wandert