Rechnerarchitektur. Vorlesungsbegleitende Unterlagen. WS 2003/2004 Klaus Waldschmidt

Transkript

1 Rechnerarchitektur Vorlesungsbegleitende Unterlagen WS 2003/2004 Klaus Waldschmidt Teil 15 Speicherhierarchie und s Seite 1 Speicherhierarchie: Der Speicherraum wird in einzelne Schichten unterteilt, die hierarchisch geordnet sind. Der Austausch zwischen den Schichten geschieht über Datenblöcke. Wichtige Merkmale sind: Block Placement Wo wird ein Block in der oben liegenden Schicht plaziert? Block Identification Wie wird ein Block in der oben liegenden Schicht gefunden? Block Replacement Welcher Block soll - wenn notwendig - ausgetauscht werden? Write Strategy Was passiert bei einem Schreib-Zugriff? Seite 2 1

2 Speicherhierarchie Kapazität (Bytes): *) Zugriffszeit: *) K 64 K - 1 M 16 M M 100 M - 10 G Register Primär- (SRAM) Sekundär- (SRAM) oder(sdram) (DRAM) < 10 ns 10 ns Sekundärspeicher (Platten, elektronische Massenspeicher) 20 ns ns ms evtl. auch andere Bus-Master 1 G G Archivspeicher (Platten, Bänder, optische Platten, CD-ROM) 500 ms *) Angaben sind typ. Größenordnungen Seite 3 Performance- Zuwachs 3000 Die Speicherzugriffslücke Memory , Jahr Basis: 1980 Speicher - 64 KBit DRAM danach 7 % Verbesserung in der Latency pro Jahr. Prozessor - Verbesserung der Performance von 1.35/Jahr bis 1986 und 1.55/Jahr ab 1986 Quelle: [Hennessy & Patterson, 1996], S. 374 Seite 4 2

3 Die Lokalitätsprinzipien Die Effizienz einer Speicherhierarchie hängt von der Gültigkeit zweier Lokalitätsprinzipien ab: Nachdem ein Programm einen Befehl bzw. Operanden verwendet hat, ist es wahrscheinlich, dass das Programm den Befehl bzw. Operanden bald wiederverwenden wird (zeitliche Lokalität) ist es wahrscheinlich, dass das Programm bald Befehle bzw. Operanden in derselben Nachbarschaft verwenden wird (räumliche Lokalität) Seite 5 60 % Lokalitätsprinzipien Faustregel: 10 % der Befehle verbrauchen 90 % der Laufzeit. 50 % Fraction of the program 40 % 30 % 20 % 10 % 0 % Gesamthöhe (orange + blau): 90 % der Zeit blau: 80 % der Zeit compress eqntott espresso gcc li doduc ear hydro2d mdijdp su2cor SPEC benchmark Quelle: [Hennessy & Patterson, 1996], S. 39 Seite 6 3

4 s - Terminologie cache 1. A hiding place for storing provisions. 2. A place for concealing variables. - caches, caching. To hide or store in a cache. The American heritage Dictionary, 1994 s unterliegen heute ebenfalls einer Hierarchie. Man unterscheidet Level 1, Level 2 und/oder Level 3 s. Level 1 (Primär) Level 2 (Sekundär) Level 3 On-Chip On-Chip oder Off-Chip Off-Chip Level 1 ist meist auf dem Prozessorchip, Level 2 entweder auf dem Chip oder außerhalb des Prozessorchips und Level 3 meist außerhalb des Prozessorchips. Seite 7 Interfaces und Busse L1 Code L2 L2--Interface L1 Data System Bus Interface DRAM-Interface L3 Seite 8 4

5 Verbindung eines Prozessors (µp) mit dem (DRAM) Adresse µp DRAM Datum Der liegt zwischen Prozessor und. Seite 9 Im folgenden wird nur eine -Stufe zwischen Prozessor und betrachtet. Adreßbus µp () Steuerbus Steuerung Speicher verarbeiten ein-/ auslagern Datenbus Der verfügt neben der Speicherkapazität über eine eigene Steuerung Seite 10 5

6 s - Grundstruktur Ein besteht aus einem Directory, einem Controller und einem Data Memory. Address inputs to cache data RAM can come from address bus, cache directory, or a combination of the two Address Buffers Directory Controller Data Memory Bus Data Buffers Seite 11 -Organisation In einem n way set-associative kann ein Block an genau n Stellen gespeichert werden. Sei c die Größe des s. Dann besteht ein n way aus s= c/n Mengen. Wenn n = 1 s = c, so spricht man von einem direct mapped cache. Der ist direkt abgebildet. Wenn n = c s = 1, so spricht man von einem full associative cache. Der ist voll assoziativ. Beispiel: 4 way set-associative set n=4 set Seite 12 6

7 Zerlegung der Adresse für die -Adressierung Tag Block address Index Block offset Block Offset legt die Position eines Bytes innerhalb des Blockes fest. Block Adress kennzeichnet einen Block. Die Block Adress wird in zwei Teile aufgespaltet: Der Index kennzeichnet die Menge, in der der Block gespeichert werden kann. In einem voll-assoziativen ist der Index leer. Das Tag wird aus den übrigen Bits gebildet. Vorteil: Nur das Tag muss verglichen werden, um festzustellen, ob ein bestimmter Block im ist. Seite 13 s - Terminologie In einem voll-assoziativen kann ein Block überall gespeichert werden. In einem direkt abgebildeten muss ein Block an genau einer Stelle gespeichert werden. Seite 14 7

8 Prinzip des gefalteten Speichers für einen direkt abgebildeten. Der Speicher wird in m = 2 n-i -1 Seiten aufgeteilt. gelesenes Datum 2 i -1 k ~ ~ Tag- RAM 1 Daten mit gleicher -Position 2 i -1 k Seite 1 Seite 0 Seite m k 0 2 i -1 k 0 2 i -1 ~ ~ Seiten- Nummer Datenwort Offset 0 Seite 15 k 0 Blockschaltbild eines direct mapped cache Address Data in Data out Block address Tag Index Block offset Valid Tag Data comparator 4:1 Mux Buffer CACHE Next Level Memory Seite 16 8

9 Blockschaltbild eines 2-way set associative cache Address Data in Data out Block address Tag Index Block offset Valid Tag Data Satz i comparator comparator control logic Satz i Buffer Next Level Memory Seite 17 Schreib-Strategien (Write Strategies) Write-through (Durchschreib-Verfahren): Jeder Schreib-Zugriff wird gleichzeitig auch im ausgeführt. Copy-back (Write-Back, Rückschreib-Verfahren): Erst dann, wenn ein Datum durch ein neues verdrängt werden soll, wird es in den zurückgeschrieben. Seite 18 9

10 Durchschreiben Adresse µp DRAM Datum Rückschreiben Adresse µp DRAM Datum Seite 19 - Anordnung Ein virtueller (logischer) arbeitet mir virtuellen, vom Prozessor erzeugten Adressen (VA). VA MMU PA Ein physikalischer arbeitet mit physikalischen, von der MMU (Memory Management Unit) erzeugten Adressen (PA). VA MMU PA PA Seite 20 10

11 - Treffer Hit (Treffer): Der gesuchte Block ist schon im. Miss (Fehlertreffer): Der gesuchte Block ist nicht im. Gründe für cache miss: Art Gründe Gegenmaßnahme Compulsory Miss Das erste mal, das ein Kann nicht vermieden (Cold Miss): Block verwendet wird. werden. Capacity Miss: Der ist nicht groß genug. Ein größerer. Conflict Miss: Die Menge ist nicht groß genug. Ein größerer, oder mehr Assoziativität. Seite 21 -Kohärenz Ein besonderes Problem kann auftreten, wenn mehrere Prozessoren mit ihren eigenen s und einem gemeinsamen zu einem Multi-Prozessorsystem zusammengeschaltet werden. In diesem Fall muss die Konsistenz der speichernden Einheiten sichergestellt werden. Dies geschieht üblicherweise durch ein sog. -Kohärenz- Protokoll. In dem Protokoll wird festgelegt, wen eine bei Änderung eines Blockes zu benachrichtigen hat. Hierfür gibt es 2 Konzepte: a) Snooping Protokoll: Jeder horcht den Systembus ab. b) Directory-Based Protokoll: Für jeden Block gibt es ein eindeutiges Home Directory. Wenn ein Block in einem schreibend verändert wird, werden entweder alle anderen Kopien aktualisiert (write update) oder vernichtet (write invalidate). Seite 22 11

12 -Kohärenz Problem: Auch in einem Uni-Prozessor System können andere Bus-Masters den Inhalt des s ändern. Der und der müssen ebenfalls konsistent gehalten werden. DMA (IO) Device System Bus Main Memory Seite 23 Das MESI Protokoll Das bekannteste Protokoll für Kohärenz ist das MESI Protokoll. Das MESI Protokoll ist ein snooping, copy-back, write-invalidate Protokoll. Es gibt vier Zustände: Modified, Exclusive, Shared und Invalid. Modified: Der Block existiert nur im betrachteten (lokalen), und wurde geändert (d.h. die Version im ist veraltet). Shared: Es kann andere Kopien von dem Block geben. Exclusive: Der Block existiert nur im betrachteten (lokalen), wurde aber noch nicht geändert (die Version im ist noch aktuell). Invalid: Der Block ist nicht (mehr) im betrachteten (lokalen) gespeichert. Seite 24 12

13 M - Modified (Dirty) E - Exclusive (Clean) Weil schreibend verändert, befindet sich der einzige gültige Eintrag in diesem, während der entsprechende Eintrag im nicht mehr gültig ist (Stale Data). Weitere Schreib- und Lesezugriffe sind ohne externen Buszugriff möglich, solange die Daten nicht auch von anderen s benötigt werden. Andere s würden dazu ein Snooping-Signal an diese senden. Der Eintrag würde dann in den zurückgeschrieben werden. Der Zustand des Eintrags würde sich auf S oder I ändern - je nachdem, ob ein Invalidate- Signal zusammen mit dem Snooping-Signal empfangen wurde oder nicht. Es kann auch ein Übergang nach E erfolgen, wenn der -Controller ein Write-Back auslöst, ohne dass sich die Daten auch in anderen s befinden. Der Eintrag befindet sich nur in einem und wurde noch nicht schreibend verändert. Lese- und Snooping-Zyklen ohne Invalidierungssignal verändern den Zustand nicht. Lesen und Schreiben ist ohne Buszugriff möglich. Schreiben führt zum Zustand M. Snooping-Signale anderer s, die den Eintrag ebenfalls benötigen und aus dem holen, führen zum Zustand S. Ein Invalidate-Signal löst einen Übergang nach I aus. Quelle: Rechnerarchitekturen, Ch. Märtin, Fachbuchverlag Leipzig, Hanser Verlag Seite 25 S - Shared Der bisher unmodifizierte Eintrag befindet sich in diesem und möglicherweise auch in einem oder mehreren anderen s. Beim Lesen erfolgt keine Zustandsänderung. Schreiben führt zu einem Write- Through in den. Der Eintrag wird auf den Zustand E gesetzt. Ein Snooping-Signal an die anderen Prozessoren wird ausgelöst. Die anderen s erkennen, falls vorhanden, das Adress-Tag und setzen den zugehörigen Eintrag entsprechend dem MESI-Protokoll auf I. I - Invalid Der Eintrag ist ungültig oder enthält die adressierten Daten nicht. Lese- und Schreibzugriffe führen in diesem Fall zu einem -Miss, was nachfolgende Systembuszugriffe auslöst. Ein Lesezugriff füllt den Eintrag wieder. Je nachdem, ob der dabei eingelesene Inhalt auch in anderen s vorhanden ist oder nicht, ändert sich der Zustand in S oder E. Ein Schreib-Miss führt dazu, dass der Zugriff direkt auf den ausgeführt wird. Quelle: Rechnerarchitekturen, Ch. Märtin, Fachbuchverlag Leipzig, Hanser Verlag Seite 26 13

14 Die möglichen Zustände für die -Einträge lassen sich in einem Zustands-Diagramm darstellen: M A B I I Ungültig Gültig Zustand unbekannt oder unerheblich line A im Modified-Zustand A B E A B I I line A im Invalid-Zustand S A B S line A im Excluxive-Zustand line A im Shared-Zustand Seite 27 I Invalid Shared Read Miss Exclusiv Read Miss Write Hit S Shared Unmodified Read Hit Read Hit, Write Hit Write miss Snoop I M Exclusive Modified Snoop I Shared Read Miss Write back Write Hit Write through Shared Read Miss E Exclusive Unmodified Read Hit Seite 28 14