Grundlagen der Rechnerarchitektur

Transkript

1 Grundlagen der Rechnerarchitektur Speicher

2 Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2

3 Speicherhierarchie SS 2012 Grundlagen der Rechnerarchitektur Speicher 3

4 Ein großer und schneller Speicher? Besonders schnelle Speicher sind besonders teuer Speichertechnologie Typische Zugriffszeiten $ per GB in 2008 SRAM 0,5 2,5 ns $2000 $5000 DRAM ns $20 $75$75 Magnetic Disk ns $0,2 $2 Schnellste Speicher müssen auch nahe am Prozessor sein. Beispiel: Signalausbreitungsgeschwindigkeit von etwa 0, m/s und Zugriffszeit von 500 ps ergibt eine Distanz von 15 cm. SS 2012 Grundlagen der Rechnerarchitektur Speicher 4

5 Brauchen wir immer den gesamten Speicher? Das Lokalitätsprinzip Zeitliche Lokalität Räumliche Lokalität Beispiel: wir schreiben ein Referat in der Bibliothek Beispiel: typisches Verhalten von Programmen Schleifen fördern zeitliche Lokalität Sequentielle Abarbeitung fördert räumliche Lokalität Sequentielle Abarbeitung b von Instruktionen Iterativer Zugriff auf Daten; z.b. Array oder Record Elemente SS 2012 Grundlagen der Rechnerarchitektur Speicher 5

6 Idee: Speicherhierarchie Das Bild ist ein Beispiel; was ist z.b. mit Flash RAM? Die gesamten Dt Daten stehen th immer ganz unten Schichten darüber speichern immer eine Teilmenge der Daten der Schicht darunter Häufiger verwendete Daten stehen idealerweise in höherer Speicherschicht Aktuell verwendete Daten sind idealerweise ganz oben Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 SS 2012 Grundlagen der Rechnerarchitektur Speicher 6

7 Terminologie Cache Cacheswerden meist mit ihrer Größe benannt; 4KB Cache Block (oder auch Line genannt) Hit und Miss Hit Rate und Miss Rate Hit Time und Miss Penalty Offensichtlich: Hit Time << Miss Penalty (Begriffe sind unabhängig von dem konkreten Level) Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 SS 2012 Grundlagen der Rechnerarchitektur Speicher 7

8 Zusammengefasst Ziel: Zugriffszeit annähernd so schnell wie auf Level 1 bei Speicher größeso groß wie auf Level n. Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 SS 2012 Grundlagen der Rechnerarchitektur Speicher 8

9 Cache Grundlagen SS 2012 Grundlagen der Rechnerarchitektur Speicher 9

10 Cache Grundlagen Lesender Cache Zugriff SS 2012 Grundlagen der Rechnerarchitektur Speicher 10

11 Beispiel: Cache vor und nach einem Miss Was macht die CPU während eines Cache Miss? CPU Stall. Im folgenden beantworten wir die folgenden Fragen: Wie stellt man fest, ob X n im Cache ist? Wie findet man X n überhaupt in dem Cache? Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 SS 2012 Grundlagen der Rechnerarchitektur Speicher 11

12 Mögliche Lösung: Direct Mapped Cache Beispiel: Speicher mit 32 und Cache mit 8 Einträgen Mapping ist in der Regel (wie auch im obigen Beispiel) wie folgt: (Block Adresse) modulo (Anzahl Blocks im Cache) Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 SS 2012 Grundlagen der Rechnerarchitektur Speicher 12

13 Problem: Speicherbereiche überlappen Lösung: Tags (markiere Cache Eintrag mitoberem Teil der Adresse) Beispiel: Adresse ergibt Cache Index 001 und Tag 10. Tag Index ergibt wieder id Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 SS 2012 Grundlagen der Rechnerarchitektur Speicher 13

14 Problem: ist der Cache Eintrag gültig? Lösung: Valid Bit (markierejeden Cache Eintrag damit) Zu Beginn: alle Valid Bits sind 0 Nach erstem Zugriff auf den Cache Eintrag: Valid Bit it1 ist Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 SS 2012 Grundlagen der Rechnerarchitektur Speicher 14

15 Ein Beispiel Index Valid Tag Daten Adresse des Zugriffs Daten Hit oder Miss Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 SS 2012 Grundlagen der Rechnerarchitektur Speicher 15

16 Cache Blöcke und Offsets Ein Cache Eintrag speichert in der Regel gleich mehrere im Speicher aufeinander folgende Bytes. Grund: räumliche Lokalität wird wie folgt besser ausgenutzt: Bei Cache Miss gleich mehrere Bytes laden Anschließende Zugriffe auf benachbarte Bytes sind dann ein Hit Konsequenz auf die Aufteilung der Adresse der Form Tag Index? Tag Index Offset Beispiel: Cache miteinem Word pro Eintrag (auf nächster Folie) SS 2012 Grundlagen der Rechnerarchitektur Speicher 16

17 Beispielimplementierung eines 4KB Cache Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 SS 2012 Grundlagen der Rechnerarchitektur Speicher 17

18 Quiz Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset 32 Bit Adresse SS 2012 Grundlagen der Rechnerarchitektur Speicher 18

19 Quiz Gegeben sei ein Cache mit 64 Blöcken mit Block Größe 16 Bytes. Was ist die Cache Größe in KB? Der Adressraum sei 32 Bit. Wie viele Bits muss der vorher genannte Cache insgesamt verwalten/speichern? /p SS 2012 Grundlagen der Rechnerarchitektur Speicher 19

20 Wie groß sollten Cache Blöcke sein? Je Länger die Blöcke desto größer die Konkurrenz. Je Länger die Blöcke desto teurer ein Miss. Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 SS 2012 Grundlagen der Rechnerarchitektur Speicher 20

21 Ergänzung: Split Caches Split Cache: besteht aus zwei unabhängigen Caches Ein Cache für die Instruktionen Ein Cache für die Daten Vorteil: die Cache Bandbreite (d.h. wie viel Daten pro Zeiteinheit können ausgelesen/geschrieben werden) wird erhöht. Erinnerung: unsere MIPS CPU konnte auch gleichzeitig einen Instruction Fetch und einen Datenzugriff machen. Nachteil: die Miss Rate erhöht sich, da die Aufteilung in Bytes für Instruction und Daten Cache fest ist und ggf. nicht optimal für das aktuelle Programm ist. Beispiel: Miss Raten für einen Intrinsity FastMATH Prozessor Split Cache (32 KB aufgeteilt): 3,24% Miss Rate Combined Cache (32 KB für einen Cache): 3,18% Miss Rate SS 2012 Grundlagen der Rechnerarchitektur Speicher 21

22 Cache Grundlagen Schreibender Cache Zugriff SS 2012 Grundlagen der Rechnerarchitektur Speicher 22

23 Eine einfache Strategie Schreibt man nur in den Cache, werden Cache und darunter liegender Speicher inkonsistent. Wie erreicht man Konsistenz? Write Through Schreibe immer sofort in den Speicher zurück Einfach aber schlechte Performance Beispiel: 10% Store Instruktionen, CPI ohne Miss = 1 und CPI bei Speicherzugriff = 100. Was ist der Gesamt CPI Wert? SS 2012 Grundlagen der Rechnerarchitektur Speicher 23

24 Write Buffer Ergänzung zu Write Through Verbesserungen Ausstehende Writes werden in einem kleinen Puffer zwischengespeichert ih CPU kann nach schreiben in den Puffer sofort weiter machen Parallel werden Datenaus aus dempuffer in denspeicher geschrieben CPU muss nur stallen, wenn der Puffer voll ist. Write Back Alternative zu Write Through Speichere Änderungen zunächst nur in Cache Schreibe Änderung in Speicher nur, dann wenn de Cache Block ersetzt wird SS 2012 Grundlagen der Rechnerarchitektur Speicher 24

25 Behandlung von Cache Misses Was passiert beim Schreiben (sowohl bei Write Through als auch Write Back) eines Bytes bei einem Cache Miss? Eine naheliegende Lösung Lade den gesamten Block aus dem Speicher Überschreibe das Byte in dem Block Alternative: No Write Allocate Aktualisiere nurdendarunter darunter liegenden Speicher abernicht dencache Ist sinnvoll, wenn lesender Zugriff nicht zu erwarten ist SS 2012 Grundlagen der Rechnerarchitektur Speicher 25

26 Cache Grundlagen Speicherunterstützung für Caches SS 2012 Grundlagen der Rechnerarchitektur Speicher 26

27 Motivation Erinnerung: CPU und Speicher kommunizieren über einen Bus. Was beeinflusst die Miss Penalty? Geschwindigkeit des Busses. Speicherorganisation (siehe gleich). Ein angenommenes Beispiel von Speicherzugriffswerten: 1 Speicherbuszyklus die gewünschten Adressen zu senden 15 Speicherbuszyklen für jeden initiierten itii t DRAM Zugriff 1 Speicherbuszyklus ein Datenwort zu senden Was ist die Miss Penalty bei einem Cache mit vier Word Breite und sequentiellem Zugriff auf ein DRAM mit einem Word Breite? Kann man das verbessern? SS 2012 Grundlagen der Rechnerarchitektur Speicher 27

28 Bessere Unterstützung durch das DRAM Bezeichnet man auch als Interleaving. Was ist die Miss Penalty für zweimal breiteren Bus und Speicher? Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 SS 2012 Grundlagen der Rechnerarchitektur Speicher 28

29 Bessere Unterstützung durch das DRAM Bezeichnet man auch als Interleaving. Was ist die Miss Penalty für Speicherorganisation mit 4 parallelen Bänken aber unverändertem Bus? Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 SS 2012 Grundlagen der Rechnerarchitektur Speicher 29