Prozessorarchitektur. Speicher. M. Schölzel

Transkript

1 Prozessorarchitektur Speicher M. Schölzel

2 Inhalt Aufbau von Speicher Organisation der Speicherhierarchie

4 Prozessor-Memory-Gap µproc 60%/yr. (2X/1.5yr) Processor-Memory Gap: ~+50% / year DRAM 9%/yr. (2X/10 yrs)

5 Speicherhierarchie in einem Computer Eigenschaften Bei 1 GHz vergeht pro Takt 1 ns In 1 ns legt Licht im Vakuum ca. 30 cm zurück Typische Taktraten 1 bis 4 GHz Physisch ist der Speicher hierarchisch organisiert Logisch ein Adressraum Speicherverwendung typische Speichergröße Ungefähre Zugriffszeiten Form der Implementierung CPU-Register ~500 Byte ~250 ps D-Flip-Flop, D- Latch Eigenschaft Flüchtig 1L-Cache ~8 64 KByte ~1 ns SRAM Flüchtig On-Chip 2L-Cache ~256 KByte ~5 ns SRAM Flüchtig 3L-Cache ~1 16 MByte ~25 ns SRAM Flüchtig Hauptspeicher ~4 32 GByte ~50 ns DRAM Flüchtig Off-Chip Disk ~1-2 TByte Millisekunden Festplatte/Flash Nicht flüchtig

6 Typische Taktraten Wenige MHz 100 MHz Speicherhierarchie in einem Mikrocontroller Organisation des Speichers Flache Hierachie Unterschiedliche Speichertypen in verschiedenen Adressbereichen Speicherverwendung typische Speichergröße Ungefähre Zugriffszeiten Form der Implementierung Eigenschaft CPU-Register ~100 Byte ~1 ns D-Flip-Flop, D-Latch flüchtig Datenspeicher 1 Kbyte 2 MByte ~1-10 ns SRAM flüchtig On-Chip Programmspeicher ~64 KByte 1 MB ~1-10 ns Flash, ROM (nicht) flüchtig Programm- /Datenspeicher 1 4 MB ~50 ns Flash, DRAM (nicht) flüchtig Off-Chip

7 Organisationsformen von Speicher Flüchtige Speicher Flip-Flops SRAM DRAM Festwertspeicher Masken-ROM OTP-ROM (one-time programmable) Kleine Speichergröße (wenige Byte) Organisation als Register Verwendung als Massenspeicher Organisation in Speicherfeldern Nicht-Flüchtige Speicher EPROM EEPROM Flash

8 Organisation Speicherfelder (1) Speicherfelder dienen der Speicherung großer Datenmengen Organisation als zweidimensionales Feld mit 2 n Zeilen jede Zeile enthält ein Datenwort mit m-bit Speicherkapazität 2 n m Bits Adresse Daten Adresse n 2 n -word m-bit Speicherfeld m Daten

9 Organisation Speicherfelder (2) Physischer Aufbau aus Bitzellen Jede Bitzelle speichert ein Bit Adressierung der Bitzellen einer Zeile über Wortleitung Auslesen/Schreiben der Daten einer aktivierten Zeile über Datenleitung Write Enable Data In Bitleitung (Datenleitung) Tri-State-Elemente Adresse 3 3:8 Decoder R R R R Wortleitung Write Enable Data In p1 n1 Tri-State-Element in CMOS-Logic p2 p3 n2 n3 Vdd Data Out Gnd Data Out Gnd

10 Lesen einer Zeile Zum Lesen wird write enable auf 0 gesetzt Datenleitungen werden von Data In getrennt Durch Decoder wird eine Wortleitung auf 1 gesetzt Angeschlossene Bitzellen werden aktiviert und treiben die angeschlossenen Datenleitungen mit dem gespeicherten Wert 0 Data In :8 Decoder R R R R Gnd

11 Schreiben einer Zeile Zum Schreiben wird write enable auf 1 gesetzt Datenleitungen werden von Data In getrieben Durch Decoder wird eine Wortleitung auf 1 gesetzt Angeschlossene Bitzellen werden aktiviert und speichern den Wert der jeweils angeschlossenen Datenleitung 1 Data In :8 Decoder R R R R Gnd

12 Aufbau Static Ram (SRAM) Zelle Speichert ein Bit in einem bistabilen Speicherelement Zustand wird von selbst gehalten, solange Versorgungsspannung anliegt Aufbau einer SRAM-Zelle aus 6 Transistoren Bitleitung Bitleitung CMOS Inverter Wortleitung Transistor M5 M6 bistabiles Speicherelement

13 SRAM auslesen Eingänge der Bitleitungen werden hochohmig (Z) gesetzt Durch aktivierte Wortleitung (=1) werden Pass-Transistoren leitend Zustand des bistabilen Speicherelements kann über Bitleitungen ausgelesen werden Bitleitung Z Bitleitung Z Wortleitung 1 Pass- Transistor 1 0 Pass- Transistor 1 0

14 SRAM schreiben Eingänge der Bitleitungen werden auf zu schreibende Werte gesetzt Durch aktivierte Wortleitung werden Pass-Transistoren leitend Zustand des bistabilen Speicherelements wird überschrieben Bitleitung Bitleitung Bitleitung Bitleitung Wortleitung 0 1 Pass- Transistor 1 0 Pass- Transistor Pass- Transistor 0 1 Pass- Transistor

15 Masken ROM Festwertspeicher, dessen Werte bei der Fertigung durch die Masken bestimmt werden Keine nachträgliche Änderung der Speicherwerte möglich Bitleitungen liegt auf Gnd (=0) Wortleitung 1 Bitleitung Wortleitung auf 1 setzen: Bei vorhandener Verbindung zur Bitleitung wird Bitleitung auf 1 gesetzt (Spannung fällt über Widerstand ab) Bei fehlender Verbindung bleibt Bitleitung auf 0 Wortleitung 2 Diode Diode verhindert auf 1 setzen einer Wortleitung durch Rückkopplung von Bitleitung Widerstand Gnd

16 One Time Programmable (OTP) ROM Festwertspeicher, dessen Werte nach der Fertigung durch einmalige Programmierung festgelegt werden Zur Programmierung wird deutlich höhere Spannung an Wortleitungen angelegt und Bitleitungen können gezielt von Gnd getrennt werden Hoher Strom lässt Verbindungen (Fuses) verdampfen Es können nur 1en zu 0en geändert werden Wortleitung 1 Wortleitung 2 Fuse Widerstand Bitleitung program Gnd

17 EPROM Erasable and Programmable ROM Bitzelle ist aus Transistor mit einem Floating Gate (FG) aufgebaut Programmierung durch Anlegen einer hohen Spannung; dadurch sammeln sich Ladungsträger im Floating Gate und bleiben dort (FG ist isoliert) Auslesen durch Anlegen der normalen Versorgungsspannung am Gate: Keine Ladungsträger im FG: Transistor wird leitend und zieht Bitleitung auf Gnd (=0) Ladungsträger im FG: Ladungsträger verringern angelegte Gate-Spannung; Transistor wird nicht leitend und Bitleitung bleibt auf 1 Wortleitung Floating Gate Kondensator Bitleitung Löschen durch Bestrahlung mit UV-Licht: UV-Licht verringert Widerstand des Isolators zwischen FG und Substrat Ladungsträger können vom FG in das Substrat abfließen Gnd Vdd

18 EEPROM und Flash Electrical Erasable and Programmable ROM Aufbau wie beim EPROM Dünnere Isolierschichten erlauben das Entladen des FG duch Anlegen einer elektr. Spannung Zusätzlicher Transistor wird zur Adressierung einer Bitzelle benötigt Flash-Speicher Aufbau wie beim EEPROM Nicht mehr jede Bitzelle ist einzeln löschbar Zusammenfassen zu Pages zum Löschen Dadurch wird zweiter Transistor nicht mehr benötigt und eine höhere Speicherdichte erreicht

19 Dynamic RAM (DRAM) Zelle Speichert ein Bit in einem Kondensator Ladung vorhanden Bit = 1 Ladung nicht vorhanden Bit = 0 Aufbau einer Bitzelle aus: Einem Transistor Einem Kondensator Ladung geht durch Leckströme verloren Wert muss deshalb in regelmäßigen Abstand neu geschrieben werden (Refresh) Bitleitung Wortleitung Transistor Kondensator Gnd

20 Organisation mit Zeilen- und Spaltenadressierung n+m Adresse n Adressbits m Adressbits m wrenbl DataIn n Zeilen-Decoder Spalten-Decoder Mux 1 R R R R Gnd Bei einstufiger Adressierung werden für große Speicher sehr viele Zeilen benötigt Gatteranzahl im Zeilendekoder: n*2 n Gatteranzahl bei quadratischer Matrix: 2*(n/2)*2 n/2 +3*(n/2)

21 Lesen bei Zeilen- und Spaltenadressierung wrenbl DataIn 0 Spalten-Decoder Zeilendekoder aktiviert eine Zeile n+m Adresse n Adressbits m Adressbits m n Zeilen-Decoder z z z z R R R R Mux 1 Gnd Spalten-Dekoder hält alle Dateneingänge auf hochohmig Mux wählt anhand der Spaltenadresse ein Bit aus

22 Schreiben bei Zeilen- und Spaltenadressierung wrenbl DataIn 1 1 Spalten-Decoder Zeilendekoder aktiviert eine Zeile n+m Adresse n Adressbits m Adressbits m n Zeilen-Decoder z 1 z z R R R R Mux 1 Gnd Spalten-Dekoder aktiviert eine Spalte und hält alle anderen Dateneingänge auf hochohmig

23 Blockorganisation bei Zeilen- /Spaltenadressierung Durch Organisation in Blöcken kann die Datenwortbreite n des Speicher bestimmt werden Block i speichert Bit i des Datenwortes von Adresse (n,m) wrenbl Spalten-Decoder n+m Adresse n Adressbits m Adressbits m DataIn_0 n Zeilen-Decoder Speichermatrix (Block 0) Mux 1 DataIn_n Speichermatrix (Block n) Mux 1 DataOut_0 DataOut_n

24 Multi-Ported SRAM Lesen bzw. Schreiben von mehreren Bitzellen gleichzeitig BL2 BL1 BL1 BL2 Im Beispiel: Gleichzeitiges auslesen zweier Bitzellen oder gleichzeitiges Schreiben zweier Bitzellen oder Lesen einer Bitzelle und Schreiben einer zweiten Bitzelle Anwendung unter Anderem zur Implementierung großer Registerbänke Wortleitung 1 Wortleitung 2 readaddr1 readaddr2 writeaddr Zeilen-Decoder Addr-Reg Zeilen-Decoder Zeilen-Decoder Spalten-Decoder Mux BL1 Mux BL2

25 Matrixorganisation für SDRAM Adresse wird oft gemultiplext, um Anzahl der Adressleitungen kleiner zu halten Zeilenteil speichern (RAS = 1) Spaltenteil speichern (CAS = 1) Leseverstärker (= SRAM Zelle) dient der Speicherung des ausgelesenen Wertes RAS WL3 A0 A1 An Puffer Zeilenadresse n Zeilen-Decoder Speichermatrix (Block 0) WL2 WL1 Puffer Spaltenadresse m Leseverstärker/Schreiblogik 2 m Spalten-MUX/DEMUX 1 Data wrenbl Bitleitung Leseverstärker Bitleitung CAS

26 SDRAM lesen (1) Zeilenadresse übernehmen Zeilenadresse auf Adressbus legen RAS-Signal aktivieren RAS = 1 Alle Leseverstärker übernehmen Werte der Bitzellen aus aktivierter Wortzeile (Kondensator entlädt sich) Übernommene Werte im Leseverstärker werden damit auch in die Zellen zurückgeschrieben (Kondensator wieder aufgeladen) Puffer Zeilenadresse Zeilen-Decoder 1 cmd data addr CAS row Puffer Spaltenadresse m 0 1 Leseverstärker Spalten-MUX/DEMUX wrenbl RAS CAS Data 1 clk

27 SDRAM lesen (2) Spaltenadresse übernehmen Wert auf Adressbus legen CAS-Signal aktivieren nach trcd Takten RAS = 0 Spalten-Mux wählt zugehörige Bitleitung aus Daten werden auf Datenbus gelegt (nach tcl Takten) RAS to CAS Delay (trcd) CAS Latency (tcl) Puffer Zeilenadresse Zeilen-Decoder 1 cmd data addr CAS row col read data Puffer Spaltenadresse m 0 1 Leseverstärker Spalten-MUX/DEMUX wrenbl RAS CAS Data clk 1

28 SDRAM schreiben (1) Zeilenadresse übernehmen Zeilenadresse auf Adressbus legen RAS-Signal aktivieren Alle Leseverstärker übernehmen Werte der Bitzellen aus aktivierter Wortzeile (Kondensator entlädt sich) Übernommene Werte im Leseverstärker werden damit auch in die Zellen zurückgeschrieben (Kondensator wieder aufgeladen) Leseverstärker enthält den aktuellen Wert der zu beschreibenden Zeile RAS = 1 Puffer Zeilenadresse Zeilen-Decoder 1 cmd data addr CAS row Puffer Spaltenadresse m 0 1 Leseverstärker Spalten-MUX/DEMUX wrenbl RAS CAS Data 1 clk

29 SDRAM schreiben (2) Spaltenadresse in Puffer übernehmen Datum an Dateneingang anlegen RAS = 0 WrEnbl-Signal aktivieren DeMux überschreibt Wert im Leseverstärker Aktivierte Zeile übernimmt geänderte(n) Wert(e) RAS to CAS Delay (trcd) CAS Latency (tcl) Puffer Zeilenadresse Zeilen-Decoder 0 cmd data addr CAS row write col data Puffer Spaltenadresse m 1 0 Leseverstärker Spalten-MUX/DEMUX wrenbl RAS CAS Data clk 0

30 SDRAM Timing Bezeichnung bei SDRAMs: PCxxx tcl-trcd-trp xxx gibt die maximale Taktfrequenz des Speicherbusses an (clk) trcd: Anzahl Takte zwischen Anlegen der Zeilenadresse (Aktivierung des Speichers) und Anlegen der Spaltenadresse (Übertragen eines Kommandos (read/write)) tcl: Anzahl der Takte vom Anlegen der Spaltenadresse (und starten eines Kommandos (read/write)) bis zum Abschluss des Kommandos (Daten liefern bei read, Daten geschrieben bei write) trp: RAS-Vorladezeit (RAS Precharge Time), d.h. die Anzahl der Takte vom Beenden des letzten Zugriffszyklus bis zum Beginn des nächsten Zugriffszyklus RAS to CAS Delay (trcd) CAS Latency (tcl) RAS Precharge Time (trp) cmd write precharge data data addr row col row CAS RAS clk

31 DRAM Refresh DRAM Refresh DRAM-Zelle verliert Ladung durch Leckströme auch ohne ausgelesen zu werden Auffrischen des gespeicherten Wertes erforderlich (ca. alle 8 bis 64 ms) Auffrischen mittels Schreib-/Leseverstärker an Datenleitungen einfach durch Auslesen einer Zeile möglich (wird dadurch mit gleichen Werten aufgefrischt) Organisation Refresh Jede Zeile wird in regelmäßigen Abständen von 8 bis 64 ms gelesen Es wird ein Zähler in den SDRAM integriert, der die aufzufrischende Zeilennummer enthält Memory-Controller erzeugt periodisch ein Kommando (Kombination von Steuersignalen die sonst nicht benötigt wird (z.b. CAS-before-RAS), wodurch im DRAM ausgelöst wird: Lesen der im Zähler gespeicherten Zeile Inkrementieren des Zählers

32 Fallstudie Speicherorgansiation Unterschiedliche Ausführungen von Speichermodulen möglich: Single Inline Memory Module (SIMM) 72 Kontaktpins auf einer Seite 32 Bit pro Takt können übertragen werden Double Inline Memory Module (DIMM) Kontaktreihen (insgesamt 240) und Speicherchips auf beiden Seiten 64 Bit je Takt können übertragen werden Speichermodul Speicherchip (z.b. 512 MBit) ergibt eine Gesamtkapazität von 1 Gyte) Kontaktreihe

33 Fallstudie Speicherorganisation (1) Jeder Chip hat einen Datenausgang 32 Chips werden benötigt für einen Speicher mit 32-Bit Datenworten (eher unhandlich) A0 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 \RAS \CAS 4096K x 1 Speicherchip 4096K x K Speicherchip x 1 Speicherchip (4 Mbit) (4 Mbit) (4 Mbit) D6 D31 D0 Intern ist der Chip als 2048 x 2048 Matrix organisiert \CS \WE \OE

34 Fallstudie Speicherorganisation (2) Eher üblich: Chips mit 4, 8 oder 16 Bit Datenausgängen Dann nur 2, 4 oder 8 Chips pro Modul für 32-Bit Datenworte erforderlich A0 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 \RAS \CAS Bank 0 Bank 1 32M x 16 Speicherchip (512 Mbit) \CS \WE \OE D0 D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 D15 Im Beispiel links: Ein Chip hat 4 interne Speicherbänke mit je 128 MBit Jede Speicherbank ist aus x 1024 Matrizen organisiert (8192 Zeilen, 1024 Spalten) 13 Zeilen-Decoder x x 1024 Speichermatrix x 1024 Speichermatrix Speichermatrix Spalten-Decoder Spalten-Decoder Spalten-Decoder

35 Anbindung des Speichers an den Prozessor Speichermodule 1 Speichermodule k Prozessor physikalische Adresse Memory Controller Adress- und Datenbus Chip-Select-Signal

36 Aufbau Speichercontroller Anforderungspuffer nehmen physikalische Adressen (+Daten) von verschiedenen Quellen auf Adressabbildung erzeugt aus physikalischen Adressen (Zeilenadresse, Spaltenadresse, Bank, Modul) Arbiter plant die Reihenfolge der Speicherzugriffe und initiiert Refresh-Zyklen Kommandogenerierung kommuniziert mit dem Speichermodul unter Beachtung des Timings Anforderungspuffer Adressabbildung Arbiter Kommandogenerierung Ausgabepuffer

37 Zusammenfassung Speicherimplementierung Aufbau und Arbeitsweise verschiedener Speicherzellen Matrix-Organisationsformen mit Zeilendecoder mit Zeilen- und Spaltendecoder Blöcke Multi-Ported Adressmultiplexing Organisation von SDRAM in Speicherchips und -modulen Timing Speichercontroller

39 Cache Cache: Kleiner aber schneller Pufferspeicher Zugriff auf den Cache um Faktor 10 bis 40 schneller als auf den Hauptspeicher Zum Glück trifft meistens das Lokalitätsprinzip zu: in kurzer Zeit (zeitliche Lokalität) greift ein Programm auf nah beieinander liegende Daten zu (räumliche Lokalität) Cache-Controller liest/schreibt Daten aus dem/in den Cache falls Daten im Cache gepuffert Wenn nicht, dann über Memory-Controller benötigten Adressbereich in den Cache holen Chip Core Daten Adresse Adresse Cache Controller Daten Daten Adresse Cache Speichermodule Speichermodule Memory Controller

40 Organisationsprinzip eines Caches Hauptspeicher ist in Blöcke der Größe 2 n eingeteilt Datenaustausch zwischen Cache und Hauptspeicher nur blockweise Cache besteht aus 2 m Cache-Lines Jede Cache-Line enthält einen Block Gruppierung von je 2 k Cache-Lines zu einem Set; 2 k -fach assoziativer Cache 2 k = 1: Cache mit direkter Abbildung 2 k = 2 m : vollassoziativer Cache Adresse 0 Daten Wort 1 Wort 2 Wort n Cache Line Daten Wort 1 Adresse Wort n+1 Wort n+2 Wort 2n Wort 2n+1 Wort 2n+2 Wort 3n Block 1 Block 2 a-n Wort 2 n Wort 2 n +1 Wort 2 a - 2 n +1 Wort 2 a 2 n -1 2 n 2 a -1 Wie werden Hauptspeicheradressen auf Cache-Adressen abgebildet? 3 2 m -4 2 m -3 2 m -2 2 m -1 Wort 3n+1 Wort 3n+2 Wort 4n Wort 1 Wort 2 Wort 2 n Wort 1 Wort 2 Wort 2 n Wort 1 Wort 2 Wort 2 n Wort 1 Wort 2 Wort 2 n Set 1 Set 2 m-k Hauptspeicher mit 2 a Datenworten Cache (hier 4-fach assoziativ)

41 Adressierung des Caches (1) a-1 Hauptspeicheradresse wird aufgeteilt in Blockoffset-Bits: Set-Bits: Adressieren Datenwort innerhalb eines Blocks (Cacheline) Kodieren die Nummer des Sets, in dem der Block der das Datenwort enthält abgelegt wird In einem k-fach assoziativen Cache (k > 1) kann dieser Block in einer beliebigen Cache-Line innerhalb des Sets abgelegt werden Tag-Bits: Zur Identifizierung eines Blocks im Cache Tag-Bits n+m-k a-(m-k)-n Bits Adresse im Hauptspeicher (a Bits) n+m-k-1 Set-Adresse m-k Bits n n-1 Blockoffset n Bits 0 Set- Adresse Set 0 Set 1 Set 2 Set 3 Tag Tag Tag Tag Tag Tag Tag Cache-Line Cache-Line Cache-Line Cache-Line Cache-Line Cache-Line Cache-Line V V V V V V V valid-bit

42 Aufbau Cache mit direkter Abbildung Direkt abgebildeter Cache für 32-Bit Adressen mit 1024 Cache-Lines (10 Indexbits erforderlich) Blockgröße: 16 Byte (4 Offsetbits erforderlich) Sehr gute Hit-Time: Takte bis das Datum bei einem Treffer geliefert wird Tag <18> Index <10> Offset <4> Valid 1 <1> Tag 1 <18> Daten 1 <16 Byte> Valid 2 <1> Tag 2 <18> Daten 2 <16 Byte> Valid 3 <1> Tag 3 <18> Daten 3 <16 Byte> Valid 4 <1> Tag 4 <18> Daten 4 <16 Byte> Valid 1024 <1> Tag 1024 <18> Daten 1024 <16 Byte> = 16:1 Mux Hit Data

43 Aufbau 4-fach assoziativer Cache 4-fach assoziativer Cache für 32-Bit Adressen mit 1024 Cache-Lines und 4 Cache-Lines je Set (8 Indexbits erforderlich) Blockgröße: 16 Byte (4 Offsetbits erforderlich) Hit-Time etwas schlechter wegen 4:1-Mux Tag <20> Index <8> Offset <4> V1 Tag 1 Daten 1 V1 Tag 1 Daten 1 V1 Tag 1 Daten 1 V1 Tag 1 Daten 1 V2 Tag 2 Daten 2 V2 Tag 2 Daten 2 V2 Tag 2 Daten 2 V2 Tag 2 Daten 2 V3 Tag 3 Daten 3 V3 Tag 3 Daten 3 V3 Tag 3 Daten 3 V3 Tag 3 Daten 3 V4 Tag 4 Daten 4 V4 Tag 4 Daten 4 V4 Tag 4 Daten 4 V4 Tag 4 Daten 4 V256 Tag 256 Daten 256 V256 Tag 256 Daten 256 V256 Tag 256 Daten 256 V256 Tag 256 Daten 256 = = = = OR 4:1 Mux hit 16:1 Mux data

44 Was passiert bei Cache-Miss Cache-Miss: Datum liegt nicht im Cache vor Miss-Rate: Anzahl Cache-Misses / Gesamtanzahl der Cachezugriffe Miss-Penalty: Anzahl Takte, bis das Datum nach einem Cache-Miss geliefert wird Block, der das Datum enthält, wird aus dem Hauptspeicher geholt und ersetzt einen Block im Cache Für direkt abgebildete Caches ist der ersetzte Block eindeutig Für assoziative Caches ist eine Auswahl innerhalb des Sets möglich Zufällig Least-Recently Used: Ersetze den Block, der die längste Zeit ungenutzt war First-In, First-Out: Ersetze den ältesten Block Vor dem Ersetzen muss der alte Block evtl. in den Speicher zurückgeschrieben werden; hängt vom Verhalten bei Schreiboperationen ab

45 Was passiert bei Schreiboperationen? Prüfen, ob zu schreibende Adresse im Cache Falls ja (Write-Hit), dann Write-Through: Daten werden in Cache und darunterliegende Speicherebenen geschrieben Kohärenz der Daten ist dadurch gegeben Oft werden write-buffer verwendet, damit der Prozessor weiterarbeiten kann Write-Back: Daten werden nur in den Cache geschrieben Geht schnell und erfordert geringere Speicherbandbreite Bei Ersetzung muss Block in darunterliegende Speicherebenen geschrieben werden Falls nein (Write-Miss), dann Write Allocate: Block wird in den Cache geholt und anschließend wird die Schreiboperationen wie bei einem Write-Hit ausgeführt No-Write Allocate: Daten werden nur in den Hauptspeicher geschrieben

46 Beispiel: AMD Opteron Daten-Cache 64KByte Cache, 64 Bytes je Cache-Line, 2-fach assoziativ mit LRU, write-back und write-allocate Hit-Time: 2 Takte Bei einem Read-Miss werden 64-Byte aus dem L2-Cache geholt 7 Takte braucht das Lesen der ersten 8 Byte jeweils 2 weitere Takte die darauf folgenden 8 Byte-Gruppen zu überschreibende Cache-Line wird an einen Victim-Buffer gesendet (write-buffer); dieser kann bis zu acht Cache-Lines aufnehmen Aus dem Victim-Buffer werden die Daten in den L2-Cache geschrieben

47 Opteron L1-Cache Tag <25> Index <9> Offset <6> Adresse CPU Data In Data Out Valid 1 <1> Tag 1 <25> Valid 512 <1> Tag 512 <25> Data 1 <64> Data 512 <64> = Valid 1 <1> Tag 1 <25> Valid 512 <1> Tag 512 <25> Data 1 <64> Data 512 <64> = 2:1 Mux Victim Buffer L2 Cache

48 Maßnahmen zur Verbesserung der Cache-Leistung (1) Größere Blöcke: Reduzieren Miss-Rate durch Nutzung räumlicher Lokalität Erhöhen aber Miss-Penalty, weil mehr Daten nachgeladen werden müssen Größere Caches: Reduzieren Miss-Rate; Erhöhen aber die Hit-Time L1-Cache wird i. Allg. klein gehalten, damit er schnell ist (L1-Cache Größe ist im K6, Athlon und Opteron gleich geblieben) Höhere Assoziativität: Verringert die Miss-Rate Erhöht aber die Hit-Time Multi-Level-Caches: Reduzieren Miss-Penalty

49 Maßnahmen zur Verbesserung der Cache-Leistung (2) Cache-Line-Vorhersage: In einem assoziativen Cache wird zu jedem Set ein Predictor hinzugefügt, der vorhersagt, welche Cache-Line beim nächsten Zugriff angesprochen wird (z.b. im P4 verwendet) Multiplexer kann schon die Tag-Bits der vorhergesagten Cache-Line auswählen für den Vergleich Pipelined Cache-Zugriff: Holen einer Instruktion ist auf mehrere Takte aufgeteilt (im Pentium 1 Takt pro Befehls-Cache-Zugriff, im P4 4 Takte) Nicht blockierende Caches: Nach einem Cache-Miss kann der Cache weitere Anfrage bedienen (in der Regel solange ein Cache-Hit vorliegt) Critical-Word-First: Beim Nachladen eines Blocks aus einer niedrigeren Speicherebene wird das benötigte Wort sofort an den Prozessor geliefert, sobald es im Cache vorliegt Restlichen Worte des Blocks werden danach aufgefüllt Prefetching: Es werden spekulativ Blöcke nachgeladen Hardware-basiert: nächster Speicherblock für Befehlscache wird angefordert Compiler-basiert: Der Compiler fügt geeignete Prefetch-Operationen ein

50 Zusammenfassung Caches Direkt abgebildeter Cache Vorteile Effizientere Speicherung, d.h. weniger Overhead durch Tags und Valid Bits Effizienterer Datentransfer Nachteile Größere Miss-Rate Assoziativer Cache Vorteil Miss Rate wird reduziert, weil mehrere Blöcke mit gleicher Set-Adresse im Cache gehalten werden können Nachteile Hit Time wird durch erhöhten Vergleichsaufwand etwas vergrößert Bei hoher Assoziativität wird der Hardwareaufwand beträchtlich Weitere Methoden zur Verbesserung der Cache-Leistung Multi-Level-Caches, Cache-Line-Vorhersage,

51 Virtuelle Speicherverwaltung Jeder Task hat seinen eigenen virtuellen Adressraum Virtueller Adressraum kann größer sein als physisch vorhandener Speicher Virtueller Adressraum ist in Seiten unterteilt Seiten können beliebig auf die Seitenrahmen im physischen Speicher verteilt sein oder auf HDD ausgelagert virtuelle Adresse 0x x Seiten Page 1 Page 2 ~4KByte physische Adresse 0x x Seitenrahmen Page 3 Page 4 0xFFFFFFFF Page n 0xFFFFFF HDD

52 Organisation der virtuellen Speicherverwaltung MMU bildet virtuelle Adressen auf physische Adressen ab Rest des Systems arbeitet mit physischen Adressen Core Daten virt. Adresse Memory Management Unit (MMU) Daten phys. Adresse Cache Controller Daten phys. Adresse Cache Speichermodule Speichermodule Chip Adresse Daten Memory Controller

53 Paging: Adressabbildung Eine virtuelle Adresse wird aufgeteilt in eine virtuelle Seitennummer, die auf eine physikalische Rahmennummer abgebildet wird einen Seitenoffset, der die Adresse innerhalb einer Seite darstellt Anzahl der Bits im Seitenoffset bestimmt die Größe einer Seite Virtuelle Adresse Virtuelle Seitennummer Seitenoffset Abbildung Physische Adresse Physikalische Rahmennummer Seitenoffset

54 Finden von Pages Finden von Pages wird durch Seitentabelle (Page Table) realisiert: Beispiel Für jede virtuelle Seitennummer wird die dazugehörige physische Rahmenadresse gespeichert Valid Bit zeigt an, ob sich die gesuchte Page im Hauptspeicher befindet Seitentabelle ist selbst im Speicher abgelegt Seitentabellenregister (z.b. CR3 bei x86-prozessoren) speichert physische Startadresse der Seitentabelle 48-Bit virtueller Adressraum, 4 KByte Page Size, 8 Byte pro Eintrag in der Seitentabelle Größe der Seitentabelle ~550 GB Virtuelle Adresse Data Virtuelle Seitennummer Seitenoffset CR3 HDD + phys. Addr. Attributes Seitentabelle present? nein Betriebssystem ja + physikalische Adresse des Rahmens (Rahmennummer) Daten lesen Hauptspeicher

55 Aktionen des OS bei Seitenfehler Seite i ist nicht im Speicher: Virtuelle Adresse, die den Fehler verursachte wird in Register CR2 geschrieben und Page-Fault- Exception ausgelöst OS überprüft, ob ein Seitenrahmen x im Hauptspeicher leer ist Falls nicht, dann wird eine Seite aus einem Rahmen x aus dem Hauptspeicher auf HDD ausgelagert und Seitentabelle aktualisiert OS holt Seite i von HDD, schreibt diese in Rahmen x und aktualisiert die Seitentabelle Speicherzugriff, der die Exception verursachte, kann ausgeführt werden

56 Paging im AMD Opteron Virtuelle Adresse en oder 1 en Seitenkarte Seiten-dir.-zeiger Seitendirectory Seitentabelle Seitenoffset CR3-Register + Tabelleneintrag + Tabelleneintrag + Seitentabelle Seitentabelle Tabelleneintrag + Tabelleneintrag Seitentabelle Seitentabelle Rahmennummer (28 Bit) Offset (12 Bit) Physikalische Adresse (40 Bit) 1 TByte adressierbar physikalische Startadresse der nächsten Tabelle Index in die nächsten Tabelle

57 Eigenschaften des Pagings im Opteron Jede Tabelle hat 512 Einträge mit 8 Byte pro Eintrag (= 4KByte; entspricht Seitengröße) Alle Tabellen befinden sich im Speicher; Adressberechnung findet aber in HW statt; Adressen der Tabellen müssen deswegen physikalische Adressen sein Bei Prozesswechsel wird auch CR3 umgeschaltet; jeder Prozess hat seine eigenen Seitentabellen Zugriff auf gemeinsam genutzten Speicher von Prozessen durch Verweise auf gleiche physikalische Adressen in den verschiedenen Tabellen Ein Speicherzugriff erfordert 4 weitere Speicherzugriffe (auch Programmspeicherzugriffe in der Befehlsholphase) Beschleunigung durch Translation Lookaside Buffer (TLB)

58 TLB TLB ist ein Cache für die schnelle Abbildung virtueller Seitennummern auf physikalische Rahmenadresse Virtuelle Adresse wird zuerst im TLB gesucht Bei Treffer im TLB kann sofort die Rahmenadresse genutzt werden Sonst muss in Seitentabellen gesucht werden Gefundene Rahmennummer verdrängt ältesten Eintrag aus dem TLB

59 Aufbau TLB Beispiel AMD Opteron TLB für Daten Vollassoziativ 40 Einträge Seitenkarte + Seiten-dir.-zeiger + Seitendirectory + Seitentabelle Seitenoffset Physikalische Rahmenadresse Virtuelle Seitennummer (Tag) = = = Decoder 40:1 Mux

60 Eigenschaften TLB TLB ist transparent für die Software Änderungen an der Seitentabelle führen zu einer veränderten Abbildung virtueller auf physikalische Adressen Diese Änderungen können dem TLB nicht mitgeteilt werden Bei Änderungen an den Seitentabellen (Taskwechsel oder EIn- /Auslagern von Seiten) muss der TLB deshalb gelöscht werden Jeder Prozess benötigt eigenen TLB (oder gemeinsamer TLB muss vor Prozesswechsel geleert werden)

61 Mit welchen Adressen arbeitet der Cache? Cache arbeitet mit virtuellen Adressen (VIVT) Tagbits im Cache gehören zur virtuellen Adresse Indexbits für Cache-Zugriff stammen aus der virtuellen Adresse Erst bei einem Cache-Miss werden virtuelle in physikalische Adressen übersetzt Cache arbeitet mit physikalischen Adressen (PIPT) Es werden erst virtuelle Adressen in physikalische Adressen übersetzt Indexbits für Cachezugriff stammen aus physikalischer Adresse Tagbits stammen aus physikalischer Adresse CPU Daten virt. Adresse Cache Controller Daten virt. Adresse Cache CPU Daten virt. Adresse Memory Management Unit (MMU) Daten phys. Adresse Cache Controller Daten phys. Adresse Cache virt. Adresse Daten Memory Management Unit (MMU) Daten phys. Adresse Übrige Speicherebenen Adresse Daten Übrige Speicherebenen

62 VIVT Schneller Zugriff auf den Cache (keine Adressübersetzung erforderlich) Verschiedene Prozesse arbeiten mit gleichen virtuellen Adressen Gleiche virtuelle Adressen beziehen sich auf verschiedene physikalische Adressen (Homonyms) Cache muss vor Prozesswechsel geleert werden, sonst werden falsche Daten geliefert Mehrere virtuelle Adressen beziehen sich auf dieselbe physikalische Adresse (Alias) Dadurch können Kohärenz-Probleme im Cache entstehen, weil mehrere Kopien der gleichen physikalischen Adresse gespeichert werden können CPU Daten virt. Adresse Cache Controller Daten virt. Adresse Cache virt. Adresse Daten Memory Management Unit (MMU) Daten phys. Adresse Übrige Speicherebenen

63 PIPT Cache arbeitet mit physikalischen Adressen Zuerst Adressübersetzung erforderlich bevor auf den Cache zugegriffen werden kann Dadurch längere Zugriffszeiten Prozesswechsel unproblemtisch Keine Homonyms Keine Aliase CPU Daten virt. Adresse Memory Management Unit (MMU) Daten phys. Adresse Cache Controller Daten phys. Adresse Cache Adresse Daten Übrige Speicherebenen

64 Mischform VIPT Virtuell indizierter Cache, Physikalische Tagbits (VIPT) Schneller Zugriff auf den Cache möglich (ohne Adressübersetzung) Parallel dazu wird virtuelle Adresse in physikalische Adresse umgewandelt Physikalische Tagbits werden mit Tagbits im Cache abgeglichen Anwendung für L1-Cache L2- und L3-Cache üblicherweise PIPT

65 Aufbau bei VIPT Virtuelle Adresse <64> Virtuelle Seitennummer <51> Seitenoffset <13> TLB Tag <43> TLB Index <8> L1 Cache Index <7> Offset <6> zur Auswahl des Datenworts TLB Tag 1 <43> TLB Daten 1 <28> TLB Tag 256 <43> TLB Daten 256 <28> L1 Cache Tag 1 <35> L1 Cache Daten 128 <512> L1 Cache Tag 128 <35> L1 Cache Daten 128 <512> um Cache Index Phys Frame Addr <28> erweitert = ja, dann Cache Treffer zur CPU ja, dann Cache Treffer = Physickalische Adresse <41> L2 Tag <19> L2 Index <16> L2 Offset <6> TLB Tag 1 <43> TLB Daten 1 <27> TLB Tag 256 <43> TLB Daten 256 <27>

66 Eigenschaften Zugriff auf TLB und L1 Cache kann parallel erfolgen Adressübersetzungszeit des TLB kann versteckt werden Wird Eintrag im TLB nicht gefunden, dann bremst Übersetzung in physikalische Adressen den L1 Cache aus Homonyms werden vermieden Tagbits repräsentieren Physikalische Rahmennummer Damit lässt sich die physikalische Adresse bilden und abgleichen Verwendung VIPT in vielen aktuellen Prozessoren z.b. Opteron

67 Opteron Speicherhierarchie Virtuelle Seitennummer Offset Instruction Virtuelle Seitennummer Offset Data Vollassoziativ 40 Einträge Vollassoziativ 40 Einträge ITLB L1 DTLB L1 phys. Rahmen phys. Rahmen 128-fach-assozitativ 4 Blöcke 128-fach-assozitativ 4 Blöcke ITLB L2 DTLB L2 phys. Rahmen phys. Rahmen 2-fach assoziativ 512 Sets 64 Byte je Cacheline ICache L1 Instruction 2-fach assoziativ 512 Sets 64 Byte je Cacheline DCache L1 Data miss 8 Plätze für je 64 Byte Victim Buffer 16-fach assoziativ 1024 Sets ICache L2 Instruction Data System Chip memory crossbar Off-Chip Speicher

68 Zusammenfassung Speicherimplementierung SRAM, DRAM, ROM Caches einfach-, mehrfach-assoziativ Virtuelle Speicherverwaltung mit Seiten Mehrstufige Adressabbildung TLBs Reale Speicherhierarchie mit virtueller Adressierung Multi-Level Caches Mehreren TLBs