Modul IP7: Rechnerstrukturen

64-040 Rechnerstrukturen 64-040 Modul IP7: Rechnerstrukturen http://tams.informatik.uni-hamburg.de/ lectures/2012ws/vorlesung/rs Kapitel 18 Andreas Mäder Universität Hamburg Fakultät für Mathematik, Informatik und Naturwissenschaften Technische Aspekte Multimodaler Systeme Wintersemester 2012/2013 A. Mäder 1

18 Speicherhierarchie 64-040 Rechnerstrukturen Kapitel 18 Speicherhierarchie Speichertypen Halbleiterspeicher Festplatten spezifische Eigenschaften Motivation Cache Speicher Virtueller Speicher Literatur A. Mäder 1115

18 Speicherhierarchie 64-040 Rechnerstrukturen Speicherhierarchie: Konzept Smaller, faster, and costlier (per byte) storage devices Larger, slower, and cheaper (per byte) storage devices L5: L4: L3: L2: L0: registers L1: on-chip L1 cache (SRAM) off-chip L2 cache (SRAM) main memory (DRAM) local secondary storage (local disks) remote secondary storage (distributed file systems, Web servers) CPU registers hold words retrieved from L1 cache. L1 cache holds cache lines retrieved from the L2 cache memory. L2 cache holds cache lines retrieved from main memory. Main memory holds disk blocks retrieved from local disks. Local disks hold files retrieved from disks on remote network servers. [BO11] A. Mäder 1116

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen Random-Access Memory / RAM RAM ist als Chip gepackt Grundspeichereinheit ist eine Zelle (ein Bit pro Zelle) Viele RAM Chips bilden einen Speicher A. Mäder 1117

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen Random-Access Memory / RAM (cont.) Statischer RAM (SRAM) jede Zelle speichert Bits mit einer 6-Transistor Schaltung speichert Wert solange er mit Energie versorgt wird relativ unanfällig gegen Störungen wie elektrische Brummspannungen schneller und teurer als DRAM Dynamischer RAM (DRAM) jede Zelle speichert Bits mit einem Kondensator und einem Transistor der Wert muss alle 10-100 ms aufgefrischt werden anfällig für Störungen langsamer und billiger als SRAM A. Mäder 1118

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen SRAM vs. DRAM SRAM DRAM Zugriffszeit 5... 50 ns 60... 100 ns t rac 20... 300 ns t cac 110... 180 ns t cyc Leistungsaufnahme 200... 1300 mw 300... 600 mw Speicherkapazität < 72 Mbit < 4 Gbit Preis 10 /Mbit 0,1 Ct./Mbit Tran. Access per bit time Persist? Sensitive? Cost Applications SRAM 6 1X Yes No 100x cache memories DRAM 1 10X No Yes 1X Main memories, frame buffers [BO11] A. Mäder 1119

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen DRAM Organisation (d w) DRAM: organisiert als d-superzellen mit w-bits 16 x 8 DRAM chip cols 0 1 2 3 (to CPU) memory controller 2 bits / addr 8 bits / data 0 1 rows 2 3 supercell (2,1) internal row buffer [BO11] A. Mäder 1120

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen Lesen der DRAM Zelle (2,1) 1.a Row Access Strobe (RAS) wählt Zeile 2 1.b Zeile aus DRAM Array in Zeilenpuffer ( Row Buffer ) kopieren memory controller RAS = 2 2 / addr 16 x 8 DRAM chip 0 1 rows 2 cols 0 1 2 3 8 / data 3 internal row buffer [BO11] A. Mäder 1121

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen Lesen der DRAM Zelle (2,1) (cont.) 2.a Column Access Strobe (CAS) wählt Spalte 1 2.b Superzelle (2,1) aus Buffer lesen und auf Datenleitungen legen To CPU supercell (2,1) memory controller CAS = 1 2 / addr 8 / data 16 x 8 DRAM chip 0 1 rows 2 3 cols 0 1 2 3 supercell (2,1) internal row buffer [BO11] A. Mäder 1122

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen Speichermodule addr (row = i, col = j) DRAM 7 DRAM 0 : supercell (i,j) 64 MB memory module consisting of eight 8Mx8 DRAMs bits bits 56-63 48-55 bits 40-47 bits 32-39 bits 24-31 bits 16-23 bits 8-15 bits 0-7 63 56 55 48 47 40 39 32 31 24 23 16 15 8 7 64-bit doubleword at main memory address A 0 Memory controller 64-bit doubleword [BO11] A. Mäder 1123

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen Nichtflüchtige Speicher DRAM und SRAM sind flüchtige Speicher Informationen gehen beim Abschalten verloren nichtflüchtige Speicher speichern Werte selbst wenn sie spannungslos sind allgemeiner Name ist Read-Only-Memory (ROM) irreführend, da einige ROMs auch verändert werden können Arten von ROMs PROM: programmierbarer ROM EPROM: Eraseable Programmable ROM löschbar (UV Licht), programmierbar EEPROM: Electrically Eraseable PROM elektrisch löschbarer PROM Flash Speicher A. Mäder 1124

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen Nichtflüchtige Speicher (cont.) Anwendungsbeispiel: nichtflüchtige Speicher Firmware Programm wird in einem ROM gespeichert Boot Code, BIOS ( Basic Input/Output System ) Grafikkarten, Festplattencontroller A. Mäder 1125

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen Bussysteme verbinden CPU und Speicher Busse Bündel paralleler Leitungen es gibt mehr als einen Treiber Tristate-Treiber Busse im Rechner zur Übertragung von Adressen, Daten und Kontrollsignalen werden üblicherweise von mehreren Geräten genutzt CPU chip register file ALU system bus memory bus bus interface I/O bridge main memory [BO11] A. Mäder 1126

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen lesender Speicherzugriff 1. CPU legt Adresse A auf den Speicherbus register file Load operation: movl A, %eax %eax ALU bus interface I/O bridge A main memory 0 x A [BO11] A. Mäder 1127

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen lesender Speicherzugriff (cont.) 2.a Hauptspeicher liest Adresse A vom Speicherbus 2.b " ruft das Wort x unter der Adresse A ab 2.c " legt das Wort x auf den Bus register file Load operation: movl A, %eax %eax ALU bus interface I/O bridge main memory x 0 x A [BO11] A. Mäder 1128

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen lesender Speicherzugriff (cont.) 3.a CPU liest Wort x vom Bus 3.b " kopiert Wert x in Register %eax register file Load operation: movl A, %eax %eax x ALU I/O bridge main memory 0 bus interface x A [BO11] A. Mäder 1129

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen schreibender Speicherzugriff 1 CPU legt die Adresse A auf den Bus 2.b Hauptspeicher liest Adresse 2.c " wartet auf Ankunft des Datenworts register file Store operation: movl %eax, A %eax y ALU bus interface I/O bridge A main memory 0 A [BO11] A. Mäder 1130

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen schreibender Speicherzugriff (cont.) 3. CPU legt Datenwort y auf den Bus register file Store operation: movl %eax, A %eax y ALU bus interface I/O bridge y main memory 0 A [BO11] A. Mäder 1131

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen schreibender Speicherzugriff (cont.) 4.a Hauptspeicher liest Datenwort y vom Bus 4.b " speichert Datenwort y unter Adresse A register file Store operation: movl %eax, A %eax y ALU I/O bridge main memory 0 bus interface y A [BO11] A. Mäder 1132

18.1.1 Speicherhierarchie - Speichertypen - Halbleiterspeicher 64-040 Rechnerstrukturen Speicheranbindung DMA DMA Direct Memory Access eigener Controller zum Datentransfer + Speicherzugriffe unabhängig von der CPU + CPU kann lokal (Register und Cache) weiterrechnen CPU DMA controller Addr Arbiter Data Memory I/O device ACK REQ A. Mäder 1133

18.1.2 Speicherhierarchie - Speichertypen - Festplatten 64-040 Rechnerstrukturen Festplattengeometrie Platten mit jeweils zwei Oberflächen ( surfaces ) konzentrische Ringe der Oberfläche bilden Spuren ( tracks ) Spur unterteilt in Sektoren ( sectors ), durch Lücken ( gaps ) getrennt tracks surface track k gaps spindle sectors [BO11] A. Mäder 1134

18.1.2 Speicherhierarchie - Speichertypen - Festplatten 64-040 Rechnerstrukturen Festplattengeometrie (cont.) untereinander liegende Spuren (mehrerer Platten) bilden einen Zylinder cylinder k surface 0 surface 1 surface 2 surface 3 surface 4 surface 5 platter 0 platter 1 platter 2 spindle [BO11] A. Mäder 1135

18.1.2 Speicherhierarchie - Speichertypen - Festplatten 64-040 Rechnerstrukturen Festplattenkapazität Kapazität: Höchstzahl speicherbarer Bits bestimmende technologische Faktoren Aufnahmedichte [bits/in]: # Bits / 1-Inch Segment einer Spur Spurdichte [tracks/in]: # Spuren / 1-Inch (radial) Flächendichte [bits/in 2 ]: Aufnahme- Spurdichte Spuren unterteilt in getrennte Zonen ( Recording Zones ) jede Spur einer Zone hat gleichviel Sektoren (festgelegt durch die Ausdehnung der innersten Spur) jede Zone hat unterschiedlich viele Sektoren/Spuren A. Mäder 1136

18.1.2 Speicherhierarchie - Speichertypen - Festplatten 64-040 Rechnerstrukturen Festplattenkapazität (cont.) Kapazität = Bytes/Sektor Sektoren/Spur Spuren/Oberfläche Oberflächen/Platten Platten/Festplatte Beispiel 512 Bytes/Sektor 300 Sektoren/Spuren (im Durchschnitt) 20 000 Spuren/Oberfläche 2 Oberflächen/Platten 5 Platten/Festplatte Kapazität = 512 300 20 000 2 5 = 30 720 000 000 = 30,72 GB A. Mäder 1137

18.1.2 Speicherhierarchie - Speichertypen - Festplatten 64-040 Rechnerstrukturen Festplatten-Operation Ansicht einer Platte Umdrehung mit konstanter Geschwindigkeit spindle Schreib/Lese Kopf ist an Arm befestigt fliegt auf Luftpolster über Plattenoberfläche radiale Bewegung des Arms positioniert Kopf auf Spuren [BO11] A. Mäder 1138

18.1.2 Speicherhierarchie - Speichertypen - Festplatten 64-040 Rechnerstrukturen Festplatten-Operation (cont.) Ansicht mehrerer Platten arm Schreib/Lese Köpfe werden gemeinsam auf Zylindern positioniert spindle [BO11] A. Mäder 1139

18.1.2 Speicherhierarchie - Speichertypen - Festplatten 64-040 Rechnerstrukturen Festplatten-Zugriffszeit Durchschnittliche (avg) Zugriffszeit auf einen Zielsektor wird angenähert durch T Zugriff = T avgsuche + T avgrotationslatenz + T avgtransfer Suchzeit (T avgsuche ) Zeit in der Schreib-Lese Köpfe ( heads ) über den Zylinder mit dem Targetsektor positioniert werden üblicherweise T avgsuche = 8 ms A. Mäder 1140

18.1.2 Speicherhierarchie - Speichertypen - Festplatten 64-040 Rechnerstrukturen Festplatten-Zugriffszeit (cont.) Rotationslatenzzeit (T avgrotationslatenz ) Wartezeit, bis das erste Bit des Targetsektors unter dem Schreib-Lese-Kopf durchrotiert T avgrotationslatenz = 1/2 1/RPMs 60 Sek/1 Min Transferzeit (T avgtransfer ) Zeit, in der die Bits des Targetsektors gelesen werden T avgtransfer = 1/RPM 1/(Durchschn. # Sektoren/Spur) 60 Sek/1 Min A. Mäder 1141

18.1.2 Speicherhierarchie - Speichertypen - Festplatten 64-040 Rechnerstrukturen Festplatten-Zugriffszeit (cont.) Beispiel für Festplatten-Zugriffszeit Umdrehungszahl = 7 200 RPM ( Rotations per Minute ) Durchschnittliche Suchzeit = 8 ms Avg # Sektoren/Spur = 400 T avgrotationslatenz = 1/2 (60 Sek/7 200 RPM) 1 000 ms/sek = 4 ms T avgtransfer = 60/7 200 RPM 1/400 Sek/Spur 1 000 ms/sek = 0,02 ms T avgzugriff = 8 ms + 4 ms + 0,02 ms A. Mäder 1142

18.1.2 Speicherhierarchie - Speichertypen - Festplatten 64-040 Rechnerstrukturen Festplatten-Zugriffszeit (cont.) Fazit Zugriffszeit wird von Suchzeit und Rotationslatenzzeit dominiert erstes Bit eines Sektors ist das teuerste, der Rest ist quasi umsonst SRAM Zugriffszeit ist ca. 4 ns DRAM ca. 60 ns Kombination aus Zugriffszeit und Datentransfer Festplatte ist ca. 40 000 mal langsamer als SRAM 2 500 mal langsamer als DRAM A. Mäder 1143

18.1.2 Speicherhierarchie - Speichertypen - Festplatten 64-040 Rechnerstrukturen Logische Festplattenblöcke simple, abstrakte Ansicht der komplexen Sektorengeometrie verfügbare Sektoren werden als Sequenz logischer Blöcke der Größe b modelliert (0,1,2,..,n) Abbildung der logischen Blöcke auf die tatsächlichen (physikalischen) Sektoren durch Hard-/Firmware Einheit (Festplattencontroller) konvertiert logische Blöcke zu Tripeln (Oberfläche, Spur, Sektor) Controller kann für jede Zone Ersatzzylinder bereitstellen Unterschied: formatierte Kapazität und maximale Kapazität A. Mäder 1144

18.1.2 Speicherhierarchie - Speichertypen - Festplatten 64-040 Rechnerstrukturen Lesen eines Festplattensektors 1. CPU initiiert Lesevorgang von Festplatte auf Port (Adresse) des Festplattencontrollers wird geschrieben Befehl, logische Blocknummer, Zielspeicheradresse CPU chip register file ALU bus interface main memory I/O bus USB controller graphics adapter disk controller mouse keyboard monitor disk [BO11] A. Mäder 1145

18.1.2 Speicherhierarchie - Speichertypen - Festplatten 64-040 Rechnerstrukturen Lesen eines Festplattensektors (cont.) 2. Festplattencontroller liest den Sektor aus 3. " führt DMA-Zugriff auf Hauptspeicher aus CPU chip register file ALU bus interface main memory I/O bus USB controller graphics adapter disk cont oller mouse keyboard monitor disk [BO11] A. Mäder 1146

18.1.2 Speicherhierarchie - Speichertypen - Festplatten 64-040 Rechnerstrukturen Lesen eines Festplattensektors (cont.) 4. Festplattencontroller löst Interrupt aus CPU chip register file ALU bus interface main memory I/O bus USB controller graphics adapter disk controller mouse keyboard monitor disk [BO11] A. Mäder 1147

18.1.3 Speicherhierarchie - Speichertypen - spezifische Eigenschaften 64-040 Rechnerstrukturen Eigenschaften der Speichertypen Speicher Vorteile Nachteile Register sehr schnell sehr teuer SRAM schnell teuer, große Chips DRAM hohe Integration Refresh nötig, langsam Platten billig, Kapazität sehr langsam, mechanisch Beispiel Hauptspeicher Festplatte SSD Latenz 8 ns 4 ms 0,2/0,4 ms Bandbreite 38,4 GB/sec 750 MB/sec (triple Channel) typ.: < 300 500 Kosten/GB 5 4 ct. 70 ct. 1 TB, 40 A. Mäder 1148

18.2 Speicherhierarchie - Motivation 64-040 Rechnerstrukturen Speed [log MHz] 2000 2GHz 2.2GHz P4 1000 900 800 700 600 500 400 300 DEC Alpha first 1GHz CPU Research internal CPU Clock PentiumIII external BUS Clock Processor- Memory Gap PC266 200 100 90 80 70 60 50 40 30 MC68030 i860 PCI 1/tacc 25ns in page SDRAM PC133 IO Processor- I/O Gap PCI-X 133MHz 20 40ns 1/tacc 60ns random 10 '90 '92 '94 '96 '98 2000 '02 Year A. Mäder 1149

18.2 Speicherhierarchie - Motivation 64-040 Rechnerstrukturen Speicherhierarchie Motivation Geschwindigkeit der Prozessoren Kosten für den Speicherplatz permanente Speicherung magnetisch optisch mechanisch CPU Register Files 1st-Level Cache External Processor Interface 2nd-Level Cache Main Memory Disk Storage A. Mäder 1150

18.2 Speicherhierarchie - Motivation 64-040 Rechnerstrukturen Speicherhierarchie (cont.) Fundamentale Eigenschaften von Hard- und Software schnelle vs. langsame Speichertechnologie schnell : hohe Kosten/Byte geringe Kapazität langsam : geringe " hohe " Abstand zwischen CPU und Hauptspeichergeschwindigkeit vergrößert sich Lokalität der Programme wichtig kleiner Adressraum im Programmkontext gut geschriebene Programme haben meist eine gute Lokalität Motivation für spezielle Organisation von Speichersystemen Speicherhierarchie A. Mäder 1151

18.2 Speicherhierarchie - Motivation 64-040 Rechnerstrukturen Speicherhierarchie (cont.) [HP11] A. Mäder 1152

18.2 Speicherhierarchie - Motivation 64-040 Rechnerstrukturen Verwaltung der Speicherhierarchie Register Memory Compiler Assembler-Programmierer Cache Memory Hardware Memory Disk Hardware und Betriebssystem (Paging) Programmierer (Files) A. Mäder 1153

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache CS420/520 memory.3 UC. Colorado Springs Adapted from UCB97 & UCB03 Memory Who Cares Wall : About DRAM the Memory zu langsam Hierarchy? für CPU Performance 10000 1000 100 10 1 1980 1981 1982 1983 1984 1985 1986 Processor-DRAM Memory Gap (latency) Moore s Law 1987 1988 1989 1990 1991 1992 1993 1994 Year µproc 55%/yr. (2X/1.5yr) DRAM 7-9%/yr. (2X/10 yrs) A. Mäder 1154 CS420/520 memory.4 UC. Colorado Springs Adapted from UCB97 & UCB03 1995 CPU Processor-Memory Performance Gap: (grows 50% / year) DRAM 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 [PH12]

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache (cont.) Cache als schneller Zwischenspeicher zum Hauptspeicher technische Realisierung: SRAM transparenter Speicher Cache ist für den Programmierer nicht sichtbar! wird durch Hardware verwaltet http://de.wikipedia.org/wiki/cache http://en.wikipedia.org/wiki/cache enthält Hauptspeicherblöcke mit erhöhter Zugriffswahrscheinlichkeit CPU referenziert Adresse parallele Suche in L1 (level 1), L2... und Hauptspeicher erfolgreiche Suche liefert Datum, Abbruch laufender Suchen A. Mäder 1155

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache (cont.) CPU chip register file L1 ALU cache cache bus system bus memory bus L2 cache bus interface I/O bridge main memory [BO11] A. Mäder 1156

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen gemeinsamer Cache / unified Cache [Fur01] A. Mäder 1157

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen separate Instruction-/Data Caches [Fur01] A. Mäder 1158

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Position First- und Second-Level Cache A. Mäder 1159

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Position (cont.) Virtueller Cache + Adressumrechnung durch MMU oft nicht nötig Cache leeren bei Kontextwechseln A. Mäder 1160

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Position (cont.) Physikalischer Cache + Cache muss nie geleert werden Adressumrechnung durch MMU immer nötig A. Mäder 1161

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Position (cont.) typische Cache Organisation First-Level Cache: getrennte Instruktions- und Daten-Caches Second-Level Cache: gemeinsamer Cache je Prozessorkern Third-Level Cache: gemeinsamer Cache für alle Prozessorkerne bei mehreren Prozessoren / Prozessorkernen Cache-Kohärenz wichtig gemeinsam genutzte Daten konsistent halten (s.u.) A. Mäder 1162

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Strategie Cachestrategie: Welche Daten sollen in den Cache? Diejenigen, die bald wieder benötigt werden! temporale Lokalität: die Daten, die zuletzt häufig gebraucht wurden räumliche Lokalität: die Daten, die nahe den zuletzt gebrauchten liegen verschiedene Platzierungs-, Ersetzungs- und Rückschreibestategien für den Cache A. Mäder 1163

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Performanz Cacheperformanz Begriffe Treffer (Hit) Zugriff auf Datum, ist bereits im Cache Fehler (Miss) " ist nicht " Treffer-Rate R Hit Wahrscheinlichkeit, Datum ist im Cache Fehler-Rate R Miss 1 R Hit Hit-Time T Hit Zeit, bis Datum bei Treffer geliefert wird Miss-Penalty T Miss zusätzlich benötigte Zeit bei Fehler Mittlere Speicherzugriffszeit = T Hit + R Miss T Miss Beispiel T Hit = 1 Takt, T Miss = 20 Takte, R Miss = 5 % Mittlere Speicherzugriffszeit = 2 Takte A. Mäder 1164

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Organisation Cache ist ein Array von Speicher-Bereichen ( sets ) jeder Bereich enthält eine oder mehrere Zeilen jede Zeile enthält einen Datenblock jeder Block enthält mehrere Byte 1 valid bit t tag bits per line per line B = 2 b bytes per cache block set 0: valid valid tag tag 0 0 1 1 B 1 B 1 E lines per set valid tag 0 1 B 1 S = 2 s sets set 1: valid tag 0 1 B 1 valid tag 0 1 B 1 set S-1: valid tag 0 1 B 1 Cache size: C = B x E x S data bytes A. Mäder 1165

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Organisation (cont.) 1 valid bit per line t tag bits per line B = 2 b bytes per cache block set 0: valid valid tag tag 0 0 1 1 B 1 B 1 E lines per set valid tag 0 1 B 1 S = 2 s sets set 1: valid tag 0 1 B 1 valid tag 0 1 B 1 set S-1: valid tag 0 1 B 1 [BO11] A. Mäder 1166

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Adressierung von Caches Adressteil set index von A bestimmt Bereich ( set ) Adresse A ist im Cache, wenn 1. Cache-Zeile ist als gültig markiert ( valid ) 2. Adressteil tag von A = tag Bits des Bereichs Address A: t bits s bits b bits set 0: v v tag tag 0 0 1 1 B 1 B 1 m-1 <tag> <set index> <block offset> 0 set 1: v v tag tag 0 0 1 1 B 1 B 1 set S-1: v v tag tag 0 0 1 1 B 1 B 1 [BO11] A. Mäder 1167

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Adressierung von Caches (cont.) Cache-Zeile ( cache line ) enthält Datenbereich von 2 b Byte gesuchtes Wort mit Offset block offset Address A: t bits s bits b bits set 0: v v tag tag 0 0 1 1 B 1 B 1 m-1 <tag> <set index> <block offset> 0 set 1: v v tag tag 0 0 1 1 B 1 B 1 set S-1: v v tag tag 0 0 1 1 B 1 B 1 [BO11] A. Mäder 1168

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Organisation Welchen Platz im Cache belegt ein Datum des Hauptspeichers? drei Verfahren direkt abgebildet / direct mapped jeder Speicheradresse ist genau eine Cache-Speicherzelle zugeordnet n-fach bereichsassoziativ / set associative jeder Speicheradresse ist eine von E möglichen Cache-Speicherzellen zugeordnet voll-assoziativ jeder Speicheradresse kann jede beliebige Cache-Speicherzelle zugeordnet werden A. Mäder 1169

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache: direkt abgebildet / direct mapped jeder Adresse ist genau eine Speicherzelle im Cache zugeordnet Cache 000 001 010 011 100 101 110 111 Memory 00001 00101 01001 01101 10001 10101 11001 11101 [PH12] A. Mäder 1170

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache: direkt abgebildet / direct mapped (cont.) verfügt über genau 1 Zeile pro Bereich S Bereiche (Sets) set 0: valid tag cache block E=1 lines per set set 1: valid tag cache block set S-1: valid tag cache block [BO11] + einfachste Cache-Art + große Caches möglich Effizienz, z.b. Zugriffe auf A, A + n S... A. Mäder 1171

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache: direkt abgebildet / direct mapped (cont.) Zugriff auf direkt abgebildete Caches 1. Bereichsauswahl durch Bits set index set 0: valid tag cache block selected set set 1: valid tag cache block m-1 t bits tag s bits b bits 0 0 0 0 1 0 set index block offset set S-1: valid tag cache block [BO11] A. Mäder 1172

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache: direkt abgebildet / direct mapped (cont.) 2. valid : sind die Daten gültig? 3. Line matching : stimmt tag überein? 4. Wortselektion extrahiert Wort unter Offset block offset =1? (1) The valid bit must be set selected set (i): 1 0 1 2 3 4 5 6 7 0110 w 0 w 1 w 2 w 3 (2) The tag bits in the cache line must match the tag bits in the address m-1 =? t bits 0110 tag s bits b bits i 100 0 set index block offset (3) If (1) and (2), then cache hit, and block offset selects starting byte. [BO11] A. Mäder 1173

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache: direkt abgebildet / direct mapped (cont.) Prinzip [Fur01] A. Mäder 1174

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache: bereichsassoziativ / set associative jeder Speicheradresse ist ein Bereich S mit mehreren (E) Cachezeilen zugeordnet n-fach assoziative Caches: E=2, 4... 2-way set associative cache, 4-way... set 0: valid tag cache block valid tag cache block E=2 lines per set set 1: valid tag cache block valid tag cache block set S-1: valid tag cache block valid tag cache block [BO11] A. Mäder 1175

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache: bereichsassoziativ / set associative (cont.) Zugriff auf n-fach assoziative Caches 1. Bereichsauswahl durch Bits set index set 0: valid valid tag tag cache block cache block Selected set set 1: valid valid tag tag cache block cache block m-1 t bits tag s bits b bits 0 0 0 0 1 0 set index block offset set S-1: valid valid tag tag cache block cache block [BO11] A. Mäder 1176

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache: bereichsassoziativ / set associative (cont.) 2. valid : sind die Daten gültig? 3. Line matching : Cache-Zeile mit passendem tag finden? dazu Vergleich aller tags des Bereichs set index 4. Wortselektion extrahiert Wort unter Offset block offset =1? (1) The valid bit must be set. 0 1 2 3 4 5 6 7 selected set (i): 1 1001 1 0110 w 0 w 1 w 2 w 3 (2) The tag bits in one of the cache lines must match the tag bits in the address m-1 =? t bits 0110 tag s bits b bits i 100 0 set index block offset (3) If (1) and (2), then cache hit, and block offset selects starting byte. [BO11] A. Mäder 1177

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache: bereichsassoziativ / set associative (cont.) Prinzip [Fur01] A. Mäder 1178

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache: voll-assoziativ jeder Adresse des Speichers kann jede beliebige Cachezeile zugeordnet werden Spezialfall: nur ein Cachebereich S benötigt E-Vergleicher nur für sehr kleine Caches realisierbar A. Mäder 1179

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Dimensionierung Address A: t bits s bits b bits set 0: v v tag tag 0 0 1 1 B 1 B 1 m-1 <tag> <set index> <block offset> 0 set 1: v v tag tag 0 0 1 1 B 1 B 1 v tag 0 1 B 1 set S-1: v tag 0 1 B 1 Parameter: S, B, E [BO11] A. Mäder 1180

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Dimensionierung (cont.) Cache speichert immer größere Blöcke / Cache-Line Wortauswahl durch block offset in Adresse + nutzt räumliche Lokalität aus + Breite externe Datenbusse + nutzt Burst-Adressierung des Speichers: Adresse nur für erstes Wort vorgeben, dann automatisches Inkrement + kürzere interne Cache-Adressen A. Mäder 1181

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Dimensionierung (cont.) Cache- und Block-Dimensionierung Blockgröße klein, viele Blöcke + kleinere Miss-Penalty + temporale Lokalität räumliche Lokalität Blockgröße groß, wenig Blöcke größere Miss-Penalty temporale Lokalität + räumliche Lokalität [PH11] A. Mäder 1182

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Dimensionierung (cont.) 25% 20% 1k 4k 16k 64k 256k Miss rate 15% 10% 5% 0% 16 32 64 128 256 Block size Block-Size: 32... 128 Byte L1-Cache: 4... 256 KiByte L2-Cache: 256... 4096 KiByte [HP11] A. Mäder 1183

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Dimensionierung (cont.) zusätzliche Software-Optimierungen Ziel: Cache Misses reduzieren Schleifen umsortieren, verschmelzen... Datenstrukturen zusammenfassen... A. Mäder 1184

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Ersetzungsstrategie Wenn der Cache gefüllt ist, welches Datum wird entfernt? zufällige Auswahl LRU (Least Recently Used): der älteste nicht benutzte Cache Eintrag echtes LRU als Warteschlange realisiert Pseudo LRU mit baumartiger Verwaltungsstruktur: Zugriff wird paarweise mit einem Bit markiert, die Paare wieder zusammengefasst usw. LFU (Least Frequently Used): der am seltensten benutzte Cache Eintrag durch Zugriffszähler implementiert A. Mäder 1185

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Schreibstrategie Wann werden modifizierte Daten des Cache zurückgeschrieben? Write-Through: beim Schreiben werden Daten sofort im Cache und im Hauptspeicher modifiziert + andere Bus-Master sehen immer den richtigen Speicherinhalt: Cache-Kohärenz Werte werden unnötig oft in Speicher zurückgeschrieben Write-Back: erst in den Speicher schreiben, wenn Datum des Cache ersetzt werden würde + häufig genutzte Werte (z.b. lokale Variablen) werden nur im Cache modifiziert Cache-Kohärenz ist nicht gegeben spezielle Befehle für Cache-Flush non-cacheable Speicherbereiche A. Mäder 1186

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Kohärenz Daten zwischen Cache und Speicher konsistent halten notwendig wenn auch andere Einheiten (Bus-Master) auf Speicher zugreifen können (oder Mehrprozessorsysteme!) Harvard-Architektur hat getrennte Daten- und Instruktions-Speicher: einfacherer Instruktions-Cache Instruktionen sind read-only kein Cache-Kohärenz Problem Snooping Cache lauscht am Speicherbus externer Schreibzugriff Cache aktualisieren / ungültig machen externer Lesezugriff Cache liefert Daten A. Mäder 1187

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Kohärenz (cont.) MESI Protokoll besitzt zwei Statusbits für die Protokollzustände Modified: Inhalte der Cache-Line wurden modifiziert Exclusive unmodified: Cache-Line gehört dieser CPU, nicht modifiz. Shared unmodified: Inhalte sind in mehreren Caches vorhanden Invalid: ungültiger Inhalt, Initialzustand A. Mäder 1188

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Kohärenz (cont.) Zustandsübergänge für Bus Master CPU Write Miss Read Hit, Write Hit Invalid Write Miss[1] I M Modified Exclusive Shared Read Miss Exclusive Read Miss Shared Read Miss [3] Exclus ve Read Miss [3] Write Hit Write Hit [2] Shared Unmodified Exclusive Read Miss [3] S E Shared Read Miss [3] Exclusive Unmodified Read Hit / Shared Read miss Read Hit / Exclus ve Read miss [1] = Read with intent to modify [2] = Invalidation Bus Transaction [3] = Address tag miss = Snoop response A. Mäder 1189

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache Kohärenz (cont.) Zustandsübergänge für Snooping CPU Snoop Hit on Write [4] or on Read w.i.t.m. [4] I Invalid M Modified Exclusive Snoop Hit on Read [4} Snoop Hit on Write or on Read w.i.t.m. or on Invalidation Snoop Hit on Write or on Read w.i.t.m. S Shared Unmodified Snoop Hit on Read E Exclusive Unmodified Snoop Hit on Read [4] = Copy back of modified data A. Mäder 1190

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Optimierung der Cachezugriffe Mittlere Speicherzugriffszeit = T Hit + R Miss T Miss Verbesserung der Cache Performanz durch kleinere T Miss am einfachsten zu realisieren mehrere Cache Ebenen Critical Word First: bei großen Cache Blöcken (mehrere Worte) gefordertes Wort zuerst holen und gleich weiterleiten Read-Miss hat Priorität gegenüber Write-Miss Zwischenspeicher für Schreiboperationen (Write Buffer) Merging Write Buffer: aufeinanderfolgende Schreiboperationen zwischenspeichern und zusammenfassen Victim Cache: kleiner voll-assoziativer Cache zwischen direct-mapped Cache und nächster Ebene sammelt verdrängte Cache Einträge A. Mäder 1191

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Optimierung der Cachezugriffe (cont.) Verbesserung der Cache Performanz durch kleinere R Miss größere Caches ( mehr Hardware) höhere Assoziativität ( langsamer) Optimierungstechniken Software Optimierungen Prefetch: Hardware (Stream Buffer) Software (Prefetch Operationen) Cache Zugriffe in Pipeline verarbeiten Trace Cache: im Instruktions-Cache werden keine Speicherinhalte, sondern ausgeführte Sequenzen (trace) einschließlich ausgeführter Sprünge gespeichert Beispiel: NetBurst Architektur (Pentium 4) A. Mäder 1192

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Chiplayout ARM7 / ARM10 IBOX: Steuerwerk (instruction fetch und decode) EBOX: Operationswerk, ALU, Register (execute) IMMU/DMMU: Virtueller Speicher (instruction/data TLBs) ICACHE: Instruction Cache DCACHE: Data Cache A. Mäder 1193

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Chiplayout (cont.) A. Mäder 1194

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Chiplayout (cont.) A. Mäder 1195

18.3 Speicherhierarchie - Cache Speicher 64-040 Rechnerstrukturen Cache vs. Programmcode Programmierer kann für maximale Cacheleistung optimieren Datenstrukturen werden fortlaufend alloziert 1. durch entsprechende Organisation der Datenstrukturen 2. durch Steuerung des Zugriffs auf die Daten Geschachtelte Schleifenstruktur Blockbildung ist eine übliche Technik Systeme bevorzugen einen Cache-freundlichen Code Erreichen der optimalen Leistung ist plattformspezifisch Cachegrößen, Zeilengrößen, Assoziativität etc. generelle Empfehlungen working set klein zeitliche Lokalität kleine Adressfortschaltungen ( strides ) räumliche Lokalität A. Mäder 1196

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Virtueller Speicher Motivation Speicher-Paradigmen Programmierer ein großer Adressraum linear adressierbar Betriebssystem eine Menge laufender Tasks / Prozesse read-only Instruktionen read-write Daten Konsequenz virtueller Speicher umfasst drei Aspekte der (teilweise) widersprüchlichen Anforderungen an Speicher A. Mäder 1197

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Virtueller Speicher Motivation (cont.) 1. Benutzung der Festplatte als zusätzlichen Hauptspeicher Prozessadressraum kann physikalische Speichergröße übersteigen Summe der Adressräume mehrerer Prozesse kann physikalischen Speicher übersteigen 2. Vereinfachung der Speicherverwaltung viele Prozesse liegen im Hauptspeicher jeder Prozess mit seinem eigenen Adressraum (0... n) nur aktiver Code und Daten sind tatsächlich im Speicher bedarfsabhängige, dynamische Speicherzuteilung 3. Bereitstellung von Schutzmechanismen ein Prozess kann einem anderen nicht beeinflussen sie operieren in verschiedenen Adressräumen Benutzerprozess hat keinen Zugriff auf privilegierte Informationen jeder virtuelle Adressraum hat eigene Zugriffsrechte A. Mäder 1198

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Festplatte erweitert Hauptspeicher 1 MB: ~ 5 SRAM 1GB: ~5 DRAM 1 TB: ~40 Disk [BO11] Vollständiger Adressraum zu groß DRAM ist Cache 32-bit Adressen: 4 10 9 Byte 4 Milliarden 64-bit Adressen: 16 10 16 Byte 16 Quintillionen Speichern auf Festplatte ist 125 billiger als im DRAM 1 TiB DRAM: 5 000 1 TiB Festplatte: 40 kostengünstiger Zugriff auf große Datenmengen A. Mäder 1199

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Ebenen in der Speicherhierarchie cache virtual memory CPU regs C 16 B a 64 B 4 KB Memory c h e disk size: speed: $/Mbyte: line size: Register Cache Memory Disk Memory 64 B 300 ps 16 B 32 KB-12MB 1 ns 5 /MB 64 B 8 GB 8 ns 5 /GB 4 KB 2 TB 4 ms 4 Ct./GB larger, slower, cheaper [BO11] A. Mäder 1200

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Ebenen in der Speicherhierarchie (cont.) Hauptspeicher als Cache für den Plattenspeicher CPU Register Files 1st-Level Cache External Processor Interface 2nd-Level Cache Main Memory Disk Storage Virtual memory Parameter der Speicherhierarchie 1st-Level Cache virtueller Speicher Blockgröße 16-128 Byte 4-64 KiByte Hit-Dauer 1-2 Zyklen 40-100 Zyklen Miss Penalty 8-100 Zyklen 70 000-6 000 000 Zyklen Miss Rate 0,5-10 % 0,00001-0,001 % Adressraum 14-20 bit 25-45 bit A. Mäder 1201

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Ebenen in der Speicherhierarchie (cont.) DRAM vs. Festplatte ist extremer als SRAM vs. DRAM Zugriffswartezeiten DRAM 10 langsamer als SRAM Festplatte 500 000 langsamer als DRAM Nutzung der räumlichen Lokalität wichtig erstes Byte 500 000 langsamer als nachfolgende Bytes SRAM DRAM Disk [BO11] A. Mäder 1202

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Prinzip des virtuellen Speichers jeder Prozess besitzt seinen eigenen virtuellen Adressraum Kombination aus Betriebssystem und Hardwareeinheiten MMU Memory Management Unit Umsetzung von virtuellen zu physikalischen Adressen, Programm-Relokation A. Mäder 1203

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Prinzip des virtuellen Speichers (cont.) Umsetzungstabellen werden vom Betriebssystem verwaltet wegen des Speicherbedarfs der Tabellen beziehen sich diese auf größere Speicherblöcke (Segmente oder Seiten) Umgesetzt wird nur die Anfangsadresse, der Offset innerhalb des Blocks bleibt unverändert Blöcke dieses virtuellen Adressraums können durch Betriebssystem auf Festplatte ausgelagert werden Windows: Auslagerungsdatei Unix/Linux: swap Partition und -Datei(en) Konzepte zur Implementation virtuellen Speichers Segmentierung Speicherzuordnung durch Seiten ( Paging ) gemischte Ansätze (Standard bei: Desktops, Workstations... ) A. Mäder 1204

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Virtueller Speicher: Segmentierung Unterteilung des Adressraums in kontinuierliche Bereiche variabler Größe 4000 1000 0 3000 400 0 Virtuelle Adresse pid = 1.data 1.text 1 pid = 2.data 2.text 2 MMU zur Laufzeit... phys. Mem..data 1.text 1.text 2.data 2 Physikalische Adresse... access rights 11000 address 10000 access trap 9600 = 3600 1000 0 upper bound Memory fragmentation > protection violation trap from processor virtual address R/W I/D S/U b f nt base of segment.data.text. + physical addr to memory pid = 1 A. Mäder 1205

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Virtueller Speicher: Segmentierung (cont.) Idee: Trennung von Instruktionen, Daten und Stack Abbildung von Programmen in den Hauptspeicher + Inhalt der Segmente: logisch zusammengehörige Daten + getrennte Zugriffsrechte, Speicherschutz + exakte Prüfung der Segmentgrenzen Segmente könne sehr groß werden Ein- und Auslagern von Segmenten kann sehr lange dauern Verschnitt / Memory Fragmentation A. Mäder 1206

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Virtueller Speicher: Paging / Seitenadressierung Unterteilung des Adressraums in Blöcke fester Größe = Seiten Abbildung auf Hauptspeicherblöcke = Kacheln Memory Virtual Addresses Page Table 0: 1: Physical Addresses 0: 1: CPU P-1: N-1: Disk [BO11] A. Mäder 1207

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Virtueller Speicher: Paging / Seitenadressierung (cont.) Abbildung von Adressen in den virtuellen Speicher + Programme können größer als der Hauptspeicher sein + Programme können an beliebige physikalischen Adressen geladen werden, unabhängig von der Aufteilung des physikalischen Speichers + feste Seitengröße: einfache Verwaltung in Hardware + Zugriffsrechte für jede Seite (read/write, User/Supervisor) + gemeinsam genutzte Programmteile/-Bibliotheken können sehr einfach in das Konzept integriert werden Windows:.dll-Dateien Unix/Linux:.so-Dateien A. Mäder 1208

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Virtueller Speicher: Paging / Seitenadressierung (cont.) große Miss-Penalty (Nachladen von der Platte) Seiten sollten relativ groß sein: 4... 64 KiByte Speicherplatzbedarf der Seitentabelle viel virtueller Speicher, 4 KiByte Seitengröße = sehr große Pagetable Hash-Verfahren (inverted page tables) mehrstufige Verfahren Linear Address 31 22 12 0 Directory Table Offset 12 Physical memory 486 TM CPU 31 0 CR0 CR2 CR2 CR3 dir_base Control registers 10 30 {} 20 10 31 0 {} base 20 Page directory 31 0 base 20 Page table {} Address A. Mäder 1209

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Virtueller Speicher: Segmentierung + Paging aktuell = Mischung: Segmentierung und Paging (seit I386) A. Mäder 1210

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Seitenfehler Seiten-Tabelleneintrag: Startadresse der virt. Seite auf Platte Daten von Festplatte in Speicher laden: Aufruf des Exception handler des Betriebssystems laufender Prozess wird unterbrochen, andere können weiterlaufen Betriebssystem kontrolliert die Platzierung der neuen Seite im Hauptspeicher (Ersetzungsstrategien) etc. Virtual Addresses CPU Page Table Physical Addresses Memory Virtual Addresses CPU Page Table Physical Addresses Memory Disk Disk [BO11] A. Mäder 1211

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Seitenfehler (cont.) Behandlung des Seitenfehlers 1. Prozessor signalisiert DMA-Controller lies Block der Länge P ab Festplattenadresse X speichere Daten ab Adresse Y in Hauptspeicher 2. Lesezugriff erfolgt als Direct Memory Access (DMA) Kontrolle durch I/O Controller 3. I/O Controller meldet Abschluss Gibt Interrupt an den Prozessor Betriebssystem lässt unterbrochenen Prozess weiterlaufen Processor Reg Cache Memory (1) Initiate Block Read Memory-I/O bus (2) DMA Transfer (3) Read Done I/O controller Disk Disk [BO11] A. Mäder 1212

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Separate virtuelle Adressräume Mehrere Prozesse können im physikalischen Speicher liegen Wie werden Adresskonflikte gelöst? Was passiert, wenn Prozesse auf dieselbe Adresse zugreifen? %esp kernel virtual memory stack memory invisible to user code Linux x86 Speicherorganisation Memory mapped region forshared libraries runtime heap (via malloc) the brk ptr uninitialized data (.bss) initialized data (.data) program text (.text) forbidden [BO11] 0 A. Mäder 1213

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Separate virtuelle Adressräume (cont.) Auflösung der Adresskonflikte jeder Prozess hat seinen eigenen virtuellen Adressraum Betriebssystem kontrolliert wie virtuelle Seiten auf den physikalischen Speicher abgebildet werden Virtual Address Space for Process 1: Virtual Address Space for Process 2: 0 N-1 0 N-1 VP 1 VP 2... VP 1 VP 2... Address Translation 0 M-1 PP 2 PP 7 PP 10 Physical Address Space (DRAM) (e.g., read/only library code) [BO11] A. Mäder 1214

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Virtueller Speicher Adressumsetzung Parameter P = 2 p = Seitengröße (Bytes) N = 2 n = Limit der virtuellen Adresse M = 2 m = Limit der physikalischen Adresse n 1 p p 1 0 virtual page number page offset virtual address address translation m 1 p p 1 0 physical page number page offset physical address [BO11] A. Mäder 1215

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Virtueller Speicher Adressumsetzung (cont.) virtuelle Adresse: Hit Processor a Hardware Addr Trans Mechanism a' Main Memory virtual address part of the physical address on-chip memory mgmt unit (MMU) [BO11] A. Mäder 1216

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Virtueller Speicher Adressumsetzung (cont.) virtuelle Adresse: Miss Processor a virtual address Hardware Addr Trans Mechanism a' page fault fault handler Main Memory part of the physical address on-chip memory mgmt unit (MMU) Secondary memory OS performs this transfer (only if miss) [BO11] A. Mäder 1217

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Seiten-Tabelle Virtual Page Number Memory resident page table (physical page or disk address) 1 1 0 1 1 1 0 1 0 1 Valid Physical Memory Disk Storage (swap file or regular file system file) [BO11] A. Mäder 1218

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Seiten-Tabelle (cont.) page table base register VPN acts as table index virtual address n 1 p p 1 0 virtual page number (VPN) page offset valid access physical page number (PPN) if valid=0 then page not in memory m 1 p p 1 physical page number (PPN) page offset physical address 0 [BO11] A. Mäder 1219

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Seiten-Tabelle (cont.) separate Seiten-Tabelle für jeden Prozess VPN ( Virtual Page Number ) bildet den Index der Seiten-Tabelle zeigt auf Seiten-Tabelleneintrag Seiten-Tabelleneintrag liefert Informationen über die Seite Daten im Hauptspeicher: valid-bit valid-bit = 1: die Seite ist im Speicher benutze physikalische Seitennummer ( Physical Page Number ) zur Adressberechnung valid-bit = 0: die Seite ist auf der Festplatte Seitenfehler page table base register VPN acts as table index virtual address n 1 p p 1 0 virtual page number (VPN) page offset valid access physical page number (PPN) if valid=0 then page not in memory m 1 p p 1 physical page number (PPN) page offset 0 A. Mäder physical address 1220

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Zugriffsrechte Schutzüberprüfung Zugriffsrechtefeld gibt Zugriffserlaubnis an z.b. read-only, read-write, execute-only typischerweise werden zahlreiche Schutzmodi unterstützt Schutzrechteverletzung wenn Prozess/Benutzer nicht die nötigen Rechte hat bei Verstoß erzwingt die Hardware den Schutz durch das Betriebssystem ( Trap / Exception ) A. Mäder 1221

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Zugriffsrechte (cont.) Process i: VP 0: VP 1: VP 2: Page Tables Read? Write? Yes Yes No No Yes No Physical Addr PP 9 PP 4 XXXXXXX 0: 1: Memory Process j: Read? Write? VP 0: Yes Yes VP 1: Yes No VP 2: No No Physical Addr PP 6 PP 9 XXXXXXX N-1: [BO11] A. Mäder 1222

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Integration von virtuellem Speicher und Cache CPU VA PA miss Translation Cache data hit Main Memory [BO11] Die meisten Caches werden physikalisch adressiert Zugriff über physikalische Adressen mehrere Prozesse können, gleichzeitig Blöcke im Cache haben " sich Seiten teilen Cache muss sich nicht mit Schutzproblemen befassen Zugriffsrechte werden als Teil der Adressumsetzung überprüft Die Adressumsetzung wird vor dem Cache Lookup durchgeführt kann selbst Speicherzugriff (auf den PTE) beinhalten Seiten-Tabelleneinträge können auch gecacht werden A. Mäder 1223

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen TLB / Translation Lookaside Buffer Beschleunigung der Adressumsetzung für virtuellen Speicher kleiner Hardware Cache in MMU (Memory Management Unit) bildet virtuelle Seitenzahlen auf physikalische ab enthält komplette Seiten-Tabelleneinträge für wenige Seiten CPU hit VA PA miss TLB Lookup Cache Main Memory miss hit Translation data [BO11] A. Mäder 1224

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen TLB / Translation Lookaside Buffer (cont.) n 1 p p 1 0 virtual page number page offset virtual address valid tag physical page number... TLB TLB hit = physical address tag index valid tag data byte offset Cache cache hit = data [BO11] A. Mäder 1225

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen mehrstufige Seiten-Tabellen Gegeben 4 KiB (2 12 ) Seitengröße 32-Bit Adressraum 4-Byte PTE ( Page Table Entry ) Seitentabelleneintrag Problem erfordert 4 MiB Seiten-Tabelle 2 20 Bytes übliche Lösung mehrstufige Seiten-Tabellen ( multi-level ) z.b. zweistufige Tabelle (Pentium P6) Ebene-1: 1024 Einträge Ebene-2 Tabelle Ebene-2: 1024 Einträge Seiten Level 1 Table [BO11] Level 2 Tables... A. Mäder 1226

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen mehrstufige Seiten-Tabellen (cont.) Page Directory P=1, M=1 P=1, M=1 P=0, M=0 P=0, M=1 PT 3 PT 2 PT 0 P=1, M=1 P=0, M=0 P=1, M=1 P=0, M=1 P=1, M=1 P=0, M=0 P=1, M=1 P=0, M=1 P=0, M=1 P=0, M=1 P=0, M=0 P=0, M=0 Page 15 Page 14 Page 13 Page 12 Page 11 Page 10 Page 9 Page 8 Page 7 Page 6 Page 5 Mem Addr Page 4 Disk Addr Page 3 In Mem Page 2 On Disk Page 1 Unmapped Page 0 [BO11] A. Mäder 1227

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Beispiel: Pentium und Linux 32-bit Adressraum 4 KiB Seitengröße L1, L2 TLBs 4fach assoziativ Instruktions TLB 32 Einträge 8 Sets Daten TLB 64 Einträge 16 Sets L1 I-Cache, D-Cache 16 KiB 32 B Cacheline 128 Sets L2 Cache Instr.+Daten zusammen 128 KiB... 2 MiB DRAM bus interface unit instruction fetch unit processor package external system bus (e.g. PCI) L2 cache L1 i-cache cache bus inst TLB data TLB L1 d-cache [BO11] A. Mäder 1228

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Beispiel: Pentium und Linux (cont.) 10 VPN1 word offset into page directory page directory 10 12 VPN2 VPO word offset into page table page table Virtual address word offset into physical and virtual page PDBR physical address of page directory PDE PTE physical address of page table base (if P=1) physical address of page base (if P=1) 20 PPN 12 PPO Physical address [BO11] A. Mäder 1229

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Beispiel: Pentium und Linux (cont.) CPU 32 result L2 and DRAM 20 12 VPN VPO 16 4 TLBT TLBI virtual address (VA) L1 hit L1 miss TLB miss... TLB hit L1 (128 sets, 4 lines/set)... 10 10 VPN1 VPN2 TLB (16 sets, 4 entries/set) 20 12 PPN PPO 20 7 5 CT CI CO PDE PTE physical address (PA) PDBR Page tables [BO11] A. Mäder 1230

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Zusammenfassung Cache Speicher Dient nur zur Beschleunigung Verhalten unsichtbar für Anwendungsprogrammierer und OS Komplett in Hardware implementiert A. Mäder 1231

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Zusammenfassung (cont.) Virtueller Speicher Ermöglicht viele Funktionen des Betriebssystems Prozesse erzeugen ( exec / fork ) Taskwechsel Schutzmechanismen Implementierung mit Hardware und Software Software verwaltet die Tabellen und Zuteilungen Hardwarezugriff auf die Tabellen Hardware-Caching der Einträge (TLB) A. Mäder 1232

18.4 Speicherhierarchie - Virtueller Speicher 64-040 Rechnerstrukturen Zusammenfassung (cont.) Sicht des Programmierers großer flacher Adressraum kann große Blöcke benachbarter Adressen zuteilen Prozessor besitzt die gesamte Maschine hat privaten Adressraum bleibt unberührt vom Verhalten anderer Prozesse Sicht des Systems Virtueller Adressraum von Prozessen durch Abbildung auf Seiten muss nicht fortlaufend sein wird dynamisch zugeteilt erzwingt Schutz bei Adressumsetzung Betriebssystem verwaltet viele Prozesse gleichzeitig ständiger Wechsel zwischen Prozessen vor allem wenn auf Ressourcen gewartet werden muss A. Mäder 1233

18.5 Speicherhierarchie - Literatur 64-040 Rechnerstrukturen Literatur [BO11] R.E. Bryant, D.R. O Hallaron: Computer systems A programmers perspective. 2nd edition, Pearson, 2011. ISBN 0 13 713336 7 Grafiken z.t. aus: Foliensatz [HP11] J.L. Hennessy, D.A. Patterson: Computer architecture A quantitative approach. 5th edition, Morgan Kaufmann, 2011. ISBN 978 0 12 383872 8 A. Mäder 1234

18.5 Speicherhierarchie - Literatur 64-040 Rechnerstrukturen Literatur (cont.) [PH11] D.A. Patterson, J.L. Hennessy: Rechnerorganisation und -entwurf Die Hardware/Software-Schnittstelle. 4. Auflage, Oldenbourg Verlag, 2011. ISBN 978 3 486 58190 3 [PH12] D.A. Patterson, J.L. Hennessy: Computer Organization and Design The Hardware/Software Interface. 4th rev. edition, Morgan Kaufmann Publishers, 2012. ISBN 978 0 12 374750 1 Grafiken z.t. aus: Foliensatz A. Mäder 1235