Modul IP7: Rechnerstrukturen

Ähnliche Dokumente
Virtueller Speicher und Memory Management

Modul IP7: Rechnerstrukturen

Technische Informatik 1 - HS 2017

Speicher. Speicher. Speicherhierarchie. Speicher. Interessante Zahlen:

Quiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset.

In heutigen Computern findet man schnellen/teuren als auch langsamen/billigen Speicher

RO-Tutorien 15 und 16

Modul InfB-RS: Rechnerstrukturen

Cache Blöcke und Offsets

Modul IP7: Rechnerstrukturen

Zwei Möglichkeiten die TLB zu aktualisieren

Modul InfB-RS: Rechnerstrukturen

é Er ist software-transparent, d.h. der Benutzer braucht nichts von seiner Existenz zu wissen. Adreßbus Cache- Control Datenbus

Vorlesung: Rechnerstrukturen, Teil 2 (Modul IP7)

Grob-Struktur des Prozessor-Speichersystems

Wie groß ist die Page Table?

Grundlagen der Rechnerarchitektur

Tutorium Rechnerorganisation

Virtueller Speicher. SS 2012 Grundlagen der Rechnerarchitektur Speicher 44

Rechnerorganisation. 1. Juni 201 KC Posch

Besprechung des 9. Übungsblattes Virtuelle Speicherverwaltung Aufgaben

Betriebssysteme Teil 10 B: Fragen rund um Seitenfehler

, 2014W Übungsgruppen: Mo., Mi.,

Schreiben von Pages. Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen).

Besprechung des 8. Übungsblattes Einführung in Caches Cache-Organisation Cache-Ersetzungsstrategien Aufgaben (an der Tafel) Testklausur

Teil 2: Speicherstrukturen

Rechnernetze und Organisation

Konzepte von Betriebssystemkomponenten Referat am Thema: Adressräume, Page Faults, Demand Paging, Copy on Write Referent: Johannes Werner

Rechnergrundlagen SS Vorlesung

Einführung in die technische Informatik

Grundlagen der Informatik III Wintersemester 2010/ Vorlesung Dr.-Ing. Wolfgang Heenes

Technische Informatik 2 Speichersysteme, Teil 3

Paging. Einfaches Paging. Paging mit virtuellem Speicher

CPU. Memory. Highest. Fastest. Smallest. Memory. Biggest. Lowest

Linux Paging, Caching und Swapping

Leichtgewichtsprozesse

Leichtgewichtsprozesse

Cache. Dr.-Ing. Volkmar Sieh. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg SS 2011

Technische Informatik II Wintersemester 2002/03 Sommersemester Heiko Holtkamp

Linker: Adreßräume verknüpfen. Informationen über einen Prozeß. Prozeß-Erzeugung: Verwandtschaft

4.3 Hintergrundspeicher

Wunschvorstellung der Entwickler vom Speicher

Grundlagen der Informatik III Wintersemester 2010/2011

Main Memory. Hauptspeicher. Memories. Speichermodule. SIMM: single inline memory module 72 Pins. DIMM: dual inline memory module 168 Pins

6 Exkurs: Assoziativspeicher (2) 6 Exkurs: Assoziativspeicher. 7.1 Speicherhierarchie. 7 Caches

Speicherorganisation

Echtzeitbetriebssysteme

Aufgabe 4 : Virtueller Speicher

RO-Tutorien 17 und 18

Hauptspeicherverwaltung - Memory Management

Arithmetische und Logische Einheit (ALU)

Lösung von Übungsblatt 2

Enterprise Computing Einführung in das Betriebssystem z/os. Prof. Dr. Martin Bogdan Prof. Dr.-Ing. Wilhelm G. Spruth WS2012/13

Rechnerstrukturen Winter SPEICHER UND CACHE. (c) Peter Sturm, University of Trier 1

Überschrift. Speicherverwaltung. Prof. Dr. Margarita Esponda Freie Universität Berlin 2011/2012

Cache II. Dr.-Ing. Volkmar Sieh. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg SS 2011

Systeme I: Betriebssysteme Kapitel 8 Speicherverwaltung

Proseminar Konzepte von Betriebssystem- Komponenten (KVBK) Vortrag zum Thema: Speicheraddressierung, Segmentierung, Paging

Algorithm Engineering. Alexander Kröller, Abteilung Algorithmik, IBR

Technische Informatik 1 - Übung & 22. Dezember Philipp Miedl

Tutorium Rechnerorganisation

Rechnerarchitektur. Vorlesungsbegleitende Unterlagen. WS 2003/2004 Klaus Waldschmidt

Digital Design Entwicklung der DRAMs. Richard Roth / FB Informatik und Mathematik Speicher 1

(Prof. Dr. J. Schlichter, WS 2011 / 2012) Übungsleitung: Dr. Wolfgang Wörndl

Mikroprozessortechnik Grundlagen 1

Vorlesung 14 Speichersysteme (2)

RAM. Konsistenzprobleme entstehen => CPU - durch Verzögerung in Warteschlange, Umfangreiche Pufferung in den PCI Brücken. lesen. EOP-Signal.

Freispeicherverwaltung Martin Wahl,

Teil VIII Von Neumann Rechner 1

Betriebssysteme I WS 2016/2017. Betriebssysteme / verteilte Systeme Tel.: 0271/ , Büro: H-B 8404

Grundlagen der Informatik III Wintersemester 2010/ Vorlesung Dr.-Ing. Wolfgang Heenes

7. Speicherverwaltung

Grundlagen der Informatik III Wintersemester 2010/2011

2. Ansatzpunkt: Reduktion der Penalty Early Restart und critical word first

Technische Informatik I. Übung 3 Speicherhierarchie. v t d 0 d 1 d 2 d Technische Informatik I Übung 3. Technische Informatik I Übung 3

(Cache-Schreibstrategien)

CA Übung Christian kann heute nicht kommen => ich bin heute da, Christian das nächste Mal wieder

Das Konzept der Speicherhierarchie

Betriebssysteme Sommersemester Betriebssysteme. 5. Kapitel. Adressumsetzung. Dr. Peter Tröger / Prof. M. Werner. Professur Betriebssysteme

CPU Speicher I/O. Abbildung 11.1: Kommunikation über Busse

Speicher- und Cacheverwaltung unter Linux. Ralf Petring & Guido Schaumann

5 Kernaufgaben eines Betriebssystems (BS)

, WS2012 Übungsgruppen: Mo., Do.,

Ein- und Ausgabegeräte

Tutorium Rechnerorganisation

2.2 Rechnerorganisation: Aufbau und Funktionsweise

Proseminar Konzepte von Betriebssystem-Komponenten (KVBK) Vortrag zum Thema: Speicheraddressierung, Segmentierung, Paging Von Christian Hubert

Rechnerorganisation. Überblick über den Teil 13

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.

RO-Tutorien 3 / 6 / 12

Kapitel VI. Speicherverwaltung. Speicherverwaltung

Technische Informatik 2 Speichersysteme, Teil 2

Memory Management. Peter Puschner Institut für Technische Informatik

Freispeicherverwaltung

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen.

Übung zu Einführung in die Informatik # 10

2.3 Prozessverwaltung

Transkript:

64-040 Modul IP7: 4 Speicherhierarchie Norman Hendrich Universität Hamburg MIN Fakultät, Department Informatik Vogt-Kölln-Str. 30, D-22527 Hamburg hendrich@informatik.uni-hamburg.de WS 203/204 Norman Hendrich

Inhalt Universität Hamburg. Die Speicherhierarchie Motivation und Konzept SRAM-DRAM Cache Virtueller Speicher Festplatten RAID CD-ROM und DVD Norman Hendrich 2

Die Speicherhierarchie - Motivation und Konzept Speicherhierarchie: Konzept Smaller, faster, and costlier (per byte) storage devices Larger, slower, and cheaper (per byte) storage devices L5: L4: L3: L2: L0: registers L: on-chip L cache (SRAM) off-chip L2 cache (SRAM) main memory (DRAM) local secondary storage (local disks) remote secondary storage (distributed file systems, Web servers) CPU registers hold words retrieved from L cache. L cache holds cache lines retrieved from the L2 cache memory. L2 cache holds cache lines retrieved from main memory. Main memory holds disk blocks retrieved from local disks. Local disks hold files retrieved from disks on remote network servers. Norman Hendrich 3

Die Speicherhierarchie - Motivation und Konzept Speicherhierarchie: Konzept Gesamtsystem kombiniert verschiedene Speicher wenige kbyte Register (-bank) im Prozessor einige MByte SRAM als schneller Zwischenspeicher einige GByte DRAM als Hauptspeicher einige TByte Festplatte als nichtflüchtiger Speicher Hintergrundspeicher (CD/DVD/BR, Magnetbänder) das WWW und Cloud-Services Kompromiss aus Kosten, Kapazität, Zugriffszeit Illusion aus großem schnellem Speicher funktioniert nur wegen räumlicher/zeitlicher Lokalität Norman Hendrich 4

Die Speicherhierarchie - Motivation und Konzept L0: Register Register im Prozessor integriert Program-Counter und Datenregister für Programmierer sichtbar ggf. weitere Register für Systemprogrammierung zusätzliche unsichtbare Register im Steuerwerk Flipflops oder Registerbank mit 6T-Speicherzellen Lesen und Schreiben in jedem Takt möglich ggf. mehrere parallele Lesezugriffe in jedem Takt Zugriffszeiten ca. 00 ps typ. Größe einige kbyte, z.b. 32 Register á 32-bit Norman Hendrich 5

Die Speicherhierarchie - Motivation und Konzept L-L3: Halbleiterspeicher: SRAM und DRAM Random-Access Memory aufgebaut aus Mikrochips SRAM (6T-Zelle) oder DRAM (T-Zelle) Technologie mehrere RAM Chips bilden einen Speicher Norman Hendrich 6

Die Speicherhierarchie - Motivation und Konzept L4: Festplatten dominierende Technologie für nichtflüchtigen Speicher hohe Speicherkapazität, derzeit ca. TB Daten bleiben beim Abschalten erhalten aber langsamer Zugriff besondere Algorithmen, um langsamen Zugriff zu verbergen Einsatz als Speicher für dauerhafte Daten Einsatz als erweiterter Hauptspeicher ( virtual memory ) FLASH/SSD zunehmend als Ersatz für Festplatten Halbleiterspeicher mit sehr effizienten multibit-zellen Verwaltung (derzeit) wie Festplatten signifikant schnellere Zugriffszeiten Norman Hendrich 7

Die Speicherhierarchie - Motivation und Konzept L5: Hintergrundspeicher Archivspeicher und Backup für (viele) Festplatten Magnetbänder RAID-Verbund aus mehreren Festplatten optische Datenspeicher: CD-ROM, DVD-ROM, BlueRay WWW und Internet-Services, Cloud-Services enorme Speicherkapazität langsame Zugriffszeiten Cloud-Farms ggf. ähnlich schnell wie L4 Festplatten, da Netzwerk schneller als der Zugriff auf eine lokale Festplatte in dieser Vorlesung nicht behandelt Norman Hendrich 8

Die Speicherhierarchie - Motivation und Konzept Speicherhierarchie: zwei Beispiele Norman Hendrich 9

Die Speicherhierarchie - SRAM-DRAM Wiederholung: Halbleiterspeicher SRAM statisches RAM jede Zelle speichert Bits mit einer 6-Transistor Schaltung speichert Wert solange es mit Energie versorgt wird unanfällig für Störungen wie elektrische Brummspannungen schneller und teurer als DRAM DRAM dynamisches RAM ein Kondensator und ein Transistor pro Zelle der Wert muss alle 0-00 ms aufgefrischt werden anfällig für Störungen langsamer und billiger als SRAM Norman Hendrich 0

Die Speicherhierarchie - SRAM-DRAM SRAM vs. DRAM SRAM DRAM Zugriffszeit 5... 50 ns 60... 00 ns t rac 20... 300 ns t cac 0... 80 ns t cyc Leistungsaufnahme 200... 300 mw 300... 600 mw Speicherkapazität < 72 Mbit < 4 Gbit Preis 0 /Mbit 0, Ct./Mbit Tran. Access per bit time Persist? Sensitive? Cost Applications SRAM 6 X Yes No 00x cache memories DRAM 0X No Yes X Main memories, frame buffers Norman Hendrich

Die Speicherhierarchie - SRAM-DRAM DRAM Organisation (d w) DRAM: organisiert als d-superzellen mit w-bits 6 x 8 DRAM chip cols 0 2 3 (to CPU) memory controller 2 bits / addr 8 bits / data 0 rows 2 3 supercell (2,) internal row buffer Norman Hendrich 2

Die Speicherhierarchie - SRAM-DRAM Beispiel: Lesen der DRAM Zelle (2,).a Row Access Strobe (RAS) wählt Zeile 2.b Zeile aus DRAM Array in Zeilenpuffer ( Row Buffer ) kopieren memory controller RAS = 2 2 / addr 6 x 8 DRAM chip 0 rows 2 cols 0 2 3 8 / data 3 internal row buffer Norman Hendrich 3

Die Speicherhierarchie - SRAM-DRAM Beispiel: Lesen der DRAM Zelle (2,) 2.a Column Access Strobe (CAS) wählt Spalte 2.b Superzelle (2,) aus Buffer lesen und auf Datenleitungen legen To CPU supercell (2,) memory controller CAS = 2 / addr 8 / data 6 x 8 DRAM chip 0 rows 2 3 cols 0 2 3 supercell (2,) internal row buffer Norman Hendrich 4

Die Speicherhierarchie - SRAM-DRAM Speichermodule addr (row = i, col = j) DRAM 7 DRAM 0 : supercell (i,j) 64 MB memory module consisting of eight 8Mx8 DRAMs bits bits 56-63 48-55 bits 40-47 bits 32-39 bits 24-3 bits 6-23 bits 8-5 bits 0-7 63 56 55 48 47 40 39 32 3 24 23 6 5 8 7 64-bit doubleword at main memory address A 0 Memory controller 64-bit doubleword Norman Hendrich 5

Die Speicherhierarchie - SRAM-DRAM Bussysteme verbinden CPU und Speicher Systembus im Rechner zur Übertragung von Adressen, Daten und Kontrollsignalen zum Anschluß von mehreren Geräten genutzt ggf. getrennte Busse für Hauptspeicher und Peripherie CPU chip register file ALU system bus memory bus bus interface I/O bridge main memory Norman Hendrich 6

Die Speicherhierarchie - SRAM-DRAM Lesender Speicherzugriff (). CPU legt Adresse A auf den Speicherbus register file Load operation: movl A, %eax %eax ALU bus interface I/O bridge A main memory 0 x A Norman Hendrich 7

Die Speicherhierarchie - SRAM-DRAM Lesender Speicherzugriff (2) 2.a Hauptspeicher liest Adresse A vom Speicherbus 2.b Hauptspeicher ruft das Wort x unter der Adresse A ab 2.c Hauptspeicher legt das Wort x auf den Bus register file Load operation: movl A, %eax %eax ALU bus interface I/O bridge main memory x 0 x A Norman Hendrich 8

Die Speicherhierarchie - SRAM-DRAM Lesender Speicherzugriff (3) 3.a CPU liest Wort x vom Bus 3.b CPU kopiert Wert x in Register %eax register file Load operation: movl A, %eax %eax x ALU I/O bridge main memory 0 bus interface x A Norman Hendrich 9

Die Speicherhierarchie - SRAM-DRAM Schreibender Speicherzugriff (+2) CPU legt die Adresse A auf den Bus 2.b Hauptspeicher liest Adresse 2.c Hauptspeicher wartet auf Ankunft des Datenworts register file Store operation: movl %eax, A %eax y ALU bus interface I/O bridge A main memory 0 A Norman Hendrich 20

Die Speicherhierarchie - SRAM-DRAM Schreibender Speicherzugriff (3) 3. CPU legt Datenwort y auf den BusA register file Store operation: movl %eax, A %eax y ALU bus interface I/O bridge y main memory 0 A Norman Hendrich 2

Die Speicherhierarchie - SRAM-DRAM Schreibender Speicherzugriff (4) 4.a Hauptspeicher liest Datenwort y vom Bus 4.b Hauptspeicher speichert Datenwort y unter Adresse A register file Store operation: movl %eax, A %eax y ALU I/O bridge main memory 0 bus interface y A Norman Hendrich 22

Die Speicherhierarchie - SRAM-DRAM DMA: Direct Memory Access beim Transfer größerer Datenmengen: separaten DMA-Controller initialisieren und verwenden autonomer Transfer ohne Beteiligung der CPU CPU via Interrupt benachrichtigt, sobald Transfer komplett Prozess läuft ohne Beteiligung des Prozessors Rechner kann währenddessen andere Programme bearbeiten Norman Hendrich 23

Die Speicherhierarchie - Cache Cache Prozessor läuft mit ca. GHz Takt Register können mithalten, aber nur einige kbyte Kapazität DRAM braucht 60..00 ns für einen Zugriff: 00 langsamer Festplatte braucht 0 ms für einen Zugriff: 000 000 langsamer aufeinanderfolgende Speicherzugriffe sind meistens lokal Themen Prinzip und Organisation von Cache-Speicher direkt abgebildete Caches ( direct mapped ) bereichsassoziative Caches ( set associative ) Einfluss der Caches auf die Leistung Norman Hendrich 24

Die Speicherhierarchie - Cache Verwaltung der Speicherhierarchie Register Memory Compiler Assembler-Programmierer Cache Memory Hardware Memory Disk Hardware und Betriebssystem (Virtual Memory, Paging) Programmierer (Files) Norman Hendrich 25

Die Speicherhierarchie - Cache CS420/520 memory.3 UC. Colorado Springs Adapted from UCB97 & UCB03 Speicherhierarchie: Memory Wall Memory Wall : DRAM zu langsam für CPU Who Cares About the Memory Hierarchy? Performance 0000 000 00 0 980 98 982 983 984 985 986 Processor-DRAM Memory Gap (latency) Moore s Law 987 988 989 990 99 992 993 994 Year µproc 55%/yr. (2X/.5yr) DRAM 7-9%/yr. (2X/0 yrs) Norman Hendrich CS420/520 26 memory.4 UC. Colorado Springs Adapted from UCB97 & UCB03 995 CPU Processor-Memory Performance Gap: (grows 50% / year) DRAM 996 997 998 999 2000 200 2002 2003 2004 2005

Die Speicherhierarchie - Cache Cache: schneller Zwischenspeicher zum Hauptspeicher technische Realisierung: SRAM transparenter Speicher Cache ist für den Programmierer nicht sichtbar! wird durch Hardware verwaltet http://de.wikipedia.org/wiki/cache enthält Hauptspeicherblöcke mit erhöhter Zugriffswahrscheinlichkeit ggf. getrennte Caches für Befehle und Daten basiert auf Prinzip der Lokalität 80% der Zugriffe greifen auf 20% der Adressen zu manchmal auch 90% / 0% oder noch besser Norman Hendrich 27

Die Speicherhierarchie - Cache Cache: Funktionsprinzip CPU referenziert Adresse parallele Suche in L (level ), L2... und Hauptspeicher erfolgreiche Suche liefert Datum, Abbruch laufender Suchen CPU chip register file L ALU cache cache bus system bus memory bus L2 cache bus interface I/O bridge main memory Norman Hendrich 28

Die Speicherhierarchie - Cache Unified-Cache: gemeinsam für Befehle und Daten Norman Hendrich 29

Die Speicherhierarchie - Cache Separate Instruction-/Data-Caches Norman Hendrich 30

Die Speicherhierarchie - Cache Cache: Strategie Welche Daten sollen in den Cache? diejenigen, die bald wieder benötigt werden! temporale Lokalität: die Daten, die zuletzt häufig gebraucht wurden räumliche Lokalität: die Daten, die nahe den zuletzt gebrauchten liegen verschiedene Platzierungs-, Ersetzungs- und Rückschreibestategien für den Cache Norman Hendrich 3

Die Speicherhierarchie - Cache Cache: Performance Begriffe Treffer (Hit) Zugriff auf Datum, ist bereits im Cache Fehler (Miss) Zugriff auf Datum, ist nicht Treffer-Rate R Hit Wahrscheinlichkeit, Datum ist im Cache Fehler-Rate R Miss R Hit Hit-Time T Hit Zeit, bis Datum bei Treffer geliefert wird Miss-Penalty T Miss zusätzlich benötigte Zeit bei Fehler Mittlere Speicherzugriffszeit = T Hit + R Miss T Miss Beispiel T Hit = Takt, T Miss = 20 Takte, R Miss = 5 % Mittlere Speicherzugriffszeit = 2 Takte Norman Hendrich 32

Die Speicherhierarchie - Cache Cache: Organisation Cache ist ein Array von Speicher-Bereichen ( sets ) jeder Bereich enthält eine oder mehrere Zeilen ( lines ) jede Zeile enthält einen Datenblock ( blocks ) jeder Block enthält mehrere Bytes valid bit t tag bits per line per line B = 2 b bytes per cache block set 0: valid valid tag tag 0 0 B B E lines per set valid tag 0 B S = 2 s sets set : valid tag 0 B valid tag 0 B set S-: valid tag 0 B Cache size: C = B x E x S data bytes Norman Hendrich 33

Die Speicherhierarchie - Cache Cache: Tags und Daten valid bit per line t tag bits per line B = 2 b bytes per cache block set 0: valid valid tag tag 0 0 B B E lines per set valid tag 0 B S = 2 s sets set : valid tag 0 B valid tag 0 B set S-: valid tag 0 B Norman Hendrich 34

Die Speicherhierarchie - Cache Cache: Adressierung und Zugriff Adressteil set index von A bestimmt Bereich ( set ) Adresse A ist im Cache, wenn. Cache-Zeile ist als gültig markiert ( valid ) 2. Adressteil tag von A = tag Bits des Bereichs Address A: t bits s bits b bits set 0: v v tag tag 0 0 B B m- <tag> <set index> <block offset> 0 set : v v tag tag 0 0 B B set S-: v v tag tag 0 0 B B Norman Hendrich 35

Die Speicherhierarchie - Cache Cache: Zugriff Cache-Zeile ( cache line ) enthält Datenbereich von 2 b Byte gesuchtes Wort mit Offset block offset Address A: t bits s bits b bits set 0: v v tag tag 0 0 B B m- <tag> <set index> <block offset> 0 set : v v tag tag 0 0 B B set S-: v v tag tag 0 0 B B Norman Hendrich 36

Die Speicherhierarchie - Cache Cache: Organisation welchen Platz im Cache belegt ein Datum des Hauptspeichers? drei Möglichkeiten: direkt abgebildet / direct mapped jeder Speicheradresse ist genau eine Cache-Speicherzelle zugeordnet n-fach bereichsassoziativ / set associative jeder Speicheradresse ist eine von n möglichen Cache-Speicherzellen zugeordnet voll-assoziativ jeder Speicheradresse kann jede beliebige Cache-Speicherzelle zugeordnet werden Norman Hendrich 37

Die Speicherhierarchie - Cache Cache: direkt abgebildet / direct mapped jeder Adresse ist genau eine Speicherzelle im Cache zugeordnet Cache 000 00 00 0 00 0 0 Memory 0000 000 000 00 000 00 00 0 Norman Hendrich 38

Die Speicherhierarchie - Cache Cache: direkt abgebildet / direct mapped eindeutige Zuordnung von Zeilen zu Adressen Wert im tag entspricht genau einer Adresse set 0: valid tag cache block E= lines per set set : valid tag cache block set S-: valid tag cache block die einfachste Cache-Art große Caches realisierbar Thrashing möglich, z.b. Zugriffe auf A, A + n S... Norman Hendrich 39

Die Speicherhierarchie - Cache Direct mapped cache: Zugriff Bereichsauswahl durch Bits set index set 0: valid tag cache block selected set set : valid tag cache block m- t bits tag s bits b bits 0 0 0 0 0 set index block offset set S-: valid tag cache block Norman Hendrich 40

Die Speicherhierarchie - Cache Direct mapped cache: Zugriff 2 Test auf valid: sind die Daten gültig? 3 Line matching : stimmt tag überein? 4 Wortselektion extrahiert Wort unter Offset block offset =? () The valid bit must be set selected set (i): 0 2 3 4 5 6 7 00 w 0 w w 2 w 3 (2) The tag bits in the cache line must match the tag bits in the address m- =? t bits 00 tag s bits b bits i 00 0 set index block offset (3) If () and (2), then cache hit, and block offset selects starting byte. Norman Hendrich 4

Die Speicherhierarchie - Cache Direct mapped cache: Prinzip Norman Hendrich 42

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 ir A000 0020 A000 008 r0 000 0040 pc A000 0000 load add r5,r2,r3 load r3,4(r) load r2,8(r) A000 000 A000 0008 A000 0000... s7 s6 s5 s4 s3 s2 s s0 v tags b=3 b=2 b= b=0 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 43

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 ir A000 0020 A000 008 r0 000 0040 pc A000 0000 load add r5,r2,r3 load r3,4(r) load r2,8(r) A000 000 A000 0008 A000 0000... s7 s6 s5 s4 s3 s2 s s0 v tags b=3 b=2 b= b=0 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... load r2, 8(r) a: fetch cache miss (empty, all invalid) beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 44

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 ir A000 0020 A000 008 r0 000 0040 pc A000 0000 load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) A000 000 A000 0008 A000 0000... s7 s6 s5 s4 s3 s2 s s0 A000 000* load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) v tags b=3 b=2 b= b=0 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... load r2, 8(r) a: fetch fill cache set s0 from memory beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 45

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 ir load r2,8(r) A000 0020 A000 008 r0 000 0040 pc A000 0000 load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) A000 000 A000 0008 A000 0000... s7 s6 s5 s4 s3 s2 s s0 v A000 000* tags load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) b=3 b=2 b= b=0 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... load r2, 8(r) a: fetch load instruction into ir beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 46

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 ir load r2,8(r) A000 0020 A000 008 r0 000 0040 pc A000 0000 load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) A000 000 A000 0008 A000 0000 000 0048... s7 s6 s5 s4 s3 s2 s s0 v A000 000* tags load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) b=3 b=2 b= b=0 c 8 4 0 0c 08 04 00 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... load r2, 8(r) a: fetch b: execute load instruction into ir cache miss beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 47

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 ir load r2,8(r) A000 0020 A000 008 r0 000 0040 pc A000 0000 load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) A000 000 A000 0008 A000 0000 000 0048... s7 s6 s5 s4 s3 s2 s s0 v 000 004* A000 000* tags 000 00C 0000 008 0000 004 0000 000 load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) b=3 b=2 b= b=0 c 8 4 0 0c 08 04 00 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... load r2, 8(r) a: fetch b: execute load instruction into ir fill cache set s4 from memory beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 48

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 ir load r2,8(r) A000 0020 A000 008 r0 0000 008 000 0040 pc A000 0000 load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) A000 000 A000 0008 A000 0000 000 0048... s7 s6 s5 s4 s3 s2 s s0 v 000 004* A000 000* tags 000 00C 0000 008 0000 004 0000 000 load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) b=3 b=2 b= b=0 c 8 4 0 0c 08 04 00 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... load r2, 8(r) a: fetch b: execute load instruction into ir load value into r2 beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 49

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 ir load r3,4(r) A000 0020 A000 008 r0 0000 008 000 0040 pc A000 0004 load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) A000 000 A000 0008 A000 0000... s7 s6 s5 s4 s3 s2 s s0 000 004* 000 00C 0000 008 0000 004 0000 000 A000 000* load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) v tags b=3 b=2 b= b=0 c 8 4 0 0c 08 04 00 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... load r3, 4(r) 2a: fetch cache hit beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 50

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 ir load r3,4(r) A000 0020 r0 0000 004 0000 008 000 0040 pc A000 0004 load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) A000 008 A000 000 A000 0008 A000 0000 000 0044... s7 s6 s5 s4 s3 s2 s s0 000 004* 000 00C 0000 008 0000 004 0000 000 A000 000* load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) v tags b=3 b=2 b= b=0 c 8 4 0 0c 08 04 00 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... load r3, 4(r) 2a: fetch cache hit 2b: execute cache hit beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 5

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 ir add r5,r2,r3 A000 0020 r0 0000 004 0000 008 000 0040 pc A000 0008 load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) A000 008 A000 000 A000 0008 A000 0000... s7 s6 s5 s4 s3 s2 s s0 000 004* 000 00C 0000 008 0000 004 0000 000 A000 000* load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) v tags b=3 b=2 b= b=0 c 8 4 0 0c 08 04 00 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... add r5,r2,r3 3a: fetch cache hit beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 52

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 r0 0000 002C 0000 004 0000 008 000 0040 ir pc add r5,r2,r3 A000 0008 load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) A000 0020 A000 008 A000 000 A000 0008 A000 0000... s7 s6 s5 s4 s3 s2 s s0 000 004* 000 00C 0000 008 0000 004 0000 000 A000 000* load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) v tags b=3 b=2 b= b=0 c 8 4 0 0c 08 04 00 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... add r5,r2,r3 3a: fetch 3b: execute cache hit no memory access beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 53

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 r0 0000 002C 0000 004 0000 008 000 0040 ir pc load r6,-4(r) A000 000C load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) A000 0020 A000 008 A000 000 A000 0008 A000 0000... s7 s6 s5 s4 s3 s2 s s0 v 000 004* A000 000* tags 000 00C 0000 008 0000 004 0000 000 load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) b=3 b=2 b= b=0 c 8 4 0 0c 08 04 00 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... load r6,-4(r) 4a: fetch cache hit beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 54

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 r0 ir load r6,-4(r) 0000 002C 0000 004 0000 008 000 0040 pc A000 000C load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) A000 0020 A000 008 A000 000 A000 0008 A000 0000 000 003C... s7 s6 s5 s4 s3 s2 s s0 000 004* 000 00C 0000 008 0000 004 0000 000 A000 000* load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) v tags b=3 b=2 b= b=0 c 8 4 0 0c 08 04 00 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... load r6,-4(r) 4a: fetch cache hit 4b: execute cache miss beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 55

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 r0 0000 002C 0000 004 0000 008 000 0040 ir pc load r6,-4(r) A000 000C load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) A000 0020 A000 008 A000 000 A000 0008 A000 0000 000 003C... s7 s6 s5 s4 s3 s2 s s0 v 000 004* 000 003* A000 000* tags 000 00C 0000 008 0000 004 0000 000 0 0000 load r6,-4(r) 5678 abcd 0000 234 cafe babe add r5,r2,r3 load r3,4(r) load r2,8(r) b=3 b=2 b= b=0 c 8 4 0 0c 08 04 00 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... load r6,-4(r) 4a: fetch cache hit 4b: execute cache miss beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 56

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 r0 0 0000 0000 002C 0000 004 0000 008 000 0040 ir pc load r6,-4(r) A000 000C load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) A000 0020 A000 008 A000 000 A000 0008 A000 0000 000 003C... s7 s6 s5 s4 s3 s2 s s0 v 000 004* 000 003* A000 000* tags 000 00C 0000 008 0000 004 0000 000 0 0000 load r6,-4(r) 5678 abcd 0000 234 cafe babe add r5,r2,r3 load r3,4(r) load r2,8(r) b=3 b=2 b= b=0 c 8 4 0 0c 08 04 00 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... load r6,-4(r) 4a: fetch cache hit 4b: execute cache miss, fill cache s3, load r6 beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 57

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 r0 0 0000 0000 002C 0000 004 0000 008 000 0040 ir pc A000 000 add r7,r2,r6 load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) A000 0020 A000 008 A000 000 A000 0008 A000 0000... s7 s6 s5 s4 s3 s2 s s0 000 004* 000 00C 0000 008 0000 004 0000 000 000 003* 0 0000 5678 abcd 0000 234 cafe babe A000 00* add r7,r2,r6 A000 000* load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) v tags b=3 b=2 b= b=0 c 8 4 0 0c 08 04 00 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0028 000 0020... add r7,r2,r6 5a: fetch cache miss beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 58

Die Speicherhierarchie - Cache Direct mapped cache: Beispiel... r7 r0 0 0000 0000 002C 0000 004 0000 008 000 0040 ir pc add r7,r2,r6 A000 000......... add r7,r2,r6 load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) A000 0020 A000 008 A000 000 A000 0008 A000 0000... s7 s6 s5 s4 s3 s2 s s0 000 004* 000 00C 0000 008 0000 004 0000 000 000 003* 0 0000 5678 abcd 0000 234 cafe babe A000 00*......... add r7,r2,r6 A000 000* load r6,-4(r) add r5,r2,r3 load r3,4(r) load r2,8(r) v tags b=3 b=2 b= b=0 c 8 4 0 0c 08 04 00 0004 0020 000 00C 0000 008 0000 004 0000 000 0 0000 5678 abcd 0000 234 cafe babe 000 0050 000 0048 000 0040 000 0038 000 0030... add r7,r2,r6 5a: fetch cache miss fill cache line, load ir beef 0000 0000 aaaa 0000 0004 0000 0000 Norman Hendrich 59

Die Speicherhierarchie - Cache Cache: bereichsassoziativ / set associative jeder Speicheradresse ist ein Bereich S mit mehreren (E) Cachezeilen zugeordnet n-fach assoziative Caches: E=2, 4... 2-way set associative cache, 4-way... set 0: valid tag cache block valid tag cache block E=2 lines per set set : set S-: valid tag cache block valid tag cache block valid tag cache block valid tag cache block Norman Hendrich 60

Die Speicherhierarchie - Cache Zugriff auf n-fach assoziative Caches Bereichsauswahl durch Bits set index set 0: valid valid tag tag cache block cache block Selected set set : valid valid tag tag cache block cache block m- t bits tag s bits b bits 0 0 0 0 0 set index block offset set S-: valid valid tag tag cache block cache block Norman Hendrich 6

Die Speicherhierarchie - Cache Zugriff auf n-fach assoziative Caches 2 valid : sind die Daten gültig? 3 Line matching : Cache-Zeile mit passendem tag finden? dazu Vergleich aller tags des Bereichs set index 4 Wortselektion extrahiert Wort unter Offset block offset =? () The valid bit must be set. 0 2 3 4 5 6 7 selected set (i): 00 00 w 0 w w 2 w 3 (2) The tag bits in one of the cache lines must match the tag bits in the address m- =? t bits 00 tag s bits b bits i 00 0 set index block offset (3) If () and (2), then cache hit, and block offset selects starting byte. Norman Hendrich 62

Die Speicherhierarchie - Cache 2-fach set-associative Cache: Prinzip Norman Hendrich 63

Die Speicherhierarchie - Cache Cache: voll-assoziativ jeder Adresse des Speichers kann jede beliebige Cachezeile zugeordnet werden, theoretisch beste Performance also Spezialfall: nur ein Cachebereich S =, aber E = Anzahl der Lines + besonders flexibel: Speicherung an allen Adressen im Cache benötigt E-Vergleicher derzeit nur für sehr kleine Caches realisierbar in der Praxis selten verwendet Norman Hendrich 64

Die Speicherhierarchie - Cache Cache: Dimensionierung Address A: t bits s bits b bits set 0: v v tag tag 0 0 B B m- <tag> <set index> <block offset> 0 set : v v tag tag 0 0 B B set S-: v v tag tag 0 0 B B Parameter: S, B, E Norman Hendrich 65

Die Speicherhierarchie - Cache Cache: Dimensionierung Blöcke mit mehreren Datenworten / Cache-Line Wortauswahl durch block offset in Adresse + nutzt räumliche Lokalität aus + Breite externe Datenbusse + nutzt Burst-Adressierung des Speichers: Adresse nur für erstes Wort vorgeben, dann automatisches Inkrement + kürzere interne Cache-Adressen Norman Hendrich 66

Die Speicherhierarchie - Cache Cache- und Block-Dimensionierung Blockgröße klein, viele Blöcke + kleinere Miss-Penalty + temporale Lokalität räumliche Lokalität Blockgröße groß, wenig Blöcke größere Miss-Penalty temporale Lokalität + räumliche Lokalität Norman Hendrich 67

Die Speicherhierarchie - Cache Cache- und Block-Dimensionierung 25% 20% k 4k 6k 64k 256k Miss rate 5% 0% 5% 0% 6 32 64 28 256 Block size Block-Size: 32... 28 Byte L-Cache: 4... 256 kb L2-Cache: 256... 4096 kb Norman Hendrich 68

Die Speicherhierarchie - Cache Cache: Dimensionierung, Relative Performance Furber, Arm SoC Architecture Norman Hendrich 69

Die Speicherhierarchie - Cache Drei Typen von Cache-Misses cold miss Cache ist (noch) leer conflict miss: wenn die Kapazität des Cache eigentlich ausreicht, aber unterschiedliche Daten in den selben Block abgebildet werden Beispiel für Trashing beim direct-mapped Cache mit S=8: abwechselnder Zugriff auf Blöcke 0, 8, 0, 8, 0, 8,... ist jedesmal ein Miss capacity miss: wenn die Menge der aktiven Blöcke ( working set ) größer ist als die Kapazität des Cache Norman Hendrich 70

Die Speicherhierarchie - Cache Cache: Ersetzungsstrategie Wenn der Cache gefüllt ist, welches Datum wird entfernt? zufällige Auswahl LRU least recently used : der älteste nicht benutzte Cache Eintrag echtes LRU als Warteschlange realisiert Pseudo LRU mit baumartiger Verwaltungsstruktur: Zugriff wird paarweise mit einem Bit markiert, die Paare wieder zusammengefasst usw. LFU least frequently used : der am seltensten benutzte Cache Eintrag durch Zugriffszähler implementiert Norman Hendrich 7

Die Speicherhierarchie - Cache Cache: Schreibstrategie Wann werden modifizierte Daten des Cache zurückgeschrieben? Write-Through: beim Schreiben werden Daten sofort im Cache und im Hauptspeicher modifiziert andere Bus-Master sehen immer den richtigen Speicherinhalt: Cache-Kohärenz Werte werden unnötig oft in Speicher zurückgeschrieben Write-Back: erst in den Speicher schreiben, wenn Datum des Cache ersetzt werden würde häufig genutzte Werte (z.b. lokale Variablen) werden nur im Cache modifiziert Cache-Kohärenz ist nicht gegeben spezielle Befehle für Cache-Flush non-cacheable Speicherbereiche Norman Hendrich 72

Die Speicherhierarchie - Cache Cache: Kohärenz Daten zwischen Cache und Speicher konsistent halten notwendig wenn auch andere Einheiten (Bus-Master) auf Speicher zugreifen können (oder Mehrprozessorsysteme!) Harvard-Architektur hat getrennte Daten- und Instruktions-Speicher: einfacherer Instruktions-Cache Instruktionen sind read-only kein Cache-Kohärenz Problem Snooping Cache lauscht am Speicherbus externer Schreibzugriff Cache aktualisieren / ungültig machen externer Lesezugriff Cache liefert Daten MESI-Protokoll: nächste Woche Norman Hendrich 73

Die Speicherhierarchie - Cache Cache: Performance Mittlere Speicherzugriffszeit = T Hit + R Miss T Miss Verbesserung der Cache Performanz durch kleinere T Miss am einfachsten zu realisieren mehrere Cache Ebenen Critical Word First: bei großen Cache Blöcken (mehrere Worte) gefordertes Wort zuerst holen und gleich weiterleiten Read-Miss hat Priorität gegenüber Write-Miss Zwischenspeicher für Schreiboperationen (Write Buffer) Merging Write Buffer: aufeinanderfolgende Schreiboperationen zwischenspeichern und zusammenfassen Victim Cache: kleiner voll-assoziativer Cache zwischen direct-mapped Cache und nächster Ebene sammelt verdrängte Cache Einträge Norman Hendrich 74

Die Speicherhierarchie - Cache Cache: Performance Verbesserung der Cache Performanz durch kleinere R Miss größere Caches ( mehr Hardware) höhere Assoziativität ( langsamer) Optimierungstechniken Software Optimierungen Prefetch: Hardware (Stream Buffer) Software (Prefetch Operationen) Cache Zugriffe in Pipeline verarbeiten Trace Cache: im Instruktions-Cache werden keine Speicherinhalte, sondern ausgeführte Sequenzen (trace) einschließlich ausgeführter Sprünge gespeichert Norman Hendrich 75

Die Speicherhierarchie - Cache Cache: Matrix-Beispiel aus Teil public static double sumrowcol( double[][] matrix ) { int rows = matrix.length; int cols = matrix[0].length; double sum = 0.0; for( int r = 0; r < rows; r++ ) { for( int c = 0; c < cols; c++ ) { sum += matrix[r][c]; } } return sum; } Matrix (5000,5000) creation took 205 msec. Matrix row-col summation took 75 msec. Matrix col-row summation took 383 msec. Sum is 600.8473695346258 600.8473695342268 (5x langsamer) (andere Werte) Norman Hendrich 76

Die Speicherhierarchie - Cache Cache: Beispiel Matrix-Multiplikation Norman Hendrich 77

Die Speicherhierarchie - Cache Cache: Beispiel Matrix-Multiplikation Norman Hendrich 78

Die Speicherhierarchie - Cache Cache: Beispiel Matrix-Multiplikation Norman Hendrich 79

Die Speicherhierarchie - Cache Cache: Beispiel Matrix-Multiplikation Norman Hendrich 80

Die Speicherhierarchie - Cache Cache: Memory Mountain Norman Hendrich 8

Die Speicherhierarchie - Cache Cache: Memory Mountain Transferrate in MB/s vs. Blockgröße und Stride Beispiel-PC: 7 GB/s max., 200 MB/s sustained: Faktor 35 Norman Hendrich 82

Die Speicherhierarchie - Cache Chiplayout: Intel Core-i Prozessoren Nehalem Norman Hendrich 83

Die Speicherhierarchie - Cache Cache vs. Programmcode Programmierer kann für maximale Cacheleistung optimieren Datenstrukturen werden fortlaufend alloziert. durch entsprechende Organisation der Datenstrukturen 2. durch Steuerung des Zugriffs auf die Daten Geschachtelte Schleifenstruktur Blockbildung ist eine übliche Technik Systeme bevorzugen einen Cache-freundlichen Code Erreichen der optimalen Leistung ist plattformspezifisch Cachegrößen, Zeilengrößen, Assoziativität etc. generelle Empfehlungen working set klein zeitliche Lokalität kleine Adressfortschaltungen ( strides ) räumliche Lokalität Norman Hendrich 84

Die Speicherhierarchie - Virtueller Speicher Virtueller Speicher: Motivation Wunsch des Programmierers möglichst großer Adressraum, ideal 2 32 Byte oder größer linear adressierbar Sicht des Betriebssystems verwaltet eine Menge laufender Tasks / Prozesse jedem Prozess steht nur begrenzter Speicher zur Verfügung strikte Trennung paralleler Prozesse Sicherheitsmechanismen und Zugriffsrechte read-only Bereiche für Code read-write Bereiche für Daten widersprüchliche Anforderungen Lösung mit virtuellem Speicher und Paging Norman Hendrich 85

Die Speicherhierarchie - Virtueller Speicher Virtueller Speicher: Idee. Benutzung der Festplatte als erweiterten Hauptspeicher Prozessadressraum kann physikalische Speichergröße übersteigen Summe der Adressräume mehrerer Prozesse kann physikalischen Speicher übersteigen 2. Unterstützung mehrerer Prozesse mehrere Prozesse gleichzeitig im Hauptspeicher jeder Prozess hat seinen eigenen Adressraum (0... n) nur aktiver Code und Daten sind tatsächlich im Speicher bedarfsabhängige, dynamische Speicherzuteilung 3. Bereitstellung von Schutzmechanismen ein Prozess kann einen anderen nicht beeinflussen Benutzerprozess hat keinen Zugriff auf privilegierte Informationen jeder virtuelle Adressraum hat eigene Zugriffsrechte Norman Hendrich 86

Die Speicherhierarchie - Virtueller Speicher Ebenen in der Speicherhierarchie cache virtual memory CPU regs C 6 B a 64 B 4 KB Memory c h e disk size: speed: $/Mbyte: line size: Register Cache Memory Disk Memory 64 B 300 ps 6 B 32 KB-2MB ns 5 /MB 64 B 8 GB 8 ns 5 /GB 4 KB 2 TB 4 ms 4 Ct./GB larger, slower, cheaper Norman Hendrich 87

Die Speicherhierarchie - Virtueller Speicher Festplatte erweitert Hauptspeicher MB: ~ 5 SRAM GB: ~5 DRAM TB: ~40 Disk Adressraum sehr groß nur teilweise als DRAM realisiert 32-bit Adressen: 4 0 9 Byte 64-bit Adressen: 6 0 6 Byte Speichern auf Festplatte ist 25 billiger als im DRAM TB DRAM: 5 000 TB Festplatte: 40 kostengünstiger Zugriff auf große Datenmengen Norman Hendrich 88

Die Speicherhierarchie - Virtueller Speicher Festplatte als Hauptspeicher: Zugriffszeiten SRAM DRAM Disk Zugriff auf Daten auf der Festplatte ist langsam Unterschied DRAM vs. Festplatte ist extremer als SRAM vs. DRAM DRAM 0 langsamer als SRAM Festplatte 200 000 langsamer als DRAM Nutzung der räumlichen Lokalität wichtig erstes Byte 200 000 langsamer als nachfolgende Bytes Norman Hendrich 89

Die Speicherhierarchie - Virtueller Speicher System ohne/mit virtuellem Speicher System mit rein physikalischem Speicher (SRAM oder DRAM) Programme addressieren den Speicher direkt fast alle Microcontroller frühe PCs (DOS) Cray Supercomputer System mit MMU und virtuellem Speicher (DRAM plus Festplatte) Memory-Management-Unit Programme addressieren den Speicher virtuell virtuelle Adressen werden von der MMU über eine Seiten-Tabelle umgesetzt Workstations, moderne PCs Norman Hendrich 90

Die Speicherhierarchie - Virtueller Speicher Prinzip des virtuellen Speichers jeder Prozess bekommt seinen eigenen virtuellen Adressraum Kombination aus Betriebssystem und Hardwareeinheiten Umsetzung von virtuellen zu physikalischen Adressen Umsetzungstabellen werden vom Betriebssystem verwaltet wegen des Speicherbedarfs der Tabellen beziehen sich diese auf größere Speicherblöcke: Seiten Umgesetzt wird nur die Anfangsadresse der Seite, der Offset innerhalb des Blocks bleibt unverändert Blöcke des virtuellen Adressraums können durch das Betriebssystem auf Festplatte ausgelagert werden Windows: Auslagerungsdatei Unix/Linux: swap Partition und -Datei(en) Norman Hendrich 9

Die Speicherhierarchie - Virtueller Speicher Virtueller Speicher: Paging / Seitenadressierung Unterteilung des Adressraums in Blöcke fester Größe = Seiten Abbildung auf Hauptspeicherblöcke = Kacheln Memory Virtual Addresses Page Table 0: : Physical Addresses 0: : CPU P-: N-: Disk Norman Hendrich 92

Die Speicherhierarchie - Virtueller Speicher Paging / Seitenadressierung: Vorteile Abbildung der Adressen in den virtuellen Speicher Programme/Daten können größer als der Hauptspeicher sein Programme können an beliebige physikalischen Adressen geladen werden, unabhängig von der Aufteilung des physikalischen Speichers feste Seitengröße: effiziente Umsetzung in Hardware Zugriffsrechte für jede Seite (read/write, User/Supervisor) gemeinsam genutzte Programmteile/-Bibliotheken können sehr einfach in das Konzept integriert werden Windows:.dll-Dateien Unix/Linux:.so-Dateien Norman Hendrich 93

Die Speicherhierarchie - Virtueller Speicher Paging / Seitenadressierung: Nachteile große Miss-Penalty beim Zugriff auf ausgelagerte Seiten Zeitbedarf für das Nachladen von der Platte Seiten sollten relativ groß sein: 4... 64 kb Speicherplatzbedarf der Seitentabelle abhängig vom Adressraum und Seitengröße ab 32-bit Adressraum sehr große Tabellen mehrstufige Tabellen Hash-Verfahren (inverted page tables) Kombinationen davon Norman Hendrich 94

Die Speicherhierarchie - Virtueller Speicher Seitenfehler Seiten-Tabelleneintrag: Startadresse der virt. Seite auf Platte Daten von Festplatte in Speicher laden: Aufruf des Exception handler des Betriebssystems laufender Prozess wird unterbrochen, andere können weiterlaufen Betriebssystem kontrolliert die Platzierung der neuen Seite im Hauptspeicher (Ersetzungsstrategien) etc. Virtual Addresses CPU Page Table Physical Addresses Memory Virtual Addresses CPU Page Table Physical Addresses Memory Disk Disk Norman Hendrich 95

Die Speicherhierarchie - Virtueller Speicher Seitenfehler (cont.) Behandlung des Seitenfehlers. Prozessor signalisiert DMA-Controller lies Block der Länge P ab Festplattenadresse X speichere Daten ab Adresse Y in Hauptspeicher 2. Lesezugriff erfolgt als Direct Memory Access (DMA) Kontrolle durch I/O Controller 3. I/O Controller meldet Abschluss Gibt Interrupt an den Prozessor Betriebssystem lässt unterbrochenen Prozess weiterlaufen Processor Reg Cache Memory Memory-I/O bus (2) DMA Transfer Disk () Initiate Block Read (3) Read Done I/O controller Disk Norman Hendrich 96

Die Speicherhierarchie - Virtueller Speicher Separate virtuelle Adressräume Mehrere Prozesse können im physikalischen Speicher liegen Wie werden Adresskonflikte gelöst? Was passiert, wenn Prozesse auf dieselbe Adresse zugreifen? %esp kernel virtual memory stack memory invisible to user code Linux x86 Speicherorganisation Memory mapped region forshared libraries runtime heap (via malloc) the brk ptr uninitialized data (.bss) initialized data (.data) program text (.text) forbidden 0 Norman Hendrich 97

Die Speicherhierarchie - Virtueller Speicher Separate virtuelle Adressräume (cont.) Auflösung der Adresskonflikte jeder Prozess hat seinen eigenen virtuellen Adressraum Betriebssystem kontrolliert wie virtuelle Seiten auf den physikalischen Speicher abgebildet werden Virtual Address Space for Process : Virtual Address Space for Process 2: 0 N- 0 N- VP VP 2... VP VP 2... Address Translation 0 M- PP 2 PP 7 PP 0 Physical Address Space (DRAM) (e.g., read/only library code) Norman Hendrich 98

Die Speicherhierarchie - Virtueller Speicher Virtueller Speicher: Adressumsetzung Parameter P = 2 p = Seitengröße (Bytes) N = 2 n = Limit der virtuellen Adresse M = 2 m = Limit der physikalischen Adresse n p p 0 virtual page number page offset virtual address address translation m p p 0 physical page number page offset physical address Norman Hendrich 99

Die Speicherhierarchie - Virtueller Speicher Virtueller Speicher: Adressumsetzung Virtueller Adressraum V = {0,,..., N-} Physikalischer Adresssraum P = {0,,..., M-} meistens M<N Adressumsetzung MAP: V P { } Für eine virtuelle Adresse a: MAP(a) = a, wenn Daten bei virtueller Adresse a und physikalischer Adresse a in P sind MAP(a) =, wenn Daten bei virtueller Adresse a nicht im physikalischen Speicher sind, d. h. entweder ungültig oder nur auf Festplatte gespeichert sind. Realisierung von MAP mit einer Seiten-Tabelle Norman Hendrich 00

Die Speicherhierarchie - Virtueller Speicher Virtueller Speicher: Hit Processor a Hardware Addr Trans Mechanism a' Main Memory virtual address part of the physical address on-chip memory mgmt unit (MMU) Programm greift auf virtuelle Adresse a zu MMU überprüft den Zugriff, liefert physikalische Adresse a Speicher liefert die zugehörigen Daten d[a ] Norman Hendrich 0

Die Speicherhierarchie - Virtueller Speicher Virtueller Speicher: Miss Processor a virtual address Hardware Addr Trans Mechanism a' page fault fault handler Main Memory part of the physical address on-chip memory mgmt unit (MMU) Secondary memory OS performs this transfer (only if miss) Programm greift auf virtuelle Adresse a zu MMU überprüft den Zugriff, Adresse nicht in MAP page-fault ausgelöst, Betriebssystem übernimmt Norman Hendrich 02

Die Speicherhierarchie - Virtueller Speicher Seiten-Tabelle: Konzept Virtual Page Number Memory resident page table (physical page or disk address) 0 0 0 Valid Physical Memory Disk Storage (swap file or regular file system file) Norman Hendrich 03

Die Speicherhierarchie - Virtueller Speicher Seiten-Tabelle: Details page table base register VPN acts as table index virtual address n p p 0 virtual page number (VPN) page offset valid access physical page number (PPN) if valid=0 then page not in memory m p p physical page number (PPN) page offset physical address 0 Norman Hendrich 04

Die Speicherhierarchie - Virtueller Speicher Adressumsetzung mit Seiten-Tabelle virtual page number VPN zeigt auf Seiten-Tabelleneintrag Seiten-Tabelleneintrag liefert Informationen über die Seite valid-bit = : die Seite ist im Speicher benutze physikalische Seitennummer ( Physical Page Number ) zur Adressberechnung valid-bit = 0: die Seite ist auf der Festplatte Seitenfehler je eine Seitentabelle für jeden Prozess page table base register VPN acts as table index virtual address n p p 0 virtual page number (VPN) page offset valid access physical page number (PPN) if valid=0 then page not in memory m p p physical page number (PPN) page offset physical address 0 Norman Hendrich 05

Die Speicherhierarchie - Virtueller Speicher Separate Seiten-Tabelle für jeden Prozess je eine Seitentabelle für jeden Prozess spezielles Register ( page table base register ) in der MMU Adresse der Seitentabelle des aktiven Prozesses wird vom Betriebssystem beim Prozesswechsel gesetzt page table base register VPN acts as table index virtual address n p p 0 virtual page number (VPN) page offset valid access physical page number (PPN) if valid=0 then page not in memory m p p physical page number (PPN) page offset physical address 0 Norman Hendrich 06

Die Speicherhierarchie - Virtueller Speicher Verwaltung von Zugriffsrechten Schutzüberprüfung zusätzliche Einträge (bits) in der Seitentabelle typischerweise werden zahlreiche Schutzmodi unterstützt Unterscheidung zwischen Kernel- und User-Mode z.b. read-only, read-write, execute-only, no-execute no-execution Bits gesetzt für Stack-Pages: Erschwerung von Buffer-Overflow-Exploits Schutzrechteverletzung wenn Prozess/Benutzer nicht die nötigen Rechte hat bei Verstoß erzwingt die Hardware den Schutz durch das Betriebssystem ( Trap / Exception ) Norman Hendrich 07

Die Speicherhierarchie - Virtueller Speicher Zugriffsrechte: Read/Write-Bits in der Seiten-Tabelle Process i: VP 0: VP : VP 2: Page Tables Read? Write? Yes Yes No No Yes No Physical Addr PP 9 PP 4 XXXXXXX 0: : Memory Process j: Read? Write? VP 0: Yes Yes VP : Yes No VP 2: No No Physical Addr PP 6 PP 9 XXXXXXX N-: Norman Hendrich 08

Die Speicherhierarchie - Virtueller Speicher Integration von virtuellem Speicher und Cache CPU VA PA miss Translation Cache data hit Main Memory Die meisten Caches werden physikalisch adressiert Zugriff über physikalische Adressen mehrere Prozesse können gleichzeitig Blöcke im Cache haben mehrere Prozesse können sich Seiten teilen Cache muss sich nicht mit Schutzproblemen befassen Zugriffsrechte werden als Teil der Adressumsetzung überprüft Die Adressumsetzung wird vor dem Cache Lookup durchgeführt kann selbst Speicherzugriff (auf den PTE) beinhalten Seiten-Tabelleneinträge können auch gecacht werden Norman Hendrich 09

Die Speicherhierarchie - Virtueller Speicher TLB / Translation Lookaside Buffer Beschleunigung der Adressumsetzung für virtuellen Speicher kleiner Hardware Cache in MMU (Memory Management Unit) bildet virtuelle Seitenzahlen auf physikalische ab enthält komplette Seiten-Tabelleneinträge für wenige Seiten CPU hit VA PA miss TLB Lookup Cache Main Memory miss hit Translation data Norman Hendrich 0

Die Speicherhierarchie - Virtueller Speicher TLB / Translation Lookaside Buffer (cont.) n p p 0 virtual page number page offset virtual address valid tag physical page number... TLB TLB hit = physical address tag index valid tag data byte offset Cache cache hit = data Norman Hendrich

Die Speicherhierarchie - Virtueller Speicher Beispiel für einfaches Speichersystem Adressierung 4-Bit virtuelle Adresse 2-Bit physikalische Adresse Seitengröße = 64 Bytes Norman Hendrich 2

Die Speicherhierarchie - Virtueller Speicher Einfaches Speichersystem: Seiten-Tabelle Nur die ersten 6 Einträge werden gezeigt Norman Hendrich 3

Die Speicherhierarchie - Virtueller Speicher Einfaches Speichersystem: TLB 6 Einträge 4-fach assoziativ Norman Hendrich 4

Die Speicherhierarchie - Virtueller Speicher Einfaches Speichersystem: Cache 6 Zeilen 4-byte pro Zeile (line size) Direkt abgebildet CT CI CO 0 9 8 7 6 5 4 3 2 0 PPN PPO Idx Tag Valid B0 B B2 B3 Idx Tag Valid B0 B B2 B3 0 9 99 23 8 24 3A 00 5 89 5 0 9 2D 0 2 B 00 02 04 08 A 2D 93 5 DA 3B 3 36 0 B 0B 0 4 32 43 6D 8F 09 C 2 0 5 0D 36 72 F0 D D 6 04 96 34 5 6 3 0 E 3 83 77 B D3 7 6 C2 DF 03 F 4 0 Norman Hendrich 5

Die Speicherhierarchie - Virtueller Speicher Adressumsetzungsbeispiel Nr. Norman Hendrich 6

Die Speicherhierarchie - Virtueller Speicher Adressumsetzungsbeispiel Nr. 2 Norman Hendrich 7

Die Speicherhierarchie - Virtueller Speicher Adressumsetzungsbeispiel Nr. 3 Norman Hendrich 8

Die Speicherhierarchie - Virtueller Speicher mehrstufige Seiten-Tabellen typische Werte für 32-bit System 4 kb (2 2 ) Seitengröße 32-Bit Adressraum 4-Byte PTE ( Page Table Entry ) Seitentabelleneintrag Problem würde 4 MB Seiten-Tabelle erfordern 2 20 Bytes (pro Prozess) übliche Lösung mehrstufige Seiten-Tabellen ( multi-level ) z.b. zweistufige Tabelle (Pentium P6) Ebene-: 024 Einträge Ebene-2 Tabelle Ebene-2: 024 Einträge Seiten Einträge können auf Festplatte ausgelagert werden Level Table Level 2 Tables... Norman Hendrich 9

Die Speicherhierarchie - Virtueller Speicher mehrstufige Seiten-Tabelle Page Directory P=, M= P=, M= P=0, M=0 P=0, M= PT 3 PT 2 PT 0 P=, M= P=0, M=0 P=, M= P=0, M= P=, M= P=0, M=0 P=, M= P=0, M= P=0, M= P=0, M= P=0, M=0 P=0, M=0 Page 5 Page 4 Page 3 Page 2 Page Page 0 Page 9 Page 8 Page 7 Page 6 Page 5 Mem Addr Page 4 Disk Addr Page 3 In Mem Page 2 On Disk Page Unmapped Page 0 Norman Hendrich 20

Die Speicherhierarchie - Virtueller Speicher Beispiel: Pentium und Linux 32-bit Adressraum 4 kb Seitengröße L, L2 TLBs 4fach assoziativ Instruktions TLB 32 Einträge 8 Sets Daten TLB 64 Einträge 6 Sets L I-Cache, D-Cache 6 kb 32 B Cacheline 28 Sets L2 Cache Instr.+Daten zusammen 28 kb... 2 MiB DRAM bus interface unit instruction fetch unit processor package external system bus (e.g. PCI) L2 cache L i-cache cache bus inst TLB data TLB L d-cache Norman Hendrich 2

Die Speicherhierarchie - Virtueller Speicher Pentium und Linux: Seiten-Tabelle 0 VPN word offset into page directory page directory 0 2 VPN2 VPO word offset into page table page table Virtual address word offset into physical and virtual page PDBR physical address of page directory PDE PTE physical address of page table base (if P=) physical address of page base (if P=) 20 PPN 2 PPO Physical address Norman Hendrich 22

Die Speicherhierarchie - Virtueller Speicher Pentium und Linux: TLB und Cache CPU 32 result L2 and DRAM 20 2 VPN VPO 6 4 TLBT TLBI virtual address (VA) L hit L miss TLB miss... TLB hit L (28 sets, 4 lines/set)... 0 0 VPN VPN2 TLB (6 sets, 4 entries/set) 20 2 PPN PPO 20 7 5 CT CI CO PDE PTE physical address (PA) PDBR Page tables Norman Hendrich 23

Die Speicherhierarchie - Virtueller Speicher Zusammenfassung: Speicherhierarchie Cache Speicher dient nur zur Beschleunigung unsichtbar für Anwendungsprogrammierer und OS komplett in Hardware implementiert Virtueller Speicher Nutzung der Festplatte als erweiterter Hauptspeicher ermöglicht viele Funktionen des Betriebssystems mehrere Prozesse, Schutzmechanismen Implementierung mit Hardware und Software Norman Hendrich 24

Die Speicherhierarchie - Virtueller Speicher Zusammenfassung: Virtueller Speicher ermöglicht viele Funktionen des Betriebssystems größerer virtueller Speicher als reales DRAM Auslagerung von Daten auf die Festplatte Prozesse erzeugen ( exec / fork ) Taskwechsel Schutzmechanismen Implementierung mit Hardware und Software Software verwaltet die Tabellen und Zuteilungen Hardwarezugriff auf die Tabellen Hardware-Caching der Einträge (TLB) Norman Hendrich 25

Die Speicherhierarchie - Virtueller Speicher Zusammenfassung: Virtueller Speicher Sicht des Programmierers großer flacher Adressraum Programm besitzt die gesamte Maschine hat privaten Adressraum bleibt unberührt vom Verhalten anderer Prozesse Sicht des Systems Adressraum von Prozessen auf Seiten abgebildet muss nicht fortlaufend sein wird dynamisch zugeteilt erzwingt Schutz bei Adressumsetzung Betriebssystem verwaltet viele Prozesse gleichzeitig jederzeit schneller Wechsel zwischen Prozessen u.a. beim Warten auf Ressourcen (Seitenfehler) Norman Hendrich 26

Die Speicherhierarchie - Festplatten Festplatten magnetischer Massenspeicher IBM RAMAC 50, 956, 5 MB nichtflüchtige Datenspeicherung hohe Speicherkapazität gutes Preis-Leistungsverhältnis dominierende Technologie langsamer, serieller Zugriff Dateisystemcaching als Abhilfe Kenngrößen Speicherkapazität, z.b. 2 TB Dauertransferrate, z.b. 00 MB/s mittlere Zugriffszeit, z.b. 8 ms MTBF, z.b. 30.000 h Norman Hendrich 27

Die Speicherhierarchie - Festplatten Festplatte: Prinzip Ansicht einer Platte Umdrehung mit konstanter Geschwindigkeit spindle Schreib/Lese Kopf ist an Arm befestigt fliegt auf Luftpolster über Plattenoberfläche radiale Bewegung des Arms positioniert Kopf auf Spuren Norman Hendrich 28

Die Speicherhierarchie - Festplatten Festplatte: mehrere Schreib/Lese-Köpfe arm Schreib/Lese Köpfe werden gemeinsam auf Zylindern positioniert spindle Kapazität und Kosten proportional zur Anzahl der Platten günstige Festplatten: eine Platte, zwei Köpfe (oben/unten) Norman Hendrich 29

Die Speicherhierarchie - Festplatten Festplattengeometrie Platten mit jeweils zwei Oberflächen ( surfaces ) Spuren als konzentrische Ringe auf den Oberflächen ( tracks ), jede Spur unterteil in Sektoren ( sectors ), kurze Lücken ( gaps ) dienen zur Synchronisierung tracks surface track k gaps spindle sectors Norman Hendrich 30

Die Speicherhierarchie - Festplatten Festplattengeometrie (Ansicht mehrerer Platten) untereinander liegende Spuren (mehrerer Platten) bilden logisch einen Zylinder : gleiche Zugriffsmuster cylinder k surface 0 surface surface 2 surface 3 surface 4 surface 5 platter 0 platter platter 2 spindle Norman Hendrich 3

Die Speicherhierarchie - Festplatten Festplattenkapazität Kapazität: Höchstzahl speicherbarer Bits typische Kapazität ca. TB (hier: TB = 0 2 Byte) (203) technologischen Faktoren Aufnahmedichte [bits/in]: bits pro -inch Segment einer Spur Spurdichte [tracks/in]: Anzahl der Spuren pro -inch Radius Flächendichte [bits/in 2 ]: Produkt aus Aufnahme- und Spurdichte limitiert durch minimal noch detektierbare Magnetisierung sowie durch Positionierungsgenauigkeit der Köpfe Spuren in getrennte Aufnahmezonen ( recording zones ) unterteilt jede Spur einer Zone hat gleichviele Sektoren (festgelegt durch die Ausdehnung der innersten Spur) Zone haben unterschiedlich viele Sektoren/Spuren Norman Hendrich 32

Die Speicherhierarchie - Festplatten Berechnen der Festplattenkapazität Kapazität = Bytes/Sektor mittlere Anzahl Sektoren/Spur Spuren/Oberfläche Oberflächen/Platten Platten/Festplatte Beispiel 52 Bytes/Sektor 300 Sektoren/Spuren (im Durchschnitt) 20 000 Spuren/Oberfläche 2 Oberflächen/Platten 5 Platten/Festplatte Kapazität = 52 300 20 000 2 5 = 30 720 000 000 = 30,72 GB uraltes Modell Norman Hendrich 33

Die Speicherhierarchie - Festplatten Festplatten-Zugriffszeit Durchschnittliche (avg) Zugriffszeit auf einen Zielsektor wird angenähert durch: T Zugriff = T avgsuche + T avgrotation + T avgtransfer Suchzeit (T avgsuche ) Zeit in der Schreib-Lese-Köpfe ( heads ) über den Zylinder mit dem Zielsektor positioniert werden üblicherweise T avgsuche = 8 ms Norman Hendrich 34

Die Speicherhierarchie - Festplatten Festplatten-Zugriffszeit (cont.) Rotationslatenzzeit (T avgrotation ) Wartezeit, bis das erste Bit des Zielsektors unter dem r/w Schreib-Lese-Kopf durchrotiert. T avgrotation = /2 /RPMs 60 Sek/ Min typische Drehzahlen, rotations per minute, sind 5400.. 7200.. 0000.. 5000 RPM (desktop.. server) T avgrotation 5.5 ms.. 2.0 ms Transferzeit (T avgtransfer ) Zeit, in der die Bits des Zielsektors gelesen werden T avgtransfer = /RPM /(Durchschn # Sektoren/Spur) 60 Sek / Min Norman Hendrich 35

Die Speicherhierarchie - Festplatten Beispiel für Festplatten-Zugriffszeit Beispiel: Umdrehungszahl = 7.200 RPM Durchschnittliche Suchzeit = 9 ms. mittlere Anzahl der Sektoren pro Spur = 400 eingesetzt T avgrotation = /2 (60 s/7200 RPM) 000 ms/s = 4 ms T avgtransfer = 60/7200 RPM /400 s/sektor 000 ms/s= 0.02 ms T avgzugriff = 9 ms + 4 ms + 0.02 ms 3 ms Norman Hendrich 36

Die Speicherhierarchie - Festplatten Festplatten-Zugriffzeit: wichtige Punkte Zugriffszeit von Suchzeit und Rotationslatenzzeit dominiert erstes Bit eines Sektors ist das teuerste, der Rest ist danach quasi umsonst typische Dauertransferraten aktueller Festplatten sind im Bereich 50..200 MB/s SRAM Zugriffszeit ist ca. 4 ns/64 bit, DRAM ca. 60 ns Zugriff auf Festplatte ist um Faktor 3 ms / 4 ns bzw. 3 000 000 langsamer als SRAM ensprechend 200 000 langsamer als DRAM hoher Aufwand in Hardware und Betriebssystem, um dieses Problem (weitgehend) zu vermeiden Norman Hendrich 37

Die Speicherhierarchie - Festplatten Logische Festplattenblöcke Benutzersicht der komplexen Sektorengeometrie: Menge verfügbarer Sektoren wird als eine Sequenz logischer Blöcke der Größe b modelliert (0,,2,..,n) typische Blockgröße war jahrzehntelang b = 52 Bytes neuere Festplatten zunehmend mit b = 4096 Bytes Abbildung zwischen logischen Blöcken und tatsächlichen physikalischen Sektoren ausgeführt durch den Festplattencontroller konvertiert logische Blöcke zu Tripeln (Oberfläche, Spur, Sektor) Controller reserviert ggf. unbenutze Bereiche als Ersatzzylinder Unterschied zwischen formatierter- und maximaler Kapazität Norman Hendrich 38

Die Speicherhierarchie - Festplatten Lesen eines Festplattensektors CPU übergibt Parameter an den Festplattencontroller Befehl, logische Blocknummer, Zielspeicheradresse Zugriff auf den Port (I/O-Adresse) des Controllers CPU chip register file ALU bus interface main memory I/O bus USB controller mouse keyboard graphics adapter monitor disk controller disk Norman Hendrich 39

Die Speicherhierarchie - Festplatten Lesen eines Festplattensektors (2) Festplattencontroller liest den gewünschten Sektor aus Festplattencontroller führt DMA-Zugriff auf Hauptspeicher aus CPU chip register file ALU bus interface main memory I/O bus USB controller mouse keyboard graphics adapter monitor disk cont oller disk Norman Hendrich 40

Die Speicherhierarchie - Festplatten Lesen eines Festplattensektors (3) Festplattencontroller löst Interrupt aus CPU chip register file ALU bus interface main memory I/O bus USB controller mouse keyboard graphics adapter monitor disk controller disk Norman Hendrich 4

Die Speicherhierarchie - RAID RAID: Redundant Array of Independent Disks Aufteilung von Daten auf mehrere Festplatten?! bahnbrechende Untersuchung von Festplatten-Performance motiviert durch Analyse von Großrechner- und PC-Festplatten schnelles Speichersystem aus mehreren kleinen Festplatten (anstelle weniger großer teurer Platten) Zuverlässigkeit des Gesamtsystems? sieben RAID-Varianten ( level ) unterschiedliche Anzahl von Platten Strategien zur Verwendung von Nutz- und Reserveplatten Ausfallsicherheit, Hot-Plugging Optimierung auf Schreib- und/oder Leseperformance für Server vielfach eingesetzt Originalpaper: Patterson, Gibson, Katz: UCB report CS-87-39) Norman Hendrich 42

Die Speicherhierarchie - RAID RAID: Ausgangsbasis (998) Norman Hendrich 43

Die Speicherhierarchie - RAID Zuverlässigkeit: Headcrash Zerstörung der Magnetschicht durch Kontakt mit dem Lesekopf (wikimedia commons, Alchemist-hp, www.pse-mendelejew.de) Norman Hendrich 44

Die Speicherhierarchie - RAID RAID: mehrere Varianten, level 0..6 Norman Hendrich 45

Die Speicherhierarchie - RAID RAID 0: Striping die Datenblöcke werden gleichmäßig auf zwei oder mehr unabhängige Platten verteilt gleichzeitiges Lesen Blöcke von mehreren Platten gleichzeitiges Schreiben auf mehrere Platten Performance wächst (linear) mit der Anzahl der Platten bei Ausfall einer Platte sind sämtliche Daten verloren Einsatz z.b. zwei Platten für schnellen Videoschnitt Norman Hendrich 46

Die Speicherhierarchie - RAID RAID : Mirroring jeder Platteninhalt ist zweimal vorhanden Lesezugriffe können auf beiden Platten verteilt werden Schreibzugriffe immer doppelt auf beide Platten bei Ausfall einer Platte nutzt man das Duplikat und erstellt eine neue Reserveplatte Norman Hendrich 47

Die Speicherhierarchie - RAID RAID 2: fehlerkorrigierende Codes Kodieren aller Daten mit fehlerkorrigierendem Bitcode Originalbits und Prüfbits werden auf verschiedene Platten verteilt Beispiel: (7,4)-Hamming-Code, mit 4+3 Platten jeder Datenzugriff erfordert viele synchronisierte Plattenoperationen vor jedem Schreibzugriff Berechnung der bitweisen Prüfbits insgesamt erscheint der Aufwand nicht gerechtfertigt Norman Hendrich 48

Die Speicherhierarchie - RAID RAID 2: mit (7,4) Hamming-Code Gleichungssystem: k2 = x2 x x0 k = x3 x x0 k0 = x3 x2 x0 Norman Hendrich 49

Die Speicherhierarchie - RAID RAID 3: Bit-Parität mehrere Platten plus eine Paritätsplatte dadurch Schutz gegen Totalausfall einer einzelnen Platte Daten müssen bitweise berechnet werden Beispiel: Originaldaten auf vier Platten aufgeteilt, zusätzlich eine Paritätsplatte Bildung der Modulo-2-Summe über die entsprechenden Bits, p = x 0 x x 2 x 3 bei Ausfall einer der Platten 0 bis 4 (hier: Platte ) Rekonstruktion des Inhalt mittels Modulo-2 Summe: x = x 0 x 2 x 3 x 4 p Norman Hendrich 50

Die Speicherhierarchie - RAID RAID 3: Beispiel mit 4+ Platten X 0 X X 2 X 3 X 0 X X 2 X 3 0 0 0 0 0 0 0 0 0 p p 0 0 0 X 0 X X 2 X 3 p X X 0 X X 2 3 p 0 0 0 0 0 0 0 0 0 0 0 0 Norman Hendrich 5

Die Speicherhierarchie - RAID RAID 4, 5, 6 RAID 4: Dies ist ähnlich zu RAID 3. Die Paritätsinformation nutzt man nur bei Totalausfall einer Platte. Daher führen nur Schreibzugriffe zu einer erhöhten Last. Jeder Schreibzugriff erfordert zwei Lese- und zwei Schreibzugriffe. RAID 5: Um den Flaschenhals der Paritätsplatte zu mildern, verteilt man die Redundanzinformation zyklisch über alle Platten. RAID 6: Hier erhöht man die Datensicherheit gegenüber RAID 5 durch Bildung mehrerer unabhängiger Schutzinformationen. Norman Hendrich 52

Die Speicherhierarchie - CD-ROM und DVD Optische Speichermedien: Beispiel CD-ROM CD-ROM = Compact Disc Read-Only Memory Weiterentwicklung der Audio-CD (982) Aufzeichnungspirale der Daten ca. 5 km Länge Speicherkapazität: 74-Minuten-CD-DA: ca. 783 MB Audiodaten CD-ROM: zusätzliche Fehlerkorrektur, netto ca. 650 MB Nutzdaten Standards: Audio-CD und CD-ROM sind IEC 908 ( red book ) ISO/IEC 049 ( yellow book ) Norman Hendrich 53

Die Speicherhierarchie - CD-ROM und DVD CD/DVD: Prinzip Polycarbonatträger, 2cm Durchmesser eingeprägte Vertiefungen ("pits") bilden die Daten spiralförmige Datenspur,.6µm Abstand, ca. 6000 Windungen Fertigungsmängel fest eingeplant => leistungsfähige Fehlerkorrektur (CD ROM the new papyrus) Norman Hendrich 54

Die Speicherhierarchie - CD-ROM und DVD CD/DVD: Aufbau eines Players Objektiv, magnetische Fokussierung Strahlteiler Spindelmotor Laserdiode Führungsschiene und Motor für Pickup Zylinderlinse Photosensor (2x2 Matrix) Prinzip für CD und DVD Norman Hendrich 55