Analyse aktueller Cache-Architekturen hinsichtlich Struktur und Effizienz. Markus Krause

Ähnliche Dokumente
Cache-Speicher. Design Digitaler Systeme. Prof. Dr.-Ing. Rainer Bermbach

Cache Blöcke und Offsets

Quiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset.

Cache Grundlagen. Schreibender Cache Zugriff. SS 2012 Grundlagen der Rechnerarchitektur Speicher 22

Grundlagen der Rechnerarchitektur. Speicher

Grundlagen der Rechnerarchitektur

Grundlagen der Rechnerarchitektur. Speicher

4.2 Verbesserung der Leistungsfähigkeit von Caches

é Er ist software-transparent, d.h. der Benutzer braucht nichts von seiner Existenz zu wissen. Adreßbus Cache- Control Datenbus

, 2014W Übungsgruppen: Mo., Mi.,

Linux Paging, Caching und Swapping

Wie groß ist die Page Table?

Grob-Struktur des Prozessor-Speichersystems

Virtueller Speicher und Memory Management

Speicherhierarchie, Caches, Consistency Models

2. Ansatzpunkt: Reduktion der Penalty Early Restart und critical word first

Das Konzept der Speicherhierarchie

Verbesserung der Leistungsfähigkeit von Caches

, 2015W Übungsgruppen: Mo., Mi.,

6 Exkurs: Assoziativspeicher

6 Exkurs: Assoziativspeicher (2) 6 Exkurs: Assoziativspeicher. 7.1 Speicherhierarchie. 7 Caches

DIE EVOLUTION DES DRAM

Schreiben von Pages. Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen).

Speicher. Speicher. Speicherhierarchie. Speicher. Interessante Zahlen:

Rechnerarchitektur SS 2012

Vorlesung: Rechnerstrukturen, Teil 2 (Modul IP7)

Rechnerarchitektur (RA)

Rechnerarchitektur SS 2012

Rechnergrundlagen SS Vorlesung

ggf. page fault virtuelle Adresse physikalische Adresse Hauptspeicher Seitenrahmen Register Seitentabelle logical address page number frame number

Besprechung des 8. Übungsblattes Einführung in Caches Cache-Organisation Cache-Ersetzungsstrategien Aufgaben (an der Tafel) Testklausur

Rechnerstrukturen Winter SPEICHER UND CACHE. (c) Peter Sturm, University of Trier 1

Algorithmen II Vorlesung am

Speicherarchitektur (16)

Verbesserung der Leistungsfähigkeit von Caches

Aufgabe 4 : Virtueller Speicher

Lösung von Übungsblatt 2

RAM. Konsistenzprobleme entstehen => CPU - durch Verzögerung in Warteschlange, Umfangreiche Pufferung in den PCI Brücken. lesen. EOP-Signal.

RO-Tutorien 15 und 16

Technische Informatik 2 Speichersysteme, Teil 3

Rechnerorganisation. 1. Juni 201 KC Posch

Grundlagen der Informatik III Wintersemester 2010/ Vorlesung Dr.-Ing. Wolfgang Heenes

Rechnerarchitektur. Vorlesungsbegleitende Unterlagen. WS 2003/2004 Klaus Waldschmidt

Optimierungen der Lattice Boltzmann Methode auf x86-64 basierten Architekturen

Lösung von Übungsblatt 2

Virtueller Speicher. SS 2012 Grundlagen der Rechnerarchitektur Speicher 44

Invalidierungs- und Update-basierte Cache-Kohärenz-Protokolle

Inhalt Teil 10 (Caches) aus 6. Speicherorganisation

Cache-Kohärenz und -Konsistenz. Betreuer: Prof. Brüning Veton Kajtazi Mat.-Nr.: Universität Heidelberg

Speicherorganisation

In heutigen Computern findet man schnellen/teuren als auch langsamen/billigen Speicher

Speicherarchitektur (23) Suchen einer Seite:

Grundlagen der Rechnerarchitektur. Ein und Ausgabe

Rechnerarchitektur (RA)

Rechnerarchitektur (RA)

Neue Prozessor-Architekturen für Desktop-PC

Betriebssysteme BS-S SS Hans-Georg Eßer. Foliensatz S: Speicherverwaltung. Dipl.-Math., Dipl.-Inform. v1.0, 2015/04/14

COOL HASHING MIT FPGAS. Robert Bachran

Die Sandy-Bridge Architektur

Speicherarchitektur (1)

Inhaltsverzeichnis. Visualisierung von Ausführungstraces. 1. Motivation. 2. Anwendungsfelder. 3. Visualisierungstools. 4.

Grundlagen der Informationsverarbeitung:

Speicher Typen. TI-Übung 5. Speicher SRAM. Speicher DRAM. SRAM vs. DRAM (EEP)ROM, NV-RAM, Flash,... Speicher, Caches

Liefert das Protokoll Kohärenz?

Weitere Verbesserungen

(Cache-Schreibstrategien)

Datenpfaderweiterung Der Single Cycle Datenpfad des MIPS Prozessors soll um die Instruktion min $t0, $t1, $t2 erweitert werden, welche den kleineren

Ein konfigurierbarer, visueller Cache-Simulator unter spezieller Berücksichtigung komponenten- basierter Modellierung mit Java Beans

Konzepte und Methoden der Systemsoftware. Aufgabe 1: Polling vs Interrupts. SoSe bis P

Einfaches MSI-Writeback-Inval-Protokoll

Besprechung des 9. Übungsblattes Virtuelle Speicherverwaltung Aufgaben

, SS2012 Übungsgruppen: Do., Mi.,

Übungen zu Grundlagen der Rechnerarchitektur und -organisation: Bonusaufgaben Übung 6 und Präsenzaufgaben Übung 7

Tutorium Rechnerorganisation

Rechnernetze und Organisation

CUDA. Jürgen Pröll. Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg Jürgen Pröll 1

Vorstellung der SUN Rock-Architektur

Einführung in die technische Informatik

Multi-Port-Speichermanager für die Java-Plattform SHAP

1. Übersicht zu den Prozessorfamilien 2 2. Grundlagen der Rechnerorganisation 3

Rechnerstrukturen. 5. Speicher. Inhalt. Vorlesung Rechnerstrukturen Wintersemester 2002/03. (c) Peter Sturm, Universität Trier 1.

RO-Tutorien 17 und 18

CPU. Memory. Highest. Fastest. Smallest. Memory. Biggest. Lowest

Grundlagen von Caching-Mechanismen beim Zusammenspiel von Mikroprozessor und Betriebssystem. Klaus Kusche Dezember 2015

Modul IP7: Rechnerstrukturen

Hans-Georg Eßer, Hochschule München, Betriebssysteme I, SS Speicherverwaltung 1

Enterprise Computing Einführung in das Betriebssystem z/os. Prof. Dr. Martin Bogdan Prof. Dr.-Ing. Wilhelm G. Spruth WS2012/13

ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS. Sascha Kath

Liefert das Protokoll Kohärenz?

Übungen zu Grundlagen der Rechnerarchitektur und -organisation: Bonusaufgaben Übung 8 und Präsenzaufgaben Übung 9

Schriftliche Prüfung. Aufgaben OTTO-VON-GUERICKE-UNIVERSITÄT MAGDEBURG FAKULTÄT FÜR INFORMATIK. Technische Informatik II. am:

Rechnerarchitektur (RA)

UBERBLICK ZU NETWORKS-ON-CHIP:

Prinzipien und Komponenten eingebetteter Systeme

Freispeicherverwaltung

RO-Tutorien 15 und 16

Transkript:

Analyse aktueller Cache-Architekturen hinsichtlich Struktur und Effizienz Markus Krause Dresden,

Gliederung 1. Einführung 2. Problemstellung 3. Lösungen a) Miss Rate b) Miss Penalty c) Hit Time 4. Zusammenfassung 5. Quellen Cache-Architekturen Folie Nr. 2 von 18

Einführung Wieso verwenden wir überhaupt Cache? CPU-Memory-Gap wächst immer weiter Cache-Architekturen Folie Nr. 3 von 18

Einführung Cache arbeitet mit Hilfe von Locality 2 Arten von Locality: Zeitlich Räumlich CPU L1 Cache Register L2 Cache L3 Cache Speicher Cache-Architekturen Folie Nr. 4 von 18

Problemstellung Die 3 entscheidenden Größen bei Cache- Architekturen: 1. Miss Rate 2. Miss Penalty 3. Hit Time Cache-Architekturen Folie Nr. 5 von 18

Problemstellung Warum aber nicht einfach 1-stufiger Cache??? riesige Miss Penalty deswegen großer L1 aber langsame Hit Time deswegen mehrstufiger Cache Cache-Architekturen Folie Nr. 6 von 18

Lösungen Miss Rate Einsatz eines Victim Cache Block J gesucht L1 Cache A B C D E F G H J Victim Cache I H J K L Block J gefunden Blöcke J und H ausgetauscht bis zu 95% Konfliktreduzierung Cache-Architekturen Folie Nr. 7 von 18

Lösungen Miss Rate Verbesserungen des Victim Cache Miss Table: locked einzelne Blöcke bis zu 31% Miss Rate- und 38% Energieverbrauch- Reduzierung nur für größere Datenmengen Selektiver VC: Algorithmus basierte Optimierung 21% Verbesserung der Miss Rate 70% Reduktion des Blockaustauschs Cache-Architekturen Folie Nr. 8 von 18

Lösungen Miss Rate Stream Buffer L1 Cache Block L O A B C D O E F G L gesucht H Stream Buffer M N O P in Stream Buffer suchen Block L gefunden L2 Cache Stream Buffer lädt I J K L M N O P Cache-Architekturen Folie Nr. 9 von 18

Lösungen Miss Penalty Read over Write Write Buffer 2 Möglichkeiten für Schreibvorgang Write-Through Write-Back Einsatz eines Write Buffers führt zu RAW Konflikten bis zu 50% größere Penalty Verhalten des Write Buffers anpassen zuerst in Buffer schauen Daten von L2 in Write Buffer kopieren Cache-Architekturen Folie Nr. 10 von 18

Lösungen Miss Penalty Early Restart und Critical Word First praktisch bei großen Blöcken räumliche Locality möglicherweise Problem Cache-Architekturen Folie Nr. 11 von 18

Lösungen Miss Penalty CAM Zellen bei AMD zwar größerer Cache jedoch besonders im L3 deutlich langsamer möglicher Grund ist der Einsatz von CAM Zellen Cache-Architekturen Folie Nr. 12 von 18

Lösungen Miss Penalty CAM Zellen prinzipiell 2 Aufgaben: Speicher Vergleicher besteht aus 9 10 T aber größere Leistungsaufnahme und quadratisches Delay Trade-Off zwischen Chip-Fläche und Miss Penalty Cache-Architekturen Folie Nr. 13 von 18

Lösungen Hit Time Small and Simple Caches kleiner, direct mapped L1 Cache erhöht Miss Rate bei L1 nicht so entscheidend wird in praktisch allen heutigen Prozessoren verwendet Cache-Architekturen Folie Nr. 14 von 18

Lösungen Hit Time Avoiding Address Translation viele Prozessoren setzen auf virtuelle Adressierung des Speichers phyischer TAG und virtueller Index Problem der Homonyme und Synonyme aufgrund von Synonymen mittlerweile komplett physische Adressierung in größeren Caches Trade Off zwischen Geschwindigkeit und Konsistenz Cache-Architekturen Folie Nr. 15 von 18

Lösungen Hit Time Pipelined Writes Hit Time bezieht sich auch auf Write im ersten Takt Adress-Tag Vergleich im zweiten Takt schreiben und nächster Vergleich Cache-Architekturen Folie Nr. 16 von 18

Zusammenfassung viele verschiedene Möglichkeiten zur Cache Optimierung vorhanden Victim Cache und Optimierungen Write Buffer und CAM Zellen kleiner einfacher L1 und pipelined Writes Cache-Architekturen Folie Nr. 17 von 18

Quellen - http://web.sfc.keio.ac.jp/~rdv/keio/sfc/teaching/architectur e/architecture-2008/hennessy-patterson/ch5-fig02.jpg - http://cdn1.coresites.mpora.com/whitelines_new/wpcontent/uploads/2014/01/homer-simpson.jpg - alle Quellen aus schriftlicher Ausarbeitung Cache-Architekturen Folie Nr. 18 von 18

Zusatz Non-Blocking Cache trotz Miss weiter arbeiten auch mehrere Misses möglich Out-Of-Order Completion nötig Cache-Architekturen Folie Nr. 19 von 18