7b. Rechnerarchitektur

Transkript

1 7b. Rechnerarchitektur Inhalt: Schichtenmodell Rechnerarchitektur und Techniken innerhalb der Mikroprozessoren 1

2 Schichtenmodell Schnittstelle zu Level 2 entspricht einer Rechnerarchitektur Schicht Level 1 wird im Allgemeinen zur Hardware gerechnet, obwohl sie auch Mikroprogramme (Firmware) enthalten kann. Heute aber meist fest verdrahtete Ablaufsteuerungen (Hardware). Einzelne Schichten sind intern selbst wieder in Schichten unterteilt. Systementwurf muss auch Wechselwirkung zwischen Schichten berücksichtigen. 2

3 Konvertierung zwischen Schichten (3) Level3: Hybride Schicht: Einige Befehle von Level3 (z. B. ADD) sind identisch mit Level 2. Dazu kommen Betriebssystemaufrufe (system calls) wie open(), write(),gettimeofday() etc., die von L3 interpretiert werden. Level2: Die Mikroarchitekur auf Level1 interpretiert die Maschinensprache (per Mikroprogramm oder festverdrahtet). Level1: Die Mikro-Operationen bzw. Steuerungen zur Ausführung der Befehle werden durch die digitalen Schaltkreise aus Schicht Level0 interpretiert ( Hardware-Interpreter ). 3

4 Konvertierung zwischen Schichten (4) Level 5 Level 4 Level 3 Level 2 Level 1 Level 0 Problem-oriented language Translation (compiler) Assembly language Translation (assembler) Operating system machine Partial interpretation (operating system) Instruction set architecture Interpretation (microprogram) or direct execution Microarchitecture Interpretation (Hardware) Digital logic Schichtenmodell kann auch als eine Hierarchie immer abstrakter virtueller Maschinen aufgefasst werden. Level5: Eine höhere Programmiersprache wird durch Compilation oder Interpretation auf die Schnittstelle zu Level4 konvertiert. Level5 stellt eine virtuelle Maschine dar. Level4 stellt eine virtuelle Maschine dar, die dem Benutzer als Schnittstelle Assemblerbefehle plus Systemaufrufe anbietet. Level4: Assembler auf Schicht Level4 übersetzt ein Assemblerprogramm in die erweiterte Maschinensprache (inkl. Systemaufrufe). Einfache Form von Compilation. 4

5 Implementierung neuer Schichten Beispiel: Spracherweiterung durch Prozeduren in C. Hybride Schicht: Schnittstellen der alten Schicht bleiben weiter sichtbar. Modulkonzept (Funktionen und Bibliotheken) erlaubt Einführung einer echten Schicht (tiefere Schnittstellen werden in der Implementierung verborgen). 5

6 Funktionen in Hardware oder Software? 6

7 Funktionen in Hardware oder Software? Hardware (Entwicklung eines Mikroprozessors): schnell, aber unflexibel, teuer Software: langsamer, leicht änderbar, billiger Beispiel: Implementierung eines neuen Datentyps mit zugehörigen Operationen als Speicherstruktur mit Funktionen (Softwarebibilothek) als Datentyp der Programmiersprache (Übersetzer) als Maschinendatentyp (Hardware) 7

8 Funktionen in Hardware oder Software? Vergleich: Realisierungsvarianten von Funktionen y[ i] w1 x[ i] w2 x[ i 1] w3 x[ i 2] w4 x[ i 3] Software: Befehlsfolge auf universal- Prozessor (links) Register x1 bis x3 werden nach x2 bis x4 umkopiert Adressrechnung für x[i] Register x1 (x[i]) wird aus Speicher geladen Multiplikationen und Additionen Adressrechnung für y[i] Speichern von y[i] Zugehörige Strukturen und Datenpfad rechts dargestellt 8

9 Funktionen in Hardware oder Software? y[ i] w1 x[ i] w 2 x[ i 1] w3 x[ i 2] w 4 x[ i 3] Hardware: Funktionsspezifische Realisierung z.b. durch FPGA 9

10 Rechnerarchitektur Rechnerarchitektur (RA) nach Amdahl/Blaauw/Brooks, 1964 (Architekten des IBM System/360): The term architecture is used here to describe the attributes of a system as seen by the programmer, i. e. the conceptual structure and functional behavior, as distinct from the organization and data flow and control, the logical design and physical implementation. Architektur: Implementierung: Realisierung: Äußeres funktionelles Erscheinungsbild des Rechners, wie es der unmittelbare Benutzer (Maschinenprogrammierer) sieht. Logische Struktur (Organisation), mehrere Implementierungen der gleichen Architektur möglich. Konkrete Version einer Implementierung in Hardware und evtl. Firmware (mehrere Realisierungen einer Implementierung möglich). 10

11 Rechnerarchitektur Als Rechnerarchitektur verstanden: Äußeres funktionelles Erscheinungsbild Anzahl der Prozessorregister, Registerbreite (32 oder 64 Bit) und Einschränkungen für deren Benutzung Liste der Befehle eines Prozessors Adressierungsarten, d.h. Art wie Daten von Befehlen adressiert werden können 11

12 Rechnerarchitektur Als Rechnerorganisation verstanden, z.t. auch als Rechnerarchitektur: Implementierung Art und Anordnung von Hardwarebausteinen, die Funktionen der äußeren Sicht realisieren Beispiel: Implementierung eines einfachen Prozessors: 12

13 Rechnerarchitektur Nicht zu Rechnerarchitektur gezählt: Konkrete Version einer Implementierung Taktfrequenz eines Prozessors Strukturbreite der Halbleiterstrukturen (Beispiel: CellBE PS3 mit 65nm und CellBE in PS3Slim mit 45nm) Cache-Größe 13

14 Beispiel für Rechnerarchitektur (1) Feldrechnerarchitektur zur datenparallelen Befehlsverarbeitung (z.b. SIMD Befehlssatzerweiterungen, oder GPUs) Leitwerk u. skalare Befehle PE 1 ADD MUL p Rechenwerke (PEs).... PE 2 PE p-1 PE p Kontrolleinheit Programmspeicher Privatspeicher Verbindungsnetzwerk 14

15 Beispiel für Rechnerarchitektur (2) Prozessorpipeline zur schnellen Befehlsverarbeitung S4 ALU Befehlspipeline ALU S1 S2 S3 S6 Instruction fetch unit Instruction decode unit Oberand fetch unit LOAD Write back unit Phasenpipeline STORE Floating point 15

16 Beschleunigung des Speicherzugriffs (1) Von-Neumann-Architektur (gemeinsamer Befehls- und Datenspeicher) Instruction and Data memory Universell, aber Flaschenhals Harvard-Architektur (getrennter Befehls- und Datenspeicher) Instruction memory CPU VT: Befehle und Daten können gleichzeitig geholt werden. Data memory NT: Speicher weniger flexibel nutzbar Speicherverschränkung (Memory Interleaving) Einteilung des Speichers in mehrere Module, aus denen gleichzeitig gelesen bzw. geschrieben werden kann. Verschränkung der unteren Adressbits erlaubt gleichzeitigen Zugriff auf konsekutive Elemente in Modulen 0, 1,... 2 m

17 Beschleunigung des Speicherzugriffs (2) Blockschaltbild eines verschränkten Speichers: n - m Address in module m Module Decoder 0 2 m -1 Module 2 m -1 Module 1 Module 0 Interleaving-Faktor: 2 m 17

18 Beschleunigung des Speicherzugriffs (3) Module 0 Module 2 m - 1 n - m high-order bits Zeitdiagramm 2 m OUT. Data buffer Data buffer Multiplexer m low order Bits n - m high-order bits Access 1 Access 2 Access 1 Access 2 M 0 M 1... M 2 m 1 0 Transfer data of access 1 M Single-word bus Bei entsprechend schnellem Bus und Zugriff auf konsekutive Speicherzellen (z. B. Vektoren) erscheint der Speicher um den Interleaving-Faktor schneller. Typische Interleaving- Faktoren: 4 64 Interleaving oft kombiniert mit dem Blockzugriff von Cache-Speichern. Time 0 t 2t 18

19 Cache-Speicher (1) Lokalitätsprinzip: Lokalität ist der Umstand, dass die innerhalb eines kurzen Zeitintervalls eintretenden Speicherreferenzen die Tendenz aufweisen, sich nur auf einen kleinen Teil des gesamten Speicherraums zu beziehen. (10/90) Regel: zu 90% der Programmlaufzeit wird auf 10% des Speicherbereichs eines Prozesses zugegriffen Cache: ein schneller Zwischenspeicher zwischen CPU und Hauptspeicher; um ein Vielfaches schneller als Hauptspeicher durch engere Anbindung an Verarbeitungseinheiten und durch bessere Technologie wesentlich kleiner als Hauptspeicher 19

20 Cache-Speicher (1) Prinzip (Cache für physikalische Adressen): Platzierung des Caches im Speicherpfad Treffer (Cache Hit): Auslesen bzw. Einschreiben der Daten kein Treffer (Miss): Nachladen aus Hauptspeicher 20

21 Meist Einteilung in Blöcke (Linien) à mehreren Worten (Cache Lines), d. h. Aufteilung der Adressen in Linienadresse (Tag) und Adresse innerhalb der Linie. Adresse:: MSB Cache-Speicher (2) Tag Bereich für Platzierung bzgl. Cache-Teilbereiche Adresse innerh. Linie LSB Reale Linienadresse (Requested Tag) wird mittels assoziativem Speicher mit Tags der Linien im Cache verglichen. Tag 0 Tag memory Requested tag Tag 1 Line 0 Line 1 Data memory Tag N Line N Miss Data 21

22 Cache-Speicher (3) Aufgrund der Lokalität (räumlich und zeitlich) von Programmen sehr hohe Trefferraten (95-98 %). Oft Kombination mit verschränktem Speicher (stets Transfer ganzer Blöcke). Heute meist ausgefeilte Cache-Hierarchien, zum Beispiel: Level 1-Cache (on chip): Level 2-Cache (extern o. on chip): ( KByte) (512 KByte...8 MByte) Level 1-Caches oft in Daten- und Befehlscaches getrennt (Split-Caches, Harvard-Architektur). Teilweise auch Level 3-Caches. Caches konnten im physikalischen Adressraum (hinter der MMU) oder im logischen Adressraum (vor der MMU) angeordnet sein. 22

23 Ablauf eines Speicherzugriffs Real address Search cache tag memory Cache hit NO YES Update line status Get line from cache Send real address to main memory Select cache entry for replacement Receive line Select requested bytes Store line in cache Output to CPU 23

24 Platzierungsstrategien Wo im Cache ist welcher Teil der Hauptspeicherdaten (Cache Linie) unterzubringen? Ort ist nicht fest vorgegeben, da die Hauptspeicherdaten zusammen mit ihrer Adresse im Cache abgelegt werden. Voll-assoziativer Cache Dennoch ist Ortsvorgabe/ bzw. Einschränkung der möglichen Orte sinnvoll: Direkt abgebildeter Cache Mengenassoziativer Cache 24

25 Voll-assoziativer Cache (fully associative) Platzierungsstrategien (Placement Policies) (Beispiel: 1 MByte Hauptspeicher, 16 KByte Cache) Tag Cache Data Line 0 Line 1.. Line 1023 Main memory Line 0 Line 1. Line Line Jede Cache-Linie kann jede beliebige Linie aus dem Hauptspeicher aufnehmen. Da Reihenfolge der Linien im Cache beliebig, ist ein Assoziativspeicher für die Tags erforderlich. Hohe Trefferrate, aber hoher Aufwand: entweder zusätzlicher Zeitbedarf durch assoziative Suche oder hohe Anzahl von Komparatoren 25

26 Direkt abgebildeter Cache (direct mapped) Tag Cache Data Line 0 Line 1 Main memory Line 0 Line 1 Line 2 Jeder Cache-Eintrag i kann nur Linien mit Adressen A aufnehmen, für die gilt A mod M = i ; (Restklassen-Einteilung).. Line 1022 Line Line 1023 Line 1024 Line Line Line Line Line M: Anzahl Linien pro Cache Kein assoziativer Speicher erforderlich: Mittels Adressteil Line wird der zugehörige Eintrag im Cache direkt ausgewählt. Stimmt Tag überein, so liegt ein Treffer (Hit) vor. Vorteile: Leicht implementierbar Aufwandsarmer Zugriff, da keine assoziative Suche erforderlich ist Nachteil: Geringe Trefferraten wenn Speicherzellen aus gleicher Restklasse benötigt werden. 26

27 Mengen-assoziativer Cache (set-associative) Cache Main memory Tag Data Line 0 Line 0 Cache wird in S Mengen eingeteilt. Set 255 Set 0 Line 1 Line 2 Line 3 Line 4. Line 1022 Line 1022 Line 1022 Line Line 255 Line Line Line Wie bei direkter Abbildung Zuordnung der Adressen A mit A mod S = i zu Menge i. Da L = M/S Linien pro Menge vorhanden, assoziative Suche mittels Tag, ob gewünschte Linie im Cache liegt. Spezialfälle: S = 1: voll-assoziativer Cache L = 1: direkt abgebildeter Cache M: Anzahl Linien pro Cache A: Adresse Line Guter Kompromiss, in der Praxis häufig eingesetzt. 27

28 Cache Ersetzungsstrategien Ersetzungsstrategien (Replacement Policies) Bei (voll-/mengen-)assoziativen Caches muss entschieden werden, welche Cache-Linie beim Einlagern einer neuen Linie ausgelagert wird: Häufigste Strategien: - Random: Auszulagernde Linie wird zufällig ausgewählt. - LRU (Least Recently Used): Diejenige Linie wird ausgelagert, die am längsten nicht referenziert worden ist. LRU ist schwieriger zu implementieren (zusätzlicher Zähler je Cache Linie). In einer Studie wurde festgestellt. Dass bei einem 2-fach assoziativen Cache die Hit Rate nur 1.1 mal höher ist als für Random. Für große Caches und damit kleine Miss Rate ist der Unterschied nur noch gering. 28

29 Cache Rückspeicherstrategien Behandlung von Schreibzugriffen: Write-Through: Rückspeichern bei jedem Schreiben auf den Cache (Konsistenz bleibt erhalten!) Write-Back (Copy Back):Rückspeichern nur bei Ersetzen einer Cache-Linie (zeitweise Inkonsistenz zwischen Cache und Hauptspeicher) Vorteile von Write-Back: - Prozessor kann mit Cache-Rate schreiben (bei Write Hit), nicht nur mit Hauptspeicher-Rate. - Mehrfaches Schreiben in die gleiche Linie erfordert nur einmal das Rückschreiben in den Hauptspeicher. - Beim Rückspeichern der Linie kann von Techniken zur Erhöhung der Speicherbandbreite wie z.b. Speicherverschränkung gemacht werden. 29

30 Cache Rückspeicherstrategien Vorteile von Write-Through: - Write-Through ist einfacher zu implementieren. Zur Erhöhung der Geschwindigkeit kann ein Write Buffer eingesetzt werden, d. h. das langsame Speichern in den Hauptspeicher wird von einem Puffer aus abgewickelt, während der Prozessor nach einem Write Hit bereits weiterläuft. - Konsistenz mit Hauptspeicher ist vorteilhaft, wenn auch andere Einheiten (z. B. I/O-Einheiten, andere Prozessoren) auf den Hauptspeicher zugreifen. Multiprozessoren und Cache-Konsistenz/Kohärenz 30

31 Implementierung: Direkt abgebildeter Cache Direkt-abgebildeter Cache von 64 KB mit 16-Byte-Linien (Adress- und Wortlänge 32 Bit, Byteadressierung) Address (showing bit positions) Byte offset Hit Tag 16 Index 12 2 Block offset Data V 16 bits Tag 128 bits Data 4K entries = Mux 32 31

32 Implementierung: Direkt abgebildeter Cache Funktionsweise des direkt-abgebildeten Caches: - Valid Flag (V) zeigt an, ob die Cache-Linie gültig ist. - Index-Feld (12 Bit) adressiert direkt die Cache-Linie. - Ausgelesenes Tag wird mit Tag-Feld der Adresse (obere 16 Bit) verglichen (bei Gleichheit: Cache Hit) Gewünschtes Wort innerhalb der Linie wird anhand des Block-Offsets mit einem Multiplexer (Mux) ausgewählt 32

33 Implementierung: Mengen-assoziativer Cache 4-fach assoziativer Cache von 4 KB mit 1-Wort-Linien (Adress- und Wortlänge 32 Bit, Byteadressierung) Index V Tag = Data 22 Address V Tag Data V Tag Data V Tag = = = 8 22 Data 32 L=4 Linien je Satz: deshalb 4-Wege assoziativ, oder 4- fach assoziativ S=256 Sätze (Sets, Mengen): Dann auch als 256- Mengen-assoziativ bezeichnet 4-to-1 M ultiplexer Hit Data 33

34 Implementierung: Mengen-assoziativer Cache Funktionsweise des 4-fach-assoziativen Caches: - Valid-Flag zur Anzeige einer gültigen Cache-Linie. - Set-Feld (8 Bit) adressiert parallel alle 4 Linien innerhalb der Menge. - Die 4 ausgelesenen Tags werden parallel mit dem Tag-Feld der Adresse (22 Bit) verglichen (bei Gleichheit Cache Hit). - Bei Cache Hit wird die gefundene Cache Linie mittels eines 4-zu-1-Multiplexers ausgewählt (alternative Implementierung über Chip Select der Speicherchips). Langsamer als direkt-abgebildeter Cache durch Tag-Vergleich vor Auswahl der Linie. 34

35 Geschwindigkeitsgewinn durch Caches Effektive Zugriffszeit mit Cache T s H T 1 H T1 T2 T1 H T2 1 1 T s: System-Zugriffszeit (mit Cache) T 1 : Cache-Zugriffszeit T 2 : Hauptspeicher-Zugriffszeit H: Cache-Trefferrate (Hit ratio) Zugriffseffizienz des Cache E c T T 1 s T 1 T H T T2 1 r 1 H 2 1 H T 1 1 mit r T 2 T 1 35

36 Cache-Zugriffseffizienz Cache-Zugriffseffizienz als Funktion der Trefferrate H bei verschiedenen relativen Cache-Geschwindigkeiten r T 2 T 1. 36

37 Virtueller Speicher (1) Grundprinzip der Umsetzung der virtuellen Adresse (VA) zu einer physikalischen Adresse (PA) VA msb Adressbereiche lsb Seiten-Nr Offset Seitentabelle physikalischer Speicher Kachel-Nr PA Kachel 37

38 Virtueller Speicher (2) Grundprinzip wird um Eingabe des Prozess-Id erweitert. Damit entstehen unter verschiedenen Prozessen unterschiedliche physikalische Adressen für gleiche virtuelle Adressen. Prozeß -ID VA msb Seiten-Nr Adressbereiche Seitentabelle für PID Kachel-Nr Offset lsb physikalischer Speicher PA Kachel 38

39 Virtueller Speicher (3) Typischerweise wird eine mehrstufige Umsetzung durch kaskadierte Seitentabellen vorgenommen. VA msb Tabellen-Nr Adressbereiche Seiten-Nr Offset lsb 1. Stufe Tab-Nr 2. Stufe Kachel-Nr physikalischer Speicher PA Kachel Vorteil: Für nicht benutzte Speicherbereiche können Tabellen auf 2. Stufe fehlen. Damit weniger Speicheraufwand für Verwaltung. 39

40 Beschleunigungstechniken für den Prozessor Verschiedene Techniken: Befehlsphasenpipelining Befehlspipelining VLIW SIMD 40

41 Befehlsphasenpipelinig (1) Zeitlich überlappte Ausführung von Befehlshol- und verschiedenen Ausführungsphasen: Instr. Fetch (IF), Instr. Decode (ID), Operand Fetch (OF), Execute (E), Store (S) Sequentiell I 3 I 2 I 1 3 Befehle in 15 Takten, 5 Takte je Befehl (CPI=5) IF ID OF EX S IF ID OF EX S IF ID OF EX S Befehlsphasenpipelining 3 Befehle in 7 Takten, 2.3 Takte je Befehl, 1 Takt je Befehl wenn Pipeline gleichmäßig gefüllt I 3 I 2 I 1 IF ID OF EX S IF ID OF EX S IF ID OF EX S Ziel: CPI=1. (CPI: Clocks per Instruction) 41

42 Befehlsphasenpipelinig (2) Pipelines in Universalprozessoren jedoch meist nur ungenügend gefüllt Grund: Pipeline-Konflikte Datenabhängigkeiten: Bsp: add R1,R2 ; R1=R1+R2 mul R1,R3 ; R1 = R1*R3; mul add IF ID OF EX S IF ID OF EX S Steuerflussabhängigkeiten: cmp R4,R5 bne ende add R1,R2 ende:... add bne cmp IF ID OF EX S IF ID OF EX S IF ID OF EX S Ausweg: Befehlsumordnung im Compiler, Spekulative Befehlsausführung 42

43 Superskalarität (1) Superskalar, wenn Befehlsphasen-Pipeline mit mehreren Funktionseinheiten für die Ausführung der Kernaktivitäten kombiniert ist und dynamische Zuweisung von Befehlen an die Funktionseinheiten erfolgt Instruction Fetch Instruction Decode and Rename Instruction Window Issue Execution Execution Retire and Write Back In Order Out of Order In Order Quelle: T.Ungerer, U. Brinkschulte Mikrocontroller und Mikroprozessoren, Springer Verlag

44 Superskalarität (2) Befehlshole-Stufe lädt Befehle aus dem Code-Cache, je Takt werden mindestens so viele Befehle geholt, wie den Ausführungseinheiten zugewiesen werden können. Ggf. wird Sprungvorhersage benutzt, um zu entscheiden, welche Befehle zu holen sind Ein Befehlsholepuffer entkoppelt Befehlsholestufe von der Decodierstufe Die Bandbreite der Dekodierstufe entspricht meist der maximalen Zuordnungsbandbreite. Operanden und Resultatregister werden umbenannt, d.h. die in den Befehlen angegebenen Register werden auf die physikalisch vorhandenen Register abgebildet. Befehlsfenster: Befehlsmenge mit umbenannten Registern und frei von Steuerflussabhängigkeiten 44

45 Superskalarität (3) Im Befehlsfenster müssen nur noch Datenabhängigkeiten und Strukturkonflikte aufgelöst werden. Issue: Zuweisung wartender Befehle an Verarbeitungseinheiten (Reihenfolge der Befehle im Originalprogramm wird im Rückordnungspuffer abgelegt) Zuweisung der Befehle in Umordnungspuffern vor den Ausführungseinheiten, Befehle warten dort solange, bis alle Operanden verfügbar sind (Datenflussprinzip). Danach: Befehlsvervollständigung und Rückordnung der Befehle Befehlsresultate werden gültig gemacht, sofern diese von keiner Spekulation mehr abhängen 45

46 RISC (1) RISC: Reduced Instruction Set Computer Design-Philosophie wenige einfache Befehle, anstatt vieler verschiedenartiger Befehle Befehle haben dann gleiche Länge Einfachere und schnellere Realisierung einer superskalaren Pipeline Lade- und Speicher-Befehle: Rest der Befehle arbeitet auf Registern Großer Satz an Universalregistern Viele innovative Befehlssatzarchitekturen sind RISC- Architekturen, z.b. DLX, MIPS Dennoch hoher Anteil von CISC Architekturen, durch x86- Vorherrschaft 46

47 RISC (2) Vergleich CISC - RISC: summe = a; summe = summe + b; summe = summe + c; summe = summe + d; x86 CISC mov eax,[a] add eax,[b] add eax,[c] add eax,[d] mov [s],eax MIPS RISC load R1,[a] load R2,[b] add R1,R1,R2 load R2, [c] add R1,R1,R2 load R2, [d] add R1,R1,R2 store R1, [s] 47

48 VLIW VLIW-Very Long Instruction Word Breites Befehlsformat, das mehrere unabhängige Befehle kodiert, die parallel auf den Funktionseinheiten des Prozessors ausgeführt werden Bündelung der Befehle erfolgt durch Compiler Original-VLIW ist starr bzgl. Anzahl und Art der Befehle Im wesentlichen bei Signalprozessoren und Multimediaprozessoren eingesetzt, typischerweise mit RISC-Konzept gekoppelt. EPIC-Technik (Explicitly Parallel Instruction Computing) hat sich aus Konzepten von VLIW entwickelt. 48

49 EPIC (1/4) Explicitly Parallel Instruction Computing: Explizite Spezifikation des Parallelismus im Maschinencode (wie VLIW, jedoch weniger starr) Bedingte Ausführung von Befehlen (Prediction) Spekulative Ausführung von Ladeoperationen (Data Speculation) Gruppierung von Befehlen zur parallelen Ausführung durch Zusammenwirken von Compiler und Hardware In IA-64 Architektur implementiert (Intel/HP). 49

50 EPIC (2/4) IA 64 Befehlsformat (41 Bit) Opcode Register1 Register2 Register3 Predicate 14 Bits 7 Bits 7 Bits 7 Bits 6 Bits IA 64 Befehle werden von Compiler in sogenannte Bundles gepackt Befehl 1 41 Bits Befehl 2 41 Bits 128 Bits Befehl 3 41 Bits Template 5 Bits Template zeigt an, ob Befehle gleichzeitig ausgeführt werden dürfen, oder ob benachbarte Bundles parallel ausgeführt werden können 50

51 Beispiel Itanium: Anstoßen der Befehle zur Ausführung Bundle 1 Slot 0 Slot 1 Slot 2 Bundle 2 Slot 0 Slot 1 Slot 2 Dynamische Zuordnung zur Laufzeit (Unterschied zu reinem VLIW) EPIC (3/4) Funktionseinheiten Mem0 Mem1 Integer0 Integer1 FPU0 FPU1 FPU2 Br0 Br1 Br2 Es können bis zu sechs Befehle je Takt zur Ausführung angestoßen werden 51

52 EPIC (4/4) Skalierbarkeit: Bei IA64 dürfen n Mengen von jeweils drei Befehlen gebündelt werden. Itanium: n=2, d.h. 6 Befehle Bundle-Codierung mit Raum für breitere EPIC-Realisierungen Der Code wird dichter, d.h. mehr Befehle werden in einer betrachteten Anzahl von Zyklen decodiert und ausgeführt Schwierigkeiten: Sprünge verhindern ausreichende Füllung der Bundles Wartezeiten auf Load-Operationen würden mehr Verluste bringen 52

53 EPIC Bedingte Befehlsausführung Beispiel (aus W. Karl: Rechnerarchitektur): if (R1==R2) R9 = R10 R11; else R5= R6 + R7; Bedingte Befehlsfolge: cmp.eq p1,p2 = r1, r2;; (p1) sub r9 = r10, r11 (p2) add r5 = r6, r7 Jeder Befehl hat ein Predicate-Feld (6Bit) zur Angabe des Predicate-Registers (z.b. P0 bis P63 vorhanden) Befehl wird ausgeführt, ohne das Ergebnis des Vergleichs zu kennen (Elimination von Sprüngen) In Phase Befehlsvervollständigung werden nur Ergebnisse jener Befehle zurück geschrieben, deren Prädikat zutrifft 53

54 EPIC Spekulatives Laden Vorziehen von Ladeoperationen Spekulation, um für Unterbrechungen korrekte Programmausführung zu erhalten bei einem Überschreiben der Speicherzelle aktuelle Inhalte nachzuladen Instr A Instr B Branch Store Ld8 r1=[r2] Instr (benutzt r1) Ladeoperation kann normalerweise nicht vor (einige) Store-Befehle und nicht vor Sprungbefehle gezogen werden. Ausweg: Spekulatives Laden Ld8.a r1=[r2] Instr A Instr B Branch Store chk.a Instr (benutzt r1) 54

55 SIMD Single Instruction Multiple Data (Klassifikation nach Flynn), d.h. ein Steuerwerk und mehrere Operationswerke, welche die gleichen Befehel durch mehrere Operationswerke parallel auf verschiedenen Daten ausführen. Heute ist SIMD-Prinzip als Erweiterung in Standardprozessoren enthalten. Nutzung breiter Register, Datenpfade (64/128 Bit) für parallele Speicherung, Verknüpfung und Transport kurzer Datentypen (8/16/32 Bit) Beispiele: Sun VIS Instruction Set (siehe SAD-Unterstützung) Intel MMX, Intel SSE (Streaming SIMD Extensions) Athlon 3D/NOW AltiVec (Motorola, PowerPC) 55

56 MMX: SIMD-Erweiterung für Pentium Prozessoren Spezielle Befehle für Multimedia- und Grafik-Algorithmen (z. B. MPEG-Kompression). Auch in RISC-Prozessoren zu finden (z. B. VIS beim Ultra Sparc) Konzept: Ein einzelner Befehl bearbeitet mehrere Daten in einem 64-Bit- Register gleichzeitig (z. B. 8 Byte oder 4 Worte à 16 Bit) MMX-Datentypen Es entsteht SIMD-Parallelarbeit, die vor allem für Multimedia-Anwendungen (8-Bit-Pixel, 16 Bit-Voice-Samples) gut genutzt werden kann 56

57 MMX-Befehlssatz Register: 8 FP-Register (64 oder 80 Bit) Insgesamt 57 Befehle Geschwindigkeitssteigerung von % für typische Multimedia- Anwendungen. 57

58 SSE (SIMD Streaming Extension) SSE-Register 70 zusätzliche Befehle für Multimedia-Anwendungen Eigener Satz von 8 Registern à 128 Bit, eigene Funktionseinheit SIMD-Operationen auch für Gleitkomma-Operanden Prefetch-Instruktionen (Memory Streaming) Leistungssteigerung bei MultimediaMark 99 von 29% gegenüber Pentium bei gleicher Taktfrequenz Weiterentwicklung für Pentium 4 zu SSE 2 (114 neue Befehle) 58

59 MMX Varianten der Arithmetik Arithmetik wahlweise im Wraparound-Modus: Unter- bzw. Überläufe werden abgeschnitten und nur die niederwertigen (dargestellten) Bits abgebildet F000h a2 a1 a h b2 b1 b0 2000h a2+b2 a1+b1 a0+b0 Saturations-Modus: Kein Überlauf oder Unterlauf, stattdessen Abbildung auf kleinste bzw. größte Werte. Sinnvoll z.b. bei Berechung einer Darstellungsfarbe F000h a2 a1 a h b2 b1 b0 FFFFh a2+b2 a1+b1 a0+b0 59

60 Anwendungsbeispiel Anwendungsbeispiel Sum of absolute Differences (SAD), eine zeitkritische Operation bei der Videokompression: SAD( dx, dy) y 0 N n y 0 1 x 0 N 1 m x 0 I K ( m, n) I K 1 ( m dx, n dy) Manipulation n,m Lade jeweils 8 aufeinanderfolgende Werte Absolute Differenzen für die 8 Werte Lade I K (m,n) bis I K (m+7,n) nach mm0 Lade I K-1 (m+dx,n+dy) bis I K-1 (m+dx+7,n+dy) nach mm1 MOVQ mm2, mm0 ; mm2 <-mm0 PSUBUSB mm0, mm1 ; mm0 <- mm0 - mm1 PSUBUSB mm1, mm2 ; mm1 <- mm1 mm2 POR mm0, mm1 MOVQ [esi], mm0 ADD esi, 8 Summierung der absoluten Differenzen j n,m-bereich durchlaufen? n 60

61 Leistungszuwachs Dokumentierter Leistungszuwachs durch MMX: Gewinn bei Übergang von skalarem C-Code zu MMX-Code RGB YUV Umwandlung: >10 Inverse DCT 2D 8x8: 3.5 Absolute Differences: 5 Matrix-Vektor-Multiplikation: 14.6 Geschwindigkeitsgewinn größer 8 u.a. durch Multiply-Add-Befehl Code wird von Prozessorherstellern (Intel, AMD) als so genannte Application Notes veröffentlicht 61

62 MMX, SSE - Weiterentwicklung SSE2: 2x64-Bit FloatingPoint, Zwischenergebnisse nur 64 Bit anstatt der 80 Bit bei 8087, schneller aber geringere Genauigkeit SSE3: horizontale Operationen arithmetische Operationen über Subwörter innerhalb eines Registers SSE4: Integer 2x32-zu-64 Bit Multiplikation ohne Überlauf, mehrfache Multiplikation und Aufsummieren (Skalarprodukt), MPSADBW-Befehl: Summe acht absoluter 8-Bit-Differenzen (SSE4.1) hardwareseitige CRC-32-Prüfsummenbildung (SSE 4.2), Stringverarbeitung (SSE 4.2) Angekündigt: AVX (Advanced Vector Extensions) mit 256 Bit SIMD-Mode 62

63 SIMD-Programmierung Möglichkeiten: Maschinensprache Inline-Assembling Nutzung von Bibliotheken, z.b. Small Matrix Library für SSE Compiler unterstützen teilweise SIMD-Erweiterungen Intel C++ Compiler ab Version 6: SIMD-Datentypen und Makros für MMX, SSE und SSE2 Vektorisierer für einfache Schleifen GNU C-Compiler: SIMD-Datentypen und Makros für MMX, SSE und 3DNow 63