I. Fortgeschrittene Architekturkonzepte

Transkript

1 I. Fortgeschrittene Architekturkonzepte I.1. Einordnung RISC- versus CISC-CPUs. Parallelisierungsansätze. Höhere Informatik Registerumbenennung. Sprungvorhersage. Systemprogrammierung: - Betriebssystemkonzepte, Ein- & Ausgabe K J Architektur: - Modellrechner, Pipelining, Out-Of-Order Technik E F G I Hochleistung I Digitaltechnik: - Logikbausteine, Schaltnetze & -werke, Zahlen C D Elektronik Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-1 B

2 I.2. Parallele Instruktionsausführung I.2.1 Klassifikation von Flynn SISD - Single Instruction, Single Data Stream: ein Steuerwerk, eine ALU mit Registersatz => KE ALU SIMD - Single Instruction, Multiple Data Streams: sinnvoll, wenn Kosten für Steuerwerk überwiegen, ein Steuerwerk, mehrere ALUs => "Arrayprozessoren". KE ALU ALU ALU ALU MIMD - Multiple Instruction, Multiple Data St.: typischerweise mit gemeinsamem Speicher, mehrere Steuerwerke, mehrere ALUs, Multiprozessorsysteme => ALU KE ALU KE ALU KE ALU ALU ALU MISD - Multiple Instruction, Single Data St.: Mehrere Steuerwerke und eine ALU ergibt wenig Sinn. KE KE KE Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-2

3 I.2.2 Superskalare Instruktionsausführung Parallelismus auf der Instruktionsebene (Instruction Level Parallelism). Pro Takteinheit wird mehr als ein Instruktion begonnen: entweder mehrere Instruktionen in einem Speicherwort unterbringen (64 Bit?), oder mehrere Instruktionen schnell hintereinander holen (± superscalar), Dispatch an mehrere Funktionseinheiten: Funktionseinheiten: Functional Units, Execution Units, Load- & Store-Units, Branching Units, Integer Units, FP-Units. Retirement: Abschluss der Instruktion, Freigabe der Register... Nebenbedingung! keine Datenabhängigkeiten, keine Kontrollflussabhängigkeiten, zwischen den gleichzeitigen Instruktionen. Befehl 4 Befehl 5 Befehl 6 Befehl 1 Befehl 2 Befehl 3 FU 1 FU 2 FU 3 FU n Retire Decode Dispatch Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-3

4 I.2.3 Pipelining - gestaffelte Instruktionsausführung Die Instruktionsausführung wird in mehrere kleine Schritte unterteilt und aufeinanderfolgende Instruktionen überlappen. Ausführung ohne Pipeline: 3 Takte pro Instruktion, CPI=3 (Clocks per Instruction) Befehl 1 Befehl 2 Befehl 3 Fetch Decode Execute Fetch Decode Execute Fetch Decode Execute t Ausführung mit Pipeline: eine Instruktion pro Takt wird fertig, im Idealfall CPI ~ 1. Befehl 1 Befehl 2 Fetch Befehl 3 Fetch Befehl 4 Fetch Decode Execute Fetch Decode Execute Befehl 6 Fetch Decode Execute Befehl 7 Fetch Decode Execute Decode Execute Decode Execute Fetch Decode Execute Pipeline ist voll t Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-4

5 I.2.4 Sprungvorhersage - Branch Prediction Weitere Möglichkeit, Lücken in der Pipeline zu vermeiden: je nach Prognose werden die Instruktionen am Sprungziel schon in die Pipeline geholt, vorhergesagte Instruktionen werden spekulativ ausgeführt und evtl. abgebrochen, ist die Vorhersage korrekt, so ergibt sich keine Verzögerung. Statische Sprungvorhersage für unbekannte Sprunganweisungen: für die erstmalige Ausführung einer Instruktionsspur gilt eine statische Vorhersage, bei Rückwärtssprüngen lautet die Prognose "springen" (Schleifeniteration), bei Vorwärtssprüngen lautet die Prognose "nicht springen" (Schleifenexit). Kurze Pipelines behelfen sich mit: Pipeline blockieren falls pendente Sprungentscheidung, Pipeline entleeren, falls unzutreffende Prognose, Verzögerte Sprunganweisung als Notbehelf. Architekturen mit längeren Pipelines: noch mehr spekulative Instruktionsausführung (Zuweisugen), benötigen eine wirksame Sprungvorhersage, erreichen bis zu 98% korrekte Prognosen. Wahlweise Prognose für x86- oder µoperationen. Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-5

6 I.2.5 Dynamische Sprungvorhersage (Intel Nehalem): Branch History Table: zeichnet für einen Sprungbefehl die bisherige Tendenz auf, evtl. zwei Fehlprognosen vor Korrektur der Prognose, Adressen evtl. nur auszugsweise speichern, enthält eine Signatur (?) von Sprüngen. Branch Target Buffer: vermerkt zusätzlich zur Befehlsadresse eine Zieladresse, die Zieladresse liegt dann schon vor und eine Adressrechnung entfällt, ebenfalls wirksam bei indirekten Sprüngen. Call-Return Stapel: stapelt die spätere Rückkehradresse schon beim Aufruf, z.b. 16 Einträge mit bisherigen Rückkehrzielen. Instr. Adresse taken Zieladresse CallRet.-Stapel BHT BTB + Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-6

7 I.2.6 Dynamische Out-Of-Order Ausführung Umordnung der Befehle durch die Hardware zur Laufzeit. Aufbau eines Datenflussgraphen bezüglich virtueller Register: zwischen einer Minderzahl von Operationen besteht eine vorher/nachher Relation, wenn aber keine besteht, so können Operationen nebenläufig ausgeführt werden, sobald die Eingangswerte da sind, läuft die Operation los, Operationen als Balken, Operanden als Kreise, kein richtiges Petri-Netz! Reservierungsstationen: vor den einzelnen F-Units, Ausgabe von Zeitstempeln. Reorder-Puffer: ~ Retirement Unit, Freigabe von Registern, Berücksichtigung v. Zeitstempeln, kein früheres Ergebnis darf ein späteres überschreiben... Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-7

8 I.3. Pentium Architekturdiagramm I.3.1 OOO Beispiel: - Grobstruktur Front-End System: Holen und decodieren von Instruktionen, erzeugen von sog. Mikro-Operationen, Branch Target Buffer nutzen, evtl. Mikro-Code ROM. OOO Ausführungssystem: Abbildung von sichtbaren auf interne Register, Zuordnung von internen Registern auf E-Units, OOO Ausführung, soweit möglich. Retirement-System: Wiederherstellung der ursprünglichen Ordnung, Branch Target Buffer aktualisieren, Interrupts präzise aufrufen. Speicher in-order issue front end out-of-order execution in-order retirement unit Speicher Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-8

9 I.3.2 Intel i7 Chipsatz (X58 IO Hub, ICH10) X58 enthält die Restfunktionen der ehemaligen Nordbrücke. Keine Speicherkontrollerfunktion. IO-Hub ist als Name unglücklich gewählt. Geräteadapter im ICH10 (IO- Controller Hub). Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-9

10 I.3.3 Aktuelle Intel 64 Architektur (Nehalem, i7) Superskalar, Out-Of-Order Ausführung, Multi-Core... X86 Instruktionen Q Decodierung Mikro-Instruktionen Q Register-Allozierung (RAT) Register-Rückordnung Reservierungsstation Funktion Funktion Funktion Funktion Funktion Funktion Resultat Bus Sprungvorhersage... Retirement Register Memory Ordering L1 I- Cache L1 D- Cache L2 Cache + L2 TLB Shared L3-Cache Quick Path Interconnect DDR3 Memory Control E/A RAM Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-10

11 I.3.4 Fetch/Decode Stufe (Intel Nehalem Prozessor) Aus Ablauf: x86-befehle aus L1-Cache holen, 16 Bytes pro Zugriff, daraus maximal 6 x86-befehle nach Befehls-Q, Sprungvorhersage auf Ebene der x86-befehle, 4 x86-befehle in µops decodieren, evtl. x86 Befehle fusionieren, µops in Stream-Puffer, 4 µops bereitstellen. Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-11

12 Dekodierung von x86-befehlen in Mikro-Operationen (μop, uop) Mikro-Befehle ähnlich wie die R-, I-, J-Befehle in einer MIPS-CPU, dekodierter Mikro-Befehl wird in LSD-Puffer geschrieben, Mikrocode-ROM für komplexe Befehle (>4 uops). LSD - Loop-Streaming-Detection Puffer: Enge Programmschleifen erfordern keinen Instruktionsnachschub, keine Decodierung erforderlich, falls Befehl noch im Trace-Cache, enthält Ausführungsspur und nicht Speicherabbild, enthält maximal 28 decodierte Mikro-Befehle, Sprungvorhersage auch für LSD. Unterteilung der Befehlsdecodierung in Pipelinestufen: Zugriff auf den Instruktionscache (evtl. Stall), Bestimmen der Instruktionsgrenzen, nebenläufige Sprungvorhersage, vierfache Decodierung, Pufferung... Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-12

13 I.3.5 Funktionseinheiten - Execution Units Intel Core i7 Processor Extreme Edition (Dez. 2008): Quad Core, 3,2 GHz, 1066 MHz FSB, 8 MB Cache, ~25 GB/sec. Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-13

14 Taktzyklen bis eine neue Instruktion akzeptiert wird: als Referenz Intel IA-32 Architecture Optimization - Reference manual, Appendix C, für höhere Funktionen ohne Pipelining (FPDIV, FPTAN, FPSQRT..), einigermassen deterministisch für Register-zu-Register Instruktionen, 2 Takte für einige Einheiten (FP-Mult, XMM,...), 1 Takt für die Mehrzahl der anderen Einheiten, 0,5 Takte für Integer Einheiten ( >7 GHz ). Latenzzeiten für pipelined Instruktionen: Register-zu-Register Instruktionen, 0,5 Takte für manche Integer Instruktionen, 1-16 Takte für andere überlappend ausgeführte Instruktionen, Speicherzugriffe: Über Load- & Store-Units, auf Cache oder Arbeitsspeiche, 1066 MHz * 8 Bytes (4-fach verschränkt, Basistakt 266MHz), Memory-Reorder Puffer liefert noch nicht gespeicherte Operanden. Out-Of-Order Engine wird später erläutert. Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-14

15 I.4. Weitere Registerabhängigkeiten I.4.1 Read-after-Write Hazard (Revisited) Entstehen, weil Resultate früherer Befehle noch nicht verfügbar sind. RAW-Konflikte können mithilfe einer Forward-Logik entschärft werden: wurde im Rahmen der MIPS-Architektur ausgiebig diskutiert, Pipelineblockierungen (Stalls, Bubbles) evtl. reduzieren. Zyklendiagramm: Pipelinesituation: Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-15

16 I.4.2 Write-after-Read Hazard Add.d f7,f7,f4 wartet auf Register f7 (Read-after-Write, kein Forward). WAR-Konflikt auf f4: mul.d f4,f5,f6 darf f4 noch nicht schreiben, alter Inhalt von f4 wird noch benötigt, add.d kann seine beiden Operanden f7, f4 noch nicht holen, entsteht nur mit mehr als einer Pipeline bzw. FU. Zyklensituation: Pipelinesituation: Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-16

17 I.4.3 Write-after-Write Hazard WAW auf Register f7: add wartet mit dem Schreiben von Register f7, mul muss vor dem add-befehl in f7 schreiben. Zyklendiagramm: Pipelinesituation: add wartet in Stufe 1, warten in der letzen Stufe wäre auch OK. Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-17

18 I.5. Dynamische Ausführungsplanung I.5.1 Scoreboard Technik Aus der Sicht einer anstehenden Instruktion: 1. Wartet solange keine Ausführungseinheit (FU) frei ist, 2. Wartet solange ein WAW-Konflikt beim Resultatregister besteht, 3. FU wird belegt, sobald Bedingungen aus 1 & 2 nicht mehr zutreffen, 4. FU wartet mit der Ausführung, bis die Operanden verfügbar werden, 5. FU wartet mit Resultatablieferung bis ein allfälliger WAR vorbei ist. 4: Bereit? 4: Bereit? Instruktion (1,2?) 1: Frei? 2: WAW? Oft sind zuwenig Resultatregister verfügbar! 5: WAR? Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-18

19 I.5.2 Register-Umbenennung Dynamische Registerumbenennung reduziert WAR- & WAW-Konflikte und erleichtert die Out-Of-Order Ausführung. Zum Beispiel beim Pentium IV: In einer "Front-End" Stufe werden Maschinenbefehle in Mikro-Ops umgesetzt, die Intel IA-32 Register werden dynamisch auf 128 interne Register abgebildet, die sichtbaren IA-32 Register werden mehrfach abgebildet (Register-Aliasing), für die Rückabbildung der internen auf die IA-32 R. gibt es Zeitstempel. die IA-32 Architektur hat aus heutiger Sicht zu wenig Register, Aufbau eines Ablaufplanes: im Prinzip kann ein suboptimaler deterministischer Ablaufplan erstellt werden, die Wartezeiten auf Speicher, Cache und Sprünge sind unvorhersehbar, nichtdeterministische OOO-Ausführung kann Wartezeiten überbrücken. Interne vs. reale Register? wenn die Register schon da sind, könnte man sie auch direkt programmieren, Selektierung von 128 Registern benötigt je ein 7 Bit Feld in der Instruktion, ein rotierendes Register-Fenster würde die Register-Auswahl erleichtern, die IA-64 Architektur macht die Ausführungssteuerung explizit. Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-19

20 I.5.3 Tomasulo Verfahren Out-Of-Order Ausführung, vorgeschlagen von Robert Tomasulo: erstmals verwendet für die Gleitkommaeinheit der IBM 360/91, Entspricht Scoreboarding mit zusätzlicher Registerumbenennung. Reservierungsstationen X86 R## Mikro- Befehle Interne Register Resultat Bus Functional Units Retirement Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-20

21 Reservierungsstationen: puffern verfügbare Ergebniswerte und vermeiden damit WAR-Konflikte, verzeichnen Referenzen auf noch nicht verfügbare Ergebnisse, erkennen ankommende Ergebnisse auf dem Resultatbus, werden erst einer FU zugeordnet, wenn Operanden da, jede Reservierungsstation entspricht einer Instruktion. Registerabbildungstabelle: verzeichnen, welche x86 Register auf welche internen Register abgebildet sind, die Abbildung ändert sich, wenn jeweils ein neues Resultatregister benötigt wird, nach Abschluss der Berechnung zeigt die Abbildung den Maschinenzustand, Neuzuordnung von Resultatregistern ermeidet WAW-Konflikte. Resultatbus: liefert Resultatwerte an die wartenden Reservierungsstationen, speichert Resultatwerte in die virtuellen Register, unterstützt RAW-Management. Retirement-Unit: Wegwerfen von spekulativ berechneten Resultaten, Freigabe der internen Register und der FUs, Bussteuerung. Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-21

22 I.5.4 Out-Of-Order Ausführungseinheiten (Netburst) Rechenwerke (RISC-artig): FP-Move, FP-Exec/MMX, Load, Store 2 Ausführungseinheiten für einfache Instruktionen: doppelter Systemtakt, ALU-0, ALU-1. Langsame ALU für komplexe Integer-Instruktionen: Shift/Rot, 1 µbefehl pro Takt. Einfache Fließkommaeinheit. Vollausgebaute Fliesskommaeinheit: SIMD-Befehle (Single-Instruction-Multiple-Data) für gepackte Daten, einschließlich MMX, SSE, SSE2 Operationen. Speicher-Einheit - "Store": über Warteschlange. Lade-Einheit - "Load": Memory Prefetch, Store-Forwarding über Memory-Reorder Unit. Speichersubsystem wird später besprochen (Busse). Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-22

23 I.5.5 Gesamtbild i7 / Nehalem Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-23

24 I.5.6 Gesamtbild AMD64 (Barcelona) Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-24

25 I.6. Entwicklungsrichtungen I.6.1 Allgemeines Weiter erhöhte Integrationsdichte: Mehr Platz für Pufferspeicher und Logik auf dem Chip, Schritt zu breiteren Daten- und Befehlswörtern, zusätzliche unsichtbare Register, weitergehende Parallelisierung. Replikation auf dem Chip: Hyperthreading: Multicore CPU: Zell-Prozessoren: Replikation der Register, aber nicht der Funktionseinheiten, Vollständige Replikation des Prozessorkerns, Viele, teilweise spezialisierte Kerne. Teilweise 20 und mehr Pipelinestufen: Delayed Branch und Register-Forwarding sind nicht mehr effektiv, mehrere Pipelines gleichzeitig. Konzepte: Out-Of-Order Execution (OOO) = Dynamische Änderung der Befehlsreihenfolge dynamische Sprungzielvorhersage, Daten- und Kontrollspekulation, Register-Umbenennung... Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-25

26 I.6.2 Schlagwörter VLIW (Very Large Instruction Word) Befehlssatz ist in besonders breiten Befehlen codiert (128 bis 1024 Bit) Befehl steuert parallele Einheiten gleichzeitig an (vgl. horizontale µprogrammierung) Befehle müssen vom Compiler zusammengestellt werden EPIC (Explicit Parallel Instruction Computing) Compiler kombiniert p Befehle zu einem Befehlsbündel Template gibt an, ob Befehle parallel ausführbar z.b. IA-64 (Merced, Itanium) für p = 3, Deep Speculation. Spezielle Instruktionen Prefetch Instruktionen, um den Cache vorsorglich zu laden. Conditional-Move Instruktionen zur Sprungvermeidung, Bypass Instruktionen am Cache vorbei. Multithreading: Vervielfachung des Registersatzes (Hyperthreading), Mehr als ein Prozessorkern pro Chip (Multicore). Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-26

27 I.6.3 Messung und Bewertung von Rechnerleistung Leistungsmaße für einen Rechner unter einer gegebenen Last (Programm P): CPI (Clocks per Instruction), MIPS (Million Instructions per Second), Maximal- bzw. Minimalwerte in der Regel nicht sinnvoll Benchmark: LINPACK ( lineares Gleichungssystem. Benchmark: SPEC CPU 2000 ( SPECint2000: Mix aus 12 Anwendungsprogrammen nur mit Integerbefehlen z.b. gzip, gcc, crafty (Schach), perl... SPECfp2000: Mix aus 14 Anwendungsprogrammen mit Fließkommabefehlen, z.b. equake, art (neuronales Netz), mesa (3D-Grafik), facerec (Gesichtserkennung)... Evtl. Nutzung prozessorspezifischer Messregister (MSR)... Technische Informatik 2, Wintersemester 2007/08, P. Schulthess & F. Hauck, VS Informatik, Ulm E-27