Beispiele von Branch Delay Slot Schedules

Größe: px

Ab Seite anzeigen:

Download "Beispiele von Branch Delay Slot Schedules"

Ingelore Tiedeman
vor 7 Jahren
Abrufe

1 Beispiele von Branch Delay Slot Schedules Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 97

2 Weniger Branches mit Conditional Instruktionen Beispiel MIPS Instruktionen movn und movz: movn $8, $11, $4 # $8 = $11, wenn $4!= 0 movz $8, $11, $4 # $8 = $11, wenn $4 == 0 Beispiel ARM ISA: ADDEQ r0,r1,r2 ; If zero flag set then ;... r0 = r1 + r2 Grundlagen der Rechnerarchitektur Prozessor 98

3 Quiz Betrachte die folgenden Branch Strategien: 1. Vorhersage Branch findet statt 2. Vorhersage Branch findet nicht statt 3. Dynamische Branch Vorhersage (mit 90% Genauigkeit) Was ist die beste Strategie, wenn: Branch findet mit 5% Häufigkeit statt? Branch findet mit 95% Häufigkeit statt? Branch findet mit 70% Häufigkeit statt? Grundlagen der Rechnerarchitektur Prozessor 99

4 Multiple Issue Grundlagen der Rechnerarchitektur Prozessor 100

5 Motivation Bisher: Instruction Level Parallelism (ILP) durch Pipelining ILP kann durch Pipeline Stufe erhöht werden Pipelines mit mehr Stufen sind anfälliger gegenüber Data und Control Hazards Also: Pipeline Stufen nur bis zu gewisser Tiefe sinnvoll Außerdem: Grenzen aufgrund der Leistungsaufnahme CPI bleibt gleich oder steigt sogar (wegen Hazards), Clock Rate steigt Hier eine weitere Methode um ILP zu steigern: Multiple Issue Replikation von internen CPU Strukturen, sodass mehrere Instruktionen pro Pipeline Stufe möglich sind CPI sinkt und Clock Rate bleibt gleich (oder sinkt sogar wegen erhöhter Komplexität) Beispiel: CPI eines 4 Wege Multiple Issue Mikroprozessor hat eine ideale CPI von? 0.25! CPI liegt aber in der Regel höher, wie wir gleich sehen werden Wir unterscheiden zwischen: Static Multiple Issue: Entscheidungen werden zur Compile Zeit gefällt Dynamic Multiple Issue: Entscheidungen werden zur Laufzeit gefällt (auch Superskalare CPU bezeichnet) Grundlagen der Rechnerarchitektur Prozessor 101

6 Multiple Issue Static Multiple Issue Grundlagen der Rechnerarchitektur Prozessor 102

7 Generelle Idee Eine große Instruktion pro Clock Cycle Große Instruktion besteht aus mehreren gleichzeitig stattfindenden Operationen Aber nicht jede Kombination von Operationen möglich Beispiel: ALU Operation und Speicheroperation gleichzeitig möglich Aber zwei ALU Operation auf einmal nicht möglich Terminologie: VLIW (Very Long Instruction Word) Grundlagen der Rechnerarchitektur Prozessor 103

8 Beispiel am MIPS Datenpfad ALU für arithmetische Operationen Extra ALU für gleichzeitige Adresskalkulation Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 104

9 Statische Two Issue Pipeline im Betrieb Was ist der CPI Wert? Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 105

10 Was ist nun die Aufgabe des Compilers? Compiler erzeugt Assembler Code: Loop: lw $t0, 0($s1) # $t0=array-element addu $t0, $t0, $s2 # addiere Wert sw $t0, 0($s1) # Speichere Element addi $s1, $s1, -4 # nächstes Element bne $s1, $zero, Loop # solange $s1!= 0 und ordnet Instruktionen so an, dass keine Pipeline Stalls entstehen Was ist der CPI Wert? Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 106

11 Verbesserung: Loop Unrolling Code wie vorher (der Einfachheit sei Loop Index Vielfaches von 4): Loop: lw $t0, 0($s1) # $t0=array-element addu $t0, $t0, $s2 # addiere Wert sw $t0, 0($s1) # Speichere Element addi $s1, $s1, -4 # nächstes Element bne $s1, $zero, Loop # solange $s1!= 0 Loop Body vier mal kopiert und Register Renaming Was ist der CPI Wert? Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 107

12 Multiple Issue Dynamic Multiple Issue Grundlagen der Rechnerarchitektur Prozessor 108

13 Generelle Idee CPU entscheidet, ob und wie viele aufeinander folgende Instruktionen parallel gestartet werden können Compiler erzeugt nur eine Folge von Instruktionen; kein VLIW Instruktions Scheduling des Compilers nicht mehr erforderlich aber trotzdem aus Performance Gründen sinnvoll Verbesserung der Superskalarität durch dynamisches Pipeline Scheduling: Instruktionsreihenfolge darf geändert werden, um Stalls zu vermeiden Grundlagen der Rechnerarchitektur Prozessor 109

14 Dynamic Pipeline Scheduling Motivation lw $t0, 20($s2) # zunächst $t0 laden addu $t1, $t0, $t2 # addu durch lw verzögert sub $s4, $s4, $t3 # sub könnte schon starten slti $t5, $s4, 20 # und genau so auch slti Warum nicht sub (und ggf. slti) vor addu vorziehen? Grundlagen der Rechnerarchitektur Prozessor 110

15 Dynamic Pipeline Scheduling generell Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 111

16 Wiedervorlage: Daten einiger ausgewählter Prozessoren Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 112

17 Zusammenfassung und Literatur Grundlagen der Rechnerarchitektur Prozessor 113

18 Zusammenfassung Schlechte Performance von Single Cylce Ansatz Instruktionsabarbeitung besteht aus mehreren Zyklen Moderne Prozessoren nutzen dies für Pipelining Multiple Issue Allgemein als Instruction Level Parallelism bezeichnet Für High Level Programmierer ist die Parallelität nicht sichtbar Sichtbar auf Assembler Ebene Sichtbar auf Compiler Ebene Hauptprobleme die die Parallelität einschränken Daten Abhängigkeiten Control Abhängigkeiten Methoden um Data und Control Hazards zu reduzieren Scheduling Spekulation Sichtbare Grenze der Power Wall ist erreicht Trend zu Multicores mit einfacheren Pipelines Konsequenz: Parallelität nicht mehr von der Hardware gekapselt Grundlagen der Rechnerarchitektur Prozessor 114

19 Quiz Super! Geschafft. Auf zum nächsten Level. Pipelining erhöht den Durchsatz aber reduziert nicht die Instruktions Latenz. [ ] Nein, Durchsatz und Latenz sinken [ ] Nein, Durchsatz und Latenz steigen [ ] Ja, das ist richtig Welchen Einfluss hat Superskalarität auf den CPI Wert? [ ] Der CPI Wert bleibt immer unverändert, [ ] Der CPI Wert steigt an. [ ] Der CPI Wert kann unter 1 fallen. Eine Pipeline mit k Stufen erreicht asymptotisch immer eine Performance Ratio von k. [ ] Jawohl. [ ] Nein, die Ratio kann darunter liegen. [ ] Nein, die Ratio kann sogar noch höher liegen. Mittels Pipelining kann man die Taktrate eines Rechners erhöhen. [ ] Stimmt! [ ] Nein, das ist völliger Quatsch. Welchen Einfluss hat Pipelining auf den CPI Wert? [ ] Der CPI Wert bleibt immer unverändert. [ ] Der CPI Wert kann unter 1 fallen. [ ] Der CPI Wert steigt in der Regel an. Grundlagen der Rechnerarchitektur Logik und Arithmetik 115 Bildquelle: content/artikel_endgegner_bild.jpg

20 Literatur [PattersonHennessy2012] David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, Introduction 4.2 Logic Design Conventions 4.3 Building a Datapath 4.4 A Simple Implementation Scheme 4.5 An Overview of Pipelining 4.6 Pipelined Datapath and Control 4.7 Data Hazards: Forwarding versus Stalling 4.8 Control Hazards 4.10 Parallelism and Advanced Instruction Level Parallelism 4.11 Real Stuff: the AMD Opteron X4 (Barcelona) Pipeline Grundlagen der Rechnerarchitektur Prozessor 116

Ähnliche Dokumente

Grundlagen der Rechnerarchitektur

Grundlagen der Rechnerarchitektur Einführung Unsere erste Amtshandlung: Wir schrauben einen Rechner auf Grundlagen der Rechnerarchitektur Einführung 2 Vorlesungsinhalte Binäre Arithmetik MIPS Assembler