Was ist die Performance Ratio?

Transkript

1 Was ist die Performance Ratio? Wie eben gezeigt wäre für k Pipeline Stufen und eine große Zahl an ausgeführten Instruktionen die Performance Ratio gleich k, wenn jede Pipeline Stufe dieselbe Zeit beanspruchen würde. Allerdings brauchen die einzelnen Stufen s1,...,sk unterschiedliche Zeiteinheiten: t 1,..., t k. Somit ist die Performance Ratio für n Instruktionen: Mit den Zeiten aus dem vorigen Beispiel für n also: Die Performance Ratio wird durch die langsamste Stufe bestimmt. Grundlagen der Rechnerarchitektur Prozessor 51

2 Taktung Annahme die einzelnen Abschnitte des MIPS Instruktionszyklus benötigen die bisher betrachteten Ausführungszeiten: Instruction Fetch 200ps, Register Read 100ps, ALU Operation 200ps, Data Access 200ps, Register Write 100ps. Wie hoch dürfen wir unseren Prozessor (ungefähr) Takten? Die längste Stufe benötigt 200ps. Also gilt für den Clock Cycle c: Achtung: Maximal mögliche Taktung hängt aber auch von anderen Faktoren ab. (Erinnerung: Power Wall). Grundlagen der Rechnerarchitektur Prozessor 52

3 Quiz Welchen CPI Wert suggeriert das MIPS Pipelining Beispiel? Achtung: der CPI Wert ist in der Regel höher, wie wir noch sehen. Grundlagen der Rechnerarchitektur Prozessor 53

4 Der Ansatz ist noch zu naiv Beispiel: lw $5, 500($0) lw $4, 400($0) lw $3, 300($0) lw $2, 200($0) lw $1, 100($0) IF ID EX MEM WB Grundlagen der Rechnerarchitektur Prozessor 54

5 Pipelining Pipeline Register Grundlagen der Rechnerarchitektur Prozessor 55

6 Pipeline Stufen brauchen Pipeline Register Grundlagen der Rechnerarchitektur Prozessor 56

7 Pipeline Stufen brauchen Pipeline Register Control Write Register darf erst in der WB Stufe gesetzt werden. Änderung im Tafelbild Wird durchgereicht RegDst steht mit der Entscheidung von Control erst in der EX Stufe fest. Grundlagen der Rechnerarchitektur Prozessor 57

8 Was speichern die Pipeline Register? Wir schauen uns den Weg einer einzigen Instruktion durch die Pipeline an; und zwar den der Load Word Instruktion lw. Auf dem Weg durch die Pipeline überlegen wir, was alles in den Pipeline Registern IF/ID, ID/EX, EX/MEM und MEM/WB stehen muss. In der Darstellung verwenden wir folgende Konvention. Bedeutet: Register/Speicher wird gelesen Bedeutet: Register/Speicher wird beschrieben Grundlagen der Rechnerarchitektur Prozessor 58

9 Was speichern die Pipeline Register? IF/ID: Instruktion PC+4 (z.b. für beq) Grundlagen der Rechnerarchitektur Prozessor 59

10 Was speichern die Pipeline Register? ID/EX: PC+4 (z.b. für beq) Inhalt Register 1 Inhalt Register 2 Sign ext. Immediate (z.b. für beq) Das Write Register (wird im Letzten Zyklus von lw gebraucht) Generell: Alles was in einem späteren Clock Cycle noch verwendet werden könnte, muss durchgereicht werden. Grundlagen der Rechnerarchitektur Prozessor 60

11 Was speichern die Pipeline Register? EX/MEM: Ergebnis von PC+4+ Offset (z.b. für beq) Zero der ALU (z.b. für beq) Result der ALU Register 2 Daten (z.b. für sw) Das Write Register (wird im letzten Zyklus von lw gebraucht) Grundlagen der Rechnerarchitektur Prozessor 61

12 Was speichern die Pipeline Register? MEM/WB: Das gelesene Datum aus dem Speicher (wird dann von lw im nächsten Zyklus ins Write Register geschrieben) Das Ergebnis der ALU Operation (für die arithmetisch logischen Instruktionen) Grundlagen der Rechnerarchitektur Prozessor 62

13 Was speichern die Pipeline Register? Für die letzte Pipeline Stufe braucht man kein Pipeline Register. Grundlagen der Rechnerarchitektur Prozessor 63

14 Zusätzlich wird noch Control Info gespeichert Control Grundlagen der Rechnerarchitektur Prozessor 64

15 Zusätzlich wird noch Control Info gespeichert Werden durchgereicht. Control hängt von der Instruktion ab. Damit muss Control Info erst ab ID/EX Register gespeichert werden. Das ID/EX Register muss bereitstellen: RegDst ALUOp (2) ALUSrc Das EX/MEM Register muss bereit stellen: Branch MemRead MemWrite Das MEM/WB Register muss bereit stellen: MemtoReg RegWrite Grundlagen der Rechnerarchitektur Prozessor 65

16 Pipelining Pipelining Visualisierung Grundlagen der Rechnerarchitektur Prozessor 66

17 Pipelining Visualisierung Zusammenfassung der vorhin implizit eingeführten Visualisierungen und Einführung einer neuen Visualisierung. Wir betrachten folgenden Beispiel Code: lw $10, 20($1) sub $11, $2, $3 add $12, $3, $4 lw $13, 24($1) add $14, $5, $6 Wir unterscheiden generell zwischen zwei Visualisierungsarten: Single Clock Cylce Pipeline Diagramm und Multiple Clock Cycle Pipeline Diagramm Grundlagen der Rechnerarchitektur Prozessor 67

18 Single Clock Cycle Pipeline Diagramm Grundlagen der Rechnerarchitektur Prozessor 68

19 Einfaches Multiple Clock Cycle Pipeline Diagramm Grundlagen der Rechnerarchitektur Prozessor 69

20 Detaillierteres Multiple Clock Cycle Pipeline Diagramm IF ID EX MEM WB Grundlagen der Rechnerarchitektur Prozessor 70

21 Pipelining Komplexere Pipelines Grundlagen der Rechnerarchitektur Prozessor 71

22 Komplexere Piplelines Pipeline Stufen sind nicht auf 5 festgelegt! z.b. weitere Unterteilung von IF, ID, EX, MEM, WB Erlaubt höhere Taktung Kann aufgrund der Instruktions Komplexität erforderlich sein Kann aufgrund von Instruktionen mit zeitlich unbalancierten Stufen erforderlich sein Wie pipelined man x86 ISA mit Instruktionslängen zwischen 1 und 17 Bytes? Komplexe Instruktionen der x86 ISA werden in Folge von Mikroinstruktionen übersetzt Mikroinstruktionssatz ist vom Typ RISC Pipelining findet auf den Mikroinstruktionen statt Beispiel AMD Opteron X4: Was das ist sehen wir noch im Kapitel Multiple Issue Grundlagen der Rechnerarchitektur Prozessor 72

23 Pipeline Stufen einiger ausgewählter Prozessoren Mikroprozesor Jahr Taktrate Pipeline Stufen Leistung Intel MHz 5 5 W Intel Pentium MHz 5 10 W Intel Pentium Pro MHz W Intel Pentium 4 Willamette MHz W Intel Pentium 4 Prescott MHz W Intel Core MHz W UltraSPARC IV MHz W Sun UltraSPARC T1 (Niagara) MHz 6 70 W Pipeline Stufen sinken wieder? Aggressives Pipelining ist sehr Leistungshungrig Aktueller Trend eher zu Multi Cores mit geringerer Leistungsaufnahme pro Core. Grundlagen der Rechnerarchitektur Prozessor 73

24 Data Hazards Grundlagen der Rechnerarchitektur Prozessor 74

25 Motivation Ist die Pipelined Ausführung immer ohne Probleme möglich? Beispiel: sub $2, $1, $3 and $12, $2, $5 or $13, $6, $2 add $14, $2, $2 sw $15, 100($2) Also, alle vier nachfolgenden Instruktionen hängen von der sub Instruktion ab. Annahme: $2 speichert 10 vor der sub Instruktion. $2 speichert 20 nach der sub Instruktion. Betrachten wir die Pipeline: Grundlagen der Rechnerarchitektur Prozessor 75

26 Problem Rückwärtsabhängigkeiten Instr. Zeile and or add sw Sollte aus $2 lesen Liest aus $2 Data Hazard Grundlagen der Rechnerarchitektur Prozessor 76

27 Behandeln von Data Hazards mittels Forwarding Grundlagen der Rechnerarchitektur Prozessor 77

28 Allgemeine Lösung mittels Forwarding Unit WB WB EX/MEM.Rd MEM/WB.Rd Grundlagen der Rechnerarchitektur Prozessor 78

29 Implementation der Forwarding Unit Grundlagen der Rechnerarchitektur Prozessor 79

30 Bemerkungen Die Bestimmung von ForwardB erfolgt analog. (Übung) Das Ganze muss noch als Wahrheitstabelle aufgeschrieben und dann als kombinatorische Schaltung realisiert werden. Wie sieht die Wahrheitstabelle von ForwardA nach voriger hergeleiteter Vorschrift aus? (Übung) [Tipp: um Platz zu sparen sollte man möglichst viele don t cares verwenden.] Auch mit der Erweiterung auf ForwardB ist die Implementation der Forwarding Unit noch unvollständig. Was passiert z.b. für: lw $2, 0($1) sw $2, 4($1) Erweiterung: Forwarding muss z.b. auch in die MEM Stufe eingebaut werden. (Übung) Grundlagen der Rechnerarchitektur Prozessor 80

31 Nicht auflösbare Data Hazards Nicht jeder Data Hazard lässt sich durch Forwarding auflösen. Beispiel: Zugriff auf vorher gelesenes Register. Grundlagen der Rechnerarchitektur Prozessor 81

32 Pipeline Stall als Lösung Grundlagen der Rechnerarchitektur Prozessor 82

33 Allgemeine Lösung mittels Hazard Detection Unit Grundlagen der Rechnerarchitektur Prozessor 83

34 Implementation der Hazard Detection Unit Grundlagen der Rechnerarchitektur Prozessor 84

35 Quiz: Vermeiden von Pipeline Stalls Wo findet ein Pipeline Stall statt? Bitte ankreuzen. lw lw $t1, 0($t0) $t2, 4($t0) add $t3, $t1, $t2 sw lw $t3, 12($t0) $t4, 8($t0) add $t5, $t1, $t4 sw $t5, 16($t0) Anzahl Taktzyklen mit Stalls? Anzahl Taktzyklen ohne Stalls? Bitte Befehle umorganisieren, sodass alle Stalls vermieden werden. Grundlagen der Rechnerarchitektur Prozessor 85

36 Control Hazards Grundlagen der Rechnerarchitektur Prozessor 86

37 Control Hazards Grundlagen der Rechnerarchitektur Prozessor 87

38 Branch Not Taken Strategie und Pipeline Flush Flush = Verwerfe Instruktionen in der Pipeline. Hier: Setze IF/ID, ID/EX und EX/MEM Register auf 0. Grundlagen der Rechnerarchitektur Prozessor 88

39 Reduktion des Branch Delays Adressberechnung kann schon in der ID Stufe stattfinden beq und bne erfordert lediglich ein 32 Bit XOR und ein 32 Bit OR Dazu braucht man keine ALU Also auch in der ID Stufe realisierbar Beispiel: für $1 und $3: Damit ist der Sprung schon in der ID Stufe entschieden Grundlagen der Rechnerarchitektur Prozessor 89