Auch hier wieder. Control. RegDst Branch MemRead MemtoReg ALUOp MemWrite ALUSrc RegWrite. Instruction[31 26] (also: das Opcode Field der Instruktion)

Transkript

1 Auch hier wieder Aus voriger Wahrheitstabelle lässt sich mechanisch eine kombinatorische Schaltung generieren, die wir im Folgenden mit dem Control Symbol abstrakt darstellen. Instruction[31 26] (also: das Opcode Field der Instruktion) Control RegDst Branch MemRead MemtoReg ALUOp MemWrite ALUSrc RegWrite Grundlagen der Rechnerarchitektur Prozessor 34

2 Erweiterung des Blockschaltbilds Grundlagen der Rechnerarchitektur Prozessor 35

3 Beispiel für eine R Typ Instruktion add $t1, $t2, $t3 Instruktion wird gefetched und PC um 4 erhöht. Die Register $t2 (Instruction [25 21]) und $t3 (Instruction [20 16]) werden aus dem Register File geladen. Die ALU führt die in dem Function Field (Instruction [5 0]) codierte Operation auf den gelesenen Register Daten aus. Das Ergebnis der ALU wird in Register $t1 (Instruction [15 11]) zurück geschrieben. Grundlagen der Rechnerarchitektur Prozessor 36

4 Beispiel für eine Load/Save Instruktion lw $t1, 8($t2) Instruktion wird gefetched und PC um 4 erhöht. Das Register $t2 (Instruction [25 21]) wird aus dem Register File geladen. Die ALU addiert das Register Datum und den 32 Bit Signexteded 16 Bit Immediate Wert 8 (Instruction [15 0]). Die Summe aus der ALU wird als Adresse für den Datenspeicher verwendet. Das Datum aus dem Datenspeicher wird in das Register File geschrieben. Das Register in das geschrieben wird ist $t1 (Instruction [20 16]). Grundlagen der Rechnerarchitektur Prozessor 37

5 Beispiel für eine Branch Instruktion beq $t1, $t2, 42 Instruktion wird gefetched und PC um 4 erhöht. Die Register $t1 (Instruction [25 21]) und $t2 (Instruction [20 16]) werden aus dem Register File geladen. Die Haupt ALU subtrahiert die ausgelesenen Register Daten voneinander. Die zusätzliche ALU addiert PC+4 auf den 32 Bit Signexteded und um 2 nach links geshifteten 16 Bit Immediate Wert 42 (Instruction [15 0]). Das Zero Ergebins der Haupt ALU entscheidet ob der PC auf PC+4 oder auf das Ergebnis der zusätzlichen ALU gesetzt wird. Grundlagen der Rechnerarchitektur Prozessor 38

6 Eine Übung zum Abschluss In der vorigen Übung zum Abschluss wurde das Blockschaltbild des Datenpfads so erweitert, sodass auch die MIPS Instruktion j unterstützt wird. Wie müssen Control und Alu Control modifiziert werden (wenn überhaupt), damit die MIPS Instruktion j auch von Seiten des Control unterstützt wird? Erinnerung: j addr # Springe pseudo-direkt nach addr address Opcode Bits Adresse Bits 25 0 J Typ Grundlagen der Rechnerarchitektur Prozessor 39

7 Pipelining Grundlagen der Rechnerarchitektur Prozessor 40

8 Pipelining Instruktionszyklen Grundlagen der Rechnerarchitektur Prozessor 41

9 MIPS Instruktionszyklus Ein MIPS Instruktionszklus besteht aus: 1. Instruktion aus dem Speicher holen (IF: Instruction Fetch) 2. Instruktion decodieren und Operanden aus Register lesen (ID: Instruction Decode/Register File Read) 3. Ausführen der Instruktion oder Adresse berechnen (EX: Execute/Address Calculation) 4. Datenspeicherzugriff (MEM: Memory Access) 5. Resultat in Register abspeichern (WB: Write Back) Grundlagen der Rechnerarchitektur Prozessor 42

10 Instruktionszyklen in unserem Blockschaltbild Grundlagen der Rechnerarchitektur Prozessor 43

11 Instruktionszyklen generell Instruktionszyklen anderer moderner CPUs haben diese oder eine sehr ähnliche Form von Instruktionszyklen. Unterschiede sind z.b.: Instruktion decodieren und Operanden lesen sind zwei getrennte Schritte. Dies ist z.b. notwendig, wenn Instruktionen sehr komplex codiert sind (z.b. x86 Instruktionen der Länge 1 bis 17 Byte) wenn Instruktionen Operanden im Speicher anstatt Register haben (z.b. einige Instruktionen bei x86) Grundlagen der Rechnerarchitektur Prozessor 44

12 Pipelining Die Pipelining Idee Grundlagen der Rechnerarchitektur Prozessor 45

13 Single Cycle Performance Annahme die einzelnen Abschnitte des MIPS Instruktionszyklus benötigen folgende Ausführungszeiten: Instruction Fetch 200ps, Register Read 100ps, ALU Operation 200ps, Data Access 200ps, Register Write 100ps. Wie hoch dürfen wir unseren Prozessor (ungefähr) Takten? Die längste Instruktion benötigt 800ps. Also gilt für den Clock Cycle c: Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 46

14 Die Pipelining Idee am Beispiel Wäsche waschen Bearbeitungszeit pro Wäscheladung bleibt dieselbe (Delay). Gesamtzeit für alle Wäscheladungen sinkt (Throughput). Waschen Trocknen Falten Einräumen Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 47

15 Was ist die Performance Ratio? Annahme jeder Arbeitsgang beansprucht dieselbe Zeit. Was ist die Performance Ratio für n Wäscheladungen? Generell für k Pipeline Stufen, d.h. k Arbeitsgänge und gleiche Anzahl Zeiteinheiten t pro Arbeitsgang? Grundlagen der Rechnerarchitektur Prozessor 48

16 Pipelining für unseren MIPS Prozessor Im Folgenden betrachten wir zunächst ein ganz einfaches Programm: lw $1, 100($0) lw $2, 200($0) lw $3, 300($0) lw $4, 400($0) lw $5, 500($0) Bemerkung: Da die MIPS Registernamen im Folgenden nicht von Bedeutung sind, geben wir in den Programmbeispielen häufig nur noch die Registernummern (z.b. wie oben $0 und $1) an. Außerdem betrachten wir das spezielle Zero Register momentan nicht. Wie kann man die Pipelining Idee im Falle unseres MIPS Prozessors anwenden? Grundlagen der Rechnerarchitektur Prozessor 49

17 Die Pipeline nach den ersten drei Instruktionen Annahme: IF = 200ps ID = 100ps EX = 200ps MEM = 200ps WB = 100ps Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 50

18 Was ist die Performance Ratio? Wie eben gezeigt wäre für k Pipeline Stufen und eine große Zahl an ausgeführten Instruktionen die Performance Ratio gleich k, wenn jede Pipeline Stufe dieselbe Zeit beanspruchen würde. Allerdings brauchen die einzelnen Stufen s1,...,sk unterschiedliche Zeiteinheiten: t 1,..., t k. Somit ist die Performance Ratio für n Instruktionen: Mit den Zeiten aus dem vorigen Beispiel für n also: Die Performance Ratio wird durch die langsamste Stufe bestimmt. Grundlagen der Rechnerarchitektur Prozessor 51

19 Taktung Annahme die einzelnen Abschnitte des MIPS Instruktionszyklus benötigen die bisher betrachteten Ausführungszeiten: Instruction Fetch 200ps, Register Read 100ps, ALU Operation 200ps, Data Access 200ps, Register Write 100ps. Wie hoch dürfen wir unseren Prozessor (ungefähr) Takten? Die längste Stufe benötigt 200ps. Also gilt für den Clock Cycle c: Achtung: Maximal mögliche Taktung hängt aber auch von anderen Faktoren ab. (Erinnerung: Power Wall). Grundlagen der Rechnerarchitektur Prozessor 52

20 Quiz Welchen CPI Wert suggeriert das MIPS Pipelining Beispiel? Achtung: der CPI Wert ist in der Regel höher, wie wir noch sehen. Grundlagen der Rechnerarchitektur Prozessor 53

21 Der Ansatz ist noch zu naiv Beispiel: lw $5, 500($0) lw $4, 400($0) lw $3, 300($0) lw $2, 200($0) lw $1, 100($0) IF ID EX MEM WB Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 54

22 Pipelining Pipeline Register Grundlagen der Rechnerarchitektur Prozessor 55

23 Pipeline Stufen brauchen Pipeline Register Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 56

24 Pipeline Stufen brauchen Pipeline Register Control Write Register darf erst in der WB Stufe gesetzt werden. Änderung im Tafelbild Wird durchgereicht RegDst steht mit der Entscheidung von Control erst in der EX Stufe fest. Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 57

25 Was speichern die Pipeline Register? Wir schauen uns den Weg einer einzigen Instruktion durch die Pipeline an; und zwar den der Load Word Instruktion lw. Auf dem Weg durch die Pipeline überlegen wir, was alles in den Pipeline Registern IF/ID, ID/EX, EX/MEM und MEM/WB stehen muss. In der Darstellung verwenden wir folgende Konvention. Bedeutet: Register/Speicher wird gelesen Bedeutet: Register/Speicher wird beschrieben Grundlagen der Rechnerarchitektur Prozessor 58

26 Was speichern die Pipeline Register? IF/ID: Instruktion PC+4 (z.b. für beq) Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 59

27 Was speichern die Pipeline Register? ID/EX: PC+4 (z.b. für beq) Inhalt Register 1 Inhalt Register 2 Sign ext. Immediate (z.b. für beq) Das Write Register (wird im Letzten Zyklus von lw gebraucht) Generell: Alles was in einem späteren Clock Cycle noch verwendet werden könnte, muss durchgereicht werden. Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 60

28 Was speichern die Pipeline Register? EX/MEM: Ergebnis von PC+4+ Offset (z.b. für beq) Zero der ALU (z.b. für beq) Result der ALU Register 2 Daten (z.b. für sw) Das Write Register (wird im letzten Zyklus von lw gebraucht) Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 61

29 Was speichern die Pipeline Register? MEM/WB: Das gelesene Datum aus dem Speicher (wird dann von lw im nächsten Zyklus ins Write Register geschrieben) Das Ergebnis der ALU Operation (für die arithmetisch logischen Instruktionen) Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 62

30 Was speichern die Pipeline Register? Für die letzte Pipeline Stufe braucht man kein Pipeline Register. Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 63

31 Zusätzlich wird noch Control Info gespeichert Control Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 64

32 Zusätzlich wird noch Control Info gespeichert Werden durchgereicht. Control hängt von der Instruktion ab. Damit muss Control Info erst ab ID/EX Register gespeichert werden. Das ID/EX Register muss bereitstellen: RegDst ALUOp (2) ALUSrc Das EX/MEM Register muss bereit stellen: Branch MemRead MemWrite Das MEM/WB Register muss bereit stellen: MemtoReg RegWrite Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 65

33 Pipelining Pipelining Visualisierung Grundlagen der Rechnerarchitektur Prozessor 66

34 Pipelining Visualisierung Zusammenfassung der vorhin implizit eingeführten Visualisierungen und Einführung einer neuen Visualisierung. Wir betrachten folgenden Beispiel Code: lw $10, 20($1) sub $11, $2, $3 add $12, $3, $4 lw $13, 24($1) add $14, $5, $6 Wir unterscheiden generell zwischen zwei Visualisierungsarten: Single Clock Cylce Pipeline Diagramm und Multiple Clock Cycle Pipeline Diagramm Grundlagen der Rechnerarchitektur Prozessor 67

35 Single Clock Cycle Pipeline Diagramm Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 68

36 Einfaches Multiple Clock Cycle Pipeline Diagramm Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 69

37 Detaillierteres Multiple Clock Cycle Pipeline Diagramm IF ID EX MEM WB Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 70

38 Pipelining Komplexere Pipelines Grundlagen der Rechnerarchitektur Prozessor 71

39 Komplexere Piplelines Pipeline Stufen sind nicht auf 5 festgelegt! z.b. weitere Unterteilung von IF, ID, EX, MEM, WB Erlaubt höhere Taktung Kann aufgrund der Instruktions Komplexität erforderlich sein Kann aufgrund von Instruktionen mit zeitlich unbalancierten Stufen erforderlich sein Wie pipelined man x86 ISA mit Instruktionslängen zwischen 1 und 17 Bytes? Komplexe Instruktionen der x86 ISA werden in Folge von Mikroinstruktionen übersetzt Mikroinstruktionssatz ist vom Typ RISC Pipelining findet auf den Mikroinstruktionen statt Beispiel AMD Opteron X4: Was das ist sehen wir noch im Kapitel Multiple Issue Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 72

40 Pipeline Stufen einiger ausgewählter Prozessoren Mikroprozesor Jahr Taktrate Pipeline Stufen Leistung Intel MHz 5 5 W Intel Pentium MHz 5 10 W Intel Pentium Pro MHz W Intel Pentium 4 Willamette MHz W Intel Pentium 4 Prescott MHz W Intel Core MHz W UltraSPARC IV MHz W Sun UltraSPARC T1 (Niagara) MHz 6 70 W Pipeline Stufen sinken wieder? Aggressives Pipelining ist sehr Leistungshungrig Aktueller Trend eher zu Multi Cores mit geringerer Leistungsaufnahme pro Core. Grundlagen der Rechnerarchitektur Prozessor 73