2.3 Register-Transfer-Strukturen

Transkript

1 2 2.3 Register-Transfer-Strukturen Peter Marwedel Informatik 2 Otto-Hahn-Str. 6 Tel peter.marwedel@tu-.de 25/2/6 (xmas)

2 Kontext Die Wissenschaft Informatik befasst sich mit der Darstellung, Speicherung, Übertragung und Verarbeitung von Information [Gesellschaft für Informatik] 2,

3 Externe Architektur interne Architektur Bislang: Sicht des Programmierers auf den Prozessor: Befehlsschnittstelle, externe Architektur Jetzt: interne Realisierung: interne Architektur, Mikroarchitektur, Realisierung mit Register-Transfer-Strukturen (der Inhalt welchen Registers wird in welches andere Register transferiert?) 2,

4 Komponenten von RT-Strukturen: Dekoder Beispiel : aus n-dekoder x Dekoder y=f(x) m n Anzahl Bits der Bitvektoren Beispiel 2: Prioritätsencoder (m>n) f ( x) = "..." wenn nat( x) z.b. y i "..." "..." f ( x) = "..." "..."... wenn x wenn x wenn x wenn x = i = = = =... "..." "..." "..." "..."... nat( f i, wenn i der größte Index ist, für den x ( x)) = undefiniert für x = "..." z.b. : y = "", nat( y) = 5 für x = "" 5 2, 25 i = '' ist nat(a)=σa i 2 i : (Abbildung Bitvektor natürliche Zahl) - 4 -

5 Komponenten von RT-Strukturen: Multiplexer z.b. 2 auf Multiplexer e e y Kontrolle y = e i für nat(kontrolle)=i e i, y: einzelne Bits oder Bitvektoren Mögliche Realisierung (für einzelnes Bit) e & z.b. 4 auf Multiplexer e & y e e e 2 e Kontrolle 3 e 2 e 3 3 Kontrolle aus n 2 & & 2,

6 Komponenten von RT-Strukturen: ALUs Addierer, arithmetisch/ logische Einheiten (ALUs) z=f (x,y,kontrolle) x y ALU z Kontrolle Beispiel z = x + x x x y y y y wenn wenn wenn wenn nat(kontrolle) = nat(kontrolle) = nat(kontrolle) = 2 nat(kontrolle) = 3 x, y, z,kontrolle: Bitvektoren 2,

7 Komponenten von RT-Strukturen: Register Register Daten Kontrolle Takt Daten Übernimmt mit dem Takt die Daten, sofern der Kontrolleingang auf "schreiben" gesetzt ist. Daten: einzelne Bits oder Bitvektoren Für jedes einzelne Bit: Kontrolle= schreiben Daten= g(takt) Kontrolle= schreiben Daten= g(takt) g: modelliert unterschiedliche Taktabhängigkeit Flankenabhängigkeit: Wechsel nur bei pos. ( positiv flankengetriggert ) oder neg. Flanke oder Pegelabhängigkeit: Wechsel sofern Takt= oder Takt = ist 2,

8 Komponenten von RT-Strukturen: Speicher Speicher Daten Takt Kontrolle Speicher Adresse Daten Liest ständig die am Adresseingang ausgewählte Speicherzelle aus und stellt ihren Wert am Datenausgang mit gewisser Verzögerung zur Verfügung. Übernimmt mit dem Takt die Daten in die ausgewählte Speicherzelle, sofern der Kontrolleingang auf Schreiben" gesetzt ist. Wir stellen den -aus-n-adressdekoder immer explizit dar, um den Adresseingang zu identifizieren. 2,

9 Multiportspeicher Multiport- Speicher Speicher Besitzt mehrere Adresseingänge, die zu einem zugeordneten Port gehören. Jedes Leseport stellt ständig die gelesene Speicherzelle am Ausgang bereit; jedes Schreibport übernimmt die Eingangdaten in die ausgewählte Speicherzelle, sofern der Kontrolleingang auf "schreiben" gestellt ist. Konflikt, falls mehrere Schreibports dieselbe Zelle auswählen (soll vermieden werden; falls es doch vorkommt: z.b. UND-Verknüpfung der Eingangsdaten) 2,

10 Speichertechnologien Einige Unterscheidungen: Flüchtiger (volatile) und nicht-flüchtiger (non-volatile) Speicher: Nicht-flüchtiger Speicher: Information bleibt nach dem Ausschalten des Stromes erhalten Statischer und dynamischer Speicher: - Statischer Speicher (SRAM): i.d.regel 6 Transistoren/Bit. - Dynamischer Speicher (DRAM): Transistor, Kondensator/Bit, langsamer als SRAM, erfordert periodisches Auffrischen der Information, ist billiger als SRAM 2, 25 Photo: P. Marwedel,

11 Zusammenfassung Jetzt Sicht auf die interne Architektur: Komponenten von RT-Strukturen Dekoder Multiplexer ALUs Register Speicher 2,

12 Eine Mikroarchitektur für die MIPS-Maschine Automatische Erzeugung von Mikroarchitekturen aus ISA heraus (µarchitektursynthese): wurde untersucht, ist aber a) im Rahmen einer Erstsemestervorlesung zu kompliziert b) für unsere einfachen Befehle auch nicht nötig. Mit Erfahrung (Betrachtung wesentlicher Komponenten/ Verbindungen): manueller µarchitekturentwurf. Benötigt Minimum an Komponenten. Enthält ein Rechenwerk und ein Steuerwerk. Verifikation: Befehle: nachweisen, dass die µarchitektur den Befehl ausführen kann. Vorgehen für die MIPS-Maschine 2,

13 PCWrite B PC MemWrite MemRead i2 a2 a Speicher IRWrite Befehlsregister IR * 3:26 25:2 2:6 5: 5: 25: Steuerwerk RegDest RegWrite Reg Speicher i3 a3 a2 a sign_ extend ALUSelB ALUSelA ALUOp TargetWrite ALU T PCSource * 2 " 3: 28

14 Überprüfung der Ausführbarkeit Zustandsgraph der Ausführung einiger MIPS-Befehle IR:=Speicher[PC]; PC:=PC+4; fetch PC:=PC+4; Reg[ra]:=Speicher[const+Reg[rb]] T:=IR() + Reg[IR(..)] decode instruction decode mar rr branch jump lw memory access memory access load store rr2 branch2 Reg[IR(..)]:= Speicher[T] 2,

15 PCWrite PC B fetch + MemWrite MemRead i2 a2 a Speicher IR:=Speicher[PC]; PC:=PC+4 B=PCWrite v PCWriteC zero IRWrite Befehlsregister IR * 3:26 25:2 2:6 5: 5: 25: RegDest RegWrite Reg Speicher i3 a3 a2 a sign_ extend ALUSelB 4 ALUSelA 2 3 zero ALUOp TargetWrite ALU T PCSource * 2 " 3: 28

16 Zustandsgraph der Ausführung einiger MIPS-Befehle Ravi-Simulation zum dynamischen Ablauf (Webseite LS2): derzeit (/25) aber nicht mit aktuellem Java kompatibel fetch decode instruction decode mar rr branch jump lw memory access memory access load store rr2 branch2 2,

17 PCWrite B PC i2 a2 a Speicher Befehlsregister * Steuerwerk decode MemWrite MemRead Steuerwerk nutzt Opcode zur Verzweigung. IRWrite 3:26 25:2 2:6 5: 5: 25: RegDest RegWrite Reg Speicher i3 a3 a2 a sign_ extend ALUSelB 4 ALUSelA 2 3 ALUOp TargetWrite ALU T PCSource * 2 " 3: 28

18 Zustandsgraph der Ausführung einiger MIPS-Befehle fetch decode instruction decode mar rr branch jump lw memory access memory access load store rr2 branch2 2,

19 PCWrite B PC 2 mar + MemWrite MemRead i2 a2 a Speicher Speicher-Adresse wird in T gespeichert IRWrite Befehlsregister * 3:26 25:2 2:6 5: 5: 25: RegDest RegWrite Reg Speicher i3 a3 a2 a sign_ extend ALUSelB 4 ALUSelA 2 3 ALUOp TargetWrite ALU T PCSource * 2 " 3: 28

21 PCWrite B PC load MemWrite MemRead i2 a2 a Speicher Reg[IR(2:6)]:= Speicher[T] IRWrite Befehlsregister * 3:26 25:2 2:6 5: 5: 25: RegDest RegWrite Reg Speicher i3 a3 a2 a sign_ extend ALUSelB 4 ALUSelA 2 3 ALUOp TargetWrite ALU T PCSource * 2 " 3: 28

23 PCWrite PC B MemWrite MemRead i2 a2 a Speicher store IRWrite Befehlsregister (IR) * 3:26 25:2 2:6 5: 5: 25: RegDest RegWrite Reg Speicher i3 a3 a2 a sign_ extend ALUSelB 4 ALUSelA 2 3 ALUOp TargetWrite ALU T PCSource * 3: 28 2 "

25 PCWrite B PC i2 a2 a Speicher Befehlsregister * Steuerwerk rr IR² MemWrite MemRead ² ALU-Funktion durch shamt und funct bestimmt. alu_control nimmt geeignete Umkodierung vor. IRWrite 3:26 25:2 2:6 5: 5: 25: RegDest RegWrite Reg Speicher i3 a3 a2 a sign_ extend ALUSelB 4 ALUSelA 2 3 ALUOp TargetWrite ALU T PCSource * 2 " 3: 28

27 PCWrite B PC rr2 MemWrite MemRead i2 a2 a Speicher Reg[IR(5:)] :=T IRWrite Befehlsregister IR * 3:26 25:2 2:6 5: 5: 25: RegDest RegWrite Reg Speicher i3 a3 a2 a sign_ extend ALUSelB 4 ALUSelA 2 3 ALUOp TargetWrite ALU T PCSource * 2 " 3: 28

29 PCWrite B PC MemWrite MemRead i2 a2 a Speicher PC:=PC(3:28) &IR(25:) &"" Befehlsregister * Steuerwerk jump 2 IRWrite 3:26 25:2 2:6 5: 5: 25: RegDest RegWrite Reg Speicher i3 a3 a2 a sign_ extend ALUSelB 4 ALUSelA 2 3 ALUOp TargetWrite ALU T PCSource * 2 " 3: 28

31 PCWrite B PC i2 a2 a Speicher T:=PC+(sign_ext( IR(5:))&"") Befehlsregister * Steuerwerk 3 branch + MemWrite MemRead IRWrite 3:26 25:2 2:6 5: 5: 25: RegDest RegWrite Reg Speicher i3 a3 a2 a sign_ extend ALUSelB 4 ALUSelA 2 3 ALUOp TargetWrite ALU T PCSource * 2 " 3: 28

33 PCWrite B PC i2 a2 a Speicher if Reg([IR(25:2)]- Reg[IR(2:6)]=) then PC:=T; ² Code, der benötigt wird, um am Ausgang zero eine zu erzeugen, wenn beide Eingänge gleich sind. Befehlsregister * Steuerwerk =/-² MemWrite MemRead IRWrite 3:26 25:2 2:6 5: 5: 25: RegDest branch2 RegWrite Reg Speicher i3 a3 a2 a sign_ extend ALUSelB 4 ALUSelA 2 3 zero ALUOp TargetWrite ALU T PCSource * 2 " 3: 28

34 Das Steuerwerk Verhalten, vereinfacht (mar vermeidet Verzweigung bei mar) Struktur Takt fetch decode rr mar mar' lw load store rr2 branch branch2 jump Eingabe: Opcode µpc * Zustand Mikroprogrammspeicher * Folgezustand bestimmt durch Mikroprogrammspeicher, bei decode aus dem Opcode PCWrite 2, Ausgabe PCSource

35 Das Steuerwerk (etwas genauer) Verhalten, vereinfacht Struktur (mar vermeidet Verzweigung bei mar) fetch decode rr branch jump mar mar' lw load store rr2 branch2 Eindeutige Codes für Zustände nach decode Eingabe: Opcode mux Takt µpc * Zustand Mikroprogrammspeicher * Folgezustand bestimmt durch Mikroprogrammspeicher, bei decode aus dem Opcode PCWrite 2, Ausgabe PCSource

36 Zustand (bestimmt Adresse im Speicher) Inhalt des Mikroprogrammspeichers Folge- Zustand bzw. Zustände fetch decode X X + decode f(opcode) X X X XX X X XX mar, mar load, store X X X + XX load fetch XX X X XX store fetch X X X XX X X XX rr rr2 X X X IR XX rr2 fetch X XX X X XX branch branch2 X X X + XX branch2 fetch X X X =/- jump fetch X X X XX X X + Art der Bestimmung des Folgezustands PCWrite PCWriteC IorD MemWrite MemRead IRWrite Mem2Reg RegDest 2, 25 ALUSelB ALUSelA ALUOp TargetWri PCSource

37 Mikroprogrammierung fetch decode rr branch jump mar mar' lw load store rr2 branch2 2,

41 Mikroprogrammierung fetch decode rr branch jump mar mar' lw load store rr2 branch2 Struktur Takt Eingabe: Opcode µpc Zustand * Mikroprogrammspeicher 2,

42 Zusammenfassung Mikroprogrammierung gestattet die strukturierte Realisierung von Rechensystemen aus RT-Struktur-Komponenten Vorteile: einfache, strukturierte Realisierung auch großer, komplexer Befehlssätze leichte Änderbarkeit Nachteile: Overhead (fetch und decode enthalten keine Operationen des auszuführenden Programms) Große CPI-Werte Versuch, Mikroprogramme zu vermeiden 2,

43 Mikroprogrammierung Fließbandverarbeitung fetch decode rr branch jump mar mar' lw load store rr2 branch2 2,

47 Mikroprogrammierung Fließbandverarbeitung fetch decode rr branch jump mar mar' lw load store rr2 branch2 2, 25 Flash-Animation

48 2.3.2 Fließbandverarbeitung Fließband-Architektur (engl. pipeline architecture): Bearbeitung mehrerer Befehle gleichzeitig, analog zu Fertigungsfließbändern. Beispiel MIPS: instruction fetch instruction decode/ register read instruction execution/ address calculation Memory access (register) writeback 4 PC + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 Reg Speicher sign_ extend 2:6 ALU Speicher DMem 5: 2,

49 Änderungen gegenüber der Struktur ohne Fließband Separater Addierer für Programm-Folgeadressen. Konzeptuelle Aufteilung des Speichers in Daten- und Befehlsspeicher. Aufteilung des Rechenwerks in Fließbandstufen, Trennung durch Pufferregister, T und Befehlsregister werden Pufferregistern. 4 PC + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 2:6 Reg Speicher sign_ extend ALU Speicher DMem Steuerwerk nicht dargestellt 5: 2,

50 Aufgaben der einzelnen Phasen bzw. Stufen Befehlsholphase Lesen des aktuellen Befehls; separater Speicher, zur Vermeidung von Konflikten mit Datenzugriffen ( Cache). Dekodier- und Register-Lese-Phase Lesen der Register möglich wegen fester Plätze für Nr. Ausführungs- und Adressberechungsphase Berechnung arithmetischer Funktion bzw. Adresse für Speicherzugriff. Speicherzugriffsphase Wird nur bei Lade- und Speicherbefehlen benötigt. Abspeicherungsphase Speichern in Register, bei Speicherbefehlen nicht benötigt. 2,

51 Idealer Fließbanddurchlauf 4 PC + IF/ID ID/EX EX/MEM MEM/WB zero 2:6 25:2 sign_ extend Reg ALU DMem 5: Zyklus Befehl 2,

52 Idealer Fließbanddurchlauf 4 PC + IF/ID ID/EX EX/MEM MEM/WB zero 2:6 25:2 sign_ extend Reg ALU DMem 5: Zyklus 2 Befehl 2 Befehl 2,

53 Idealer Fließbanddurchlauf 4 PC + IF/ID ID/EX EX/MEM MEM/WB zero 2:6 25:2 sign_ extend Reg ALU DMem 5: Zyklus 3 Befehl 3 Befehl 2 Befehl 2,

54 Idealer Fließbanddurchlauf 4 PC + IF/ID ID/EX EX/MEM MEM/WB zero 2:6 25:2 sign_ extend Reg ALU DMem 5: Zyklus 4 Befehl 4 Befehl 3 Befehl 2 Befehl 2,

55 Idealer Fließbanddurchlauf 4 PC + IF/ID ID/EX EX/MEM MEM/WB zero 2:6 25:2 sign_ extend Reg ALU DMem 5: Zyklus 5 Befehl 5 Befehl 4 Befehl 3 Befehl 2 Befehl 2,

56 Idealer Fließbanddurchlauf 4 PC + IF/ID ID/EX EX/MEM MEM/WB zero 2:6 25:2 sign_ extend Reg ALU DMem 5: Zyklus 6 Befehl 6 Befehl 5 Befehl 4 Befehl 3 Befehl 2 2,

57 Pipeline-Hazards Structural hazards (deutsch: strukturelle Abhängigkeiten oder Gefährdungen). Verschiedene Fließbandstufen müssen auf dieselbe Hardware-Komponente zugreifen, weil diese nur sehr aufwändig oder überhaupt nicht zu duplizieren ist. Beispiele: Speicherzugriffe, sofern für Daten und Befehle nicht über separate Pufferspeicher (caches) eine weitgehende Unabhängigkeit erreicht wird. Bei Gleitkommaeinheiten lässt sich häufig nicht mit jedem Takt eine neue Operation starten (zu teuer). Eventuell Anhalten des Fließbandes (pipeline stall) nötig. 2,

58 Datenabhängigkeiten () Gegeben sei eine Folge von Maschinen-Befehlen. Def.: Ein Befehl j heißt von einem vorausgehenden Befehl i datenabhängig, wenn i Daten bereitstellt, die j benötigt. Beispiel: add $2,$2,$3 sub $4,$5,$2 and $6,$2,$7 or $8,$2,$9 xor $,$2,$ Diese 4 Befehle sind vom add-befehl wegen $2 datenabhängig Diese Art der Abhängigkeit heißt (bei Hennessy und anderen) read after write- (oder RAW-) Abhängigkeit. 2,

59 Datenabhängigkeiten (2) Gegeben sei wieder eine Folge von Maschinen-Befehlen. Def.: Ein Befehl i heißt von einem nachfolgenden Befehl j antidatenabhängig, falls j eine Speicherzelle beschreibt, die von i noch gelesen werden müsste. Beispiel: add $2,$2,$3 sub $4,$5,$2 Diese 2 Befehle sind vom or-befehl and $6,$2,$7 wegen $2 antidatenabhängig or $2,$2,$9 xor $,$2,$ Diese Art der Abhängigkeit heißt (bei Hennessy und anderen) write after read - (oder WAR-) Abhängigkeit. 2,

60 Datenabhängigkeiten (3) Gegeben sei (wieder) eine Folge von Maschinen-Befehlen. Def.: Zwei Befehle i und j heißen voneinander Ausgabe-abhängig, falls i und j dieselbe Speicherzelle beschreiben. Beispiel: add $2,$2,$3 sub $4,$5,$2 Voneinander ausgabeabhängig. and $6,$2,$7 or $2,$2,$9 xor $,$2,$ Diese Art der Abhängigkeit heißt (bei Hennessy und anderen) write after write - (oder WAW-) Abhängigkeit. 2, 25 ravi/pipeline - 6 -

61 Bypässe, forwarding: Behandlung des data hazards bei and und sub 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 PC sign_ extend 2:6 Reg ALU DMem 5: Zyklus add $,$2,$3 2,

62 Bypässe, forwarding: Behandlung des data hazards bei and und sub 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 PC sign_ extend 2:6 Reg ALU DMem 5: sub $4,$5,$ add $,$2,$3 Zyklus 2 2,

63 Bypässe, forwarding: Behandlung des data hazards bei and und sub 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 PC sign_ extend 2:6 Reg ALU DMem 5: Zyklus 3 and $6,$,$7 sub $4,$5,$ add $,$2,$3 2,

64 Bypässe, forwarding: Behandlung des data hazards bei and und sub 4 PC + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 2:6 sign_ extend Reg ALU DMem 5: Zyklus 4 or $8,$,$9 and $6,$,$7 sub $4,$5,$ add $,$2,$3 2,

65 Bypässe, forwarding: Behandlung des data hazards bei and und sub 4 PC + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 2:6 sign_ extend Reg ALU DMem 5: Zyklus 5 xor $,$,$ or $8,$,$9 and $6,$,$7 sub $4,$5,$ add $,$2,$3 2,

66 Bypässe, forwarding: Behandlung des data hazards bei and und sub 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 PC sign_ extend 2:6 Reg ALU DMem 5: Zyklus 6? xor $,$,$ or $8,$,$9 and $6,$,$7 sub $4,$5,$ 2,

67 Taktung zur Behandlung des data hazards bei or 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 Takt PC sign_ extend 2:6 Reg ALU DMem 5: add $,$2,$3 Zyklus Übernahme in die Pipeline-Register 2,

68 Taktung zur Behandlung des data hazards bei or 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 Takt PC sign_ extend 2:6 Reg ALU DMem 5: sub $4,$5,$ add $,$2,$3 Zyklus 2 Übernahme in die Pipeline-Register 2,

69 Taktung zur Behandlung des data hazards bei or 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 Takt PC sign_ extend 2:6 Reg ALU DMem 5: Zyklus 3 and $6,$,$7 sub $4,$5,$ add $,$2,$3 2,

70 Taktung zur Behandlung des data hazards bei or 4 PC + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 sign_ extend 2:6 Reg ALU DMem Takt 5: Zyklus 4 or $8,$,$9 and $6,$,$7 sub $4,$5,$ add $,$2,$3 2,

71 Taktung zur Behandlung des data hazards bei or 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 Takt PC sign_ extend 2:6 Reg ALU DMem 5: Zyklus 4 xor $,$,$ or $8,$,$9 Übernahme in die Pipeline-Register Zyklus 5 and $6,$,$7 sub $4,$5,$ add $,$2,$3 2,

72 Taktung zur Behandlung des data hazards bei or 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 Takt PC sign_ extend 2:6 Reg ALU DMem 5: Zyklus 4 xor $,$,$ or $8,$,$9 Übernahme in die Pipeline-Register Zyklus 5 and $6,$,$7 sub $4,$5,$ add $,$2,$3 2,

73 Taktung zur Behandlung des data hazards bei or 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 Takt PC 2:6 Reg ALU DMem Übernahme in Reg, Dmem und PC? 5: sign_ extend xor $,$,$ Übernahme in die Pipeline-Register Zyklus 6 or $8,$,$9 and $6,$,$7 sub $4,$5,$ 2, 25 pipeline2-73 -

74 Alle data hazards durch Bypässe behandelbar? 4 sign_ extend + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 PC 2:6 Reg ALU DMem 5: Zyklus xor lw? sub and $8,$,$9 $,($2) $,$,$ $4,$5,$ $6,$,$7 xor and lw sub $8,$,$9 $,($2) $,$,$ $6,$,$7 $4,$5,$ and or sub lw $8,$,$9 $,($2) $6,$,$7 $4,$5,$ sub and lw $,($2) $4,$5,$ $6,$,$7 lw sub $,($2) $4,$5,$ Speicherwort wird am Ende des Zyklus 4 gespeichert, steht für Differenz noch nicht bereit. 2,

75 Lösung durch Anhalten des Fließbandes (pipeline stall, hardware interlocking, bubbles) 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 PC sign_ extend 2:6 Reg ALU DMem 5: Zyklus lw $,($2) 2,

76 Lösung durch Anhalten des Fließbandes (pipeline stall, hardware interlocking, bubbles) 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 PC sign_ extend 2:6 Reg ALU DMem 5: Zyklus 2 sub $4,$5,$ lw $,($2) 2,

77 Lösung durch Anhalten des Fließbandes (pipeline stall, hardware interlocking, bubbles) 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 PC sign_ extend 2:6 Reg ALU DMem 5: Zyklus 3 and $6,$,$7 sub $4,$5,$ lw $,($2) 2,

78 Lösung durch Anhalten des Fließbandes (pipeline stall, hardware interlocking, bubbles) 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 PC sign_ extend 2:6 Reg ALU DMem 5: Zyklus 4 or NOOP $8,$,$9 and NOOP $6,$,$7 sub NOOP $4,$5,$ lw $,($2) 2,

79 Lösung durch Anhalten des Fließbandes (pipeline stall, hardware interlocking, bubbles) 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 PC sign_ extend 2:6 Reg ALU DMem 5: Zyklus 5 or $8,$,$9 and $6,$,$7 sub $4,$5,$ NOOP lw $,($2) 2,

80 Lösung durch Anhalten des Fließbandes (pipeline stall, hardware interlocking, bubbles) 4 + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 PC sign_ extend 2:6 Reg ALU DMem 5: Zyklus 6 bubble, durch intelligente Compiler vermeiden! xor $,$,$ or $8,$,$9 and $6,$,$7 sub $4,$5,$ NOOP 2, 25 ravi/pipeline2-8 -

81 Kontrollfluss-Abhängigkeiten oder - Gefährdungen, control hazards () Beispielprogramm: beq $2,$2,t -- springe zur Marke t, falls Reg[2]=Reg[2] sub t:add.. Wir versuchen zunächst, durch Einfügen von NOOPs, die intuitive Bedeutung des Programms zu realisieren... 2,

82 Kontrollfluss-Abhängigkeiten oder - Gefährdungen, control hazards (2) 4 sign_ extend + IF/ID ID/EX EX/MEM MEM/WB zero 25:2 PC 2:6 Reg ALU DMem 5: Takt 2: Sprung wird erkannt, deshalb werden zwei NOOP-Befehle eingefügt. Takt 4: Mit fallender Flanke wird PC getaktet, mit steigender IF/ID-Register. Takt 3: ALU müsste sowohl Vergleich wie auch das Sprungziel ausrechnen können Zyklus beq NOOP sub... oder $,$2,t add beq NOOP sub... oder $,$2,t add beq NOOP sub oder $,$2,t add beq NOOP $,$2,t beq NOOP $,$2,t 2,

83 Kontrollfluss-Abhängigkeiten oder - Gefährdungen, control hazards (3) Probleme beim gezeigten Ansatz: Leistungsverlust durch 2 NOOPs (branch delay penalty). ALU/Multiplexer in der gezeigten Form nicht ausreichend, um Test und Sprungzielberechnung in einem Takt auszuführen. Lösungsansatz: Gleichheit der Register wird schon in der instruction decode-stufe geprüft. Sprungziel wird in separatem Adressaddierer ebenfalls bereits in der instruction decode-stufe berechnet. Sofern weiterhin noch Verzögerungen auftreten: nächsten Befehl einfach ausführen (delayed branch). oder weiterhin NOOP(s) einfügen (stall). 2,

84 Reduktion der branch delay penalty; delayed branch 4 IF/ID = + * + 25:2 ID/EX Am Ende des Zyklus 2 gültig EX/MEM MEM/WB PC 2:6 Reg ALU DMem Folgeadresse bei fallender Flanke übernommen. 5: sign_ extend * Zyklus beq sub add... $,$2,t beq sub add... $,$2,t beq add sub $,$2,t sub beq add $,$2,t beq sub $,$2,t 2,

85 Delayed Branches, verzögerte Sprünge Beim gezeigten Beispiel wird der auf den Sprungbefehl folgende Befehl immer noch ausgeführt. beq $2,$2,t sub... # wird immer noch ausgeführt... t: add.. It s not a bug, it s a feature Einen Platz für die Aufnahme eines solchen Befehls nennt man delay slot, die Sprünge delayed branches. Manche Maschinen haben mehrere delay slots. Delay slots sollten von Übersetzern mit nützlichen Befehlen gefüllt werden. Nur notfalls sollte es ein NOOP sein. Die MIPS-Maschine hat ein delay slot, welches aber vom Assembler verdeckt wird. 2, 25 ravi/pipeline3-85 -

86 Typen von Fließband-Gefährdungen (hazards) Strukturelle Abhängigkeiten/Gefährdungen (structural hazards) Datenfluß- Abhängigkeiten/Gefährdungen (data hazards) aufgrund von Datenabhängigkeiten (RAW) forwarding, pipeline stalls aufgrund von Antidatenabhängigkeiten (WAR) (erst bei komplizierteren Systemen wichtig) aufgrund von Ausgabeabhängigkeiten (WAW) (erst bei komplizierteren Systemen wichtig) Kontrollfluß-Abhängigkeiten/Gefährdungen (control hazards) delayed branches, pipeline stalls, spekulative Ausführung, Sprungvorhersage 2,

87 Interne Struktur von Pentium-Prozessoren Fließbandverarbeitung bringt Performancegewinn. Fließbandverarbeitung nur bei RISC-Befehlssätzen einigermaßen überschaubar. Interne Umkodierung alter CISC-Befehle in RISC-Befehle. Beispiel: x86-befehle Umkodierung von x86-befehlen zu internen RISC-Befehlen Puffer Puffer Fließband Fließband 2... ggf. weitere Fließbänder Ergebnisspeicher 2, 25 Movie

88 Zusammenfassung Die Fließbandverarbeitung (engl. pipelining) ermöglicht es, in jedem Takt die Bearbeitung eines Befehls abzuschließen, selbst wenn die Bearbeitung eines Befehls Takte dauert. Bei mehreren Fließbändern pro Takt können mehrere Befehle beendet werden. 3 Typen von Gefährdungen des Fließbandbetriebs: - resource hazards - data hazards (RAW, WAR, WAW) - control hazards Gegenmaßnahmen: - pipeline stall - forwarding/bypassing, delayed branches - branch prediction, out-of-order execution, dynamic scheduling ( Rechnerarchitektur) Ggf. mehrere Fließbänder bei modernen Architekturen 2,

89 Prozessortrends 2,

90 Alternative Architekturen DSP: Digitale Signalprozessoren; Prozessoren, die auf die Verarbeitung digitaler Signale (Sprache, Video) optimiert sind VLIW: very long instruction word Prozessoren; Prozessoren, die mit breiten Paketen von Befehlen mehrere Befehle gleichzeitig starten können ASIP: application specific instruction set processors; Prozessoren, die für bestimmte Anwendungen (z.b. MPEG) optimiert sind FPGA: field programmable gate array; Schaltung, deren Verhalten man durch Programmierung verändern kann. ASIC: application specific integrated circuit; speziell für eine Anwendung entwickelter integrierter Schaltkreis 2,

91 Notwendigkeit der Betrachtung der Energieeffizienz Ausführungsplattform Relevant während Benutzung? Stationär Teilweise mobil Mobil z.b. Fabrik Auto Sensor Globale Erwärmung Kosten der Energie Steigerung der Performance Probleme der Kühlung Zu hohe Stromdichten, Metallwanderung Zuverlässigkeit Sehr begrenzt verfügbare Energie el. Leistung 2, 25 Graphics: P. Marwedel, 2-9 -

92 Trend hinsichtlich Energieeffizienz Hugo De Man, IMEC, 27 GOPS/J 2,

93 Hohe Taktraten energetisch ineffizient Rechnen mit niedrigen Taktraten energetisch effizienter: Basisgleichungen Leistung: P ~ V DD ², Maximale Taktfrequenz: f ~ V DD, Energiebedarf für ein Programm: Zeitbedarf für ein Programm: t ~ /f E = P t, mit: t = Laufzeit (fest) Änderungen durch Parallelverarbeitung, mit α Operationen pro Takt: Taktfrequenz reduziert auf: f = f / α, Spannung kann reduziert werden auf: V DD = V DD / α, Leistung für Parallelausführung: P = P / α² pro Operation, Leistung für α Operationen pro Takt: P = α P = P / α, Zeit zur Ausführung des Programms: t = t, Energie zur Ausführung des Programms: E = P t = E / α Es ist effizienter, α Operationen parallel auszuführen Laut IBM/Böblingen in der Praxis eher P~V DD 3 als diese sequentiell in einem α ten Teil der Zeit auszuführen. 2,

95 Vorhersage der Taktfrequenzen Interner Takt [GHz] Steigerungsraten reduziert, nur noch moderate Steigerung. [ITRS, 2 Overall Roadmap Technology Characteristics (ORTC) Tables ] 2,

97 Trend zu Multiprozessor-Systemen Grenzen der effizienten Realisierbarkeit von Einzelprozessoren erreicht: - Höhere Taktraten nur schwer zu erreichen - Höhere Taktraten nicht mehr energieeffizient (Kriterium Watt/Millionen Operationen) - Sprungvorhersage wird immer komplizierter - Bei Multiprozessor-Systemen werden mehrere Prozessoren zusammengeschaltet: - Gleiche Multiprozessorsysteme: homogene Multiprozessoren - Unterschiedliche Multiprozessorsysteme: heterogene Multiprozessoren (für Anwendung optimiert) 2,

98 Einschub: Multi-threading/multi-processing In realen Rechnern meist mehrere Prozesse ausgeführt. Prozesse können wiederum aus threads (leichtgewichtige Prozesse) bestehen, den Einheiten der sequentiellen Ausführung. Prozesse haben eigene, threads verfügen über gemeinsame Adressen 2,

99 Einschub: Dispatcher Prozessen bzw. threads wird durch einen dispatcher der Prozessor zugeteilt. Dispatcher schaltet zwischen Ausführung um (context switch). Bei context switch werden alle Registerinhalte - des anzuhaltenden Prozesses/threads in einen ihm zugeordneten Datenblock (process control block, PCB) gerettet & - die des zu fortzuführenden Prozesses/threads aus seinem PCB geladen. Prozessen wird suggeriert, der Prozessor gehöre ihnen allein (bis auf Zeitverhalten). 2,

100 Einschub: Context switch Prozessor Register A Ausführung A B Speicher PCB A B PCB B A B 2,

101 Einige Eigenschaften 27 aktueller Prozessoren Beispiel: Intel Core 2 Extreme Quad-Core QX6 (homogen): 4 Prozessoren auf einem Chip Jeder Prozessor kann pro Takt bis zu 4 Befehle beenden Befehle können sich gegenseitig überholen (dynamic scheduling, out-of-order execution) Sprungvorhersage 64-bit und 32-bit Operationen Bis zu 3 GHz ext. Takt Verlangt thermischen Entwurf für 3 W Leistungsaufnahme Stromaufnahme bis zu 25 A Spannungsversorgung,85-,6 V je nach Anforderung 775 Anschlüsse, davon ~2/3 für die Spannungsversorgung 2, 25 [ [ tenland.de/pi/intel Core2ExtremeQx 67.jpg] - -

102 Einige Eigenschaften 2 aktueller Prozessoren Beispiel: Intel Core i7-98x Processor Extreme Edition: 6 Prozessoren auf einem Chip (homogen) Hyperthreading: 2 threads/prozessor überlapp. Befehle können sich gegenseitig überholen Fertigung im 32 nm Prozess,7 x 9 Transistoren 64-bit und 32-bit Operationen 3,33 GHz (Turbo 3,6 GHz) ext. Takt Maximale Leistungsaufnahme (TDP): 3 W Stromaufnahme bis zu 8, A Spannungsversorgung,8-,375 V je nach Anforderung 366 Anschlüsse, incl. 435 für die Spannungsversorgung 2, 25 [ processor/datashts/ pdf] - 2 -

103 Eigenschaften eines 23 aktuellen Prozessors Beispiel: Intel Core i7-493mx Processor Extreme Edition: 4 Prozessoren auf einem Chip (homogen), 2 threads/prozessor Befehle können sich gegenseitig überholen,,4 x 9 Transistoren Fertigung im 22 nm Prozess, 3 GHz (Turbo 3,9 GHz) ext. Takt Maximale Leistungsaufnahme (TDP): 84 W, Strom bis zu 95 A Integrierte Graphik ( tlw. heterogen), 5 Anschlüsse Intel 2, 25 /us/en/documents/datasheets/4th-gen-corefamily-desktop-vol--datasheet.pdf - 3 -

104 Experimentell: Intel single chip cloud computer Experimentelle (homogene) Plattform (29) 2, 25 Intel - 4 -

105 Klassifikation von Multiprozessorsystemen nach Daten- und Befehlsströmen [Flynn] Befehlsströme > Datenströme SISD MISD > SIMD MIMD SISD Bislang besprochene Einzelrechner MIMD Netze aus Einzelrechnern; sehr flexibel SIMD Ein Befehlsstrom für unterschiedliche Daten; identische Befehle bilden starke Einschränkung MISD Mehrere Befehle für ein Datum: Kann als Fließband von Befehlen auf demselben Datenstrom ausgelegt werden. Ist etwas künstlich. Klassifikation hat nur begrenzte Aussagekraft; keine bessere vorhanden. 2,

106 Multiprocessor Systems On A Chip (MPSoCs) - Beispiele belegen Existenz effizienter heterogener Prozessoren - Hugo De Man, IMEC, 27 2,

107 Energieeffizientes Design mit (halb) heterogenen Prozessoren Halb Heterogen : Identischer Befehlssatz (ISA), aber optimiert für Performance bzw. Energieeffizienz 2, 25 big_little_final_final.pdf ARM - 7 -

108 Unterschiede u.a. aufgrund unterschiedlicher Fließbänder 2, 25 big_little_final_final.pdf - 8 -

109 Anwendung: Samsung Exynos 5 Octa 4 Cortex A7 + 4 Cortex A5 Eingebaut in manche Varianten des Samsung S 4 Videos: 2, 25 Photo: Samsung - 9 -

110 Homogen vs. heterogen homogen ISA identisch, Implementierung verschieden heterogen Leichte Verlagerung von Prozessen Fehlertoleranz per Verlagerung Effizienz durch Optimierung für Anwendung (+) + Software-Entwurfsaufwand + (+) - Prozessor-Entwurfsaufwand + ± - 2,

111 Multi-cores in der Großrechnerwelt 2,

112 Korrektur der Vorhersagen der Taktraten ITRS 23 2,

113 Anzahl der Komponenten stationärer Systeme [ITRS Update 2] 2,

114 Vorhersage der Anzahl der Funktionen pro Chip [ITRS 2] 2,

115 # Transistoren bei Prozessorchips [ITRS 2] 2,

116 Wie viele Cores werden es werden? 2 Aufgrund der Probleme mit der Wärmeabfuhr kann man bei maximaler Taktrate von ~2 Prozessoren nur mit Strom versorgen dark silicon 2,

117 Niedrigere Spannung, langsamerer Takt? 2 Sieht im ersten Moment besser aus 2,

118 Bestes Ergebnis bei 44 Cores Taktung mit GHz Optimaler Takt Nur Flächenbeschränkung Bandbreitengrenze Weitere Performancesteigerungen bleiben begrenzt 2,

119 2,

120 Programmierung von Mehrprozessor-Systemen Übliche imperative Sprachen (C, C++, Java, ): Abstraktion der seq. Ausführung in von-neumann Maschine. für Programmierung von Maschinen konzipiert. Existierende Anwendungen für Programmierung von parallelen Maschinen konzipiert. Kann man aus existierenden Anwendungen automatisch Parallelität extrahieren? - Auf der Basis riesigen Aufwandes begrenzte Erfolge im high performance computing (HPC; Simulationen in Physik, Chemie usw.) - Für allgemeine Anwendung weitgehend ein Fehlschlag 2,

121 Lösungsansätze Alternative Berechungsmodelle - Funktionale Sprachen - Datenflusssprachen - Signalflussgraphen - Task-Graphen als Anwendungsmodellierung seq. Prozess Bislang keine allgemein nutzbare Lösung, Prozessorhersteller setzen große Summen auf MP-Technologie 2,

122 Zusammenfassung Skalieren der Taktrate wg. des Energieverbrauchs begrenzt Skalieren der Perfomanz v.a. über mehr Kerne (multi-cores) Energieverbrauch teilweise heterogene Multi-Cores Unklare Situation hinsichtlich der Richtung - Geeignetes Berechungsmodell? - Geeignete Architekturen? - Geeignete Sprachen? Mögliches Ende des Paradieses, in dem immer komplexere Softwarearchitekturen durch immer leistungsfähigere Hardware möglich werden. 2,

123 Reserve 2,