Technische Informatik 1 Übung 8 Instruktionsparallelität (Rechenübung) Andreas Tretter 8./9. Dezember Bitte immer eine Reihe freilassen

Größe: px

Ab Seite anzeigen:

Download "Technische Informatik 1 Übung 8 Instruktionsparallelität (Rechenübung) Andreas Tretter 8./9. Dezember Bitte immer eine Reihe freilassen"

Emma Blau
vor 6 Jahren
Abrufe

1 Technische Informatik 1 Übung 8 Instruktionsparallelität (Rechenübung) Andreas Tretter 8./9. Dezember 2016 Bitte immer eine Reihe freilassen

2 Ziele der Übung Verschiedene Arten von Instruktionsparallelität VLIW (Super-)Pipelining Superskalare Prozessoren (dynamische Parallelität) VLIW genauer verstehen Code umschreiben Einfluss auf Codegrösse sowie Ausführzeit VLIW und Pipelining, mit oder ohne Forwarding 2

3 VLIW Very Long Instruction Word Ein VLIW beinhaltet n Instruktionen Gleichzeitiger Start und Verarbeitung VLIW Inst. 1 Instr. 1 Instr. 2 Instr. n VLIW Inst. 2 Instr. 1 Instr. 2 Instr. n Instruktionen müssen unabhängig sein Gleichzeitig ausgeführte Instruktionen dürfen nicht die gleichen Ressourcen benutzen Gleichzeitig ausgeführte Instruktionen dürfen nicht das gleiche Zielregister aufweisen Eswerden zusätzliche Ressourcen benötigt z.b. zusätzliche ALUs 3

4 VLIW auf MIPS Architektur Instruktionen werden paarweise geladen, dekodiert und ausgeführt Die 1. Instruktion ist eine ALU-Op oder Verzweigung Die 2. Instruktion ist ein Speicherzugriff Instruktionswort ist 64 Bit breit Instruktion 1 (32 bit) ALU-Op oder Verzweigung Instruktion 2 (32 bit) Datentransfer (load oder store) Wenn Ausführung von nur einer Instruktion möglich: nop für die zweite Instruktion 4

5 Umschreiben für VLIW (ohne Pipelining) Umschreiben : Einziges Kriterium: Neues Programm soll das gleiche machen wie das alte Beispiel: addi $t1, $zero, 0 lw $t2, 0($t1) addi $t1, $zero, 4 lw $t3, 0($t1) or $t2, $t2, $t3 Achtung: Read after Write Achtung: Write after Read Instruktion 1 Instruktion 2 addi $t1, $zero, 0 addi $t1, $zero, 4 or $t2, $t2, $t3 lw $t2, 0($t1) lw $t3, 0($t1) Cycles per Instruktion: CPI = 4 /5 = 0.8 (optimal 0.5) 6

6 Aufgabe 1 Umschreiben nach VLIW 1.1: Codegrösse minimieren - Instruktionen müssen nur umgeordnet, nicht geändert werden 1.2: Laufzeit minimieren - Komplette Schleifenentfaltung Kein Pipelining Instruktionen werden nacheinander ausgeführt Zum Nachdenken: Ist Codegrössenminimierung bei VLIW überhaupt sinnvoll? 7

7 Besprechung Aufgabe 1.1 loop: LW $t1, 0($s1) ADDI $t1, $t1, 1 SW $t1, 0($s1) ADDI $s1, $s1, 4 ADDI $t3, $t3, -1 BNEZ $t3, loop Achtung: Read after Write Achtung: Write after Read ALU oder Verzweigung Datentransfer CC loop: ADDI $t3, $t3, 1 LW $t1, 0($s1) 1 ADDI $t1, $t1, 1 2 ADDI $s1, $s1, 4 SW $t1, 0($s1) 3 BNEZ $t3, loop 4 8

8 Lösung Aufgabe Codegrösse VLIW: 10 Instruktionsworte à 64 bit 640 bit Originalcode: 16 Instruktionen à 32 bit 512 bit Es wird ein Overhead von 1 512/640 = 20% generiert. 9

9 Lösung Aufgabe Laufzeit Vor der Schleife: 10 Instruktionen in 6 Taktzyklen In der Schleife: 6 Instruktionen in 4 Taktzyklen (4 Mal ausgeführt) -> Total: x 6 = 34 Instruktionen in 6 + 4x4 = 22 Taktzyklen CPI = 22/34 = 0.65, Ausführungszeit: 22 x 10 ns = 220 ns 10

10 Lösung Aufgabe Instruktionsworte x 64 bit = 896 bit CPI = 14/21 = 0.66, Ausführungszeit = 140 ns Ausführungszeit um 36% reduziert, Code 29% grösser 11

11 Aufgabe 1 Zum Nachdenken Ist Codegrössenminimierung bei einem VLIW überhaupt sinnvoll? Grundsätzlich: VLIW ist Tradeoff: Grösserer Code für mehr Geschwindigkeit Wer kleinen Code will, sollte keinen VLIW benutzen Allerdings: 90% der Ausführungszeit eines Programms wird typischerweise in 10% des Codes verbracht (Schleifen etc.) Geschwindigkeitsoptimierung v.a. an neuralgischen Punkten, woanders kann man durchaus Speicher einsparen 12

12 VLIW mit Pipelining Die beiden VLIW Instruktionen werden auf jeder Stufe gleichzeitig bearbeitet Wenn eine Instruktion gestallt werden muss, wird die zweite Instruktion des VLIW ebenfalls angehalten Stall der ersten VLIW Instruktion IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB k Pipelinestufen IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB Beide Instruktionen sind verzögert 13

13 Aufgabe 2: Pipelining mit VLIW Funktion minvec(int* A0, int* A1, int* A2, int n) Input: Arrays A0[0 n 1] und A1[0 n 1] Output: A2[i] = min(a0[i];a1[i]) für alle i = {0,, n 1} 14

14 Aufgabe 2: Pipelining mit VLIW Tipps Bestimmen, ob gesprungen wird oder nicht Register kann gleichzeitig geschrieben & gelesen werden Statische Sprungvorhersage not taken Sprungentscheidung ist nach der MEM-Stufe bekannt 15

15 Lösung Aufgabe 2.a Beide Instruktionen werden angehalten, obwohl nur die zweite blockiert ist 16

16 Lösung Aufgabe 2.b Falsche Sprungvorhersage. Die komplette Pipeline muss geflusht werden 17

17 Lösung Aufgabe 2.c Eingabedaten A0 = [5, 4, 12, 7, 15] A1 = [7, 4, 9, 13, 0] Statische Sprungvorhersage: not taken Fünf Schleifendurchläufe Erster Sprung: taken 1. und 4. Durchlauf Zweiter Sprung: taken 1., 2., 3. und 4. Durchlauf Die Pipeline muss 4+2=6 Mal geflusht werden, es gehen 6 x 3 = 18 Zyklen verloren 18

18 Diskussion über Instruktionsparallelität In der Vorlesung wurden 4 Systeme für Instruktionsparallelität vorgestellt: Pipelining mit fester Anzahl Stufen: IF, ID, EX, MEM, WB Very Long Instruction Word (VLIW) Superpipelining Superskalare Prozessoren (dynamische Parallelität) 19

19 Superpipelining Einführung zahlreicher Pipelinestufen, vor allem bei den arithmetischen Einheiten Die Zahl der Stufen ist je nach Instruktion unterschiedlich. Führt zu out of order completion. 20

20 Superskalare Prozessoren (dynamische Paralleität) Der Prozessor bestimmt zur Laufzeit, welche Instruktion ausgeführt werden soll Eine spezielle Einheit (commit unit) stellt dabei sicher, dass die Resultate in der richtige Reihenfolge in die Register geschrieben werden 21

21 Superpipelining vs. VLIW vs. Superskalar Codegrösse Grösser bei VLIWs wegen nops Compilerbau Gute Compiler notwendig bei VLIW und Superpipelining Superskalar: Hardware übernimmt Optimierung zur Laufzeit, guter Compiler kann aber helfen (z.b. loop unrolling) Zusätzlicher Logikaufwand Eher gering bei VLIW und Superpipelining Sehr hoch bei Superskalar Einfluss von Branch Misses Steigt deutlich bei Superpipeling und Superskalar 22

22 Superpipelining vs. VLIW vs. Superskalar Was wird heute eingesetzt (Hochleistungs-CPUs)? Hochleistungsprozessoren sind normalerweise superskalare Systeme mit langen Pipelines. 23

23 Branch Delay Slot Um 1990 eingeführt, um Ablaufhazards zu vermeiden Damals sehr erfolgreich Warum heute nicht mehr benutzt? 1990: Zusätzliche Logik für die dynamische Sprungvorhersage zu teuer Heute: Deutlich mehr Transistoren verfügbar (Moore s Law) Überflüssig insbesondere bei langen Pipelines und superskalaren CPUs 24

Ähnliche Dokumente

Technische Informatik 1 - HS 2016

Institut für Technische Informatik und Kommunikationsnetze Prof. L. Thiele Technische Informatik 1 - HS 2016 Lösungsvorschläge für Übung 8 Datum: 8. 9. 12. 2016 1 Instruktionsparallelität VLIW Gegeben