Das Laden der Instruktionen erreicht eine Cache-Hit Rate von 90%.

Transkript

1 Herbst 2001 Digitaltechnik und Rechnerstrukturen Seite 1 Aufgabe 1: Performance Evaluation (Total 25 Punkte) Gegeben sei ein System S0 mit einem Prozessor mit einer Taktfrequenz von 800 MHz. Der Prozessor verarbeitet im wesentlichen drei Klassen von Instruktionen (A, B und C). In der folgenden Tabelle sind die optimale CPI (ohne Wartezyklen), die Häufigkeiten des Auftretens der Operationen und die Wahrscheinlichkeit von Cache-Hits angegeben. Beachten Sie, dass nur die Instruktionsklassen A und B Speicherzugriffe tätigen: Die Instruktionen der Klasse C arbeiten nur mit Registern: Das Laden der Instruktionen erreicht eine Cache-Hit Rate von 90%. Bei einem Cache-Miss sind 12 zusätzliche Zyklen nötig. Ein Cache-Hit hat keine zusätzlichen Zyklen zur Folge. Als Testfall dient ein Programm, welches während seiner Ausführung Instruktionen abarbeitet. Bei den Berechnungen der Ausführungszeit des Programms soll die Verzögerung des Programmstarts durch das Laden des Programms in den Speicher vernachlässigt werden. Optimale CPI Instruktionsklasse Instruktionshäufigkeit a) (3 Punkte) Berechnen Sie die reale CPI des obigen Systems. b) (2 Punkte) Wie lange dauert die Ausführung des Testprogramms in Sekunden? Eine Verbesserungsmöglichkeit des Systems S0 ist der Einbau eines weiteren Caches. Dieses System S1 hat zwischen dem im System S0 bereits vorhandenen Cache und dem Speicher noch einen grösseren zweiten, einen sogenannten Second Level Cache. Zugriffe auf diesen Cache haben alle eine Cache-Hit Rate von 95%. Ein Cache-Miss im ersten Cache führt in diesem System zu 5 zusätzlichen Zyklen um auf den Second Level Cache zuzugreifen. Kommt es auch in diesem Cache zu einem Cache-Miss, so kommen weitere 9 zusätzliche Zyklen dazu (Falls bei einem Speicherzugriff also in beiden Caches ein Miss stattfindet, so kommen insgesamt 14 zusätzliche Zyklen zur Instruktion dazu). c) (3 Punkte) Berechnen sie die reale CPI des Systems S1. Cache-Hit Rate A 4 40% 80% B 5 20% 70% C 5 40% (keine Speicherzugriffe) d) (2 Punkte) Wie lange dauert die Ausführung des Testprogramms auf dem System S1 in Sekunden? Andere Fragen: Wir betrachten nun noch verschiedene den Cache betreffende Optimierungen, die unabhängig von den obigen Systemen sind. e) (5 Punkte) Gegeben sei ein voll-assoziativer Cache mit einer Grösse von 2 kb. Die Blockgrösse des Caches betrage 64 Bit. Ein Programm brauche nun 256 Instanzen einer Datenstruktur vom Typ calc_struct. Das Programm greife in einer Schleife mit grosser Häufigkeit auf die

2 Herbst 2001 Digitaltechnik und Rechnerstrukturen Seite 2 Instanzen zu. Die Datenstruktur muss folgende Elemente enthalten (es sind alles Integer- Variablen mit einer Grösse von je 4 Byte). In Klammern sind die relativen Zugriffshäufigkeiten innerhalb der Struktur gegeben: valid (5%) x (40%) count (15%) y (40%) Die Datenstrukturen seien im Speicher alle korrekt aligniert (das heisst an einer durch 16 teilbaren Adresse). Wie ordnen Sie die Variablen innerhalb der Datenstruktur calc_struct für optimale Performance? Geben Sie die Definition von calc_struct in C und begründen Sie Ihre Antwort! Schliesslich betrachten wir noch einige Optimierungen, welche die Parallelisierung betreffen. f) (5 Punkte) Gegeben sei ein Programm, welches aus folgenden Teilen besteht (in Klammern sind die Anteile an der Laufzeit im seriellen Fall angegeben): Teil A (10%): Läuft seriell und lässt sich nicht parallelisieren. Teil B (20%): Lässt sich beschränkt parallelisieren und läuft auf maximal 2 Prozessoren. Teil C (70%): Lässt sich unbeschränkt parallelisieren und läuft auf beliebig vielen Prozessoren. Das Programm lief bisher auf einer Maschine mit 1 Prozessor und soll nun um den Faktor 4 beschleunigt werden. Wieviele Prozessoren müssen in der Maschine eingebaut sein (vernachlässigen Sie Effekte der Cache- und Bus-Auslastung) um diese Verbesserung zu erreichen? g) (5 Punkte) Betrachten Sie noch einmal das Programm aus Aufgabe f. Aus finanziellen Überlegungen wird die Maschine nur auf insgesamt 4 Prozessoren aufgerüstet. Um die Ausführungszeit des Programms mit 4 Prozessoren auf 35% der seriellen Ausführungszeit (Laufzeit des gesamten Programms auf einem Prozessor) zu reduzieren, sollen nun Verbesserungen am Programm vorgenommen werden. Durch geschickte Programmierung kann der Anteil des Teils B erniedrigt und der Anteil des Teils C am Programm entsprechend erhöht werden. Wie müssen die Anteile der Teile B und C am Programm sein, um die geforderte Reduzierung der Ausführungszeit zu erreichen?

3 Herbst 2001 Digitaltechnik und Rechnerstrukturen Seite 3 Aufgabe 2: Kontroll- und Datenpfad (Total 30 Punkte) Die Grundlage dieser Aufgabe besteht aus einem bereits vollständigen Datenpfad einer Multizyklus-Implementierung des Instruktionssatzes mit allen notwendigen Steuerleitungen. Ihre Aufgabe ist es, das Design so zu modifizieren, dass eine neue Instruktion namens "vscale" (vector scale), die Multiplikation eines Vektors mit einem Skalar, ausgeführt werden kann. Die Abbildung (siehe letzte Seite) zeigt den Datenpfad des Multizyklus-Designs. Die ALU benötigt einen vollständigen Zyklus für Berechnungen, der Speicher einen vollständigen Zyklus für read und write Operationen und der Clock ist flankengetriggert. R-type Instruktionen (z. B. add): opcode rs rt rd shamt funct bits Load/Store und Branch Instruktionen: opcode rs rt address bits Jump: opcode address bits Die Signale ALUOp, ALUSrcB und PCSource sind mit 2 Bit codiert (d.h. vierwertig). Sie können folgende Werte annehmen: ALUOp: 00 ALU führt eine Addition durch 01 ALU fürt eine Subtraktion durch 10 Das funct-feld der Instruktion bestimmt die von der ALU durchgeführte Aktion ALUSrcB: 00 Der zweite Eingabewert der ALU kommt aus dem B-Register 01 Der zweite Eingabewert der ALU ist die Konstante 4 10 Der zweite Eingabewert der ALU sind die vorzeichenerweiterten unteren 16 Bit des Instruction Register 11 Der zweite Eingabewert der ALU sind die vorzeichenerweiterten unteren 16 Bit des um zwei Bit nach links geschobenen Instruction Register PCSource: 00 Der Ausgabewert der ALU wird in den PC geschrieben 01 Der Wert von ALUOut (die Verzweigungsadresse) wird in den PC geschrieben 10 Die Sprungzieladresse IR[25-0] wird um zwei Bit nach links geschoben und bildet zusammen mit PC+4[31-28] den neuen Wert des PC. Die Instruktion vscale multipliziert Blöcke von Worten mit einer spezifizierten Konstanten und kopiert den resultierenden Block auf eine Zieladresse. In der Instruktion wird der Inputvektor durch seine Startadresse v1 und der Outputvektor durch seine Startadresse v2 beschrieben. Die Länge des Vektors wird durch length angegeben, der Skalierungsfaktor durch scale.

4 Herbst 2001 Digitaltechnik und Rechnerstrukturen Seite 4 Der Pseudocode der Funktion ist: vscale(v1,v2,length,scale) { int index = (length - 1)*4; /* multiply by 4 since we want byte addresses */ } while (index >= 0) { M[v2+index] = scale * M[v1+index]; index = index - 4; } Die Kodierung der vscale Instruktion ist: opcode = Instruction[31-26] R[rs] = v1 R[rt] = v2 R[rd] = length - 1 Instruction[10-0] = scale factor Der scale Wert wird fest in die unteren 11 Bits der Instruktion codiert und ist eine vorzeichenbehaftete Zahl. Beachten Sie, dass bei der Implementierung dieser Instruktion drei Register gelesen werden müssen. Nehmen Sie des weiteren an, dass R[rd] den Wert length - 1 beinhält. a) (2 Punkte) Nehmen Sie ausgehend vom gegebenen Design an, dass Sie keine zusätzlichen ALUs oder Addierer verwenden dürfen, aber die gegebene ALU Multiplikationen durchführen kann. Sie können jedoch eine beliebige Anzahl Multiplexer und Register hinzufügen. Geben Sie die kleinstmögliche Anzahl Clockzyklen an, die Sie per Vektorelement aufwenden müssen? Begründen Sie Ihre Antwort. b) (18 Punkte) Welche Änderungen sind im Datenpfad notwendig, um die vscale Instruktion zu implementieren? Sie dürfen dazu nur Register, Multiplexer und andere einfache Logikelemente verwenden (keine zusätzliche ALU). Sie können aber existierende Komponenten wie z. B. Enable-Signale für Register modifizieren. Nehmen Sie an, dass die ALU Multiplikation unterstützt und vernachlässigen Sie Overflow-Fälle. Alle von Ihnen vorgeschlagenen Änderungen müssen durch entsprechende Skizzen im Datenpfad ersichtlich gemacht werden. Eine ausschliesslich textuelle Beschreibung der Änderungen zählt nicht als Lösung. c) (10 Punkte) Beschreiben Sie unter Verwendung von Register-Transfer Sprache und PseudoCode was in jedem Zyklus der Abarbeitung einer vscale Instruktion geschieht(initialisierung und Schleife). Machen Sie deutlich, welche Operationen gleichzeitig ablaufen.

5 Herbst 2001 Digitaltechnik und Rechnerstrukturen Seite 5 Aufgabe 3: Speicherhierarchie (Total 30 Punkte) a) (5 Punkte) Berechnen Sie die effektive Grösse (in Bits) von einem Cache im write-back Betrieb. Der Cache hat eine Kapazität von 256KB, ist teilassoziativ mit 4 Einträgen pro Index (four-way associative) und 8 Worten pro Eintrag. Die Wortbreite ist 64 Bit. Gehen Sie von 32 Bit Byte-Adressierung aus. b) (25 Punkte) Ein Programm, welches auf einem Computer mit anfänglich leerem write-back Cache läuft, führt folgende Sequenz von Lese-/Schreiboperationen aus : No Address Operation dec bin read read read write write read write write read read write write Zur Vereinfachung sind die Wort- Adressen in dezimaler und binärer Form angegeben. Die Kapazität des Caches ist 8 Blocks, mit 4 Worten pro Block. Der Cache ist 2-way assoziativ und verwendet eine least recently used (LRU) Ersetzungsstrategie. Geben Sie für jede Lese- und Schreiboperation an, ob es sich um einen Cache Hit oder einen Cache Miss handelt. Stellen Sie den Zustand des Caches nach jeder Operation dar. Zusätzlich sollen Sie auch noch die gesamte Anzahl Zyklen bestimmen, welche der Prozessor für Zugriffe auf den Hauptspeicher verwedet. (Zählen Sie nur jene Zyklen, welche für das Lesen und Schreiben vom Hauptspeicher verwendet werden.) Nehmen Sie an, dass es 4 Zyklen dauert, um ein Wort vom Hauptspeicher zu lesen. Das Schreiben eines Wortes dauert 5 Zyklen. Benutzen Sie die Tabelle auf der folgenden Seite zur Darstellung Ihrer Resultate.

6 Herbst 2001 Digitaltechnik und Rechnerstrukturen Seite 6 No Address Read/ Write Hit/ Miss Cache state Index 0 Index 1 Index 2 Index 3 Main memory access cycles R R R W 5. 5 W 6. 7 R W W 9. 2 R R W W Total number of main memory access cycles:

7 Herbst 2001 Digitaltechnik und Rechnerstrukturen Seite 7 Aufgabe 4: Pipelining/Hazards (Total 20 Punkte) Gegeben sei die folgende 4-stufige Pipeline, in der das "Write Back" in die Register während der Ausführungsstufe geschieht und für Speicherzugriffe das Register nur in der Speicherzugriffs-Phase gelesen wird. Stage 1: Instruction Fetch (IF): IR <- Mem[PC]; PC <- PC + 4 Stage 2: Instruction Decode(ID): Instruktion dekodieren. Wenn die Instruktion keine Speicherinstruktion ist (LW, SW): A <- R[rs] B <- R[rt] I <- IR.imm Stage 3: Execute(EX): Register-Register ALU Instruktion R <- A op B R[rd] <- R (sofortiger WB) Register-Immediate ALU Instruktion R <- A op I R[rd] <- R (sofortiger WB) Branch R <- PC + I Cond <- (A op 0) (Adresse der nächsten Instruktion, wenn der "Branch" durchgeführt wurde) (Bedingung des "Branches") Stage 4: Memory Access/Branch Vervollständigung (MEM): Memory Reference A <- R[rs] B <- R[rt] I <- IR.Imm R <- A + I M <- M[R] (for loads, LW) M[R] <- B (for stores, SW) R[rt] <- M (for loads, LW) Branch if (Cond) PC <- R Nehmen Sie an, dass ein Hazard immer erkannt wird und die entscheidenden Instruktionen um die minimal benötigte Anzahl Zyklen verschoben werden. Betrachten Sie den unten gegebenen Code.

8 Herbst 2001 Digitaltechnik und Rechnerstrukturen Seite 8 c) (5 Punkte) Finden Sie alle RAW und WAR Hazards. d) (15 Punkte) Geben Sie das Pipelining Diagramm der Instruktionen für eine Ausführung der Schleife an. MOV R1, #1024 ; loop executes 1024 times loop: LW R2, 0(R4) ; R2 gets X[i], R4 points to X[i] MUL R2, R2, #20 ; compute 20*X[i] LW R3, 0(R5) ; R3 gets Y[i], R5 points to Y[i] ADD R3, R2, R3 ; compute 20*X[i]+Y[i] SW 0(R5), R3 ; Y[i]=20*X[i]+Y[i] ADD R5, R5, #4 ; increment pointer to array Y ADD R4, R4, #4 ; increment pointer to array X SUB R1, R1, #1 ; decrement the iteration counter BNEZ R1, loop ; loop back if not finished

9 Herbst 2001 Digitaltechnik und Rechnerstrukturen Seite 9 Aufgabe 5: Software Pipelining (Total 20 Punkte) Gegeben sei der DLX Code: MOVI R1, #1024 loop iterative 1024 times L1: LD F0, 0(R2) R2 points to X[i] MULTD F4, F2, F0 compute a*x[i] LD F6, 0(R3) R3 points to Y[i] ADDD F8, F6, F4 compute ax[i] + Y[i] SD 0(R3), F8 Store result in Y[i] ADDI R2, R2, #8 Increment pointer_to_x ADDI R3, R3, #8 Increment pointer_to_y SUBI R1, R1, #1 Decrement count by 1 BNEZ R1, L1 Alle Funktionseinheiten sind vollständig gepipelined, d.h. es gibt keine strukturellen Hazards. Die MULTD und ADDD Instruktionen werden in der Gleitkomma FU und LD, SD in der Load/ Store Pipe ausgeführt. Andere Instruktionen werden in der Integer FU ausgeführt. In einer Superskalar Architektur können zwei Instruktionen in demselben Zyklus ausgeführt werden. Es gibt zwei Integer FUs, eine Load/Store Pipe und eine FP Einheit. Folgende Kombinationen können in einem Zyklus durchgeführt werden. a) zwei unabhängige Integer-Instruktionen b) eine Speicher- und eine unabhängige Integer- oder Gleitkomma-Operation c) eine Integer-Instruktion und eine unabhängige Gleitkomma-Operation Zwei Speicher-Operationen können allerdings nicht gleichzeitig ausgeführt werden. Nehmen Sie folgende "Stall" Zyklen, aufgrund von Datenabhängigkeiten, an. Zwischen einer ADDD und einer abhängigen Operation -- 1 Zyklus Zwischen einer MULTD und einer abhängigen Operation -- 2 Zyklen Zwischen einer LD und einer abhängigen FP Operation -- 1 Zyklus Es gibt einen einzelnen "Branch Delay Slot" der durch verzögertes Branching gefüllt werden kann. e) (20 Punkte) Schreiben Sie den Code unter Verwendung von Software-Pipelining so um, dass seine Ausführungszeit auf der obigen Superskalar-Architektur minimal ist. Berechnen Sie dann die CPI des Superskalar-Prozessors beim Ausführen Ihres neuarrangierten Codes. (Betrachten Sie dazu nur die Instruktionen innerhalb der Schleife.)

10 Herbst 2001 Digitaltechnik und Rechnerstrukturen Seite 10 Aufgabe 6: I/O SCSI und DMA (Total 30 Punkte) I: SCSI (20 Punkte) Wir betrachten ein Computersystem an dem mehrere SCSI Geräte über einen SCSI-Bus angeschlossen werden.unser Computer unterstützt eine Datentransferrate von 30 MByte/s und die einzelnen angeschlossenen Geräte besitzen genügend grossen Buffer um ihre kontinuierlichen Übertragungsraten in jedem Fall zu bearbeiten. Wir schliessen ein CD-Laufwerk mit einer kontinuierlichen Übertragungsrate von 600KByte/s von der CD und einer Datenrate von 2 MByte/s aus dem Buffer an den SCSI-Bus an. a) Wie viele Harddisks mit einer kontinuierlichen Übertragungsrate von 8 MByte/s von den Platten und einer Datenrate von 30 MByte/s aus dem Buffer lassen sich an den Bus zusätzlich anschliessen, so dass alle Geräte gleichzeitig mit maximaler Geschwindigkeit betrieben werden können? (10 Punkte) b) Wie stark ist der Bus in diesem Fall belastet? (2 Punkte) Vereinfachend können sie annehmen, dass 1M = und 1K = 1000 Jetzt verfeinern wir das Modell und betrachten den Overhead welcher auf dem Bus für die Datenübertragung benötigt wird. Das CD-Laufwerk hat einen Overhead von 5ms für jeden Transfer und die maximale Blockgrösse von 64 KBytes pro Übertragung. Jede Harddisk hat ebenfalls einen Overhead von 5ms und die Blockgrösse ist 1024 KBytes pro Übertragung. c) Berechnen sie nun mit diesen zusätzlichen Daten die Busbelastung pro Gerät. (4 Punkte) d) Berechnen sie die gesamte Busbelastung mit der in Teilaufgabe a) bestimmten Anzahl von Geräten. (2 Punkte) e) Genügt der Bus den Anforderungen aus Teilaufgabe a) noch? (2 Punkte)

11 Herbst 2001 Digitaltechnik und Rechnerstrukturen Seite 11 II: DMA (10 Punkte) Wir betrachten ein System aus einem Computer und einem I/O-Gerät, welche an den Hauptspeicher über einen shared Bus mit einer Busbreite von einem Wort angeschlossen sind. Der Prozessor kann maximal 1 Million Instruktionen pro Sekunde ausführen. Im Mittel braucht eine Instruktion 5 Prozessorzyklen, wovon 3 für einen Speicherzugriff verwendet werden. Ein Schreib -oder Lesezugriff auf den Speicher benötigt genau 1 Prozessorzyklus. 1 Prozessorzyklus ist 1 Buszyklus auf dem shared Bus. Der shared Bus hat eine Taktfrequenz von 5MHz. Der Prozessor ist zu 85% durch Programmausführungen belastet. Es werden aber keine Zugriffe auf das I/O-Gerät gemacht. Nun sollen eine grosse Menge von Daten vom I/O-Gerät in den Speicher übertragen werden. a) Wir betrachten den Fall wo der Prozessor den Übertragungsvorgang ausführen muss. Um ein Wort zu übertragen, muss der Prozessor 2 Instruktionen ausführen. Bestimmen sie die maximale Datenrate in Worten pro Sekunde vom I/O-Gerät an den Speicher übertragen werden können. (6 Punkte) b) Berechnen sie dieselbe Rate falls das I/O-Gerät mit einer DMA ausgerüstet ist. Die Initialisierung kann vernachlässigt werden. (4 Punkte)

12 Herbst 2001 Digitaltechnik und Rechnerstrukturen Seite 12 Aufgabe 7: Cachekohärenz (Total 25 Punkte) a) (18 Punkte) Gegeben ist das im Bild gezeigte Multiprozessorsystem (shared memory, Netzwerkarchitektur). Beide Prozessoren besitzen einen Cache, der jeweils nur eine Zeile für ein Datum enthält. Der Speicher S2 enthält die Variable y an der Adresse Adr[y]. Die Cachkohärenz wird durch ein Write-Invalidate-Write-Back Directory-Protokoll sichergestellt (siehe Vorlesung). Am Anfang der Schreib- und Leseoperationen sind die beiden Cachezeilen im Zustand invalid. Netzwerk Speicher S1 Directory D1 Speicher S2 Directory D2 Variable y in Adresse Adr[y] Cache C1 Cache C2 Prozessor P1 Prozessor P2 Tragen Sie für die in der folgenden Tabelle angegebene Sequenz von Aktionen die Zustandsänderungen der Cachzeilen in den Caches C1 und C2, den Zustand des Directory D2 und die über das Netzwerk verschickten Nachrichten ein. Diese Nachrichten müssen für jede Aktion in der Reihenfolge des Auftretens aufgelistet werden. Die zu verwendende Notation wird aus der bereits TEILWEISE eingetragenen ersten Aktion deutlich: Zustandsänderungen: alterzustand -> neuerzustand; Sharers = {... } Nachrichten: Nachricht[Inhalt der Nachricht] : Sender -> Empfänger b) (7 Punkte) Gegeben ist das im Bild gezeigte Multiprozessorsystem (shared memory, Busarchitektur). Beide Prozessoren besitzen einen Cache, der jeweils nur eine Zeile für ein Datum enthält. Der Speicher S enthält die Variable x an der Adresse Adr[x]. Am Anfang der Schreib- und Leseoperationen sind die beiden Cachezeilen im Zustand invalid. Bus Speicher S Variablen x, y,... in Adressen Adr[x], Adr[y],... Cache C1 Cache C2 Prozessor P1 Prozessor P2 Die Cachkohärenz wird entweder durch ein Write-Invalidate-Write-Back (WIWB) oder durch ein MESI-Protokoll sichergestellt. Geben Sie eine Sequenz von Schreib- und Leseaktionen (z.b. P1 schreibt y; P2 liest x;...) an, bei der im Falle des MESI-Protokolls weniger Nachrichten auf dem Bus verschickt werden als im Fall des WIWB-Protokolls. Um welche Bus-Nachricht(en) handelt es sich? Begründen Sie ihre Antworten.

13 Herbst 2001 Digitaltechnik und Rechnerstrukturen Seite 13 Lese- und Schreibaktionen Cache C1 Cache C2 Directory D2 P1 liest y valid -> shared uncached -> shared Sharers = { P1 } Nachrichten auf dem Netzwerk (in der Reihenfolge des Auftretens) RMM[P1, Adr[y]]: C1 -> D2... P2 schreibt y P1 schreibt y P2 liest y