4. Mikroprogrammierung 4.1 Motivation 4.2 Eine einfache Mikroarchitektur 4.3 Die Integer Java Virtual Machine und der Stack 4.4 Die Mikroprogrammiersprache MAL 4.5 Optimierung der Mikroarchitektur 4. Mikroprogrammierung 4a - 1
4.1 Motivation Die Aufgabe des Mikroprogramms ist das Ausführen der Maschinenbefehle der ISA-Ebene (Instruction Set Architecture) in Hardware. Das Mikroprogramm verwendet die Ebene der digitalen Logik (die Gatter-Schaltwerke und Schaltnetze und die Register) der digitalen Logik direkt. Es handelt sich also sozusagen um einen Hardware-Interpreter für Maschinenbefehle. Je nach Komplexität der Maschinenbefehle kann die Mikroarchitektur eines Mikroprozessors sehr einfach oder sehr aufwändig sein 4. Mikroprogrammierung 4a - 2
4.2 Eine einfache Mikroarchitektur Als Beispiel entwickeln wir eine Mikroarchitektur, die JVM-Befehle in Hardware ausführen kann. Dabei beschränken wir uns auf Integer-Operationen. Wir nennen sie IJVM (Integer Java Virtual Machine). Stufe 4 Stufe 3 Assembler Betriebssystemmaschine Stufe 2 ISA (Instruktionssatz-Architektur) Stufe 1 Mikroarchitektur Stufe 0 Digitale Logik (Gatter, Register) 4. Mikroprogrammierung 4a - 3
Das Prinzip der IJVM In einer Endlosschleife: Hole den nächsten IJVM Befehl. Führe den IJVM Befehl durch ein kleines Mikroprogramm aus Ein Mikroprogramm besteht aus Mikroinstruktionen. Eine Mikroinstruktion ist eine Folge von Bits. Die Bits beschreiben den Zustand von Schaltern auf der Ebene der digitalen Logik: ein (1) aus (0) Eine Mikroinstruktion wird in einem Maschinenzyklus ausgeführt. 4. Mikroprogrammierung 4a - 4
Der Datenpfad der IJVM (1) 1. Register (alle 32 Bits breit, bis auf MBR): Speicherzugriff: MDR: Memory Data Register MAR: Memory Address Register PC: Program Counter MBR (8 Bit): Memory Buffer Register SP: Stack Pointer LV: Local Variables CPP: Constant Pool Pointer TOS: Top Of Stack OPC: Offset Program Counter H: Help register 4. Mikroprogrammierung 4a - 5
Datenpfad der IJVM (2) 2. Zwei Busse: Bus B: Inhalt eines Registers auf den B-Eingang der ALU legen Bus C: Ergebnis einer ALU-Operation auf die Eingänge (fast) aller Register legen 3. ALU (Arithmetic and Logic Unit, Rechenwerk): sechs Eingangssignale zum Steuern der ALU-Operation Das Ergebnis geht an den Shifter und zwei Signale N und Z als Aus-gänge 4. Shifter: modifiziert das Ergebnis durch Shifting Steuerung mit zwei Signalen 4. Mikroprogrammierung 4a - 6
Zugriff auf die Register Auslesen ( Register auf den Bus B legen ): Kontrollsignal anlegen Besonderheiten: MAR wird für den Speicherzugriff verwendet und kann nicht auf B gelegt werden MBR behandeln wir später (zusätzliches Kontrollsignal) H wird automatisch auf den A-Eingang der ALU gelegt Speichern ( Register vom C-Bus laden ) Kontrollsignal anlegen Besonderheiten: MDR kann aus dem Speicher oder von C aus geladen werden MBR wird immer aus dem Speicher geladen 4. Mikroprogrammierung 4a - 7
Die Arithmetic Logic Unit (ALU) Wir verwenden die folgende (stark vereinfachte) ALU: hier: Logik für ein Bit. Die ALU entsteht durch Verketten von 32 dieser Schaltungen! 4. Mikroprogrammierung 4a - 8
Steuerung der ALU 0 0 1 Increment = Carry in Bit 0 auf 1 setzen! 4. Mikroprogrammierung 4a - 9
Shifter Ermöglicht eine Manipulation der ALU Ausgabe: Zwei Signale ( 8 SLL8 (Shift Left Logical verschiebe alle Bits um 8 Stellen nach links fülle untere 8 Bits mit 0 auf SRA (Shift Right Arithmetic 1) verschiebe alle Bits um 1 Stelle nach rechts verändere das höchstwertige Bit nicht 4. Mikroprogrammierung 4a - 10
Zeitlicher Ablauf einer Mikroinstruktion (ein Zyklus) Wie kann man innerhalb einer Mikroinstruktion dasselbe Register lesen und schreiben? 4. Mikroprogrammierung 4a - 11
Speicherzugriff auf Daten (1) per MAR/MDR Immer ein Wort gleichzeitig (= 4 Byte) MAR enthält die Adresse MDR enthält den Inhalt Beispiel: MAR = 2 dann enthält MDR die Bytes 8-11 Realisierung des MAR in Hardware: 4. Mikroprogrammierung 4a - 12
Speicherzugriff auf Daten (2) Speichern: lade MAR mit der Speicher-Adresse (erster Zyklus) lade MDR mit dem Inhalt, signalisiere, dass gespeichert werden soll (zweiter Zyklus) Die Daten sind am Ende des dritten Zyklus im Speicher, MDR darf im dritten Zyklus wieder verwendet werden! Lesen: lade MAR mit der Speicher-Adresse, signalisiere, dass geladen werden soll ( Zyklus.1) Ergebnis liegt ab Ende 2. Zyklus im MDR, ursprünglicher Inhalt des MDR kann im 2. Zyklus noch verwendet werden im 2. Zyklus darf nicht vom C Bus ins MDR geschrieben werden 4. Mikroprogrammierung 4a - 13
Speicherzugriff auf Maschinenbefehle (ISA-Instruktionen) per PC/MBR byteweise MBR wird zur Ansteuerung des Mikroprogramms für diesen Maschinenbefehl (diese ISA-Instruktion) verwendet (später dazu mehr) Speichern gibt es nicht! Lesen analog zum Lesen von Daten nur ein Byte FETCH-Signal zum Ansteuern Bei allen Speicherzugriffen: Annahme, dass die Daten zu 100% im Cache gefunden werden, da sonst mehr als ein Zyklus für den Speicherzugriff gebraucht würde 4. Mikroprogrammierung 4a - 14
Mikroinstruktion Eine Mikroinstruktion besteht aus 36 Bits: 8 Bits (ALU) für die Steuerung der ALU 9 Bits (C) für das Schreiben in die Register 3 Bits (MEM) für den Speicherzugriff 4 Bits (B) für das Legen der Register auf den B-Bus 9 Bits (Addr), um die nächste Mikroinstruktion zu adressieren 3 Bits (JAM) für bedingte Sprünge 4. Mikroprogrammierung 4a - 15
Kontrollpfad Control store für das Mikroprogramm (512 Plätze für Instruktionen) Micro Instruction Register (MIR): enthält die aktuelle Mikroinstruktion Micro Program Counter (MPC): zeigt auf die nächste auszuführende Mikroinstruktion 4-to-16 Decoder: Bildet das 4-Bit-Signal für den B-Bus auf die Enable-Signale für die einzelnen Register ab 4. Mikroprogrammierung 4a - 16
Ablauf eines Zyklus (1) Lade neue Mikroinstruktion: gemäß MPC aus dem control store in das MIR 4. Mikroprogrammierung 4a - 17
Ablauf eines Zyklus (2) Stabilisieren der ALU-Eingänge: 4-Bit B-Teil des MIR wird dekodiert Das entsprechende Register wird auf den B-Bus gelegt B-Bus stabilisiert sich und liegt am B-Eingang der ALU an H-Register liegt am A Eingang der Alu an 4. Mikroprogrammierung 4a - 18
Ablauf eines Zyklus (3) Berechnung: die ALU rechnet der Shifter modifiziert das Ergebnis 4. Mikroprogrammierung 4a - 19
Ablauf eines Zyklus (4) Stabilisieren des C-Buses: die Ausgabe des Shifters auf dem C-Bus stabilisiert sich 4. Mikroprogrammierung 4a - 20
Ablauf eines Zyklus (5) Speichern in Registern: Laden der Register vom C-Bus Das geschieht sehr schnell, als Reaktion auf steigende Flanke des Taktgebers 4. Mikroprogrammierung 4a - 21
Ablauf eines Zyklus (6) Berechnen des neuen MPC: Generell steht die Adresse der nächsten Mikroinstruktion im Addr-Feld der aktuellen Mikroinstruktion. Ausnahmen: verzweigen (JAMN, JAMZ) ( JMPC ) springen 4. Mikroprogrammierung 4a - 22
Bedingte Sprünge Bei bedingten Sprüngen ist typischerweise das oberste Bit von NEXT_ADDR auf 0 gesetzt (NEXT_ADDR[8] = 0). Wenn das JAMN(Jump on Negative)-Bit gesetzt ist, wird zu NEXT_ADDRESS[8] der ALU-Ausgang N hinzugeodert : MPC[8] = NEXT_ADDRESS[8] OR N Analog dazu wird JAMZ (Jump on Zero) gehandhabt. Insgesamt gilt: MPC[8] = (JAMZ AND Z) OR (JAMN AND N) OR NEXT_ADDRESS[8] Das N-Bit ist gesetzt, wenn das Ergebnis der letzten ALU-Operation eine 1 im höchstwertigen Bit hatte. Das Z-Bit ist gesetzt, wenn das Ergebnis der letzten ALU-Operation 0 war. 4. Mikroprogrammierung 4a - 23
Beispiel für JAMZ 4. Mikroprogrammierung 4a - 24
JMPC (Jump on PC) Verwendung: für direkte Sprünge zu einer Mikroinstruktion im control store die Adresse, an die gesprungen wird, wird aus dem MBR gelesen und mit NEXT_ADDR verodert. Idee: Ins MBR wird immer der aktuelle Maschinenbefehl geladen. Dieser wird als Index in den control store verwendet. An der Stelle, auf die der Index zeigt, steht die erste Mikroinstruktion zur Ausführung des Maschinenbefehls. 4. Mikroprogrammierung 4a - 25
4.3 Die Integer Java Virtual Machine und der Stack Wir entwickeln jetzt ein Mikroprogramm, das die Integer Java Virtual Machine (IJVM) implementiert. Dazu wird auch eine Stack-Verwaltung in Hardware benötigt. 4. Mikroprogrammierung 4a - 26
Der Stack Der Stack ist ein Bereich im Hauptspeicher. Er wächst von unten nach oben. Man kann ein 32-Bit Wort oben auf den Stack legen, ein 32-Bit Wort von oben vom Stack herunternehmen. Das Register SP (Stack Pointer) zeigt auf das oberste Wort des Stacks. Beispiel: SP = 2: verweist auf das zweite Wort im Hauptspeicher. Dieses Wort enthält die Bytes 8, 9, 10 und 11. Das Register TOS (Top of Stack) soll immer den Wert des obersten Wortes auf dem Stack enthalten: Dies macht den Speicherzugriff effizienter. Aber: Es muss im Mikroprogramm explizit verwaltet werden. SP Operand 2 Operand 1... TOS = Operand 2 4. Mikroprogrammierung 4a - 27
( PC ) Der Program Counter Der PC ist ein besonderes Register. Der PC addressiert Bytes (nicht Worte). Er verweist auf die aktuelle Stelle im zu interpretierenden IJVM- Programm. Bei der Ausführung wird das nächste Byte des IJVM-Programms geholt: PC um eins erhöhen Fetch-Signal anlegen einen Zyklus warten dann steht des nächste Byte in MBR. PC... 0x60 0x64... 4. Mikroprogrammierung 4a - 28
Zur Orientierung Wir bauen eine JVM die Java-Bytecode ausführen (interpretieren) kann mit signifikanten Einschränkungen, daher IJVM Java-Programm compilieren Java Bytecode Üblicherweise ist die JVM ein gewöhnliches Programm. Wir wollen aber jetzt die JVM hardwarenah als Mikroprogramm realisieren. In unserem Fall: Java Bytecode = Maschinenbefehl (ISA Instruktion) (entspricht Assembler) Lernziel: Analog zur Interpretation von Java-Bytecode erfolgt auch die Interpretation von Assembler-Instruktionen. 4. Mikroprogrammierung 4a - 29
Beispiel für einen Integer-Befehl: iadd Die Funktionsweise des Befehls iadd Vorher: SP Operand 2 Operand 1... PC... 0x60 0x64 TOS = Operand 2... Nachher: SP Summe... PC... 0x60 0x64 TOS = Summe... 4. Mikroprogrammierung 4a - 30
Mikroprogramm für iadd 0x100: 0x101 000 00110101 000000100 001 0001 PC=PC+1;fetch;goto 0x101 (! warten ) 0x101: 0x102 000 00000000 000000000 000 0000 goto 0x102 0x102: 0x000 100 00000000 000000000 000 0000 goto MBR 0x060: 0x061 000 00110110 000001001 010 0100 MAR=SP=SP-1;rd;goto 0x061 0x061: 0x062 000 00010100 100000000 000 0111 H=TOS;goto 0x062 0x062: 0x100 000 00111100 001000010 100 0000 MDR=TOS=MDR+H;wr;goto 0x100 4. Mikroprogrammierung 4a - 31
Stackbehandlung Der Stack dient zur Speicherung von Operanden und Ergebnis lokalen Variablen einer Methode/Funktion. Frage: Warum haben lokale Variablen nicht einfach eine feste Speicheradresse? Antwort: weil eine Methode rekursiv aufgerufen werden kann. Das Register LV enthält immer die Adresse des Wortes, bei dem die lokalen Variablen für die aktuelle Methode beginnen. 4. Mikroprogrammierung 4a - 32
IJVM-Speichermodell Current Local Variable Frame und Current Operand Stack sind bekannt. Der Constant Pool enthält unter anderem Konstanten und Information zu Methoden. Die Method Area enthält das eigentliche IJVM Programm in Form von IJVM-Instruktionen. 4. Mikroprogrammierung 4a - 33
( ISA-Instruktionen ) IJVM-Instruktionssatz 4. Mikroprogrammierung 4a - 34
IJVM -Instruktionen: invokevirtual und ireturn invokevirtual und ireturn: erlauben den Aufruf von Methoden hier vereinfacht dargestellt: man darf nur Funktionen für ein Objekt aufrufen. keine Objektorientierung mehr Prinzipieller Ablauf: speichere Adresse des Objektes auf dem Stack, für das die Methode aufgerufen wird ( Vereinfachung (überflüssig, da speichere Parameter des Funktionsaufrufes auf dem Stack rufe invokevirtual auf invokevirtual hat einen 2 Byte langen Parameter Dieser beschreibt einen Eintrag im Constant Pool. Der Eintrag enthält die Adresse. an der die IJVM Instruktionen für die Methode liegen. 4. Mikroprogrammierung 4a - 35
Auffinden der Methode aufgerufene Methode Adresse disp disp2 disp1 invokevirtual 4. Mikroprogrammierung 4a - 36
Zusätzliche Daten An der Stelle, die durch die Adresse im CPP beschrieben wird, steht folgendes: zwei Bytes, die die Anzahl der übergebenen Parameter enthalten zwei Bytes, die den Speicherplatz für lokalen Variablen für diese Funktion enthalten als 5. Byte die erste Instruktion der aufgerufenen Funktion. 4. Mikroprogrammierung 4a - 37
Stack bei invokevirtual 4. Mikroprogrammierung 4a - 38
Stack bei ireturn 4. Mikroprogrammierung 4a - 39
Compilieren: Java nach IJVM i i 4. Mikroprogrammierung 4a - 40
4.4 Die Mikroprogrammiersprache MAL Prinzipiell: Inhalt des control stores aufschreiben 512 Mikroinstruktionen, je 36 Bit Problem: sehr unübersichtlich und fehleranfällig man muss sich genau überlegen, an welche Stelle welche Mikroinstruktion geschrieben wird: 0x99 erste Instruktion von IFEQU 0x9B erste Instruktion von IFLT -> kein lineares Ablegen von Instruktionen Außerdem: die Zweige von bedingten Anweisungen unterscheiden sich nur im 9. Bit, müssen also genau 256 Speicherpätze auseinander liegen Lösung: Einführen einer symbolischen Micro Assembly Language textuelle Beschreibung von Mikroinstruktionen, wird compiliert, Adressen werden dabei automatisch vergeben. 4. Mikroprogrammierung 4a - 41
MAL (1) Jede Zeile entspricht einer Mikroinstruktion. ALU-Operationen und Registerzugriff: Beispiel: SP = MDR = SP+1 Illegal: MDR = SP+MDR Illegal: H = H-MDR Speicheroperationen: rd und wr zum Schreiben von MDR fetch zum Lesen in MBR Illegal: erste Instruktion: MAR=SP;rd zweite Instruktion: MDR=H 4. Mikroprogrammierung 4a - 42
MAL (2) Direkte Bestimmung des nachfolgenden Befehls: entweder explizit mit goto <Marke> Zum Beispiel: goto Main1 Jede MAL-Zeile hat eine Marke. oder implizit, dann weglassen von goto Beispiel: iadd1 iadd2 iadd3 MAR=SP=SP-1;rd H=TOS MDR=TOS=MDR+H;wr;goto Main1 4. Mikroprogrammierung 4a - 43
MAL (3) Verzweigung aufgrund der Z- und N-Flags der ALU Beispiel: if(z) goto L1; else goto L2 Überprüfen von Registerinhalten auf Z/N: Beispiel: Z = TOS TOS wird auf B gelegt ALU erzeugt B als Ausgabe kein Register wird geschrieben 4. Mikroprogrammierung 4a - 44
MAL (4) Springen durch JMPC: ( value goto (MBR or ( MBR ) Oder, falls value=0, goto In der Mikroinstruktion steht value in NEXT_ADDRESS. 4. Mikroprogrammierung 4a - 45
Der Interpreter Auszug: Es folgen einige Beispiele. 4. Mikroprogrammierung 4a - 46
Main Voraussetzung: PC zeigt auf die als nächstes auszuführende IJVM-Instruktion. Diese ist bereits ins MBR geladen. Ausführen: PC um 1 erhöhen Fetch-Signal anlegen (am Ende des nächsten Zyklus steht die nächste IJVM- ( MBR Instruktion im zur Mikroinstruktion springen, mit der die Ausführung der aktuellen IJVM-Instruktion beginnt 4. Mikroprogrammierung 4a - 47
iadd Voraussetzung: TOS beinhaltet oberstes Wort auf Stack (= Operand 2) Ausführen: ( 1 SP um 1 dekrementieren (zeigt jetzt auf Operand Read-Signal anlegen Operand 2 in H laden summieren, Ergebnis schreiben: auf die aktuelle Position im Stack in TOS nach Main1 springen 4. Mikroprogrammierung 4a - 48
pop und iload<varnum> Achtung! Der Befehl iload <varnum> besteht aus 2 Bytes: 0x15 für iload ( LV <varnum> beschreibt den Offset der zu ladenden Variablen (relativ zu 4. Mikroprogrammierung 4a - 49
wide und wide_iload (1) Was machen wir, wenn eine lokale Variable mehr als 256 Wörter von LV entfernt ist? wide als IJVM-Instruktion davor schreiben: Wide soll auch für andere Operationen (z.b. istore) funktionieren. 4. Mikroprogrammierung 4a - 50
wide und wide_iload (2) 4. Mikroprogrammierung 4a - 51
goto <offset> Sprünge erfolgen relativ zum aktuellen PC. OPC dient zum Speichern des PC. Das erste Byte des Offset wird vorzeichenbehaftet auf den B-Bus gelegt (mit sign extension): Das oberste Bit des Inhalts von MBR wird in allen 24 Bits wiederholt, die ergänzt werden, um zu einem 32-Bit-Wort zu kommen. Das zweite Byte wird ohne Berücksichtigung des Vorzeichens auf den B-Bus gelegt (ohne sign extension): Die obersten 24 Bits sind auf 0 gesetzt. Daher sind Sprünge in beide Richtungen möglich. 4. Mikroprogrammierung 4a - 52
Beispiel für Sign Extension Problem: Gegeben sei eine ganze Zahl, kodiert in 8 Bit. Wie konvertiert man diese in die gleiche Zahl bei Darstellung mit 32 Bit? Beispiel: -6 = 11111010 naive Lösung: 00000000000000000000000011111010 (=128+64+32+16+8+2) Lösung: Sign extension: wiederhole das oberste Bit in allen Stellen die man hinzufügt: 11111111111111111111111111111010 (=-6) Nur,wenn die umzuwandelnde Zahl im 2er Komplement dargestellt ist: bei natürlichen Zahlen (>0) einfach Nullen davor schreiben. 4. Mikroprogrammierung 4a - 53
Bedingter Sprung: if_icmpeq1 <offset> Bedeutung: hole die obersten beiden Worte vom Stack wenn gleich, dann springe um Offset 4. Mikroprogrammierung 4a - 54
invokevirtual <disp> 4. Mikroprogrammierung 4a - 55
ireturn 4. Mikroprogrammierung 4a - 56
4.5 Optimierung der Mikroarchitektur Die Leistung/Geschwindigkeit der Mikroarchitektur kann auf verschiedene Weise erhöht werden: durch Reduktion der Zyklen (Anzahl an Mikroinstruktionen), die eine ISA-Instruktion (ein Maschinenbefehl) benötigt. durch Reduktion der Länge eines Zyklus durch Einsatz schnellerer Hardware (hier nicht weiter betrachtet). durch die überlappende Ausführung von Instruktionen. Dies erfordert meist einen Kompromiss zwischen Kosten und Nutzen Beispiel: Decoder vs. direkte Angabe der Signale für die Steuerung des B Busses: weniger ROM für das Mikroprogramm vs. weniger Latenzzeit für das Anlegen der Signale. 4. Mikroprogrammierung 4b - 1
Reduktion der Zyklen pro ISA-Instruktion Ziel: Minimieren der Anzahl der Mikroinstruktionen pro ISA-Instruktion (Maschinenbefehl) Grund: Eine Reduktion der Anzahl der Mikroinstruktionen pro ISA-Instruktion kann die Leistung der Mikroarchitektur dramatisch erhöhen: Wenn man die durchschnittliche Anzahl von 5 auf 4 reduziert, dann wird der Prozessor um 20% schneller. Mechanismen: Interpreter-Schleife optimieren Architektur mit drei Bussen Einführen einer Instruction Fetch Unit 4. Mikroprogrammierung 4b - 2
Interpreter-Schleife Optimieren (1) Main1 muss nach jeder ISA-Instruktion ausgeführt werden: Daher kann man Main1 in die Ausführung jeder ISA-Instruktion integrieren: 4. Mikroprogrammierung 4b - 3
Interpreter-Schleife Optimieren (2) Erste Methode zur Reduktion der Mikroinstruktionen pro ISA-Instruktion: Interpreter-Schleife mit der Ausführung der ISA-Instruktion zusammenlegen. Auswirkung: Bei manchen Befehlen wird eine Mikroinstruktion weniger pro ISA-Instruktion benötigt. Daher erhöht sich die Geschwindigkeit. 4. Mikroprogrammierung 4b - 4
Interpreter-Schleife Optimieren (3) Bisher: Sehr umständlicher Umgang mit dem zweiten Operanden über das H-Register. Beispiel: 4. Mikroprogrammierung 4b - 5
Interpreter-Schleife Optimieren (4) Zweite Methode zur Reduktion der Mikroinstruktionen pro ISA-Instruktion: Einführung eines dritten Busses (A-Bus), der (fast) alle Register direkt auf die zweite Eingabe der ALU leitet. Kosten: zusätzlicher Bus, zusätzliche Kontrollleitungen für diesen Bus. Auswirkung auf iload: 4. Mikroprogrammierung 4b - 6
Instruction Fetch Unit (1) Die folgenden Aktionen sind in der Regel für die Ausführung einer ISA-Instruktion notwendig: PC um eins erhöhen mit dem PC die erste Mikroinstruktion holen die Operanden vom Stack lesen rechnen Ergebnis speichern. Für die ersten beiden Aktionen wird die ALU benutzt, ist aber unterfordert. Idee: diese Arbeiten durch eine separate Instruction Fetch Unit (IFU) erledigen lassen. 4. Mikroprogrammierung 4b - 7
Instruction Fetch Unit (2) 4. Mikroprogrammierung 4b - 8
Instruction Fetch Unit (3) Das Schieberegister (Shift Register) beinhaltet die nächsten 0-6 Bytes des Programms. IMAR ist die Adresse des letzten Wortes (4 Bytes), das in das Schieberegister geladen wurde. Das älteste Byte wird nach MBR1 kopiert. Die ältesten beiden Bytes werden nach MBR2 kopiert. Wenn MBR1 ausgelesen wird, dann: Verschieben der Bytes im Schieberegister um eine Stelle nach rechts erneutes Laden von MBR1 und MBR2. 4. Mikroprogrammierung 4b - 9
Instruction Fetch Unit (4) Wenn MBR2 ausgelesen wird, dann: Verschieben der Bytes im Schieberegister um zwei Stellen nach rechts erneutes Laden von MBR1 und MBR2. Wenn vier Bytes im Schieberegister frei sind: IMAR um 1 erhöhen, Wort in das Schieberegister laden MBR1 enthält den Opcode einer ISA-Instruktion oder einen 1-Byte-Parameter. MBR2 enthält 2-Byte-Parameter. 4. Mikroprogrammierung 4b - 10
Behandlung des Program Counter (PC) Der PC wird bei Instruktionen, die keine Sprünge sind, von der der IFU weitergeschaltet. Dafür hat der PC eine eigene Schaltung zum Inkrementieren um eins oder zwei. Immer wenn auf MBR1/MBR2 zugegriffen wird,sorgt die IFU dafür, dass der PC um eins oder zwei erhöht wird und der nächste Wert aus dem Speicher in MBR1/MBR2 steht. Bei Sprüngen: explizites Laden des PC durch das Mikroprogramm (wie bisher). Daran merkt die IFU, dass der Inhalt des Schieberegisters ungültig geworden ist. Der Wert des PCs wird ins IMAR übernommen, und das Schieberegister wird entsprechend neu geladen. 4. Mikroprogrammierung 4b - 11
Architektur der Mic-2 Neue Ausstattung: A-Bus IFU Kosten: zusätzlicher Bus zusätzliche IFU Nutzen: weniger Mikroinstruktionen pro ISA-Instruktion 4. Mikroprogrammierung 4b - 12
Vergleich für iload Mic-1: Mic-2: 4. Mikroprogrammierung 4b - 13
Pipelining (1) Optimierung durch überlappende (parallelisierte) Ausführung mehrerer Mikroinstruktionen Ausführung einer Mikroinstruktion: Befehl holen Register auf A- und B-Bus legen ALU und Schieberegister rechnen Ergebnisse vom C-Bus in die Registern speichern; Lesen/Schreiben im Memory Im Folgenden sollen diese Schritte parallelisiert werden. 4. Mikroprogrammierung 4b - 14
Pipelining (2) Ausführung von drei gleichartigen Verarbeitungsaufträgen in je vier Teilverarbeitungsschritten: Serielle Verarbeitung: 1 2 3 4 Auftrag 1 1 2 3 4 Auftrag 2 1 2 3 4 Auftrag 3 Pipeline-Verarbeitung: 1 2 3 4 Auftrag 1 1 2 3 4 Auftrag 2 1 2 3 4 Auftrag 3 4. Mikroprogrammierung 4b - 15
Beispiel: Wäsche-Pipelining (1) Ein Wäsche-Vorgang kann in vier Teilvorgänge unterteilt werden: schmutzige Wäsche in die Waschmaschine nasse Wäsche in den Trockner Falten, Bügeln,... Wäsche in den Schrank 4. Mikroprogrammierung 4b - 16
Beispiel: Wäsche-Pipelining (2) Aufträge 6:00 7:00 8:00 9:00 10:00 11:00 12:00 13:00 14:00 A B C D 6:00 7:00 8:00 9:00 10:00 11:00 12:00 13:00 14:00 A B C D 4. Mikroprogrammierung 4b - 17
Definitionen Unter dem Begriff Pipelining versteht man: die Zerlegung einer Instruktion in mehrere Phasen die Bearbeitung der Phasen in hintereinander geschalteten Verarbeitungseinheiten (taktsynchron). Die Gesamtheit dieser Verarbeitungseinheiten nennt man eine Pipeline. Der Speedup (Beschleunigung) einer Pipeline ist der durchschnittliche Geschwindigkeitsgewinn pro Instruktion, verglichen mit der sequentiellen Ausführung. Dieser ist abhängig von der Anzahl der Stufen auftretenden Hazards (Hemmnissen). 4. Mikroprogrammierung 4b - 18
Pipeline-Hazards Hazards durch Speicherzugriff Nach einem Ladebefehl kann der geladene Wert nicht für den direkt darauf folgenden Befehl im nächsten Takt zur Verfügung stehen, da der Speicherzugriff zusätzlich Zeit benötigt. Daten-Hazards Falls ein Befehl das Resultat des direkten Vorgängerbefehls benötigt, muss gewartet werden. Beispiel: H=MDR TOS=H Hazards durch Speicherzugriff = spezielle Daten-Hazards. Kontroll-Hazards ergeben sich zum Beispiel durch bedingte Sprünge. Problem: Bis der bedingte Spring vollständig bearbeitet wurde, ist nicht klar, welche Instruktion als nächstes ausgeführt werden soll. 4. Mikroprogrammierung 4b - 19
Architektur der Mic-3 Drei Flipflops für die drei Busse eingefügt. Jetzt dauert eine Mikroinstruktion bis zu vier Zyklen: Instruktion holen Register auslesen ALU und Schieberegister rechnen Register speichern Aber: jeder einzelne Zyklus ist kürzer die überlappende Bearbeitung von Mikroinstruktionen wird möglich alle Teile der Mikroarchitektur werden kontinuierlich ausgenutzt. 4. Mikroprogrammierung 4b - 20
Beispiel: SWAP für Mic-3 Mic-2 Mic-3: Aufteilen in drei Schritte Instruktion laden (mit der IFU) wird hier nicht betrachtet (ist auch nur für swap1 relevant) Wir notieren die Flipflops A, B und C wie Register. 4. Mikroprogrammierung 4b - 21
Pipelining: Aufteilen Swap1: Ergebnis des Speicherzugriffs steht erst in Zyklus 5 zur Verfügung. Swap3: Hier wird das Ergebnis von MDR=mem (Swap2) benötigt, die Pipeline wird angehalten (engl. stalling), bis dies der Fall ist. Dies nennt man eine Lesen-nach-Schreiben-Abhängigkeit (engl. RAW dependency) Dies ist ein Beispiel für einen Hazard. 4. Mikroprogrammierung 4b - 22
Gewinn durch Pipelining Ohne Pipelining: Dauer eines Zyklus: T Eine Instruktion benötigt einen Zyklus. Instruktionen werden sequentiell bearbeitet. Mit Pipelining: Tiefe der Pipeline (Anzahl der Arbeitsschritte): n Optimal: Dauer eines Zyklus: T p =T/n Realistisch: Dauer eines Zyklus etwas länger durch zusätzliche Hardware (im Beispiel die Flipflops A, B und C) Eine Instruktion benötigt n Zyklen. Optimal: in jedem Zyklus kann eine neue Instruktion gestartet werden. Realistisch: Hazards berücksichtigen Gewinn (speedup): Der Speedup einer Pipeline entspricht idealerweise deren Tiefe. Aber: durch Hazards und durch das Einführen zusätzlicher Hardware ist die sinnvolle Tiefe einer Pipeline beschränkt. 4. Mikroprogrammierung 4b - 23
Beispiel für den optimalen Ablauf von Pipelining Instruktion Zeit 4. Mikroprogrammierung 4b - 24
Weitere Optimierungsmöglichkeiten Neben den grundlegenden Möglichkeiten, die Mikroarchitektur zu verbessern, werden ständig neue Ideen entwickelt, um die Arbeit eines Prozessors zu beschleunigen. Zwei Kategorien: Verbesserung der Implementierung Der ISA-Instruktionssatz ändert sich nicht (wesentlich). Verbesserung der Architektur Neuer oder stark veränderter Instruktionssatz erforderlich. In der Realität: meist eine Kombination aus beidem. Wir betrachten: Caching Branch Prediction (Vorhersage bedingter Sprünge) Out-of-order Execution (Ausführen von Instruktionen außer der Reihe) 4. Mikroprogrammierung 4b - 25
Caching (1) Prinzipielle Idee bereits bekannt: Cache: kleiner schneller Speicher nah am Prozessor enthält die mit hoher Wahrscheinlichkeit als Nächstes verwendeten Daten arbeitet idealerweise mit Prozessorgeschwindigkeit. Häufig wird ein Level1-Cache in einen Daten- und einen Instruktionscache unterteilt. Werte für Intel Core extreme Edition - 32+32 kbyte L1/Kern - 8 MByte L2 Cache 4. Mikroprogrammierung 4b - 26
Caching (2) 1. Nachschauen, ob die gewünschten Daten im Cache liegen. 2. Wenn ja Cache Hit, dann Daten direkt verwenden 3. Wenn nein Cache Miss, dann : einen alten Eintrag aus dem Cache löschen die neuen Daten dorthin in den Cache laden die neuen Daten verwenden. 4. Durchschnittliche Zugriffszeit = c+(1-h)m c = Zugriffszeit auf den Cache h = Wahrscheinlichkeit für einen Treffer m = zusätzliche Zugriffszeit bei einem Cache Miss 4. Mikroprogrammierung 4b - 27
Caching (3) Gründe für Caching Räumliche Lokalität (Spatial Locality): wenn Daten/Instruktionen an einer bestimmten Speicherstelle benötigt werden, ist es wahrscheinlich, dass danach Daten/Instruktionen aus der unmittelbaren Nachbarschaft benötigt werden. Daher kann man Daten/Instruktionen auf Vorrat in den Cache laden. Zeitliche Lokalität (Temporal Locality): wenn man Daten/Instruktionen an einer bestimmten Speicherstelle benötigt, dann ist es wahrscheinlich, dass man sie kurz danach wieder benötigen wird. Daher sollte man kürzlich benötigte Daten/Instruktionen im Cache halten. Zeilen eines Caches (Cache Lines) Im Cache werden die Daten in Zeilen gespeichert. Üblich sind Zeilen der Länge 4-64 Byte. 4. Mikroprogrammierung 4b - 28
Direct-Mapped Cache (1) 4. Mikroprogrammierung 4b - 29
Direct-Mapped Cache (2) 5 Byte 1... Byte 32 =? 0000000000000101 00000000100 001 00 4. Mikroprogrammierung 4b - 30
Direct-Mapped Cache (3) Eigenschaften: Jede Speicheradresse kann genau an einer Stelle im Cache stehen. Im Beispiel bedeutet das: Der Cache kann 2048*32 aufeinander folgende Bytes speichern. Der Cache kann keine Cache-Zeilen enthalten, die genau 2048*32 Bytes auseinander liegen, da diese an der gleichen Stelle im Cache abgelegt werden würden. Daraus lassen sich einfach Fälle konstruieren bei denen man bei jedem Zugriff eine Cache Miss erzeugt. Beispiel: ein 64k-Byte-weiter Sprung im Programm. Solche Fälle sind in der Praxis jedoch selten. Sie können zum Teil auch durch einen guten Compiler vermieden werden. 4. Mikroprogrammierung 4b - 31
Schreiben mit Cache (1) Was passiert wenn Daten in den Speicher geschrieben werden? a) Wenn der Inhalt der Adresse im Cache liegt: in jedem Fall: Daten in den Cache schreiben Alternative 1: Daten gleichzeitig in den Speicher schreiben (write through) Vorteil: Der Hauptspeicher hält immer die aktuellen Daten. Nachteil: Mehr Speicherzugriffe. Alternative 2: Daten nur im Cache aktualisieren (write back) Setzen eines Dirty-Flags, um zu markieren, dass die Daten gegenüber dem Speicher verändert wurden Zurückschreiben in den Speicher erst, wenn eine Cachezeile mit gesetztem Dirty-Flag aus dem Cache verdrängt wird. Vorteil: Weniger Speicherzugriffe. Nachteile: Aufwändigeres Design, problematisch bei Mehrprozessorrechnern. 4. Mikroprogrammierung 4b - 32
Schreiben mit Cache (2) b) Wenn der Inhalt der Adresse nicht im Cache liegt: in jedem Fall: Daten in den Hauptspeicher schreiben Alternative 1: Daten in den Cache laden (write allocation) Meist verwendet, wenn write back eingesetzt wird. Vorteil: Ausnutzen von räumlicher/zeitlicher Lokalität. Nachteil: Aufwändigeres Design. Alternative 2: Daten nicht in den Cache laden (no write allocation) Wird meist in Zusammenspiel mit write through eingesetzt, um eine möglichst einfache Cache-Architektur zu realisieren. Vorteil: einfaches Design Nachteil:. räumliche/zeitlicher Lokalität kann nicht ausgenutzt werden. 4. Mikroprogrammierung 4b - 33
Branch Prediction Bisher: Pipelining funktioniert nur bei linearer Ausführung von ISA-Instruktionen; bei Sprüngen muss die Pipeline angehalten werden. In der Realität sind aber Sprünge häufig: Bedingte Sprünge Unbedingte Sprünge if (i == 0) CMP i,0 ; compare i to 0 BNE ELSE ; branch to ELSE if not equal k = 1; MOV #1,K ; set k to 1 else k = 2; ELSE: MOV #2,K ; set k to2 4. Mikroprogrammierung 4b - 34
Unbedingte Sprünge Problem: Der Sprung muss dekodiert werden, bevor die IFU darauf reagieren kann. Erst nach Schritt 2 der Pipeline ist bekannt, dass es sich um einen Sprung handelt. Dann ist aber bereits der Befehl nach dem Sprung von der IFU geladen worden. Lösung: Delay Slot nach jedem Sprung wird durch den Compiler eingefügt meist NOP Alternativ: viel Aufwand z.b. beim Pentium 4. Mikroprogrammierung 4b - 35
Bedingte Sprünge (1) Problem Das Sprungziel ist erst nach der Verarbeitung des Sprungbfehls bekannt. Daher Delay Slot + zusätzlich Ungewissheit über das Sprungziel Früher keine neuen Befehle in die Pipeline laden, bis das Sprungziel bekannt ist, dann erst neuen Befehl laden. Sehr schlecht für die Leistung: Ca. 10-20% der ISA Instruktionen sind bedingte Sprünge. Pipeline-Tiefe beim P4 ist 20 Stufen. Dann wäre die Pipeline nahezu nie vollständig gefüllt. 4. Mikroprogrammierung 4b - 36
Bedingte Sprünge (2) Modernere Lösung Betrachte eines der beiden Sprungziele als wahrscheinlicher. Führe die Instruktionen an dieser Stelle als Nächste aus. Dies erfordert einen Mechanismus zur Vorhersage von Sprungzielen (branch prediction). Einfache Vorhersage: ( if-abfrage ) Sprünge nach vorne werden nicht ausgeführt ( Schleife Sprünge nach hinten werden ausgeführt (Ende einer Vorhersage richtig einfach weiterarbeiten Vorhersage falsch Pipeline leeren und neue Befehle laden. Aufpassen, dass die Ausführung der falschen Befehle keine Auswirkung hat: Entweder die Ergebnisse in Spezialregistern speichern und erst in die echten Register übernehmen,wenn das Sprungziel bekannt ist oder: alte Registerwerte in Spezialregistern retten 4. Mikroprogrammierung 4b - 37
Dynamic Branch Prediction Generelle Idee Man versucht, aus der Vergangenheit zu lernen, welches das Ziel des Sprunges sein wird. Dazu benötigt man eine Tabelle (History Table), die analog zu einem Cache aufgebaut ist. In der Tabelle werden nicht die Inhalte einer Speicheradresse abgelegt, sondern nur Informationen darüber, ob der Sprungbefehl an dieser Speicheradresse in der Vergangenheit ausgeführt wurde oder nicht. Wenn ein Sprung ausgeführt werden soll, wird in der History Table nachgeschaut: Informationen zu dem Sprung in der Tabelle vorhanden: Entsprechend handeln und Tabelle aktualisieren keine Informationen in der Tabelle vorhanden: einfache Vorhersage und Tabelle aktualisieren 4. Mikroprogrammierung 4b - 38
Eine einfache History Table Bei der einfachen History Table wird nur die letzte Sprungentscheidung für einen Sprungbefehl mitgeführt. Problem Am Ende einer Schleife ist die Vorhersage falsch. Außerdem wird beim Neustart der Schleife die Vorhersage wieder falsch sein. Verbesserung Zwei Bits für die Vorhersage bereitstellen: ein Bit für das normale Verhalten ein Bit für das Verhalten beim letzen Mal (zum Beispiel beim Ende der Schleife) 4. Mikroprogrammierung 4b - 39
Vorhersage mit zwei Bits 1-Bit History-Tabelle 2-Bit History-Tabelle Vorhersage mit Zieladresse 4. Mikroprogrammierung 4b - 40
Endlicher Automat für die Vorhersage mit zwei Bits 4. Mikroprogrammierung 4b - 41
Vorhersage der Zieladresse Bisher: Auswahl zwischen zwei festen Alternativen. Manchmal wird die Zieladresse eines Sprungs vom Sprungbefehl dynamisch berechnet. Dann kann man statt den Bits zur Vorhersage einfach das Ziel des berechneten Sprunges in der History-Tabelle ablegen. 4. Mikroprogrammierung 4b - 42
Static Branch Prediction Die dynamische Vorhersage von Verzweigungen benötigt spezielle Hardware. Manchmal kann aber ein Compiler bereits beim Übersetzen eines Programms erkennen, dass eine Alternative eines Sprunges viel wahrscheinlicher ist als die andere. Beispiel Schleife: for (i=0; i<10000; i++) {...}. Beispiel UltraSPARC II: es gibt einen zusätzlichen Satz von Sprunginstruktionen auf ISA Ebene, bei denen der Compiler in einem Bit die wahrscheinliche Richtung des Sprunges angeben kann. Dies bezeichnet man als statische Vorhersage von Verzweigungen oder static branch prediction. 4. Mikroprogrammierung 4b - 43
Out-of-Order Execution und Register Renaming (1) Die meisten modernen Prozessoren sind superskalar; d.h. sie können mehr als eine Instruktion vollständig parallel abarbeiten (und nicht nur überlappend): Wie stellt man jetzt fest, ob die zweite Instruktion einen Konflikt auslöst? Beispiel: Instruktionen dürfen nur in der richtigen Reihenfolge gestartet werden. Instruktionen dürfen nur in der richtigen Reihenfolge beendet werden. 4. Mikroprogrammierung 4b - 44
Out-of-Order Execution und Register Renaming (2) Mögliche Konflikte Eine Instruktion mit zwei Operanden und einem Ergebnis darf nicht gestartet werden, wenn von einer vorangegangenen Operation, die noch nicht beendet ist ein Register, in dem ein Operand steht, geschrieben wird ( read-after-write -Abhängigkeit) das Register, in dem das Ergebnis abgelegt wird, gelesen wird ( write-after-read -Abhängigkeit) das Register, in dem das Ergebnis abgelegt wird, geschrieben wird ( write-after-write -Abhängigkeit) Verhindern von Konflikten durch ein so genanntes Scoreboard. Hier nur für Register betrachtet. In der Realität auch für die Einheiten der Pipeline. 4. Mikroprogrammierung 4b - 45
Scoreboard-Beispiel 4. Mikroprogrammierung 4b - 46
Scoreboard-Regeln Wenn eine Operation zugelassen wird, muss das Scoreboard entsprechend angepasst werden. Wenn eine Operation beendet wird, muss das Scoreboard entsprechend angepasst werden. Operation werden nur zugelassen wenn von dieser Operation nicht ein Register gelesen wird, welches als geschrieben markiert ist, ein Register geschrieben wird, welches als gelesen oder geschrieben markiert ist. Eine Operation wird erst beendet, wenn alle vorangegangenen Operationen beendet wurden. Unterstützung präziser Interrupts. Wenn diese Regel nicht eingehalten wird, ist bei einer Unterbrechung nicht klar, wie der aktuelle Status des Prozessors ist. 4. Mikroprogrammierung 4b - 47
Out-of-Order Execution - Beispiel 4. Mikroprogrammierung 4b - 48
Out-of-order Execution - Regeln Wenn eine Operation blockiert ist, werden deren Nachfolger untersucht. Wenn eine Operation nicht blockiert ist, wird sie ausgeführt. Die vorgezogene Operation darf keinen Operanden verwenden, der in der ausgelassenen Instruktion geschrieben wurde. Realisierung über ein weiteres Scoreboard (hier nicht gezeigt). 4. Mikroprogrammierung 4b - 49
Register Renaming Bisher: es durfte keine Operation gestartet werden, die einen Operanden oder das Ergebnis einer vorangegangenen Operation überschreibt. Andere Vorgehensweise: Das Ergebnis wird in einem anderen (geheimen, engl. secret) Register zwischengespeichert und: später zurückkopiert oder, falls der Inhalt nur in einer nachfolgenden Operation benötigt wird, wird der Operand der nachfolgenden Operation einfach auf das secret register umgesetzt. 4. Mikroprogrammierung 4b - 50
Register Renaming - Beispiel 4. Mikroprogrammierung 4b - 51
Zusammenfassung Wir haben eine einfache Mikroarchitektur kennen gelernt. Wir verstehen das Prinzip der Mikroprogrammierung. Wir verstehen, wie man eine Mikroarchitektur optimieren kann durch Pipelining Caching Vorhersage von Sprüngen (branch prediction) die Out-of-Order-Ausführung von Befehlen. 4. Mikroprogrammierung 4b - 52