CPU II. Dr.-Ing. Volkmar Sieh. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg SS 2011

Transkript

1 CPU II Dr.-Ing. Volkmar Sieh Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg SS 2011 CPU II 1/

2 CPU Bisher: Pipeline mit 5 sequentiellen Pipeline-Stufen Schönes, sauberes, einfaches, schnelles,... Design CPU II 2/

3 CPU Probleme: Befehle der Art pusha, div $3, %r2, %r3 oder add $1, 2, 3 nicht implementierbar Delayed-Branching gewöhnungsbedürftig CISC-ISA kann mit einfachem Pipelining nicht implementiert werden. Z.B. Intel-80x86-Prozessoren arbeiten mit CISC-Anweisungen. Kein Pipelining möglich? CPU II 3/

4 CPU CISC Complex Instruction Set Computer ( CISC ): Befehle unterschiedlicher Bit-Länge Befehle mit komplexen Aktionen Befehle mit komplexen Adressierungsarten wenige Register... CPU II 4/

5 CPU Variable Befehlslänge Problem: Um mit jedem Takt einen Befehl abarbeiten zu können, muss man auch mit jedem Takt einen Befehl holen können... Beispiel: x86-befehle sind 1 bis 16 Bytes lang. CPU II 5/

6 CPU Variable Befehlslänge Überlegen Sie sich, wieviel Bits notwendig/sinnvoll sind, um folgende Befehle zu kodieren: nop je label jmp %r1 add $1, %r2, %r3 add %r2, %r2, %r3 load (%r2), %r3 add $0, %r2, %r2 xor %r2, %r2, %r2 inc %r2 cmp $2, %r5 push %r5 pusha add %r4, 8(%r5) clr label btst $4, label mov %r2, %PDBR CPU II 6/

7 CPU Variable Befehlslänge Müssen maximal N Bytes auf einmal aus dem Speicher/Cache geholt werden können, muss der Bus zum Speicher/Cache mindestens 8N Bits breit sein. Aber: Befehle meist nicht aligned : CPU II 7/

8 CPU Variable Befehlslänge Befehle unterschiedlich lang => Befehle i.a. nicht aligned => Befehle u.u. nicht mit einem Speicherzugriff lesbar => immer zwei Speicherzugriffe gleichzeitig durchführen. ein Cache für die Speicherblöcke mit geraden Nummern ein Cache für die Speicherblöcke mit ungeraden Nummern Hat einer der beiden Caches nicht das Gewünschte => Stall. CPU II 8/

9 CPU Variable Befehlslänge Frage Wie sieht in diesem Fall die Hardware-Struktur mit CPU-Core, Caches und MMU aus? CPU II 9/

10 CPU Variable Befehlslänge Fragen Annahme: die Befehle einer CPU sind maximal 16 Bytes lang. Welchen Speicherblock muss Cache 0 und welchen Cache 1 liefern, wenn der Instruction-Pointer den Wert 0x12345 (0x23456) enthält? Wie kann man aus dem Instruction-Pointer diese zwei Zahlen per Hardware berechnen? CPU II 10/

11 CPU Variable Befehlslänge Frage Was kann passieren, wenn die CPU Code ausführt, der kurz vor dem Ende einer MMU-Page bzw. kurz vor dem Ende des Speichers steht? CPU II 11/

12 CPU Variable Befehlslänge Frage Sind Befehle unterschiedlich lang, wird der Instruction-Pointer nicht immer um 1 erhöht. Überlegen Sie sich, wie die Logik aussehen muss, die den jeweils nächsten Instruction-Pointer-Wert berechnet! CPU II 12/

13 CPU Komplexe Befehle Frage Intel-CPUs kennen z.b. den Befehl inc 4(%eax, %ebx, 8) (der Inhalt der Speicherzelle mit der Nummer 4 + %eax + %ebx 8 wird inkrementiert). Wie müsste eine Pipeline aufgebaut sein, die diesen Befehl abarbeiten kann? CPU II 13/

14 CPU Komplexe Befehle Um komplexe Befehle in einer einfachen Pipeline abarbeiten zu können, kann man diese zerlegen. Beispiel: komplexer Befehl einfachere Befehle inc 4(%eax, %ebx, 8) (Zusätzliche Register notwendig!) lsl $3, %ebx, %tmp0 add %eax, %tmp0, %tmp0 add $4, %tmp0, %tmp0 load (%tmp0), %tmp1 add $1, %tmp1, %tmp1 store %tmp1, (%tmp0) CPU II 14/

15 CPU Komplexe Befehle CISC-Anweisungen werden in der CPU zunächst in RISC-ähnliche Instruktionen zerlegt und der Reihe nach in die Pipeline geschoben. Vorteile: alte CISC-Software bleibt lauffähig neue RISC-Befehle können dem Befehlssatz hinzugefügt werden CPU II 15/

16 CPU Komplexe Befehle Frage Nennen Sie Beispiele für komplexe Befehle und Adressierungsarten und zerlegen Sie sie jeweils in eine Folge von Mikro-Instruktionen! CPU II 16/

17 CPU Komplexe Befehle Frage Wie kann man eine solche Dekodier-Logik in Hardware bauen? CPU II 17/

18 CPU Komplexe Befehle Frage Normalerweise wird auch der Instruction-Pointer mit durch die Pipeline geschoben. Warum? Wie ist es in diesem Fall? CPU II 18/

19 CPU Komplexe Befehle Frage Wie kann man diese Dekodier-Logik nutzen, um die Integer-Multiplikation und -Division zu implementieren? Welche Extra-Hardware ist dafür sinnvollerweise in die ALU zu integrieren? CPU II 19/

20 CPU Delayed Branching Delayed Branching gewöhnungsbedürftig für Assembler-Programmierer schwierig mit Compilern auszunutzen lange (=> schnelle) Pipelines ergeben viele Delay-Slots Änderungen in der Pipeline können ISA ändern (# Delay-Slots) i.a. nur wenige Delay-Slots vom Programmier/Compiler nutzbar inkompatibel mit alten ISAs => Sprungvorhersage / Branch Prediction CPU II 20/

21 CPU Branch Prediction Beobachtung: viele Branch-Befehle verzweigen in den allermeisten Fällen immer in eine bestimmte Richtung z.b: Schleifen-Branch-Befehle verzweigen meist zurück zum Anfang der Schleife beim Suchen in Datenstrukturen fällt der gefunden? -Test meist negativ aus unbedingte Sprünge und Unterprogrammaufrufe verzweigen immer Ausnutzen durch Branch Prediction CPU II 21/

22 CPU Branch Prediction Branch Prediction lässt sich unterteilen in Wired Taken / Not-Taken Prediction: Hart-codierte Information für den Prozessor, dass er immer / nie annehmen soll, dass verzweigen wird Direction Based Prediction: bei Rückwärtssprüngen wird angenommen, dass sie ausgeführt werden; bei Sprüngen nach vorn nicht Static Branch Prediction: ein Bit im Opcode des Sprungbefehls zeigt der CPU, ob vermutlich/vermutlich nicht verzweigt werden wird (Software-Lösung) Dynamic Branch Prediction: die CPU führt Branch-Instruktionen aus und merkt sich für die jeweils N letzten, ob sie dort die M letzten Male verzweigt hat oder nicht (Hardware-Lösung) CPU II 22/

23 CPU Branch Prediction Frage Überlegen Sie sich genau, wo die Informationen, ob gesprungen werden soll, herkommen! CPU II 23/

24 CPU Branch Prediction Static Branch Prediction vom Compiler durchgeführt Wissen stammt aus der Code-Analyse von Hinweisen des Programmierers aus Profiling-Informationen früherer Läufe des Programms CPU II 24/

25 CPU Branch Prediction Ist N nicht 0, wird ein Cache benötigt, der sich die letzten N Sprungbefehle merkt: Branch Target Address Cache BTAC Befehlsadresse Zieladresse Prediction Bits CPU II 25/

26 CPU Branch Prediction Funktionsweise Branch Target Address Cache: die IF-Stage vergleicht den IP mit den Befehlsadressen im BTAC wenn der aktuelle IP mit einer Befehlsadresse im BTAC übereinstimmt, wird im Falle eines jmp-befehls die Zieladresse direkt in den IP geschrieben wird im Falle eines bedingten Sprunges die Vorhersage aus den Prediction Bits gewonnen lautet die Vorhersage Branch taken, wird die Zieladresse in den IP geschrieben CPU II 26/

27 CPU Branch Prediction Branch Target Address Cache: falsche Vorhersagen können auftreten wenn die Branch-Instruktion die MEM-Stage durchlaufen hat, ist das richtige Ergebnis bekannt => BTAC updaten => gegebenenfalls fälschlicherweise begonnene Instruktionen abbrechen CPU II 27/

28 CPU Branch Prediction Frage Wie muss die Hardware für eine Sprungvorhersage für eine Pipeline aussehen? CPU II 28/

29 CPU Branch Prediction Fragen Wie kann man den BTAC sinnvoll initialisieren? Wie ist bei einem Kontext-Wechsel zu verfahren? CPU II 29/

30 CPU Branch Prediction Branch Target Address Cache: lautet die Vorhersage Branch not taken, kann Eintrag im BTAC entfallen => BTAC kleiner ändert die Hardware die Prediction Bits auf Grund von neuen Erfahrungen, spricht man von Dynamic Branch Prediction CPU II 30/

31 CPU Branch Prediction Branch Target Address Cache: im Falle der Dynamic Branch Prediction können Einträge im BTAC, die auf Branch Not Taken lauten, entfallen (=> bessere Ausnutzung des BTAC) wenn sich die Vorhersage jedoch auf Branch Taken ändert, muss Zieladresse neu berechnet werden CPU II 31/

32 CPU Branch Prediction Ein BTAC kann erweitert werden zum BTB oder BTC: Branch Target Buffer oder Branch Target Cache in dem die Zielinstruktion(en) zusätzlich gespeichert werden (sogenanntes Branch Folding ) CPU II 32/

33 CPU Branch Prediction Vorteile des Branch Target Buffer: wenn die Zielinstruktion(en) vom BTB geholt werden, bleibt mehr Zeit, um im BTB zu suchen (=> BTB kann größer werden) wenn die Zielinstruktion im BTB vorhanden ist, kann sie anstatt des jmp- bzw. Branch-Befehls in die Pipeline geschoben werden CPU II 33/

34 CPU Branch Prediction 1-Bit-Vorhersage: CPU II 34/

35 CPU Branch Prediction Frage Bewerten Sie die 1-Bit-Vorhersage! (Denken Sie an Schleifen, If-Then-Else-Konstrukte, Rekursion,...!) CPU II 35/

36 CPU Branch Prediction Performance der Branch Prediction hängt ab von Qualität der Sprungvorhersage Kosten im Falle falscher Vorhersagen Qualität der Sprungvorhersage kann durch bessere Branch Prediction verbessert werden Kosten im Falle falscher Vorhersagen abhängig von Pipeline-Länge Pipeline-Organisation der Weise, wie fälschlicherweise begonnene Instruktionen abgebrochen werden können... CPU II 36/

37 CPU Branch Prediction Kosten sind typischerweise hoch z.b.: Alpha 21264: 4 bis 9 Taktzyklen Pentium II: 11 oder mehr Taktzyklen CPU II 37/

38 CPU Branch Prediction Frage Wovon hängen die Kosten der falschen Vorhersage ab? CPU II 38/

39 CPU Branch Prediction 2-Bit-Vorhersage: Saturation Counter Schema: UltraSPARC Schema: CPU II 39/

40 CPU Branch Prediction Frage Bewerten Sie die zwei 2-Bit-Vorhersagen! CPU II 40/

41 CPU Branch Prediction Frage Wie groß ist der Speedup einer 10-stufigen Pipeline mit Sprungvorhersage, die im Falle von Sprüngen mit 90% Wahrscheinlichkeit richtig vorhersagt? Annahme: Etwa jeder 5. Befehl ist ein Sprung. CPU II 41/

42 CPU Branch Prediction Frage Welche Effekte können z.b. bei sehr kurzen Schleifen auftreten? (Bedenken Sie, wann Sprünge im BTAC ein- bzw. ausgetragen werden!) CPU II 42/

43 CPU Branch Prediction Fragen Wie könnte ein BTAC aufgebaut sein? Was wäre der Key, nach dem im Cache gesucht wird? Welche Art Cache wäre sinnvoll? CPU II 43/

44 CPU Branch Prediction Alternative: nur die letzten N Sprünge ansehen (unabhängig von ihrem Speicherort): Global History Beispiel: for (i = 0; i < N; i++) { if (array[i] == key) { break; } } Inhalt der Global History könnte im Beispiel sein: : if-bedingung schlägt meist fehl 1: umgebende Schleife springt immer wieder zum Schleifenanfang CPU II 44/

45 CPU Branch Prediction for (i = 0; i < 1000; i++) { for (j = 0; j < 3; j++) {... } } Sprungvorhersage mit Global History lernt hier z.b., dass beim Inhalt eine 0 folgen wird (nach 3 Durchläufen durch die innere Schleife wird diese abgebrochen), dass beim Inhalt eine 1 folgen wird (nach Abbruch der inneren Schleife wird äußere wiederholt) Funktioniert solange, wie die Anzahl der Schleifendurchläufe durch die innere Schleife kleiner ist als die Global History. CPU II 45/

46 CPU Branch Prediction Fragen Was wäre hier der Key, nach dem im Cache gesucht wird? Wann ist ein Per Address History Cache und wann ist ein Global History Cache besser? Ist eine Kombination von Per Address History Cache und Global History Cache möglich? CPU II 46/

47 CPU Interrupts Treten externe Events auf (z.b. Taste wurde gedrückt, Platte hat angeforderten Block gelesen,...), muss CPU darauf reagieren (Tastatur abfragen, Block auslesen,...). => Interrupts CPU II 47/

48 CPU Interrupts Frage Könnte man auch ohne Interrupts mit externen Geräten arbeiten? CPU II 48/

49 CPU Interrupts Idee Interrupt: Tritt Interrupt auf (IRQ-Input der CPU ist 1 )) speichert CPU ihren aktuellen Zustand auf dem Stack ab (ihre Register inkl. IP und Flags); disabled die CPU weitere Interrupts lädt die CPU in ihren Instruction Pointer einen neuen Wert Das laufende Unterprogramm ( Interrupt-Handler ) muss nun den Grund für den Interrupt beseitigen (z.b. Tastatur auslesen, Block von Platte abholen,...). Danach ruft es iret auf. Um iret auszuführen, werden die alten Register-Werte wieder vom Stack zurückgeladen. CPU II 49/

50 CPU Interrupts Frage Wie kann die CPU weitere Interrupts disablen? CPU II 50/

51 CPU Interrupts Frage Was macht Interrupts beim Pipelining so schwierig? CPU II 51/

52 CPU Interrupts/Exceptions/System-Calls Der Ablauf von Exceptions entspricht dem Ablauf von Interrupts ( interne Interrupts ). Der Ablauf von System-Calls entspricht dem Ablauf von Exceptions ( gewollte Exceptions ). CPU II 52/

53 CPU Interrupts/Exceptions/System-Calls beim Auftreten von Exceptions, Interrupts und System-Calls werden keine neuen Instruktionen mehr angestoßen gewartet, bis alle Instruktionen abgeschlossen sind erst dann wird die Exception-, Interrupt- oder System-Call- Behandlung begonnen => Exceptions, Interrupts, System-Calls sind teuer CPU II 53/

54 CPU Precise und Imprecise Interrupts Precise Interrupt: der beim Precise Interrupt gespeicherte Zustand (meist auf dem Stack) entspricht dem Zustand des Prozessors zum Zeitpunkt des Interrupts im seriellen Modell (eine Instruktion ist abgearbeitet, bevor eine neue gestartet wird) CPU II 54/

55 CPU Precise und Imprecise Interrupts Precise Interrupt: Wenn eine Instruktion eine Exception oder einen System-Call auslöst, müssen alle vorangegangenen Instruktionen abgeschlossen sein, und keine der nachfolgenden darf ausgeführt worden sein. CPU II 55/

56 CPU Precise und Imprecise Interrupts Behandlung der Interrupts/Exceptions/System-Calls wie Delayed Branching gibt Probleme: zu speichernder Zustand besteht aus mehr Infos als den in der ISA angegebenen Registern; Zustand notwendig, um unterbrochene Instruktion nachträglich wiederholen zu können beim Weiterarbeiten nach der ersten Exception können weitere Exceptions/Interrupts/System-Calls auftreten CPU II 56/

57 CPU Precise und Imprecise Interrupts Frage Überlegen Sie sich ein Szenario, bei dem nach einer Exception weitere auftreten! CPU II 57/

58 CPU Precise und Imprecise Interrupts Wiederholen von Instruktionen (kompletter Zustand nötig) u.u. nicht notwendig es reichen weniger Information um die Auswirkung einer Instruktion nachzuholen => Imprecise Interrupts CPU II 58/

59 CPU Precise und Imprecise Interrupts Imprecise Interrupts werden eine gewisse Zeit nach dem Auftreten der Exception, des Interrupts, des System-Calls über Delayed Branching angestoßen. Der Exception-, Interrupt-, oder System-Call-Handler bekommt in speziellen Registern Zusatzinformationen über die Instruktion, die sich zum Zeitpunkt der Exception, des Interrupts oder System-Calls in Abarbeitung befunden hat. CPU II 59/

60 CPU Precise und Imprecise Interrupts Beispiel (Motorola M88100): Beim Page-Fault (Schreibzugriff) werden die virtuelle Adresse, das zu schreibende Datum in speziellen Registern gespeichert. Danach erfolgt der Aufruf des Page-Fault-Handlers mit delayed Branching. Page-Fault-Handler kann dann z.b. die Seite von Platte nachladen und den Schreibzugriff nachholen. CPU II 60/

61 CPU Multitasking Mehrere Prozesse sollen (fast) gleichzeitig auf einem Rechner ablaufen. Prozessläufe sollen voneinander unabhängig sein: CPU wird von den Prozessen abwechselnd genutzt Prozesse nutzen verschiedene I/O-Geräte Prozesse nutzen verschiedene Speicherbereiche Prozessläufe sollen koordinierbar sein: Prozesse nutzen gemeinsame Speicherbereiche CPU II 61/

62 CPU Multitasking Prozesse oder können freiwillig kooperieren Hardware kann dies durch nachfolgende Erweiterungen erzwingen: Nutzung der CPU: Hardware verhindert zu lange Nutzung der CPU durch einen Prozess I/O-Koordinierung: Hardware verhindert direkten I/O-Zugriff Speicherschutz: Hardware verhindert Lese-/Schreib-Zugriff auf fremde Speicherbereiche CPU II 62/

63 CPU Multitasking Probleme (Beispiele): Prozesse müssen auf I/O-Geräte zugreifen können beim Starten oder Terminieren von Prozessen muss auf fremde Speicherbereiche zugegriffen werden können beim Allozieren neuen Speichers muss der Speicherschutz geändert werden... Je nach Sicherheitsstrategie ist manches erlaubt, manches nicht: Wenn der Prozess vorher eine Datei geöffnet hat, dann darf er im weiteren Verlauf auf die zugehörigen Blöcke der Festplatte zugreifen... Wenn der Prozess vorher Speicher alloziert hat, dann darf er auf den Speicher zugreifen Sicherheitsstrategie ist Programm! CPU II 63/

64 CPU Multitasking Dieses Strategie-Programm (Betriebssystem) muss den laufenden Prozessen Rechte geben bzw. entziehen können oder für die Prozesse Aktionen durchführen Hardware-Lösung: Die CPU führt bestimmte (priviligierte) Instruktionen nur dann aus, wenn sie in einem bestimmten (priviligierten) Zustand ist. Zustands-/Priviligierungswechsel nur über Interrupts, Exceptions und System-Calls sowie per iret. CPU II 64/

65 CPU Multitasking Da Interrupt-, Exception- und System-Call-Handler jetzt priviligiert ablaufen, dürfen die Interrupt-, Exception- und System-Call-Vektoren im User-Modus nicht modifiziert werden können. Dies kann erreicht werden, indem die Interrupt-, Exception- und System-Call-Vektor-Tabelle im Speicher liegt und dieser im User-Modus nicht zugänglich ist (ähnlich den Speicherbereichen anderer Prozesse). CPU II 65/

66 CPU Multitasking CPU wird abwechselnd von allen Prozessen verwendet. Prinzip: f o r e v e r { Load r e g i s t e r s o f p r o c e s s #1 Do some work... Save r e g i s t e r s o f p r o c e s s #1 Load r e g i s t e r s o f p r o c e s s #2 Do some work... Save r e g i s t e r s o f p r o c e s s #2... Load r e g i s t e r s o f p r o c e s s #N Do some work... Save r e g i s t e r s o f p r o c e s s #N } CPU II 66/

67 CPU Multitasking Endlosschleife läßt sich umschreiben: Load r e g i s t e r s o f p r o c e s s #1 f o r e v e r { Do some work... Save r e g i s t e r s o f p r o c e s s #N Load r e g i s t e r s o f p r o c e s s #N+1 } Load r e g i s t e r s o f p r o c e s s #1 entspricht Initialisierung des Rechners nach Einschalten Save r e g i s t e r s o f p r o c e s s #N Load r e g i s t e r s o f p r o c e s s #N+1 kann zusammengefasst werden zu sogenannter schedule-prozedur. CPU II 67/

68 CPU Multitasking I n i t i a l i s i e r u n g f o r e v e r { Do some work... s c h e d u l e ( ) ; } Problem: oder Do some work... muss immer wieder terminieren schedule muss immer wieder aufgerufen werden. CPU II 68/

69 CPU Multitasking Unterbrechen/Abrechen eines Programm-Stücks über (Timer-) Interrupts möglich ( preemptive scheduling ). t i m e r _ h a n d l e r : / Save r e g s o f c u r r e n t p r o c e s s. / p u s h l %eax ; p u s h l %ebx ;... ; p u s h l %e s i movl c u r r e n t, %eax movl %esp, (%eax ) / C a l c u l a t e next p r o c e s s. /... movl..., c u r r e n t / Load r e g s o f next p r o c e s s. / movl c u r r e n t, %eax movl (%eax ), %esp p opl %e s i ;... ; p o p l %ebx ; p o p l %eax i r e t CPU II 69/

70 CPU Multitasking Programm im User-Modus darf Interrupts nicht verhindern können => Nutzung der Befehle cli popfw, popfl im User-Modus nicht erlaubt (=> Exception) bzw. ohne Auswirkung auf Interrupt-Enable-Bit. => User-Programm hat keine Möglichkeit Unterbrechungen zu verhindern => User-Programme von Multi-User-Systemen i.a. nicht Realzeit-fähig CPU II 70/

71 CPU Multitasking Prozess im User-Modus darf i.a. nicht direkt auf I/O-Geräte zugreifen => Nutzung der Befehle inb, inw, inl outb, outw, outl im User-Modus nicht erlaubt (=> Exception). => Ein-/Ausgabe i.a. nur über System-Calls möglich CPU II 71/

72 CPU Multitasking Prozess im User-Modus darf nicht auf fremde Speicherbereiche zugreifen => Nutzung der Befehle call, ret movb, movw, movl addb, addw, addl subb, subw, subl... im User-Modus nicht erlaubt?!? Diese Lösung ist nicht sinnvoll, da nahezu alle wichtigen Befehle im User-Modus damit unzulässig wären. => Zugriff durch die Hardware auf bestimmte Speicherbereiche beschränken CPU II 72/

73 CPU Multitasking Zugriff durch die Hardware auf bestimmte Speicherbereiche beschränken Möglich über MMU mit Page-Tabellen mit Present-Bits. CPU II 73/

74 CPU Multitasking CPU II 74/

75 CPU Threading Bis das Ergebnis einer Berechnung aus einer Pipeline herauskommt, vergehen soviele Takte, wie die Pipeline lang ist. Solange muss man warten (Zeitaufwand), oder entsprechende Hardware für Forwarding und Sprungvorhersage vorsehen (Hardware-Aufwand) Eine andere Idee wäre, in der Wartezeit andere unabhängige Instruktionen in die Pipeline zu schieben. Instruktionen anderer Threads sind unabhängig! CPU II 75/

76 CPU Threading CPU II 76/

77 CPU Threading Frage Was sind die Vor- bzw. Nachteile dieses Verfahrens? Wann nützt mir diese CPU viel? Wann nützt sie wenig? CPU II 77/