CPU-Technik. Stand der Technik, Trends und Entwicklungen. Vortrag im Informatikseminar WS 2000/2001. (C) 2000 Heiko Panther

Transkript

2 Inhalt 1. CISC und RISC 2. Vektorrecheneinheiten 3. VLIW 4. Weitere Techniken 5. Aktuelle Prozessordesigns und ihre Zukunft 6. Literatur & Links 2

3 1. CISC und RISC CISC CISC bedeutet Complex Instruction Set Computer. Das bedeutet, daß die Befehle eher komplexe Funktionalitäten besitzen, sie sind komfortabel und vergleichsweise intelligent. CISC-Architekturen gab es schon lange vor der Bezeichnung CISC. Sie wurden aus den ersten Mikroprozessoren weiterentwickelt. Beispiele: Motorola 68000, Intel x86. Das sind die Prozessoren für Personal Computer, die am längsten überlebt haben. Es gab und gibt natürlich noch eine Fülle weiterer Prozessoren, sowohl sehr komplexe für Großrechnereinsatz, als auch weniger komplexe, die noch heute in Steuercomputern Anwendung finden. CISC-Merkmale Keine besonderen Architekturprinzipien. Am Anfang machte man sich noch keine besonderen Gedanken um Designphilosophie für Mikroprozessoren, man war eher froh, überhaupt welche zu haben, und die ersten Entwicklungstendenzen gingen in die Richtung mehr Funktionen, mehr Komfort. Implementierung komfortabler Funktionen (move, loop) in Hardware oder Microcode. Dies ersparte die wiederholte Ausprogrammierung oft benötigter Programmelemente und sparte damit Codegröße. Unterschiedliche Opcode-Länge. Je nach Funktionalität benötigen Opcodes verschiedene Längen, ein Register-Inkrement z.b. weniger als ein Speicherzugriff, da beim Registerbefehl keine Speicheradresse angegeben werden muß. Beispiel beim x86: NOP-1 Byte, MOV-bis 6 Byte. Dadurch auch Ersparnis bei der Codegröße. 3

4 RISC RISC bedeutet Reduced Instruction Set Computer. RISC-Architekturen wurden Anfang der 80er Jahre zuerst an Universitäten entwickelt. Verschiedene Forscher vertraten die Ansicht, daß die zunehmende Komplexität der CISC-Prozessoren ein Hindernis für weitere Leistungssteigerung und für effizientes Design sein würde Beispiele: Sparc, PowerPC, Mips RISC-Merkmale Alle Opcodes sind gleich lang (typ.: 4 Byte). Aufbrechen komplizierter Befehle in elementare Befehle. So wurde der klassische move -Befehl in die zwei Befehle load / store aufgesplittet. Dies gab der Architektur den Beinamen load/store-architektur : Die einzigen Befehle, die auf den Hauptspeicher zugreifen, sind load und store! Alle anderen Befehle arbeiten nur mit den Registern. Bei CISC-Designs können viele Befehle entweder auf Speicher oder Register oder beides gleichzeitig zugreifen. Dieser Befehlssatz ist besser für Optimierungen geeignet. Es sind nicht mehr so viele Bedingungen zu beachten, und es läßt sich eine Logik z.b. zur Sprungvorhersage oder andere Effizienzsteigerungsmaßnahmen konzipieren. Durch das reduzierte Design werden weniger Transistoren gebraucht. Eine kleinere Chipfläche ist die Folge, das spart Strom. Oder man kann zusätzliche Funktionen integrieren: Mehr Register sind Standard bei RISC-Prozessoren. Sie erhöhen die Flexibilität und besonders die Performance, da der Prozessor mehr Werte zwischenspeichern kann. Es müssen nicht mehr so oft Werte verworfen oder in den Hauptspeicher gesichert werden. Superskalarität: Mehrere Recheneinheiten. Erstmals kam es bei RISC-Prozessoren auf, daß mehrere Recheneinheiten integriert wurden und durch eine eigene Scheduling-Einheit Befehle zugeteilt bekamen. Beispiel: 3 Integer- und 2 Floating- Point-Einheiten. 4

5 RISC: Pipelining Klassischer Prozessor: die sequentielle Abarbeitung von Befehlen ist zu langsam. Nur wenige Teile des Prozessors sind gleichzeitig in Benutzung. Pipelined Prozessor: Die verschiedenen Bearbeitungseinheiten können direkt nach Beabeitung eines Befehls einen neuen laden, während der Befehl in einer anderen Einheit weiterbearbeitet wird. Pipelining ermöglicht im Bestfall 1 Befehl pro Takt. Das trifft allerdings nur zu, wenn immer bekannt ist, welcher Befehl als nächstes ausgeführt werden soll. Bei bedingten Sprüngen kann sich das im Extremfall erst einen Befehl vorher etscheiden. Es wird zwar versucht, das Sprungziel vorherzusagen. Sollte das aber nicht gelingen, so tritt 5

6 ein sogenannter Pipeline-Stall ein. Ein Pipeline-Stall erfordert die Neufüllung der Pipeline. Das heißt, alle bis jetzt dekodierten und verarbeiteten Befehle müssen verworfen werden und bei Null angefangen werden. Je länger (tiefer) die Prozessor-Pipeline ist, desto höhere Latenzzeit bewirkt ein Pipeline-Stall. CISC/RISC Resumée CISC ist faktisch tot. Es werden keine CISC-Prozessoren mehr entwickelt. Allerdings finden CISC-Prozessoren weiterhin großflächig Einsatz im Industrie- und Steuerbereich. PC-Prozessoren arbeiten immer noch mit (emuliertem) CISC- Befehlssatz. Heutige RISC-Prozessoren folgen nicht mehr 100% dem radikalen Ansatz der Anfangszeit. Sie sind inzwischen äußerst kompliziert geworden. Sehr komplizierte Sprungvorhersage-, Caching- und Instruction-Scheduling-Einheiten rufen inzwischen ebenso Kritik über die zu hohe Komplexität hervor. Alternativen sind VLIW- Prozessoren, s.u. RISC-Prozessoren verlangen mehr Verantwortung vom Compiler. So ist es entscheidend für die Performance, daß Befehle in der richtigen Reihenfolge stehen. Es sollten Befehle für unterschiedliche Recheneiheiten (FPU, Integer) gemischt werden. Gut ist es auch, die Entscheidung für ein Sprungziel lange vor dem eigentlichen Sprung zu treffen. 6

7 2. Vektorrecheneinheiten Wurden entwickelt, um parallelisierbare gleichartige Berechnungen auszuführen.grundlage war die Beobachtung solcher Operationen z.b. bei Bildern. Sie werden normalerweise als zusätzliche Recheneinheit gebaut oder in die FPU integriert. Als zusätzliche Recheneinheit können sie in einer RISC-CPU vom dynamischen Instruction-Scheduling profitieren und bestenfalls vollständig parallel zu den anderen Eiheiten laufen. Vektorbefehle bearbeiten jeweils ein Register, welches mehrere Werte enthält. Beispiele: MMX (Intel), AltiVec (Motorola). MMX stellt eher eine halbherzige Minimallösung dar, während AltiVec ein sehr komplexes und funktionsreiches System mit einer Rechenleistung im Bereich von Digitalen Signalprozessoren (DSP) ist. Vektorberechnungen Ein Register wird zum Speichern mehrerer Werte verwendet, z.b. 128 Bit = 8 x 16 Bit Integer oder 4 x 32 Bit Float. Die Rechenoperation wirkt auf alle Werte gleichzeitig. Bei getrennter Vektoreinheit können FPU und Integereinheiten gleichzeitig andere Berechnungen vornehmen. Vektoroperationen Standardoperationen (Add, Sub, Mul, Div): Dies sind von Integer- und Fließkommaeinheiten bekannte Grundrechenarten. MultiplyAdd: Eine besonders in der Signalverarbeitung häufig angewendete Operation, bei der zwei Operanden multipliziert und ein dritter Operand addiert wird. Permutation (AltiVec vperm): Dieser Befehl erlaubt es, den Inhalt zweier Register byteweise beliebig in ein 3. Register zu permutieren. Ein 4. Register wird dabei als Maske benutzt: Bei den 32 Registern des AltiVec kein Problem. 7

8 3. VLIW VLIW bedeutet Very Long Instruction Word. Neue Architektur, basierend auf RISC-ähnlichem Befehlssatz. Ähnliche Ansätze gabe es aber auch schon früher bei Supercomputern. Beispiele: Transmeta Crusoe, Intel IA64 VLIW-Merkmale Mehrere RISC-Befehle werden in einem Wort (z.b. 128 Bit) zusammengefaßt. Dadurch ergibt sich ILP (Instruction Level Parallelism): Der Compiler kann parallel ausführbare Befehle in ein Instruction Word packen, so daß der Prozessor nicht selber die Entscheidung über die Parallelisierbarkeit (=Unabhängigkeit) der Befehle treffen muß. Bei nicht parallelisiertem Code Performanceverlust und Code-Bloat: Der Prozessor muß einen unangemessen großen, meist leeren Befehlsdatenstrom verarbeiten. Hohe Verantwortung des Compilers: Mehr und mehr Optimierungsaufgaben werden vom Prozessor an den Compiler abgeschoben. Der Prozessor kann einfacher konstruiert werden, der Compiler wird aufwändiger und teurer. Ein nicht sauber optimierender Compiler kann fatale Folgen für die Performance haben. Schlechte Skalierbarkeit: Wenn ein VLIW-Prozessor für die gleichzeitige Abarbeitung von z.b. 3 Befehlen ausgelegt ist (er also 3 Einheiten hat), wird es schwierig, ihn z.b. auf 6 parallele Einheiten zu erweitern. Der auf 3 Einheiten optimierte Code müßte midestens neu kompiliert werden. 8

9 4. Weitere Techniken TLP (Thread Level Parallelism): Hierbei wird die inhärente Parallelität der Threads in multithreaded-umgebungen ausgenutzt. Das erfordert softwareseitig keinen großen Aufwand, da alle wichtigen Betriebssysteme heute multithreaded arbeiten. Der Prozessor besitzt hierzu Möglichkeiten, schnell zwischen Threads umzuschalten (mehrere Registersätze, vgl. Alpha). Sollte die Ausführung eines Threads unterbrochen werden (durch Pipelinie-Stall, Blockieren etc), so wird einfach zum nächsten Thread umgeschaltet. Spekulative Ausführung: Eine spezielle Einheit versucht herauszufinden, welches das Ziel bei einem bedingten Sprung ist. Dann können die entsprechenden Befehle schon in den Cache geladen, geholt und dekodiert werden. Sollte die Spekulation falsch gewesen sein, muß natürlich alles verworfen werden. 9

10 5. Aktuelle Prozessordesigns und ihre Zukunft x86 Letzer Prozessor mit CISC-Instruction Set. Seit ca als RISC-Prozessor mit x86-emulationsschicht implementiert. In der alten Bauweise ließ sich nicht mehr genug Performance erreichen. Vektoreinheit MMX (geteilte FPU) bzw. MMX2 (8x128 Bit) bzw. 3DNow! Soll mittel- bis langfristig durch IA64 abgelöst werden. Sparc RISC-Design. Vektoreinheit VIS. MIPS Prozessorfamilie (32/64 Bit) in RISC-Design. Verwendung meist im Embedded- und ASIC (Application Specific IC)-Bereich. Hauptprozessor der Playstation 1. Vektoreinheit MIPS-3D (13 zusätzliche FPU-Befehle). Eher eine halbherzige Erweiterung, wie MMX. 10

11 HP-PA RISC-Architektur von Hewlett-Packard. Wird in aktuellen HP-Workstations und Servern verwendet. Für Großrechnereinsatz. Soll mittelfristig durch IA64 abgelöst werden. Ganz auf IA64 verlassen will sich Hewlett-Packard aber nicht, die HP-PA-Roadmap geht z.zt. bis PowerPC Prozessorfamilie (32/64 Bit) in RISC-Design. Varianten von Embedded über Desktop bis Großrechner. Motorola baut 32-Bit PowerPC mit Vektoreinheit (AltiVec, bei Apple Velocity Engine genannt). Die AltiVec-Einheit ist die zur Zeit fortschrittlichste Vektoreinheit mit 32x128 Bit- Registern und Permutationseinheit. Diese Einheit dient der Maximierung der Rechenleistung im Grafik, 3D- und Signalverarbeitungsbereich. PowerPC (IBM) IBM baut 64-Bit PowerPC für Großrechnereinsatz. Ziel: Maximierung des Datendurchsatzes. Für IBM ist die Performance im Serverbereich entscheidend. Server benötigen oft keine so hohe Rechenleistung, dafür einen enormen Datendurchsatz. Beim Power4-Prozessor arbeiten 2x64 Bit CPU s auf einem Chip (CMP). Der L2-Cache wird mit 100 GB/s, der L3-Cache mit 10 GB/s angebunden. Diese werden zu MCM (Multi Chip Module) mit 4x2 Power4 kombiniert. Die CMPs sind dabei untereinander mit 35 GB/s angebunden. 11

12 Alpha RISC-Design Vektoreinheit Der zukünftige Prozessor EV8 benutzt fortschrittliche Technik zur Parallelisierung: SMT (Simultaneous Multithreading) ist eine Kombination aus ILP und TLP. Dafür besitzt der Prozessor Infrastruktur für vier simultane Threads. Er hat vier PC (Program Counter) und vier Registersätze. Die Caches und TLBs (Translation Lookaside Buffers) werden von allen Threads gemeinsam genutzt. Dies kann zu Thrashing führen, wenn alle Threads oft blockieren und sich gegenseitig immer wieder die Caches und TLBs leeren. IA64 VLIW-Design: 3 Befehle pro Wort mit jeweils 41 Bit Länge, dazu 5 Flag-Bits. Integrierter x86-befehlsdekodierer. Diesen hat Intel eingebaut, um Kompatibilität mit x86-software zu wahren. Er wandelt einzelne x86-befehle in IA64-Instruction-Words um. Maßnahmen gegen Code-Bloat und für bessere Skalierbarkeit: Die Flag-Bits enthalten Informationen über die Parallelisierbarkeit folgender Instruktionen. Die primitive 10stufige Pipeline ist sehr anfällig für Cache-Misses. Transmeta VLIW-Design, auf Stromsparen ausgelegt Integrierter Code-Morpher: eine Software, die x86-microcode zur Laufzeit in eigene Befehle übersetzen kann. Der Code-Morpher benötigt RAM (typ. 16 MB), welches vom Hauptspeicher des Rechners abgezweigt wird. Der Code-Morpher verbessert den gemorphten Code; erst nach einigen Durchläufen ist er voll optimiert. Die Code-Morphing-Technologie ist prinzipiell auch für andere Microcodes einsetzbar. 12

13 6. Literatur & Links A. Stiller, Jonglier-Künstler; Techniken zur Parallelverarbeitung in Prozessoren, c t 12/2000 S. 220ff A. Stiller, Zu neuen Ufern; Transmeta enthüllt Crusoe-Design, c t 03/2000 S. 32ff MacKiDo, div. Artikel zur Prozessortechnik, Sparc, MIPS, HP-PA, PowerPC, Alpha, IA64, Transmeta, 13