Rechnernetze und Organisation

Transkript

1 RISC 1

2 Übersicht Motivation RISC-Merkmale RISC-Instruktionsformat Pipelining Sparc, MIPS, Arm, PowerPC 2

3 Motivation Warum RISC Compiler nutzen komplexe CISC-Instruktionen kaum Nur 80% der Instruktionen überhaupt benützt Die häufigsten Instruktionen sind sehr einfach 80% der ausgeführten Instruktionen nützen nur 20% des Instruktions-Sets» Einfache Instruktionen mit einfachen Adressierungsarten am häufigsten Geänderte Speicher- / Prozessor-Verhältnisse Viel größere Speicher Speicher wird günstiger Speicher relativ langsam Prozessortakt viel schneller als Speicher CISC-Prozessoren zu komplex Langsamer Takt RISC-Grundidee: Make the average case fast! Einfache Instruktionen schnell ausführen 3

4 Typische RISC Merkmale Instruktionsformat Alle Instruktionen sind 32-Bit lang Nur einfache Instruktionen Die meisten Instruktionen benötigen einen Takt Einfache Datentypen Instruktion benötigt einen Takt für Ausführung Instructions-Pipeline Register Mehr Register: Bit Register General-purpose Register Nur einfache Adressierungsarten Auf Architektur abgestimmte Compiler 32-Bit oder 64-Bit Wortbreite Caches zum Puffern von Daten und Instruktionen 4

5 Anwendungsgebiete von RISC-Prozessoren Mobile Geräte Handys, PDA, MP3-Player Router Spielkonsolen XBox, Sony Playstation, Nitendo Apple MACs Power Mac G5, imac, Powerbook, Workstations Mac Mini nun auch mit x86 Sun Workstations HP Workstations Nokia N90 UMTS Mobiltelefon Arm9 Prozessor 220 MHz 48 MB RAM Foto Microsoft MS XBox360 Spielkonsole PowerPC (Triple Core) 3.2 GHz 512 MB RAM Foto Nokia 5

6 RISC Prozessoren Sparc (Sun Microsystems) 32- und 64-Bit Prozessor In Sun Solaris Workstations eingesetzt MIPS (Mips) 32- und 64-Bit Prozessor ARM (Arm) 32-Bit Prozessor für Embedded XScale PowerPC (IBM) Apple MAC Foto: Power5 : 8 Dual-Core Chips in einem Gehäuse Foto Sun Microsystems Foto IBM 6

7 Load-Store Architektur Instruktionen verändern nur Prozessor-Register Speicherzugriff nur über Load- und Store-Instruktion Load: Holen von Wert in Prozessor-Register Store: Speichern von Register-Wert in Speicher Keine Adressierungsarten für Speicherzugriff Speicherzugriffe sind teuer Benötigen Zeit und Programmspeicher Speicher-Stack ist ungünstig Mehr Prozessor-Register (32) Vermeiden Speicherzugriffe Auch für Parameterübergabe 7

8 RISC Instruktionsformat 32-Bit Instruktionsformat Einheitliches Format für alle Instruktionen Selbe Länge: 32-Bit Instruktion-Fetch wird vorhersagbarer Nächste Instruktion: Instruction-Pointer IP + 4 Pipelining einfacher möglich Dekodierung der Opcodes erleichtert Positionsfelder (z.b. Quell- und Zielregister) an selber Stelle Arithmetic Branch Jump 3 Operanden Opcode Source1 Source2 Destination ShiftAmt Function Opcode Source1 Source2 Opcode Target address Address / Immediate 8

9 Instruktions-Pipeline Unterteilung der Ausführungseinheit in Stufen 3-stufige Pipeline: Fetch, decode+operand, exec+store 4-stufige Pipeline: Fetch, decode+operand, exec, store 5-stufige Pipeline: Fetch, decode, operand, execute, store Instruction Pointer + 4 Fetch Instruction Memory SRC1 SRC2 DEST IMM Register- File Decode + Registers ALU Execute Data Memory Memory Write Back 9

10 Pipelining Beispiel: Wäschewaschen Waschen Trocknen Stapeln Einräumen Ohne Pipelining Mit Pipelining Anna Bernd Cornelia Waschen Trocknen Bügeln Ablegen Pipelining beschleunigt nicht einzelne Instruktionen! Pipelining beschleunigt Sequenz von Instruktionen 1 Ladung Wäsche (0% Beschleunigung) Ohne Pipelining: 4 Zeiteinheiten; Mit Pipelining: 4 Zeiteinheiten 4 Ladungen Wäsche (56% Beschleunigung) Ohne Pipelining: 16 Zeiteinheiten; Mit Pipelining: 7 Zeiteinheiten 816 Ladungen Wäsche (74,9% Beschleunigung) Ohne Pipelining: 3264 Zeiteinheiten; Mit Pipelining: 819 Zeiteinheiten Zeit 10

11 Instruktions-Pipeline Pipelines ermöglichen Parallelität Pipeline-Stufen ( Stages ) arbeiten parallel Jede Stufe bearbeitet andere Instruktion JMP Sub1 [...] Sub1: ADD EAX, ECX MOV [EDI], EAX SHR EAX, 4 CMP EAX, 10 JNZ Failure In jedem Takt wird eine Instuktion begonnen und eine beendet Nach gewisser Vorlaufzeit Befehlsfrequenz = Taktfrequenz Speedup bestimmt durch Anzahl der Pipeline-Stufen Langsamste Stufe Pipeline-Füllungsgrad Clock JMP Fetch - Decod - Oprnd - Exec - Write ADD Fetch JMP Decod - Oprnd - Exec - Write MOV Fetch ADD Decod JMP Oprnd - Exec - Write SHR Fetch MOV Decod ADD Oprnd JMP Exec - Write CMP Fetch SHR Decod MOV Oprnd ADD Exec JMP Write JNZ Fetch CMP Decod SHR Oprnd MOV Exec ADD Write 11

12 Instruktions-Pipeline Durchsatz versus Latenz: Was ist Performance? 1 Instruktion dauert fünf Takte Latenzzeit Zeit um ein Datum zu berechnen In 5 Takten 5 Instruktionen Durchsatz Instruktionen pro Zeit Mips: Million instructions per second Durchsatz ist wichtiger als Latenz Beispiel: Flüssiges Video statt minimale Zeit von DVD zu TFT Latenz nur selten von Bedeutung (Real-Time-System) Pipelining verbessert Durchsatz Latenz wird eher schlechter Mehr Takte mit kürzerer Periodendauer 12

13 Instruktions-Pipeline Dependencies ( Abhängigkeiten ) / Hazards ( Gefahr ) Datenabhängigkeit zwischen Instruktionen Pipeline-Stufe benötigt noch zu berechnende Information Kann Stalls ( Blockierung ) bewirken Pipeline-Stufe nicht mit sinnhafter Instruktion gefüllt werden Beispiel1: Bedingter Sprung Exekution nachfolgender Instruktionen wird aufgehalten Beispiel2: Sequenz von Berechnungen Instruktion benötigt Ergebnis von vorheriger Lösung: Pipeline-Stalls Einfügen von Leerzyklen CMP AL, `q` Mit zunehmender Pipeline-Tiefe steigt Hazard-Wahrscheinlichkeit Detektieren von Dependencies ist aufwändig Umfangreiche und komplizierte Hardware nötig Lösen von Dependencies durch Stalls Senkt Auslastungsgrad der Pipeline Geringerer Durchsatz JZ exit MOV EAX, 10 ADD EBX, EAX 13

14 Pipelining versus Multi-Processing Multi-Processing Auch eine Form der Parallelität Benötigt mehr Hardware-Aufwand Zumindest doppelt so viel (Dual Core) Muss von Applikation unterstützt werden Für SW-Entwicklung nicht transparent Pipelining ist für ProgrammiererInnen transparent! Kosten von Pipelining sind geringer Nur zusätzliche Register Kompliziertere Controll-Unit Aufspüren und lösen von Dependencies 1 1 Foto Intel 14

15 Compiler Compiler auf Architektur abgestimmt Registeranzahl Statt Stack Pipeline-Eigenheiten Vermeiden von Stalls durch Dependencies Vermeiden von Cache-Misses Compiler werden mit Hardware entwickelt Gleichzeitige Entwicklung Techniken Gezieltes Ausnützen von parallelen Ausführungseinheiten Reordering von Instruktionen Um Stalls zu vermeiden Einfügen von Delayed-Slot- oder Leer-Instruktionen Verwenden von Bibliotheken Assembler Bei super-skalaren Architekturen nicht effizient Pipeline-Eigenschaften und Ausführungseinheiten meist schlecht genützt 15

16 RISC-Prozessor: Sparc Offene Prozessor-Architektur mit kostenloser Lizenz von Sun Microsystems (1985) Scalable Processor Architecture (Sparc) 32-Bit Prozessor mit 64-Bit Instruktionen Sparc V9 (Ultra Sparc I) ab 1995! Bit Instruktionen Skalierbare Anzahl General-Purpose Register Register je nach vorhandenen Ressourcen Eigenheiten: Logo Sun Stack-Cache in CPU: Register-Windows Unterteilung des Registersatzes in Windows Instruktionen sehen nur Ausschnitt (32 von 100) Verschieben des Ausschnitts bei Calls / Returns» Überlappung der Ausschnitte für Parameterübergabe Pre-Execution: Instruktion nach Branch wird immer ausgeführt Um Pipeline-Stall zu verhindern 16

17 RISC-Prozessor: MIPS Seit 1991 entwickelt (Hennessy) Standford Universität + MIPS Anwendung Cisco Router, Nitendo 64, Playstation 2, Playstation portable 32 General-purpose Register Bit Instruktionen 1-Takt Instruktionen 5-Stage Pipeline Produkte: MIPS R2000, R3000, R4000: 64-Bit Erweiterungen Logo Mips 17

18 RISC-Prozessor: ARM 32-Bit RISC Computer von Advanced RISC Machines Englische Entwicklung ab 1983 Lizenzvergabe an Hersteller Besonderheiten 16-Bit Instruktionen (Thumb-Instruktionen) Sparen Speicher Werden dekomprimiert Verschiedene Versionen (Arm4,.. Arm7, Arm9,...) Funktionsumfang angepasst an Anwendung Digitales Signal Processing (DSP) Java Beschleunigung (Jazelle) Media: Single Instruction Multiple Data (SIMD) Virtueller Speicher Anwendungen Apple ipod,... Intel XScale Basierend auf ARM mit Modifikationen Logo ARM 18

19 RISC-Prozessor: PowerPC 32-Bit und 64-Bit Prozessor Seit 1991: IBM, Apple, Motrola Für Embedded-Bereich und PCs 64-Bit Prozessor (G5) Dual-Core seit 2005 Anwendung Computer: Apple MacIntosh, IBM pseries Server Mac OS X, Linux Spielkonsolen: MS XBox 360, Sony Playstation 3 Großrechner Gute Skalierbarkeit für Mehrprozessor-Systeme Logo IBM 19

20 Weitere Konzepte VLIW / EPIC Z.B. Intel Itanium VLIW: Very long instruction word 128-Bit breite Instruktionen Oft aus parallel auszuführenden Instruktionen zusammengesetzt EPIC: Explicitly parallel instruction computing Compiler kennt Architektur des Zielprozessors Compiler ordnet Aufgaben selbst Ausführungseinheiten zu EPIC enthält viele RISC-Ideen Superskalare Pipeline-Architektur Compiler Übernehmen viel von Komplexität Ziele Vermeiden von Sprüngen Minimieren von Speicherzugriffen 20

21 Zusammenfassung RISC Vereinfachtes Instruktions-Set Ermöglicht schnelle und einfache Hardware-Implementierung Pipelining als Konzept Um hohen Durchsatz zu erzielen Einfache und einheitliche Instruktionen sehr hilfreich RISC entwickelt sich weiter Superskalare Ausführungseinheiten VLIW, EPIC Literatur: Rob Williams, Computer Systems Architecture, Addision-Wesley, 2001: Kapitel 21,