Vorlesung Rechnerarchitektur. Mehrkernarchitekturen

Transkript

1 Mehrkernarchitekturen

2 Einführung Die Entwicklung von Mikroprozessoren war viele Jahre vom Prinzip des minimalen Hardwareaufwandes geprägt. (Intel 4004 mit 1000 Transistoren...) Die Entwicklung der Halbleitertechnik (Moores Law) führte exponentiell zu immer höherer Integrationsdichte der Prozessorchips und erlaubte immer größere Freiheitsgrade im Prozessorentwurf 2

3 Einführung 3

4 Einführung Seit vielen Jahren hat sich deshalb die Frage umgekehrt von: wie bringt man einen kompletten Prozessor in einem Chip unter in die Frage: wie setzt man die zig Millionen Transistoren effizient in einem Prozessor-Chip ein? 4

5 Einführung Wie werden und wurden die Freiheitsgrade des Prozessorentwurfs genutzt? Das wird in folgenden Kapiteln behandelt: 1) Erweiterung des Steuerwerkes zur überlappenden Verarbeitung von Befehlen 2) Vervielfachung der Verarbeitungseinheiten zur nebenläufigen Ausführung der Befehle (Superskalarität, Out of Order Execution, SMT) 3) Mehrkernarchitektur 4) Koprozessoren 5

6 1. Erweiterung des Steuerwerkes zur überlappenden Verarbeitung von Befehlen Phasenpipelining Prinzip: Mehrere Befehle sind gleichzeitig, aber in unterschiedlichen Phasen im Prozessor in Arbeit und verwenden unterschiedliche Komponenten des Prozessors Ziel: cycles per instruction (CPI) = 1 Frage nach der optimalen Pipelinetiefe I Je mehr Stufen, desto mehr Befehle sind gleichzeitig in Arbeit Je mehr Stufen, desto eher wird CPI = 1 erreicht Voraussetzung: Anpassung des Befehlssatzes an Pipelinebedingungen (RISC, Load-Store und Register-Register Architektur) Probleme des Phasenpipelinings (Steuerungs- Lade- und strukturelle Konflikte) 6

7 1. Erweiterung des Steuerwerkes zur überlappenden Verarbeitung von Befehlen Phasenpipelining Verfahren zur Lösung der Konflikte Hardware (Forwarding, Branch Prediction mit Branch History Table und Branch Target Buffer, Caches Befehlssatzerweiterung (bedingte Befehlsausführung) Software (Pipelinegemäße Sortierung der Befehle durch den Compiler) Nicht immer sind Konflikte auflösbar! Frage nach der optimalen Pipelinetiefe II Je mehr Stufen, desto schlimmer ist ein Leeren und Neustart der Pipeline nach falscher Sprungvorhersage Stand der Forschung ist: Pipelinetiefe von ist optimal 7

8 1. Erweiterung des Steuerwerkes zur überlappenden Verarbeitung von Befehlen Prozessor Jahr Pipelinestufen Pentium IV Intel Core Duo Arm Arm Arm Cortex A Intel Sandy Bridge Stiegen die Pipelinestufen jahrelang an, haben sie sich jetzt auf um die 15 eingependelt 8

9 2. Vervielfachung der Verarbeitungseinheiten zur nebenläufigen Ausführung mehrerer Befehle Funktionspipelining Superskalare Architekturen Von CPI zu IPC (instruction per cycle) Wird auf Basis des Phasenpipelinings betrieben Prinzip wie in der industriellen Fertigung: Wenn der Output eines bereits optimal laufenden Fließbandes gesteigert werden soll, braucht man noch ein Fließband Prozessoren haben mehrere (spezialisierte) Verarbeitungseinheiten die von der (entsprechend erweiterten) Control Unit mit Befehlen versorgt werden z.b. Integer Unit, Floating Point Unit, Load/Store Unit 9

10 2. Vervielfachung der Verarbeitungseinheiten. DEC Alpha (1992) 2 Befehle werden gleichzeitig geholt, von der EBOX decodiert und an zwei der drei Verarbeitungseinheiten verteilt, wenn der Befehlsstrom das erlaubt: Bei Integer und Float oder Integer und Load oder Float und Load Befehlskombinationen ist das möglich.sonst nicht. Die Superskalarität ist deshalb eingeschränkt 10

11 2. Vervielfachung der Verarbeitungseinheiten... Intel Pentium II (1996) Drei Dekodierer dekodieren den Befehlsstrom für sechs Verarbeitungseinheiten Komplexe Befehle werden vom General Decoder in Phasenpipeline taugliche μop Sequenzen (Risc Befehle) überführt 11

12 2. Vervielfachung der Verarbeitungseinheiten... Pentium III (1999) Die Superskalarität kommt weiter voran: Es gibt zusätzliche für Vektoroperationen spezialisierte Rechenwerke (MMX und SSE) 12

13 2. Vervielfachung der Verarbeitungseinheiten... Pentium IV (2001) Nochmals mehr Rechenwerke, erweiterte SSE, 32 Pipelinestufen und weit über 3 GHz. Wie geht das weiter? 13

14 2. Vervielfachung der Verarbeitungseinheiten... Probleme Superskalarer Befehlsausführung: Der vom Compiler erzeugte sequentielle Befehlsstrom soll zur Laufzeit parallel von den Verarbeitungseinheiten ausgeführt werden. Der sequentielle Befehlsstrom enthält viele Datenabhängigkeiten,die eine sequentielle Ausführung erfordern und die superskalare Bearbeitung behindern. Die Probleme des Phasenpipelinings (Datenflussabhängigkeiten) verschärfen sich oder: Wenn eine Phasenpipeline Probleme macht, machen mehrere Pipelines noch mehr Probleme. Also: Prozessoren werden mit zusätzlicher Logik ausgestattet, um die Datenabhängigkeiten möglichst aufzulösen 14

15 2. Vervielfachung der Verarbeitungseinheiten... Probleme Superskalarer Befehlsausführung Lösung 1: Register Renaming I1 I2 I3 Datenflußabhängigkeiten (I1,I2) sind nicht auflösbar I4 R3 R4 R3 R7 = = = = R3 R3 R5 R3 op R op R4 Antiabhängigkeiten (I3, I2) und Ausgabeabhängigkeiten (I1,I3) sind mit Register Renaming auflösbar. Schattenregister im Prozessor werden bei Registerkonflikten ( I2 und I3) eingesetzt: R5 + 1 wird in einem Schattenregister gespeichert und erst in R3 abgelegt, wenn I2 abgeschlossen ist. 15

16 2. Vervielfachung der Verarbeitungseinheiten... Probleme Superskalarer Befehlsausführung: Lösung 2: Out Of Order Execution Ziel: optimale Ausnutzung der Verarbeitungseinheiten Idee: Die Instruktionen liegen aufbereitet in einem Zwischenspeicher (reservation station). Diejenigen, deren Operanden bereitstehen und für die eine Verarbeitungseinheit frei ist, werden im nächsten Zyklus ausgeführt. (Datenflußprinzip) Die Befehlsausführung wird zur Laufzeit des Programms von der Hardware parallelisiert! Problem: Die Ergebnisse der Operationen müssen nachträglich in der eigentlich erwünschten Reihenfolge ausgegeben werden. Dafür gibt es einen zusätzlichen Reorder Buffer Siehe dazu das Blockschaltbild des Pentium Pro 16

17 2. Vervielfachung der Verarbeitungseinheiten... Probleme Superskalarer Befehlsausführung: Grenzen der Superskalarität: Die Anzahl der nebenläufig ausführbaren Befehle ist bei sequentiellem Programmiermodell sehr beschränkt. Weitere zusätzliche Rechenwerke sind nicht effizient Diese Grenze ist verschiebbar, wenn die Menge der nebenläufig auszuführenden Befehle erweitert werden kann. Vielfädige superskalare Prozessoren Hyper Threading oder Simultaneous Multithreading (SMT) sind Techniken, die den Pool der ausführbaren Befehle aus mehreren Threads eines Prozesses füllen. Das setzt multithreaded programmierte Software voraus. 17

18 2. Vervielfachung der Verarbeitungseinheiten... Aktuelle Ansätze zur Beschleunigung parallelisierter Anwendungen SMT: im Prozessor werden nur bestimmte Puffer und Register mehrfach angelegt. Die restlichen Komponenten werden von mehreren Threads gleichzeitig genutzt. Voraussetzung: Der Prozessor meldet sich dem System mit mehr als einem Prozessor. Betriebssystem teilt soviele Threads, wie Prozessoren gemeldet sind, an die CPU(s) Vorteil: Der zusätzliche Hardwareaufwand ist gering (5% bei Intel) Nachteil: mehrere Threads teilen sich die Mehrheit der Ressourcen, so dass die Performance bei starker Auslastung geringer ausfällt als die eines echten Mehrkern-Prozessors. 18

19 2. Vervielfachung der Verarbeitungseinheiten... Aktuelle Ansätze zur Beschleunigung parallelisierter Anwendungen Core Multithreading (CMT) ist ein Mittelweg zwischen SMT/Hyperthreading mit geteilten Ressourcen für mehrere Threads und einem echten Mehrkern-Prozessor. Bei CMT werden deutlich weniger Ressourcen geteilt als bei SMT/Hyperthreading, so dass die Performance in der Theorie bei stark parallelisierten Anwendung besser sein sollte. Gleichzeitig teilen sich Threads jedoch einige Ressourcen, um Transistoren zu sparen. Beispiel: Bulldozer von AMD 19

20 2. Vervielfachung der Verarbeitungseinheiten... Aktuelle Ansätze zur Beschleunigung parallelisierter Anwendungen Core Multithreading AMD Bulldozer Die Fetch- und Dekodiereinheit werden zwischen den Threads geteilt. Die Dekodier-Stufe übersetzt x86-befehle in Maschinenbefehle. Dann greift jeder Thread auf seine eigenen Ressourcen zu. Ein solcher CMT-Komplex enthält zwei Integer-Cluster mit eigenem Scheduler und Ausführungseinheiten, sowie eienen eigenen L1-Daten-Cache. Jeder Thread kann daher seinen eigenen IntegerCluster nutzen ohne den anderen zu stören. Es gibt einen Floating-Point-Cluster für Gleitkomma-Befehle. Dieser kann wahlweise zwischen den Threads geteilt oder von einem Thread allein genutzt werden. 20

21 2. Vervielfachung der Verarbeitungseinheiten... Aktuelle Ansätze zur Beschleunigung parallelisierter Anwendungen Core Multithreading AMD Bulldozer 21

22 2. Vervielfachung der Verarbeitungseinheiten zur nebenläufigen Ausführung mehrerer Befehle Aktuelle Ansätze zur Beschleunigung parallelisierter Anwendungen Der folgende Ansatz zur Beschleunigung parallelisierter Anwendungen führt ins nächste Kapitel: Vervielfachung der Prozessorkerne in einem Chip zur nebenläufigen Ausführung von Threads und Prozessen, kurz Mehrkernarchitektur. 22

23 2. Vervielfachung der Verarbeitungseinheiten zur nebenläufigen Ausführung mehrerer Befehle Zwischenfazit : Früher wurden komplexe Befehle einfach und sequentiell ausgeführt. Heute führen Prozessoren in der Regel einfache Befehle überlappend und nebenläufig mit einer sehr aufwendigen und komplexen Control Unit aus Aber alle bisherigen Techniken zur optimalen Nutzung der vielen Verarbeitungseinheiten skalieren nicht mit den Möglichkeiten der Hardwareentwicklung. So hochparallel ist Software nicht, um immer mehr Verarbeitungseinheiten gleichzeitig nutzen zu können Bei Mehrkern-Prozessoren verbreitert sich die Softwarebasis zur parallelen Ausführung automatisch, weil jetzt mehrere Prozesse und ihre Threads zur Ausführung gebracht werden können. 23

24 2. Vervielfachung der Verarbeitungseinheiten zur nebenläufigen Ausführung mehrerer Befehle Es gibt auch technische und wirtschaftliche Gründe für MehrkernProzessoren. Es ist kostengünstiger, mehrere Kerne in einen Chip zu implementieren, als mehrere Prozessorsockel auf der Hauptplatine zu haben.. 24

25 3. Mehrkernprozessoren Was ist das? Begriff Mehrkern-Prozessor ( Multicore-Prozessor, Multikernprozessor) bezeichnet einen Mikroprozessor mit mehr als einem vollständigen Hauptprozessorkern in einem einzigen Chip. Sämtliche Ressourcen mit Ausnahme des Busses und eventuell einiger Caches sind so oft vorhanden, wie es Kerne gibt. Es handelt sich um mehrere vollständige, weitgehend voneinander unabhängige CPU-Kerne. Mehrkern-Prozessoren gibt es seit

26 3. Mehrkernprozessoren Einordnung: Mehrkernprozessor arbeiten prinzipiell wie vorher gängige Multiprozessor Systeme mit gemeinsamem Speicher (shared memory). Dabei waren mehrere pipelined und superskalare Prozessoren auf einer Platine aufgebaut und mit dem Speicher zu einem System verbunden. Ein Multiprozessorsystem mit shared memory ist in der Regel ein symetrisches Multiprozessorsystem (SMP), das heißt: die Prozessoren sind im System funktional gleich ( alles kann überall laufen ) 26

27 3. Mehrkernprozessoren Einordnung: Es gibt zwei systematische Probleme: Gleichzeitige Hauptspeicherzugriffe mehrerer CPUs behindern sich gegenseitig Lösung 1. Speicherarchitektur erweitern (Bandbreite erhöhen, Zugriffe beschleunigen, Burstmode) Lösung 2. Anzahl Speicherzugriffe verringern durch Verbesserung der Speicherhierarchie (größere Caches) Cachekonsistenz, weil Daten von mehreren CPUs in den CPUCache geladen und aktualisiert werden können und dann voneinander abweichen. Lösung: Snoopy Logic - Jede CPU schnüffelt am Adressbus jeder anderen CPU und stellt mit dieser Hardwareerweiterung potentielle Inkonsistenzen fest Auf Basis des MESI Protokolls sorgt eine Hardware dafür, dass eine Cachekohärenz (eingeschränkte Konsistenz) hergestellt wird. 27

28 3. Mehrkernprozessoren Einordnung: Mehrkernprozessoren sind Multiprozessorsystemen überlegen, weil die Wege deutlich kürzer sind, Kommunikation für Cachekohärenz beispielsweise bleibt innerhalb des Chips Kombination: Multiprozessorsysteme werden heute mit MehrkernProzessoren aufgebaut 28

29 3. Mehrkernprozessoren Intel Core 2 Core 2 Duo Basiert auf Pentium M Architektur Folgende Erweiterungen wurden implementiert: Dynamic Execution (Out of Order Execution) 32-KByte L1 Instruction-Cache 32KByte L1 Data-Cache Bis zu 2 MByte L2 Cache Erweiterte Branch-Prediction und Data-Prefetch-Logic Unterstützung für MMX-Technology, Streaming-SIMD Befehle (SSE2) Erweitertes Power-Management (Intel SpeedStep Technologie) 29

30 3. Mehrkernprozessoren Intel Ivy Bridge Architektur ist bereits Dritte Core-i-Generation. Jeder Kern hat eigenen L2 Cache GPU ist auf dem Chip integriert bei gleicher Taktfrequenz etwas schneller und sparsamer im Verbrauch zu Vorgänger. 26 Prozent weniger Siliziumfläche bei 20 Prozent mehr Transistoren. Zusätzliche Transistoren für die Grafik-Einheit HD Neu sind die Tri-Gate-Transistoren mit weniger Leckströmen und besserer Energieeffizienz. 30

31 3. Mehrkernprozessoren Intel Ivy Bridge Architektur Interner Ringbus: Die Caches werden mit Kernen, dem Speichercontroller und der GPU mit einem internen Ringbus verbunden. Er besteht aus vier Links: 256-Bit-Datenring Request-Ring Acknowledge-Ring ) und einem Snoop-Ring (snoop = lauschen, spionieren). AVX Advanced Vektor Extension mit 256 bit breiten Vektorregistern Kombination von Mehrkern und HT 31

32 3. Mehrkernprozessoren Arm Cortex A57 Es handelt sich hier um einen 4Kern Prozessor mit Phasenpipeline Out of Order Execution Vektoreinheit NEON/SIMD integrierten großen L1 Caches, einem gemeinsamen L2 Cache.. 32

33 4. Mehrkern-Koprozessoren Graphics Processing Unit (GPU) Der Grafikprozessor dient zur Berechnung der Bildschirmausgabe auf Computern. Mit dem Wandel von textbasierter zu grafikbasierter Bildschirmausgabe mit 3D Effekten wuchs ständig der Bedarf an Prozessoren, die für solche Aufgaben optimiert sind GPU Die Aufgaben der GPU zeichnen sich durch ein hohes Maß an Datenparallelität aus Datenparallelität wird im GPU Entwurf berücksichtigt Vektorprozessor GPUs arbeiten nach dem Prinzip SIMD (singl instruction, multiple data), das meint, zu einem Zeitpunkt wird die gleiche Operation auf vielen Daten ausgeführt und es werden viele Daten modifiziert. 33

34 4. Mehrkern-Koprozessoren Graphics Processing Unit (GPU) GPUs setzen die Transistoren im Gegensatz zu CPUs hauptsächlich für viele (im drei- und vierstelligen Bereich) einfache Rechenwerke ein. Viele Grafikaufgaben, wie z.b. Transform and Lightning sind einfache Vektorund Matrizenoperationen. Sie lassen sich gut in Hardware implementieren, da keine Flexibilität gefordert ist. GPUs haben einen spezialisierten Befehlssatz 34

35 4. Mehrkern-Koprozessoren Graphics Processing Unit (GPU) - Wissenschaft und Technik Vektor- und Matrizenoperationen werden in Wissenschaft und Technik häufig eingesetzt. Moderne GPUs ermöglichen es, solche Berechnungen als Koprozessor der CPU abzunehmen und diese damit enorm zu beschleunigen. Frameworks wie CUDA und OpenGL unterstützen die Softwareentwickler darin, die Resourcen der GPU effizient einzubinden Ein Effizienzproblem dabei ist, dass der Austausch der Daten und Ergebnisse zwischen CPU und GPU eine deutliche Mehrarbeit erfordert und die Beschleunigung hinter den Erwartungen zurückbleibt 35

36 4. Mehrkern-Koprozessoren Intel XEON PHI - Eigenschaften Wird von Intel als MIC (many integrated core architecure) bezeichnet Besteht aus vielen (z.b. 60) vollwertigen Prozessoren (Pentium M) mit eigenem L1 und L2 Cache. Ringbus wie bei anderen Intel Mehrkern Prozessoren (siehe Core 2 duo) Gemeinsamer L3 Cache onchip SIMD Vektoreinheit zur Unterstützung datenparalleler Algorithmen Flexibel einsetzbar: Anders als eine GPU kann der Coprozessor unter einem bestimmten Betriebssystem laufen, vollständig IP-adressierbar sein und Standards wie das Message Passing Interface (MPI) unterstützen. 36

37 4. Mehrkern-Koprozessoren Intel XEON PHI Programmierung Programme (C, C++, Fortran) für Intel XEON entwickelt, können durch Compileranweisungen des Entwicklers leicht vom Compiler parallelisiert werden, indem die Resourcen des XEON PHI einbezogen werden. (Vergleichbar mit dem Konzept von OpenMP) Kann er in mehreren Ausführungsmodi betrieben werden: Symmetrischer Modus: Workload-Tasks werden auf den Systemprozessor und den Coprozessor aufgeteilt Nativer Modus: Workload wird komplett vom Coprozessor übernommen, der praktisch als eigener Rechenknoten fungiert Offload -Modus: Workload befindet sich im Zugriff des Systemprozessors und Teile der Verarbeitung werden bei Bedarf dem Coprozessor übermittelt HINWEIS: GPUs können nur in diesem Modus betrieben werden und sind häufig untätig 37