2 Homogene und Heterogene Multi-/Vielkernprozessoren

Transkript

1 2.1 Motivation Multikern-Architekturen 2.2 Analyse von Multikern-Prozessoren Energieaspekte Bandbreitenmessung Roofline-Modell 2.3 Beispiele Multi-Core-Architekturen Intel Nehalem bis Intel Haswell AMD Bulldozer 2.4 Heterogene Multi-Core-Architekturen GPGPUs Ausblick: Vielkern-Architekturen Adapteva Parallela WS 2013/ Folie 1

2 2.1 Motivation Multikern-Architekturen Kein Vortrag in der Technischen Informatik ohne Moore s Law Mooresche Gesetz gilt nach wie vor Zwar Verlangsamung, aber es gilt In der Vergangenheit Höhere Transistorleistung höhere Frequenz Höhere Transistordichte komplexere Architekturen Geringerer Energieverbrauch pro Logikoperation gesamte Leistungsdissipation kann unterhalb bestimmter Grenze bleiben Technologie wird weiter voranschreiten Milliarden von Transistoren Jedoch damit verbunden grundlegende Barrieren Z.B. Energieverbrauch WS 2013/ Folie 2

3 2.1.1 Motivation Multikern-Architekturen Problem Energie Leistungssteigerung bis ca Primär durch Drehen an der Taktschraube Sekundär durch intelligentere Architektur Seit 2003/04 Verlagerung hin zur Architektur WS 2013/ Folie 3

4 2.1.1 Motivation Multikern-Architekturen Problem Energie Erhöhung des Taktes stößt an Grenzen WS 2013/ Folie 4

5 2.1.1 Motivation Multikern-Architekturen Problem Energie Antwort: Multicore-Architekturen Mehrere Prozessorkerne auf einem Chip Grund: Technologie: Drehen Taktschraube kostet zu viel Energie P diss V dd Architektur: superskalares Prinzip ausgereizt: z.b. dynamische Sprungvorhersage bei mehr als 95% Trefferquote Wayt Gibbs, Spektrum d. Wissenschaft, 03/2005 Es war nie die Frage ob, sondern wann und warum: Wann würden die Hersteller von Mikroprozessoren gezwungen sein, einen kleineren Gang einzulegen, warum würde die scheinbar so eiserne Regel alle zwei Jahre ein schnellerer Chip nicht mehr durchzuhalten sein? Mehr Leistung erzielbar nur noch durch echte Parallelität f WS 2013/ Folie 5 f (Frequenz) und V dd (Versorgungsspannung) miteinander korreliert

6 2.1.1 Motivation Multikern-Architekturen Problem Energie mehr Kerne geringere Frequenz einzelner Kerne gleichmäßigere Verteilung der Wärme einzelne Kerne bei (Nicht-)Bedarf abschaltbar Wirtschaftliche Gründe mehr als ein Kern auf einem DIE spart Produktionskosten zusätzlicher Prozessorkern lässt den Aufwand für die Kühlung nur linear steigen zusätzlich: bisherige Architekturmaßnahmen nahezu ausgereizt Justin R. Rattner, Leiter der Entwicklungsabteilung Systemtechnologie bei Intel»Wir haben das Gesetz des Quadrats gegen uns. Man benötigt exponentiellen Zuwachs der Transistorenzahl, damit steigt aber Chipfläche und Stromverbrauch, um auch nur geringe weitere Verbesserungen bei der parallelen Befehlsverarbeitung zu erreichen «WS 2013/ Folie 6

7 2.1.1 Motivation Multikern-Architekturen Problem Energie Somit: die Multikern-Revolution ist da Paralleles Rechnen: keine akademische Nische mehr Homogene und heterogene Multikern-Prozessoren Homogen: Intel, AMD, SUN Heterogen: Cell Am Horizont: Vielkern-Prozessoren 100 und mehr Kerne (wirklich nötig?) Intel Polaris Intel SCC (Single Cloud Computer) WS 2013/ Folie 7

8 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Trend der letzten Jahre 2001: 130 nm Technologie Heute: 32 nm Strukturbreite Prognose im Jahr 2007 für Milliarden Transistoren auf 300 mm² Chip-die Ca. 1.5 Milliarden für Logik, der Rest für Cache WS 2013/ Folie 8

9 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Was tun mit vielen Transistoren Trend: bis vor kurzem Wenige große Prozessorkerne 20 bis 100 Millionen Logiktransistoren und großer gemeinsamer Cache Vernünftige Strategie immer größere Kerne zu nutzen? Pollacks Regel Rechenleistungszuwachs ~ Anstieg Komplexität Verdopplung der Logik in Prozessor 40% mehr Leistung WS 2013/ Folie 9

10 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Pollacks Regel veranschaulicht Ganzzahl-Rechenleistung vs. Fläche für neue Mikroarchitekturen Neue Generation Mikroarchitektur für gleiche Prozesstechnologie Quelle: S. Borkar, Intel, Thousand Core Chips A Technology Perspective WS 2013/ Folie 10

11 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Multikern-Architektur Verdopplung von Einzelkern zu doppelt so großen monolithischen Einzelkern-Prozessor 40% Leistungszuwachs Von Einzelkern zu Doppelkern-Prozessor im Idealfall 100% Leistungszuwachs? (Abschätzung s. später inverse Pollack-Regel) Weitere Vorteile (bzgl. Energie) Einzelnen Kern ab-/anschalten Einzelnen Kern mit optimaler Versorgungsspannung und Frequenz betreiben Rechenlast gleichmäßiger verteilen -> keine Hotspots über Die Zuverlässigkeit und Leckströme geringer bei niedrigerer Temperatur WS 2013/ Folie 11

12 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Multikern-Architektur Frequenz und Leistungsverbrauch Transistor-Leistung wird nicht weiter steigen wie bisher Zu große Subschwellwert-Leckströme Versorgungsspannung muss weiter runter gehen Frequenz kann nur moderat ansteigen Schätzung Entwicklung eines 300 mm² Die WS 2013/ Folie 12

13 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? 1000 Watt an benötigter elektrischer Leistung nicht machbar Umgekehrte Anwendung von Pollacks Regel Im oberen beherrschbaren Energieverbrauchs-Spektrum bleiben und Anzahl Kerne erhöhen Beispiel: Geg.: 1 Milliarde Transistoren Statt 10 Kerne á 100 Millionen Transistoren Lieber 100 Kerne á 10 Millionen Transistoren Oder 1000 Kerne á 1 Million Transistoren WS 2013/ Folie 13

14 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Pollacks Regel rückwärts Leistung nimmt invers quadratisch ab, auf halber Fläche 70% der Leistung des größeren Systems Leistungsverbrauch pro Kern hingegen nimmt linear ab Durchsatz steigt (annähernd) linear mit größerer Anzahl Kerne Flexibilität steigt Kerne nicht notwendig homogen, sondern heterogen Grafikkerne kombiniert mit Einzelkerne (manche Intel COREi3) General-Purpose mit Special-Purpose (SP) Mit lokalem Cache Verbunden mit on-die Verbindungsnetzwerk WS 2013/ Folie 14

15 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Amdahlsche Gesetz Speed-up, d.h. der Geschwindigkeitszuwachs ist nach oben limitiert Für N Kerne gilt: WS 2013/ Folie 15

16 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Eben gezeigt: Grenze gilt für eine auf allen Kernen laufende Applikation Häufig jedoch: viele Applikationen Total Throughput (TPT) (peinlich parallel) vs. echt -parallel WS 2013/ Folie 16

17 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Leistung und Energie Vielkern-System in vorgegebenes Power-Budget integrieren Spannungsreduzierung beste Maßnahme Leistungsbudget zu reduzieren Beliebig technisch schwer realisierbar Autor schlägt diskrete Stufenvorgehensweise vor WS 2013/ Folie 17

18 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? On-die Netzwerk zur Verbindung der Knoten notwendig Leistungsverbrauch steigt mit Anzahl Kerne Anforderungen sorgfältig abwägen WS 2013/ Folie 18

19 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Speicherbandbreite Viele Kerne sind auch speicherhungrig Mögliche Lösung? 3D-Stapeltechnik WS 2013/ Folie 19

20 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Resiliency Elastizität Redundanz zur Tolerierung von Fehlern Ersatzkerne Wenn Schaltkreis (z.b. Kern) altert dann bisher ungenutzten Kern zuschalten Kein TMR (Triple Modular Redundancy) Verdreifachung eines Schaltkreises und Mehrheitsentscheidung über Voter (2 aus 3) Bei Nanoelektronik TMR evtl. nicht mehr tragfähig, da aufgrund höherer Fehlerwahrscheinlichkeit Voter ebenfalls fehleranfällig WS 2013/ Folie 20

21 2.2 Analyse von Multikern-Architekturen Roofline: ein einfaches Leistungsmodell Jeder Desktop- oder Server-Rechner hat heute Caches Pipelining superskalare Befehlsverarbeitung Sprungvorhersage Befehlsausführung außer der Reihe Übergang von Einzelkern- zu Mehrkern-Prozessoren Prozessor(kerne) werden eher unterschiedlicher Homogene vs. Heterogene Prozessoren Verschiedene Funktionalitäten Verschiedene Frequenzen» Siehe Cell, GPGPUs, Intel SCC WS 2013/ Folie 21

22 2.2 Analyse von Multikern-Architekturen Gerade Vielfalt macht einfaches Leistungsmodell wünschenswert Es muss nicht perfekt sein Aber einsichtig Analogie zu den 3Cs bei Cache-Architekturen Compulsory, Conflict, Capacity Seit 20 Jahren einfaches, anerkanntes Modell Hat Schwächen, dennoch nützlich für Rechnerarchitekten und Programmierer Modellgröße anhand der die Leistung gemessen wird Fließkomma-Rechenleistung WS 2013/ Folie 22

23 2.2 Analyse von Multikern-Architekturen Andere Modelle Stochastische, analytische und statistische Leistungsmodelle Sind sehr genau Jedoch häufig schwierig zu behandeln Für nicht-experten nicht unbedingt geeignet Liefern jedoch kaum Einsichten wie Leistung eines Rechners, Compilers oder Programms zu verbessern ist Einfachere alternative Modelle Bound and Bottleneck -Modelle (Schranken und Flaschenhals) Quantifiziert die Systemflaschenhälse Bestes Beispiel: Amdahlsche Gesetz Roofline-Modell gehört ebenfalls zu dieser Klasse WS 2013/ Folie 23

24 2.2 Analyse von Multikern-Architekturen Einfaches zweidimensionales Modell vorteilhaft Hauptursache für Flaschenhals: die off-chip Speicherbandbreite Wunsch: Modell Das Beziehung zwischen Prozessorleistung und off-chip Speicherverkehr ausdrückt Wichtige Größe: Operationelle Intensität Anzahl der Operationen pro geholtem Byte [Flops / Byte] Messgröße für Verkehr zwischen DRAM-Speicher und Caches Nicht zwischen Caches und Prozessor Arithmetische Intensität Pro Takt ein Zugriff auf Operanden des Kernels Quasi: Kosten-freier Zugriff auf Operanden Roofline-Modell 2D-Modell, das operationelle Intensität, Speicherbandbreite und maximal erzielbare Rechenleistung vereint WS 2013/ Folie 24

25 2.2 Analyse von Multikern-Architekturen Operationelle Intensität Arithmetische / Operationelle Intensität für bestimme so genannte Kerneloperationen Kernel: SparseMatrix, Structured Grids (Stencils), Structured Grids (Lattice Methoden), Spektrale Methoden (Fast Fourier Transformationen FFT), Dichte Matrizen, N-Körper-Probleme Skalierung abhängig O(N), O(log(N)), bzw. unabhängig von Problemgröße O(1) WS 2013/ Folie 25

26 2.2 Analyse von Multikern-Architekturen Roofline-Modell Arithmetische bzw. Operationelle Intensität Gemessen in [Flops / Byte] Daraus ableitbar die notwendige Bandbreite fürs Speichersystem Quotient aus erreichbarer Spitzen-Fließkommaleistung / Operationelle bzw. Arithmetische Intensität Floating PointOperations/Sec Floating PointOperations/Byte Bytes Sec Erreichbare Rechenleistung Attainable FLOP/sec Min(Peak Floating Point Performance, Peak Memory Bandwidth Operational Intensity) WS 2013/ Folie 26

27 2.2 Analyse von Multikern-Architekturen Roofline-Modell Graphische Darstellung des Roofline-Modells Opteron X2, Dual 2 GHz Kernel 1: Speicherbandbreiten-begrenzt 0.5 FLOPSs / Byte; Speicherbandbreite begrenzt Leistung auf 8 GFLOPs / sec Kernel 2: Rechenkapazitäts-begrenzt 4 FLOPs / Byte; Speicherbandbreite (max. 16 GB/s) nicht das Problem WS 2013/ Folie 27

28 2.2 Analyse von Multikern-Architekturen Roofline-Modell Graphische Darstellung des Roofline-Modells Peak-Memory-Performance durch Benchmark ermitteln STREAM bekannter Benchmark Autoren schrieben eigenen optimierten Benchmark Beinhaltet spezielle Techniken um optimale Performanz zu erzielen Berücksichtigt Dinge wie vorausschauendes Laden (Prefetching), korrekte Datenanordnung im Speicher auf Adressgrenzen (Data Alignment) Spitzen-Rechenleistung bestimmt durch Abschätzung Maximale Rechenleistung pro Kern Anzahl Kerne WS 2013/ Folie 28

29 2.2 Analyse von Multikern-Architekturen Roofline-Modell Roofline-Modell für zwei Generationen von AMD Opterons (X2 und X4) Gleicher Prozessorsockel, gleiche Anzahl DRAM-Kanäle gleiche Speicherbandbreite X4 doppelt so viele Kerne, doppelte SSE2-Spitzen-Performanz (2 SSE2-Instruktionen / Takt), 2.3 GHz vs. 2.2 GHz (Taktrate X2) etwas mehr als 4-fache Leistung WS 2013/ Folie 29

30 2.2 Analyse von Multikern-Architekturen Roofline-Modell Optimierungsmaßnahmen, um sich möglichst nahe an die Decke der Roofline heranzuschieben ( Adding ceilings to the roofline ) ILP (Instruction Level Parallelism) und SIMD (Single Instruction Multiple Data) anwenden Schleifen aufrollen um Instruktionslatenz zu vermindern Vektorinstruktionen Gute Balance bei Fließkomma-Operationen Gleiche Anzahl an FPADD- und FPMUL-Operationen Schleifen umstrukturieren für Speicherzugriffe pro Schritt Daten in gegebenen Einheitsgrößen ansprechen (unit-stride memory accesses) Speicher-Affinität (in Multiprozessor-Multicores) Multicore-/Speicherchip-Paar Alle Zugriffe auf DRAM innerhalb eines Paars Software-Prefetching Daten durch entsprechende Befehle lange vor eigentlichem Gebrauch ansprechen und dadurch in Cache laden WS 2013/ Folie 30

31 2.2 Analyse von Multikern-Architekturen Roofline-Modell Dach verschieben für die maximal erzielbare Rechenleistung (Computational Ceiling) WS 2013/ Folie 31

32 2.2 Analyse von Multikern-Architekturen Roofline-Modell Anstiegsgerade nach links verschieben für die maximal erzielbare Speicherbandbreite (Bandwidth Ceiling) WS 2013/ Folie 32

33 2.2 Analyse von Multikern-Architekturen Roofline-Modell Kombination aus beiden Maßnahmen Für welchen Kernel hilft welche Maßnahmenkombination WS 2013/ Folie 33

34 2.2 Analyse von Multikern-Architekturen Roofline-Modell Demonstration und Anwendbarkeit: Angewandt für vier verschiedene Multicore-Architekturen für vier verschiedene Fließkomma-Kernels Xeon e3545 (Clovertown) - SUN UltraSPARC T (Niagara) AMD Opteron 2346 (Barcelona) Cell BE QS20 WS 2013/ Folie 34

35 2.2 Analyse von Multikern-Architekturen Roofline-Modell Eigenschaften der verschiedenen Multikern-Prozessoren FIGURE 7.18 Characteristics of the four recent multicores. Although the Xeon e5345 and Opteron X4 have the same speed DRAMs, the Stream benchmark shows a higher practical memory bandwidth due to the inefficiencies of the front side bus on the Xeon e5345. Copyright 2009 Elsevier, Inc. All rights reserved. WS 2013/ Folie 35

36 2.2 Analyse von Multikern-Architekturen Roofline-Modell Vier Kernels WS 2013/ Folie 36

37 2.2 Analyse von Multikern-Architekturen Roofline-Modell Ergebnisse AMD Barcelona Für Stencil, LBMHD, FFT WS 2013/ Folie 37

38 2.2 Analyse von Multikern-Architekturen Roofline-Modell Leistungsanalyse Lattice-Boltzmann (LBHMD) WS 2013/ Folie 38

39 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Intels Tick-Tock-Prinzip Gleiche Mikroarchitektur Prozess-Technologiesprung Neue Mikroarchitektur mit gleicher Prozess-Technologie WS 2013/ Folie 39

40 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Modularer Aufbau: Architektur besteht aus wenigen Grundbausteinen Mikroprozessor Kern mit eigenem L1 und L2 Cache gemeinsamer L3-Cache Integrated Memory Controller (IMC) Quick Path Interconnect (QPI) Bus controller GPU Kern Dadurch hohe Flexibilität bei der Gestaltung von CPU- Modellen für verschiedene Anwendungsbereiche. WS 2013/ Folie 40

41 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Beispiel: Nehalem Quad-Core Prozessor WS 2013/ Folie 41

42 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Veränderungen beim Loop Buffer (s. Kap , Folie 39) (Makro-)Instruktionen müssen nicht mehr dekodiert werden Mikrooperationen im Puffer ablegen WS 2013/ Folie 42

43 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Energiemanagement Überwachung von Temperatur, Spannung und Stromstärke der einzelnen Cores vorher nur Spannung und Frequenz für alle Kerne global regelbar nun individuelle Anpassung von Taktrate und Spannung nach Bedarf einzelne Cores können in Energiesparmodus versetzt werden ziemlich komplex: ca. 1 Million Transistoren WS 2013/ Folie 43

44 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Turbo Boost Technologie kurzzeitige Übertaktung einzelner Cores möglich automatische Steuerung und Kontrolle durch PCU (Power Control Unit) Thermal Design Power (TDP) muss eingehalten werden Anhebung des Takts in 133 MHz Schritte (ab SandyBridge 100 MHz) Beispielszenario: Die Arbeitslast ist ungleich verteilt, so dass nur 2 Cores arbeiten Die beiden anderen Cores sind untätig und gehen in den Energiesparmodus Die PCU erhöht den Takt der aktiven Cores um 2x 133 MHz WS 2013/ Folie 44

45 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Hyperthreading Intels Bezeichnung für Simultaneous Multithreading logische Prozessoren mit eigenem Registersatz, Befehlszähler, logische Prozessoren teilen sich Ressourcen wie Rechenwerke Quasi-parallele Bearbeitung von mehreren Threads möglich Verschiedene Threads weisen meistens keine Datenabhängigkeit auf bessere Auslastung Rechenwerke und damit höherer Gesamtdurchsatz zielt auf RAW-Hazard-Vermeidung WS 2013/ Folie 45

46 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Hyperthreading Veranschaulichung Die blauen Felder symbolisieren Instruktionen aus Thread 1 Die orangenen Instruktionen aus Thread 2 Die gelben Felder stehen für den Leerlauf der Ressourcen WS 2013/ Folie 46

47 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Leistungsvergleich mit aktiviertem und deaktiviertem Hyperthreading WS 2013/ Folie 47

48 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Speicher-Controller Bisher: Speicher-Controller in der Northbridge Nun: Integrierter Speichercontroller bei der Nehalem Architektur geringere Latenzen unabhängig von Mainboard Hardware bessere Transferraten als bei Core 2 Vergleich der Speicher-Performanz von Nehalem und Core 2 WS 2013/ Folie 48

49 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Quick-Path Interconnect Bus QPI schnelle direkte Kommunikation zwischen Prozessoren Kommunikation mit Eingabe/Ausgabe Der ehemalige Front Side Bus konnte diese Anforderungen nicht mehr erfüllen Aufbau eines Mehrprozessorsystems WS 2013/ Folie 49

50 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Cache-Organisation Cache-Hierarchie eigener L1 Cache (32 KB Instruction/ 32KB Data) in jedem Kern eigener L2 Cache (256 KB) in jedem Kern großer gemeinsamer L3 Cache (z.b. 8 MB bei Quadcore) Vergleich der Cache-Latenzen mit der Core-2 Architektur WS 2013/ Folie 50

51 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Cache-Organisation Cache-Kohärenz Mechanismen benötigt für die Cache-Kohärenz bei den einzelnen Cores innerhalb eines Prozessors bei den einzelnen Prozessoren in einem Mehrprozessorsystem WS 2013/ Folie 51

52 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Organisation L3 Cache - Inclusive Cache alle Daten, die sich im individuellen L1 und L2 Cache eines Cores befinden, sind immer auch im L3 Cache vorhanden Somit: wenn sich eine Zeile nicht im L3 Cache befindet, kann sie auch nicht im Cache eines anderen Cores liegen zusätzliche Valid Bits signalisieren in welchen Cores eine bestimmte Cachezeile vorhanden sein könnte positiv: Cachezeile wurde von Core X angefragt. Es kann aber durchaus sein, dass die Zeile mittlerweile nicht mehr im Cache von Core X vorhanden ist negativ: Cachezeile wurde nicht von Core X angefragt und befindet sich daher definitiv nicht im Cache von Core X WS 2013/ Folie 52