CPU, GPU und FPGA. CPU, GPU und FPGA Maximilian Bandle, Bianca Forkel 21. November 2017

Größe: px

Ab Seite anzeigen:

Download "CPU, GPU und FPGA. CPU, GPU und FPGA Maximilian Bandle, Bianca Forkel 21. November 2017"

Kristin Michel
vor 6 Jahren
Abrufe

1 CPU, GPU und FPGA, Bianca Forkel 21. November 2017

2 CPU, GPU und FPGA Inhalt CPU: Central Processing Unit GPU: Graphical Processing Unit FPGA: Field Programmable Gate Array 2

3 CPU Central Processing Unit Bisher in Vorlesung betrachtet Über Assembler/Maschinensprache frei programmierbare Verarbeitungseinheit Zentraler Bestandteil eines Computers Rechenwerk (ALU) Leitwerk Speichermanager (MMU) 3

4 CPU Cachehierarchie Größe Zugriffszeit Bytes Register ns K-M Bytes Prozessorcache < 10ns G Bytes T Bytes Arbeitsspeicher (RAM) Festplatte/SSD < 100ns Faktor 10 4 ms Archivspeicher 4

5 CPU CPU, GPU und FPGA Abgrenzung von Mikrocontrollern Übergang fließend Bei Mikrocontroller alles auf Chip enthalten Evtl. nur Oszillator (Taktgeber) und Speicher extern Basiert häufig auf älteren Bauformen von Prozessoren Entworfen für Steuerung von Systemen Kein richtiges Betriebssystem - nur Bootloader Populär geworden in Maker-Szene durch Arduino und Co. 5

6 FPU Floating Point Unit Entworfen für Fließkomma Berechnungen Lookup Tabellen (LUT) mit vordefinierten Werten z.b. für Division -> Pentium-FDIV-Bug (Fehler in LUT) Mathematischer Koprozessor Kann meist effizient auf Matrizen arbeiten Heutzutage in CPU integriert da Funktionen allgemein verwendet werden Programmierbar durch spezielle Assembler Befehle 6

7 SIMD CPU, GPU und FPGA Single Instruction Multiple Data Vektor Instruktionen um Programme zu parallelisieren Gleichzeitiges Bearbeiten mehrerer Elemente in sogenannten Lanes In jedem 64 Bit Prozessor verbaut (SSE in Intel & AMD) Seit Skylake Server bis zu 512 Bit (8x64bit) parallel bearbeiten Diverse Operationen unterstützt Logische Operationen (Shifts, Rotationen) Mathematische Operationen Vergleiche Spezielle String Befehle (zb Substring Suche) 7

8 SIMD vs non SIMD Code Filtern von Elementen CPU, GPU und FPGA uint32_t scalar(int32_t* in, int32_t incount, int32_t x, int32_t* out) { } uint32_t outpos = 0; // Initialisiere Ausgabe for (int32_t i=0; i < incount; i++) { if (in[i] < x) { out[outpos++] = in[i]; } // Speichere wenn passend } return outpos; uint32_t scalar(int32_t* in, int32_t incount, int32_t x, int32_t* out) { } uint32_t outpos = 0; // Initialisiere Ausgabe for (int32_t i=0; i < incount; i++) { } uint32_t intmp = in[i]; // Wert speichern bool vergleich = intmp < x; // Vergleichen if (vergleich) { // Wenn passend zum Vergleich } out[outpos] = intmp; // Speichern outpos+=vergleich; // Neuen Treffen zählen return outpos; 8

9 SIMD vs non SIMD Code Filtern von Elementen CPU, GPU und FPGA uint32_t scalar(int32_t* in, int32_t incount, int32_t x, int32_t* out) { } uint32_t outpos = 0; // Initialisiere Ausgabe for (int32_t i=0; i < incount; i++) { uint32_t intmp = in[i]; // Wert speichern } bool vergleich = intmp < x; // Vergleichen if (vergleich) { // Wenn passend zum Vergleich out[outpos] = intmp; // Speichern } outpos+=vergleich; // Neuen Treffen zählen return outpos; uint32_t SIMD(int32_t* in, int32_t incount, int32_t x, int32_t* out) { uint32_t outpos = 0; } m512i cmp = _mm512_set1_epi32(x); // Vektor mit Vergleichswerten for (int32_t i=0; i<incount; i+=16) { // 16 pro Durchlauf } m512i inv = _mm512_loadu_si512(in + i); // 16 Werte laden mmask16 mask = _mm512_cmplt_epi32_mask(inv, cmp); // Mit Maske vergleichen _mm512_mask_compressstoreu_epi32(out + outpos, mask, inv); // Speichern outpos += builtin_popcount(mask); // Treffer zählen und hochzählen return outpos; 9

10 SIMD vs non SIMD Code Filtern von Elementen CPU, GPU und FPGA 60 Skalar 53,5 SIMD 45 Zeit in Millisekunden ,8 16,6 14,7 8,4 1,0 1,0 1,6 2,2 2,5 1% 10% 50% 90% 99% Selektivität 10

11 GPU Graphical Processing Unit CPU, GPU und FPGA Entworfen für Grafikanzeige und Grafikverarbeitung Hochparalleles Rechnen gleichartiger Aufgaben Schlecht bei Branches (if) da beide Pfade ausgeführt werden Nur ein Ergebnis wird genutzt Für Vektor und Matrix-Operationen mit Gleitkommazahlen ausgelegt Programmierung durch spezielle Schnittstellen: z.b. DirectX (Windows), OpenGL, Vulkan Inzwischen Basismodelle in den meisten Prozessoren integeriert Viele Laptops besitzen keine gesonderte GPU 11

12 GPGPU General Purpose GPU Verwendung der GPU über die Grafikverarbeitung hinaus Vor allem wissenschaftliches Rechnen, für Simulationen Hohe Parallelität (nicht unbedingt vorteilhaft!) Limitierte Auswahl an Operatoren im Vergleich zu CPU Programmierung durch spezielle Schnittstellen, z.b. CUDA, OpenCL 12

13 FPGA CPU, GPU und FPGA Field Programmable Gate Arrays FPGAs sind (frei) programmierbare Logikschaltungen Nutzer beschreibt seinen eigenen Mikrochip Konfiguration eines FPGAs ist nicht fest: Neu Konfigurierbar 13

14 FPGA CPU vs FPGA Code out =!a; Kompilieren Assembler not eax VHDL Logik out <= not a; Synthetisieren 14

15 FPGA Wieso brauche ich ein FPGA? CPU, GPU und FPGA Aufgaben die eine CPU nicht gut kann z.b. Signalverwaltung, Echtzeit Anwendungen Design der Hardware zur Lösung eines Problems Bei CPU ist Hardware vorgegeben Flexibles Design eines Chips Beheben von Fehlern im Design Produktion eines Mikrochips von vielen ist billig (Cent - Bereich) ABER Firma & Produktion des ersten ist teuer (Millionen - Milliarden) 15

16 FPGA Wer verwendet FPGAs Mikrochip - Produzenten Simulation eines Chips in Entwicklung High Performance Computing Spezielle Algorithmen Digitaltechnik Filter, Signalanalyse Rüstungsindustrie Flugstabilisierung, Cruise-Missile 16

17 FPGA Vorteile Parallelität Jeder Prozess im FPGA arbeitet parallel zu allen anderen Pipelining Jeder Datensatz selbst wird sequentiell bearbeitet Anpassung an Daten Je nach Problem kann die Hardware angepasst werden Datendurchsatz Daten liegen direkt an den Operatoren (Kein Programm / Betriebssystem dazwischen) 17

18 FPGA Nachteile Ungenutzte oder schlecht genutzte Kapazität Alle (auch wenig genutzte) Optionen sind in Hardware synthetisiert Warten auf Zeit oder Daten Je mehr gewartet werden muss desto geringer ist die Performanz Langsame Taktung Maximal 500 MHz (ca Faktor 5-10 langsamer als CPU) Je ähnlicher das FPGA einem Prozessor wird, desto schlechter ist die Performanz 18

19 FPGA Aktuelle Entwicklungen Kombination von Prozessor und FPGA auf einem Board FPGA in Kombination mit ARM Chip Aufteilen der Aufgaben Prozessor mit integriertem FPGA Coprozessor Angekündigt von Intel nach Kauf von Altera Direkter verbunden - vergleichbar zu integrierter GPU 19

20 FPGA Ausblick Direkt im Anschluss FPGA Anwendung: Lighthouse Tracking Nächste Woche Kurzeinführung VHDL: FPGA Programmierung 20

Ähnliche Dokumente

LEISTUNGSVERGLEICH VON FPGA, GPU UND CPU FÜR ALGORITHMEN ZUR BILDBEARBEITUNG PROSEMINAR INF-B-610

LEISTUNGSVERGLEICH VON FPGA, GPU UND CPU FÜR ALGORITHMEN ZUR BILDBEARBEITUNG PROSEMINAR INF-B-610 Dominik Weinrich dominik.weinrich@tu-dresden.de Dresden, 30.11.2017 Gliederung Motivation Aufbau und Hardware