Untersuchung und Vorstellung moderner Grafikchiparchitekturen

Größe: px

Ab Seite anzeigen:

Download "Untersuchung und Vorstellung moderner Grafikchiparchitekturen"

Hartmut Weber
vor 7 Jahren
Abrufe

1 Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Untersuchung und Vorstellung moderner Grafikchiparchitekturen Hauptseminar Technische Informatik, 4. Juni 2008 Niko Joram

2 Gliederung 1. Einleitung 2. Grafikverarbeitung klassische Grafikpipeline Unified Architektur 3. Ausgewählte Architekturen nvidia GeForce Serie 9 ATI Radeon Serie HD3000 Vergleich 4. Zusammenfassung und Ausblick Quellen TU Dresden moderne Grafikchiparchitekturen Folie 2 von 18

3 1 Einleitung heutige GPUs reichen bezüglich Rechenleistung an CPUs heran Entwicklung der Integrationsdichte übertrifft Mooresches Gesetz Intel Core 2: 45 nm Prozess, je Kern 400 Millionen Transistoren ATI Radeon HD3800: 55 nm Prozess, 660 Millionen Transistoren hohes Maß an Parallelisierung (bei 3D-Berechnungen gut möglich) mittlerweile nicht nur für Grafik nutzbar (General-Purpose-GPU) Untersuchung der Architekturen lohnenswert TU Dresden moderne Grafikchiparchitekturen Folie 3 von 18

4 2 Grafikverarbeitung klassische Grafikpipeline wichtigste Verarbeitungseinheit: entsprechen spezialisierten Floating Point Units Vertex Geometry Pixel Vertex : Geometriemanipulation Geometry : Erzeugung zusätzlicher Geometrie Pixel : Bildpunktmanipulation je Grafikchip gibt es mehrere Einheiten jeder Sorte TU Dresden moderne Grafikchiparchitekturen Folie 4 von 18

5 2 Grafikverarbeitung klassische Grafikpipeline Dreieck Schreiben in Framebuffer Vertex Geometry Vertex Triangle Setup Geometry Vertex Pixel Triangle Setup Geometry Z-Buffer Test Pixel Triangle Setup Z-Buffer Test Pixel Z-Buffer Test je Taktzyklus wird im Normalfall ein Dreieck fertiggestellt Erweiterung auf superskalare Pipeline TU Dresden moderne Grafikchiparchitekturen Folie 5 von 18

6 2 Grafikverarbeitung Unified Architektur Probleme der klassischen Grafikpipeline: feste Anzahl von Geometrie- u. Pixeleinheiten klassische Grafikpipeline zu unflexibel für moderne 3D-Grafiken relativ komplexe Pipelinestufen geringe maximale Taktfrequenz Lösung: Unified Architektur Nutzung extrem vieler einfacher FPUs Zusammenfassung zu parallel arbeitenden Rechenwerken dynamische Funktionszuweisung durch Programmierung TU Dresden moderne Grafikchiparchitekturen Folie 6 von 18

7 2 Grafikverarbeitung Unified Architektur klassisch komplexe Geometrie komplexe Pixelgrafik Vertex Vertex 90% 10% Pixel Pixel 10% 90% unified komplexe Geometrie, komplexe Pixelgrafik Arbiter 75% 75% 75% Nutzung der als Streamprozessoren superskalare Architektur, Vektorrechner gleichmäßige Lastverteilung auf die Rechenwerke durch Arbiter TU Dresden moderne Grafikchiparchitekturen Folie 7 von 18

8 2 Grafikverarbeitung Unified Architektur Probleme der Unified Architektur Hardware-Sicht: Arbiter muß ständig für gleichmäßige Auslastung sorgen Arbitrierungsalgorithmus/-hardware komplex Software-Sicht: Algorithmen für Funktionszuweisung der eigentliche Programmierung der TU Dresden moderne Grafikchiparchitekturen Folie 8 von 18

9 3 Ausgewählte Architekturen nvidia GeForce Serie 9 Eckdaten: 65 nm Prozess, 505 Millionen Transistoren Unified Architektur 650 MHz Kerntakt (1,6 GHz Takt der ALUs) 64 ALUs mit 32 Bit Genauigkeit nach IEEE 754 Controller für externe Schnittstellen integriert (RAMDAC, DVI, HDMI) skalierbar mit SLI (scaleable link interface) TU Dresden moderne Grafikchiparchitekturen Folie 9 von 18

10 3 Ausgewählte Architekturen nvidia GeForce Serie 9 Host Data Assembler Thread Processor Rasterize VTX Thread Geo Thread Pixel Thread L1 Cache L1 Cache L1 Cache L1 Cache L2 Cache L2 Cache L2 Cache L2 Cache Framebuffer Framebuffer Framebuffer Framebuffer TU Dresden moderne Grafikchiparchitekturen Folie 10 von 18

11 3 Ausgewählte Architekturen nvidia GeForce Serie 9 Thread Processor Host Rasterize Data Assembler VTX Thread Geo Thread Pixel Thread Thread Processor zuständig für Verteilung des Datenstroms Funktionszuweisung für einzelne übernimmt Aufgaben eines Arbiters Vertex-, Geometry-, Pixel Thread Issue Vorverarbeitung für jeweiligen Datentyp Datenweiterleitung zu freiem -Block Data Assembler Auswahl von Geometrie und anderen Daten Zusammenfassung zu Standard-Datenstrukturen TU Dresden moderne Grafikchiparchitekturen Folie 11 von 18

12 3 Ausgewählte Architekturen nvidia GeForce Serie 9 Ausführungseinheit L1 Cache L2 Cache jede kann andere Aufgabe übernehmen Anzahl problemlos skalierbar Caches halten beliebige benötigte Datenstrukturen Datenfluß selbst ist streaming (nicht cached) Stream Processor () jeder kann je Takt Multiply-Add und Multiply Textur-Verarbeitung selbständiges Prefetching (TA) selbständige Filterung (TM) werden dafür nicht benötigt TU Dresden moderne Grafikchiparchitekturen Folie 12 von 18

13 3 Ausgewählte Architekturen nvidia GeForce Serie 9 L2 Cache Framebuffer Raster Operation Processor Anzahl skalierbar jeder besitzt mehrere Anti-Aliasing-Einheiten Kompressionsalgorithmen für anfallende Daten Speichercontroller, Schreibpuffer, L2 Cache keine Konflikte untereinander Funktionalität Anti-Aliasing (bis zu 12 Pixel/Takt) Z-Test (32 Bit Z-Buffer) Farbverwaltung Schreiben der fertigen Pixel in Framebuffer TU Dresden moderne Grafikchiparchitekturen Folie 13 von 18

14 3 Ausgewählte Architekturen ATI Radeon Serie HD3000 Eckdaten: 55 nm Prozess, 660 Millionen Transistoren Unified Architektur 775 MHz Kerntakt 64 ALUs mit 32 Bit Genauigkeit nach IEEE 754 Skalierbarkeit mit CrossFire (mehrere GPUs im Verbund) TU Dresden moderne Grafikchiparchitekturen Folie 14 von 18

15 Stream Out Buf. 3 Ausgewählte Architekturen ATI Radeon Serie HD3000 Hierarchical Z Z/Stencil Cache Memory R/W Cache Rasterizer Interpolators Command Processor Setup Engine Geometry Assembler Tesselator Vertex Assembler Ultra-Threaded Dispatch Processor Export Vertex Index Fetch Texture Units Instr. Cache Vertex Cache L1 Texture Cache Const. Cache L2 Texture Cache ROP ROP ROP ROP Render Back-Ends Color Cache TU Dresden moderne Grafikchiparchitekturen Folie 15 von 18

16 3 Ausgewählte Architekturen Vergleich Benchmark mit 3DMark06 TU Dresden moderne Grafikchiparchitekturen Folie 16 von 18

17 4 Zusammenfassung und Ausblick moderne GPUs sind CPUs bezüglich Parallelverarbeitung überlegen Unified Architektur: skalierbarer Verbund vieler Recheneinheiten jede Recheneinheit kann frei programmiert werden Nutzung als schneller, paralleler Rechner nicht nur für Grafik CUDA (Compute Unified Device Architecture) von nvidia API und Compiler enthält Bibliotheken mit Algorithmen (z.b. FFT, DCT,... ) spezieller Modus der Hardware (keine Zerlegung in Pixel) TU Dresden moderne Grafikchiparchitekturen Folie 17 von 18

18 Quellen Beschreibung der Architektur des nvidia G80, G Beschreibung der Architektur des Radeon R600, R test ati radeon hd 3850 rv670/2 allgemeines zu GPUs processing unit Unified Architektur Streamprozessor TU Dresden moderne Grafikchiparchitekturen Folie 18 von 18

Ähnliche Dokumente

RST-Labor WS06/07 GPGPU. General Purpose Computation On Graphics Processing Units. (Grafikkarten-Programmierung) Von: Marc Blunck

RST-Labor WS06/07 GPGPU. General Purpose Computation On Graphics Processing Units. (Grafikkarten-Programmierung) Von: Marc Blunck RST-Labor WS06/07 GPGPU General Purpose Computation On Graphics Processing Units (Grafikkarten-Programmierung) Von: Marc Blunck Ablauf Einführung GPGPU Die GPU GPU Architektur Die Programmierung Programme