Yilmaz, Tolga MatNr: Mesaud, Elias MatNr:

Ähnliche Dokumente
Programmierbeispiele und Implementierung. Name: Michel Steuwer

GPGPU-Programming. Constantin Timm Informatik 12 TU Dortmund 2012/04/09. technische universität dortmund. fakultät für informatik informatik 12


Untersuchung und Vorstellung moderner Grafikchiparchitekturen

Programmierung von Graphikkarten

Grafikprozessor Grafikspeicher Taktung Kühlung Schnittstellen Ausgänge Treiber Crossfire & SLI ATI Nvidia Matrox PowerVR Technologies Inhaltsverzeichn

GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm Organiosatorisches. Tutorial CUDA. Ralf Seidler

Thema: Hardware-Shader

GPGPU mit NVIDIA CUDA

GPGPU Programming nvidia CUDA vs. AMD/ATI Stream Computing. Seminar HWS 08/09 by Erich Marth

Datenblatt: TERRA PC-GAMER Zusätzliche Artikelbilder IT. MADE IN GERMANY.

OpenCL. OpenCL. Boris Totev, Cornelius Knap

CUDA. Axel Jena, Jürgen Pröll. Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg Axel Jena, Jürgen Pröll 1

CUDA. Jürgen Pröll. Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg Jürgen Pröll 1

FSJS- X3000. Corsair AX1200 Gold. Asus P6T7 Mainboard. Corsair (3x4GB RAM) MSI GTX 780. Intel Core i7-990x

Software Engineering für moderne, parallele Plattformen. 9. GPGPUs: Grafikkarten als Parallelrechner. Dr. Victor Pankratius

Spezialprozessoren zur Übernahme Grafik-spezifischer Aufgaben, vorrangig der Bildschirmausgabe

Parallele Programmierung mit GPUs

Multicore-Architekturen

Datenblatt: TERRA PC-GAMER ,00. Gaming-PC mit 240GB SSD + NVIDIA GTX 970 Grafik. Zusätzliche Artikelbilder IT. MADE IN GERMANY

OpenCL. Seminar Programmiersprachen im Multicore-Zeitalter Universität Siegen Tim Wiersdörfer

Datenblatt: TERRA PC-GAMER Zusätzliche Artikelbilder IT. MADE IN GERMANY.

Optimierung eines neuen Logarithmic-Search-Verfahrens zum Image Mosaicing unter Einsatz des CUDA-Frameworks

CUDA. 7. Vorlesung GPU Programmierung. Danke an Hendrik Lensch

Datenblatt: TERRA PC-GAMER ,00. Gaming-PC mit 240GB SSD + NVIDIA GTX 970 Grafik. Zusätzliche Artikelbilder IT. MADE IN GERMANY

Datenblatt: TERRA PC-GAMER ,00. Gaming-PC mit 120GB SSD + NVIDIA GTX 970 Grafik. Zusätzliche Artikelbilder IT. MADE IN GERMANY

exone WORKSTATION 4304 i7-6700kssd W10Pro>W7

Datenblatt: TERRA PC-GAMER ,00. Zusätzliche Artikelbilder IT. MADE IN GERMANY

Grafikkarten-Architektur

Hardware-Komponenten. DI (FH) Levent Öztürk

Datenblatt: TERRA PC-GAMER ,00. Gaming-PC mit 240GB SSD + NVIDIA GTX 970 Grafik. Zusätzliche Artikelbilder IT. MADE IN GERMANY

Der Goopax Compiler GPU-Programmierung in C++ ZKI AK-Supercomputing, Münster, , Ingo Josopait

Cuda Speicherhierarchie

Datenblatt: Referenznummer: Intel Core i7 (4. Gen.) 4790 / 3.6 GHz (8M Cache, bis zu 4.0 GHz mit Intel Turbo Boost Technology)

Migration SeeTec 5.4.x Cayuga R5. Version Date Author SeeTec AG

FPGA Beschleuniger. Your Name. Armin Jeyrani Mamegani Your Organization (Line #2)

OpenCL Implementierung von OpenCV Funktionen

CUDA. (Compute Unified Device Architecture) Thomas Trost. May 31 th 2016

High-Performance Bildverarbeitung (nicht nur) mit JAVA. Prof. Dr.Thomas Netzsch - Hochschule Darmstadt - University of Applied Sciences

exone HOME 1301 i3-4160g W8

+ C - Array (Vektoren, Felder)

Datenblatt: TERRA PC-BUSINESS 5000 GREENLINE 539,00. Bestseller Core i5 PC. Zusätzliche Artikelbilder IT. MADE IN GERMANY

Datenblatt: TERRA PC-GAMER Gaming-PC mit 120GB SSD + NVIDIA GTX 970 Grafik. Zusätzliche Artikelbilder IT. MADE IN GERMANY

Multicore Herausforderungen an das Software-Engineering. Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück

EX Slot PCI Box Zur Erweiterung um 4 PCI Anschlüsse für ExpressCard

Grafik- Programmierung

EX PCI & 2 PCI-E

Datenblatt: TERRA PC-HOME Zusätzliche Artikelbilder IT. MADE IN GERMANY. Technische Änderungen und Irrtümer vorbehalten. Keine Mitnahmegarantie.

Compute Unified Device Architecture (CUDA)

Migration SeeTec 5.4.x Cayuga R4. Version Date Author SeeTec AG

Seminar: Grafikprogrammierung

Datenblatt: TERRA PC-BUSINESS 5050 SBA 629,00. Mit schnellem SSD Speichermedium und Intel SBA Software. Zusätzliche Artikelbilder IT. MADE IN GERMANY.

Eine Einführung Computergrafik SS14 Timo Bourdon

LEISTUNGSBESCHREIBUNG ZU UNSERER AUSSCHREIBUNG AS 02/46-09

Computer: PC. Informationstechnik für Luft-und Raumfahrt Aerospace Information Technology

Programmierung von Multicore-Rechnern

Programmiersprachen Einführung in C

Prüfung Algorithmen und Datenstrukturen, WS 2008/2009 (97 Punkte, 4 Seiten)

GPU-Computing. Michael Vetter

GPU Programmierung. Thorsten Grosch

Entwicklung von Partitionierungsstrategien im Entwurf dynamisch rekonfigurierbarer Systeme

Betriebssysteme Vorstellung

CUDA 3230 GPU-COMPUTE NODE, KEPLER READY

11: Echtzeitbetriebssystem ucos-ii

Staff. Tim Conrad. Zeitplan. Blockseminar: Verteiltes Rechnen und Parallelprogrammierung. Sommer Semester Tim Conrad

EX Slot PCI Box Zur Erweiterung um 4 PCI Anschlüsse für lange Karten inklusive internem 220Watt Netzteil

Lerndokumentation. Motherboard. Lerndokumentation Motherboard. Ausbildung Vorlehre Informatik. Lerndokumentation: Motherboard

technische universität dortmund Lehrstuhl für Hochfrequenztechnik Übertragungssysteme

Grafikkarten. Institut für Informatik, LMU München Seminar: Medientechnik, SoSe 2003 LS Prof. Hussman Referentin: Milena Velikova

AUFPREIS: ComWeb e.k. Biermannsweg Bochum Telefon:

GPGPU-Architekturen CUDA CUDA Beispiel OpenCL OpenCL Beispiel. CUDA & OpenCL. Ralf Seidler. Friedrich-Alexander-Universität Erlangen-Nürnberg

Datenblatt: TERRA PC-GAMER Gaming-PC mit 120GB SSD + NVIDIA GTX760 Grafikpower. Zusätzliche Artikelbilder IT. MADE IN GERMANY

Programmierung mit C Zeiger

GPU Programmierung. Thorsten Grosch

Ingenieurinformatik Diplom-FA (Teil 2, C-Programmierung)

Propädeutikum. Dipl.-Inf. Frank Güttler

Vorstellung SimpliVity. Tristan P. Andres Senior IT Consultant

Rechner Architektur. Martin Gülck

Programmieren was ist das genau?

Datenblatt: TERRA PC-GAMER Zusätzliche Artikelbilder IT. MADE IN GERMANY.

Datenblatt: TERRA PC-GAMER Zusätzliche Artikelbilder IT. MADE IN GERMANY.

Software in der Industriellen Bildverarbeitung

Acer Commercial PCs Endverbraucher-Preisliste gültig ab

GPU-Programmierung: OpenCL

Zusammenfassung des Handzettels für Programmieren in C

GPU-Computing im Rahmen der Vorlesung Hochleistungsrechnen

Automatisierung ( Fernsteuerung ) von Excel unter Microsoft Windows Tilman Küpper (tilman.kuepper@hm.edu)

Seminararbeit. Aktuelle Entwicklungen im Bereich Visual Computing. Prof. Dr. T. Jung, Prof. Dr. P. Hufnagl CUDA. René Schimmelpfennig (530698)

SENYO MINI PC 940MP. II Intel Core i3/i5/i7 Prozessor. II Intel HD-Grafik II 1 x 2,5" Sata. II 1x msata. II 4 GB DDR3L SO-DIMM, max.

Paralleles Rechnen. (Architektur verteilter Systeme) von Thomas Offermann Philipp Tommek Dominik Pich

GPU-BESCHLEUNIGTE PACKUNGSOPTIMIERUNG. André Müller, Johannes J. Schneider, Elmar Schömer

C-Grundlagen. Einführung von Tronje Krabbe 1/21

AUFPREIS: ComWeb e.k. Biermannsweg Bochum Telefon:

Hardware Virtualisierungs Support für PikeOS

Datenblatt: TERRA PC-GAMER ,00. Gaming-PC mit 240GB SSD + AMD R9 Grafik. Zusätzliche Artikelbilder IT. MADE IN GERMANY

Schleifenanweisungen

Produkte und Preise TERRA PC

Ein kleiner Einblick in die Welt der Supercomputer. Christian Krohn

Transkript:

Yilmaz, Tolga MatNr: 157317 Mesaud, Elias MatNr: 151386

1. Aufbau und Funktionsweise einer Grafikkarte 2. CPU vs. GPU 3. Software 4. Beispielprogramme Kompilierung und Vorführung 5. Wo wird Cuda heutzutage verwendet Mehrere Beispiele Tesla Beispielprogramm: TotalMedia 6. Fazit Yilmaz, Tolga Mesaud, Elias 2

Yilmaz, Tolga Mesaud, Elias 3

Aufbau und Funktion einer Grafikkarte Onboard (IGP) Bietet alle 2D-Funktion Langsame oder veraltete 3D-Funktionalität Erweiterungskarte Low-Cost bis High-End Modelle Dual GPU s auf einer Karte SLI oder Crossfire-Verbund Yilmaz, Tolga Mesaud, Elias 4

Aufgaben einer Grafikkarte Die Grafikkarte soll die CPU entlasten Auslagern komplexer Bildberechnungen auf die GPU Datenübertragung geschieht über ein Bus vom Mainboard (AGP oder PCI-Express) Informationen werden in der GPU verarbeitet und im Videospeicher abgelegt. RAMDAC ließt die digitalen Bildinformationen und übermittelt diese an den Monitor Yilmaz, Tolga Mesaud, Elias 5

Aufbau einer Grafikkarte NVIDIA 8800 GTX Yilmaz, Tolga Mesaud, Elias 6

Aufbau einer Grafikkarte Yilmaz, Tolga Mesaud, Elias 7

Grafikprozessor (GPU) G80 ist der erste DirectX10 fähige Grafikchip Komplett neue Architektur Unified Shader Model Keine Unterscheidung zwischen den unterschiedlichen Shader-Modellen (Pixel, Vertex, Geometrie) Yilmaz, Tolga Mesaud, Elias 8

Grafikprozessor (GPU) Yilmaz, Tolga Mesaud, Elias 9

Grafikprozessor (GPU) Yilmaz, Tolga Mesaud, Elias 10

Grafikprozessor (GPU) Yilmaz, Tolga Mesaud, Elias 11

Grafikprozessor (GPU) Yilmaz, Tolga Mesaud, Elias 12

Grafikprozessor (GPU) Neues bei DirectX 10: Geometrie-Shader Stream-Ausgabe Geringere CPU-Belastung bei CPU-GPU Transaktionen Yilmaz, Tolga Mesaud, Elias 13

Yilmaz, Tolga Mesaud, Elias 14

CPU vs. GPU Die CPU kann prinzipiell alles berechnen zieht aus einem Befehlssatz die größtmögliche Leistung ist in der Anzahl der parallelen Ausführungen beschränkt Hälfte der Chipfläche wird für den Cache verwendet Yilmaz, Tolga Mesaud, Elias 15

CPU vs. GPU Die GPU ist auf 3D-Berechnungen spezialisiert hohes Maß an Parallelisierung erreicht ihre volle Effizienz bei ca. 1000 Threads benötigt dank intelligenter Speicherorganisation nur geringen Cache Yilmaz, Tolga Mesaud, Elias 16

CPU vs. GPU 4 Cores 240 Cores Yilmaz, Tolga Mesaud, Elias 17

CPU vs. GPU 330 GFlops 48 GFlops Yilmaz, Tolga Mesaud, Elias 18

CUDA bildet eine Erweiterung der C Sprache Dennoch unterstützt es nicht alle Funktionen Man benötigt keine Vorkenntnisse über die GPU- Programmierung oder Grafik-APIs Verfügbar für Windows und bekannte Linux- Distributionen Yilmaz, Tolga Mesaud, Elias 19

host : die Funktion ist nur vom Host aufrufbar und ausführbar. device : die Funktion ist nur vom Device aufrufbar und ausführbar. global : die Funktion ist nur vom Host aufrufbar und wird vom Device ausgeführt. Yilmaz, Tolga Mesaud, Elias 20

constant : Variable wird im constant memory abgelegt. device : Variable wird im global memory gespeichert. shared : Variable wird im shared memory gespeichert. Yilmaz, Tolga Mesaud, Elias 21

#include <stdio.h> #include <cuda.h> // Kernel that executes on the CUDA device global void square_array(float *a, int N) { int idx = blockidx.x * blockdim.x + threadidx.x; if (idx<n) a[idx] = a[idx] * a[idx]; } // main routine that executes on the host int main(void) { } float *a_h, *a_d; // Pointer to host & device arrays const int N = 10; // Number of elements in arrays size_t size = N * sizeof(float); a_h = (float *)malloc(size); // Allocate array on host cudamalloc((void **) &a_d, size); // Allocate on device // Initialize host array and copy it to CUDA device for (int i=0; i<n; i++) a_h[i] = (float)i; cudamemcpy(a_d, a_h, size, cudamemcpyhosttodevice); // Do calculation on device: int block_size = 4; int n_blocks = N/block_size + (N%block_size == 0? 0:1); square_array <<< n_blocks, block_size >>> (a_d, N); // Retrieve result from device and store it in host array cudamemcpy(a_h, a_d, sizeof(float)*n, cudamemcpydevicetohost); // Print results for (int i=0; i<n; i++) printf("%d %f\n", i, a_h[i]); // Cleanup free(a_h); cudafree(a_d); Yilmaz, Tolga Mesaud, Elias 22

Folding@home Beschleunigung von Mathlab mittels CUDA Bild und Videobearbeitung Nero Move it CUDA Plug-In vreveal TotalMedia Usw Yilmaz, Tolga Mesaud, Elias 23

Ernennung der Harvard Universität zum CUDA Centre of Excellence Connectome Projekt MWA-Telescope-Projekt Qchem-Projekt Yilmaz, Tolga Mesaud, Elias 24

Innovative CUDA Architektur 250-fache Rechenleistung eines PCs 960 Recheneinheiten für massiv- parallele Rechenleistung Programmieren in C für Windows oder Linux Der Supercomputer ist bereits ab 5000 erhältlich Yilmaz, Tolga Mesaud, Elias 25

TotalMedia ist ein Videoverarbeitungsprogram Verbesserung des Films(Video) Entlastung der CPU durch CUDA Optimieren des Audioencoding Yilmaz, Tolga Mesaud, Elias 26

Innovation mit Potenzial Ausbaufähig Noch nicht klar Strukturiert Fraglich ist ob es sich Etablieren wird Yilmaz, Tolga Mesaud, Elias 27

Yilmaz, Tolga Mesaud, Elias 28

Yilmaz, Tolga Mesaud, Elias 29