GPU-Computing. Michael Vetter
|
|
|
- Marie Blau
- vor 10 Jahren
- Abrufe
Transkript
1 GPU-Computing Universität Hamburg Scientific Visualization and Parallel Informatik Climate Visualization Clisap/CEN
2 Übersicht Hintergrund und Entwicklung von GPGPU Programmierumgebungen & Werkzeuge (CUDA) Programmierbeispiel (Matrix-Matrix Multiplikation) Einsatz von GPUs im Hochleistungsrechnen Referenzen
3 Computergrafik
4 Was ist Rendering User-Specified 3-D Coordinates (floating pt.) (3.7, 0.9, 8.3) Screen Coordinates (integer) (273, 407) Pixels with correct color (4.1, 0.5, 2.7) (3.5, 0.4, 6.1) (240, 390) (298, 396) Geometry Processing Rasterization Transformation und Beleuchtung Flächenfüllung und Texturierung Quelle (mod.): A. Lastra (UNC)
5 Hintergrund Bis 2000 bei Graphikkarten fixed function pipeline Transform & Lighting Engine (Geforce256, 99/00)
6 General Purpose Graphics Programming Programmierung auf Basis der Graphik Pipeline Datenarrays in Texturen Filter als Fragment Shader Stream Programming
7 GPGPU Beispiel DSP
8 Weiterentwicklung Nutzung der GPU als Parallelprozessor Vorangetrieben durch Universitäten und Forschung Weiterhin alles Graphik basiert (OpenGL) Entwicklung von Hochsprachen: Cg C for Graphics GLSL OpenGL Shading Language HLSL High Level Shading Language BrookGPU Stream Programming
9 GLSL Beispiel Programmierbare Vertex-Shader und Pixel-Shader ( fragment shader ) sind seit OpenGL 2.0 (2004) standardisiert: GLSL (OpenGL Shading Language) Literatur: R. J. Rost, B. Licea-Kange: OpenGL Shading Language, Addison-Wesley, 2010 SAXPY (Single-precision Alpha X Plus Y) in C in GLSL (fragment shader) float saxpy ( float2 coords : TEXCOORD0, uniform sampler2d texturey, uniform sampler2d texturex, uniform float alpha ) : COLOR { float x = x_orig[i]; float x = tex2d(texturex,coords); float y = y_orig[i]; float y = tex2d(texturey,coords); y_new[i] = y + alpha * x; float result = y + alpha * x; return result; } Operationen erfordern Iteration: Operationen werden beim Zeichnen eines for-schleife (serielle Ausführung) texturierten Rechtecks parallel ausgeführt
10 GPU Programmierung Heute Unified Shading Architecture Unified Hardware (Processors) Verschiedene Entwicklungsumgebungen Nvidia CUDA AMD Stream Brook GPU / Brook+ Rapid Mind Platform PGI Accelerator Compiler Suite Middleware und Support Bibliotheken Mathematik Bibliotheken (lineare Algebra)
11 CUDA Konzept Compute Unified Device Architecture Unified Hardware (Processors) and Software Erste Grafikkarte verfügbar seit Ende 2006 Dedicated Many-Core Co-Prozessor Programmier Model: SIMD SIMT (Single-Instruction Multiple-Thread) Keine Graphik API mehr Single instruction Multiple instruction Single data SISD MISD Multiple data SIMD MIMD Highlevel Entwicklung in C/C++, Fortran,
12 CUDA Werkzeuge CUDA Toolkit / SDK Treiber, SDK, Compiler, Beispiele Profiler, Occupancy Calculator, Debugger Unterstützt werden: C/C++, FORTRAN, OpenCL, DirectCompute Bibliotheken CUBLAS (Basic Linear Algebra Subprograms) CUFFT (Fourier Transformation, Basis: fftw) CUDPP (Data Parallel Primitives), THRUST (STL) Entwicklungsumgebungen Visual Studio + NEXUS (Parallel Nsight)
13 Codegenerierung
14 GK110 Architektur (Keppler)
15 SMX-Processor 15 SMX-Prozessoren 192 CUDA Kerne Double-precission units 32 Load / Store Units 32 special functions units (sin, cos, sqr, ) 64k shared memory / L1 Cache Concurrent Thread Execution ECC Speicher
16 Vergleich Fermi / Keppler Merkmale Tesla M2090 Tesla K10 Tesla K20 Tesla K20x Tesla K40 Tesla K80 Architektur 1 x Fermi 2 x Keppler GK104 Peak Performance DP (Tflops) Peak Performance SP (Tflops) 1 x Keppler GK110 1 x Keppler GK110B 0,665 0,19 1,17 1,31 1,66 2,91 1,331 4,577 3,52 3,95 5 8,74 2x Keppler GK210 Speicherbandbreite 177 GB/s 320 GB/s 208 GB/s 250 GB/s 288 GB/s 480 GB/s Speichergröße 6 GB 8 GB 5 GB 6 GB 12 GB 24 GB CUDA-Cores
17 Thread (1,0) Thread (1,1) Thread (1,2) Thread (0,0) Thread (1,0) Thread (2,0) CUDA Programming Model Threads, Blocks and Grids Block (0,0) Grid Block (0,0) Block (0,1) Block (1,0) Block (1,1)
18 Time CUDA Programming Model Typical CUDA workflow Allocate memory in device DRAM Copy initial data to device Process data by one or more kernel calls Copy back results to host DRAM Free allocated device DRAM Host Kernel 1 Kernel 2 Device Grid 1 Grid 2
19 CUDA Threads
20 CUDA Programming Model Memory Model Private local memory Per thread Registers or in global memory Shared memory Shared by all threads within a block On-Chip Global memory Accessible by all threads Persistent across kernel calls Special memory: Constant memory (cached) Texture memory (cached) Block Grid
21 Exkurs: CUDA Device Memory Model
22 Exkurs: Speicher Management
23 Exkurs: Datentransfer Host Device
24 Time... CUDA Hardware Architecture Warps Threads are organised into warps Warp consists of 32 Threads (on current hardware) Divergent threads only occur within warps Switching between warps comes at no cost, because all threads have their own set of registers Care needs to be taken when accessing shared or global memory by threads of a warp SM multithreaded instruction scheduler warp 6 instruction 23 warp 10 instruction 6 warp 1 instruction 13 warp 6 instruction 24 warp 1 instruction 14 Taken from NVIDIA
25 Limitations of CUDA Requires specific problem type: Enough data parallelism Enough data to work on Enough computation per data element Often data transfer between host and device DRAM is limiting factor Keep data on GPU Fine tuning is done on a very low programming level Need to understand hardware GPU hardware is simpler than CPU Hard to maintain
26 Beispiel: Matrix-Matrix Multiplikation 2 quadratische Matrizen der Größe Width
27 Main Function
28 Matrix-Matrix Multiplikation
29 CUDA Implementierung
30 CUDA Implementierung
31 CUDA Kernel
32 Aufruf des Kernels
33 Optimierung Optimierung ist enorm wichtig! Maximierung der Auslastung (Occupancy): Speicherdurchsatz (Bandbreite) Anweisungsdurchsatz Auslastung Beispiel: Speicher Optimierung Transfer zwischen Host Device Speichertypen (global, shared, constant) Coalesced vs. non-coalesced Zugriff
34 Entwicklung Fermi / Keppler
35 OpenCL Compute Language für CPUs und GPUs Offener Standard für heterogene Umgebungen Khronos Group (Apple) OpenCL 1.0 ( ) OpenGL and OpenCL share Resources OpenCL is designed to efficiently share with OpenGL Textures, Buffer Objects and Renderbuffers Data is shared, not copied
36 OpenCL Context
37 OpenCL Beispiel // OpenCL Objects cl_device_id device; cl_context context; cl_command_queue queue; cl_program program; cl_kernel kernel; cl_mem buffer; // Setup OpenCL clgetdeviceids(null, CL_DEVICE_TYPE_DEFAULT, 1, &device, NULL); context = clcreatecontext(null, 1, &device, NULL, NULL, NULL); queue = clcreatecommandqueue(context, device, (cl_command_queue_properties)0, NULL); // Setup Buffer buffer = clcreatebuffer(context, CL_MEM_COPY_HOST_PTR, sizeof(cl_float)*10240, data, NULL);
38 OpenCL Beispiel cont. // Build the kernel program = clcreateprogramwithsource(context, 1, (const char**)&source, NULL, NULL); clbuildprogram(program, 0, NULL, NULL, NULL, NULL); kernel = clcreatekernel(program, "calcsin", NULL); // Execute the kernel clsetkernelarg(kernel, 0, sizeof(buffer), &buffer); size_t global_dimensions[] = {LENGTH,0,0}; clenqueuendrangekernel(queue, kernel, 1, NULL, global_dimensions, NULL, 0, NULL, NULL); // Read back the results clenqueuereadbuffer(queue, buffer, CL_TRUE, 0, sizeof(cl_float)*length, data, 0, NULL, NULL); // Clean up
39 Einsatz von GPUs im HPC Top500 (11/2012) Top500 (11/2013) Accelerator/CP Family Count System Share (%) N/A Nvidia Fermi Intel Xeon Phi ATI Radeon Nvidia Kepler IBM Cell Accelerator/CP Family Count System Share (%) N/A Nvidia Fermi Nvidia Kepler 15 3 Intel Xeon Phi Hybrid ATI Radeon Top500 (11/2014) Accelerator/CP Family Count System Share (%) N/A Nvidia Kepler Intel Xeon Phi Nvidia Fermi Hybrid ATI Radeon PEZY-SC Einsatzgebiete: Astronomie und Astrophysik Biologie, Chemie Finanzwirtschaft
40 GPU Cluster in der Top500 (11/2014) Titan (Top500 Platz 2) R R (TFlops) max peak max peak Piz Daint(Top500 Platz 6) R R (TFlops) Cray XK7, Opteron C 2.200GHz, Cray Gemini interconnect, NVIDIA K20x CRAY XC30, XEON E C 2.600GHZ, ARIES INTERCONNECT, NVIDIA K20X
41 GPU Cluster MPI zur Kommunikation der Knoten untereinande Sehr gute Auslastung und Effizienz/Strom Verhältnis Schwierig: Umsetzung und Optimierung
42 FORTRAN und CUDA FORTRAN noch weit verbreitet (z.b. Klimaforschung) CUBLAS, CUFFT (NVIDIA) CUDA implementation of BLAS routines with Fortran API F2C-ACC (NOAA Earth System Research Laboratory) Generates C or CUDA output from Fortran95 input HMPP Workbench (CAPS Enterprise) Directive-based source-to-source compiler PGI Compiler Suite Directive-based Compiler
43 Fortran CUDA Beispiel PGI Accelerator Compiler OpenMP-like implicit programming model for X64+GPU-systems!$acc region do k = 1,n1 do i = 1,n3 c(i,k) = 0.0 do j = 1,n2 c(i,k) = c(i,k) + a(i,j) * b(j,k) enddo enddo enddo!$acc end region Example
44 Fortran CUDA Beispiel PGI CUDA Fortran Compiler! Kernel definition attributes(global) subroutine ksaxpy( n, a, x, y ) real, dimension(*) :: x,y real, value :: a integer, value :: n, i i = (blockidx%x-1) * blockdim%x + threadidx%x if( i <= n ) y(i) = a * x(i) + y(i) end subroutine! Host subroutine subroutine solve( n, a, x, y ) real, device, dimension(*) :: x, y real :: a integer :: n! call the kernel call ksaxpy<<<n/64, 64>>>( n, a, x, y ) end subroutine
45 GPU-Computing am RRZ/SVPP Arbeitsgruppe: Scientific Visualization and Parallel Processing der Informatik GPU-Cluster: 96 CPU-Cores und 24 Nvidia Tesla M2070Q verteilt auf 8 Knoten DDN Storage mit 60 TB RAW Kapazität ausschließlich zur Entwicklung und Erprobung, kein produktiver Betrieb Forschung: Entwicklung von Verfahren zur Visualisierung wissenschaftlicher Daten
46 Zusammenfassung Stetig steigende Entwicklung seit 2000 Beschleunigt seit Einführung von CUDA (2007) IEEE Unterstützung / ECC Speicher Für FORTRAN Source2Source Compiler Optimierung ist enorm wichtig Alternativen zu CUDA: OpenCL Intel s Knights Family OpenACC C++ AMP
47 Referenzen [1] [2] [3] [4] Programming Massively Parallel Processors: A Hands-On Approach, Kirk & Hwu [5] Cuda by Example: An Introduction to General-Purpose GPU Programming, Sanders & Kandrot [6] GPU Computing Gems, Hwu
GPU-Computing im Rahmen der Vorlesung Hochleistungsrechnen
GPU-Computing im Rahmen der Vorlesung Hochleistungsrechnen Universität Hamburg Scientific Visualization and Parallel Processing Übersicht Hintergrund und Entwicklung von GPGPU Programmierumgebungen & Werkzeuge
Hochleistungsrechnen Grafikkartenprogrammierung. Prof. Dr. Thomas Ludwig Universität Hamburg Informatik Wissenschaftliches Rechnen
Hochleistungsrechnen Grafikkartenprogrammierung Prof. Dr. Thomas Ludwig Universität Hamburg Informatik Wissenschaftliches Rechnen Übersicht Hintergrund und Entwicklung von GPGPU Programmierumgebungen &
CUDA. Moritz Wild, Jan-Hugo Lupp. Seminar Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg
CUDA Seminar Multi-Core Architectures and Programming 1 Übersicht Einleitung Architektur Programmierung 2 Einleitung Computations on GPU 2003 Probleme Hohe Kenntnisse der Grafikprogrammierung nötig Unterschiedliche
Compute Unified Device Architecture CUDA
Compute Unified Device Architecture 06. Februar 2012 1 / 13 Gliederung 2 / 13 : Compute Unified Device Architecture entwickelt von Nvidia Corporation spezifiziert Software- und Hardwareeigenschaften Ziel:
GPGPU mit NVIDIA CUDA
01.07.12 GPGPU mit NVIDIA CUDA General-Purpose on Formatvorlagecomputing des Graphics Processing durch Units Untertitelmasters mit KlickenCompute bearbeiten NVIDIA Unified Device Architecture Gliederung
General Purpose Computation on GPUs
General Purpose Computation on GPUs Matthias Schneider, Robert Grimm Universität Erlangen-Nürnberg {matthias.schneider, robert.grimm}@informatik.stud.uni-erlangen.de M. Schneider, R. Grimm 1 Übersicht
Masterpraktikum Scientific Computing
Masterpraktikum Scientific Computing High-Performance Computing Thomas Auckenthaler Wolfgang Eckhardt Prof. Dr. Michael Bader Technische Universität München, Germany Outline Organisatorisches Entwicklung
Seminar GPU-Programmierung/Parallelverarbeitung
Seite iv Literaturverzeichnis 1) Bengel, G.; et al.: Masterkurs Parallele und Verteilte Systeme. Vieweg + Teubner, Wiesbaden, 2008. 2) Breshears, C.: The Art of Concurrency - A Thread Monkey's Guide to
Grafikkarten-Architektur
> Grafikkarten-Architektur Parallele Strukturen in der GPU Name: Sebastian Albers E-Mail: [email protected] 2 > Inhalt > CPU und GPU im Vergleich > Rendering-Pipeline > Shader > GPGPU > Nvidia Tesla-Architektur
GPGPU-Programmierung
12 GPGPU-Programmierung 2013/04/25 Diese Folien enthalten Graphiken mit Nutzungseinschränkungen. Das Kopieren der Graphiken ist im Allgemeinen nicht erlaubt. Motivation (1) General Purpose Computing on
GPU-Programmierung: OpenCL
Seminar: Multicore Programmierung Sommerstemester 2009 04.06.2009 Inhaltsverzeichnis 1 GPU-Programmierung von Grafikkarten von GPU-Computing 2 Architektur Spracheigenschaften Vergleich mit CUDA Beispiel
Programmierbeispiele und Implementierung. Name: Michel Steuwer E-Mail: [email protected]
> Programmierbeispiele und Implementierung Name: Michel Steuwer E-Mail: [email protected] 2 > Übersicht > Matrix Vektor Multiplikation > Mandelbrotmenge / Apfelmännchen berechnen > Kantendetektion
Stream Processing und High- Level GPGPU Sprachen
Stream Processing und High- Level GPGPU Sprachen Seminar Programmierung von Grafikkarten Jens Breitbart Problem 5000% 4000% 3000% 2000% Rechenleistung: +71% pro Jahr Bandbreite: +25% pro Jahr Zugriffszeit:
OpenCL. OpenCL. Boris Totev, Cornelius Knap
OpenCL OpenCL 1 OpenCL Gliederung Entstehungsgeschichte von OpenCL Was, warum und überhaupt wieso OpenCL CUDA, OpenGL und OpenCL GPUs OpenCL Objekte Work-Units OpenCL Adressbereiche OpenCL API Codebeispiel
GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm. Einführung CUDA. Ralf Seidler. Friedrich-Alexander-Universität Erlangen-Nürnberg
Einführung CUDA Friedrich-Alexander-Universität Erlangen-Nürnberg PrakParRA, 18.11.2010 Outline 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell
Eine kurze Geschichte der Grafikkarten
3.1 Einführung Eine kurze Geschichte der Grafikkarten ursprünglich: Graphics Card steuert Monitor an Mitte 80er: Grafikkarten mit 2D-Beschleunigung angelehnt an Arcade- und Home-Computer frühe 90er: erste
GPGPU-Programmierung
12 GPGPU-Programmierung 2014/04/29 Diese Folien enthalten Graphiken mit Nutzungseinschränkungen. Das Kopieren der Graphiken ist im Allgemeinen nicht erlaubt. Motivation (1) General Purpose Computing on
Praxiseinheit: Realisierung einer hardwarebeschleunigten Disparitätenberechnung zur automatischen Auswertung von Stereobildern
Praxiseinheit: Realisierung einer hardwarebeschleunigten Disparitätenberechnung zur automatischen Auswertung von Stereobildern Institut für Betriebssysteme und Rechnerverbund TU Braunschweig 25.10., 26.10.
RST-Labor WS06/07 GPGPU. General Purpose Computation On Graphics Processing Units. (Grafikkarten-Programmierung) Von: Marc Blunck
RST-Labor WS06/07 GPGPU General Purpose Computation On Graphics Processing Units (Grafikkarten-Programmierung) Von: Marc Blunck Ablauf Einführung GPGPU Die GPU GPU Architektur Die Programmierung Programme
Parallele Programmierung mit GPUs
Parallele Programmierung mit GPUs Jutta Fitzek Vortrag im Rahmen des Moduls Parallele Programmierung, WS12/13, h_da Agenda GPUs: Historie GPU Programmierung Konzepte Codebeispiel Generelle Tipps & Tricks
Einführung. GPU-Versuch. Andreas Schäfer Friedrich-Alexander-Universität Erlangen-Nürnberg
GPU-Versuch [email protected] Friedrich-Alexander-Universität Erlangen-Nürnberg Praktikum Parallele Rechnerarchitekturen SS2014 Outline 1 Einführung 2 Outlook 1 Einführung 2 Eine kurze Geschichte
Computer Graphics Shader
Computer Graphics Shader Sven Janusch Inhalt Fixed Function Pipeline Programmable Pipeline Implementierung Applikation Beispiel Sven Janusch 2 Fixed Function Pipeline T&L Pipeline (Transformation and Lighting)
GPGPUs am Jülich Supercomputing Centre
GPGPUs am Jülich Supercomputing Centre 20. April 2012 Jochen Kreutz Jülich Supercomputing Centre (JSC) Teil des Forschungszentrums Jülich und des Institute for Advanced Simulation (IAS) betreibt Supercomputer
GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm Organiosatorisches. Tutorial CUDA. Ralf Seidler
Friedrich-Alexander-Universität Erlangen-Nürnberg 05.10.2010 Outline 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm 4 Organiosatorisches Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell
Multicore-Architekturen
Universität Erlangen- Nürnberg Technische Universität München Universität Stuttgart Multicore-Architekturen Vortrag im Rahmen der Ferienakademie 2009 Kurs 1: Programmierkonzepte für Multi-Core Rechner
GPGPU-Programming. Constantin Timm Informatik 12 TU Dortmund 2012/04/09. technische universität dortmund. fakultät für informatik informatik 12
12 GPGPU-Programming Constantin Timm Informatik 12 TU Dortmund 2012/04/09 Diese Folien enthalten Graphiken mit Nutzungseinschränkungen. Das Kopieren der Graphiken ist im Allgemeinen nicht erlaubt. Motivation
Rheinisch-Westfälische Technische Hochschule Aachen. Seminararbeit
Rheinisch-Westfälische Technische Hochschule Aachen Seminararbeit Analyse von General Purpose Computation on Graphics Processing Units Bibliotheken in Bezug auf GPU-Hersteller. Gregori Kerber Matrikelnummer
Thema: Hardware-Shader
Seminar Grafikprogrammierung Thema: Hardware-Shader Christian Bauer 03.07.08 Überblick Entwicklung Die Shader im Detail Programmierung GPGPU Zusammenfassung & Ausblick 1/19 Entwicklung (1) Früher: Berechnung
Seminar Game Development Game Computer Graphics. Einleitung
Einleitung Gliederung OpenGL Realismus Material Beleuchtung Schatten Echtzeit Daten verringern Grafik Hardware Beispiel CryEngine 2 Kristian Keßler OpenGL Was ist OpenGL? Grafik API plattform- und programmiersprachenunabhängig
Grundlagen von CUDA, Sprachtypische Elemente
Grundlagen von CUDA, Sprachtypische Elemente Stefan Maskanitz 03.07.2009 CUDA Grundlagen 1 Übersicht 1. Einleitung 2. Spracheigenschaften a. s, Blocks und Grids b. Speicherorganistion c. Fehlerbehandlung
Physikalische Berechnungen mit General Purpose Graphics Processing Units (GPGPUs)
Fakultätsname XYZ Fachrichtung XYZ Institutsname XYZ, Professur XYZ Physikalische Berechnungen mit General Purpose Graphics Processing Units (GPGPUs) im Rahmen des Proseminars Technische Informatik Juni
Ein kleiner Einblick in die Welt der Supercomputer. Christian Krohn 07.12.2010 1
Ein kleiner Einblick in die Welt der Supercomputer Christian Krohn 07.12.2010 1 Vorschub: FLOPS Entwicklung der Supercomputer Funktionsweisen von Supercomputern Zukunftsvisionen 2 Ein Top10 Supercomputer
Grafiktreiber im Linuxkernel - die Außenseiter -
Grafiktreiber im Linuxkernel - die Außenseiter - Creative Commons by-nc-nd Grundlagen Was ist eine Grafikkarte? Grundlagen Was ist eine Grafikkarte? Ausgabelogik Grundlagen Was ist eine Grafikkarte? Ausgabelogik
Ansätze 4. GPU. Echtzeit- Raytracing. Polygon- Rendering. Computerspiele Sommer (c) 2013, Peter Sturm, Universität Trier 1
4. GPU Ansätze Echtzeit- Raytracing Modell und Materialeigenschaften auf Raytracer Kontinuierliche Darstellung Polygon- Rendering CPU wählt darzustellende Polygone aus Render Pipeline (c) 2013, Peter Sturm,
Tag der Umweltmeteorologie 12.05.2015. Michael Kunz
Tag der Umweltmeteorologie 12.05.2015 Michael Kunz Beschleunigung von Ausbreitungsmodellen durch Portierung auf Grafikkarten Einleitung Das GRAL/GRAMM-System Cuda-GRAL Ergebnisse Vergleich der Modellergebnisse
Yilmaz, Tolga MatNr: Mesaud, Elias MatNr:
Yilmaz, Tolga MatNr: 157317 Mesaud, Elias MatNr: 151386 1. Aufbau und Funktionsweise einer Grafikkarte 2. CPU vs. GPU 3. Software 4. Beispielprogramme Kompilierung und Vorführung 5. Wo wird Cuda heutzutage
GPU Programmierung. Thorsten Grosch
Thorsten Grosch Willkommen zur ersten Vorlesung! g Heute Organisatorisches Vorstellung von Team und Vorlesung Historischer Rückblick zu GPUs 2 Das Team Vorlesung Jun.-Prof. Thorsten Grosch AG Computervisualistik
SS08, LS12, Friedrich-Alexander-Universität Erlangen Florian Hänel, Frederic Pollmann HS Multicore Architectures and Programming GPU EVOLUTION
SS08, LS12, Friedrich-Alexander-Universität Erlangen Florian Hänel, Frederic Pollmann HS Multicore Architectures and Programming GPU EVOLUTION (until Geforce 7 Series) 1 ÜBERSICHT Grafikpipeline Verlagerung
Gliederung. Was ist CUDA? CPU GPU/GPGPU CUDA Anwendungsbereiche Wirtschaftlichkeit Beispielvideo
Gliederung Was ist CUDA? CPU GPU/GPGPU CUDA Anwendungsbereiche Wirtschaftlichkeit Beispielvideo Was ist CUDA? Nvidia CUDA ist eine von NvidiaGPGPU-Technologie, die es Programmierern erlaubt, Programmteile
Raytracing in GA mittels OpenACC. Michael Burger, M.Sc. FG Scientific Computing TU Darmstadt
Raytracing in GA mittels OpenACC Michael Burger, M.Sc. FG Scientific Computing TU Darmstadt [email protected] 05.11.12 FB Computer Science Scientific Computing Michael Burger 1 / 33 Agenda
Staff. Tim Conrad. Zeitplan. Blockseminar: Verteiltes Rechnen und Parallelprogrammierung. Sommer Semester 2013. Tim Conrad
Blockseminar: Verteiltes Rechnen und Parallelprogrammierung Sommer Semester 2013 Tim Conrad Staff Tim Conrad AG Computational Proteomics email: [email protected] Telefon: 838-51445 Büro: Raum 138,
Multicore Herausforderungen an das Software-Engineering. Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück 15.09.2010
Multicore Herausforderungen an das Software-Engineering Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück 15.09.2010 Inhalt _ Motivation _ Herausforderung 1: Hardware _ Herausforderung 2: Software-Partitionierung
Parallele Algorithmen mit OpenCL. Universität Osnabrück, Henning Wenke, 2013-05-08
Parallele Algorithmen mit OpenCL Universität Osnabrück, Henning Wenke, 2013-05-08 Aufräumen Ressourcen in umgekehrter Abhängigkeitsreihenfolge freigeben Objekte haben Reference-Count (RC), initial 1 clrelease
MULTICORE- UND GPGPU- ARCHITEKTUREN
MULTICORE- UND GPGPU- ARCHITEKTUREN Korbinian Pauli - 17. November 2011 Seminar Multicore Programmierung, WS11, Universität Passau 2 Einleitung Klassisches Problem der Informatik: riesige Datenmenge! Volkszählung
Cell and Larrabee Microarchitecture
Cell and Larrabee Microarchitecture Benjamin Grund Dominik Wolfert Universität Erlangen-Nürnberg 1 Übersicht Einleitung Herkömmliche Prozessorarchitekturen Motivation für Entwicklung neuer Architekturen
OpenCL. Programmiersprachen im Multicore-Zeitalter. Tim Wiersdörfer
OpenCL Programmiersprachen im Multicore-Zeitalter Tim Wiersdörfer Inhaltsverzeichnis 1. Was ist OpenCL 2. Entwicklung von OpenCL 3. OpenCL Modelle 1. Plattform-Modell 2. Ausführungs-Modell 3. Speicher-Modell
Rapide An Event-Based Architecture Definition Language
Rapide An Event-Based Architecture Definition Language Ralf Bettentrup Seminar: Architekturbeschreibungssprachen Wozu Rapide? Computer mit Modem Provider Broker Client Broker PC Prov 1 Client 1 RS-232
Orientierungsveranstaltungen 2009 Informatikstudien der Universität Wien
Orientierungsveranstaltungen 2009 Informatikstudien der Universität Wien Scientific Computing 07. Oktober 2009 Siegfried Benkner Wilfried Gansterer Fakultät für Informatik Universität Wien www.cs.univie.ac.at
Motivation (GP)GPU CUDA Zusammenfassung. CUDA und Python. Christian Wilms. Integriertes Seminar Projekt Bildverarbeitung
CUDA und Python Christian Wilms Integriertes Seminar Projekt Bildverarbeitung Universität Hamburg WiSe 2013/14 12. Dezember 2013 Christian CUDA und Python 1 Gliederung 1 Motivation 2 (GP)GPU 3 CUDA 4 Zusammenfassung
Introduction Workshop 11th 12th November 2013
Introduction Workshop 11th 12th November 2013 Lecture I: Hardware and Applications Dr. Andreas Wolf Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum Overview Current and next System Hardware Sections
OpenCL Implementierung von OpenCV Funktionen
Multi-Core Architectures and Programming OpenCL Implementierung von OpenCV Funktionen [email protected] Hardware/Software Co-Design August 18, 2011 1 Table of content 1 OpenCL
The Modular Structure of Complex Systems. 30.06.2004 Seminar SoftwareArchitektur Fabian Schultz
The Modular Structure of Complex Systems 1 Modularisierung Vorteile Organisation Mehrere unabhängig Teams können gleichzeitig arbeiten Flexibilität Änderung einzelner Module Verständlichkeit Nachteile
SimpliVity. Hyper Converged Infrastruktur. we do IT better
SimpliVity Hyper Converged Infrastruktur we do IT better Agenda Wer ist SimpliVity Was ist SimpliVity Wie funktioniert SimpliVity Live-Demo Wer ist Simplivity Gegründet: 2009 Mission: Simplify IT Infrastructure
Aktuelle Trends und Herausforderungen in der Finite-Elemente-Simulation
Aktuelle Trends und Herausforderungen in der Finite-Elemente-Simulation Kai Diethelm GNS Gesellschaft für numerische Simulation mbh Braunschweig engineering software development Folie 1 Überblick Vorstellung
Vorstellung SimpliVity. Tristan P. Andres Senior IT Consultant
Vorstellung SimpliVity Tristan P. Andres Senior IT Consultant Agenda Wer ist SimpliVity Was ist SimpliVity Wie funktioniert SimpliVity Vergleiche vsan, vflash Read Cache und SimpliVity Gegründet im Jahr
arlanis Software AG SOA Architektonische und technische Grundlagen Andreas Holubek
arlanis Software AG SOA Architektonische und technische Grundlagen Andreas Holubek Speaker Andreas Holubek VP Engineering [email protected] arlanis Software AG, D-14467 Potsdam 2009, arlanis
Softwareprojekt Spieleentwicklung
Softwareprojekt Spieleentwicklung Prototyp I (2D) Prototyp II (3D) Softwareprojekt 12.04. 19.04. 26.04. 03.05. 31.05. Meilenstein I 28.06. Meilenstein II Prof. Holger Theisel, Tobias Günther, OvGU Magdeburg
OpenGL. (Open Graphic Library)
OpenGL (Open Graphic Library) Agenda Was ist OpenGL eigentlich? Geschichte Vor- und Nachteile Arbeitsweise glscene OpenGL per Hand Debugging Trend Was ist OpenGL eigentlich? OpenGL ist eine Spezifikation
Video Line Array Highest Resolution CCTV
Schille Informationssysteme GmbH Video Line Array Highest Resolution CCTV SiDOC20120817-001 Disadvantages of high resolution cameras High costs Low frame rates Failure results in large surveillance gaps
Blockseminar: Verteiltes Rechnen und Parallelprogrammierung. Sommer Semester 2015. Tim Conrad
Blockseminar: Verteiltes Rechnen und Parallelprogrammierung Sommer Semester 2015 Tim Conrad Staff Tim Conrad AG Medical Bioinformatics email: [email protected] Telefon: 838-51445 Büro: Raum 138,
Übersicht 1. Anzeigegeräte 2. Framebuffer 3. Grundlagen 3D Computergrafik 4. Polygongrafik, Z-Buffer 5. Texture-Mapping/Shading 6. GPU 7. Programmierbare Shader 1 LCD/TFT Technik Rotation der Licht-Polarisationsebene
Exascale Computing. = Exascale braucht Manycore-Hardware...und was für Software??? 46/58
Exascale Computing Die FLOP/s-Tabelle: Name Faktor erreicht heute Giga 10 9 1976 CPU-Kern Tera 10 12 1997 Graphikkarte (GPU) Peta 10 15 2009 Supercomputer Exa 10 18 2020(?) Der gegenwärtig schnellste Rechner
HLRN III - HPC Ressource für Norddeutschland
HLRN III - HPC Ressource für Norddeutschland Holger Naundorf RRZN Leibniz Universität IT Services Schloßwender Straße 5 30159 Hannover [email protected] 23. September 2014 Inhalt Der HLRN Verbund
Aktuelle Grafikleistungen
Aktuelle Grafikleistungen Alexander Hötzendorfer Universität Ulm 03. Juli 2007 Inhalt Übersicht Aktuelle Techniken HDR-Lighting Tessellation Aufbau der Rendering-Pipeline Shader Vertex-Shader Geometry-Shader
2 Rechnerarchitekturen
2 Rechnerarchitekturen Rechnerarchitekturen Flynns Klassifikation Flynnsche Klassifikation (Flynn sche Taxonomie) 1966 entwickelt, einfaches Modell, bis heute genutzt Beschränkung der Beschreibung auf
Seminarvortrag: Direktivenbasierte Programmierung von Beschleunigern mit OpenMP 4.5 und OpenACC 2.5 im Vergleich
Seminarvortrag: Direktivenbasierte Programmierung von Beschleunigern mit Direktivenbasierte Programmierung von Beschleunigern mit Agenda Einführung / Motivation Überblick zu OpenMP und OpenACC Asynchronität
C C. Hochleistungsrechnen (HPC) auf dem Windows Compute Cluster des RZ der RWTH Aachen. 1 WinHPC 2006 - Einführung Center. 31.
Hochleistungsrechnen (HP) auf dem Windows ompute luster des RZ der RWTH Aachen 31. Mai 2006 hristian Terboven Dieter an Mey {terboven anmey}@rz.rwth-aachen.de 1 WinHP 2006 - Einführung enter SunFire V40z
Moderne parallele Rechnerarchitekturen
Seminar im WS0708 Moderne parallele Rechnerarchitekturen Prof. Sergei Gorlatch Dipl.-Inf. Maraike Schellmann [email protected] Einsteinstr. 62, Raum 710, Tel. 83-32744 Dipl.-Inf. Philipp Kegel
Paralleler Cuckoo-Filter. Seminar: Implementierungstechniken für Hauptspeicherdatenbanksysteme Jeremias Neth München, 21.
Paralleler Cuckoo-Filter Seminar: Implementierungstechniken für Hauptspeicherdatenbanksysteme Jeremias Neth München, 21. November 2017 1 Paralleler Cuckoo-Filter Cuckoo-Hashtabelle Serieller Cuckoo-Filter
GPUs. Arbeitsbereich Wissenschaftliches Rechnen Fachbereich Informatik Fakultät für Mathematik, Informatik und Naturwissenschaften Universität Hamburg
GPUs Arbeitsbereich Wissenschaftliches Rechnen Fachbereich Informatik Fakultät für Mathematik, Informatik und Naturwissenschaften Universität Hamburg Vorgelegt von: Johannes Coym E-Mail-Adresse: [email protected]
Intel Cluster Studio. Michael Burger FG Scientific Computing TU Darmstadt [email protected]
Intel Cluster Studio Michael Burger FG Scientific Computing TU Darmstadt [email protected] 19.03.13 FB Computer Science Scientific Computing Michael Burger 1 / 30 Agenda Was ist das Intel
GridMate The Grid Matlab Extension
GridMate The Grid Matlab Extension Forschungszentrum Karlsruhe, Institute for Data Processing and Electronics T. Jejkal, R. Stotzka, M. Sutter, H. Gemmeke 1 What is the Motivation? Graphical development
OpenCL. Seminar Programmiersprachen im Multicore-Zeitalter Universität Siegen Tim Wiersdörfer [email protected].
OpenCL Seminar Programmiersprachen im Multicore-Zeitalter Universität Siegen Tim Wiersdörfer [email protected] Abstract: In diesem Dokument wird ein grundlegender Einblick in das relativ
Jörn Loviscach Hochschule Bremen
Programmierbare Hardware-Shader Jörn Loviscach Hochschule Bremen Überblick Vertex- und Pixel-Shader Anwendungsbeispiele fx-dateien Anwendungsbeispiele Zusammenfassung Puffer Vertex- und Pixel-Shader Hardware-Renderpipeline
Visualisierung paralleler bzw. verteilter Programme
Seminar Visualisierung in Informatik und Naturwissenschaften im SS 1999 Visualisierung paralleler bzw. verteilter Programme Holger Dewes Gliederung Zum Begriff Motivation PARADE Beispiel 1: Thread basierte
Tuning des Weblogic /Oracle Fusion Middleware 11g. Jan-Peter Timmermann Principal Consultant PITSS
Tuning des Weblogic /Oracle Fusion Middleware 11g Jan-Peter Timmermann Principal Consultant PITSS 1 Agenda Bei jeder Installation wiederkehrende Fragen WievielForms Server braucheich Agenda WievielRAM
Seminar Parallele Rechnerarchitekturen SS04 \ SIMD Implementierung aktueller Prozessoren 2 (Dominik Tamm) \ Inhalt. Seite 1
\ Inhalt Seite 1 \ Inhalt SIMD Kurze Rekapitulation 3Dnow! (AMD) AltiVec (PowerPC) Quellen Seite 2 \ Wir erinnern uns: Nach Flynn s Taxonomie kann man jeden Computer In eine von vier Kategorien einteilen:
Untersuchung und Vorstellung moderner Grafikchiparchitekturen
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Untersuchung und Vorstellung moderner Grafikchiparchitekturen Hauptseminar Technische
Seminar Multicore-Programmierung
Multicore- und GPGPU-Architekturen Fakultät für Informatik und Mathematik Universität Passau 04. November 2010 APUs / 1 / 39 Inhaltsverzeichnis I APUs / APUs / 2 / 39 Inhaltsverzeichnis II APUs / 3 / 39
Fluid-Particle Multiphase Flow Simulations for the Study of Sand Infiltration into Immobile Gravel-Beds
3rd JUQUEEN Porting and Tuning Workshop Jülich, 2-4 February 2015 Fluid-Particle Multiphase Flow Simulations for the Study of Sand Infiltration into Immobile Gravel-Beds Tobias Schruff, Roy M. Frings,
miditech 4merge 4-fach MIDI Merger mit :
miditech 4merge 4-fach MIDI Merger mit : 4 x MIDI Input Port, 4 LEDs für MIDI In Signale 1 x MIDI Output Port MIDI USB Port, auch für USB Power Adapter Power LED und LOGO LEDs Hochwertiges Aluminium Gehäuse
Software Engineering für moderne parallele Plattformen 9. GPGPUs: Grafikkarten als Parallelrechner
Software Engineering für moderne parallele Plattformen 9. GPGPUs: Grafikkarten als Parallelrechner Dipl.-Inform. Korbinian Molitorisz M. Sc. Luis Manuel Carril Rodriguez KIT Universität des Landes Baden-Württemberg
