Untersuchungen zur Implementierung von Genom-Alignmentalgorithmen auf modernen parallelen Plattformen
|
|
- Monica Kraus
- vor 7 Jahren
- Abrufe
Transkript
1 Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Untersuchungen zur Implementierung von Genom-Alignmentalgorithmen auf modernen parallelen Plattformen Belegverteidigung Oliver Knodel - Oliver.Knodel@mailbox.tu-dresden.de Dresden,
2 01 Einleitung Problemstellung 1. Neu gewonnene DNA-Sequenzen werden als erstes mit den bekannten Datenbanken abgeglichen, um Eigenschaften zu ermitteln Inexakte Suche Ergebnis ist die Position in der Datenbank 2. Exponentielles Wachstum der Datenbanken (mehrere Milliarden Basenpaare) 3. Neue kostengünstige und automatisierte Sequenzierungsverfahren haben in den letzten Jahren zum Short Read Mapping Problem [TS09] geführt Kurze Sequenzen (Reads) von Basenpaaren Ein Durchlauf von 2-3 Tagen erzeugt mehrere Millionen Reads Suche mit großen Computer-Clustern dauert mehrere Tage und solche Systeme sind nicht für jeden verfügbar Schnelle kostengünstige Lösungen erforderlich TU Dresden, Genom-Alignmentalgorithmen Folie 2 von 25
3 01 Einleitung 02 Algorithmen 03 Plattformen 04 Umsetzung 05 Ergebnisse 06 Zusammenfassung & Ausblick TU Dresden, Genom-Alignmentalgorithmen Folie 3 von 25
4 02 Alignment-Algorithmen Alignment-Algorithmen passen zwei Sequenzen aneinander an und liefern einen Wert (Score), der etwas über ihre Ähnlichkeit aussagt Um einen hohen Score zu erreichen, werden Mismatches und Gaps eingefügt Die Algorithmen können für die inexakte Suche in Datenbanken eingesetzt werden Ergebnis einer Datenbanksuche ist die Position, an der ein bestimmter Schwellwert für den Score überschritten wird Schwellwert muss vor der Suche festgelegt werden Match Insertion T C G T T G C G A A T C T C - T T G C G C A T C Deletion Mismatch TU Dresden, Genom-Alignmentalgorithmen Folie 4 von 25
5 02 Alignment-Algorithmen Smith & Waterman [Han06] Algorithmus zum lokalen Alignment Exaktes Verfahren (liefert immer optimales Alignment) Matrixfelder werden in Abhängigkeit voneinander berechnet Zeit- und Speicherkomplexität von O(m n) M(i 1, j) + g, j }{{} t T C G T T G T C T A Insertion i s M(i, j 1) + g, }{{} T M(i, j) = max Deletion G M(i 1, j 1) + p(s i, t j ), T }{{} A Match / Mismatch T A T C G T T G T C T A T G T A T A TU Dresden, Genom-Alignmentalgorithmen Folie 5 von 25
6 02 Alignment-Algorithmen Basic Local Alignment Search Tool [Han06] Heuristisches Verfahren zur Datenbanksuche für lange Sequenzen (bis zu Basenpaare) bestehend aus drei Teilschritten: 1. Exakter Treffer der Länge w wird gesucht Datenbanksequenz 2. Suche eines zweiten Hits mit maximalem Abstandes A w A 3. Hits werden mit Matches, Mismatches und Gaps ausgedehnt TU Dresden, Genom-Alignmentalgorithmen Folie 6 von 25
7 02 Alignment-Algorithmen Short Read Mapper - Bowtie [TS09] Gezielte Suche in Datenbanken mit Hilfe der Burrows-Wheeler-Transformation Hohe Geschwindigkeit, da nie die komplette Datenbank durchsucht wird Ausgelegt für Reads von bp Einfügen von maximal 2 Mismatches über Backtracking (keine Gaps) T = ATTGCGGTA$ $ATTGCGGTA A$ATTGCCGT ATTGCGGTA$ CGGTA$ATTG GCGGTA$ATT GGTA$ATTGC GTA$ATTGCG TA$ATTGCGG TGCGGTA$AT TTGCGGTA$A BWT(T) = AT$GTCGGTA Index = 3 LF(top, G) LF(bot, G) Suche: TCG $ A A T A $ C G G T G C G G T G T T T A TU Dresden, Genom-Alignmentalgorithmen Folie 7 von 25
8 03 Plattformen GPU - Graphics Processing Unit Single Instruction Multiple Thread (bzw MD) Hohe Speicherbandbreite (144 GByte/s) Floating-Point Leistung doppelter Genauigkeit von bis zu 515 GigaFLOPs Energieverbrauch von Watt [Niv10] Programierung mit CUDA (Compute Unified Device Architecture) C/C++ Code mit CUDA Erweiterungen Trennung von Programmierung und Grafikhardware TU Dresden, Genom-Alignmentalgorithmen Folie 8 von 25
9 03 Plattformen FPGA - Field Programmable Gate Array Konfigurierbare Hardware Programmierung mit Hardwarebeschreibungssprachen wie VHDL (Very High Speed Integrated Circuit Hardware Description Language) Taktrate von MHz Energieverbrauch von 1-5 Watt [Xil09] TU Dresden, Genom-Alignmentalgorithmen Folie 9 von 25
10 03 Plattformen Zusammenfassung 1. GPU Vorteile Viele Streaming Prozessoren mit hoher Taktrate Hohe Speicherbandbreite Einfache Erweiterung eines C-Programmes mit CUDA möglich Nachteil Hoher Energieverbrauch 2. FPGA Vorteile Direkte Umsetzung eines Algorithmus in Hardware Geringe Taktrate, aber schnelle interne Logik und Verbindungsleitungen Sehr geringer Energieverbrauch Viele Kommunikationsschnittstellen (PCIe-x1, Gigabit-Ethernet) Nachteil Aufwändige Beschreibung der Hardware mit VHDL TU Dresden, Genom-Alignmentalgorithmen Folie 10 von 25
11 04 Implementierung Auswahl des Algorithmus 1. Smith & Waterman Kann durch seine einfache Struktur einfach auf SIMD-Plattformen umgesetzt werden Hoher Aufwand, wenn die gesamte Matrix berechnet wird 2. BLAST Nicht effizient auf Short Read Mapping Problem erweiterbar Unterschiedliche Phasen erschweren Umsetzung auf einer SIMD-Plattform 3. Bowtie Hohe Geschwindigkeit Eigentlicher Suchalgorithmus sehr schlecht parallelisierbar Schlechtes Verhalten in Bezug auf Mismatches Smith & Waterman-Algorithmus TU Dresden, Genom-Alignmentalgorithmen Folie 11 von 25
12 04 Umsetzung Anpassung des Algorithmus an kurze Reads I Datenbanksequenz Pos max Datenbank Sequenz max max max Score Read max Score [LST07] Verkleinerung der Matrix auf direkte Umgebung der Diagonalen Aufwand auf 4,94 % der kompletten Matrix mit Feldern reduziert Needleman-Wunsch-Algorithmus für globales Alignment zur Berechnung Datenbank schrittweise um eine Position weiter schieben TU Dresden, Genom-Alignmentalgorithmen Folie 12 von 25
13 04 Umsetzung Anpassung des Algorithmus an kurze Reads II Das Short Read Mapping Problem sieht keine Gaps vor Lediglich Mismatches werden akzeptiert Weitere Verkleinerung der Matrix auf die Diagonale Pos Datenbank XOR + XOR + XOR + XOR Score Read TU Dresden, Genom-Alignmentalgorithmen Folie 13 von 25
14 04 Umsetzung Auswahl der Plattform I 1. GPU Für eine Umsetzung auf einer GPU verspricht der vorgestellte reduzierte Smith & Waterman-Algorithmus eine geringe Laufzeit und eine hohe Parallelität 2. FPGA Die Mismatches können über die komplette Länge des Reads mit einfacher Kombinatorik ermittelt und gezählt werden Die Datenbank kann über Gigabit-Ethernet gestreamt werden und der Engpass Speicher wird umgangen TU Dresden, Genom-Alignmentalgorithmen Folie 14 von 25
15 04 Umsetzung Auswahl der Plattform II FPGA-Ansatz mit erweitertem Intuitiven Suchalgorithmus verspricht hohe Geschwindigkeit bei hoher Parallelität durch geringen Hardwareaufwand Pos Datenbank XOR + XOR + XOR + XOR Score Read TU Dresden, Genom-Alignmentalgorithmen Folie 15 von 25
16 04 Umsetzung Implementierung - Vergleicher Vergleichs-Einheit Pos Text T(N,0) T(N,1) Read Bit 32 Bit Register Register R(N,0) R(N,1) XOR XOR 1 & Bit Mismatch Zähler 32 ValidN 7 Register enable 9 found 7 32 dat Zähler inc 4 Control MUX adr 10 Block RAM enable 32 Vergleich N = ((R (N,0) T (N,0) ) (R (N,1) T (N,1) )) Valid N TU Dresden, Genom-Alignmentalgorithmen Folie 16 von 25
17 04 Umsetzung Implementierung - Zähler 7 Bit Register 7 < = found 7 + mis_count 5,57 ns Bit Register + < = found_left mis_count_left 6 Bit Register + < = found_right mis_count_right Pipelinestufe - 20 Bit Register ,98 ns Bit des kombinatorischen Vergleiches TU Dresden, Genom-Alignmentalgorithmen Folie 17 von 25
18 04 Umsetzung Implementierung - Gesamtüberblick Steuerinformationen 8 Text Bit Schieberegister inc 192 inc 192 Modul 1 Pos Modul 60 4 Control Ethernet- Controller 32 dat 10 adr 32 dat kbit Block Ram kbit Block Ram dat 10 adr 32 dat 10 adr adr 60 enable MUX 6 Positionen 32 Reads TU Dresden, Genom-Alignmentalgorithmen Folie 18 von 25
19 05 Ergebnisse Implementierung - Erreichte Parallelität FPGA Virtex-5 LX50T Virtex-6 LX240T Parallele Einheiten Register (94 %) (47 %) s (80 %) (80 %) Block-RAM 60 (100 %) 400 (96 %) Maximale Taktrate 100 MHz 200 MHz Verlustleistung 1 1,314 W 1,243 W Vergleiche/s 96 bp Vergleiche/s 48 bp Erforderliche Datenrate 200 MBit/s 400 MBit/s 1 Summe aus statischer und dynamischer Verlustleistung, ermittelt mit Xilinx ISE 12 XPower Analyzer TU Dresden, Genom-Alignmentalgorithmen Folie 19 von 25
20 05 Ergebnisse Theoretischer Speedup Datenbank: bp Suchsequenzen (100 bp) Speedup Smith-Waterman BLAST GPU Smith-Waterman MPI-BLAST Nvidia GTX 8800 (32 x Intel Core 2 Duo) 128 Stream Prozessoren Speedup FPGA-Virtex5 Speedup FPGA-Virtex6 Testsystem: Intel Core 2 Duo 2,66 GHz, 3,8 GByte RAM, ein Thread MPI-BLAST: Idealer Speedup - SWA-GPU [MV08]: Speedup für lange Sequenzen von 40 TU Dresden, Genom-Alignmentalgorithmen Folie 20 von 25
21 05 Ergebnisse Kosten 15 GPUs sind notwendig, um die Geschwindigkeit des FPGAs zu erreichen Anschaffungskosten 1. Virtex-5 (ML505) e 2. Nvidia GTX 200 e Nvidia GTX e Betriebskosten ( Stunden) 1. Virtex-5 (ML505) 1,31 Watt 11,48 KWh 2,30 e 2. Nvidia GTX 200,00 Watt 1.927,00 KWh Nvidia GTX ,00 KWh 5.781,00 e 0,20 e je KWh (Drewag 2010) TU Dresden, Genom-Alignmentalgorithmen Folie 21 von 25
22 06 Zusammenfassung und Ausblick Hohe Geschwindigkeit Exaktes und garantiertes Ergebnis für jeden Read Unabhängig von der Größe der Datenbank und Anzahl der Mismatches Geringe Einführungs- und Betriebskosten Netzwerk DB... TU Dresden, Genom-Alignmentalgorithmen Folie 22 von 25
23 07 Quellen I [Niv10] Nvidia Visual Computing Technologies [MV08] Manavski, S. and Valle, G. CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment BMC bioinformatics 2008 [Han06] Hansen, Andrea Bioinformatik: Ein Leitfaden für Naturwissenschaftler 2006 [KH10] Kirk, B. and Hwu, W. Programming Massively Parallel Processors 2010 [Xi09] Xilinx Virtex-5 FPGA User Guide TU Dresden, Genom-Alignmentalgorithmen Folie 23 von 25
24 07 Quellen II [Xi10] Xilinx Virtex-6 FPGA User Guide [TS09] Trapnell, C. and Salzberg, SL How to map billions of short reads onto genomes Nature biotechnology 2009 [Mar08] Mardis, E.R. The impact of next-generation sequencing technology on genetics Trends in Genetics 2008 [LST07] Li, I.T.S. and Shum, W. and Truong, K. 160-fold acceleration of the Smith-Waterman algorithm using a field programmable gate array(fpga) BMC bioinformatics 2007 TU Dresden, Genom-Alignmentalgorithmen Folie 24 von 25
25 TU Dresden, Genom-Alignmentalgorithmen Folie 25 von 25
26 08 Anhang Datenbanken 1E+11 1E+08 1E+10 1E+07 1E+09 1E+06 Basenpaare 1E+08 1E+05 Sequenzen 1E+07 1E+04 1E+06 1E+03 1E E+02 Basenpaare DNA Sequenzen TU Dresden, Genom-Alignmentalgorithmen Folie 26 von 25
27 08 Anhang Sequenzalignment - Dotplot Dotplots liefern kein Alignment, sondern nur einen Überblick über die Ähnlichkeit der Sequenzen zueinander. A T A C G A A G A A A T A C G A A G A A A T A C G A A G A A A T A C G A A G A A T C G T T G T G A A T C - T T G T G C A T C G T T G T G A A T C T T G T G C A T C G T T G T C T A G T C T A T C G T T T C G T T G T C T A G T C T A T C G T T TU Dresden, Genom-Alignmentalgorithmen Folie 27 von 25
28 08 Anhang Ein Read (1.000 Basenpaare) Datenbank: bp Laufzeit / s ,43 Smith-Waterman FASTA BLAST 3,5 Testsystem: Intel Core 2 Duo 2,66 GHz, 3,8 GByte RAM, ein Thread TU Dresden, Genom-Alignmentalgorithmen Folie 28 von 25
29 08 Anhang Ein Read (100 Basenpaare) Datenbank: bp , ,15 Laufzeit / s ,77 3,44 4,18 Smith-Waterman FASTA BLAST Bowtie Maq Testsystem: Intel Core 2 Duo 2,66 GHz, 3,8 GByte RAM, ein Thread TU Dresden, Genom-Alignmentalgorithmen Folie 29 von 25
30 08 Anhang Reads (100 Basenpaare) Datenbank: bp Laufzeit / s Smith-Waterman FASTA BLAST Bowtie Maq Testsystem: Intel Core 2 Duo 2,66 GHz, 3,8 GByte RAM, ein Thread TU Dresden, Genom-Alignmentalgorithmen Folie 30 von 25
31 08 Anhang Ergebnisse - Bowtie, Maq [TS09] 70!% 62!% 65!% 67!% 67!% 52,5!% Reads aligned 35!% 44!% 45!% 17,5!% 0!% Bowtie Maq TU Dresden, Genom-Alignmentalgorithmen Folie 31 von 25
32 08 Anhang Theoretischer Speedup Datenbank: bp Suchsequenzen (100 bp) Speedup Smith-Waterman BLAST GPU Smith-Waterman MPI-BLAST Nvidia GTX 8800 (32 x Intel Core 2 Duo) 128 Stream Prozessoren Speedup FPGA-Virtex5 Speedup FPGA-Virtex6 Testsystem: Intel Core 2 Duo 2,66 GHz, 3,8 GByte RAM, ein Thread MPI-BLAST: Idealer Speedup - SWA-GPU: Speedup für lange Sequenzen von 40 [MV08] TU Dresden, Genom-Alignmentalgorithmen Folie 32 von 25
33 08 Anhang GPU - Architektur der Tesla 8 Host System Memory GPU Host Interface Input Assembler Setup/Raster Vertex Work Distribution Pixel Work Distribution Setup/Raster MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MEM MEM Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache Interconnection Network Raster Operations Processor Raster Raster L2 Cache Operations L2 Cache Operations L2 Cache Processor Processor Raster Operations Processor L2 Cache DRAM DRAM DRAM DRAM Insgesamt 128 Streamprozessoren mit MHz Jeder Streamprozessor kann 96 Threads verwalten Maximal sind Threads möglich TU Dresden, Genom-Alignmentalgorithmen Folie 33 von 25
34 08 Anhang GPU - CUDA Programmiermodell Programmsequenz Grid 0 Host Block 0,0 Block 1,0 grid_0<<< (2,2),(2,3) >>>; Block 0,1 Block 1,1 Block 0,1 Thread 0,0 Thread 1,0 Thread 2,0 Thread 0,1 Thread 1,1 Thread 2,1 Block- Speicher Globaler Speicher Synchronisationsbarriere Grid 1 grid_1<<< 2,4 >>>; Block 0 Block 1 Block 0 Thread 0 Thread 1 Thread 2 Thread 3 Block- Speicher TU Dresden, Genom-Alignmentalgorithmen Folie 34 von 25
35 08 Anhang FPGA - Architektur Virtex Slices s / Flip-Flops KBit interner Dual Port Speicher (Block RAM) Slice FF FF FF FF PSM CLB Slice Slice IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB CLB CLB CLB CLB IOB IOB PSM PSM PSM IOB CLB CLB CLB CLB IOB PSM PSM PSM IOB CLB CLB CLB CLB IOB PSM PSM PSM IOB CLB CLB CLB CLB IOB IOB IOB IOB IOB IOB IOB IOB IOB TU Dresden, Genom-Alignmentalgorithmen Folie 35 von 25
36 08 Anhang FPGA - ML-505 Mögliche Schnittstellen zur Kommunikation: Gigabit-Ethernet USB PCIe TU Dresden, Genom-Alignmentalgorithmen Folie 36 von 25
37 08 Anhang Implementierung - Speicherverwaltung Ausgangsdaten: n 31 0 Auswahl 6 Bit Teil- Match 2 6 Bit Teil- Match 1 7 Bit Match n+1 Read - Teil n+9 Read - Teil Ergebnisdaten: n Found 6 Bit Teil- Match 2 6 Bit Teil- Match 1 7 Bit Match n+1 Position 31 TU Dresden, Genom-Alignmentalgorithmen Folie 37 von 25 0
38 08 Anhang Implementierung - Zustände adr_count +1 start_shift <= '1' start_search <= '1' Daten senden adr_count_res <= '1' eth_end = '1' Suchen warten din(31) = '1' and last_unit = '1' Text laden start_shift <= '1' adr_count + 1 adr_count_res <= '1' eth_start = '1' Daten empfangen adr_count + 1 adr_count = 150 search_count_res <= '1' adr_count_res <= '1' adr_count = 9 VE laden search_count +1 adr_count + 1 load_data <= '1' search_counter_res <= '1' adr_count_res <= '1' TU Dresden, Genom-Alignmentalgorithmen Folie 38 von 25
39 08 Anhang Implementierung - Module Zur Erhöhung der Vergleichseinheiten unabhängig vom Block RAM können sich mehrere Einheiten einen Block RAM teilen VE 1 VE 32 dat 10 adr 32 kbit Block Ram 32 dat 9 adr 32 dat 32 kbit Block Ram MUX 10 adr 0 32 dat 10 adr 32 dat 9 adr 1 32 dat 10 adr Modul mit einer VE VE 2 Modul mit zwei VEs TU Dresden, Genom-Alignmentalgorithmen Folie 39 von 25
40 08 Anhang GPU - CUDA Beispiel Beispielberechnung z = a x + y in C: void calc_serial ( int n, float alpha, float *x, float *y) { for ( int i; i<n; ++i) y[i] = alpha * x[i] + y[i]; } // Funktionsaufruf calc_serial (n, alpha, x, y); in CUDA: global void calc_parallel ( int n, float alpha, float *x, float *y) { int i = ( blockldx.x * blockdim.x) + threadldx.x; if (i < n) y[i] = alpha * x[i] + y[i]; } // starte Kernel mit 256 Threads je Block int nblocks = (n + 255) / 256; calc_parallel <<<nblocks,256>>>(n, 2.0, x, y); TU Dresden, Genom-Alignmentalgorithmen Folie 40 von 25
Implementierung des Genom-Alignments auf modernen hochparallelen Plattformen
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Implementierung des Genom-Alignments auf modernen hochparallelen Plattformen Vortrag
MehrImplementierung des Genom-Alignments auf modernen hochparallelen Plattformen
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Implementierung des Genom-Alignments auf modernen hochparallelen Plattformen Diplomverteidigung
MehrUntersuchung und Vorstellung moderner Grafikchiparchitekturen
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Untersuchung und Vorstellung moderner Grafikchiparchitekturen Hauptseminar Technische
MehrLEISTUNGSVERGLEICH VON FPGA, GPU UND CPU FÜR ALGORITHMEN ZUR BILDBEARBEITUNG PROSEMINAR INF-B-610
LEISTUNGSVERGLEICH VON FPGA, GPU UND CPU FÜR ALGORITHMEN ZUR BILDBEARBEITUNG PROSEMINAR INF-B-610 Dominik Weinrich dominik.weinrich@tu-dresden.de Dresden, 30.11.2017 Gliederung Motivation Aufbau und Hardware
MehrGeneral Purpose Computation on GPUs
General Purpose Computation on GPUs Matthias Schneider, Robert Grimm Universität Erlangen-Nürnberg {matthias.schneider, robert.grimm}@informatik.stud.uni-erlangen.de M. Schneider, R. Grimm 1 Übersicht
MehrTechnische Universität Dresden Fakultät Informatik Institut für Technische Informatik Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur
Technische Universität Dresden Fakultät Informatik Institut für Technische Informatik Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Diplomarbeit Implementierung des Genom-Alignments auf
MehrGrafikkarten-Architektur
> Grafikkarten-Architektur Parallele Strukturen in der GPU Name: Sebastian Albers E-Mail: s.albers@wwu.de 2 > Inhalt > CPU und GPU im Vergleich > Rendering-Pipeline > Shader > GPGPU > Nvidia Tesla-Architektur
MehrCUDA. Moritz Wild, Jan-Hugo Lupp. Seminar Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg
CUDA Seminar Multi-Core Architectures and Programming 1 Übersicht Einleitung Architektur Programmierung 2 Einleitung Computations on GPU 2003 Probleme Hohe Kenntnisse der Grafikprogrammierung nötig Unterschiedliche
MehrVerteidigung der Bachelorarbeit, Willi Mentzel
Verteidigung der Bachelorarbeit, Willi Mentzel Motivation U.S. Energy Consumption Breakdown 3x Durchschnittliche Leistungsaufnahme 114 Millionen kw Hohes Optimierungspotential 2 Ziele für Energieoptimierung
MehrOpenCL. OpenCL. Boris Totev, Cornelius Knap
OpenCL OpenCL 1 OpenCL Gliederung Entstehungsgeschichte von OpenCL Was, warum und überhaupt wieso OpenCL CUDA, OpenGL und OpenCL GPUs OpenCL Objekte Work-Units OpenCL Adressbereiche OpenCL API Codebeispiel
MehrPraxiseinheit: Realisierung einer hardwarebeschleunigten Disparitätenberechnung zur automatischen Auswertung von Stereobildern
Praxiseinheit: Realisierung einer hardwarebeschleunigten Disparitätenberechnung zur automatischen Auswertung von Stereobildern Institut für Betriebssysteme und Rechnerverbund TU Braunschweig 25.10., 26.10.
MehrCompute Unified Device Architecture CUDA
Compute Unified Device Architecture 06. Februar 2012 1 / 13 Gliederung 2 / 13 : Compute Unified Device Architecture entwickelt von Nvidia Corporation spezifiziert Software- und Hardwareeigenschaften Ziel:
MehrÜbersicht aktueller heterogener FPGA-SOCs
Fakultät Informatik, Institut für Technische Informatik, Professur VLSI-Entwurfssysteme, Diagnostik und Architektur Übersicht aktueller heterogener FPGA-SOCs Vortrag zum Lehrstuhlseminar Tilo Zschau tilo.zschau@mailbox.tu-dresden.de
MehrFPGA Systementwurf. Rosbeh Etemadi. Paderborn University. 29. Mai 2007
Paderborn Center for Parallel l Computing Paderborn University 29. Mai 2007 Übersicht 1. FPGAs 2. Entwicklungssprache VHDL 3. Matlab/Simulink 4. Entwicklungssprache Handel-C 5. Fazit Übersicht FPGAs 1.
MehrFPGA Field Programmable Gate Array im Unterschied zu anderen PLD-Architekturen.
FPGA Field Programmable Gate Array im Unterschied zu anderen PLD-Architekturen. Kasdaghli Ameni Inhalt. Die Klassifizierung von ASIC 2. Simple Programmable Logic Device SPLD 3. Complex Programmable Logic
MehrOpenCL. Programmiersprachen im Multicore-Zeitalter. Tim Wiersdörfer
OpenCL Programmiersprachen im Multicore-Zeitalter Tim Wiersdörfer Inhaltsverzeichnis 1. Was ist OpenCL 2. Entwicklung von OpenCL 3. OpenCL Modelle 1. Plattform-Modell 2. Ausführungs-Modell 3. Speicher-Modell
MehrParalleler Cuckoo-Filter. Seminar: Implementierungstechniken für Hauptspeicherdatenbanksysteme Jeremias Neth München, 21.
Paralleler Cuckoo-Filter Seminar: Implementierungstechniken für Hauptspeicherdatenbanksysteme Jeremias Neth München, 21. November 2017 1 Paralleler Cuckoo-Filter Cuckoo-Hashtabelle Serieller Cuckoo-Filter
MehrStream Processing und High- Level GPGPU Sprachen
Stream Processing und High- Level GPGPU Sprachen Seminar Programmierung von Grafikkarten Jens Breitbart Problem 5000% 4000% 3000% 2000% Rechenleistung: +71% pro Jahr Bandbreite: +25% pro Jahr Zugriffszeit:
MehrRST-Labor WS06/07 GPGPU. General Purpose Computation On Graphics Processing Units. (Grafikkarten-Programmierung) Von: Marc Blunck
RST-Labor WS06/07 GPGPU General Purpose Computation On Graphics Processing Units (Grafikkarten-Programmierung) Von: Marc Blunck Ablauf Einführung GPGPU Die GPU GPU Architektur Die Programmierung Programme
MehrGPGPU Basiskonzepte. von Marc Kirchhoff GPGPU Basiskonzepte 1
GPGPU Basiskonzepte von Marc Kirchhoff 29.05.2006 GPGPU Basiskonzepte 1 Inhalt Warum GPGPU Streams, Kernels und Prozessoren Datenstrukturen Algorithmen 29.05.2006 GPGPU Basiskonzepte 2 Warum GPGPU? Performance
MehrCell and Larrabee Microarchitecture
Cell and Larrabee Microarchitecture Benjamin Grund Dominik Wolfert Universität Erlangen-Nürnberg 1 Übersicht Einleitung Herkömmliche Prozessorarchitekturen Motivation für Entwicklung neuer Architekturen
MehrRheinisch-Westfälische Technische Hochschule Aachen. Seminararbeit
Rheinisch-Westfälische Technische Hochschule Aachen Seminararbeit Analyse von General Purpose Computation on Graphics Processing Units Bibliotheken in Bezug auf GPU-Hersteller. Gregori Kerber Matrikelnummer
Mehr3D-Punktkorrelation auf Basis von 2D-Bildern auf einer FPGA-Plattform
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI Entwurfssysteme, Diagnostik und Architektur 3D-Punktkorrelation auf Basis von 2D-Bildern auf einer FPGA-Plattform Verteidigung
MehrStudiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel
Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?
MehrPairwise Alignment. Steffen Forkmann. Proseminar: BioInformatik
Pairwise Alignment Steffen Forkmann Proseminar: BioInformatik Wintersemester 2004/2005 Inhaltsverzeichnis 1 Problemstellungen 3 1.1 Rechtschreibkorrektur............................... 3 1.2 DNA- und Aminosäure-Sequenzen........................
MehrMulticore-Architekturen
Universität Erlangen- Nürnberg Technische Universität München Universität Stuttgart Multicore-Architekturen Vortrag im Rahmen der Ferienakademie 2009 Kurs 1: Programmierkonzepte für Multi-Core Rechner
Mehr3D-Punktkorrelation auf Basis von 2D-Bildern auf einer FPGA-Plattform
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI Entwurfssysteme, Diagnostik und Architektur 3D-Punktkorrelation auf Basis von 2D-Bildern auf einer FPGA-Plattform Zwischenvortrag
MehrCPU, GPU und FPGA. CPU, GPU und FPGA Maximilian Bandle, Bianca Forkel 21. November 2017
CPU, GPU und FPGA, Bianca Forkel 21. November 2017 CPU, GPU und FPGA Inhalt CPU: Central Processing Unit GPU: Graphical Processing Unit FPGA: Field Programmable Gate Array 2 CPU Central Processing Unit
MehrDie Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien
Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur, Prof. Spallek Die Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien Tobias Berndt, to.berndt@t-online.de
MehrGPU-Programmierung: OpenCL
Seminar: Multicore Programmierung Sommerstemester 2009 04.06.2009 Inhaltsverzeichnis 1 GPU-Programmierung von Grafikkarten von GPU-Computing 2 Architektur Spracheigenschaften Vergleich mit CUDA Beispiel
MehrAnalyse von Ansätzen zur Beschleunigung von SAT - Lösern durch dedizierte Hardware Komponenten
Analyse von Ansätzen zur Beschleunigung von SAT - Lösern durch dedizierte Hardware Komponenten E. Zenker 9. November 2011 1 / 28 Gliederung 1. Field Programmable Gate Array - FPGA 2. Satisfiability Testing
MehrUntersuchungen zur effizienten Implementierung eines mathematischen Algorithmus in einem FPGA am Beispiel eines Sudoku-Lösers
Fakultät Informatik - Institut für Technische Informatik - Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Vortrag zum Diplom Untersuchungen zur effizienten Implementierung eines mathematischen
MehrPhysikalische Berechnungen mit General Purpose Graphics Processing Units (GPGPUs)
Fakultätsname XYZ Fachrichtung XYZ Institutsname XYZ, Professur XYZ Physikalische Berechnungen mit General Purpose Graphics Processing Units (GPGPUs) im Rahmen des Proseminars Technische Informatik Juni
MehrUntersuchungen zur effizienten Implementierung eines mathematischen Algorithmus in einem FPGA am Beispiel eines Sudoku-Lösers
Fakultät Informatik - Institut für Technische Informatik - Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Vortrag zum Diplom Untersuchungen zur effizienten Implementierung eines mathematischen
MehrMotivation (GP)GPU CUDA Zusammenfassung. CUDA und Python. Christian Wilms. Integriertes Seminar Projekt Bildverarbeitung
CUDA und Python Christian Wilms Integriertes Seminar Projekt Bildverarbeitung Universität Hamburg WiSe 2013/14 12. Dezember 2013 Christian CUDA und Python 1 Gliederung 1 Motivation 2 (GP)GPU 3 CUDA 4 Zusammenfassung
MehrEntwurf eines FPGA-Cores zur Simulationsbeschleunigung zeitkontinuierlicher Modelle im HiL Kontext
Entwurf eines FPGA-Cores zur Simulationsbeschleunigung zeitkontinuierlicher Modelle im HiL Kontext Till Fischer 03.11.2011 FZI Forschungszentrum Informatik Embedded Systems & Sensors Engineering (ESS)
MehrRealisierung einer MC-basierten Optionspreisberechnung mit FloPoCo
Fakultät Informatik, Institut für Technische Informatik, Professur VLSI-Entwurfssysteme, Diagnostik und Architektur Realisierung einer MC-basierten Optionspreisberechnung mit FloPoCo Christian Skubich
MehrGPGPU WITH OPENCL. Praktikum Parallele Rechnerarchitekturen, 2015w Franz Richter-Gottfried
GPGPU WITH OPENCL Praktikum Parallele Rechnerarchitekturen, 2015w Franz Richter-Gottfried INFRASTRUCTURE Enqueue interactive job srun --gres --pty bash Graphics cards available for tesla_k20,
MehrGliederung. Was ist CUDA? CPU GPU/GPGPU CUDA Anwendungsbereiche Wirtschaftlichkeit Beispielvideo
Gliederung Was ist CUDA? CPU GPU/GPGPU CUDA Anwendungsbereiche Wirtschaftlichkeit Beispielvideo Was ist CUDA? Nvidia CUDA ist eine von NvidiaGPGPU-Technologie, die es Programmierern erlaubt, Programmteile
MehrNumerik und Rechnen. Martin Heide & Dominik Holler. 12. Juni 2006
12. Juni 2006 Bibliothek für Lineare Algebra GPGPU-Programming: Low-Level High-Level Bibliothek Bibliothek für Lineare Algebra Gliederung 1 Bibliothek für Lineare Algebra 2 Skalare Bibliothek für Lineare
MehrImplementierung eines universellen IPv6 Protokollstapels
Fakultät Informatik, Inst. für Technische Informatik, Prof. für VLSI-Entwurfssysteme, Diagnostik und Architektur Implementierung eines universellen IPv6 Protokollstapels Kolloquium zum Masterpraktikum
MehrRealisierung eines Speichermanagements zur Zugriffsvirtualisierung von konkurrierenden Nutzerdesigns auf Rekonfigurierbarer Hardware
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Realisierung eines Speichermanagements zur Zugriffsvirtualisierung von konkurrierenden
MehrHS Technische Informatik
Technische Universität Dresden Fakultät Informatik Institut Technische Informatik HS Technische Informatik Architektur eines dynamisch rekonfigurierbaren Rechnersystems Johannes.Goerner@mailbox.tu-dresden.de
MehrGPGPU-Programmierung
12 GPGPU-Programmierung 2013/04/25 Diese Folien enthalten Graphiken mit Nutzungseinschränkungen. Das Kopieren der Graphiken ist im Allgemeinen nicht erlaubt. Motivation (1) General Purpose Computing on
MehrPartitionierung von rechenintensiven Aufgaben zwischen FPGA und CPUs
Partitionierung von rechenintensiven Aufgaben zwischen FPGA und CPUs Embedded Computing Conference 2017 Tobias Welti, Dr. M. Rosenthal High Performance Embedded Platforms ZHAW Institute of Embedded Systems
MehrArchitekturen, Werkzeuge und Laufzeitumgebungen für eingebettete Systeme
Farbverlauf Architekturen, Werkzeuge und Laufzeitumgebungen für eingebettete Systeme Embedded Systems Christian Hochberger Professur Mikrorechner Fakultät Informatik Technische Universität Dresden Nötiges
MehrAlgorithmische Anwendungen WS 2005/2006
Algorithmische Anwendungen WS 2005/2006 Sequenzalignment Gruppe F_lila_Ala0506 Allal Kharaz Yassine ELassad Inhaltsverzeichnis 1 Problemstellungen...................................... 3 1.1 Rechtschreibkorrektur...............................
MehrDatenflussrechnen mit FPGAs für die biomedizinische Bildverarbeitung
Datenflussrechnen mit FPGAs für die biomedizinische Bildverarbeitung Frederik Grüll, Udo Kebschull Infrastruktur und Rechnersysteme in der Informationsverarbeitung Goethe-Universität Frankfurt ZKI-Frühjahrstagung
MehrPlazierung von unterschiedlich großen Komponenten in gleich große rekonfigurierbare Flächen unter Berücksichtigung der Signallaufzeiten
Fakultät für Elektrotechnik Professur für Technische Informatik Helmut Schmidt Universität/ Universität der Bundeswehr Hamburg Plazierung von unterschiedlich großen Komponenten in gleich große rekonfigurierbare
MehrYilmaz, Tolga MatNr: Mesaud, Elias MatNr:
Yilmaz, Tolga MatNr: 157317 Mesaud, Elias MatNr: 151386 1. Aufbau und Funktionsweise einer Grafikkarte 2. CPU vs. GPU 3. Software 4. Beispielprogramme Kompilierung und Vorführung 5. Wo wird Cuda heutzutage
MehrCOOL HASHING MIT FPGAS. Robert Bachran
COOL HASHING MIT FPGAS Robert Bachran Dresden, 16.1.2012 Einführung Grundlagen Kriterien für gute Hashverfahren Grundlagen FPGAs Hashverfahren auf FPGAs Skein auf FPGA Evolutionäre Hashverfahren Energiesparendes
MehrEHP Einführung Projekt A
Volker Dörsing EHP Einführung Projekt A email: doersing@uni-jena.de praktische Übung www: http://users.minet.uni-jena.de/~ehp-head Vorbereitung, Durchführung, Kolloquium Infos zur Veranstaltung, Versuchsanleitung
MehrDigital Image Interpolation with CUDA
Digital Image Interpolation with CUDA Matthias Schwarz & Martin Rustler Hardware-Software-Co-Design Universität Erlangen-Nürnberg matthias.schwarz@e-technik.stud.uni-erlangen.de martin.rustler@e-technik.stud.uni-erlangen.de
MehrArchitektur moderner GPUs. W. Sczygiol - M. Lötsch
Architektur moderner GPUs W. Sczygiol - M. Lötsch Überblick Chipentwicklung Aktuelle Designs Nvidia: NV40 (ATI: R420) Vertex-Shader Pixel-Shader Shader-Programmierung ROP - Antialiasing Ausblick Referenzen
MehrMasterpraktikum Scientific Computing
Masterpraktikum Scientific Computing High-Performance Computing Thomas Auckenthaler Wolfgang Eckhardt Technische Universität München, Germany Outline Entwicklung General Purpose GPU Programming (GPGPU)
MehrComputergrafik Universität Osnabrück, Henning Wenke,
Computergrafik Universität Osnabrück, Henning Wenke, 2012-06-25 Kapitel XV: Parallele Algorithmen mit OpenCL 15.1 Parallele Programmierung Quellen: V.a. Wikipedia. Leistungsdaten unter Vorbehalt. Bitte
MehrRealisierung einer 32'768-Punkt-FFT für 2 GBytes/s Datenrate auf einem FPGA
Realisierung einer 32'768-Punkt-FFT für 2 GBytes/s Datenrate auf einem FPGA Mentor User Conference 2004 - Würzburg Michael Pichler, m.pichler@zma.ch Dino Zardet, d.zardet@zma.ch Prof. Karl Schenk, k.schenk@zma.ch
MehrGPGPU-Architekturen CUDA Programmiermodell Beispielprogramm. Einführung CUDA. Ralf Seidler. Friedrich-Alexander-Universität Erlangen-Nürnberg
Einführung CUDA Friedrich-Alexander-Universität Erlangen-Nürnberg PrakParRA, 18.11.2010 Outline 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell
MehrMasterpraktikum Scientific Computing
Masterpraktikum Scientific Computing High-Performance Computing Thomas Auckenthaler Wolfgang Eckhardt Prof. Dr. Michael Bader Technische Universität München, Germany Outline Organisatorisches Entwicklung
MehrHW/SW Codesign 5 - Performance
HW/SW Codesign 5 - Performance Martin Lechner e1026059 Computer Technology /29 Inhalt Was bedeutet Performance? Methoden zur Steigerung der Performance Einfluss der Kommunikation Hardware vs. Software
MehrCUDA. Axel Jena, Jürgen Pröll. Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg Axel Jena, Jürgen Pröll 1
CUDA Axel Jena, Jürgen Pröll Multi-Core Architectures and Programming Axel Jena, Jürgen Pröll 1 Warum Tesla? Traditionelle Graphikkarten Getrennte Prozessoren für Vertex- / Pixelberechnungen - Nachteil:
MehrBioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik BLAST Basic Local Alignment Search Tool Ulf Leser Wissensmanagement in der Bioinformatik Heuristische Alignierung Annotation neuer Sequenzen basiert auf Suche nach homologen Sequenzen in
Mehr"FlexRIO hat sich als ideale Basis für den Test schneller Kommunikationsschnittstellen erwiesen." - Michael Rost, IRS Systementwicklung GmbH
Test von Glasfaserkommunikation bis zu 2,5 Gbit/s auf Basis von NI FlexRIO "FlexRIO hat sich als ideale Basis für den Test schneller Kommunikationsschnittstellen erwiesen." - Michael Rost, IRS Systementwicklung
MehrAnalyse von Ansätzen zur Beschleunigung von SAT - Lösern durch dedizierte Hardware Komponenten
Analyse von Ansätzen zur Beschleunigung von SAT - Lösern durch dedizierte Hardware Komponenten E. Zenker 24. Februar 2011 1 / 20 Gliederung 1. Satisfiability Testing 2. FPGAs 3. Aktuelle Hardware SAT Solver
MehrThema: Hardware-Shader
Seminar Grafikprogrammierung Thema: Hardware-Shader Christian Bauer 03.07.08 Überblick Entwicklung Die Shader im Detail Programmierung GPGPU Zusammenfassung & Ausblick 1/19 Entwicklung (1) Früher: Berechnung
MehrProgrammierbare Logik CPLDs. Studienprojekt B Tammo van Lessen
Programmierbare Logik CPLDs Studienprojekt B Tammo van Lessen Gliederung Programmierbare Logik Verschiedene Typen Speichertechnologie Komplexe Programmierbare Logik System On a Chip Motivation Warum Programmierbare
MehrRefactoring the UrQMD Model for Many- Core Architectures
Refactoring the UrQMD Model for Many- Core Architectures Mathias Radtke Semiar: Softwaretechnologie (WS 2013/2014 Goethe-Universität Frankfurt Agenda: 1. UrQMD 2. CPU Vs. GPU 3. Von FORTRAN zu C++/OpenCL
Mehr2.6 Graphikprozessoren
12 2.6 Graphikprozessoren Peter Marwedel Informatik 12 TU Dortmund 2012/04/16 Diese Folien enthalten Graphiken mit Nutzungseinschränkungen. Das Kopieren der Graphiken ist im Allgemeinen nicht erlaubt.
MehrRechnerorganisation. 1. Juni 201 KC Posch
.6.2 Rechnerorganisation. Juni 2 KC Posch .6.2 2 .6.2 Front Side Bus Accelerated Graphics Port 28 MHz Front Side Bus North Bridge RAM idge South Bri IDE USB PCI Bus 3 .6.2 Front Side Bus Front Side Bus
MehrMulti-Port-Speichermanager für die Java-Plattform SHAP
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Multi-Port-Speichermanager für die Java-Plattform SHAP DASS 2008 Martin Zabel, Peter
MehrRaytracing in GA mittels OpenACC. Michael Burger, M.Sc. FG Scientific Computing TU Darmstadt
Raytracing in GA mittels OpenACC Michael Burger, M.Sc. FG Scientific Computing TU Darmstadt michael.burger@sc.tu-darmstadt.de 05.11.12 FB Computer Science Scientific Computing Michael Burger 1 / 33 Agenda
MehrUniverselle Speicherschnittstelle für große externe Speicher
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Belegverteidigung Universelle Speicherschnittstelle für große Marco Zulkowski Marco.Zulkowski@mailbox.tu-dresden.de
MehrGPGPU-Programmierung
12 GPGPU-Programmierung 2014/04/29 Diese Folien enthalten Graphiken mit Nutzungseinschränkungen. Das Kopieren der Graphiken ist im Allgemeinen nicht erlaubt. Motivation (1) General Purpose Computing on
MehrUntersuchung zur Realisierung des Hashalgorithmus Scrypt auf einer energieeffizenten parallelen Plattform Vortrag zur Belegverteidigung
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Untersuchung zur Realisierung des Hashalgorithmus Scrypt auf einer energieeffizenten
MehrSTUDIENARBEIT: ZWISCHENPRÄSENTATION
STUDIENARBEIT: ZWISCHENPRÄSENTATION Trace-basierte Verifikation der FPGA-Implementierung eines MIPS-Prozessors Valentin Gehrke Dresden, 12.01.2017 Inhalt 1. Einleitung 2. Thema 3. Literatur 4. Aufgaben
MehrSoftware Engineering für moderne parallele Plattformen 9. GPGPUs: Grafikkarten als Parallelrechner
Software Engineering für moderne parallele Plattformen 9. GPGPUs: Grafikkarten als Parallelrechner Dipl.-Inform. Korbinian Molitorisz M. Sc. Luis Manuel Carril Rodriguez KIT Universität des Landes Baden-Württemberg
MehrAnalyse verschiedener HLS-Systeme in Hinblick auf ihren Umgang mit der Hochsprachenabstraktion Speicher. Sascha Kath
Analyse verschiedener HLS-Systeme in Hinblick auf ihren Umgang mit der Hochsprachenabstraktion Speicher Sascha Kath Dresden, Gliederung 1. Motivation & Zielstellung 2. HLS-Systeme 3. Benchmark-Funktionen
MehrCurrent and Emerging Architectures Multi-core Architectures and Programming
Current and Emerging Architectures Multi-core Architectures and Programming Adel El-Rayyes Hardware-Software-Co-Design, Friedrich-Alexander-Universität Erlangen-Nürnberg 9. Mai 2012 Inhalt Überblick über
MehrÜbungsaufgaben zur Einführung in die Bioinformatik - Lösungen
18.01.2013 Prof. P. Güntert 1 Vorlesung BPC I: Aspekte der Thermodynamik in der Strukturbiologie Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen 1. Hamming und Levenshtein Distanzen a) Was
MehrFPGA Beschleuniger. Your Name. Armin Jeyrani Mamegani Your Organization (Line #2)
FPGA Beschleuniger 15.12.2008 Armin Jeyrani Mamegani Your Name HAW Hamburg Your Title Department Your Organization Informatik (Line #1) Your Organization (Line #2) Einleitung Wiederholung aus AW1: Handy
MehrHigh Performance Embedded Processors
High Performance Embedded Processors Matthias Schwarz Hardware-Software-Co-Design Universität Erlangen-Nürnberg martin.rustler@e-technik.stud.uni-erlangen.de matthias.schwarz@e-technik.stud.uni-erlangen.de
MehrProgrammierbeispiele und Implementierung. Name: Michel Steuwer E-Mail: michel.steuwer@wwu.de
> Programmierbeispiele und Implementierung Name: Michel Steuwer E-Mail: michel.steuwer@wwu.de 2 > Übersicht > Matrix Vektor Multiplikation > Mandelbrotmenge / Apfelmännchen berechnen > Kantendetektion
MehrVorstellung der Fachgebiete
Fakultät Informatik, Institut für Technische Informatik, Professur Rechnerarchitektur Vorstellung der Fachgebiete Institut für Technische Informatik Zellescher Weg 12 Nöthnitzer Straße 46 Willers-Bau A
MehrPraktikum Systementwurf mit VHDL HDL Design Lab
Praktikum Systementwurf mit VHDL HDL Design Lab Inhalt Kryptographie - Aufgaben VHDL - Konzepte Beispiel: 16 bit XOR Kryptographie - Aufgaben Geheimhaltung Integrität Authentifizierung Verbindlichkeit
MehrUntersuchung der Berechnung der 3D-Punktkorrelation auf hochparallelen Plattformen
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI Entwurfssysteme, Diagnostik und Architektur Untersuchung der Berechnung der 3D-Punktkorrelation auf hochparallelen Plattformen
MehrAlignments & Datenbanksuchen
WS2015/2016 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignments & Datenbanksuchen 1 break-thru Doolittle et al. 1983, Waterfield et al. 1983 > DB-Suche...
MehrREKONFIGURIERBARE ARCHITEKTUREN. Robert Rasche
REKONFIGURIERBARE ARCHITEKTUREN Robert Rasche Dresden, 24.05.2011 01 Motivation Ausgangssituation in eingebetteten Systemen: Verarbeitungsleistung ist auf Embedded Prozessor begrenzt Prozessor (General
MehrClearspeed. Matthias Kunst.
Clearspeed Matthias Kunst MatthiasKunst@gmx.de 1 Inhalt Einführung Struktur und Leistung Komponenten CSX600 Prozessorarchitektur Anwendungsbereich und Systemintegration Ausblick und Fazit 2 Einleitung
MehrHardware Programmierbare Logik
Hardware Programmierbare Logik Dr.-Ing. Matthias Sand Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2010/2011 Hardware Programmierbare Logik 1/23
MehrGrundlagen der Spieleprogrammierung
Grundlagen der Spieleprogrammierung Teil I: 3D-Graphik Kapitel 8: Hardware Peter Sturm Universität Trier Outline 1. Übersicht und Motivation 2. Mathematische Grundlagen 3. Das Ideal: Photorealistisch (Raytracing,
MehrMulti- und Many-Core
Multi- und Many-Core Benjamin Warnke Arbeitsbereich Wissenschaftliches Rechnen Fachbereich Informatik Fakultät für Mathematik, Informatik und Naturwissenschaften Universität Hamburg 2016-12-15 Benjamin
Mehr2.6 Graphikprozessoren
12 2.6 Graphikprozessoren Peter Marwedel Informatik 12 TU Dortmund 2014 年 04 月 24 日 Diese Folien enthalten Graphiken mit Nutzungseinschränkungen. Das Kopieren der Graphiken ist im Allgemeinen nicht erlaubt.
MehrANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS. Sascha Kath
ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS Sascha Kath Dresden, Gliederung 1. Motivation & Zielstellung 2. Systembeschreibung 3. Implementierung und Messungen
MehrGPGPU-Architekturen CUDA Programmiermodell Beispielprogramm Organiosatorisches. Tutorial CUDA. Ralf Seidler
Friedrich-Alexander-Universität Erlangen-Nürnberg 05.10.2010 Outline 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm 4 Organiosatorisches Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell
MehrUntersuchung der Berechnung der 3D-Punktkorrelation auf hochparallelen Plattformen
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI Entwurfssysteme, Diagnostik und Architektur Untersuchung der Berechnung der 3D-Punktkorrelation auf hochparallelen Plattformen
MehrSeminar: Multi-Core Architectures and Programming
Seminar: Multi-Core Architectures and Programming Parallelisierung des Viola-Jones Algorithmus auf Tilera Hardware-Software-Co-Design Universität Erlangen-Nürnberg 1 Übersicht Einleitung Erste Versuche
MehrComputer Graphics Shader
Computer Graphics Shader Sven Janusch Inhalt Fixed Function Pipeline Programmable Pipeline Implementierung Applikation Beispiel Sven Janusch 2 Fixed Function Pipeline T&L Pipeline (Transformation and Lighting)
MehrFPGA-basierte Automatisierungssysteme
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur FPGA-basierte Automatisierungssysteme Stephan Hensel Dresden, 05.12.2012 Gliederung
MehrABLEITUNG ZUSÄTZLICHER STEUERGRÖSSEN FÜR DIE STRAHLFORMUNG IN EINEM LASER-SCANNER IM ECHTZEITBETRIEB
Fakultät Informatik, Institut für Technische Informatik ABLEITUNG ZUSÄTZLICHER STEUERGRÖSSEN FÜR DIE STRAHLFORMUNG IN EINEM LASER-SCANNER IM ECHTZEITBETRIEB Studienarbeit Patrick Schöps Dresden, 09.02.2017
MehrEine kurze Geschichte der Grafikkarten
3.1 Einführung Eine kurze Geschichte der Grafikkarten ursprünglich: Graphics Card steuert Monitor an Mitte 80er: Grafikkarten mit 2D-Beschleunigung angelehnt an Arcade- und Home-Computer frühe 90er: erste
Mehr