Untersuchungen zur Implementierung von Genom-Alignmentalgorithmen auf modernen parallelen Plattformen

Größe: px
Ab Seite anzeigen:

Download "Untersuchungen zur Implementierung von Genom-Alignmentalgorithmen auf modernen parallelen Plattformen"

Transkript

1 Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Untersuchungen zur Implementierung von Genom-Alignmentalgorithmen auf modernen parallelen Plattformen Belegverteidigung Oliver Knodel - Oliver.Knodel@mailbox.tu-dresden.de Dresden,

2 01 Einleitung Problemstellung 1. Neu gewonnene DNA-Sequenzen werden als erstes mit den bekannten Datenbanken abgeglichen, um Eigenschaften zu ermitteln Inexakte Suche Ergebnis ist die Position in der Datenbank 2. Exponentielles Wachstum der Datenbanken (mehrere Milliarden Basenpaare) 3. Neue kostengünstige und automatisierte Sequenzierungsverfahren haben in den letzten Jahren zum Short Read Mapping Problem [TS09] geführt Kurze Sequenzen (Reads) von Basenpaaren Ein Durchlauf von 2-3 Tagen erzeugt mehrere Millionen Reads Suche mit großen Computer-Clustern dauert mehrere Tage und solche Systeme sind nicht für jeden verfügbar Schnelle kostengünstige Lösungen erforderlich TU Dresden, Genom-Alignmentalgorithmen Folie 2 von 25

3 01 Einleitung 02 Algorithmen 03 Plattformen 04 Umsetzung 05 Ergebnisse 06 Zusammenfassung & Ausblick TU Dresden, Genom-Alignmentalgorithmen Folie 3 von 25

4 02 Alignment-Algorithmen Alignment-Algorithmen passen zwei Sequenzen aneinander an und liefern einen Wert (Score), der etwas über ihre Ähnlichkeit aussagt Um einen hohen Score zu erreichen, werden Mismatches und Gaps eingefügt Die Algorithmen können für die inexakte Suche in Datenbanken eingesetzt werden Ergebnis einer Datenbanksuche ist die Position, an der ein bestimmter Schwellwert für den Score überschritten wird Schwellwert muss vor der Suche festgelegt werden Match Insertion T C G T T G C G A A T C T C - T T G C G C A T C Deletion Mismatch TU Dresden, Genom-Alignmentalgorithmen Folie 4 von 25

5 02 Alignment-Algorithmen Smith & Waterman [Han06] Algorithmus zum lokalen Alignment Exaktes Verfahren (liefert immer optimales Alignment) Matrixfelder werden in Abhängigkeit voneinander berechnet Zeit- und Speicherkomplexität von O(m n) M(i 1, j) + g, j }{{} t T C G T T G T C T A Insertion i s M(i, j 1) + g, }{{} T M(i, j) = max Deletion G M(i 1, j 1) + p(s i, t j ), T }{{} A Match / Mismatch T A T C G T T G T C T A T G T A T A TU Dresden, Genom-Alignmentalgorithmen Folie 5 von 25

6 02 Alignment-Algorithmen Basic Local Alignment Search Tool [Han06] Heuristisches Verfahren zur Datenbanksuche für lange Sequenzen (bis zu Basenpaare) bestehend aus drei Teilschritten: 1. Exakter Treffer der Länge w wird gesucht Datenbanksequenz 2. Suche eines zweiten Hits mit maximalem Abstandes A w A 3. Hits werden mit Matches, Mismatches und Gaps ausgedehnt TU Dresden, Genom-Alignmentalgorithmen Folie 6 von 25

7 02 Alignment-Algorithmen Short Read Mapper - Bowtie [TS09] Gezielte Suche in Datenbanken mit Hilfe der Burrows-Wheeler-Transformation Hohe Geschwindigkeit, da nie die komplette Datenbank durchsucht wird Ausgelegt für Reads von bp Einfügen von maximal 2 Mismatches über Backtracking (keine Gaps) T = ATTGCGGTA$ $ATTGCGGTA A$ATTGCCGT ATTGCGGTA$ CGGTA$ATTG GCGGTA$ATT GGTA$ATTGC GTA$ATTGCG TA$ATTGCGG TGCGGTA$AT TTGCGGTA$A BWT(T) = AT$GTCGGTA Index = 3 LF(top, G) LF(bot, G) Suche: TCG $ A A T A $ C G G T G C G G T G T T T A TU Dresden, Genom-Alignmentalgorithmen Folie 7 von 25

8 03 Plattformen GPU - Graphics Processing Unit Single Instruction Multiple Thread (bzw MD) Hohe Speicherbandbreite (144 GByte/s) Floating-Point Leistung doppelter Genauigkeit von bis zu 515 GigaFLOPs Energieverbrauch von Watt [Niv10] Programierung mit CUDA (Compute Unified Device Architecture) C/C++ Code mit CUDA Erweiterungen Trennung von Programmierung und Grafikhardware TU Dresden, Genom-Alignmentalgorithmen Folie 8 von 25

9 03 Plattformen FPGA - Field Programmable Gate Array Konfigurierbare Hardware Programmierung mit Hardwarebeschreibungssprachen wie VHDL (Very High Speed Integrated Circuit Hardware Description Language) Taktrate von MHz Energieverbrauch von 1-5 Watt [Xil09] TU Dresden, Genom-Alignmentalgorithmen Folie 9 von 25

10 03 Plattformen Zusammenfassung 1. GPU Vorteile Viele Streaming Prozessoren mit hoher Taktrate Hohe Speicherbandbreite Einfache Erweiterung eines C-Programmes mit CUDA möglich Nachteil Hoher Energieverbrauch 2. FPGA Vorteile Direkte Umsetzung eines Algorithmus in Hardware Geringe Taktrate, aber schnelle interne Logik und Verbindungsleitungen Sehr geringer Energieverbrauch Viele Kommunikationsschnittstellen (PCIe-x1, Gigabit-Ethernet) Nachteil Aufwändige Beschreibung der Hardware mit VHDL TU Dresden, Genom-Alignmentalgorithmen Folie 10 von 25

11 04 Implementierung Auswahl des Algorithmus 1. Smith & Waterman Kann durch seine einfache Struktur einfach auf SIMD-Plattformen umgesetzt werden Hoher Aufwand, wenn die gesamte Matrix berechnet wird 2. BLAST Nicht effizient auf Short Read Mapping Problem erweiterbar Unterschiedliche Phasen erschweren Umsetzung auf einer SIMD-Plattform 3. Bowtie Hohe Geschwindigkeit Eigentlicher Suchalgorithmus sehr schlecht parallelisierbar Schlechtes Verhalten in Bezug auf Mismatches Smith & Waterman-Algorithmus TU Dresden, Genom-Alignmentalgorithmen Folie 11 von 25

12 04 Umsetzung Anpassung des Algorithmus an kurze Reads I Datenbanksequenz Pos max Datenbank Sequenz max max max Score Read max Score [LST07] Verkleinerung der Matrix auf direkte Umgebung der Diagonalen Aufwand auf 4,94 % der kompletten Matrix mit Feldern reduziert Needleman-Wunsch-Algorithmus für globales Alignment zur Berechnung Datenbank schrittweise um eine Position weiter schieben TU Dresden, Genom-Alignmentalgorithmen Folie 12 von 25

13 04 Umsetzung Anpassung des Algorithmus an kurze Reads II Das Short Read Mapping Problem sieht keine Gaps vor Lediglich Mismatches werden akzeptiert Weitere Verkleinerung der Matrix auf die Diagonale Pos Datenbank XOR + XOR + XOR + XOR Score Read TU Dresden, Genom-Alignmentalgorithmen Folie 13 von 25

14 04 Umsetzung Auswahl der Plattform I 1. GPU Für eine Umsetzung auf einer GPU verspricht der vorgestellte reduzierte Smith & Waterman-Algorithmus eine geringe Laufzeit und eine hohe Parallelität 2. FPGA Die Mismatches können über die komplette Länge des Reads mit einfacher Kombinatorik ermittelt und gezählt werden Die Datenbank kann über Gigabit-Ethernet gestreamt werden und der Engpass Speicher wird umgangen TU Dresden, Genom-Alignmentalgorithmen Folie 14 von 25

15 04 Umsetzung Auswahl der Plattform II FPGA-Ansatz mit erweitertem Intuitiven Suchalgorithmus verspricht hohe Geschwindigkeit bei hoher Parallelität durch geringen Hardwareaufwand Pos Datenbank XOR + XOR + XOR + XOR Score Read TU Dresden, Genom-Alignmentalgorithmen Folie 15 von 25

16 04 Umsetzung Implementierung - Vergleicher Vergleichs-Einheit Pos Text T(N,0) T(N,1) Read Bit 32 Bit Register Register R(N,0) R(N,1) XOR XOR 1 & Bit Mismatch Zähler 32 ValidN 7 Register enable 9 found 7 32 dat Zähler inc 4 Control MUX adr 10 Block RAM enable 32 Vergleich N = ((R (N,0) T (N,0) ) (R (N,1) T (N,1) )) Valid N TU Dresden, Genom-Alignmentalgorithmen Folie 16 von 25

17 04 Umsetzung Implementierung - Zähler 7 Bit Register 7 < = found 7 + mis_count 5,57 ns Bit Register + < = found_left mis_count_left 6 Bit Register + < = found_right mis_count_right Pipelinestufe - 20 Bit Register ,98 ns Bit des kombinatorischen Vergleiches TU Dresden, Genom-Alignmentalgorithmen Folie 17 von 25

18 04 Umsetzung Implementierung - Gesamtüberblick Steuerinformationen 8 Text Bit Schieberegister inc 192 inc 192 Modul 1 Pos Modul 60 4 Control Ethernet- Controller 32 dat 10 adr 32 dat kbit Block Ram kbit Block Ram dat 10 adr 32 dat 10 adr adr 60 enable MUX 6 Positionen 32 Reads TU Dresden, Genom-Alignmentalgorithmen Folie 18 von 25

19 05 Ergebnisse Implementierung - Erreichte Parallelität FPGA Virtex-5 LX50T Virtex-6 LX240T Parallele Einheiten Register (94 %) (47 %) s (80 %) (80 %) Block-RAM 60 (100 %) 400 (96 %) Maximale Taktrate 100 MHz 200 MHz Verlustleistung 1 1,314 W 1,243 W Vergleiche/s 96 bp Vergleiche/s 48 bp Erforderliche Datenrate 200 MBit/s 400 MBit/s 1 Summe aus statischer und dynamischer Verlustleistung, ermittelt mit Xilinx ISE 12 XPower Analyzer TU Dresden, Genom-Alignmentalgorithmen Folie 19 von 25

20 05 Ergebnisse Theoretischer Speedup Datenbank: bp Suchsequenzen (100 bp) Speedup Smith-Waterman BLAST GPU Smith-Waterman MPI-BLAST Nvidia GTX 8800 (32 x Intel Core 2 Duo) 128 Stream Prozessoren Speedup FPGA-Virtex5 Speedup FPGA-Virtex6 Testsystem: Intel Core 2 Duo 2,66 GHz, 3,8 GByte RAM, ein Thread MPI-BLAST: Idealer Speedup - SWA-GPU [MV08]: Speedup für lange Sequenzen von 40 TU Dresden, Genom-Alignmentalgorithmen Folie 20 von 25

21 05 Ergebnisse Kosten 15 GPUs sind notwendig, um die Geschwindigkeit des FPGAs zu erreichen Anschaffungskosten 1. Virtex-5 (ML505) e 2. Nvidia GTX 200 e Nvidia GTX e Betriebskosten ( Stunden) 1. Virtex-5 (ML505) 1,31 Watt 11,48 KWh 2,30 e 2. Nvidia GTX 200,00 Watt 1.927,00 KWh Nvidia GTX ,00 KWh 5.781,00 e 0,20 e je KWh (Drewag 2010) TU Dresden, Genom-Alignmentalgorithmen Folie 21 von 25

22 06 Zusammenfassung und Ausblick Hohe Geschwindigkeit Exaktes und garantiertes Ergebnis für jeden Read Unabhängig von der Größe der Datenbank und Anzahl der Mismatches Geringe Einführungs- und Betriebskosten Netzwerk DB... TU Dresden, Genom-Alignmentalgorithmen Folie 22 von 25

23 07 Quellen I [Niv10] Nvidia Visual Computing Technologies [MV08] Manavski, S. and Valle, G. CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment BMC bioinformatics 2008 [Han06] Hansen, Andrea Bioinformatik: Ein Leitfaden für Naturwissenschaftler 2006 [KH10] Kirk, B. and Hwu, W. Programming Massively Parallel Processors 2010 [Xi09] Xilinx Virtex-5 FPGA User Guide TU Dresden, Genom-Alignmentalgorithmen Folie 23 von 25

24 07 Quellen II [Xi10] Xilinx Virtex-6 FPGA User Guide [TS09] Trapnell, C. and Salzberg, SL How to map billions of short reads onto genomes Nature biotechnology 2009 [Mar08] Mardis, E.R. The impact of next-generation sequencing technology on genetics Trends in Genetics 2008 [LST07] Li, I.T.S. and Shum, W. and Truong, K. 160-fold acceleration of the Smith-Waterman algorithm using a field programmable gate array(fpga) BMC bioinformatics 2007 TU Dresden, Genom-Alignmentalgorithmen Folie 24 von 25

25 TU Dresden, Genom-Alignmentalgorithmen Folie 25 von 25

26 08 Anhang Datenbanken 1E+11 1E+08 1E+10 1E+07 1E+09 1E+06 Basenpaare 1E+08 1E+05 Sequenzen 1E+07 1E+04 1E+06 1E+03 1E E+02 Basenpaare DNA Sequenzen TU Dresden, Genom-Alignmentalgorithmen Folie 26 von 25

27 08 Anhang Sequenzalignment - Dotplot Dotplots liefern kein Alignment, sondern nur einen Überblick über die Ähnlichkeit der Sequenzen zueinander. A T A C G A A G A A A T A C G A A G A A A T A C G A A G A A A T A C G A A G A A T C G T T G T G A A T C - T T G T G C A T C G T T G T G A A T C T T G T G C A T C G T T G T C T A G T C T A T C G T T T C G T T G T C T A G T C T A T C G T T TU Dresden, Genom-Alignmentalgorithmen Folie 27 von 25

28 08 Anhang Ein Read (1.000 Basenpaare) Datenbank: bp Laufzeit / s ,43 Smith-Waterman FASTA BLAST 3,5 Testsystem: Intel Core 2 Duo 2,66 GHz, 3,8 GByte RAM, ein Thread TU Dresden, Genom-Alignmentalgorithmen Folie 28 von 25

29 08 Anhang Ein Read (100 Basenpaare) Datenbank: bp , ,15 Laufzeit / s ,77 3,44 4,18 Smith-Waterman FASTA BLAST Bowtie Maq Testsystem: Intel Core 2 Duo 2,66 GHz, 3,8 GByte RAM, ein Thread TU Dresden, Genom-Alignmentalgorithmen Folie 29 von 25

30 08 Anhang Reads (100 Basenpaare) Datenbank: bp Laufzeit / s Smith-Waterman FASTA BLAST Bowtie Maq Testsystem: Intel Core 2 Duo 2,66 GHz, 3,8 GByte RAM, ein Thread TU Dresden, Genom-Alignmentalgorithmen Folie 30 von 25

31 08 Anhang Ergebnisse - Bowtie, Maq [TS09] 70!% 62!% 65!% 67!% 67!% 52,5!% Reads aligned 35!% 44!% 45!% 17,5!% 0!% Bowtie Maq TU Dresden, Genom-Alignmentalgorithmen Folie 31 von 25

32 08 Anhang Theoretischer Speedup Datenbank: bp Suchsequenzen (100 bp) Speedup Smith-Waterman BLAST GPU Smith-Waterman MPI-BLAST Nvidia GTX 8800 (32 x Intel Core 2 Duo) 128 Stream Prozessoren Speedup FPGA-Virtex5 Speedup FPGA-Virtex6 Testsystem: Intel Core 2 Duo 2,66 GHz, 3,8 GByte RAM, ein Thread MPI-BLAST: Idealer Speedup - SWA-GPU: Speedup für lange Sequenzen von 40 [MV08] TU Dresden, Genom-Alignmentalgorithmen Folie 32 von 25

33 08 Anhang GPU - Architektur der Tesla 8 Host System Memory GPU Host Interface Input Assembler Setup/Raster Vertex Work Distribution Pixel Work Distribution Setup/Raster MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MEM MEM Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache Interconnection Network Raster Operations Processor Raster Raster L2 Cache Operations L2 Cache Operations L2 Cache Processor Processor Raster Operations Processor L2 Cache DRAM DRAM DRAM DRAM Insgesamt 128 Streamprozessoren mit MHz Jeder Streamprozessor kann 96 Threads verwalten Maximal sind Threads möglich TU Dresden, Genom-Alignmentalgorithmen Folie 33 von 25

34 08 Anhang GPU - CUDA Programmiermodell Programmsequenz Grid 0 Host Block 0,0 Block 1,0 grid_0<<< (2,2),(2,3) >>>; Block 0,1 Block 1,1 Block 0,1 Thread 0,0 Thread 1,0 Thread 2,0 Thread 0,1 Thread 1,1 Thread 2,1 Block- Speicher Globaler Speicher Synchronisationsbarriere Grid 1 grid_1<<< 2,4 >>>; Block 0 Block 1 Block 0 Thread 0 Thread 1 Thread 2 Thread 3 Block- Speicher TU Dresden, Genom-Alignmentalgorithmen Folie 34 von 25

35 08 Anhang FPGA - Architektur Virtex Slices s / Flip-Flops KBit interner Dual Port Speicher (Block RAM) Slice FF FF FF FF PSM CLB Slice Slice IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB CLB CLB CLB CLB IOB IOB PSM PSM PSM IOB CLB CLB CLB CLB IOB PSM PSM PSM IOB CLB CLB CLB CLB IOB PSM PSM PSM IOB CLB CLB CLB CLB IOB IOB IOB IOB IOB IOB IOB IOB IOB TU Dresden, Genom-Alignmentalgorithmen Folie 35 von 25

36 08 Anhang FPGA - ML-505 Mögliche Schnittstellen zur Kommunikation: Gigabit-Ethernet USB PCIe TU Dresden, Genom-Alignmentalgorithmen Folie 36 von 25

37 08 Anhang Implementierung - Speicherverwaltung Ausgangsdaten: n 31 0 Auswahl 6 Bit Teil- Match 2 6 Bit Teil- Match 1 7 Bit Match n+1 Read - Teil n+9 Read - Teil Ergebnisdaten: n Found 6 Bit Teil- Match 2 6 Bit Teil- Match 1 7 Bit Match n+1 Position 31 TU Dresden, Genom-Alignmentalgorithmen Folie 37 von 25 0

38 08 Anhang Implementierung - Zustände adr_count +1 start_shift <= '1' start_search <= '1' Daten senden adr_count_res <= '1' eth_end = '1' Suchen warten din(31) = '1' and last_unit = '1' Text laden start_shift <= '1' adr_count + 1 adr_count_res <= '1' eth_start = '1' Daten empfangen adr_count + 1 adr_count = 150 search_count_res <= '1' adr_count_res <= '1' adr_count = 9 VE laden search_count +1 adr_count + 1 load_data <= '1' search_counter_res <= '1' adr_count_res <= '1' TU Dresden, Genom-Alignmentalgorithmen Folie 38 von 25

39 08 Anhang Implementierung - Module Zur Erhöhung der Vergleichseinheiten unabhängig vom Block RAM können sich mehrere Einheiten einen Block RAM teilen VE 1 VE 32 dat 10 adr 32 kbit Block Ram 32 dat 9 adr 32 dat 32 kbit Block Ram MUX 10 adr 0 32 dat 10 adr 32 dat 9 adr 1 32 dat 10 adr Modul mit einer VE VE 2 Modul mit zwei VEs TU Dresden, Genom-Alignmentalgorithmen Folie 39 von 25

40 08 Anhang GPU - CUDA Beispiel Beispielberechnung z = a x + y in C: void calc_serial ( int n, float alpha, float *x, float *y) { for ( int i; i<n; ++i) y[i] = alpha * x[i] + y[i]; } // Funktionsaufruf calc_serial (n, alpha, x, y); in CUDA: global void calc_parallel ( int n, float alpha, float *x, float *y) { int i = ( blockldx.x * blockdim.x) + threadldx.x; if (i < n) y[i] = alpha * x[i] + y[i]; } // starte Kernel mit 256 Threads je Block int nblocks = (n + 255) / 256; calc_parallel <<<nblocks,256>>>(n, 2.0, x, y); TU Dresden, Genom-Alignmentalgorithmen Folie 40 von 25

Implementierung des Genom-Alignments auf modernen hochparallelen Plattformen

Implementierung des Genom-Alignments auf modernen hochparallelen Plattformen Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Implementierung des Genom-Alignments auf modernen hochparallelen Plattformen Vortrag

Mehr

Implementierung des Genom-Alignments auf modernen hochparallelen Plattformen

Implementierung des Genom-Alignments auf modernen hochparallelen Plattformen Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Implementierung des Genom-Alignments auf modernen hochparallelen Plattformen Diplomverteidigung

Mehr

Untersuchung und Vorstellung moderner Grafikchiparchitekturen

Untersuchung und Vorstellung moderner Grafikchiparchitekturen Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Untersuchung und Vorstellung moderner Grafikchiparchitekturen Hauptseminar Technische

Mehr

LEISTUNGSVERGLEICH VON FPGA, GPU UND CPU FÜR ALGORITHMEN ZUR BILDBEARBEITUNG PROSEMINAR INF-B-610

LEISTUNGSVERGLEICH VON FPGA, GPU UND CPU FÜR ALGORITHMEN ZUR BILDBEARBEITUNG PROSEMINAR INF-B-610 LEISTUNGSVERGLEICH VON FPGA, GPU UND CPU FÜR ALGORITHMEN ZUR BILDBEARBEITUNG PROSEMINAR INF-B-610 Dominik Weinrich dominik.weinrich@tu-dresden.de Dresden, 30.11.2017 Gliederung Motivation Aufbau und Hardware

Mehr

General Purpose Computation on GPUs

General Purpose Computation on GPUs General Purpose Computation on GPUs Matthias Schneider, Robert Grimm Universität Erlangen-Nürnberg {matthias.schneider, robert.grimm}@informatik.stud.uni-erlangen.de M. Schneider, R. Grimm 1 Übersicht

Mehr

Technische Universität Dresden Fakultät Informatik Institut für Technische Informatik Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur

Technische Universität Dresden Fakultät Informatik Institut für Technische Informatik Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Technische Universität Dresden Fakultät Informatik Institut für Technische Informatik Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Diplomarbeit Implementierung des Genom-Alignments auf

Mehr

Grafikkarten-Architektur

Grafikkarten-Architektur > Grafikkarten-Architektur Parallele Strukturen in der GPU Name: Sebastian Albers E-Mail: s.albers@wwu.de 2 > Inhalt > CPU und GPU im Vergleich > Rendering-Pipeline > Shader > GPGPU > Nvidia Tesla-Architektur

Mehr

CUDA. Moritz Wild, Jan-Hugo Lupp. Seminar Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg

CUDA. Moritz Wild, Jan-Hugo Lupp. Seminar Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg CUDA Seminar Multi-Core Architectures and Programming 1 Übersicht Einleitung Architektur Programmierung 2 Einleitung Computations on GPU 2003 Probleme Hohe Kenntnisse der Grafikprogrammierung nötig Unterschiedliche

Mehr

Verteidigung der Bachelorarbeit, Willi Mentzel

Verteidigung der Bachelorarbeit, Willi Mentzel Verteidigung der Bachelorarbeit, Willi Mentzel Motivation U.S. Energy Consumption Breakdown 3x Durchschnittliche Leistungsaufnahme 114 Millionen kw Hohes Optimierungspotential 2 Ziele für Energieoptimierung

Mehr

OpenCL. OpenCL. Boris Totev, Cornelius Knap

OpenCL. OpenCL. Boris Totev, Cornelius Knap OpenCL OpenCL 1 OpenCL Gliederung Entstehungsgeschichte von OpenCL Was, warum und überhaupt wieso OpenCL CUDA, OpenGL und OpenCL GPUs OpenCL Objekte Work-Units OpenCL Adressbereiche OpenCL API Codebeispiel

Mehr

Praxiseinheit: Realisierung einer hardwarebeschleunigten Disparitätenberechnung zur automatischen Auswertung von Stereobildern

Praxiseinheit: Realisierung einer hardwarebeschleunigten Disparitätenberechnung zur automatischen Auswertung von Stereobildern Praxiseinheit: Realisierung einer hardwarebeschleunigten Disparitätenberechnung zur automatischen Auswertung von Stereobildern Institut für Betriebssysteme und Rechnerverbund TU Braunschweig 25.10., 26.10.

Mehr

Compute Unified Device Architecture CUDA

Compute Unified Device Architecture CUDA Compute Unified Device Architecture 06. Februar 2012 1 / 13 Gliederung 2 / 13 : Compute Unified Device Architecture entwickelt von Nvidia Corporation spezifiziert Software- und Hardwareeigenschaften Ziel:

Mehr

Übersicht aktueller heterogener FPGA-SOCs

Übersicht aktueller heterogener FPGA-SOCs Fakultät Informatik, Institut für Technische Informatik, Professur VLSI-Entwurfssysteme, Diagnostik und Architektur Übersicht aktueller heterogener FPGA-SOCs Vortrag zum Lehrstuhlseminar Tilo Zschau tilo.zschau@mailbox.tu-dresden.de

Mehr

FPGA Systementwurf. Rosbeh Etemadi. Paderborn University. 29. Mai 2007

FPGA Systementwurf. Rosbeh Etemadi. Paderborn University. 29. Mai 2007 Paderborn Center for Parallel l Computing Paderborn University 29. Mai 2007 Übersicht 1. FPGAs 2. Entwicklungssprache VHDL 3. Matlab/Simulink 4. Entwicklungssprache Handel-C 5. Fazit Übersicht FPGAs 1.

Mehr

FPGA Field Programmable Gate Array im Unterschied zu anderen PLD-Architekturen.

FPGA Field Programmable Gate Array im Unterschied zu anderen PLD-Architekturen. FPGA Field Programmable Gate Array im Unterschied zu anderen PLD-Architekturen. Kasdaghli Ameni Inhalt. Die Klassifizierung von ASIC 2. Simple Programmable Logic Device SPLD 3. Complex Programmable Logic

Mehr

OpenCL. Programmiersprachen im Multicore-Zeitalter. Tim Wiersdörfer

OpenCL. Programmiersprachen im Multicore-Zeitalter. Tim Wiersdörfer OpenCL Programmiersprachen im Multicore-Zeitalter Tim Wiersdörfer Inhaltsverzeichnis 1. Was ist OpenCL 2. Entwicklung von OpenCL 3. OpenCL Modelle 1. Plattform-Modell 2. Ausführungs-Modell 3. Speicher-Modell

Mehr

Paralleler Cuckoo-Filter. Seminar: Implementierungstechniken für Hauptspeicherdatenbanksysteme Jeremias Neth München, 21.

Paralleler Cuckoo-Filter. Seminar: Implementierungstechniken für Hauptspeicherdatenbanksysteme Jeremias Neth München, 21. Paralleler Cuckoo-Filter Seminar: Implementierungstechniken für Hauptspeicherdatenbanksysteme Jeremias Neth München, 21. November 2017 1 Paralleler Cuckoo-Filter Cuckoo-Hashtabelle Serieller Cuckoo-Filter

Mehr

Stream Processing und High- Level GPGPU Sprachen

Stream Processing und High- Level GPGPU Sprachen Stream Processing und High- Level GPGPU Sprachen Seminar Programmierung von Grafikkarten Jens Breitbart Problem 5000% 4000% 3000% 2000% Rechenleistung: +71% pro Jahr Bandbreite: +25% pro Jahr Zugriffszeit:

Mehr

RST-Labor WS06/07 GPGPU. General Purpose Computation On Graphics Processing Units. (Grafikkarten-Programmierung) Von: Marc Blunck

RST-Labor WS06/07 GPGPU. General Purpose Computation On Graphics Processing Units. (Grafikkarten-Programmierung) Von: Marc Blunck RST-Labor WS06/07 GPGPU General Purpose Computation On Graphics Processing Units (Grafikkarten-Programmierung) Von: Marc Blunck Ablauf Einführung GPGPU Die GPU GPU Architektur Die Programmierung Programme

Mehr

GPGPU Basiskonzepte. von Marc Kirchhoff GPGPU Basiskonzepte 1

GPGPU Basiskonzepte. von Marc Kirchhoff GPGPU Basiskonzepte 1 GPGPU Basiskonzepte von Marc Kirchhoff 29.05.2006 GPGPU Basiskonzepte 1 Inhalt Warum GPGPU Streams, Kernels und Prozessoren Datenstrukturen Algorithmen 29.05.2006 GPGPU Basiskonzepte 2 Warum GPGPU? Performance

Mehr

Cell and Larrabee Microarchitecture

Cell and Larrabee Microarchitecture Cell and Larrabee Microarchitecture Benjamin Grund Dominik Wolfert Universität Erlangen-Nürnberg 1 Übersicht Einleitung Herkömmliche Prozessorarchitekturen Motivation für Entwicklung neuer Architekturen

Mehr

Rheinisch-Westfälische Technische Hochschule Aachen. Seminararbeit

Rheinisch-Westfälische Technische Hochschule Aachen. Seminararbeit Rheinisch-Westfälische Technische Hochschule Aachen Seminararbeit Analyse von General Purpose Computation on Graphics Processing Units Bibliotheken in Bezug auf GPU-Hersteller. Gregori Kerber Matrikelnummer

Mehr

3D-Punktkorrelation auf Basis von 2D-Bildern auf einer FPGA-Plattform

3D-Punktkorrelation auf Basis von 2D-Bildern auf einer FPGA-Plattform Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI Entwurfssysteme, Diagnostik und Architektur 3D-Punktkorrelation auf Basis von 2D-Bildern auf einer FPGA-Plattform Verteidigung

Mehr

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?

Mehr

Pairwise Alignment. Steffen Forkmann. Proseminar: BioInformatik

Pairwise Alignment. Steffen Forkmann. Proseminar: BioInformatik Pairwise Alignment Steffen Forkmann Proseminar: BioInformatik Wintersemester 2004/2005 Inhaltsverzeichnis 1 Problemstellungen 3 1.1 Rechtschreibkorrektur............................... 3 1.2 DNA- und Aminosäure-Sequenzen........................

Mehr

Multicore-Architekturen

Multicore-Architekturen Universität Erlangen- Nürnberg Technische Universität München Universität Stuttgart Multicore-Architekturen Vortrag im Rahmen der Ferienakademie 2009 Kurs 1: Programmierkonzepte für Multi-Core Rechner

Mehr

3D-Punktkorrelation auf Basis von 2D-Bildern auf einer FPGA-Plattform

3D-Punktkorrelation auf Basis von 2D-Bildern auf einer FPGA-Plattform Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI Entwurfssysteme, Diagnostik und Architektur 3D-Punktkorrelation auf Basis von 2D-Bildern auf einer FPGA-Plattform Zwischenvortrag

Mehr

CPU, GPU und FPGA. CPU, GPU und FPGA Maximilian Bandle, Bianca Forkel 21. November 2017

CPU, GPU und FPGA. CPU, GPU und FPGA Maximilian Bandle, Bianca Forkel 21. November 2017 CPU, GPU und FPGA, Bianca Forkel 21. November 2017 CPU, GPU und FPGA Inhalt CPU: Central Processing Unit GPU: Graphical Processing Unit FPGA: Field Programmable Gate Array 2 CPU Central Processing Unit

Mehr

Die Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien

Die Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur, Prof. Spallek Die Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien Tobias Berndt, to.berndt@t-online.de

Mehr

GPU-Programmierung: OpenCL

GPU-Programmierung: OpenCL Seminar: Multicore Programmierung Sommerstemester 2009 04.06.2009 Inhaltsverzeichnis 1 GPU-Programmierung von Grafikkarten von GPU-Computing 2 Architektur Spracheigenschaften Vergleich mit CUDA Beispiel

Mehr

Analyse von Ansätzen zur Beschleunigung von SAT - Lösern durch dedizierte Hardware Komponenten

Analyse von Ansätzen zur Beschleunigung von SAT - Lösern durch dedizierte Hardware Komponenten Analyse von Ansätzen zur Beschleunigung von SAT - Lösern durch dedizierte Hardware Komponenten E. Zenker 9. November 2011 1 / 28 Gliederung 1. Field Programmable Gate Array - FPGA 2. Satisfiability Testing

Mehr

Untersuchungen zur effizienten Implementierung eines mathematischen Algorithmus in einem FPGA am Beispiel eines Sudoku-Lösers

Untersuchungen zur effizienten Implementierung eines mathematischen Algorithmus in einem FPGA am Beispiel eines Sudoku-Lösers Fakultät Informatik - Institut für Technische Informatik - Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Vortrag zum Diplom Untersuchungen zur effizienten Implementierung eines mathematischen

Mehr

Physikalische Berechnungen mit General Purpose Graphics Processing Units (GPGPUs)

Physikalische Berechnungen mit General Purpose Graphics Processing Units (GPGPUs) Fakultätsname XYZ Fachrichtung XYZ Institutsname XYZ, Professur XYZ Physikalische Berechnungen mit General Purpose Graphics Processing Units (GPGPUs) im Rahmen des Proseminars Technische Informatik Juni

Mehr

Untersuchungen zur effizienten Implementierung eines mathematischen Algorithmus in einem FPGA am Beispiel eines Sudoku-Lösers

Untersuchungen zur effizienten Implementierung eines mathematischen Algorithmus in einem FPGA am Beispiel eines Sudoku-Lösers Fakultät Informatik - Institut für Technische Informatik - Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Vortrag zum Diplom Untersuchungen zur effizienten Implementierung eines mathematischen

Mehr

Motivation (GP)GPU CUDA Zusammenfassung. CUDA und Python. Christian Wilms. Integriertes Seminar Projekt Bildverarbeitung

Motivation (GP)GPU CUDA Zusammenfassung. CUDA und Python. Christian Wilms. Integriertes Seminar Projekt Bildverarbeitung CUDA und Python Christian Wilms Integriertes Seminar Projekt Bildverarbeitung Universität Hamburg WiSe 2013/14 12. Dezember 2013 Christian CUDA und Python 1 Gliederung 1 Motivation 2 (GP)GPU 3 CUDA 4 Zusammenfassung

Mehr

Entwurf eines FPGA-Cores zur Simulationsbeschleunigung zeitkontinuierlicher Modelle im HiL Kontext

Entwurf eines FPGA-Cores zur Simulationsbeschleunigung zeitkontinuierlicher Modelle im HiL Kontext Entwurf eines FPGA-Cores zur Simulationsbeschleunigung zeitkontinuierlicher Modelle im HiL Kontext Till Fischer 03.11.2011 FZI Forschungszentrum Informatik Embedded Systems & Sensors Engineering (ESS)

Mehr

Realisierung einer MC-basierten Optionspreisberechnung mit FloPoCo

Realisierung einer MC-basierten Optionspreisberechnung mit FloPoCo Fakultät Informatik, Institut für Technische Informatik, Professur VLSI-Entwurfssysteme, Diagnostik und Architektur Realisierung einer MC-basierten Optionspreisberechnung mit FloPoCo Christian Skubich

Mehr

GPGPU WITH OPENCL. Praktikum Parallele Rechnerarchitekturen, 2015w Franz Richter-Gottfried

GPGPU WITH OPENCL. Praktikum Parallele Rechnerarchitekturen, 2015w Franz Richter-Gottfried GPGPU WITH OPENCL Praktikum Parallele Rechnerarchitekturen, 2015w Franz Richter-Gottfried INFRASTRUCTURE Enqueue interactive job srun --gres --pty bash Graphics cards available for tesla_k20,

Mehr

Gliederung. Was ist CUDA? CPU GPU/GPGPU CUDA Anwendungsbereiche Wirtschaftlichkeit Beispielvideo

Gliederung. Was ist CUDA? CPU GPU/GPGPU CUDA Anwendungsbereiche Wirtschaftlichkeit Beispielvideo Gliederung Was ist CUDA? CPU GPU/GPGPU CUDA Anwendungsbereiche Wirtschaftlichkeit Beispielvideo Was ist CUDA? Nvidia CUDA ist eine von NvidiaGPGPU-Technologie, die es Programmierern erlaubt, Programmteile

Mehr

Numerik und Rechnen. Martin Heide & Dominik Holler. 12. Juni 2006

Numerik und Rechnen. Martin Heide & Dominik Holler. 12. Juni 2006 12. Juni 2006 Bibliothek für Lineare Algebra GPGPU-Programming: Low-Level High-Level Bibliothek Bibliothek für Lineare Algebra Gliederung 1 Bibliothek für Lineare Algebra 2 Skalare Bibliothek für Lineare

Mehr

Implementierung eines universellen IPv6 Protokollstapels

Implementierung eines universellen IPv6 Protokollstapels Fakultät Informatik, Inst. für Technische Informatik, Prof. für VLSI-Entwurfssysteme, Diagnostik und Architektur Implementierung eines universellen IPv6 Protokollstapels Kolloquium zum Masterpraktikum

Mehr

Realisierung eines Speichermanagements zur Zugriffsvirtualisierung von konkurrierenden Nutzerdesigns auf Rekonfigurierbarer Hardware

Realisierung eines Speichermanagements zur Zugriffsvirtualisierung von konkurrierenden Nutzerdesigns auf Rekonfigurierbarer Hardware Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Realisierung eines Speichermanagements zur Zugriffsvirtualisierung von konkurrierenden

Mehr

HS Technische Informatik

HS Technische Informatik Technische Universität Dresden Fakultät Informatik Institut Technische Informatik HS Technische Informatik Architektur eines dynamisch rekonfigurierbaren Rechnersystems Johannes.Goerner@mailbox.tu-dresden.de

Mehr

GPGPU-Programmierung

GPGPU-Programmierung 12 GPGPU-Programmierung 2013/04/25 Diese Folien enthalten Graphiken mit Nutzungseinschränkungen. Das Kopieren der Graphiken ist im Allgemeinen nicht erlaubt. Motivation (1) General Purpose Computing on

Mehr

Partitionierung von rechenintensiven Aufgaben zwischen FPGA und CPUs

Partitionierung von rechenintensiven Aufgaben zwischen FPGA und CPUs Partitionierung von rechenintensiven Aufgaben zwischen FPGA und CPUs Embedded Computing Conference 2017 Tobias Welti, Dr. M. Rosenthal High Performance Embedded Platforms ZHAW Institute of Embedded Systems

Mehr

Architekturen, Werkzeuge und Laufzeitumgebungen für eingebettete Systeme

Architekturen, Werkzeuge und Laufzeitumgebungen für eingebettete Systeme Farbverlauf Architekturen, Werkzeuge und Laufzeitumgebungen für eingebettete Systeme Embedded Systems Christian Hochberger Professur Mikrorechner Fakultät Informatik Technische Universität Dresden Nötiges

Mehr

Algorithmische Anwendungen WS 2005/2006

Algorithmische Anwendungen WS 2005/2006 Algorithmische Anwendungen WS 2005/2006 Sequenzalignment Gruppe F_lila_Ala0506 Allal Kharaz Yassine ELassad Inhaltsverzeichnis 1 Problemstellungen...................................... 3 1.1 Rechtschreibkorrektur...............................

Mehr

Datenflussrechnen mit FPGAs für die biomedizinische Bildverarbeitung

Datenflussrechnen mit FPGAs für die biomedizinische Bildverarbeitung Datenflussrechnen mit FPGAs für die biomedizinische Bildverarbeitung Frederik Grüll, Udo Kebschull Infrastruktur und Rechnersysteme in der Informationsverarbeitung Goethe-Universität Frankfurt ZKI-Frühjahrstagung

Mehr

Plazierung von unterschiedlich großen Komponenten in gleich große rekonfigurierbare Flächen unter Berücksichtigung der Signallaufzeiten

Plazierung von unterschiedlich großen Komponenten in gleich große rekonfigurierbare Flächen unter Berücksichtigung der Signallaufzeiten Fakultät für Elektrotechnik Professur für Technische Informatik Helmut Schmidt Universität/ Universität der Bundeswehr Hamburg Plazierung von unterschiedlich großen Komponenten in gleich große rekonfigurierbare

Mehr

Yilmaz, Tolga MatNr: Mesaud, Elias MatNr:

Yilmaz, Tolga MatNr: Mesaud, Elias MatNr: Yilmaz, Tolga MatNr: 157317 Mesaud, Elias MatNr: 151386 1. Aufbau und Funktionsweise einer Grafikkarte 2. CPU vs. GPU 3. Software 4. Beispielprogramme Kompilierung und Vorführung 5. Wo wird Cuda heutzutage

Mehr

COOL HASHING MIT FPGAS. Robert Bachran

COOL HASHING MIT FPGAS. Robert Bachran COOL HASHING MIT FPGAS Robert Bachran Dresden, 16.1.2012 Einführung Grundlagen Kriterien für gute Hashverfahren Grundlagen FPGAs Hashverfahren auf FPGAs Skein auf FPGA Evolutionäre Hashverfahren Energiesparendes

Mehr

EHP Einführung Projekt A

EHP Einführung Projekt A Volker Dörsing EHP Einführung Projekt A email: doersing@uni-jena.de praktische Übung www: http://users.minet.uni-jena.de/~ehp-head Vorbereitung, Durchführung, Kolloquium Infos zur Veranstaltung, Versuchsanleitung

Mehr

Digital Image Interpolation with CUDA

Digital Image Interpolation with CUDA Digital Image Interpolation with CUDA Matthias Schwarz & Martin Rustler Hardware-Software-Co-Design Universität Erlangen-Nürnberg matthias.schwarz@e-technik.stud.uni-erlangen.de martin.rustler@e-technik.stud.uni-erlangen.de

Mehr

Architektur moderner GPUs. W. Sczygiol - M. Lötsch

Architektur moderner GPUs. W. Sczygiol - M. Lötsch Architektur moderner GPUs W. Sczygiol - M. Lötsch Überblick Chipentwicklung Aktuelle Designs Nvidia: NV40 (ATI: R420) Vertex-Shader Pixel-Shader Shader-Programmierung ROP - Antialiasing Ausblick Referenzen

Mehr

Masterpraktikum Scientific Computing

Masterpraktikum Scientific Computing Masterpraktikum Scientific Computing High-Performance Computing Thomas Auckenthaler Wolfgang Eckhardt Technische Universität München, Germany Outline Entwicklung General Purpose GPU Programming (GPGPU)

Mehr

Computergrafik Universität Osnabrück, Henning Wenke,

Computergrafik Universität Osnabrück, Henning Wenke, Computergrafik Universität Osnabrück, Henning Wenke, 2012-06-25 Kapitel XV: Parallele Algorithmen mit OpenCL 15.1 Parallele Programmierung Quellen: V.a. Wikipedia. Leistungsdaten unter Vorbehalt. Bitte

Mehr

Realisierung einer 32'768-Punkt-FFT für 2 GBytes/s Datenrate auf einem FPGA

Realisierung einer 32'768-Punkt-FFT für 2 GBytes/s Datenrate auf einem FPGA Realisierung einer 32'768-Punkt-FFT für 2 GBytes/s Datenrate auf einem FPGA Mentor User Conference 2004 - Würzburg Michael Pichler, m.pichler@zma.ch Dino Zardet, d.zardet@zma.ch Prof. Karl Schenk, k.schenk@zma.ch

Mehr

GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm. Einführung CUDA. Ralf Seidler. Friedrich-Alexander-Universität Erlangen-Nürnberg

GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm. Einführung CUDA. Ralf Seidler. Friedrich-Alexander-Universität Erlangen-Nürnberg Einführung CUDA Friedrich-Alexander-Universität Erlangen-Nürnberg PrakParRA, 18.11.2010 Outline 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell

Mehr

Masterpraktikum Scientific Computing

Masterpraktikum Scientific Computing Masterpraktikum Scientific Computing High-Performance Computing Thomas Auckenthaler Wolfgang Eckhardt Prof. Dr. Michael Bader Technische Universität München, Germany Outline Organisatorisches Entwicklung

Mehr

HW/SW Codesign 5 - Performance

HW/SW Codesign 5 - Performance HW/SW Codesign 5 - Performance Martin Lechner e1026059 Computer Technology /29 Inhalt Was bedeutet Performance? Methoden zur Steigerung der Performance Einfluss der Kommunikation Hardware vs. Software

Mehr

CUDA. Axel Jena, Jürgen Pröll. Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg Axel Jena, Jürgen Pröll 1

CUDA. Axel Jena, Jürgen Pröll. Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg Axel Jena, Jürgen Pröll 1 CUDA Axel Jena, Jürgen Pröll Multi-Core Architectures and Programming Axel Jena, Jürgen Pröll 1 Warum Tesla? Traditionelle Graphikkarten Getrennte Prozessoren für Vertex- / Pixelberechnungen - Nachteil:

Mehr

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik BLAST Basic Local Alignment Search Tool Ulf Leser Wissensmanagement in der Bioinformatik Heuristische Alignierung Annotation neuer Sequenzen basiert auf Suche nach homologen Sequenzen in

Mehr

"FlexRIO hat sich als ideale Basis für den Test schneller Kommunikationsschnittstellen erwiesen." - Michael Rost, IRS Systementwicklung GmbH

FlexRIO hat sich als ideale Basis für den Test schneller Kommunikationsschnittstellen erwiesen. - Michael Rost, IRS Systementwicklung GmbH Test von Glasfaserkommunikation bis zu 2,5 Gbit/s auf Basis von NI FlexRIO "FlexRIO hat sich als ideale Basis für den Test schneller Kommunikationsschnittstellen erwiesen." - Michael Rost, IRS Systementwicklung

Mehr

Analyse von Ansätzen zur Beschleunigung von SAT - Lösern durch dedizierte Hardware Komponenten

Analyse von Ansätzen zur Beschleunigung von SAT - Lösern durch dedizierte Hardware Komponenten Analyse von Ansätzen zur Beschleunigung von SAT - Lösern durch dedizierte Hardware Komponenten E. Zenker 24. Februar 2011 1 / 20 Gliederung 1. Satisfiability Testing 2. FPGAs 3. Aktuelle Hardware SAT Solver

Mehr

Thema: Hardware-Shader

Thema: Hardware-Shader Seminar Grafikprogrammierung Thema: Hardware-Shader Christian Bauer 03.07.08 Überblick Entwicklung Die Shader im Detail Programmierung GPGPU Zusammenfassung & Ausblick 1/19 Entwicklung (1) Früher: Berechnung

Mehr

Programmierbare Logik CPLDs. Studienprojekt B Tammo van Lessen

Programmierbare Logik CPLDs. Studienprojekt B Tammo van Lessen Programmierbare Logik CPLDs Studienprojekt B Tammo van Lessen Gliederung Programmierbare Logik Verschiedene Typen Speichertechnologie Komplexe Programmierbare Logik System On a Chip Motivation Warum Programmierbare

Mehr

Refactoring the UrQMD Model for Many- Core Architectures

Refactoring the UrQMD Model for Many- Core Architectures Refactoring the UrQMD Model for Many- Core Architectures Mathias Radtke Semiar: Softwaretechnologie (WS 2013/2014 Goethe-Universität Frankfurt Agenda: 1. UrQMD 2. CPU Vs. GPU 3. Von FORTRAN zu C++/OpenCL

Mehr

2.6 Graphikprozessoren

2.6 Graphikprozessoren 12 2.6 Graphikprozessoren Peter Marwedel Informatik 12 TU Dortmund 2012/04/16 Diese Folien enthalten Graphiken mit Nutzungseinschränkungen. Das Kopieren der Graphiken ist im Allgemeinen nicht erlaubt.

Mehr

Rechnerorganisation. 1. Juni 201 KC Posch

Rechnerorganisation. 1. Juni 201 KC Posch .6.2 Rechnerorganisation. Juni 2 KC Posch .6.2 2 .6.2 Front Side Bus Accelerated Graphics Port 28 MHz Front Side Bus North Bridge RAM idge South Bri IDE USB PCI Bus 3 .6.2 Front Side Bus Front Side Bus

Mehr

Multi-Port-Speichermanager für die Java-Plattform SHAP

Multi-Port-Speichermanager für die Java-Plattform SHAP Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Multi-Port-Speichermanager für die Java-Plattform SHAP DASS 2008 Martin Zabel, Peter

Mehr

Raytracing in GA mittels OpenACC. Michael Burger, M.Sc. FG Scientific Computing TU Darmstadt

Raytracing in GA mittels OpenACC. Michael Burger, M.Sc. FG Scientific Computing TU Darmstadt Raytracing in GA mittels OpenACC Michael Burger, M.Sc. FG Scientific Computing TU Darmstadt michael.burger@sc.tu-darmstadt.de 05.11.12 FB Computer Science Scientific Computing Michael Burger 1 / 33 Agenda

Mehr

Universelle Speicherschnittstelle für große externe Speicher

Universelle Speicherschnittstelle für große externe Speicher Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Belegverteidigung Universelle Speicherschnittstelle für große Marco Zulkowski Marco.Zulkowski@mailbox.tu-dresden.de

Mehr

GPGPU-Programmierung

GPGPU-Programmierung 12 GPGPU-Programmierung 2014/04/29 Diese Folien enthalten Graphiken mit Nutzungseinschränkungen. Das Kopieren der Graphiken ist im Allgemeinen nicht erlaubt. Motivation (1) General Purpose Computing on

Mehr

Untersuchung zur Realisierung des Hashalgorithmus Scrypt auf einer energieeffizenten parallelen Plattform Vortrag zur Belegverteidigung

Untersuchung zur Realisierung des Hashalgorithmus Scrypt auf einer energieeffizenten parallelen Plattform Vortrag zur Belegverteidigung Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Untersuchung zur Realisierung des Hashalgorithmus Scrypt auf einer energieeffizenten

Mehr

STUDIENARBEIT: ZWISCHENPRÄSENTATION

STUDIENARBEIT: ZWISCHENPRÄSENTATION STUDIENARBEIT: ZWISCHENPRÄSENTATION Trace-basierte Verifikation der FPGA-Implementierung eines MIPS-Prozessors Valentin Gehrke Dresden, 12.01.2017 Inhalt 1. Einleitung 2. Thema 3. Literatur 4. Aufgaben

Mehr

Software Engineering für moderne parallele Plattformen 9. GPGPUs: Grafikkarten als Parallelrechner

Software Engineering für moderne parallele Plattformen 9. GPGPUs: Grafikkarten als Parallelrechner Software Engineering für moderne parallele Plattformen 9. GPGPUs: Grafikkarten als Parallelrechner Dipl.-Inform. Korbinian Molitorisz M. Sc. Luis Manuel Carril Rodriguez KIT Universität des Landes Baden-Württemberg

Mehr

Analyse verschiedener HLS-Systeme in Hinblick auf ihren Umgang mit der Hochsprachenabstraktion Speicher. Sascha Kath

Analyse verschiedener HLS-Systeme in Hinblick auf ihren Umgang mit der Hochsprachenabstraktion Speicher. Sascha Kath Analyse verschiedener HLS-Systeme in Hinblick auf ihren Umgang mit der Hochsprachenabstraktion Speicher Sascha Kath Dresden, Gliederung 1. Motivation & Zielstellung 2. HLS-Systeme 3. Benchmark-Funktionen

Mehr

Current and Emerging Architectures Multi-core Architectures and Programming

Current and Emerging Architectures Multi-core Architectures and Programming Current and Emerging Architectures Multi-core Architectures and Programming Adel El-Rayyes Hardware-Software-Co-Design, Friedrich-Alexander-Universität Erlangen-Nürnberg 9. Mai 2012 Inhalt Überblick über

Mehr

Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen

Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen 18.01.2013 Prof. P. Güntert 1 Vorlesung BPC I: Aspekte der Thermodynamik in der Strukturbiologie Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen 1. Hamming und Levenshtein Distanzen a) Was

Mehr

FPGA Beschleuniger. Your Name. Armin Jeyrani Mamegani Your Organization (Line #2)

FPGA Beschleuniger. Your Name. Armin Jeyrani Mamegani Your Organization (Line #2) FPGA Beschleuniger 15.12.2008 Armin Jeyrani Mamegani Your Name HAW Hamburg Your Title Department Your Organization Informatik (Line #1) Your Organization (Line #2) Einleitung Wiederholung aus AW1: Handy

Mehr

High Performance Embedded Processors

High Performance Embedded Processors High Performance Embedded Processors Matthias Schwarz Hardware-Software-Co-Design Universität Erlangen-Nürnberg martin.rustler@e-technik.stud.uni-erlangen.de matthias.schwarz@e-technik.stud.uni-erlangen.de

Mehr

Programmierbeispiele und Implementierung. Name: Michel Steuwer E-Mail: michel.steuwer@wwu.de

Programmierbeispiele und Implementierung. Name: Michel Steuwer E-Mail: michel.steuwer@wwu.de > Programmierbeispiele und Implementierung Name: Michel Steuwer E-Mail: michel.steuwer@wwu.de 2 > Übersicht > Matrix Vektor Multiplikation > Mandelbrotmenge / Apfelmännchen berechnen > Kantendetektion

Mehr

Vorstellung der Fachgebiete

Vorstellung der Fachgebiete Fakultät Informatik, Institut für Technische Informatik, Professur Rechnerarchitektur Vorstellung der Fachgebiete Institut für Technische Informatik Zellescher Weg 12 Nöthnitzer Straße 46 Willers-Bau A

Mehr

Praktikum Systementwurf mit VHDL HDL Design Lab

Praktikum Systementwurf mit VHDL HDL Design Lab Praktikum Systementwurf mit VHDL HDL Design Lab Inhalt Kryptographie - Aufgaben VHDL - Konzepte Beispiel: 16 bit XOR Kryptographie - Aufgaben Geheimhaltung Integrität Authentifizierung Verbindlichkeit

Mehr

Untersuchung der Berechnung der 3D-Punktkorrelation auf hochparallelen Plattformen

Untersuchung der Berechnung der 3D-Punktkorrelation auf hochparallelen Plattformen Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI Entwurfssysteme, Diagnostik und Architektur Untersuchung der Berechnung der 3D-Punktkorrelation auf hochparallelen Plattformen

Mehr

Alignments & Datenbanksuchen

Alignments & Datenbanksuchen WS2015/2016 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignments & Datenbanksuchen 1 break-thru Doolittle et al. 1983, Waterfield et al. 1983 > DB-Suche...

Mehr

REKONFIGURIERBARE ARCHITEKTUREN. Robert Rasche

REKONFIGURIERBARE ARCHITEKTUREN. Robert Rasche REKONFIGURIERBARE ARCHITEKTUREN Robert Rasche Dresden, 24.05.2011 01 Motivation Ausgangssituation in eingebetteten Systemen: Verarbeitungsleistung ist auf Embedded Prozessor begrenzt Prozessor (General

Mehr

Clearspeed. Matthias Kunst.

Clearspeed. Matthias Kunst. Clearspeed Matthias Kunst MatthiasKunst@gmx.de 1 Inhalt Einführung Struktur und Leistung Komponenten CSX600 Prozessorarchitektur Anwendungsbereich und Systemintegration Ausblick und Fazit 2 Einleitung

Mehr

Hardware Programmierbare Logik

Hardware Programmierbare Logik Hardware Programmierbare Logik Dr.-Ing. Matthias Sand Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2010/2011 Hardware Programmierbare Logik 1/23

Mehr

Grundlagen der Spieleprogrammierung

Grundlagen der Spieleprogrammierung Grundlagen der Spieleprogrammierung Teil I: 3D-Graphik Kapitel 8: Hardware Peter Sturm Universität Trier Outline 1. Übersicht und Motivation 2. Mathematische Grundlagen 3. Das Ideal: Photorealistisch (Raytracing,

Mehr

Multi- und Many-Core

Multi- und Many-Core Multi- und Many-Core Benjamin Warnke Arbeitsbereich Wissenschaftliches Rechnen Fachbereich Informatik Fakultät für Mathematik, Informatik und Naturwissenschaften Universität Hamburg 2016-12-15 Benjamin

Mehr

2.6 Graphikprozessoren

2.6 Graphikprozessoren 12 2.6 Graphikprozessoren Peter Marwedel Informatik 12 TU Dortmund 2014 年 04 月 24 日 Diese Folien enthalten Graphiken mit Nutzungseinschränkungen. Das Kopieren der Graphiken ist im Allgemeinen nicht erlaubt.

Mehr

ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS. Sascha Kath

ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS. Sascha Kath ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS Sascha Kath Dresden, Gliederung 1. Motivation & Zielstellung 2. Systembeschreibung 3. Implementierung und Messungen

Mehr

GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm Organiosatorisches. Tutorial CUDA. Ralf Seidler

GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm Organiosatorisches. Tutorial CUDA. Ralf Seidler Friedrich-Alexander-Universität Erlangen-Nürnberg 05.10.2010 Outline 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm 4 Organiosatorisches Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell

Mehr

Untersuchung der Berechnung der 3D-Punktkorrelation auf hochparallelen Plattformen

Untersuchung der Berechnung der 3D-Punktkorrelation auf hochparallelen Plattformen Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI Entwurfssysteme, Diagnostik und Architektur Untersuchung der Berechnung der 3D-Punktkorrelation auf hochparallelen Plattformen

Mehr

Seminar: Multi-Core Architectures and Programming

Seminar: Multi-Core Architectures and Programming Seminar: Multi-Core Architectures and Programming Parallelisierung des Viola-Jones Algorithmus auf Tilera Hardware-Software-Co-Design Universität Erlangen-Nürnberg 1 Übersicht Einleitung Erste Versuche

Mehr

Computer Graphics Shader

Computer Graphics Shader Computer Graphics Shader Sven Janusch Inhalt Fixed Function Pipeline Programmable Pipeline Implementierung Applikation Beispiel Sven Janusch 2 Fixed Function Pipeline T&L Pipeline (Transformation and Lighting)

Mehr

FPGA-basierte Automatisierungssysteme

FPGA-basierte Automatisierungssysteme Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur FPGA-basierte Automatisierungssysteme Stephan Hensel Dresden, 05.12.2012 Gliederung

Mehr

ABLEITUNG ZUSÄTZLICHER STEUERGRÖSSEN FÜR DIE STRAHLFORMUNG IN EINEM LASER-SCANNER IM ECHTZEITBETRIEB

ABLEITUNG ZUSÄTZLICHER STEUERGRÖSSEN FÜR DIE STRAHLFORMUNG IN EINEM LASER-SCANNER IM ECHTZEITBETRIEB Fakultät Informatik, Institut für Technische Informatik ABLEITUNG ZUSÄTZLICHER STEUERGRÖSSEN FÜR DIE STRAHLFORMUNG IN EINEM LASER-SCANNER IM ECHTZEITBETRIEB Studienarbeit Patrick Schöps Dresden, 09.02.2017

Mehr

Eine kurze Geschichte der Grafikkarten

Eine kurze Geschichte der Grafikkarten 3.1 Einführung Eine kurze Geschichte der Grafikkarten ursprünglich: Graphics Card steuert Monitor an Mitte 80er: Grafikkarten mit 2D-Beschleunigung angelehnt an Arcade- und Home-Computer frühe 90er: erste

Mehr