Untersuchungen zur Implementierung von Genom-Alignmentalgorithmen auf modernen parallelen Plattformen

Transkript

1 Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Untersuchungen zur Implementierung von Genom-Alignmentalgorithmen auf modernen parallelen Plattformen Belegverteidigung Oliver Knodel - Oliver.Knodel@mailbox.tu-dresden.de Dresden,

2 01 Einleitung Problemstellung 1. Neu gewonnene DNA-Sequenzen werden als erstes mit den bekannten Datenbanken abgeglichen, um Eigenschaften zu ermitteln Inexakte Suche Ergebnis ist die Position in der Datenbank 2. Exponentielles Wachstum der Datenbanken (mehrere Milliarden Basenpaare) 3. Neue kostengünstige und automatisierte Sequenzierungsverfahren haben in den letzten Jahren zum Short Read Mapping Problem [TS09] geführt Kurze Sequenzen (Reads) von Basenpaaren Ein Durchlauf von 2-3 Tagen erzeugt mehrere Millionen Reads Suche mit großen Computer-Clustern dauert mehrere Tage und solche Systeme sind nicht für jeden verfügbar Schnelle kostengünstige Lösungen erforderlich TU Dresden, Genom-Alignmentalgorithmen Folie 2 von 25

3 01 Einleitung 02 Algorithmen 03 Plattformen 04 Umsetzung 05 Ergebnisse 06 Zusammenfassung & Ausblick TU Dresden, Genom-Alignmentalgorithmen Folie 3 von 25

4 02 Alignment-Algorithmen Alignment-Algorithmen passen zwei Sequenzen aneinander an und liefern einen Wert (Score), der etwas über ihre Ähnlichkeit aussagt Um einen hohen Score zu erreichen, werden Mismatches und Gaps eingefügt Die Algorithmen können für die inexakte Suche in Datenbanken eingesetzt werden Ergebnis einer Datenbanksuche ist die Position, an der ein bestimmter Schwellwert für den Score überschritten wird Schwellwert muss vor der Suche festgelegt werden Match Insertion T C G T T G C G A A T C T C - T T G C G C A T C Deletion Mismatch TU Dresden, Genom-Alignmentalgorithmen Folie 4 von 25

5 02 Alignment-Algorithmen Smith & Waterman [Han06] Algorithmus zum lokalen Alignment Exaktes Verfahren (liefert immer optimales Alignment) Matrixfelder werden in Abhängigkeit voneinander berechnet Zeit- und Speicherkomplexität von O(m n) M(i 1, j) + g, j }{{} t T C G T T G T C T A Insertion i s M(i, j 1) + g, }{{} T M(i, j) = max Deletion G M(i 1, j 1) + p(s i, t j ), T }{{} A Match / Mismatch T A T C G T T G T C T A T G T A T A TU Dresden, Genom-Alignmentalgorithmen Folie 5 von 25

6 02 Alignment-Algorithmen Basic Local Alignment Search Tool [Han06] Heuristisches Verfahren zur Datenbanksuche für lange Sequenzen (bis zu Basenpaare) bestehend aus drei Teilschritten: 1. Exakter Treffer der Länge w wird gesucht Datenbanksequenz 2. Suche eines zweiten Hits mit maximalem Abstandes A w A 3. Hits werden mit Matches, Mismatches und Gaps ausgedehnt TU Dresden, Genom-Alignmentalgorithmen Folie 6 von 25

7 02 Alignment-Algorithmen Short Read Mapper - Bowtie [TS09] Gezielte Suche in Datenbanken mit Hilfe der Burrows-Wheeler-Transformation Hohe Geschwindigkeit, da nie die komplette Datenbank durchsucht wird Ausgelegt für Reads von bp Einfügen von maximal 2 Mismatches über Backtracking (keine Gaps) T = ATTGCGGTA$ $ATTGCGGTA A$ATTGCCGT ATTGCGGTA$ CGGTA$ATTG GCGGTA$ATT GGTA$ATTGC GTA$ATTGCG TA$ATTGCGG TGCGGTA$AT TTGCGGTA$A BWT(T) = AT$GTCGGTA Index = 3 LF(top, G) LF(bot, G) Suche: TCG $ A A T A $ C G G T G C G G T G T T T A TU Dresden, Genom-Alignmentalgorithmen Folie 7 von 25

8 03 Plattformen GPU - Graphics Processing Unit Single Instruction Multiple Thread (bzw MD) Hohe Speicherbandbreite (144 GByte/s) Floating-Point Leistung doppelter Genauigkeit von bis zu 515 GigaFLOPs Energieverbrauch von Watt [Niv10] Programierung mit CUDA (Compute Unified Device Architecture) C/C++ Code mit CUDA Erweiterungen Trennung von Programmierung und Grafikhardware TU Dresden, Genom-Alignmentalgorithmen Folie 8 von 25

9 03 Plattformen FPGA - Field Programmable Gate Array Konfigurierbare Hardware Programmierung mit Hardwarebeschreibungssprachen wie VHDL (Very High Speed Integrated Circuit Hardware Description Language) Taktrate von MHz Energieverbrauch von 1-5 Watt [Xil09] TU Dresden, Genom-Alignmentalgorithmen Folie 9 von 25

10 03 Plattformen Zusammenfassung 1. GPU Vorteile Viele Streaming Prozessoren mit hoher Taktrate Hohe Speicherbandbreite Einfache Erweiterung eines C-Programmes mit CUDA möglich Nachteil Hoher Energieverbrauch 2. FPGA Vorteile Direkte Umsetzung eines Algorithmus in Hardware Geringe Taktrate, aber schnelle interne Logik und Verbindungsleitungen Sehr geringer Energieverbrauch Viele Kommunikationsschnittstellen (PCIe-x1, Gigabit-Ethernet) Nachteil Aufwändige Beschreibung der Hardware mit VHDL TU Dresden, Genom-Alignmentalgorithmen Folie 10 von 25

11 04 Implementierung Auswahl des Algorithmus 1. Smith & Waterman Kann durch seine einfache Struktur einfach auf SIMD-Plattformen umgesetzt werden Hoher Aufwand, wenn die gesamte Matrix berechnet wird 2. BLAST Nicht effizient auf Short Read Mapping Problem erweiterbar Unterschiedliche Phasen erschweren Umsetzung auf einer SIMD-Plattform 3. Bowtie Hohe Geschwindigkeit Eigentlicher Suchalgorithmus sehr schlecht parallelisierbar Schlechtes Verhalten in Bezug auf Mismatches Smith & Waterman-Algorithmus TU Dresden, Genom-Alignmentalgorithmen Folie 11 von 25

12 04 Umsetzung Anpassung des Algorithmus an kurze Reads I Datenbanksequenz Pos max Datenbank Sequenz max max max Score Read max Score [LST07] Verkleinerung der Matrix auf direkte Umgebung der Diagonalen Aufwand auf 4,94 % der kompletten Matrix mit Feldern reduziert Needleman-Wunsch-Algorithmus für globales Alignment zur Berechnung Datenbank schrittweise um eine Position weiter schieben TU Dresden, Genom-Alignmentalgorithmen Folie 12 von 25

13 04 Umsetzung Anpassung des Algorithmus an kurze Reads II Das Short Read Mapping Problem sieht keine Gaps vor Lediglich Mismatches werden akzeptiert Weitere Verkleinerung der Matrix auf die Diagonale Pos Datenbank XOR + XOR + XOR + XOR Score Read TU Dresden, Genom-Alignmentalgorithmen Folie 13 von 25

14 04 Umsetzung Auswahl der Plattform I 1. GPU Für eine Umsetzung auf einer GPU verspricht der vorgestellte reduzierte Smith & Waterman-Algorithmus eine geringe Laufzeit und eine hohe Parallelität 2. FPGA Die Mismatches können über die komplette Länge des Reads mit einfacher Kombinatorik ermittelt und gezählt werden Die Datenbank kann über Gigabit-Ethernet gestreamt werden und der Engpass Speicher wird umgangen TU Dresden, Genom-Alignmentalgorithmen Folie 14 von 25

15 04 Umsetzung Auswahl der Plattform II FPGA-Ansatz mit erweitertem Intuitiven Suchalgorithmus verspricht hohe Geschwindigkeit bei hoher Parallelität durch geringen Hardwareaufwand Pos Datenbank XOR + XOR + XOR + XOR Score Read TU Dresden, Genom-Alignmentalgorithmen Folie 15 von 25

16 04 Umsetzung Implementierung - Vergleicher Vergleichs-Einheit Pos Text T(N,0) T(N,1) Read Bit 32 Bit Register Register R(N,0) R(N,1) XOR XOR 1 & Bit Mismatch Zähler 32 ValidN 7 Register enable 9 found 7 32 dat Zähler inc 4 Control MUX adr 10 Block RAM enable 32 Vergleich N = ((R (N,0) T (N,0) ) (R (N,1) T (N,1) )) Valid N TU Dresden, Genom-Alignmentalgorithmen Folie 16 von 25

17 04 Umsetzung Implementierung - Zähler 7 Bit Register 7 < = found 7 + mis_count 5,57 ns Bit Register + < = found_left mis_count_left 6 Bit Register + < = found_right mis_count_right Pipelinestufe - 20 Bit Register ,98 ns Bit des kombinatorischen Vergleiches TU Dresden, Genom-Alignmentalgorithmen Folie 17 von 25

18 04 Umsetzung Implementierung - Gesamtüberblick Steuerinformationen 8 Text Bit Schieberegister inc 192 inc 192 Modul 1 Pos Modul 60 4 Control Ethernet- Controller 32 dat 10 adr 32 dat kbit Block Ram kbit Block Ram dat 10 adr 32 dat 10 adr adr 60 enable MUX 6 Positionen 32 Reads TU Dresden, Genom-Alignmentalgorithmen Folie 18 von 25

19 05 Ergebnisse Implementierung - Erreichte Parallelität FPGA Virtex-5 LX50T Virtex-6 LX240T Parallele Einheiten Register (94 %) (47 %) s (80 %) (80 %) Block-RAM 60 (100 %) 400 (96 %) Maximale Taktrate 100 MHz 200 MHz Verlustleistung 1 1,314 W 1,243 W Vergleiche/s 96 bp Vergleiche/s 48 bp Erforderliche Datenrate 200 MBit/s 400 MBit/s 1 Summe aus statischer und dynamischer Verlustleistung, ermittelt mit Xilinx ISE 12 XPower Analyzer TU Dresden, Genom-Alignmentalgorithmen Folie 19 von 25

20 05 Ergebnisse Theoretischer Speedup Datenbank: bp Suchsequenzen (100 bp) Speedup Smith-Waterman BLAST GPU Smith-Waterman MPI-BLAST Nvidia GTX 8800 (32 x Intel Core 2 Duo) 128 Stream Prozessoren Speedup FPGA-Virtex5 Speedup FPGA-Virtex6 Testsystem: Intel Core 2 Duo 2,66 GHz, 3,8 GByte RAM, ein Thread MPI-BLAST: Idealer Speedup - SWA-GPU [MV08]: Speedup für lange Sequenzen von 40 TU Dresden, Genom-Alignmentalgorithmen Folie 20 von 25

21 05 Ergebnisse Kosten 15 GPUs sind notwendig, um die Geschwindigkeit des FPGAs zu erreichen Anschaffungskosten 1. Virtex-5 (ML505) e 2. Nvidia GTX 200 e Nvidia GTX e Betriebskosten ( Stunden) 1. Virtex-5 (ML505) 1,31 Watt 11,48 KWh 2,30 e 2. Nvidia GTX 200,00 Watt 1.927,00 KWh Nvidia GTX ,00 KWh 5.781,00 e 0,20 e je KWh (Drewag 2010) TU Dresden, Genom-Alignmentalgorithmen Folie 21 von 25

22 06 Zusammenfassung und Ausblick Hohe Geschwindigkeit Exaktes und garantiertes Ergebnis für jeden Read Unabhängig von der Größe der Datenbank und Anzahl der Mismatches Geringe Einführungs- und Betriebskosten Netzwerk DB... TU Dresden, Genom-Alignmentalgorithmen Folie 22 von 25

23 07 Quellen I [Niv10] Nvidia Visual Computing Technologies [MV08] Manavski, S. and Valle, G. CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment BMC bioinformatics 2008 [Han06] Hansen, Andrea Bioinformatik: Ein Leitfaden für Naturwissenschaftler 2006 [KH10] Kirk, B. and Hwu, W. Programming Massively Parallel Processors 2010 [Xi09] Xilinx Virtex-5 FPGA User Guide TU Dresden, Genom-Alignmentalgorithmen Folie 23 von 25

24 07 Quellen II [Xi10] Xilinx Virtex-6 FPGA User Guide [TS09] Trapnell, C. and Salzberg, SL How to map billions of short reads onto genomes Nature biotechnology 2009 [Mar08] Mardis, E.R. The impact of next-generation sequencing technology on genetics Trends in Genetics 2008 [LST07] Li, I.T.S. and Shum, W. and Truong, K. 160-fold acceleration of the Smith-Waterman algorithm using a field programmable gate array(fpga) BMC bioinformatics 2007 TU Dresden, Genom-Alignmentalgorithmen Folie 24 von 25

25 TU Dresden, Genom-Alignmentalgorithmen Folie 25 von 25

26 08 Anhang Datenbanken 1E+11 1E+08 1E+10 1E+07 1E+09 1E+06 Basenpaare 1E+08 1E+05 Sequenzen 1E+07 1E+04 1E+06 1E+03 1E E+02 Basenpaare DNA Sequenzen TU Dresden, Genom-Alignmentalgorithmen Folie 26 von 25

27 08 Anhang Sequenzalignment - Dotplot Dotplots liefern kein Alignment, sondern nur einen Überblick über die Ähnlichkeit der Sequenzen zueinander. A T A C G A A G A A A T A C G A A G A A A T A C G A A G A A A T A C G A A G A A T C G T T G T G A A T C - T T G T G C A T C G T T G T G A A T C T T G T G C A T C G T T G T C T A G T C T A T C G T T T C G T T G T C T A G T C T A T C G T T TU Dresden, Genom-Alignmentalgorithmen Folie 27 von 25

28 08 Anhang Ein Read (1.000 Basenpaare) Datenbank: bp Laufzeit / s ,43 Smith-Waterman FASTA BLAST 3,5 Testsystem: Intel Core 2 Duo 2,66 GHz, 3,8 GByte RAM, ein Thread TU Dresden, Genom-Alignmentalgorithmen Folie 28 von 25

29 08 Anhang Ein Read (100 Basenpaare) Datenbank: bp , ,15 Laufzeit / s ,77 3,44 4,18 Smith-Waterman FASTA BLAST Bowtie Maq Testsystem: Intel Core 2 Duo 2,66 GHz, 3,8 GByte RAM, ein Thread TU Dresden, Genom-Alignmentalgorithmen Folie 29 von 25

30 08 Anhang Reads (100 Basenpaare) Datenbank: bp Laufzeit / s Smith-Waterman FASTA BLAST Bowtie Maq Testsystem: Intel Core 2 Duo 2,66 GHz, 3,8 GByte RAM, ein Thread TU Dresden, Genom-Alignmentalgorithmen Folie 30 von 25

31 08 Anhang Ergebnisse - Bowtie, Maq [TS09] 70!% 62!% 65!% 67!% 67!% 52,5!% Reads aligned 35!% 44!% 45!% 17,5!% 0!% Bowtie Maq TU Dresden, Genom-Alignmentalgorithmen Folie 31 von 25

32 08 Anhang Theoretischer Speedup Datenbank: bp Suchsequenzen (100 bp) Speedup Smith-Waterman BLAST GPU Smith-Waterman MPI-BLAST Nvidia GTX 8800 (32 x Intel Core 2 Duo) 128 Stream Prozessoren Speedup FPGA-Virtex5 Speedup FPGA-Virtex6 Testsystem: Intel Core 2 Duo 2,66 GHz, 3,8 GByte RAM, ein Thread MPI-BLAST: Idealer Speedup - SWA-GPU: Speedup für lange Sequenzen von 40 [MV08] TU Dresden, Genom-Alignmentalgorithmen Folie 32 von 25

33 08 Anhang GPU - Architektur der Tesla 8 Host System Memory GPU Host Interface Input Assembler Setup/Raster Vertex Work Distribution Pixel Work Distribution Setup/Raster MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MT IU MEM MEM Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache MEM MEM MEM MEM Textur Unit Texture Unit L1 Cache Interconnection Network Raster Operations Processor Raster Raster L2 Cache Operations L2 Cache Operations L2 Cache Processor Processor Raster Operations Processor L2 Cache DRAM DRAM DRAM DRAM Insgesamt 128 Streamprozessoren mit MHz Jeder Streamprozessor kann 96 Threads verwalten Maximal sind Threads möglich TU Dresden, Genom-Alignmentalgorithmen Folie 33 von 25

34 08 Anhang GPU - CUDA Programmiermodell Programmsequenz Grid 0 Host Block 0,0 Block 1,0 grid_0<<< (2,2),(2,3) >>>; Block 0,1 Block 1,1 Block 0,1 Thread 0,0 Thread 1,0 Thread 2,0 Thread 0,1 Thread 1,1 Thread 2,1 Block- Speicher Globaler Speicher Synchronisationsbarriere Grid 1 grid_1<<< 2,4 >>>; Block 0 Block 1 Block 0 Thread 0 Thread 1 Thread 2 Thread 3 Block- Speicher TU Dresden, Genom-Alignmentalgorithmen Folie 34 von 25

35 08 Anhang FPGA - Architektur Virtex Slices s / Flip-Flops KBit interner Dual Port Speicher (Block RAM) Slice FF FF FF FF PSM CLB Slice Slice IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB IOB CLB CLB CLB CLB IOB IOB PSM PSM PSM IOB CLB CLB CLB CLB IOB PSM PSM PSM IOB CLB CLB CLB CLB IOB PSM PSM PSM IOB CLB CLB CLB CLB IOB IOB IOB IOB IOB IOB IOB IOB IOB TU Dresden, Genom-Alignmentalgorithmen Folie 35 von 25

36 08 Anhang FPGA - ML-505 Mögliche Schnittstellen zur Kommunikation: Gigabit-Ethernet USB PCIe TU Dresden, Genom-Alignmentalgorithmen Folie 36 von 25

37 08 Anhang Implementierung - Speicherverwaltung Ausgangsdaten: n 31 0 Auswahl 6 Bit Teil- Match 2 6 Bit Teil- Match 1 7 Bit Match n+1 Read - Teil n+9 Read - Teil Ergebnisdaten: n Found 6 Bit Teil- Match 2 6 Bit Teil- Match 1 7 Bit Match n+1 Position 31 TU Dresden, Genom-Alignmentalgorithmen Folie 37 von 25 0

38 08 Anhang Implementierung - Zustände adr_count +1 start_shift <= '1' start_search <= '1' Daten senden adr_count_res <= '1' eth_end = '1' Suchen warten din(31) = '1' and last_unit = '1' Text laden start_shift <= '1' adr_count + 1 adr_count_res <= '1' eth_start = '1' Daten empfangen adr_count + 1 adr_count = 150 search_count_res <= '1' adr_count_res <= '1' adr_count = 9 VE laden search_count +1 adr_count + 1 load_data <= '1' search_counter_res <= '1' adr_count_res <= '1' TU Dresden, Genom-Alignmentalgorithmen Folie 38 von 25

39 08 Anhang Implementierung - Module Zur Erhöhung der Vergleichseinheiten unabhängig vom Block RAM können sich mehrere Einheiten einen Block RAM teilen VE 1 VE 32 dat 10 adr 32 kbit Block Ram 32 dat 9 adr 32 dat 32 kbit Block Ram MUX 10 adr 0 32 dat 10 adr 32 dat 9 adr 1 32 dat 10 adr Modul mit einer VE VE 2 Modul mit zwei VEs TU Dresden, Genom-Alignmentalgorithmen Folie 39 von 25

40 08 Anhang GPU - CUDA Beispiel Beispielberechnung z = a x + y in C: void calc_serial ( int n, float alpha, float *x, float *y) { for ( int i; i<n; ++i) y[i] = alpha * x[i] + y[i]; } // Funktionsaufruf calc_serial (n, alpha, x, y); in CUDA: global void calc_parallel ( int n, float alpha, float *x, float *y) { int i = ( blockldx.x * blockdim.x) + threadldx.x; if (i < n) y[i] = alpha * x[i] + y[i]; } // starte Kernel mit 256 Threads je Block int nblocks = (n + 255) / 256; calc_parallel <<<nblocks,256>>>(n, 2.0, x, y); TU Dresden, Genom-Alignmentalgorithmen Folie 40 von 25