Parallele Algorithmen zur Faltung von RNA. Leipzig, , Markus Scholz

Transkript

1 Parallele Algorithmen zur Faltung von RNA Leipzig, , Markus Scholz

2 Inhalt Warum Parallelisierung Wiederholung: der MFE Algorithmus Parallelisierung des MFE Algorithmus (ohne Backtracking) Wiederholung: McCaskills Algorithmus Parallelisierung von McCaskills Algorithmus (Partition Function und Basepair Probabilities) Darstellung eines massiv parallelen GA für RNA Faltung 2

3 Warum Parallelisierung in der Bioinformatik Teilweise riesige Datensätze die untersucht werden müssen (z.b Genebank, 36.6 Milliarden Basenpaare und 118,689 verschiedene Spezies, Stand: 2003) komplexe Algorithmen zur Lösung der Probleme Mit sequentiellen Algorithmen u.u. Probleme nicht in akzeptabler Zeit lösbar Parallelisierung von Algorithmen notwendig 3

4 Wiederholung: Der Minimum Free Energy Algorithmus Erste Version durch Zuker & Stiegler, 1981 Rekursiver Algorithmus der durch Dynamic Programming deutlich schneller als seine Vorgänger ist (nutzt bereits berechnete, kleinere Fragmente um größere zu berechnen) Motivation: Berechnung der minimalen freie Energie und der dazugehörigen optimalen Sekundärstruktur (durch Backtracking auf der MFE-Matrix) Drei verschieden Looptypen die verschiedene Energien liefern : Hairpin, Inner Loops, Multiloops Inner Loops sind Zusammenfassung von Stacks, interior Loops und Bulges (siehe nächste Folie) Energie eines Loops abhängig von: Typ der schliessenden Basenpaare, der inneren Basen und der Größe der Loops konkrete Energiewerte für die einzelnen Strukturen aus verschiedenen Experimenten verfügbar (Gruppen: D.Turner; J.Santa Lucia) z.b. implementiert in: Vienna RNA Package, mfold, STRUCTURELAB 4

5 Wiederholung: Der Minimum Free Energy Algorithmus (2) Folgende Arrays werden vom Algorithmus benötigt: Fij : freie Energie der optimalen Substruktur auf der Subsequenz A[i,j] Cij : freie Energie auf der optimalen Substruktur auf der Subsequenz A[i,j] wenn i und j paaren(!) Mij : freie Energie auf der optimalen Substruktur auf der Subsequenz A[i,j], wenn A[i,j] teil eines Multiloops ist und mindestens einen Komponent hat, d.h. eine Subsequenz die von einem Basenpaar eingeschlossen ist Mij1: freie Energie der optimalen Substruktur auf der Subsequenz A[i,j] wenn A[i,j] Teil eines Multiloops ist und exakt einen Komponent hat, der durch das Basenpaar i,h geschlossen wird für irgendein i<= h < j I.L.Hofacker & P.F.Stadler,

6 Wiederholung: Der Minimum Free Energy Algorithmus (3) Der Algorithmus Bemerkungen: H(i,j) : I(i,j;k,l) : Bezeichnet die Funktion die die Energie eines Hairpins berechnet. (Für i-j < 4 = INF keine HP erlaubt mit weniger als drei Basen dazwischen) Bezeichnet die Funktion die die Energie eines Stacks, Bulges oder eines sog. Interior Loop berechnet Konstanten aus dem linear Ansatz abgeleitet: a: Multiple Loop Closing Energy b: Interior Base Pair Energy c: Interior unpaired Base Energy Beachte : keine Abhängigkeiten von C, M oder M1 von F 6

7 Wiederholung: Der Minimum Free Energy Algorithmus (4) inner Loops u < 30 7

8 Wiederholung: Der Minimum Free Energy Algorithmus (5) Visualisierung des Ablaufs für eine Sequenz: L=5 d=4 i=1..n-d j=i+d i j Berechne für jedes i, C[i,j], F[i,j], M[i,j], M1[i,j] L=6 d=5 i=1..n-d j=i+d i j Berechne für jedes i, C[i,j], F[i,j], M[i,j], M1[i,j], wobei jetzt das Wissen aus den vorher berechneten Werten für Fenster (=Subsequenzlänge) < d genutzt werden kann. DP Fenster d wächst bis zur maximalen Fenstergrösse. Dann ist F[1,n] die minimale Energie zu finden. 8

9 Wiederholung: Der Minimum Free Energy Algorithmus (6) Ausfüllen der Matrizen : Bei Matrix F MFE[1,8] = Paarung unmöglich da Basen zu nahe aneinander liegen j Nur Dreiecksmatrix da gilt : E[i,j] = E[j,i] i=3, j=7, #3 i=1, j=5, #1 i=4, j=8, #4 D=4 1 i=2, j=6, #2 8 D=5 D=6 i=1, j=6, #5 1 i=2, j=7, #6 8 i=1, j=7, #8 i=3, j=8, #7 1 i=2, j=8, # Die in der Dreiecksmatrix eingetragenen Werte dienen nur der Identifikation mit den Fensterbeispielen daneben!! i

10 Wiederholung: Der Minimum Free Energy Algorithmus (7) Abhängigkeit von zu berechnenden Energien (größere Strukturen) von bereits errechneten Energiewerten (kleinerer Strukturen) Die horizontal und vertikal gekennzeichneten Werte werden aus den Arrays M (Multiloop), M1 (Multiloop mit exakt einem Komponenten) und die schattierten Werte werden aus dem Array C (Energie der Subsequenz mit i-j Basenpaare) benötigt um die entsprechenden Werte auf der gestrichelten Linie zu errechnen 1 n M, M1 C d 1 Darstellung mit 1 CPU n 10

11 Wiederholung: Der Minimum Free Energy Algorithmus (8) Zeitkomplexität : O(n³) ( mehrere verschachtelte For Schleifen ) Speicherkomplexität : O(n²) ( Arrays ) + Backtracking O(n³) wenn die Sekundärstruktur ermittelt werden soll diese wird hier aber nicht weiter ausgeführt da die Berechnung der MFE nur für das Skalieren der Zustandssumme im McCaskill Algorithmus genutzt werden soll (siehe nächste Folien), deshalb wird auch das Array M1 nicht mitgeführt es ist nur notwendig wenn die Sekundärstruktur ausgerechnet werden soll. 11

12 Parallelisierung des MFE Algorithmus Darstellung hier basierend auf I.L.Hofacker, 1996, M.Fekete, 1997, I.L.Hofacker, 1998 Idee: alle Subsequenzen der gleichen Länge können gleichzeitig berechnet werden, da sie unabhängig von einander sind (eine Subsequenz der Länge der d, hängt nur von kleineren Subsequenzen der Länge d < d ab) Genau darin liegt aber auch ein Problem: die Berechnung von einem Eintrag erfordert das Wissen über eine große Anzahl zuvor berechneter Werte Lösung intelligentes Message Parsing Arrays (C, M) in diagonaler Reihenfolge berechnen und dabei jede Subdiagonale in P Teile auftrennen (P = Anzahl der CPUs), das Array F welches die eigentliche minimale freie Energie enthält, kann aus diesen Arrays (und sich selbst) rekursiv berechnet werden Implementiert auf einem Intel Delta Parallel Computer (MIMD) Maximal 512 Nodes mit je 16 MB RAM Mesh routing chips (MRCs) sind vor die einzelnen Nodes geschaltet um die CPUs nicht mit der Weiterleitung von Nachrichten an andere CPUs zu stören verschiedene Node Typen : numeric (40Mhz, 30 MIPs, 80 Single Precision MFLOPS, 60 Double Precision MFLOPS), I/O, Gateway Node Speicher : 16MB 500K OS 3MB (Message parsing Buffer) = 12.5 MB / Node für eigenen Anwendungen 12

13 Parallelisierung des MFE Algorithmus (2) Alle Einträge der aktuellen Diagonale d werden gleichmäßig auf die verfügbaren Prozessoren verteilt werden so dass eine optimale Lastverteilung gewährleistet ist Die Berechnung läuft von Diagonale d (Hypotenuse) auf die rechte obere Ecke des Dreiecks zu Um dem ihn zugeordneten Teil der gestrichelten Diagonale zu berechnen benötigt Prozessor 2 die roten Einträge der Matrix M und die blauen Einträge der Matrix C, es ist leicht zu sehen das er dabei auf Werte angewiesen ist die seine Nachbarn bereits berechnet haben Aus Effizienzgründen werden beide Arrays (C,M) in Zeilen und Spalten gespeichert Alle Arrays sind außerdem bereits zu Beginn der Berechnung mit der maximalen Größe initalisiert (um keine unnötige Speicherreorganisation während der Berechnung vornehmen zu müssen) Zusätzlich wird ein Array eingeführt das den trapezförmigen Teil von C beinhaltet Grafik: 4 CPUs teilen sich die Berechnung von C und M Darstellung der Werte die P2 aus C und M braucht um seinen Teil der gestrichelten Diagonale zu berechnen 13

14 Parallelisierung des MFE Algorithmus (3) Es ergibt sich pro CPU ein Speicherbedarf von 4 Dreiecksmatrizen (C,M) (C[row],C[col],M[row],M[col]) 1 Trapezmatrix CT Der Faktor 2 stammt daher das nur die Hälfte einer quadratischen Matrix (=Dreiecksmatrix) benötigt wird d: Länge der Sequenz N: Anzahl der CPUs umax: Beschränkung der Multiple Loops (=30) z.b. für N=4, d=2500, Int=4 Byte Speicheranforderung/CPU: 12,2 MB 14

15 Parallelisierung des MFE Algorithmus (4) Intelligentes Message Parsing: Nach der Berechnung einer Diagonale: Sendet jeder Prozessor eine Spalte zu seinem linken Nachbarn Sendet jeder Prozessor eine Zeile zu seinem rechten Nachbarn Empfängt jeder Prozessor eine Spalte von seinem rechten Nachbarn Empfängt jeder Prozessor eine Zeile von seinem linken Nachbarn 15

16 Parallelisierung des MFE Algorithmus (5) Berechnung des Arrays F fehlt noch: F wird spaltenweise auf der ersten Node ausgerechnet parallelisieren dieser Berechnung wäre zu aufwendig (große Anzahl von Nachrichten) Node 1 hat aber sowieso alle nötigen Einträge in C und M Sowieso nur Interesse an der MFE der gesamten Sequenz, eigentliche Arbeit: Partition Function und Backtracking 16

17 Parallelisierung des MFE Algorithmus (6) Gute Effizienz für besonders große Sequenzen (ab 400 Basen) Basen lange zufällige RNA Sequenzen (50,100,200,400,700,1000) 17

18 McCaskill s Algorithmus (Partition Function und Backtracking) 1990 von McCaskill abgeleitet Teilt sich in 2 Teile Berechnung der Partition Function (folding) Partition Function(i,j) = Zustandssumme(i,j) = Anzahl möglicher Zustände (Sekundärstrukturen) die bei einer gegebenen Temperatur für das Molekül (Subsequenz A[i,j]) thermisch zugänglich sind Logik wie MFE Algorithmus, jedoch statt MIN SUM, statt + = * Berechnung der Basenpaarungwahrscheinlichkeiten (durch Backtracking) Wahrscheinlichkeit das (i,j) ein BP wenn System im thermodynamischen Gleichgewicht Motivation : mit MFE-Algorithmus kann zwar optimale Struktur gefunden werden, diese ist jedoch nicht unbedingt die Struktur in die sich RNA falten muss, bzw: Auch andere Strukturen sind möglich die unerheblich weit (hinsichtlich der freien Energie) von optimaler Struktur entfernt sind berechne deshalb die Wahrscheinlichkeiten einzelner Basenpaarungen um weitere mögliche Strukturen zu finden Ergebnis: Wahrscheinlichkeit das (i,j) ein BP z.b. implementiert in : Vienna RNA Package, mfold, STRUCTURELAB 18

19 Wiederholung: Berechnung der Zustandsumme (2) all possible structures open chain (energy=0) all structures with one component m = 3 = minimale Anzahl an Basen zwischen einem Basenpaar 19

20 Wiederholung: Berechnung der Zustandsumme (3) Arrays: QB[i,j]: Zustandssumme der Sequenz A[i,j] wenn (i,j) paaren QM[i,j], QM1[i,j]: Behandlung von Multiloops QA[i,j]: Zustandssumme aller Strukturen die genau ein Basenpaar haben (SUM(QB)) Q[i,i]: Zustandsumme der Subsequenz von i bis j ( Z( ungepaarte Struktur ) + Z(Strukturen mit einer Komponente und möglichem freien Ende) + Z(Strukturen mit mehreren Komponenten, und einer ein Komponentstruktur am Ende) Konstanten: m: minimale Anzahl an Basen zwischen BP = 3 umax: maximale Tiefe eines interior Loop (diese Bedingung reduziert die Komplexität der interior Loop Berechnung von O(n^4) auf O(n^2)) 20

21 Wiederholung: Berechnung der Zustandsumme (4) EH() = Hairpin Funktion = exp( -H() / kt ) EI() = inner Loop Funktion = exp(-i() / kt ) EMC = multi-loop closing energy = exp(-mc/kt) EMB = interior unpaired base engery = exp(-mb/kt) EMI = interior paired base energy = exp(-mi/kt) 21

22 Wiederholung: Berechnung der Zustandsumme (5) Komplexität (wie bei MFE Teil1) : Zeit : O(n³) RAM: O(n²) gleiche Logik wie MFE gleiche Abhängigkeit der Berechnung der Arrays (also auch ähnlich parallelisierbar) Skalierung von Q, QB, QM und QM1 Energie von Strukturen steigt ungefähr linear mit ihrer Größe dadurch wächst Q exponentiell Double kann überlaufen Skalierungsfaktor [Q] = exp( -1.04*MFE / kt ) skaliere alle Q[i,i+l+1] mit [Q]^(l/n) 22

23 Wiederholung: Backtracking McCaskill Nutzung der berechneten Zustandsummen der Basensequenzen für die Berechnung der Wahrscheinlichkeiten des Auftretens aller möglichen Basenpaarungen Backtracking auf Q, QB und QM 23

24 Wiederholung: Backtracking McCaskill (2) 3 Möglichkeiten für ein Basenpaar (h,l): BP(h,l) schließt eine einzige Komponente BP(h,l) befindet sich innerhalb einer inneren Schleife die von einem anderen BP(i,j) geschlossen wird 24

25 Wiederholung: Backtracking McCaskill (3) BP in einem multi-loop (wieder beschränkt durch umax) Die Wahrscheinlichkeit das die Basen h und l paaren ergibt sich also additiv aus diesen Komponenten 25

26 Wiederholung: Backtracking McCaskill (4) I() = inner Loop Funktion (Rückgabe bereits skaliert) MC = multi-loop closing energy MB = interior unpaired base engery MI = interior paired base energy 26

27 Wiederholung: Backtracking McCaskill (5) 27

28 Parallelisierung Partition Function ähnlich der Parallelisierung von MFE Alle Einträge der aktuellen Diagonale d werden gleichmäßig auf die verfügbaren Prozessoren verteilt so dass eine optimale Lastverteilung gewährleistet ist Die Berechnung läuft von Diagonale d (Hypotenuse) auf die rechte obere Ecke des Dreiecks zu Um dem ihn zugeordneten Teil der gestrichelten Diagonale zu berechnen benötigt Prozessor 2 die rot markierten Einträge der Matrizen QM, Q, QB und die grünen Einträge der Matrizen QM1 und QA.Zusätzlich werden die gelben Felder aus QB benötigt. Es ist leicht zu sehen das er dabei auf Werte angewiesen ist die seine Nachbarn bereits berechnet haben QM, Q und QB werden in Zeilen gespeichert QM1 und QA als Spalten selbe Anzahl von Nachrichten wie bei MFE jedoch werden zusätzlich als Vorbereitung für Backtracking QM und QB als Zeilen gespeichert, dabei errechnet Node N (die Letzte) immer das letzte Element der Zeile, Node N schickt dann die errechneten Werte zu der Node die die Werte permanent speichert (gestrichelte Linien) also die Node die die gesamte Zeile speichert 28

29 Parallelisierung Backtracking Backtracking läuft von den längeren Sequenzen zu den kürzeren um die Anzahl der Nachrichten zwischen den Nodes nicht in die Höhe zu treiben berechnet jeder Prozessor ein horizontales Stück des Dreiecks skaliert zwar nicht optimal aber weniger Kommunikation Darstellung für CPU1 Pr-trapez (Teil von Pr) für inner Loops neu berechnete Werte werden Zeilenweise in Pr abgelegt QM ist notwendig für Multiloops (jede Diagonale benötigt die selben Teile von QM) PM, PM1 hier Prml und Prmlt genannt, sind die zusätzlich Arrays die spaltenweise abgelegt sind 29

30 Parallelisierung Backtracking (2) zu Beginn der Berechnung einer neuen Diagonale müssen einige Nachrichten übermittelt werden: Alle ausgemalten Bereiche sind bereits im Speicher von CPU1 die nächste Zeile von QM (gestrichelt) wird nach CPU1 geschickt (von CPU3) die letzte Zeile von QM in CPU1 wird nicht mehr benötigt und zu CPU2 geschickt Spalten der Matrix Pr werden nach CPU2 geschickt Am Anfang ist der Algorithmus nahezu seriell (große Subsequenzen, kleine Arrays), wird dann aber mehr und mehr parallel, kurz vor Ende der Berechnung ist er hochgradig parallel (viele kleine Subsequenzen, große Arrays hoher Aufwand) 30

31 Parallelisierung Backtracking (3) Speicheranforderungen Backtracking erfordert den meisten Speicher im Vergleich zu Partition Function und MFE Pro Prozessor: 6 Dreiecksmatrizen (QM[row], QM[col], Pr[row], QB[row], Prml[col], Prmlt[col]) Pr-Trapez (mit einigen Werten aus Pr) z.b. für N=4, d=2500, Double=8 Byte Speicheranforderung/CPU: 35,9 MB 31

32 Effizienz des parallelen McCaskill Algorithmus 32

33 Massiv paralleler GA für RNA Faltung Erstmals durch Shapiro und Navette, 1994 formuliert Ursprünglich auf MasPar MP-2 implementiert (SIMD, CPUs), mittlerweile zu MIMD Supercomputern portiert (SGI ORIGIN mit 64 CPUs, CRAY T3E 512 CPUs und auch auf single und dual CPU Maschinen z.b. SGI Octane) Einfache Pseudoknoten erlaubt Implementiert in : STRUCTURELAB 33

34 Massiv paralleler GA (2) In ursprünglichem Modell hält jede CPU genau eine RNA Struktur, in neueren Versionen werden virtuelle Prozessoren emuliert CPU gitterförmig angeordnet und an Ecken wie Torus gefaltet ( unendliches Gitter ), CPU am obersten Rand des Gitters ist gleichzeitig CPU am untersten Rand Alle RNA Strukturen evolvieren gleichzeitig, eine Generation pro Zeitschritt Fitness ist minimale freie Energie Ausgangspopulation : aus RNA Sequenz werden beliebig gefaltete BP Stacks erzeugt, so dass alle Basen gepaart werden, maximal ein oder zwei ungepaarte Basen am Ende des Stranges erzeugter Stammpool wird zufällig über die Prozessoren verteilt 34

35 Massiv paralleler GA (3) Selektion Auf jeder CPU werden aus neun Strukturen zwei Eltern Strukturen ausgewählt (P1,P2), diese neun Strukturen werden durch die aktuelle Struktur des Prozessors selbst und den acht ihn umgebenden Prozessoren gestellt Strukturen mit bester Fitness (MFE) werden ausgewählt Mutation Jede CPU wählt zwei oder mehr Kinder aus dem Stampool aus (die Anzahl der Kinder wird durch simulated Annealing in Abhängigkeit von der Sequenzlänge gesteuert) Crossover Von P1 und P2 werden Teile des BP Stacks auf die Kinder verteilt Das Kind mit der kleinsten Energie geht in die nächste Generation ein Abbruchkriterium sobald Durchschnitt über die freien Energien nur noch um einen vorher definierten Wert schwankt terminiert Algorithmus Die Struktur die die meisten Prozessoren haben wird als Lösung angenommen 35

36 Massiv paralleler GA (4) Anmerkung1 : Während der Initalisierung, der Mutation und des Crossover werden Stammteile (Teile des BP Stapels) in neue RNA Strukturen überführt. Diese ausgewählten Stammteile müssen geometrisch konfliktfrei sein, d.h. sie dürfen keine überlappenden Nukleotide haben, weiterhin kann an dieser Stelle ein zusätzlicher Filter angewandt werden, der auf der Boltzmann Verteilung beruht Boltzmann-Filter zur Verbesserung der Ergebnisqualität: Wenn gewählter Strukturteil der Energie der zu bildenden Struktur verkleinert (also stabilisierend wirkt) wird ohne weiteres akzeptiert Wenn gewählter Strukturteil Energie der Zielstruktur jedoch erhöht wird anhand der Boltzmann Übergangswahrscheinlichkeit im Vergleich mit einer Zufallszahl entschieden ob die Struktur verwendet wird oder nicht dadurch werden Strukturen die lokal instabil sind eher ausgeschlossen und der Faltungspfad des GA kommt denen in Experimenten näher. Anmerkung2 : Da GAs nicht deterministisch sind, werden Durchgänge durchgeführt und statistisch ausgewertet bevor ein Ergebnis feststeht 36

37 Massiv paralleler GA (5) MASPAR MP-2 Architektur (SIMD) Front end UNIX Workstation Data Parallel Unit Array Control Unit Gibt die Befehle seriell an die Prozessor Elemente weiter (single instruction) PEs mit je 64kb lokalem Speicher (=1GB) (multiple data) Kommunikation der PEs durch 2 verschiedene Wege: X-Net (sehr schnell) aber nur direkt benachbarte PEs erreichbar (bei der Selection) Router (bei Initalisierung und bei Mutation) 37

38 Massiv paralleler GA (6) Effizienz Bezüglich benötigter Iterationen bis zur Konvergenz Durchschnittliche Anzahl an Populationen (Iterationen des Algorithmus) bis Population konvergiert, erhöht sich mit Größe der Population (Errorbars über 20 Durchläufe) 38

39 Massiv paralleler GA (7) Effizienz Bezüglich der Zeit pro Generation 1. Durch die Erhöhung der Anzahl der virtuellen CPUs pro physikalischer CPU berechnet (Anzahl physischer CPU fest, Anzahl logischer CPUs variabel) Zeit skaliert linear Zeit pro Generation erhöht sich (logisch da Last pro CPU größer wird) 2. Durch die Erhöhung der Anzahl der physischen CPUs und keiner Veränderung der Anzahl der virtuellen CPUs Zeit skaliert nicht mehr linear da mit steigender Zahl der real vorhandenen CPUs auch Synchronisationsaufwand (=Nachrichtanzahl) steigt 39

40 Massiv paralleler GA (8) Genauigkeit Bezüglich der freien Energie Rule of Thumb: Normalerweise liegt eine reale Struktur innerhalb der ersten 10% der Strukturen mit der kleinsten, freien Energie Größere Population erhöht Leistung des Algorithmus eine energetisch bessere Struktur zu finden 40

41 Massiv paralleler GA (9) Genauigkeit Bezüglich der Struktur Größere Anzahl von CPUs erhöht die Nähe der Strukturen zu experimentell entdeckten Strukturen (über Fuzzymatching und die richtig identifizierten Stämme) 41

42 Cell CPU : Kurzvorstellung Entwickelt von Sony, Toshiba und IBM drängt im April 2006 ein neuer Chip auf den Markt: die Cell CPU in der PS3 Hohe Taktrate und hoher Durchsatz RISC Besteht aus einer PPE CPU (verteilt die Aufgaben) auf 8 SPEs und einem MFC (Memory Flow Controller) PPE: einfache PowerCPU mit 512K L2 Cache, 64Bit SPE : Vector CPU mit 256K Speicher Eine einzige Cell CPU : 256 GFLOPS (single precision floating point) 42