Vorhersage der RNA-Sekundärstruktur

Transkript

1 Vorhersage der RNA-Sekundärstruktur Andreas Spillner Bioinformatik, SS 2018

2 Primärstruktur vs. Sekundärstruktur Primärstruktur Sequenz der Buchstaben (bei RNA entspricht ein Buchstabe jeweils einer Nukleinsäure in einem kettenförmigen Molekül). Sekundärstruktur Sich durch Wasserstoffbrücken innerhalb eines kettenförmigen Moleküls bildende Strukturen.

3 Beispiel für eine RNA-Sekundärstruktur [Quelle: An efficient two-level swarm intelligence approach for RNA secondary structure prediction with bi-objective minimum free energy scores. Soniya Lalwani, Rajesh Kumar, Nilama Gupta. Swarm and Evolutionary Computation, Volume 27, April 2016, Pages ]

4 RNA und Genregulation Die Kenntnis der von einem RNA-Molekül eingenommenen Sekundärstruktur hilft verstehen, welche Funktion dieses Molekül übernehmen kann. Beispiele für mögliche Funktionen: Regulation der Transkription Stummschaltung von Genen...

5 Ansatz zur Vorhersage Minimierung der freien Energie Berechnung des energetisch niedrigsten Zustands für ein RNA-Molekül Wegen der großen Anzahl möglicher Zustände können nicht einfach alle durchgegangen und der mit der niedrigsten Energie herausgesucht werden.

6 Basenpaarungen Eine RNA-Sequenz ist für uns hier eine Folge r 1, r 2,..., r n von Buchstaben A, C, G und U. Die Teilsequenz r i, r i+1,..., r j für 1 i j n wird mit R i,j bezeichnet. Sogenannte kanonische Paarungen von Buchstaben sind: C == G, A == U, G == U Alle anderen Paarungen von Buchstaben heißen nicht kanonisch.

7 Beschreibung der Sekundärstruktur Gegeben sei die RNA-Sequenz z = r 1, r 2,..., r n. Eine Sekundärstruktur von z ist eine Menge S von Paaren (r i, r j ) mit (i) 1 i < j n und (ii) j i > 4. Bedingung (ii) schließt starke Verbiegungen des RNA-Moleküls aus.

8 Typische Teilstrukturen einer RNA-Sekundärstruktur [Quelle: RNA as a Permutation. Nilay Chheda, Manish Gupta. arxiv: , 2014]

9 Pseudoknoten Zwei Paare (r i, r j ) und (r k, r l ) in einer Sekundärstruktur S bilden einen Pseudoknoten, wenn gilt. i < k < j < l Wir betrachten zunächst Sekundärstrukturen ohne Pseudoknoten. Vorkommen können also nur: helikale Strukturen (stem) Haarnadelstrukturen (hairpin) Ausbuchtungen (bulge) interne Schleifen (loop)

10 Rechenregeln Basierend auf Messungen der Energie von RNA-Molekülen kann man recht komplexe Rechenregeln aufstellen, gemäß denen sich die freie Energie einer Sekundärstruktur ergibt. Wir schauen uns hier nur die grundsätzliche Herangehensweise an.

11 Verwendete Scoringfunktion (1) Für jede Basenpaarung (r, r ) ist ein Wert gegeben. α(r, r ) 0 Für kanonische Basenpaarungen gelte α(r, r ) < 0. Für alle anderen Basenpaarungen sei α(r, r ) = 0. Mit Messungen vereinbar sind die folgenden Werte: α(c, G) = α(g, C) = 3 kcal mol α(a, U) = α(u, A) = 2 kcal mol α(u, G) = α(g, U) = 1 kcal mol

12 Verwendete Scoringfunktion (2) Eine Sekundärstruktur S der RNA-Sequenz r 1, r 2,..., r n wird dann bewertet mit der Scoring-Funktion E(S) = α(r, r ). (r,r ) S E(S) heißt die freie Energie von S. Ziel: Berechnung einer Sekundärstruktur S für die gegebene RNA-Sequenz mit E(S) minimal.

13 Berechnung einer optimalen Sekundärstruktur Die Berechnung einer Sekundärstruktur S mit minimaler freier Energie für die RNA-Sequenz r 1, r 2,..., r n erfolgt mit dynamischem Programmieren. Dazu verwenden wir eine Tabelle E mit n Zeilen und n Spalten. Der Eintrag E[i, j] für 1 i j n liefert die minimale freie Energie einer Sekundärstruktur für die Teilsequenz R i,j = r i, r i+1,..., r j.

14 Ausfüllen der Tabelle E Initialisierung: E[i, j] = 0 für alle 1 i j n mit j i 4. Der Eintrag E[i, j] für 1 i j n mit j i > 4 ergibt sich als das Minimum über: (1) E[i, j 1] (2) α(r i, r j ) + E[i + 1, j 1] (3) min i<k<j 4 (E[i, k 1] + α(r k, r j ) + E[k + 1, j 1])

15 Betrachtung aller möglichen Fälle Die Formel zur Berechnung von E[i, j] für j i > 4 kommt durch die Betrachtung aller möglichen Fälle zustande, wie r i und/oder r j Paarungen eingehen können. (1) r j geht mit keiner Base aus R i,j eine Paarung ein. (2) r j geht mit Base r i eine Paarung ein. (3) r j geht mit einer Base r k für i < k < j 4 eine Paarung ein.

16 Traceback und Laufzeit In E[1, n] steht nach Abschluss der Berechnung der minimale Wert der freien Energie einer Sekundärstruktur der gegebenen RNA-Sequenz. Um eine entsprechende Sekundärstruktur zu erhalten, führt man einen Traceback auf der Tabelle E aus. Die Laufzeit des gesamten Verfahrens ist in O(n 3 ), da wir O(n 2 ) Tabelleneinträge berechnen und ein Eintrag in O(n) Zeit berechnet werden kann.

17 Noch nicht berücksichtigte Aspekte Wir können noch keine Sekundärstrukturen mit Pseudoknoten erhalten. Mehrere aufeinanderfolgende Basenpaarungen in helikalen Strukturen interagieren und wirken stabilisierend auf die Sekundärstruktur. Man nennt dies Stacking-Interaktionen. Wir wollen auch den Beitrag dieser Stacking-Interaktionen zur freien Energie der Sekundärstruktur berücksichtigen.

18 Bestimmung aller möglichen helikalen Strukturen Zunächst bestimmt man die Menge Hel, die alle helikalen Strukturen enthält, die sich auf der RNA-Sequenz r 1, r 2,..., r n bilden können. Hel kann effizient bestimmt werden und enthält O(n 3 ) Elemente.

19 Kompatibilität helikaler Strukturen Zwei helikale Strukturen h 1, h 2 Hel sind kompatibel, wenn sie gleichzeitig in einer Sekundärstruktur der RNA-Sequenz auftreten können. Man erkennt zwei helikale Strukturen h 1 und h 2, die nicht kompatibel sind, daran, dass es ein r i in r 1, r 2,..., r n gibt, welches in h 1 und in h 2 vorkommt. Außerdem darf es wieder keine zu starken Verbiegungen des RNA-Moleküls geben. Ggf. kann man noch weitere Bedingungen für die Kompatibilität aufstellen.

20 Ziel: Optimale Menge paarweise kompatibler helikaler Strukturen bestimmen Jede Menge K von paarweise kompatiblen helikalen Strukturen definiert eine Sekundärstruktur S K. Die Bewertung einer solchen Menge K erfolgt über die Berechnung der freien Energie von S K. Dabei werden die Stacking-Interaktionen berücksichtigt. Im Folgenden wird diese Bewertung mit sc(k ) bezeichnet.

21 Kodierung von Mengen helikaler Strukturen Die Kodierung von Teilmengen K i von Hel erfolgt über Bitvektoren: Hel h 1 h 2 h 3 h 4 h 5 K K K K Im folgenden Algorithmus können als Zwischenergebnis auch Teilmengen auftreten, die nicht paarweise kompatibel sind. Die Kodierung setzt auch nicht voraus, dass die K i paarweise kompatibel sein müssen.

22 Grundidee eines genetischen Algorithmus In einem genetischen Algorithmus verwaltet man eine Population P möglicher Lösungen für das gegebene Problem. Bei uns ist P = K 1, K 2,..., K t eine Liste von Teilmengen von Hel kodiert als Bitvektoren. In jeder Iteration des Algorithmus geschehen zwei Dinge: (1) Aus dem aktuell vorhandenen P wird eine neue Population P zusammengestellt. Dabei kommen bevorzugt diejenigen Elemente von P zum Zuge, die bzgl. der verwendeten Bewertung gut abschneiden. (2) Durch Mutationen und Kreuzungen werden die Elemente von P mit einer gewissen Wahrscheinlichkeit modifiziert. Der Algorithmus hält an, wenn sich die Bewertung der jeweils besten Elemente der Population über mehrere Iterationen hinweg nicht mehr wesentlich ändert.

23 (1) Erzeugung einer neuen Population P Bei uns besteht P aus Teilmengen von Hel. K 1, K 2,..., K t P kann dieselbe Teilmenge mehrmals enthalten. Aus sc(k i ) wird eine Wahrscheinlichkeit berechnet, mit der K i in P übernommen wird. Diese Wahrscheinlichkeit ist umso größer, je besser die Bewertung sc(k i ) im Verhältnis zu den Bewertungen der anderen Elemente von P ist. Die Größe der Population bleibt von Iteration zu Iteration konstant.

24 (2) Mutationen und Kreuzungen in P Mutationen: Man greift sich jeweils zufällig ein Element K P heraus und ändert ein zufällig gewähltes Bit im Bitvektor, der K codiert. Kreuzungen: Man greift sich jeweils zufällig zwei verschiedene Elemente K und K P heraus und tauscht einen Präfix zufälliger Länge von K und K aus.

25 Einhaltung der Kompatibilität Wir sind nur an Teilmengen von Hel interessiert, die paarweise kompatible helikale Strukturen enthalten. Daher wählen wir als Startpopulation auch eine, die nur solche Teilmengen von Hel enthält. Durch Mutationen und Kreuzungen kann es aber dazu kommen, dass die Population P am Ende einer Iteration des genetischen Algorithmus zunächst auch Teilmengen K Hel enthält, die nicht mehr nur paarweise kompatible helikale Strukturen enthalten. Dann müssen wir diese Elemente K von P entsprechend bereinigen.

26 Bereinigung inkompatibler helikaler Strukturen Wenn wir feststellen, dass ein K P inkompatible helikale Strukturen enthält, dann müssen wir Elemente aus K entfernen. Auch dabei brauchen wir ein Kriterium, nach dem wir die zu entfernenden Elemente auswählen. Wenn wir entscheiden müssen, ob wir h 1 oder h 2 aus K entfernen, dann gehen wir danach, wie weit die in den helikalen Strukturen gepaarten Stränge in der RNA-Sequenz voneinander entfernt liegen. Wir entfernen dann immer diejenige helikalen Struktur zuerst, deren Stränge am weitesten voneinander entfernt liegen.

27 Typische Probleme beim Einsatz genetischer Algorithmen Wenn man einen genetischen Algorithmus einsetzt, wird man mit einer Basisversion experimentieren und schauen, wie er sich schlägt. Typische Probleme, die auftreten können, sind: Die Population wandert ziellos im Raum der möglichen Lösungen für das Problem umher. Dann muss man ggf. untersuchen, ob die Bewertung der Lösungen geeigneter gestaltet werden kann. Die Population gerät oft in ein lokales Minimum, aus dem sie nicht wieder herausfindet. Dann kann eine Modifikation der Zusammenstellung der Elemente für P hilfreich sein. Schon gefundene gute Lösungen werden zu schnell wieder aus der Population entfernt. Auch hier kann eine Modifikation der Zusammenstellung der Elemente für P hilfreich sein.

28 Fine-Tuning des genetischen Algorithmus zur Bestimmung optimaler RNA-Sekundärstrukturen Man passt die Bewertung so an, dass längere helikale Strukturen eine bessere Bewertung bekommen. Man übernimmt immer die beste und die schlechteste Lösung der aktuellen Population unverändert in die nächste Population. [Weitere Details zum originalen Algorithmus und den Experimenten damit: The computer simulation of RNA folding pathways using a genetic algorithm. Gultyaev et al., J. Mol. Biol. 250, 37-51, 1995.]