Suboptimal Foldings of RNA Structures

Suboptimal Foldings of RNA Structures Ausarbeitung zum Vortrag von Christin Zander und Rebecca Gau Seminar: Computational RNomics

Einleitung Diese Ausarbeitung beschäftigt sich mit zwei Algorithmen, die dazu dienen suboptimale RNA- Sekundärstrukturen zu berechnen. Oftmals kann es den Zeitrahmen sprengen, die optimale Sekundärstruktur einer RNA zu berechnen, das ist gerade bei längeren RNA- Eingabesequenzen der Fall. Außerdem kann es vorkommen, dass die optimale Struktur mit minimaler freier Energie, die man berechnet hat, gar nicht diejenige ist, die tatsächlich im lebenden Organismus vorkommt. So kann es sein, dass eine RNA eine optimale Struktur nicht annehmen kann, weil vielleicht Moleküle daran gebunden sind, die eine optimale Faltung verhindern. Erst wenn die Bindung aufgelöst wird, findet man die Optimale Faltung vor. Die genannten und auch weitere Gründe zeigen, dass es sinnvoll sein kann, nicht die optimale, sondern an das Optimum angrenzende Strukturen zu berechnen. Genauer soll das nun der folgende Text erklären, in dem zunächst der ältere Algorithmus von Zuker und danach die Verbesserung von Wuchty abgehandelt wird. Sinn des Algorithmus Der zuerst beschriebene Algorithmus von Zuker wird dafür genutzt, streng alle suboptimalen Sekundärstrukturen zwischen der minimalen freien Energie und einem willkürlichen Größenmaß zu erzeugen. Der Algorithmus ist besonders schnell im Umkreis der minimalen freien Energie. Die Dichte von Zuständen an niedrigen Energien und ihren sich verbindenden Strukturen sind entscheidend bei der Abschätzung, wie ausgeprägt die Grundzustandsstruktur ist. Zwei wesentliche Aussagen Man kam zu zwei wesentlichen Aussagen: Zum einen, dass geringe Modifikationen die Grundzustandsstruktur verschärfen, indem man energetisch angrenzende Strukturen zwingt dem Grundzustand ähnlich zu sein. Zum anderen: Sequenzen deren Grundzustand thermodynamisch wohl definiert ist, zeigen eine bedeutende Neigung einzelne Punkmutationen zu puffern. Dies kann wiederum Evolutionsfolgen haben, da der Selektionsdruck existiert, um die Definition von Grundzuständen mit biologischer Funktion zu verbessern. 2

Sekundärstruktur von RNA- Molekülen Die Struktur von RNA- Molekülen bezieht sich auf eine Topologie von binären Kontakten, die aufgrund von bestimmten Basenpaarungen entstehen, anstatt auf eine Geometrie, die sich in Bezug auf Koordinaten und Entfernungen gebildet hat. Triebkraft der Sekundärstrukturbildung ist das Stacking von Basenpaaren. Die Bildung einer energetisch günstigen helikalen Region impliziert allerdings auch die Bildung einer energetisch ungünstigen Schleifenregion. Diese Energetik führt zu einer riesigen Vielfalt an Kombinationsmöglichkeiten von Helixund Schleifenanordnungen, die das strukturelle Repertoire einer individuellen RNA- Folge überspannen. Die sekundäre Struktur stellt ein Gerüst für die tertiäre Struktur dar. Ihre freie Energie erklärt einen großen Anteil der umfassenden freien Energie der vollen Struktur. Die Sekundärstruktur stellt ein Muster von Basenpaarverbindungen dar, wie in Bild 1 gezeigt. Dies bringt ein formell wohl definiertes, kombinatorisches Objekt hervor. Die theoretische Bedeutung von RNA als ein Modellsystem für Folgenstrukturbeziehungen in Biopolymeren liegt in der Tatsache, dass Strukturen dieser Art durch dynamic programming berechnet werden können. Dies ist jedoch aus 2 Gründen nicht leicht: Die Energieparameter, auf die sich der Faltungsalgorithmus bezieht, sind unvermeidlich ungenau. Die wahre minimale freie Energie- (mfe) Struktur könnte suboptimal in Bezug auf die benutzten Parameter sein. In der Natur muss nicht zwangsläufig die mfe- Struktur vorliegen, das kann auf unbekannte biologische Beschränkungen zurück geführt werden. Zweitens können RNA- Folgen unter physiologischen Gesichtspunkten in alternativen Zuständen, deren Energieunterschied klein ist, existieren - zwei ähnliche Strukturen, die unterschiedliche Funktionen erfüllen, z.b. verschiedene Ribozyme. 3

Ergebnisse wie diese haben Interesse daran erweckt, suboptimale Strukturen zu berechnen. Diese Annäherungen haben allerdings ein Problem gemeinsam: Sie berechnen nicht alle suboptimalen Strukturen innerhalb eines vorgegebenen Energieradius der mfe. Der in diesem Text behandelte Algorithmus, nach dem suboptimale Strukturen berechnet werden sollen, ist Zukers Ausweitung seines eigenen dynamischen Programmierverfahrens. Es erzeugt für jedes zulässige Basenpaar in einer vorgegebenen Folge die energetisch beste Struktur, die dieses Basenpaar enthält. Für eine Folge der Länge n werden maximal n(n 1)/ 2 Suboptimale Strukturen erzeugt. Es ergibt sich, dass keine Strukturen erstellt werden, die sich von der mfe im Mangel an einer oder mehr Basenpaaren unterscheiden. Außerdem, wenn eine mfe- Struktur bestehend aus zwei Substrukturen A B verbunden ist durch eine Strecke von äußeren (external) Basen, werden keine suboptimalen Alternativen erzeugt, die suboptimal in beiden Modulen sind. Viele der fehlenden Strukturen können gut als uninteressant eingestuft werden, aber dies kann nicht mit Gewissheit für alle von ihnen gesagt werden. Nachteile der alten Algorithmen Es gibt kaum alte Algorithmen, aber schon einige Ansätze. Die alten Algorithmen zu Berechnung der Suboptimalität hatten schwerwiegende Nachteile, zum einen stiegen die Rechenzeit sowie der Speicherverbrauch exponentiell mit der Sequenzlänge an. So sind diese Programme nur auf Faltungen von 150 bis 200 Basen festgelegt. Durch eine rekursive Berechnung können bis zu 2kb berechnet werden, jedoch wird hierbei nur eine Lösung geliefert. Multiple Folding Algorithm von Zuker Der Hintergrund dieses Algorithmus ist das Zuker- Stiegler- Verfahren, welches von Steger verändert wurde. Hierbei wird eine lineare RNA wie eine zirkuläre behandelt und die erste und letzte Base gelten als benachbart. Das bedeutet, dass die ersten und letzten Basen miteinander paaren dürfen, wenn es nötig ist. Zusätzlich müssen Loops, die den Ursprung enthalten als Spezialfälle betrachtet werden. So werden aus einem Hairpin- Loop, das den Ursprung beinhaltet zwei einzelsträngige Regionen am 5`und 3`Ende des Moleküls. Diese künstliche Zirkulierung würde die Ergebnisse in einer dynamischen Simulation der Faltung beeinflussen, aber es ruft keine Probleme bei diesem Algorithmus hervor, indem Faltungen unabhängig von folding pathway berechnet werden. Die Wahl von P- optimalen Faltungen, 4

Faltungen mit einem festen Energie- Abstand zum globalen Minimum, ist demnach ratsam. Wenn die Faltungsregion und die Energien gut bestimmt wären, würde es reichen, innerhalb von 3kcal/mol von der optimalen Energie zu schauen, um alle Strukturen zu finden, die in 99% der Zeit auftreten. Diese Richtlinie ist das Ergebnis der Boltzmann- Energie- Verteilung bei 300K. Eine Abweichung von 5 oder 10% von einer optimalen Faltung von 100kcal/mol würde mit seltenen Ereignissen mit jeweils 2 * 10 4 und 6 * 10-8 korrespondieren. Diese großen Energieinkremente werden nicht aus thermodynamischen Gründen genutzt, sondern weil es große Unzuverlässigkeiten in den gemessenen Energiedaten gibt. Es folgt, dass die biochemisch korrekte Faltung innerhalb von 5 bis 10% des Energieinkrements liegen sollte. Statt reinem Identifizieren eines Basenpaares ri rj, das Emin liefert, um eine optimale Faltung zu berechnen, ist die Strategie beim P- optimal alle Basenpaare zu identifizieren für die V(i,j) + V(j,i) ist nahe Emin gilt. V ist dafür da, die Faltung mit der minimalen freien Energie zwischen i und j zu berechnen. Um zu verstehen, was P- optimal eigentlich ist, muss man sich vorstellen, dass P eine Zahl zwischen 0 und 100 ist. Demnach ist dann ein P- optimales Basenpaar ein Basenpaar ri rj für das gilt: V(i,j) + V(j,i) (1 P/100)*Emin. Somit ist ein P- optimales Basenpaar enthalten in wenigstens einer Faltung in P Prozent der minimalen freien Energie. So eine Faltung wird als P- optimale Faltung definiert. Die automatische Berechnung mit dem implementierten Algorithmus kann eine große Anzahl von Faltungen innerhalb von 5 oder10% der minimalen freien Energie berechnen, viele von ihnen sind ähnlich, die meisten kann man auch als zu ähnlich ansehen. Aus diesem Grund wurde eine Distanzfunktion entwickelt, als eine Maßnahme topologische Unterschiede zwischen zwei Strukturen zu messen. Die Distanz zwischen zwei Faltungen ist die kleinste ganze Zahl d, so dass es für jedes Basenpaar ri rj der einen Struktur, ein Basenpaar rh rk der anderen Struktur gibt, das i h d und j k d erfüllt. Diese dimensionslose Quantität ist null, wenn zwei Strukturen identisch sind. Diese Art P- optimale Faltungen zu berechnen kann angepasst werden, so dass die Distanzen zwischen allen Basenpaaren der berechneten Strukturen größer als das vorher zugewiesene d sind. Als Beispiel: Faltung eines Viroids. Das 359 Basen potato spindle tuber viroid (PSTV) wurde gefaltet mit der zirkulären Version des neuen Programms. Das Viroid ist bekannt dafür, sich in eine lange rodlike, also stäbchenförmige Struktur zu falten, wie es durch den Zuker- Stiegler Algorithmus vorhergesagt wurde. Der Energie- Dotplot der Struktur ist eine Diagonale von Punkten 5

(Basenpaaren) einschließlich der Helix der rodlike Faltung, die unterbrochen wurde von einzelsträngigen Regionen. Eine Untersuchung von alternativen Strukturen zeigt, dass die optimale rodlike Faltung gut bestimmt ist. 6

Innerhalb 10% der minimalen freien Energie wird es Abweichungen geben, aber diese würden kleinere Störungen der zugrunde liegenden rodlike Struktur sein. Die rod wird allmählich dicker, wenn der Grad der Suboptimalität erhöht wird. Punkte nahe am rod korrespondieren mit Basenpaaren, die längs an der Struktur entlang wandern. Punkte an der Diagonalen korrespondieren mit kleinen hairpin Strukturen, die aus der rodlike Faltung heraus gedrückt wurden. Im mathematischen Sinne ist die Faltung von PSTV gut bestimmt. Signifikante Abweichungen von der optimalen Faltung wurden nicht innerhalb der 5 10% der minimalen freien Energie beobachtet. Hintergrundwissen für den Algorithmus von Wuchty Im folgenden gingen wir auf die Suboptimal Free Energie Folding von Wuchty et al. ein. Zunächst wurde dafür der logische Hintergrund hinter dem Algorithmus beschrieben. Dazu nimmt man sich einen Sekundärstrukturgraphen zur Hilfe. Die Knoten des Graphen sind die Nukleotide an den Positionen i = 1,, n einer RNA- Sequenz der Länge n. Die Menge der Kanten besteht aus zwei disjunkten Teilmengen. Die eine ist allgemeiner für alle Sekundärstrukturgraphen und die andere ist sequenzspezifisch. Das heißt, die erste Menge beschreibt das kovalente Rückgrat, das Knoten i mit Knoten i + 1 verbindet, mit i = 1,, n-1. Die andere Menge besteht aus den Kanten, die die Wasserstoffbrückenbindungen zwischen gepaarten Basen repräsentieren. Pseudoknoten werden im Wuchty- Algorithmus nicht berücksichtigt, da die Rechenzeit dabei nicht mehr im Rahmen des Erträglichen bleibt. Die 7

Basenpaarungen, die möglich sind, sind: {AU, UA, GC, CG} und außerdem noch {GU, UG}. Man versucht nun die Menge von Kanten zu finden, die die maximale Anzahl von Basenpaarungen enthält. Eine wichtige Restriktion ist, dass es niemals eine Base geben darf, die mit mehr als einer anderen Base verknüpft ist. Das Problem das hier also zu lösen ist, ist das Maximum Matching. Ein Matching in einem ungerichteten Graphen G ist dabei eine Menge von Kanten, die keinen Ausgangs- oder Eingangspunkt gemeinsam haben. Ein Matching M wird Maximum Matching genannt, wenn kein Matching mehr Kanten enthält als M. Bei der Maximierung der Basenpaare ist der grundlegendste Baustein ein einzelnes Basenpaar, was jedoch im Gegensatz zur Energieminimierung steht. Maximum Matching soll also eine einfachere Methode bieten als das free energy folding. Für das dynamic programming und die Findung einer maximalen Anzahl von Basenpaaren ist folgende Formel notwendig: Sei P i,j, i < j die maximale Anzahl von Basenpaaren im Sequenzabschnitt [i, j]. P i,j kann rekursiv definiert werden: P i,j = max { P i, j-1, max { ( P i, l-1 + 1 + P l+1,j-1 ) ρ(a l, a j)}} i l j-2 dabei ist ai є {A, C, G, T} eine Base an Position i und ρ(, ) eine Indikatorfunktion für biophysikalisch legale Basenpaare: Somit wird die Dynamic- Programming- Matrix gefüllt. Wenn sie voll ist, wird durch Backtracking das beste Ergebnis gesucht. Im Backtracking ist es wichtig, dass man sich partielle Strukturen definiert, die einem dabei helfen, alle möglichen Strukturen zu finden, wenn sich der Pfad in mehrere Möglichkeiten auftrennt. S = ( σ; P ) stellt dabei eine Menge von Strukturen dar, die im Backtracking berechnet wird. Alle Strukturen in S haben die Basenpaare P gemeinsam, σ ist dabei ein Stack, der Sequenzsegmente enthält, die durchlaufen werden müssen, um alle Basenpaare zu finden. Wenn S = (Ǿ; P), dann ist der Stack leer und die Berechnung abgeschlossen, denn immer wenn in einem Segment keine Basenpaare mehr gefunden werden, wird es vom Stack geworfen. 8

Der Wuchty- Algorithmus In der suboptimalen Faltung wollen wir jedoch am besten alle Strukturen finden, die ein vorgegebenes Kriterium erfüllen. Das Maximum Matching wird dadurch verändert, dass mindestens P max Δ Basenpaare mit 0 Δ P max herauskommt. Im Backtracking definieren wir uns nun ein Refinement, also eine Verfeinerung. Eine partielle Struktur S1 = (σ1;p1) ist ein Refinement einer partiellen Struktur S2 = (σ2;p2) (geschrieben S1 < S2), wenn P1 Teilmenge von P2 ist und für alle [a, b] є σ1 ein Segment [c, d] є σ2 existiert, so dass auch [a, b] eine Teilmenge von [c, d] ist. Sonst S1 = S2!!! Alle Segmente werde wieder durchlaufen und jedes Refinement, das das Suboptimalitätskriterium erfüllt, wird auf einem Stack R gespeichert. Hier wurde das Zuker- Stiegler- Verfahren so verändert, dass man Multi- Loops in einem eindeutigen Weg zerlegt. Ungepaarte Basen, die mit an eine Helix angrenzen, können die Energie einer Struktur durch das Stacking auf ihre benachbarten Basenpaare senken. Diese Energiebeiträge werden für äußere Basen, die angrenzend zu dem 5 - und dem 3 - Ende einer helikalen Struktur sind, berücksichtigt. Das gleiche gilt für ungepaarte Nukleotide innerhalb eines Multi- Loops, der an eine helikale Struktur angrenzt. Das Problem für das suboptimale Backtracking ist das, dass man beim zerlegen eines Multi- Loops noch nicht weiß, ob eine zu einer Helix angrenzende Base für eine Dangling- End- 9

Wechselwirkung vorhanden ist. Wenn sie es ist, weiß man nicht, ob jene Base ungepaart oder schon an einer anderen Dangling- End- Wechselwirkung beteiligt ist. Man behandelt diese Situation einfach, indem man immer einen Dangling- End- Beitrag hinzufügt, ohne zu überprüfen, ob die beteiligte Base sich dafür qualifiziert oder nicht. Zeit und Speicherplatz Die Zeit, die man braucht, um alle Strukturen im Abstand zwischen E min und E min + Δ zu berechnen, hängt von den Anzahl der Strukturen in diesem Abstand ab. Solange Δ klein ist, ist das Verfahren auch schnell. Die obige Tabelle zeigt den CPU- Bedarf an und man sieht an den Daten ein exponentielles Wachstum. 10

Zum Abschluss ein kleines Beispiel für Hefe Im Diagramm dargestellt kann man (wenn man den Text darunter auch berücksichtigt) erkennen, dass der Wuchty- Algorithmus zum einen die Strukturen erkennt, die auch schon der oben beschriebene Zuker- Algorithmus findet ( kleine Pfeile zeigen die Strukturen an), aber er findet auch noch zusätzliche (Strukturen ohne Pfeile). Es wurden in diesem Beispiel mit dem Faltungsalgorithmus die 50 energetisch günstigsten Strukturen erzeugt und diese 11

liegen in zwei Klassen: mfe- Struktur (-19,26 kcal/mol) in einer Struktur (-18.83 kcal/mol) in der Nähe von ihr in einer anderen. Bild 6 soll nur noch einmal zeigen, dass man die Strukturen noch in weitere Cluster unterteilen kann, mit einer großen Strukturmannigfaltigkeit. Abschließend muss man sagen, dass der Wuchty- Algorithmus dem Zuker- Algorithmus vorzuziehen ist, denn er bietet die Möglichkeit, auch einigermaßen schnell an mehr Strukturen zu gelangen, als der Zuker- Algorithmus. Zuker hat mit dem Titel seines Papers zu viel versprochen, indem er ankündigt alle Strukturen mit seinem Algorithmus finden zu können, denn wie man in Figure 4 sieht, kann der Algorithmus von Wuchty mehr Strukturen ausfindig machen. Doch auch beim Wuchty- Algorithmus besteht noch Verbesserungsbedarf, denn Strukturen, wie Pseudoknoten können nicht erkannt werden und es werden viele Strukturen, die nicht innerhalb der Suboptimalitätskriteriums liegen verworfen, obwohl sie genauso eine mögliche Faltung beschreiben können. 12

Quellen Zuker, Michael, On Finding All Suboptimal Foldings of an RNA Molecule, Sience, New Series, Vol. 244, No.4900 (Apr. 7, 1989), pp 48-52 Wuchty, Stefan et al., Complete Suboptimal Folding of RNA and the Stability of Secondary Structures, Biopolymers, 1999, 49(2), pp 145-165 13