Sequence Assembly. Nicola Palandt

Transkript

1 Sequence Assembly Nicola Palandt 1 Einleitung Das Genom eines Lebewesens ist der Träger aller Informationen, die eine Zelle weitergeben kann. Es besteht aus Sequenzen, die mehrere Milliarden Basen lang sein können. Um das Genom entschlüsseln zu können, müssen wir zuerst die Abfolge der Basen herausfinden. Mit den herkömmlichen Methoden ist es nur möglich, Sequenzen von Basen an einem Stück zu entschlüsseln, daher müssen größere Sequenzen in kleinere Stücke zerlegt werden, die sequenziert werden können. Anschließend müssen diese Fragmente wieder zusammengefügt werden, das nennt man Sequenz Assembly. Das Shotgun-Prinzip ist eine Methode, um ganze Genome zu sequenzieren. Hier wird die DNA per Zufall in kurze Fragmente zerlegt. Nachdem die einzelnen Sequenzen entschlüsselt wurden, ist es nicht mehr so einfach, die einzelnen Fragmente wieder zusammenzufügen, da die Target-Sequenz per Zufall zerstückelt wurde. Im Folgenden wollen wir uns damit beschäftigen, Methoden vorzustellen, die diese Fragmente richtig zusammenzusetzen. 2 Probleme Bevor wir beginnen, aus den Fragmenten, die wir durch unsere Shotgun-Sequenzierung erhalten haben, die ursprüngliche DNA-Sequenz zu rekonstruieren, müssen wir uns auf mögliche Probleme vorbereiten. Der einfachste Fehler, der uns begegnen kann, ist der Base Call Error. Bei diesem Fehler handelt es sich um Substitutionen, Insertionen und Deletionen, die beim Vervielfältigen der DNA auftauchen können. Unser Algorithmus muss in der Lage sein, solche Fehler zu erkennen. Durch das Einfügen von Lücken in die jeweiligen Fragmente muss er trotzdem die richtige Consensussequenz bestimmen können. Ein größeres Problem hierbei sind die sogenannten Chimeric Fragments oder auch Chimeras, sie entstehen vor dem Sequenzieren durch die Verbindung zweier Fragmente aus unterschiedlichen Teilen der Target-DNA. Diese Sequenzen müssen vor dem eigentlichen Algorithmus erkannt und aus dem Fragmentsatz entfernt werden. 1

2 Chimeras sind nicht die einzigen Fragmente, die vorzeitig erkannt und entfernt werden müssen. Da die DNA vor dem Sequenzieren vervielfältigt werden muss und hierbei in Vektoren geschleust wird, kann es sein, dass manche Fragmente nicht vom Target, sondern vom Vektor stammen. Dieses Problem lässt sich jedoch einfach lösen: Da wir die Vektor-DNA kennen, können wir alle Fragmente mit der Vektor-DNA vergleichen, gleiche Fragmente werden dann entfernt. Wenn wir uns die DNA anschauen, stoßen wir auf ein weiteres Problem. Die DNA besteht aus einem Doppelstrang, das bedeutet, wir haben den Target-Strang, den wir rekonstruieren wollen, und wir haben den Template-Strang, der komplementär revers ist. Wenn wir ein Fragment aus unserem Fragmentsatz nehmen, wissen wir nicht, ob er zum Target- oder zum Template-Strang gehört. Würden wir nur die Fragmente so wie sie sequenziert wurden betrachten, könnte es sein, dass zwei Fragmente, die eigentlich eine große Überlappung haben, von unserem Algorithmus nicht überlappt werden würden, falls eines vom komplementären Strang ist. Daher muss unser Algorithmus immer schauen, ob die Überlappung besser ist, wenn eins der Fragmente revers komplementär ist. Hierbei reicht es bei zwei Fragmenten, wenn eine Sequenz umgedreht wird, denn drehen wir beide um kommen wir auf dasselbe Ergebnis wie wenn wir keines umdrehen. Kommen wir nun zu dem größten Problem auf welches wir stoßen werden, wenn wir versuchen unsere Bruchstücke zusammenzubauen: Die repetitiven Regionen. In einem Genom gibt es Sequenzen, die mehrmals hintereinander wiederholt werden. Zwischen diesen Wiederholungen sind jedoch z.t. andere Sequenzen. Wenn nun das Fragment nicht über den ganzen Repeat hinaus reicht, kann das zu verschiedenen Problemen führen. Zum einen kann es vorkommen, dass die Zwischenstücke zwischen den Repeats vertauscht werden, da wir nicht erkennen können, zu welcher Wiederholung ein Fragment gehört. Des Weiteren kann es einem schlechten Algorithmus passieren, dass er ein Fragment, dessen Sequenz vollständig im Repeat liegt, einem anderen Repeat zuordnet und somit das Stück, zu dem es gehört, verkürzt wird. Außerdem kann es vorkommen, dass eine Sequenz und ihr revers komplementäres Stück in einigem Abstand im Genom vorhanden sind. In einem solchen Fall kann es passieren, dass der Algorithmus die dazwischenliegende Sequenz um 180 dreht. Solche Probleme sind für einen Algorithmus schwer zu bewältigen, da wir selbst von Hand nicht unbedingt auf das richtige Ergebnis schließen können. Zum Schluss noch ein Problem, welches das Shotgunprinzip mit sich bringt, und das unser Algorithmus zwar nicht lösen, jedoch erkennen sollte: Die fehlende Coverage. Wenn man das Genom per Zufall in einzelne Fragmente teilt und diese sequenziert, ist es möglich, dass es Stellen gibt, für welche kein Fragment, oder zu wenige Fragmente vorhanden sind. An diesen Stellen ist es nicht möglich die Consensussequenz richtig zu bilden, da die zugehörigen Fragmente zum Aufdecken fehlen. Unser Algorithmus kann in einem solchen Fall nicht das ganze Assembly zurückgeben, aber er muss die fehlende Coverage feststellen und die Fragmente in Contigs aufteilen. 2

3 Ein Contig ist ein Bereich, der ohne fehlende Sequenz aufgedeckt werden kann. Um schlussendlich diese Lücken zwischen den Contigs zu schließen gibt es mehrere Methoden, auf die wir jedoch nicht weiter eingehen werden. Diese Problem zeigen jedoch, wie wichtig es ist, möglichst viele Fragmente zu haben, damit es gar nicht zu einer fehlenden Coverage kommt. Modelle Nachdem wir nun wissen, welche Probleme uns beim Sequenz Assembly begegnen können, wollen wir uns nun drei verschiedene Ansätze zum Lösen dieser Probleme anschauen..1 Shortest Common Superstring Die einfachste und naivste Variante unser Assembly zu lösen, ist aus den vorhandenen Fragmenten den kürzest möglichen String zu bauen, der alle Fragmente als Substring enthält, diesen nennen wir Superstring. Hierbei übergeben wir unserem Modell unseren Fragmentsatz, und dieses gibt uns den kürzest möglichen Superstring aus diesen Fragmenten zurück. Das funktioniert wie folgt: Stimmt der Suffix eines Fragments mit dem Präfix eines anderen überein, können wir die beiden Sequenzen zu einem Superstring zusammenfassen, indem wir die übereinstimmenden Basen überlappen. Aufgrund des Ziels dieses Modells wird hierbei meist automatisch die größte Überlappung zwischen den Fragmenten genommen, da so der String möglichst kurz bleibt. Diese Überlappung ist auch die wahrscheinlichste, denn je länger die Überlappung ist, desto mehr Kombinationsmöglichkeiten gibt es für die Basen, wodurch die Wahrscheinlichkeit, dass die gegebene Kombination zufällig ist, sinkt. Wenn wir uns aber das Modell genauer anschauen, merken wir schnell, dass der Shortest Common Superstring auf keines der Probleme eingeht, welche oben genannt wurden. Dieses Modell ist weder in der Lage einen Base Call Error festzustellen, noch kann es mit Repeats umgehen..2 Reconstruction Der nächste Schritt zur Lösung des Problems ist die Reconstruction, hier nehmen wir einen weiteren Parameter ε hinzu. ε ist ein Wert zwischen 0 und 1 und gibt die Fehlertoleranz an. Diese zeigt an, welchen Anteil an Fehler wir in unserer Sequenz erlauben. Ein Fragment f aus unserem Fragmentsatz F mit der Länge f darf maximal ε* f Fehler enthalten. Wir können demnach zur besseren Übereinstimmung von Fragmenten Lücken in unsere Sequenz einfügen, wobei gelten muss: min{d s (f, S), d s ( f, s) ε f }

4 Hierbei ist f ein Substring des zu konstruierenden Superstrings S, f das revers komplementäre von f und d s ist die Anzahl der Lücken die eingefügt werden. Zusätzlich wird bei diesem Modell überprüft, ob das Fragment, oder sein revers komplementäres Gegenstück besser passt. Wenn dem Modell ein Fragmentsatz und ein ε übergeben werden bekommen wir den kürzest möglichen Superstring zurück, wobei in jedem f in S maximal ε* f Lücken vorhanden sein können und es komplementär revers sein kann. Bei diesem Modell können wir die Probleme des Base Call Errors lösen und auch auf die unbekannte Richtung der Fragmente wird eingegangen, dennoch ist es nicht möglich mit der Reconstruction Repeats richtig zu erkennen.. Multicontig Das dritte Modell zum Sequenz Assembly ist eine Verbesserung der Reconstruction. Beim sogenannten Multicontig geht es nicht darum, den kürzest möglichen String zu erlangen, sondern wir versuchen die beste Verbindung der Fragmente zu bekommen. Das bedeutet wir wollen keine Überlappungen, die zu klein sind, da diese auch zufällig auftreten können. Um das zu gewährleisten, benötigen wir einen weiteren Parameter t. Dieser Parameter gibt an, wie groß die Überlappung mindestens sein muss, kleinere werden verworfen. Das Modell versucht aus allen Fragmenten ein Contig zu bilden, so dass die kleinste Überlappung mindestens so groß wie t ist. Dieses Contig nennen wir t-contig. Ist dies nicht möglich, wird der Fragmentsatz aufgespalten. Dies geschieht so lange bis wir aus allen Fragmentsätzen t-contigs machen können. Die Tatsache, dass wir hier, im Gegensatz zur Reconstruction, mehr als ein Contig haben können, gibt unserem Modell den Namen Multicontig. Wir dürfen jedoch nicht vergessen, dass wir zusätzlich zu unserem Parameter t wie bei der Reconstruction den Parameter ε haben, der uns eine gewisse Fehlertoleranz erlaubt. Doch wie genau funktioniert dieses Modell? Wir übergeben dem Multicontig-Modell unseren Satz an Fragmenten, einen Wert für t und einen Wert für ε. Als erstes sucht unser Modell nach Überlappungen, die größer als t sind, wobei jedes Fragment ε* f Fehler bzw. Lücken enthalten kann. Hierbei darf nicht vergessen werden, dass wir auch die komplementär reversen Fragmente prüfen müssen, wobei jeweils nur das Fragment oder sein revers komplementäres verwendet werden darf. Anschließend erstellen wir ein Layout aus den Fragmenten. Für das Layout legen wir alle Fragmente, die wir miteinander überlappen können, zu einem Cluster zusammen, sie bilden ein t-contig. Dank dieser Vorarbeit ist es anschließend nicht mehr schwer ein Multiples Alignment, mit dessen Hilfe wir die Consensus-Sequenz bestimmen können, zu berechnen. Das Multicontig-Modell geht auf alle Probleme ein, die unser Algorithmus bewältigen können sollte. Es hat eine Fehlertoleranz und geht somit auf den Base-Call-Error

5 ein, es findet fehlende Coverage, indem es mehrere t-contigs bildet, schaut sich sowohl das Fragment als auch sein komplementär reverses an und es kann sogar teilweise Repeats erkennen, da es nach der besten Überlappungen und nicht nach dem kürzesten String sucht. Algorithmen Nachdem wir jetzt verschiedene Modelle kennengelernt haben, wollen wir aus diesen Modellen Algorithmen bauen, die unser Assembly lösen können. Es gibt zwei Algorithmen für das Sequenz Assembly, die hier vorgestellt werden. TTATGC 1 2 TGCAAA 5 AAATATG TATGCA Figur 1: Überlappungsgraph Vorweg kann gesagt werden, dass die Algorithmen zum bessern Verständnis Überlappungsgraphen verwenden, um die Überlappungen zwischen den Sequenzen darzustellen. Ein Beispiel hierzu findet man in Figur 1. Jeder Knoten des Graphen hat jeweils ein Fragment aus unserem Fragmentsatz. Gibt es eine Überlappung zwischen den Fragmenten, sind die Knoten durch Kanten verbunden. Das bedeutet, wenn der Suffix des Knoten, von dem die Kante ausgeht gleich dem Präfix des Knoten, in den die Kante eingeht, ist, ist eine Überlappung vorhanden. Dabei zeigt das Gewicht der Kante die Länge der Überlappung an. Ist keine Überlappung vorhanden, sind die Knoten mit Kanten vom Gewicht null verbunden. Diese Kanten sind jedoch in Figur 1 nicht eingezeichnet..1 Greedy-Algorithmus Der erste Algorithmus basiert auf dem Shortest Common Superstring Modell. Der Greedy-Algorithmus setzt dieses Modell um, indem er einen Hamiltonpfad durch den Graph sucht, der die schwersten Kanten verwendet. Ein Hamiltonpfad ist ein Pfad durch den Graph, bei dem jeder Knoten genau einmal benutzt wird. Dadurch stellen wir sicher, dass kein Fragment zweimal in der Consensussequenz vorkommt. Wichtig ist außerdem für unseren Hamiltonpfad, dass keine Sequenz im Graphen der 5

6 Substring einer anderen Sequenz ist, denn da jeder Knoten nur einmal verwendet wird, kann durch Substrings die Consensussequenz verfälscht werden. Aus diesem Grund ist es wichtig, die Sequenzen, die Substrings sind, vorher aus dem Fragmentsatz zu entfernen. Der Algorithmus erfüllt seine Aufgabe, indem er sich zunächst den Knoten mit der schwersten ausgehenden Kante sucht. Von diesem Knoten ausgehend folgen wir immer der schwersten Kante, wobei aufgepasst werden muss, dass wir keinen Knoten doppelt benutzen oder einen Zyklus bilden. Im Beispiel aus Figur 1 würden wir bei Knoten 1 starten, da er mit dem Gewicht 5 die schwerste ausgehende Kante besitzt. Folgen wir weiter den schwersten Kanten, bekommen wir die Folge 1,, 2,, welche folgende Consensussequenz ergeben würde: TTATGCAAATATG. Schauen wir uns das Beispiel genauer an, erkennen wir, dass dies auch der kürzeste Superstring aus den Fragmenten ist. Wenn wir diesen Algorithmus implementieren wollen, können wir das auch ohne einen Graphen zu erstellen. In diesem Fall suchen wir uns die beiden Fragmente mit der größten Überlappung und bilden ihren Superstring. Der Superstring wird dem Fragmentsatz hinzugefügt während die Fragmente, aus denen der Superstring besteht aus dem Satz entfernt werden. Diese Schritte werden so oft wiederholt, bis nur noch ein String übrig ist. Doch wie das Modell des Shortest Common Superstring schon gezeigt hat, ist der Greedy-Algorithmus noch nicht die optimale Lösung für unser Problem, insbesondere da er weder die fehlende Coverage findet noch Repeats erkennt..2 Azyklische Subgraphen Die beste Lösung für das Sequenz Assembly hat das Multicontig-Modell zu bieten, deshalb basiert der zweite Algorithmus darauf. Hier wird der Überlappungsgraph in Subgraphen unterteilt, die den t-contigs ähneln. In diesen Subgraphen sollen keine Zyklen vorhanden sein, weshalb sie azyklische Subgraphen genannt werden. Bei diesem Algorithmus gibt es die Parameter t und ε. Durch das t gibt es in einem azyklischen Subgraphen nur Kanten, die gleich schwer oder schwerer sind als t. Bei einer Überlappung darf auch hier jedes Fragment f maximal ε* f Fehler enthalten. Da nicht jeder Knoten mit jedem anderen Knoten verbunden ist wie beim Überlappungsgraphen des Greedy-Algorithmus, kann es sein, dass sich kein zusammenhängender Graph bildet. Die einzelnen Subgraphen bilden in diesem Fall entsprechend die einzelnen t-contigs. Parallel zum Greedy-Algorithmus wird auch hier ein Hamiltonpfad durch den Subgraph gesucht, denn es soll kein Knoten doppelt vorkommen. Auch hier werden die schweren Kante bevorzugt, doch da es keine Kanten mit einem Gewicht < t gibt, kann nicht immer die schwerste Kante genommen werden, um einen Hamitonpfad zu erlangen. 6

7 Kann dieser Algorithmus auch Repeats erkennen? Die Azyklischen Subgraphen können Repeats mithilfe des Graphen erkennen, denn wenn es einen Zyklus in einem Überlappungsgraphen gibt, gibt es immer einen Repeat der mindestens t Buchstaben lang ist. Wenn keine Repeats in der Sequenz sind und alle Substrings von Fragmenten entfernt wurden, dann gibt es einen eindeutigen Hamiltonpfad, was bedeutet dass es keine Zyklen gibt. Einen Beweis hierzu findet man in [1]. Schlussendlich kann gesagt werden, dass dieser Algorithmus die beste Lösung zum Sequenz Assembly liefert. Er erkennt die Probleme vom Base Call Error bis zum Repeat, und sucht Lösungen für sie um somit unsere Sequenzen richtig zusammen zusetzten.. Laufzeit Die Laufzeit beider Algorithmen ist NP-Vollständig, das bedeutet, dass das Problem nichtdeterministisch ist und sich nur in Polynomialzeit lösen lässt. Mit anderen Worten: Es gibt bisher keinen Algorithmus, der das Problem effizient lösen kann. 5 Quellen [1] J. Setubal, J. Meidanis: Introduction to Computational Molecular Biology, PWS, 1997; Abschnitte.1,.2,. [2] R.C. Deonier, S. Tavaré, M.S. Waterman: Computational Genome Analysis - An Introduction, Springer, 2005; Abschnitt 8. [] Wikipedia: NP-Vollständigkeit, Wikipedia Die freie Enzyklopädie Erstellt am: 1. März 201, Zugriff: