Der "Shotgun"-Ansatz. Bioinformatik I. Zentrum für Bioinformatik der Universität des Saarlandes WS 2002/2003. Der "Shotgun"-Ansatz

Transkript

1 Der "Shotgun"-Ansatz 1 Bioinformatik I Zentrum für Bioinformatik der Universität des Saarlandes WS 2002/2003 Der "Shotgun"-Ansatz 2 1

2 Der "Shotgun"-Ansatz 3 ATGC TACG G T C A Der "Shotgun"-Ansatz 4 Die (46) Chromosomen sind die Träger der menschlichen Erbinformation. Der menschliche Bauplan (das menschliche Genom) besteht aus 46 Texten, die zusammen circa 3 Milliarden Buchstaben (Basenpaare) lang sind. In diesen Texten (DNA Molekülen) treten nur vier Buchstaben (Basen) auf: A, T, G, C 2

3 Der "Shotgun"-Ansatz 5?????????????????????????????????????????????????????????????????????????????????????? Unter der Sequenzierung des Genoms versteht man die Bestimmung der Reihenfolge der Buchstaben (Basen) in den Doppelsträngen der DNA Moleküle. Es genügt natürlich, die Reihenfolge in einem der beiden komplementären Stränge (Texte) zu bestimmen. Der zweite Strang kann mit Hilfe der Basenkomplementarität bestimmt werden. AACCTTACTACTGGGGTTTTATGCATGCATGCCCCGGGA TTGGAATGATGACCCCAAAATACGTACGTACGGGGCCCT Der "Shotgun"-Ansatz 6 Die Sequenzierung des menschlichen Genoms war das herausragende wissenschaftliche Ereignis der letzten Jahre bzw. Jahrzehnte. Sie wurde in den Medien als die Mondlandung der Biologie gefeiert. Schaut man genauer hin, so stellt man fest, daß die Bezeichnung Mondlandung der Bioinformatik in gewisser Weise treffender gewesen wäre. Zwei Projekte konkurrierten bei der Sequenzierung des menschlichen Genoms miteinander: (1) Das öffentlich geförderte Humangenomprojekt: HUGO oder HGP (2) Die amerikanische Firma Celera Genomics unter der Leitung von Graig Venter: Celera 3

4 Der "Shotgun"-Ansatz 7 HGP: Mehr als 1100 Wissenschaftler aus 18 Ländern. Das Projekt startete in den achtziger Jahren. Das Projekt sollte zwischen 2005 und 2010 enden. Die Kosten des Projekts gehen in die Milliarden. Celera: Circa 100 Wissenschaftler und circa 50 Techniker. Das Projekt startete 1998 und wurde 2001 abgeschlossen. Die Kosten wurden auf circa 400 Millionen Dollar geschätzt. Der "Shotgun"-Ansatz 8?????????????????????????????????????????????????????????????????????????????????????? DNA Zielmolekül (1) Kopieren (2) Zerkleinern (3) Auswählen (4) Sequenzieren (5) Assemblieren AACCTTACTACTGGGGTTTTATGCATGCATGCCCCGGGA TTGGAATGATGACCCCAAAATACGTACGTACGGGGCCCT 4

5 Der "Shotgun"-Ansatz 9 (1) Kopieren des DNA Zielmolekül PCR: Polymerase Chain Reaction Cloning: Einbau in einen Vector (z.b. Bakterium) Der "Shotgun"-Ansatz 10 (2) Zerkleinern Die DNA Moleküle werden durch Einwirkung von Ultraschall oder durch Anwendung von hohem Druck (mit hohem Druck durch eine feine Düse gepresst) zerkleinert. 5

6 Der "Shotgun"-Ansatz Auftrennung mit Gelelektrophorese (3) Auswählen Der "Shotgun"-Ansatz 12 (4) Sequenzieren Celera hatte 300 ABI 3700 DNA Sequenzierer im Einsatz Die Sequenzierer verwenden die Kapillargelelektrophoresetechnik. Welche DNA Moleküle zu welchem Zeitpunkt das Kapillar durchwandern, wird mit einem Laser abgelesen. 6

7 Der "Shotgun"-Ansatz 13 TCACAATCAACTGCGCTATAG AGTG AGTGT TA AGTGTTAGTTGACGCGATATC C A T C T G T C A C T T A A A C A T C G C T A T A A A G C G T G T C G Der "Shotgun"-Ansatz 14 TCACAATCAACTGCGCTATAG AGTG AGTGT TA AGTGTTAGTTGACGCGATATC Die Doppelhelix wird aufgebrochen und in eine Lösung von Nukleinsäuren (Nukleotiden) gegeben, von denen viele phosphoriszierend markiert sind. Die vier verschiedenen Nukleotide unterscheiden sich in der Farbe. Die einzelnen Basen bzw. Nukleotide (Buchstaben) lagern sich nun zufällig an komplementäre Basen (Buchstaben) an. Markierte Nukleinsäuren haben die zusätzliche Eigenschaft, daß sie die Reaktion beenden. Auf diese Art und Weise erhält man eine Lösung mit allen komplementären DNA Bruchstücken, die mit dem ersten komplementären Buchstaben (in unserem Beispiel A) beginnen und mit einem markierten Buchstaben enden. Die Bruchstücke in dieser DNA Suppe werden dann mit Hilfe der Kapillargelelektrophorese der Länge nach sortiert. Mit Hilfe des Lasers kann man an der farblichen Markierung des letzten Buchstabens ablesen, mit welchem Buchstaben die einzelnen, der Länge nach sortierten, Bruchstücke enden. 7

8 Der "Shotgun"-Ansatz 15 Mit einem Sequenzierer kann man gleichzeitig eine bestimmte Zahl von DNA Fragmenten in der Größenordnung von circa 500 Buchstaben sequenzieren bzw. lesen. Der "Shotgun"-Ansatz 16 (5) Assemblieren ATGGCCTCGTCAATGCATG CCGGTGCATGCATGGCCTCGTCAA Man suche alle Paare von Textfragmenten, die sich überlappen, d.h., das Ende des einen Fragments ist identisch oder ähnelt dem Anfang des anderen Fragments oder umgekehrt. ATGCGGTTGCTACGT ATCGGTGACCA ATTCATGCGGTTGC CGTCGTATCG GACCACGGTT TCATGCGG ACGTCGT TCGGTGACCACGGTT ATTCATG GGTTGCTAC CGTATCG ACCACGG ATTCATGCGGTTGCTACGTCGTATCGGTGACCACGGTT Mit Hilfe dieser Überlappungsinformationen versucht man das riesige Textpuzzle zusammenzusetzen und den Originaltext zu rekonstruieren. 8

9 Der "Shotgun"-Ansatz 17 ATGGCCTCGTCAATGCATG CCGGTGCATGCATGGCCTCGTCAA Drei Kernprobleme der Bioinformatik: 1. Datenbanksuche nach ähnlichen Sequenzen (Texten): Gegeben ein Pattern P und eine Menge von Texten (Sequenzen) T = {t 1, t 2,..., t s }. Suche alle Sequenzen t i, die P lokal oder global ähneln. Gegeben ein Pattern P und ein großer Text T. Suche alle Teilsequenzen von T, die dem Pattern P oder Teilsequenzen des Pattern ähneln ATGGCCTCGTCAATGCATG CCGGTGCATGCATGGCCTCGTCAA Berechnung von Sequenzalignments: Ordne die Buchstaben von zwei oder mehreren vorgegebenen Sequenzen so in Form einer Matrix übereinander an, dass man in den Spalten der Matrix die Gemeinsamkeiten und Unterschiede der Sequenzen erkennt. [Exaktere Definition folgt]. Der "Shotgun"-Ansatz 18 ATGCGGTTGCTACGT ATCGGTGACCA ATTCATGCGGTTGC CGTCGTATCG GACCACGGTT TCATGCGG ACGTCGT TCGGTGACCACGGTT ATTCATG GGTTGCTAC CGTATCG ACCACGG ATTCATGCGGTTGCTACGTCGTATCGGTGACCACGGTT Drei Kernprobleme der Bioinformatik: 3. Sequenz-Assemblierungs-Problem (Sequence Assembly Problem): Gegeben die Überlappungsinformationen und Alignments von Fragmenten einer unbekannten Sequenz. Man bestimme die Reihenfolge der Buchstaben (Basen) der unbekannten Sequenz. 9

10 Der "Shotgun"-Ansatz 19 Genom Physikal Mapping aus circa BACs. Minimum Tiling Set Shotgun Assembly BAC: BAC ist die Abkürzung für Bacterial Artificial Chromosome. Indem man einem Bakterium ein künstliches Chromsom hinzufügt, kann man die DNA in dem Chromosom mit Hilfe des Bakteriums kopieren (vermehren) und am Leben erhalten. Das künstliche Chromosom kann z.b. ein Stück menschlicher DNA enthalten. Der Einfachheit halber bezeichnet man die eingebauten DNA Sequenzen auch als BACs. Eine Bakterienkultur mit einer bestimmten DNA Sequenz bezeichnet man auch als Clone. Die BACs haben eine durchschnittliche Länge von Basenpaaren. Der "Shotgun"-Ansatz 20 Genom Physikal Mapping aus circa BACs. Minimum Tiling Set Shotgun Assembly Der Ansatz von Celera wird als Whole Genom Shotgun -Ansatz bezeichnet, da das gesamte Sequenzierungsproblem nicht in kleinere Teilprobleme (BACs beim HGP-Ansatz) unterteilt wird. Das eigentliche Assembly-Problem wird dadurch natürlich erheblich komplexer: Zahl der Basenpaare circa 3 * 10 9 bp / Lesbare Fragmentlänge * Überdeckung circa 0.5 * 10 3 bp 10 = Zahl der benötigten Fragmente circa 6 *

11 Der "Shotgun"-Ansatz 21 Um zusätzliche Abstandsinformationen zu erhalten, verwendet Celera sogenannte Mate Pairs : Fragmentpaare, deren ungefährer Abstand bekannt ist und die entgegengesetzt orientiert sind. Short 2, 10 Kbp Long 50 and 100Kbp Celera verwendet auch Informationen des Humangenomprojekts. Um weniger Fragmente sequenzieren zu müssen, werden sequenzierte BACs des HGP virtuell geschreddert und als zusätzliche Fragmente im Assembly-Prozeß verwendet. Celera stellt seine Daten dem HGP zunächst nicht zur Verfügung. Der "Shotgun"-Ansatz 22 Lücken in der Überdeckung Fehler beim Kopieren (Clonen) und beim Sequenzieren: Fehlerquote 1-2 % Repeats unterschiedlicher Länge: Repeats sind Teile der DNA, die wiederholt auftreten. Man spricht auch von Repeats, wenn sich die Teilsequenzen sehr ähnlich sind. ATGATGATCGGCGTATTCTCCACGCGTTATCGCCGTATTGTCCACATGGTCAACACACTT Repeat 11

12 Der "Shotgun"-Ansatz 23 Im Juni des Jahres 2000 verkündet der damalige US-Präsident Bill Clinton im Weißen Haus, daß es zwei Forschungsprojekten gleichzeitig gelungen ist, eine erste Version des menschlichen Genoms zu erstellen, und würdigt dies als das herausragende wissenschaftliche Ereignis der letzten Jahrzehnte. G. Venter (Celera) und Collins (HGP). Der "Shotgun"-Ansatz 24 Im Februar 2001 veröffentlichen beide Projekte ihre Resultate. Da es unterschiedliche Auffassung über die Verfügbarkeit der Genomdaten gibt, veröffenlichen die beiden Projekte in verschiedenen Zeitschriften. Celera s Resultate erscheinen in SCIENCE. HGP veröffentlicht in NATURE. Es gibt sozusagen zwei erste Versionen des menschlichen Erbguts. Buch: Cracking the Genome: Inside the Race to Unlock Human DNA, by K. Davies. 12

13 Der "Shotgun"-Ansatz 25 Celera und das HGP stellen fest, daß Ihre Versionen des Genoms aus circa 3 Milliarden Bp bestehen. Beide Versionen enthalten noch tausende von Lücken, wobei die Version von Celera weniger Lücken zu enthalten scheint. Es gibt große Unterschiede zwischen den beiden Versionen. Fig. 6. Comparison of the CSA and the HGP assembly. To generate the figure, Celera fragment sequences were mapped onto each assembly. The HGP assembly is indicated in the upper third of each panel; the Celera assembly is indicated in the lower third. In the center of the panel, green lines show Celera sequences that are in the same order and orientation in both assemblies and form the longest consistently ordered run of sequences. Yellow lines indicate sequence blocks that are in the same orientation, but out of order. Red lines indicate sequence blocks that are not in the same orientation. For clarity, in the latter two cases, lines are only drawn between segments of matching sequence that are at least 50 kbp long. Vergleich von Chromosom 13 Der "Shotgun"-Ansatz 26 Celera und das HGP stellen fest, daß Ihre Versionen des Genoms aus circa 3 Milliarden Bp bestehen. Beide Versionen enthalten noch tausende von Lücken, wobei die Version von Celera weniger Lücken zu enthalten scheint. Es gibt große Unterschiede zwischen den beiden Versionen. Fig. 6. Comparison of the CSA and the HGP assembly. To generate the figure, Celera fragment sequences were mapped onto each assembly. The HGP assembly is indicated in the upper third of each panel; the Celera assembly is indicated in the lower third. In the center of the panel, green lines show Celera sequences that are in the same order and orientation in both assemblies and form the longest consistently ordered run of sequences. Yellow lines indicate sequence blocks that are in the same orientation, but out of order. Red lines indicate sequence blocks that are not in the same orientation. For clarity, in the latter two cases, lines are only drawn between segments of matching sequence that are at least 50 kbp long. Vergleich von Chromosom 21 13

14 Der "Shotgun"-Ansatz 27 Circa 27 Millionen Fragmente (Überdeckung von 5,11 plus Überdeckung von 2,9 durch HGP Daten) Protein-codierende Gene + circa Verdächtige Gene 28 Gene kodieren die Baupläne für den Aufbau der molekularen Bausteine (Proteine, RNA). Bei der Translation wird die in der mrna gespeicherte Information übersetzt und der entsprechende Baustein (Protein) synthetisiert. Bei der mrna-reifung und Splicing werden die Introns aus der mrna herausgeschnitten. Bei der Transkription wird eine mrna-kopie (messenger RNA) des Gens erstellt. Transkriptionsfaktoren Tyr Ala Arg Tyr Val Arg Thr Translation in Protein UACGCACGUUACGUGCGUACU mrna-reifung plus Splicing UACGCACGUUA...CGUGCGUACU Transkription mrna-molekül ATGCGTGCAAT...GCACGCATGA TGACGCA CACGTG GGGCGG CCAAT TATA ATG Exon Intron Exon TGA Promoter 14

15 Der genetische Code 29 Proteine 30 Gene kodieren die Baupläne für den Aufbau der molekularen Bausteine (Proteine, RNA). Tyr Ala Arg Tyr Val Arg Thr Translation in Protein UACGCACGUUACGUGCGUACU mrna-reifung plus Splicing UACGCACGUUA...CGUGCGUACU Transkriptionsfaktoren Transkription mrna-molekül ATGCGTGCAAT...GCACGCATGA TGACGCA CACGTG GGGCGG CCAAT TATA ATG Exon Intron Exon TGA Promoter 15

16 Proteine 31 Proteine 32 Proteine sind lineare Kettenmoleküle, die aus 20 Grundbausteinen, den sogenannten Aminosäuren, aufgebaut sind: Ala, Asp, Glu, Gly, Phe, Leu, Ser, Tyr, Cys, Trp, Pro, His, Gln, Arg, Met, Asn, Lys, Val, Ile, Thr Die Reihenfolge der Aminosäuren eines Proteins nennt man die Primärstruktur (Sequenz). Die Kette eines jeden Proteins faltet sich auf spezifische Art und Weise im Raum. Dieser Faltungsprozess verleiht dem Protein eine wohldefinierte dreidimensionale Gestalt. Man spricht hierbei von der Tertiärstruktur, 3D-Struktur oder auch Konformation des Proteins. Die Primärstruktur bestimmt wesentlich die Tertiärstruktur des Proteins. Die Tertiärstruktur des Proteins hat großen Einfluss auf seine chemische Reaktivität bzw. auf die Funktion des Proteins. Primärstruktur Tertiärstruktur Funktion 16

17 Genprodukte 33 Circa 27 Millionen Fragmente (Überdeckung von 5,11 plus Überdeckung von 2,9 durch HGP Daten) Protein-codierende Gene + circa Verdächtige Gen Annotation 34 Primärstruktur Ähnliche Gene (DNA Sequenz) Tertiärstruktur Ähnliche Struktur der codierten Bausteine Funktion Ähnliche oder identische Funktion Man nehme die DNA-Sequenz von einem bekannten Gen und suche mit dieser Sequenz in der neu-sequenzierten DNA nach ähnlichen Teilsequenzen (Ähnlichkeitssuche). Die bekannten Gene können auch von anderen Spezies stammen. Da die Genome von Mensch und Maus sehr ähnlich sind, kann man zum Beispiel mit bekannten Genen der Maus nach unbekannten Genen des Menschen suchen. 17

18 Gen Annotation 35 Eine andere Möglichkeit, ein Gen zu suchen, eröffnet sich, wenn man einen Baustein (Protein), der durch ein Gen codiert wird, oder ein Zwischenprodukt (mrna) aufspüren und sequenzieren kann. Ein sehr erfolgreicher Ansatz verwendet hierzu die sogenannten Expressed Sequence Tags (ESTs): Kurze ( bp) DNA-Stücke, die aus codierenden Regionen (Exons) stammen und nur einmal im Genom vorkommen (keine Repeats). Gene, die selten oder nur in biologischen Ausnahmesituationen (Krankheit) exprimiert werden, wird man auf diese Art und Weise nur mit geringer Wahrscheinlichkeit finden, da man für diese Gene nur mit viel Glück oder extremen Arbeitsaufwand die entsprechenden Bausteine oder ESTs aufspüren kann. Transkriptionsfaktoren ATGCGTGCAAT...GCACGCATGA TGACGCA CACGTG GGGCGG CCAAT TATA ATG Exon Intron Exon TGA Promoter SNPs 36 Circa 27 Millionen Fragmente (Überdeckung von 5,11 plus Überdeckung von 2,9 durch HGP Daten) Protein-codierende Gene + circa Verdächtige Nur 1,1% des Genoms wird von Exons gebildet, während sich 24 % des Genoms in Introns befindet, d.h., circa 75 % liegt sozusagen zwischen den Genen. Bisher 2,1 Millionen Single-Nucleotide Polymorphism (SNP), d.h., im Durchschnitt 1 SNP auf 1250 Basenpaare. 18

19 SNPs 37 Bisher haben wir immer von dem menschlichen Genom gesprochen. Da jeder Mensch (bis auf eineiige Zwillinge, Clone) ein individuelles Erbgut (Genom) besitzt, gibt es Milliarden von unterschiedlichen menschlichen Genomen. SNPs sind Variationen einzelner Basenpaare: Peter ATGTGCCACACGGTCATGGTCCCACGTTGGCATACTCTCT TACACGGTGTGCCAGTACCAGGGTGCAACCGTATGAGAGA Paul ATGTGCCACACGGTCATGGCCCCACGTTGGCATACTCTCT TACACGGTGTGCCAGTACCGGGGTGCAACCGTATGAGAGA ARRAY I ARRAY II Vergleich I+II Gen-Duplikation 38 Circa 27 Millionen Fragmente (Überdeckung von 5,11 plus Überdeckung von 2,9 durch HGP Daten) Protein-codierende Gene + circa Verdächtige Nur 1,1% des Genoms wird von Exons gebildet, während sich 24 % des Genoms in Introns befindet, d.h., circa 75 % liegt sozusagen zwischen den Genen. Bisher 2,1 Millionen Single-Nucleotide Polymorphism (SNP), d.h., im Durchschnitt 1 SNP auf 1250 Basenpaare. Weniger als 1 % aller bereits identifizierter SNPs resultierten in Proteinvariationen (liegen in den Exons): circa Gen-Duplikation spielte in der Evolution des Genoms eine entscheidende Rolle. 19

20 Gen-Duplikation 39 Segmental duplications between chromosomes in the human genome. The 24 panels show the 1077 duplicated blocks of genes, containing 10,310 pairs of genes in total. Each line represents a pair of homologous genes belonging to a block; all blocks contain at least three genes on each of the chromosomes where they appear. Each panel shows all the duplications between a single chromosome and other chromosomes with shared blocks. The chromosome at the center of each panel is shown as a thick red line for emphasis. Other chromosomes are displayed from top to bottom within each panel ordered by chromosome number. The inset (bottom, center right) shows a close-up of one duplication between chromosomes 18 and 20, expanded to display the gene names of 12 of the 64 gene pairs shown. Funktions-Annotation 40 S 20

21 Expressions-Analyse 41 Zeitachse DNA Microarrays erlauben die Analyse der Genexpression (Genaktivitäten) im großen Maßstab. Sequence Assembly 42?????????????????????????????????????????????????????????????????????????????????????? DNA Zielmolekül (1) Kopieren (2) Zerkleinern (3) Auswählen (4) Sequenzieren (5) Assemblieren AACCTTACTACTGGGGTTTTATGCATGCATGCCCCGGGA TTGGAATGATGACCCCAAAATACGTACGTACGGGGCCCT 21

22 Sequence Assembly 43 Die Fragmente sind in der Regel zwischen 400 und 700 Basenpaaren (Bp) lang. Die Zahl der Fragmente wird so gewählt, dass man durch die zufällige Auswahl im Durchschnitt eine bestimmte Überdeckung (Coverage) erreicht. 6 8 Wünschenswert wäre eine Überdeckung von 10 und mehr, aber bei der Sequenzierung des menschlichen Genoms hatte man zum Beispiel eine Überdeckung von 6 bis 7. 7 * 3 * 10 9 / 500 = 21 * 10 9 / * 10 7 Fragmente Sequenzierfehlerquote 1 % Sequence Assembly 44 Wir betrachten im folgenden Varianten des Sequence Assembly Problems, die ideale Voraussetzungen und Bedingungen aufweisen, und bewegen uns dann in gewissen Schritten auf das wirkliche Sequence Assembly Problem zu. Problem [1]: Gegeben ein unbekannter Text T über einem Alphabet Σ = {A,T,C,G} und eine Menge F von Textfragmenten des Textes T. Bestimme den Text T, d.h. bestimme die Reihenfolge der Buchstaben in T. Variante [1a]: Jedes Textfragment f F hat Länge k. Die Textfragmente enthalten keine Sequenzierungsfehler. Alle Textfragmente f der Länge k von T sind in F enthalten. Es gibt keine Repeats länger als k-2 in T. T ist ein echter Text (kein DNA Doppelstrang). 22

23 Sequence Assembly 45 Beispiel [1]: T = abcde k = 3 abc bcd cde Wir betrachten die Textfragmente aus F als Knoten eines Graphen G. Frage: Welches Textfragment f folgt auf ein Textfragment f? Antwort: Die ersten k-1 Buchstaben von f müssen mit den letzten k-1 Buchstaben von f übereinstimmen! Präfix k-1 (f ) = Suffix k-1 (f) Überlappung der Länge k-1 Algorithmus [A] für Variante [1a]: [1] Man testet alle Paare (f, f ), ob eine k-1-überlappung vorhanden ist. [2] Für jedes Paar mit Überlappung wird eine gerichtete Kante zwischen die entsprechenden Knoten von G eingefügt. [3] Berechne Euler-Pfad (oder Hamiltonian Path). [4] In der Pfad-Reihenfolge konkateniere man die ersten Buchstaben aller Knoten. Dann füge man die restlichen k-1 Buchstaben des letzen Knotens hinzu. Euler-Graphen Der Schweitzer Mathematiker Leonard Euler hat sich 1736 mit der folgenden Fragestellung, dem sogenannten Königsberger-Brückenproblem, beschäftigt: A Pregel C D Ist es möglich, von irgendeinem Punkt in der Stadt loszulaufen und zu diesem Punkt wieder zurückzukehren und dabei genau einmal über jede der sieben Brücken zu wandern. B 23

24 Euler-Graphen Der Schweitzer Mathematiker Leonard Euler hat sich 1736 mit der folgenden Fragestellung, dem sogenannten Königsberger-Brückenproblem, beschäftigt: A Pregel C D Ist es möglich, von irgendeinem Punkt in der Stadt loszulaufen und zu diesem Punkt wieder zurückzukehren und dabei genau einmal über jede der sieben Brücken zu wandern. B Euler-Graphen Der Schweitzer Mathematiker Leonard Euler hat sich 1736 mit der folgenden Fragestellung, dem sogenannten Königsberger-Brückenproblem, beschäftigt: A Multi-Graph: Mehrere Kanten zwischen zwei Knoten sind erlaubt. C D B Ist es möglich, von irgendeinem Punkt in der Stadt loszulaufen und zu diesem Punkt wieder zurückzukehren und dabei genau einmal über jede der sieben Brücken zu wandern. = Gibt es einen Circuit in diesem Graphen, der jede Kante nur einmal begeht (verwendet)? Nein! Warum kann es keinen solchen Circuit geben? 24

25 Euler-Graphen Der Schweitzer Mathematiker Leonard Euler hat sich 1736 mit der folgenden Fragestellung, dem sogenannten Königsberger-Brückenproblem, beschäftigt: A Multi-Graph: Mehrere Kanten zwischen zwei Knoten sind erlaubt. C D B Ein Graph heißt zusammenhängend (connected), wenn man von jedem Knoten aus jeden anderen Knoten über einen Pfad erreichen kann. Antwort: Es gibt Knoten mit ungeradem Grad (3 und 5). Ein solcher Circuit kann aber nur existieren, wenn alle Knoten geraden Grad haben und der Graph zusammenhängend ist. Nein! Warum kann es keinen solchen Circuit geben? Euler-Graphen Definition: Ein Graph heißt Euler-Graph, wenn jeder Knoten einen geraden Grad hat und der Graph zusammenhängend ist. Satz: Ein Graph besitzt genau dann einen Euler-Circuit, wenn der Graph ein Euler-Graph ist. H I C A B Wir beweisen die schwierigere Richtung (Euler-Graph => Euler Circuit) mittels vollständiger Induktion über die Anzahl m der Kanten: Induktionsstart: m = 2 (trivial). Induktionsannahme: Jeder zusammenhängende Graph mit weniger als m Kanten, dessen Knoten alle geraden Grad haben, besitzt eine Euler-Tour. Sei G=(V,E) ein Euler-Graph mit m Kanten. D 1. Bestimme in G einen Kreis. Zum Beispiel K=ACBDA. 2. Lösche die Kanten von K. E F G 25

26 Euler-Graphen Definition: Ein Graph heißt Euler-Graph, wenn jeder Knoten einen geraden Grad hat und der Graph zusammenhängend ist. Satz: Ein Graph besitzt genau dann einen Euler-Circuit, wenn der Graph ein Euler-Graph ist. H I C E A B G Wir beweisen die schwierigere Richtung (Euler-Graph => Euler Circuit) mittels vollständiger Induktion über die Anzahl m der Kanten: Induktionsstart: m = 2 (trivial). Induktionsannahme: Jeder zusammenhängende Graph mit weniger als m Kanten, dessen Knoten alle geraden Grad haben, besitzt eine Euler-Tour. Sei G=(V,E) ein Euler-Graph mit m Kanten. D 1. Bestimme in G einen Kreis. Zum Beispiel K=ACBDA. 2. Lösche die Kanten von K. Den neuen Graphen nennen wir G. Alle Knoten von G haben geraden Grad. Aber der Graph G kann aus mehreren Zusammenhangskomponenten (ZKs) mit weniger als m Kanten bestehen: Z(1) = {A}, Z(2) = {D}, Z(3) = {H,I,C}, Z(4)={B,E,G,F} F 3. Bestimme die Zusammenhangskomponenten von G 4. Starte für alle Zusammenhangskomponenten diesen (rekursiven) Algorithmus zur Berechnung eines Euler-Circuits: Circ(Z(3)) = CIHC Circ(Z(4)) = BEGFB 5. Mische den Kreis K und die Euler-Circuits der ZKs: Circuit = ACIHCBEGFBDA Euler-Graphen Definition: Ein Knoten v eines gerichteten Graphen ist balanciert, wenn die Zahl der in v endenden Kanten gleich der Zahl der in v startenden Kanten ist. Definition: Ein gerichteter Graph ist balanciert, wenn jeder Knoten des Graphen balanciert ist. Definition: Ein gerichteter Graph heißt Euler-Graph, wenn der Graph zusammenhängend und balanciert ist. Satz: Ein Graph besitzt genau dann einen Euler-Circuit, wenn der Graph ein Euler-Graph ist. Beweis: Analog zum konstruktiven Beweis im Falle des ungerichteten Graphen. Definition: Ein Graph besitzt einen Euler-Pfad, wenn es einen Pfad im Graphen gibt, der jede Kante genau einmal verwendet bzw. genau einmal über diese Kante geht. Definition: Ein Knoten v eines gerichteten Graphen ist semi-balanciert falls Satz: indegree(v) outdegree(v) = 1. Ein zusammenhängender Graph besitzt genau dann einen Euler-Pfad, wenn er höchstens zwei semi-balancierte Knoten besitzt und alle anderen balanciert sind. 26

27 Sequence Assembly 53 Beispiel [1]: T = abcde k = 3 abc bcd cde ab bc cd de Algorithmus [B] für Variante [1a]: [1] Die k-1 Tupel in den Fragmenten der Länge k sind die Knoten von G. [2] Füge für jedes Fragment eine Kante in den Graphen G ein: Die Kante für ein Fragment verbindet den Knoten für die ersten k-1 Buchstaben mit dem Knoten, der die letzten k-1 Buchstaben des Fragments repräsentiert. [3] Berechne einen Euler-Pfad von G. [4] In der Pfad-Reihenfolge konkateniere man die ersten Buchstaben aller Knoten. Dann füge man die restlichen k-2 Buchstaben des letzen Knotens hinzu. Sequence Assembly 54 Variante [1b]: Jedes Textfragment f F hat Länge k. Die Textfragmente enthalten keine Sequenzierungsfehler. Alle Textfragmente f der Länge k von T sind in F enthalten. Es gibt keine Repeats länger als k-2 in T. T ist ein echter Text (kein DNA Doppelstrang). Wir nehmen an, dass die Fragmente der Länge k zufällig gewählt werden. Lücke Gap Die Zahl der Lücken kann dadurch reduziert werden, dass man mit einer großen Überdeckung (größer gleich 10) arbeitet. Je größer die Überdeckung, desto größer der Arbeitsaufwand. 27

28 Sequence Assembly 55 Frage: Welche Textfragmente f folgen auf ein Textfragment f? Antwort: Ein Präfix von f muss mit einem Suffix von f übereinstimmen! Präfix l (f ) = Suffix l (f) Überlappung der Länge 0< l < k Dies ist nur eine notwendige Bedingung (Indiz). Beispiel: T = CGCTATGCGC ATGCGC CGCTAT Sequence Assembly 56 Beispiel: T = ATGCTGCACGGATTGG k = 6 F = {ATGCTG, CTGCAC, CACGGA, GGATTG, GATTGG} 1 3 CTGCAC 3 CACGGA ATGCTG GATTGG 5 2 GGATTG 1 T = ATG CTG CACGGATTGG Definition [1]: Der obige Graph mit den Überlappungsinformationen wird als Overlap-Graph bezeichnet. 28

29 Sequence Assembly 57 Algorithmus [A] für Variante [1b]: [1] Die Fragmente sind die Knoten von G. [2] Teste für jedes Paar (f,f ) von Fragmenten, ob es eine echte Überlappung gibt, d.h., ob es einen Präfix von f gibt, der auch Suffix von f ist. [3] Für jedes Paar (f,f ) mit dieser Eigenschaft führen wir eine gerichtete Kante e(f,f ) mit Gewicht w(f,f ) ein, wobei w(f,f ) die Länge der Überlappung ist. [4] Berechne den Hamiltonian-Pfad von G mit dem größten Gewicht. [5] In der Pfad-Reihenfolge betrachten wir alle Fragmente f. Sei f = succ(f) der Nachfolger von f auf dem Hamiltonian-Pfad. Wir addieren zu T den Präfix p = f \ Overlap(f, f ) von f, wobei Overlap(f,f ) = Suffix w(f,f ) (f) = Präfix w(f,f ) (f ) +Text vom letzten Knoten. Sequence Assembly 58 Variante [1c]: Jedes Textfragment f F hat Länge k. Die Textfragmente enthalten keine Sequenzierungsfehler. Alle Textfragmente f der Länge k von T sind in F enthalten. Es gibt keine Repeats länger als k-2 in T. T ist ein echter Text (kein DNA Doppelstrang). Die Längen der Fragmente sind unterschiedlich. Die heutige Sequenzierungstechnologie erlaubt Längen zwischen 400 und 700 Basenpaare. Es kann vorkommen, dass Fragmente in anderen Fragmenten enthalten sind. Die Fragmente, die in anderen enthalten sind, liefern keine zusätzlichen Informationen und werden in der Regel ignoriert oder besonders markiert und bei der Hamiltonian-Pfad-Berechnung nicht berücksichtigt. 29

30 Sequence Assembly 59 Beispiel: T = ATGCTGCACGGATTGG k = 6 F = {ATGCTG, CTGCAC, CACGGA, ACGG, GGATTG, GATTGG} 2 1 ACGG CTGCAC 3 CACGGA ATGCTG GATTGG 2 GGATTG 1 T = ATG CTG CACGGAGGATTGG Sequence Assembly 60 Bezeichnungen [1]: Sei f die Länge des Fragments f. Sei ferner F = f f F die Summe der Längen aller Fragmente in F. Die Länge des berechneten Textes T ist gleich T = f Overlap ( f, f ') f F f F f ist hierbei der Nachfolger von f auf dem Ham.-Pfad. mit dem größten Gewicht: T = f F f Gewicht _ des _ optimalen _ Pfades Der angegebene Algorithmus hat also eigentlich das folgende Problem gelöst: 30

31 Sequence Assembly 61 Shortest Common Superstring Problem (SCS): Gegeben eine Menge von Strings (Textfragmenten) F. Berechne den kürzesten String T, der alle Textfragmente f F als Teilstrings enthält. Das spezielle Hamiltonian-Path-Problem wird auch als Maximum Compression Problem bezeichnet. Das SCS-Problem ist NP-hart, d.h., es ist kein Polynomialzeitalgorithmus für dieses Problem bekannt. Es existieren jedoch eine Reihe von Approximationsalgorithmen, die einen konstanten Approximationsfaktor garantieren (siehe Übung). Mittels eines Greedy-Verfahrens kann man einen Approximationsfaktor von 4 garantieren, d.h., die Länge des berechneten Superstrings T ist höchstens 4 mal die Länge des SCS T. T T ' 4 T nächste Seite Sequence Assembly 62 Beispiel: T = ATGCTGCACGGATTGG k = 6 F = {ATGCTG, CTGCAC, CACGGA, GGATTG, GATTGG} 1 3 CTGCAC 3 CACGGA ATGCTG 1 GATTGG GGATTG 1 Solange es noch Kanten in G gibt: [1] Bestimme die Kante e mit dem größten Gewicht. [2] Verschmelze die Knoten, die von e verbunden werden, zu einem Knoten und modifiziere die entsprechenden Kanten. 31

32 Sequence Assembly 63 Beispiel: T = ATGCTGCACGGATTGG k = 6 F = {ATGCTG, CTGCAC, CACGGA, GGATTG, GATTGG} 1 3 CTGCAC 3 CACGGA ATGCTG 1 3 GGATTGG 1 Solange es noch Kanten in G gibt: [1] Bestimme die Kante e mit dem größten Gewicht. [2] Verschmelze die Knoten, die von e verbunden werden, zu einem Knoten und modifiziere die entsprechenden Kanten. Sequence Assembly 64 Beispiel: T = ATGCTGCACGGATTGG k = 6 F = {ATGCTG, CTGCAC, CACGGA, GGATTG, GATTGG} 1 CACGGA ATGCTGCAC 3 3 GGATTGG Solange es noch Kanten in G gibt: [1] Bestimme die Kante e mit dem größten Gewicht. [2] Verschmelze die Knoten, die von e verbunden werden, zu einem Knoten und modifiziere die entsprechenden Kanten. 32

33 Sequence Assembly 65 Beispiel: T = ATGCTGCACGGATTGG k = 6 F = {ATGCTG, CTGCAC, CACGGA, GGATTG, GATTGG} ATGCTGCACGGATTGG Solange es noch Kanten in G gibt: [1] Bestimme die Kante e mit dem größten Gewicht. [2] Verschmelze die Knoten, die von e verbunden werden, zu einem Knoten und modifiziere die entsprechenden Kanten. Sequence Assembly 66 Variante [1d]: Jedes Textfragment f F hat Länge k. Die Textfragmente enthalten keine Sequenzierungsfehler. Alle Textfragmente f der Länge k von T sind in F enthalten. Es gibt keine Repeats länger als k-2 in T. T ist ein echter Text (kein DNA Doppelstrang). Bei einem DNA Molekül können die Fragmente aus einem der beiden Doppelstränge stammen. Die Orientierung spielt nun eine entscheidende Rolle, da die Sequenzen immer vom 5 Ende in Richtung 3 Ende gelesen (sequenziert) werden. 33

34 Sequence Assembly 67 Beispiel: AACCTTACTACTGGGGTTTTATGCATGCATGCC TTGGAATGATGACCCCAAAATACGTACGTACGG F = { TTACTAC, TTTTATG, GCATGCC, TAAGGTT, ACCCCAG, GCATGCA } Da wir nicht wissen aus welchem der Einzelstränge ein Fragment stammt, betrachten wir für jedes Fragment f noch das komplementäre Fragment cf wobei f und cf in umgekehrter Richtung gelesen werden. f = TTACTAC AATGATG cf = GTAGTAA Ist f ein Fragment des unbekannten DNA-Moleküls, so muss aufgrund der DNA-Struktur und der Basenkomplementarität auch cf ein Fragment des Moleküls sein. Sequence Assembly 68 Problem: Der Algorithmus sollte einen der beiden Stränge rekonstruieren. Er darf nicht von einem Strang zum anderen springen! Problem: Für jedes Fragment f müssen wir uns die Frage stellen, ob wir f selbst oder das komplementäre Fragment cf als Knoten zu G hinzufügen. Ziel: Bestimme eine Teilmenge O* von Fragmenten aus F cf, die nur aus Fragmenten aus einem der beiden Stränge besteht und die entweder f oder cf enthält (dies muss für jedes f aus F gelten). Warnung: Es existiert kein bekanntes Verfahren, dass die erste Bedingung garantieren kann. 34

35 Sequence Assembly 69 Definition [2]: Eine Orientierung O ist eine Teilmenge von F cf mit der folgenden Eigenschaft: Für jedes f aus F ist entweder f O oder cf O. Bezeichnung [2]: Sei (A,B) ein Paar von Fragmenten aus F cf mit A B und B ca: w(a,b) = Oberlap(A,B) Gewicht von der Kante von A nach B Länge des längsten Suffix von A, der ein Präfix von B ist. same(a,b) = max(w(a,b), w(b,a)) größt mögliches Kantengewicht, falls A und B zu einer Orientierung gehören opp(a,b) = max(w(a,cb), w(cb,a)) größt mögliches Kantengewicht, falls A und cb zu einer Orient. gehören Definition [3]: Jeder Orientierung O ordnen wir wie folgt ein Gewicht zu: w( O) = + same( A, B) ( A, B O) ( A O B O ) ( A, B O ) ( A O B O ) opp( A, B) Sequence Assembly 70 F opp same O same O cf Definition [3]: Jeder Orientierung O ordnen wir wie folgt ein Gewicht zu: w( O) = same( A, B) + ( A, B O) ( A O B O) ( A, B O) ( A O B O ) opp( A, B) 35

36 Sequence Assembly 71 Problem: Berechne die optimale Orientierung O opt mit maximalem Gewicht! Da es sehr schwierig ist, eine optimale Orientierung zu berechnen, hat man Verfahren zur Approximation entwickelt. Greedy-Verfahren: Wir betrachten die Fragmentmenge F, wobei wir annehmen, dass die Fragmente in F in einer bestimmten Reihenfolge gegeben sind: F = { f 1, f 2, f 3,..., f m } Wir starten mit der Fragmentmenge O, die nur f 1 enthält. Für alle i = 2,..., m, führen wir die folgenden Operationen aus: Berechne die beiden folgenden Gewichtssummen: w ( fi ) = w( fi, f ) w ( cfi ) = w( cfi, f ) f O f O Ist die erste Summe größer als die zweite, so füge f i zu O hinzu. Andernfalls füge cf i zu O hinzu. Sequence Assembly 72 Das Gewicht der optimalen Orientierung O opt können wir einfach durch das Gesamtgewicht aller Kanten nach oben abschätzen: w ( O ) ( same( f, f ) + opp( f, f )) opt i j< i i Wird f i zu O hinzugefügt, so vergrößert sich das Gesamtgewicht um ( same ( f, f ) + opp( f, f )) i j j< i f j O cf j O Wird cf i zu O hinzugefügt, so vergrößert sich das Gesamtgewicht um ( opp ( f, f ) + same( f, f )) i j j< i f j O cf j O j Bezeichnen wir die aktuelle Gewichtszunahme in Schritt i mit w i, so gilt: 2 w ( same( f, f ) + opp( f, f )) i j< i i j i i i j j i j j 36

37 Sequence Assembly 73 Summieren wir über alle Schritte, so erhalten wir: 1 1 w ( O ) = w i ( same ( fi, f j ) + opp( fi, f j )) w( O opt ) i 2 2 Lemma [1]: i j< i Das Greedy-Verfahren hat eine Laufzeit von O(E+V), wobei E die Anzahl der Kanten und V die Anzahl der Knoten des Overlap-Graphen G = (V,E) ist. Es berechnet eine Orientierung O, deren Gewicht garantiert größer gleich ½ w(o opt ) ist. Die Reihenfolge der Fragmente hat natürlich Einfluss auf das Gesamtgewicht der berechneten Orientierung. Kececioglu und Myers (Algorithmica 1995) haben eine Heuristik entwickelt, mit der man günstige Reihenfolgen der Fragmente berechnen kann. Ferner haben sie auch ein Branch-And-Bound-Verfahren veröffentlicht, dass die optimale Orientierung für hinreichend kleine Probleminstanzen berechnen kann. Sequence Assembly 74 Variante [1e]: Jedes Textfragment f F hat Länge k. Die Textfragmente enthalten keine Sequenzierungsfehler. Alle Textfragmente f der Länge k von T gehören zu F. Es gibt keine Repeats länger als k-2 in T. T ist ein echter Text (kein DNA Doppelstrang). Fragmente, die mit modernsten Sequenzierverfahren produziert wurden, haben eine Fehlerquote von ungefähr 1 %, d.h., im Durchschnitt findet man in 100 Buchstaben einen Fehler. ATGACCCCAAAATCCGTACGTACGGG TTGGAATGATGACCCCAAAATACGTACGTACGGGGCCCT Wie man die Zahl der Fehler reduzieren kann, lernen wir im Abschnitt über Sequencing-by-Hybridization (SBH). Es werden aber immer Fehler in den Sequenzen zurückbleiben...???? 37

38 Sequence Assembly 75 Shortest Common Superstring Problem: Gegeben eine Fragmentmenge F. Berechne den kürzesten String S, der alle Fragmente f aus F als Teilstrings enthält. Shortest Common (DNA) Supersequence Problem: Gegeben eine Fragmentmenge F von DNA-Sequenzen. Berechne die kürzeste DNA-Sequenz S, die für jedes Fragment f aus F entweder f oder cf als Teilsequenz enthält. DNA Sequence Reconstruction Problem: Gegeben eine Fragmentmenge F von DNA-Sequenzen und eine Fehlerquote 0 ε < 1. Berechne die kürzeste DNA-Sequenz S, so dass es für jedes DNA- Fragment f F einen Teilstring s in S gibt, so dass min(d(f,s), d(cf,s)) ε f d(f,s) ist eine Distanzfunktion für Sequenzen, die sogenannte Edit-Distanz. Diese Funktion haben wir in Info V kennen gelernt, als wir Sequenz-Alignments diskutiert haben (Im zweiten Teil dieser Vorlesung werden wir uns intensiv mit diesem Thema beschäftigen). Sequence Assembly 76 Bei der Betrachtung der fehlerfreien idealen Variante des Problems haben wir für jedes Paar (f,f ) von Fragmenten die Überlappung berechnet: Overlap(f,f ) = der längste Suffix von f, der auch ein Präfix von f ist. ATGCCGTAGCC TAGCCAACTGCT Da Sequenzierfehler auftreten können, dürfen wir nicht mehr nach exakten Matchings suchen, sondern wir müssen nach sogenannten approximativen Matchings suchen (Standardproblem der Bioinformatik): Approximative_Overlap(f,f ) = der längste Suffix von f, dessen Edit-Distanz mit einem Präfix von f kleiner gleich einer Konstanten e ist (oder ε Suffix ). Beispiel: e = 1. Ein Fehler ist erlaubt. ATGCCGTAGCC TACCCAACTGCT Substitution ATGCCGTAGCC TA-CCAACTGCT Deletion ATGCCGTA-CC TACCCAACTGCT Insertion 38

39 Sequence Assembly 77 Wir berechnen den Approximative_Overlap(f.f ) für jedes Paar von Fragmenten, in dem wir mittels Dynamischer Programmierung ein paarweises Sequenzalignment (mit Anfangs- und Endgapkosten 0) von f und f berechnen. Dann berechnen wir das Gewicht w(f,f ) der Kante e(f,f ) im Overlap-Graph als w(f,f ) = Approximative_Overlap(f,f ) - d(f,f ) Wir können die Zahl der Kanten im Overlap-Graphen reduzieren, in dem wir die Kanten mit sehr kleinem Gewicht (diese repräsentieren in der Regel zufälligen Übereinstimmungen) eliminieren. Dann verfahren wir wie üblich, d.h. Berechnung einer geeigneten Orientierung O Berechnung eines Hamiltonian-Path mit maximalem Gewicht von G bzw. Berechnung einer approximativen Lösung des HP-Problems. Haben wir den Pfad berechnet, so können wir nicht problemlos, wie in der fehlerfreien Variante, die gesuchte Sequenz aus den Knoten (Texten) zusammensetzen. Sequence Assembly 78 Jede Kante e(f,f ) des berechneten Pfades repräsentiert ein paarweises Alignment. Die verschiedenen paarweisen Alignments müssen zu einem kompatiblen multiplen Alignment zusammengesetzt werden: ATGCCTTGACTGC-TT GAC-GCGTTGCTAAATGC CGTTGCGAAACGCTCGATGC GAAACGCTGGATGCAGTCGCGCGC ATGCCTTGACTGCGTTGCGAAACGCTCGATGCAGTCGCGCGC [1,16] Man studiert nun die Spalten dieses multiplen Alignments und berechnet eine sogenannte Consensus-Sequenz T. Diese Consensus-Sequenz T ist das Resultat des Sequenz-Assembly-Verfahrens. Definition [4]: Jedes Fragment f (oder cf) aus F ist mit einem Interval [i,j] der Consensus-Sequenz T assoziiert. Die Menge der Intervalle I, die zu der Fragmentmenge F (bzw. zur Orientierung O) gehört, bezeichnet man als Fragment-Layout von F (bzw. O). (Für ein Beispielintervall siehe Abbildung oben) 39

40 Sequence Assembly 79 Mit Hilfe des Fragment-Layouts und des entsprechenden multiplen Alignments erhalten wir Hinweise, wo die Consensus-Sequenz fehlerhaft ist. Man studiert unter anderem die Coverage (Überdeckung) der Consensus-Sequenz und sucht hier nach besonders signifikanten Abweichungen von der erwarteten durchschnittlichen Überdeckung. 10 Bereiche mit stark überdurchschnittlicher Überdeckung deuten auf Repeats hin, die fälschlicherweise durch den Algorithmus zu einem Vorkommen komprimiert wurden. 20 Sequence Assembly 80 Man beachte, dass Repeats nicht exakt übereinstimmen müssen, sondern dass man auch von einem Repeat spricht, wenn eine große Ähnlichkeit besteht: CATGCGTCGTCGTCCTATCCATTAGTCGTATCCCTGATCGCCGT Durch das Studium des Fragment-Layouts und des entsprechenden multiplen Alignments kann man in vielen Fällen die verschiedenen Repeats erkennen. CATGCGTCGTCGTCCTATCCCTGATCGCCGT CATG GTCG CGTC TATC TGAT GCCG ATGC TCGT AGTC TCCC ATCG GCGT GTCG TCCT CCAT CCGT TAGT GTAT GATC TCGT ATCCATTA CCTA CCCT CGTA Aufgrund der Abweichung von der durchschnittlichen Überdeckung könnte hier ein Repeat beginnen bzw. enden. Die beiden Repeats könnten sich in einem Buchstaben unterscheiden. Wenn wir annehmen müssen, dass ein Repeat vorliegt, dann könnten wir den Overlap-Graphen entsprechend ändern, und die Berechnung noch einmal durchführen. 40

41 Sequence Assembly 81 Entfernung von circa 30 Bp GCGT GATC CATGCGTCGTCGTCCTATCCATTAGTCGTATCCCTGATCGCCGT Sogenannte Mate-Pairs liefern wichtige Informationen über die Entfernungen zwischen bestimmten Teilsequenzen. Entfernung von 15 Bp GCGT GATC CATGCGTCGTCGTCCTATCCCTGATCGCCGT? Diese Distanzinformationen können als Bedingungen (Constraints) zu dem Optimierungsproblem hinzugefügt werden. Short 2, 10 Kbp Long 50 and 100Kbp Sequence Assembly 82 Variante [1f]: Jedes Textfragment f F hat Länge k. Die Textfragmente enthalten keine Sequenzierungsfehler. Alle Textfragmente f der Länge k von T gehören zu F. Es gibt keine Repeats länger als k-2 in T. T ist ein echter Text (kein DNA Doppelstrang). Lange Repeats sind das komplexeste Problem beim Sequence-Assembly. Für dieses Problem hat man noch keine wirklich zufriedenstellende Lösung gefunden und man arbeitet hier immer noch an besseren Verfahren und Ansätzen. 41

42 Sequence Assembly 83 Schema für DNA Sequence Assembly Gegeben eine Fragmentmenge F (eventuell mit Distanzinformationen (Mate Pairs)) Konstruktion des Overlap-Graphen G Eliminierung von Kanten mit geringer Wahrscheinlichkeit (Gewicht) Berechnung einer optimalen (guten) Orientierung O Auswahl einer Menge von Überlappungen für ein Fragment-Layout (z.b. Berechnung des Hamiltonian-Path mit maximalem Gewicht). Berechnung eines multiplen Alignments und einer Consensus-Sequenz. Analyse der Coverage und Überprüfung von (Abstands)-Bedingungen: Falls Bedingungen durch Consensus-Sequenz verletzt werden oder sehr starke Überdeckungen auf Repeats hinweisen, wird eventuell der Overlap-Graph geändert und wir wiederholen die Prozedur. Sequence Assembly 84 CATGCGTCGTCGTCCTATCCCTGATCGCCGT CATG GTCG CGTC TATC TGAT GCCG e ATGC TCGT AGTC TCCC ATCG GCGT GTCGTCCT CCAT 3 CCGT TAGT GTAT GATC e TCGT ATCCATTA CCTA CCCT e CGTA 42