ASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA

Ähnliche Dokumente
Konzepte der Informatik

Sequenziertechnologien

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Professionelle Seminare im Bereich MS-Office

16. All Pairs Shortest Path (ASPS)

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Information Systems Engineering Seminar

1 topologisches Sortieren

Genomsequenzierung für Anfänger

Zeichen bei Zahlen entschlüsseln

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Informationsblatt Induktionsbeweis

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Anmerkungen zur Übergangsprüfung

impact ordering Info Produktkonfigurator

Noten ausrechnen mit Excel/Tabellenkalkulation. 1) Individuellen Notenschlüssel/Punkteschlüssel erstellen

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009)

Kapiteltests zum Leitprogramm Binäre Suchbäume

Tutorial: Homogenitätstest

Ein einfaches Modell zur Fehlerfortpflanzung

Senkung des technischen Zinssatzes und des Umwandlungssatzes

Avenue Oldtimer Liebhaber- und Sammlerfahrzeuge. Ihre Leidenschaft, gut versichert

SharePoint Demonstration

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

Die Methode des Robusten Trends und der CAC40 (Frankreich)

Das Dilemma des Einbrechers Wer die Wahl hat, hat die Qual!

Sollsaldo und Habensaldo

Technische Analyse der Zukunft

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1

1. Erklären Sie das Prinzip der Sanger Sequenzierung. Klären Sie dabei folgende Punkte: a) Welche besondere Art von Nukleotiden wird verwendet und

CTI SYSTEMS S.A. CTI SYSTEMS S.A. 12, op der Sang. Fax: +352/ L Lentzweiler. G.D.

MATHEMATIK 3 STUNDEN. DATUM: 8. Juni 2009

Ab 2012 wird das Rentenalter schrittweise von 65 auf 67 Jahre steigen. Die Deutsche Rentenversicherung erklärt, was Ruheständler erwartet.

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Bedienungsanleitung: Onlineverifizierung von qualifiziert signierten PDF-Dateien

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192.

Probleme beim Arbeiten mit Variablen, Termen und Gleichungen

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

iloq Privus Bedienungsanleitung Schließanlagen Programmierung Version 1 - Copyright 2013

15 Optimales Kodieren

XONTRO Newsletter. Makler. Nr. 16

Software Engineering Klassendiagramme Assoziationen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Algorithmen und Datenstrukturen

Aufgabe 1 Berechne den Gesamtwiderstand dieses einfachen Netzwerkes. Lösung Innerhalb dieser Schaltung sind alle Widerstände in Reihe geschaltet.

Zwischenablage (Bilder, Texte,...)

Kaufmännische Berufsmatura 2011

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Teil III: Routing - Inhalt I. Literatur. Geometric Routing. Voraussetzungen. Unit Disk Graph (UDG) Geometric Routing 29

Südbaden-Cup. Ausstieg Champions

Die integrierte Zeiterfassung. Das innovative Softwarekonzept

Animationen erstellen

Neue DNA Sequenzierungstechnologien im Überblick

Wachstum 2. Michael Dröttboom 1 LernWerkstatt-Selm.de

Tutorium Algorithmen & Datenstrukturen

Beheben von verlorenen Verknüpfungen

Vektoren mit GeoGebra

Informatik-Sommercamp Mastermind mit dem Android SDK

Algorithmen und Datenstrukturen Balancierte Suchbäume

Die Post hat eine Umfrage gemacht

Wir machen neue Politik für Baden-Württemberg

WLAN Konfiguration. Michael Bukreus Seite 1

Makro-Tutoriums-Blatt 5. Die Geldnachfrage und die LM-Kurve

Vibono Coaching Brief -No. 39

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

Statuten in leichter Sprache

WS 2013/14. Diskrete Strukturen

Wie Google Webseiten bewertet. François Bry

Seminar Analyse von Petrinetz-Modellen

UNIVERSITÄTSKLINIKUM Schleswig-Holstein. Sequenzierung. Norbert Arnold. Dept. Gynecology and Obstetrics Oncology Laboratory

Lichtbrechung an Linsen

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Kapitalerhöhung - Verbuchung

R ist freie Software und kann von der Website.

Psychologie im Arbeitsschutz

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter

Gezielt über Folien hinweg springen

Hilfe Bearbeitung von Rahmenleistungsverzeichnissen

Vorlesung Betriebstechnik/Netzplantechnik Operations Research

Professionelle Seminare im Bereich MS-Office

Die Größe von Flächen vergleichen

Anlegen eines DLRG Accounts

LAS PROGRAMM- ANPASSUNGEN

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Wichtig ist die Originalsatzung. Nur was in der Originalsatzung steht, gilt. Denn nur die Originalsatzung wurde vom Gericht geprüft.

Corporate Actions in epoca

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Lehrer: Einschreibemethoden

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Datenstrukturen & Algorithmen

Transkript:

ASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA Jason R. Miller*, Sergey Koren, Granger Sutton Ein Vortrag von Sergej Tschernyschkow Friedrich-Schiller-Universität Jena 03. Mai 2010 SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 1 / 30

INHALT 1 EINFÜHRUNG 2 ASSEMBLIERUNG 3 ASSEMBLIERUNGSALGORITHMEN 4 ASSEMBLY SOFTWARE 5 ZUSAMMENFASSUNG SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 2 / 30

OUTLINE 1 EINFÜHRUNG 2 ASSEMBLIERUNG 3 ASSEMBLIERUNGSALGORITHMEN 4 ASSEMBLY SOFTWARE 5 ZUSAMMENFASSUNG SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 3 / 30

WHOLE GENOME SHOTGUN SEQUENCING 1. Zerteilung 2. Sequenzierung 3. Zusammensetzung - Assemblierung SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 4 / 30

NEXT-GENERATION SEQUENCING Entwicklung von Sequenzierern der nächsten Generation - 454 (Roche) (2005) - Solexa (Illumina) (2006) - SOLiD (Applied Biosystems) (2007) - Heliscope (Helicos) (2008) Eigenschaften + hohe Parallelisierung + einfachere Bedienbarkeit + größere Effizienz + niedrigere Kosten - kürzere Reads Reads: Basensequenz + Quality Value SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 5 / 30

OUTLINE 1 EINFÜHRUNG 2 ASSEMBLIERUNG 3 ASSEMBLIERUNGSALGORITHMEN 4 ASSEMBLY SOFTWARE 5 ZUSAMMENFASSUNG SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 6 / 30

WAS IST EIN ASSEMBLY? ASSEMBLY eine hierarchische Datenstruktur READ Basensequenz CONTIG Multiples Sequenzalignment von Reads und Konsensussequenz SCAFFOLD Reihenfolge und Orientierung der Contigs SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 7 / 30

SCHWIERIGKEITEN Repeats - sich wiederholende Sequenzen Sequenzierfehler Fehlertoleranz nicht gleichmäßig verteilte Abdeckung SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 8 / 30

OUTLINE 1 EINFÜHRUNG 2 ASSEMBLIERUNG 3 ASSEMBLIERUNGSALGORITHMEN 4 ASSEMBLY SOFTWARE 5 ZUSAMMENFASSUNG SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 9 / 30

ALGORITHMEN Auf Graphen basierende Algorithmen Drei Ansätze: Greedy OLC - Overlap/Layout/Consensus DBG - De Bruijn Graph SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 10 / 30

GREEDY ASSEMBLY Berechne Overlaps (bzw. Score) für alle Reads 1 Suche nach dem höchsten Score 2 Verbinde die zugehörigen Reads 3 Wiederhole 1-3 bis keine Änderung in den contigs SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 11 / 30

PROBLEM VON GREEDY ASSEMBLY Otptimierung einer lokalen Funktion lokale Maxima falsche Assemblierung SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 12 / 30

OVERLAP/LAYOUT/CONSENSUS Aufteilung in 3 Phasen: OERLAP - Berechnung des Overlap Graphen LAYOUT - Analyse des Overlap Graphen, Bestimmung von Pfaden CONSENSUS - Multiples Sequenzalignment bestimmt das endgültige Layout und die Konsensussequenz SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 13 / 30

DE BRUIJN GRAPH Oligomere berechnen Graph erstellen - Jeder Knoten entspricht einem K-mer - Jede Kante entspricht einem overlap Pfad(e) finden das jedes Oligomer genau einmal durchläuft SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 14 / 30

DE BRUIJN GRAPH (EULERPFAD) Eulerpfad Kanten = Oligomere Knoten = Präfixe/Suffixe Pfad(e) finden das jedes Oligomer genau einmal durchläuft Das ist das Haus vom Ni-ko-laus SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 15 / 30

DE BRUIJN GRAPH Repeats verursachen Kreise in dem K-mer Graph SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 16 / 30

PROBLEME IM OVERLAP BZW. DE BRUIJN GRAPH 1 Verzweigung (Spur) Sequenzierfehler am Ende der Reads fehlende Reads 2 Blase (Bubble) Sequenzierfehler in der Mitte der Reads Polymorphismen 3 frayed rope Wiederholungen im Genom 4 Kreise SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 17 / 30

OUTLINE 1 EINFÜHRUNG 2 ASSEMBLIERUNG 3 ASSEMBLIERUNGSALGORITHMEN 4 ASSEMBLY SOFTWARE 5 ZUSAMMENFASSUNG SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 18 / 30

GREEDY ASSEMBLER SSAKE (The Short Sequence Assembly by K-mer search and 3 read Extension) - erste Assembler für kurze, uniforme Reads - nutzt nicht explizit einen Graph - Lookup-Tabelle - Durchsucht die Tabelle nach Überlappungen - Ende bei "Verzweigung" - Wiederholen bis zu einem bestimmten treshold SHARCGS (SHort read Assembler based on Robust Contig extension for GS) - SSAKE + pre- und post-processing - pre-processing: Filterung fehlerhafter reads durch min. Anzahl von exakten Überlappungen oder treshold für QVs - post-processing: erweitert contigs durch Sequenz Alignment VCAKE (Verified Consensus Assembly by K-mer Extension) - eine weitere Erweiterung - berücksichtigt auch inexakte Überlappungen SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 19 / 30

OLC ASSEMBLER Newbler - 454 Life Sciences - implementiert OLC doppelt - erste Phase: Berechnung von unitigs(uniquely assemblable contigs) - zweite Phase: generiert contigs aus den unitigs CABOG - Überarbeitung von Celera, einem Assembler aus der Sanger Ära - Konstruiert einen Overlap Graph - Bildet unitigs aus einfachen Pfaden ohne Verzweigungen und Überschneidungen - Bildet neuen Graph aus unitigs - Fügt unitigs zu contigs und contigs zu scaffolds - Vereinfacht den Graph - Erstellt die Konsensussequenz (Scaffolds + Reads MSA) SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 20 / 30

OLC ASSEMBLER Edena - entwickelt für kurze, uniforme Reads - Verwirft doppelte reads - Findet alle perfekten, fehlerfreien overlaps - reduziert spurs und bubbles Shorty - behandelt einen speziellen Fall - wenige lange Reads rekrutieren kurze Reads SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 21 / 30

DBG ASSEMBLER Euler - entwickelt für Sanger, dann modifiziert für NGS - Filter für fehlerhafte Reads - Erstellt einen K-mer Graph und führt eine Reihe von Operationen zur Vereinfachung des Graphens durch - Präfixe sind besser als Suffixe - erstellt zwei K-mer Graphen mit unterschiedlichen K s und vergleicht deren Kanten - Benutzt A-Bruijn Graph (De Bruijn Graph + Adjazenz Matrix) Velvet - zuverlässiger und einfacher Assembler - benutzt keinen pre-processing Filter wie Euler, sondern nur einen Parameter für min. Anzahl Vorkommen - besitzt zahlreiche Heuristiken zur Vereinfachung des Graphen SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 22 / 30

DBG ASSEMBLER ABySS (Assembly By Short Sequences) - entwickelt für große Genome (Parallelisierung) - verteilt den Graph und die Berechnung, das ermöglicht die Assemblierung von 3,5 Milliarden Solexa Reads - vereinfacht Graphen ähnlich wie Velvet und Euler - hat die üblichen Probleme aller Parallelalgorithmen (Aufgabenverteilung und Interprozesskommunikation) AllPaths - pre-processing Filter basierend auf QV s - erstellt unipaths - Erstellt Partitionen zu denen er DBG baut, die er dann später zusammenklebt (divide and conquer) SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 23 / 30

DBG ASSEMBLER SOAPdenovo ( Short Oligonucleotide Analysis Package) - entwickelt für große Genome vor allem Solexa Daten - DBG Implementierung ist speichereffizienter als die von Velvet oder Euler - Bildet contigs mit DBG - verwirft DBG um scaffolds zu bilden - erstellt contig Graph - vereinfacht diesen Graph und erstellt scaffolds SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 24 / 30

GEMEINSAME BESTANDTEILE DER ASSEMBLER Fehlerfindung und Korrektur Graphkonstruktion Reduktion von einfachen Pfaden zu Knoten Entfernung von Spurs, Bubbles Auflösen von Verwirrungen mit Hilfe von Informationen außerhlalb des Graphen Umwandlung von Pfaden in contigs und scaffolds Konsensussequenz SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 25 / 30

OUTLINE 1 EINFÜHRUNG 2 ASSEMBLIERUNG 3 ASSEMBLIERUNGSALGORITHMEN 4 ASSEMBLY SOFTWARE 5 ZUSAMMENFASSUNG SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 26 / 30

Der Erfolg eines Assemblers ist abhängig von dem wie gut der Assembler mit realen Daten umgehen kann Eine exakte Suche nach dem optimalen Pfad ist nicht praktikabel, da exponentiell viele Pfade existieren OLC und DBG Ansätze haben eine Menge von Reads als Eingabe Reads weden in einem gerichteten Graph repräsentiert Die beiden Graphen sind sehr ähnlich DBG braucht keine paarweisen Alignments DBG ist besser für Daten mit vielen, kurzen Reads geeignet OLC kommt besser mit längeren Reads und wenig Abdeckung zurecht Beide Ansätze besitzen pre- und post-proessing SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 27 / 30

typische Länge der Reads OLC: 100-800 bp DBG: 25-100 bp Reads in der nahen Zukunft irgendwo dazwischen Mit der Zeit werden auch längere Reads möglich, während die kürzeren Reads immer preisgünstiger werden Die Datenmengen werden weiter steigen, während die Kosten sinken werden Also werden die Assembly Algorithmen weiterhin gefordert sein SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 28 / 30

QUELLENANGABE J.R. Miller, et al., Assembly algorithms for next-generation sequencing data, Genomics (2010) M. Pop, Genome assembly reborn: recent computational challenges, Brief. Bioinform. 10 (2009) 354 366. E.R. Mardis, The impact of next-generation sequencing technology on genetics, Trends Genet. 24 (2008) 133 141. SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 29 / 30

VIELEN DANK FÜR DIE AUFMERKSAMKEIT! SERGEJ TSCHERNYSCHKOW (FSU JENA) ASSEMBLY ALGORITHMS FOR NGS DATA 03. MAI 2010 30 / 30