Next Generation Sequencing

Next Generation Sequencing Unter Next Generation Sequencing (NGS) werden verschiedene neue Technologien zusammengefasst, die nicht auf kapillar basierenden Sequenzierautomaten beruhen. Das 1990 ins Leben gerufene Humane Genome Project (HGP), das die komplette Sequenzierung des menschlichen Genoms zur Zielsetzung hatte, basierte noch ausschließlich auf Kapillarsequenzierautomaten in Kombination mit der von Sanger entwickelten Didesoxymethode (Kettenabbruch-Synthese). Der technische Fortschritt seit Beendigung des HGP im Jahr 2003 hat sowohl die Geschwindigkeit als auch den Umfang der DNA- Sequenzierung um mehrere Größenordnungen gesteigert, sodass heute ein menschliches Genom in wenigen Wochen und mit einem Bruchteil der Kosten sequenziert werden kann. Aber auch dies ist nur ein weiterer Zwischenschritt zum 1.000 Dollar Genom innerhalb eines Tages, das in unmittelbarer Nähe scheint. NGS ermöglicht heute eine Vielzahl unterschiedlicher Anwendungen, welche zusammengenommen in der biologischen Forschung und der molekulargenetischen Diagnostik zu enormen Veränderungen geführt haben. Bei der NGS-Technologie kann man entweder das gesamte Genom sequenzieren oder durch Anreicherungsverfahren z.b. alle Exons bzw. eine Gruppe verschiedener Gene für eine Person oder für viele Personen das selbe Gen gleichzeitig. Bei der Sequenzierung werden viele kurze DNA-Sequenzen ermittelt, der Computer bastelt diese dann wie bei einem Puzzle durch überlappende Sequenzabschnitte zusammen. Next Generation Sequenzer benötigen zwar länger für einen Sequenzlauf (je nach Platform und Laufbedingung zwischen 8 Stunden und 10 Tage), was durch die Notwendigkeit bedingt ist die einzelnen Sequenzreaktionen in paralleler Anordnung (bis mehrere Millionen Positionen) gleichzeitig laufen zu lassen und auszulesen. Die Ausbeute an Sequenzspuren und Gesamtbasen pro Lauf ist im Vergleich zu Kapillarsequenzautomaten die maximal über 94 Kapillaren verfügen und pro Kapillare bis zu 750 Nukleotidbasen lesen können (also maximal 72.000 Basen pro Lauf) um mehrere Größenordnungen höher. In der praktischen Anwendung werden im Wesentlichen drei NGS-Ansätze unterschieden (Whole genome, whole exome und panels). Neben des Umfangs der erfassten Sequenzen unterscheiden sich die Verfahren vor allem in der Genauigkeit bzw. der sog. Coverage. Die Coverage sagt wie oft eine bestimmte Postion im Genom (Nukleotid oder Base) in der Analyse sequenziert wurde. Bei Ansätzen die das gesamte Genom erfassen liegt die Coverage bei ca. durchschnittlich 5, d.h. jede dass das gesamte Genom wurde ca. 5x sequenziert. Mit diesem Ergebniss kann man für eine Position z.b. 4x die Base Adenin und 1x die Base Cytosin als Signal erhalten, die kann tatsächlich eine heterozygote Situation für Adenin und Cytosin sein, es kann aber für Cytosin einfach auch ein Fehler sein.

Whole genome Sequenzing Die Analyse des gesamten Genoms ist daher nur für eine hohe Anzahl an Patienten mit der gleichen Fragestellung sinnvoll, da so bei der Fülle der Daten statistische Auswertungen möglich sind und Sequenzsignale erst ab einer bestimmten Rate (call rate) gewertet werden. Für den diagnostischen Ansatz ist eine coverage von 5 keinesfalls ausreichend. Dieses Verfahren wird vor allem bei Assoziationsstudien verwendet, somit also ausschließlich in wissenschaftlichen Projekten. In Assoziationsstudien werden vor allem bei polygen vererbten Erkrankungen Assoziationen zu Sequenzvarianten gesucht, meist sogenannten Polymorphismen. Als Erkrnakungsbeispiele sind hier bekannte Prädispositionen wie Diabetes mellitus Typ 2, bipolare Erkrankungen, Mammakarzinom, Prostatakarzinom, rheumatologische Erkrankungen, aber auch scheinbar nicht erbliche Erkrankungen wie z.b. die Sarkoidose zu nennen. Bei fast allen Erkrankungen, die ausschließlich exogene Ursachen haben ist eine genetische Prädisposition zu vermuten, die Aufklärung dieser Exome-Sequenzing Bei der Analyse des Exoms werden die nur die exonischen Sequenzen analysiert, das menschliche Genom enthält etwa 180.000 Exons in ca. 20.000 verschiedenen Genen. Um nur die Exons sequenzieren zu können müssen die entsprechenden Sequenzen aus dem Genom angereichert werden. Hierzu muß man mit für alle Exons spezifischen Sonden die zu sequenzierenden Sequenzen aus dem Genom fischen. Dieser analytische Ansatz wird vorwiegend in der Forschung zunehmend aber auch in der Diagnostik verwendet. Die coverage liegt durchschnittlich bei 40-50. Eine durchschnittliche Coverage von 40 bedeutet aber, dass es viele Abschnitte in einzelenen Exons gibt, die deutlich unter dieser Coverage bleiben und somit nicht mit einer diagnostischen Sensitivität von 50 sequenziert wurden. Will man dieses Verfahren in der Diagnostik verwenden, wird man einzelne Bereiche von Hand nachsequenzieren müssen. Folgende Fragestellungen werden mit der Exome-Sequenzierung bearbeitet: die Frage nach dem Wiederholungsrisiko bei einem Kind mit einer schweren Behinderung und einer entsprechenden neurologischen Symptomatik, dessen klinischer Phänotyp sich keinem bekannten Syndrom zuordnen lässt. Durch die vergleichende Analyse des Exoms der Eltern und des Kindes lassen sich autosomal rezessive Erkrankungen mit einem 25%igen Wiederholungsrisiko von beim Kind neu aufgetretenen Mutationen unterscheiden, letztere haben in der Regel kein erhöhtes Wiederholungsrisiko. Targeted Resequencing So können mit der NGS Technologie neben der oben erwähnten Analyse ganzer Genome auch Targeted Resequencing Ansätze gefahren werden, was speziell für die molekulargenetische Diagnostik von Bedeutung ist. Dabei wird nicht das komplette Genom eines Menschen sequenziert, sondern es werden die für die jeweilige Fragestellung relevanten Bereiche des Genoms vorselektiert und dann sequenziert. Aufgrund des enormen Durchsatzes können in solch einem Ansatz beispielsweise mehrere Dutzend Gene mehrerer Patienten gleichzeitig analysiert werden. Die parallele Analyse mehrerer Gene die für ein bestimmtes klinisches Erkrankungsbild ursächlich sind (z.b. Gene für Neuropathien oder Tumorsuppressorgene) senkt die Bearbeitungszeit im Vergleich zur herkömmlichen Sanger- Sequenzierung beträchtlich. Für die Vorselektion der entsprechenden Gene stehen dabei mehrere Methoden zur Verfügung. So kann beispielsweise nach einer Anreicherung der für Gene kodierenden DNA-Abschnitte (Exons, mit flankierenden intronischen Bereichen) eine Whole Exome Analyse gefahren werden, was im Vergleich zum gesamten Genom nur einen Bruchteil an erzeugten Daten verursacht (ca. 5%).

Da man bei einer rein diagnostischen Sequenzierung eine zuverlässige Coverage von 50 über alle zu analysierenden Sequenzen braucht werden die zu analysierenden Gene in sog. Panels zusammengefasst. Hierzu definiert man die zu analysierenden Gene (panel), etabliert für alle Abschnitte des Gens einzelne PCRs, diese PCRs werden dann in einem Mutliplex-Ansatz amplifiziert und anschließend sequenziert. Die Etablierung der Multiples-PCR stellhier einen sehr hohen Aufwand dar, es ist nicht ohne weiteres möglich ein neues Gen in das panel einzuschließen. Durch die Anpassung der PCRs an die Sequenziereigenschaften ist es aber möglich eine relativ gleichmäßige und hohe Coverage über die zu analysierenden Exons zu erreichen.

Whole Transcriptome Analyse Weitere Anwendungen des NGS stellen die Whole Transcriptome Analyse dar. Bei der Whole Transcriptome Analyse werden im Gegensatz zum WGS (das unselektiert die gesamte DNA inklusive nicht-kodierender Bereiche analysiert) nur die tatsächlich in RNA transkribierten Sequenzen sequenziert. Dies ermöglicht u.a. den Vergleich der Genexpression in verschiedenen Geweben (z.b. Tumor- gegen Normalgewebe). Die Analyse des Transkriptoms per NGS ermöglicht außerdem die sensitive und kostengünstige quantitative Bestimmung der Genexpression mittels Serial analysis of gene expression (SAGE) im großen Maßstab, was u.a. für die Analyse neuer, alternativ gespleißter Gen-Isoformen von Bedeutung ist. Nachfolgend werden für den interessierten Leser zunächst die drei zur Zeit am häufigsten verwendeten NGS-Platformen (Roche 454 FLX, Illumina/Solexa GSII und Applied Biosystems SOLiD) vorgestellt (siehe auch Tabelle XX) bevor die wichtigsten Anwendungsbereiche der NGS-Technologie angesprochen werden. Vorteile hierbei sind eine dramatische Zeitersparnis und das Vermeiden einer Bias durch die Amplifikation. Roche 454 FLX Der Roche 454 FLX Sequenzer war 2004 das erste kommerziell auf dem Markt verfügbare NGS-Gerät und verwendet als eine alternative Sequenziertechnologie die als Pyrosequenzierung (siehe Abb. X) bezeichnet wird. Das Roche-System erzeugt mit der aktuellen Titaniumchemie (Stand 01.2010) die größten Leseweiten aller NGS-Geräte (bis 500 bp, siehe Tabelle XX) und ist deshalb insbesondere für die Analyse von Strukturvarianten geeignet. Außerdem zeichnet es sich durch eine hohe Qualität der Daten aus. Die Erzeugung der für die Sequenzierung notwendigen DNA-Library erfolgt zunächst durch Fragmentierung der DNA und Ligation an spezifische Adaptersequenzen. Durch Inkubation der DNA-Fragmente mit einem Überschuss an Agarosebeads, die zu den Adaptersequenzen komplementäre Oligonukleotide tragen, findet eine spezifische Bindung eines DNA- Fragments an genau ein Agarosebead statt. Die anschließende klonale Amplifikation in einer Öl/Wasser Micelle ( Emulision PCR ), die neben den beladenen Agarosebeads auch die für die PCR nötigen Reagenzien enthält, erzeugt ca. 1 Million Kopien auf der Oberfläche jedes Beads. Die eigentliche Sequenzreaktion findet dann in einer Mikrotiterplatte statt in der jedes Bead eine fixe Position belegt und die im Gerät als Flow Cell fungiert auf der in aufeinanderfolgenden Schritten Lösungen aus reinen Nukleotiden, DNA-Polymerase und Puffern aufgebracht und abgewaschen werden können. Dabei wird jeder Nukleotideinbau durch die Abspaltung von Pyrophosphat begleitet, was letztendlich zur Emission von Licht durch das Enzym Luciferase führt. Der Betrag an emittierten Licht ist dabei proportional zur Zahl inkorporierter Nukleotide. Die Einbau jedes einzelnen Nukleotids kann dann über die Pyrophosphat vermittelte Lichtemission mittels einer CCD-Kamera gemessen werden. Bei der Sequenzierung werden allen beads gleichzeitig z.b. Cystosintriphosphat angeboten, dies kann aber nur da eingebaut werden wo gerade in der Sequenzierreaktion ein Cytosin zum Komplemetärstrang passt, es werden daher bei diesem Schritt nur diejenigen beads Licht emmitieren, bei denen ein Cytosin eingebaut wurde. Zur Sequenzierung werden so der Reihe nach alle Nukleotide immer wieder angeboten.

Abbildung X: Next Generation Sequencing Roche 454 FLX: A: Physikalische Fragmentierung der DNA und Ligation mit zwei verschiedenen Adaptern A und B. Die DNA-Fragmente werden thermisch denaturiert und als Einzelstränge über Adapter B an Agarosepartikel (beads) gebunden. B: Die beads werden in einer sehr kleinen Menge wässriger Phase in Öl gelöst, hier findet die PCR statt. C: Jedes Wassertröpfchen mit bead und PCR-Produkt wird in eine einzelne Flow Cell gespült, hier findet die Sequenzreaktion statt. Dem Sequenzierprimer A und den Enzymen werden in allen Flow Cells gleichzeitig z.b Cytosintriphosphat angeboten, das beim Einbaus des Nukleotids frei werdende Pyrophosphat wird von Luziferase gespalten, es wird Licht emittiert, dieses wird mit einer CCD-Kamera aufgezeichnet. In einem nächsten Schritt weden alle Flow Cells gewaschen, es folgt eine Sequenzierreaktion z.b. mit Adenin, gefolgt von den anderen Nukleotiden.

Illumina/Solexa Genome Analyzer II Die Library-Erzeugung für das Illumina-System startet wie bei allen NGS-Platformen mit einer Fragmentierung der DNA gefolgt von einer Adapterligation in Falle von Illumina werden jedoch die selben Adapter an beide DNA-Enden ligiert. Die klonale Amplifikation der einzelnen DNA-Moleküle findet dann auf der Oberfläche einer mit komplemetären Adapteroligonukleotiden beschichteten Flow Cell im sog. Bridge amplification Verfahren statt (Details siehe Abb. X). Die Sequenzierung der Amplifikate beruht dabei auf dem sog. sequencing-by-synthesis Verfahren, bei dem alle 4 mit unterschiedlichen Fluoreszenzmarkern gelabelten Nukleotide zusammen mit der DNA-Polymerase auf die Flow Cell gegeben werden. Bei jedem Zyklus wird nur ein Nukleotid in die an die Adapteroligonukleotide gebundenen Amplifikate eingebaut und detektiert, da das 3-OH Ende der Nukleotide chemisch geblockt ist (dies verhindert eine durchgehende Synthese). Nach Entfernen der nicht inkorporierten Nukleotide und der Polymerase wird die 3-OH- Schutzgruppe chemisch entfernt und ein neuer Zyklus kann beginnen. Das Illumina-System kann in einem Lauf bis zu 270 Millionen Sequenzen liefern, die eine Leseweite von bis zu 100 Basen aufweisen. Ein Paired End Lauf (ein DNA Fragment wird von beiden Seiten ansequenziert) erzeugt auf diese Weise bis zu 27 Gb an Sequenzdaten dies ist ein neben der sehr einfachen Probenvorbereitung der Hauptvorteil dieser Technologie. Abbildung : Next Generation Sequencing Ilumina: A: An physikalisch fragmentierte DNA werden Adapter ligiert, die DNA-Fragmente weden dann als Einzelstränge über die Primer an eine Oberfläche gebunden. Da an beiden Enden der DNA-Fragmente die gleichen Primer gebunden haben, werden die DNA-Fragmente kleine Brücken auf der Oberfläche bilden. Auf diesen Brücken findet dann die PCR statt. B: Es werden alle vier Nukleotide mit unterschiedlichen Fluoreszenzfarbstoffen angeboten, Cytosinriphosphat z.b. blau. Bei den Nukleotiden ist die 3`-OH-Gruppe geblockt, es kann daher bei jeden Syntheseschritt nur ein Nukleotid eingebaut werden. Je nach dem wo auf der Oberfläche die DANN-Fragmente gebunden haben, werden von dort immer dann, wenn ein Nukleotid eingebaut wurdeimmer wieder Fluoreszenzsignale ausgesendet werden. Es entsteht also in der Anordnung der Fragmente ein Image von Punkten in der Kamera was nach jedem Sequenzierschritt aufgezeichnet wird.

Applied Biosystems SOLiD Sequencer Auch die SOLiD-Platform startet mit einer DNA-Fragmentierung und einer Adapterligation zur Erzeugung der Library und nutzt wie das Roche 454 FLX-System eine Emulsion-PCR, jedoch mit magnetic-beads. Das SOLiD-System verwendet als Sequenzierprinzip ein Verfahren, das als Sequencing-by-ligation bezeichnet wird (Details siehe Abb. x). In der eigentlichen Sequenzierung, die in 2 Flow Cells pro Lauf abläuft, wird eine Lösung fluoreszentgelabelter Oktamere zusammen mit der für die Sequenzierung notwendigen Reagenzien verwendet. Das Prinzip beruht dabei auf der Tatsache, das die ersten beiden Positionen des Oktamers die Dekodierung der Template DNA vermitteln, es müssen immer zwei benachbarte Nukleotide durch die ersten beiden Positionen der Oktamere korrekt erkannt werden. Somit kann gegenüber den anderen Systemen theoretisch eine bessere Diskriminierung der einzelnen Basen ermöglicht werden. Ein weiteres Charakteristikum der SOLiD-Methode ist die Verwendung von fünf jeweils um ein Nukleotid kürzere Primersets, die nacheinander in der Sequenzierung verwendet werden ( Primer Reset ). Dadurch wird pro Template eine fünffache Abdeckung erzielt, was die Genauigkeit weiter steigert. Ein typischer SOLiD-Lauf erzeugt ca. 320 Mio Sequenzdaten (aus bis zu 600 Mio Reads).

Abbildung: Next Generation Sequencing Applied Biosystems SOLiD: A: An die DNA- Fragmente werden Adapter ligiert, die thermisch denaturierten Einzelstränge werden über die Adapter an magnetic beads gebunden. Die beads mit einem DNA-Fragment werden in einzelne Flow Cells gespült. Zur Sequenzierung werden Primer auf die Adaptersequenzen ligiert. In einem nächsten Schritt werden kurze synthestische DNA-Fragmente (Oktamere)

angeboten, wobei die ersten beiden Nukleotide dieser Fragmente definiert sind, z.b. AT, was durch eine Fluoreszenzfarbstoff verschlüsselt ist. Die übrigen Nukleotide des Oktamers sind zufällig synthetisiert. Das zur komlementären Sequenz passende Oktamer wird an den Primer ligiert, die nicht gebundenen Oktamere werden abgewaschen, das Fluoreszenzsignal des gebundenen Primers wird detektiert. Im nächsten Schritt wird das Fluoreszenzsignal am 3`-Ende des gebungenen Oktamers entfernt damit dann das nächste Oktamer binden kann. Diese Schritte werden mehrfach wiederholt. Eine lesbare Sequenz entseht durch die Wiederholung der Schritte an einem um jeweils ein Nukleotid verkürzten Primer und das an diesem Primer wiederholte auslesen der Octamerligierungen. B: Entschlüsselung der Farbcodes: Nach jeder Ligierung werden die Farbcodes der einzelnen Reaktionen aufgezeichnet. Die ersten beiden Nukleotide sind mit einem definierten Farbcode verschlüsselt z.b. erstes Nukleotid A und zweites Nukleotid A ist blau. Die möglichen Kombinationen von zwei Nukleotiden für einen blauen Punkt kann man dem Schema entnehmen, für jeden Punkt gibt es vier Kombinationsmöglichkeiten. Mit dieser Information alleine könnte mann keine Sequenz sicher definieren, dies wird ermöglicht, indem die gesamte Prozedur mit einem n-1-primer, dann n-2-primer usw. wiederholt wird. Die sich daraus ergebenden Farbcodes werden entschlüsselt und eine Sequenz definiert. Diese Verfahren benötigt eine enorme Rechnerleistung. Tabellarischer Vergleich der NGS-Platformen Laborwelt Nr.3/2009 B. Timmermann