Bei der Betrachtung der Eigenschaften von Einzelmolekül-Sequenzierungstechnologien liegt der Schwerpunkt meist auf Leselänge, Fehlerrate und Durchsatz (Abbildung 3); Aber auch die Anforderungen an die Menge und Qualität der Eingangsproben, die Einfachheit und Parallelisierbarkeit der Probenvorbereitung und die Datenanalyse sind wichtige Komponenten, die bei der Entscheidung, ob eine Technologie, ob Einzelmolekül oder andere, für ein bestimmtes Problem geeignet ist, berücksichtigt werden müssen. Einige der Anwendungen, die häufig mit den derzeitigen Sequenzierungstechnologien durchgeführt werden, und die relative Bedeutung der verschiedenen Eigenschaften der unterschiedlichen Sequenzierungsmethoden sind in Tabelle 1 dargestellt. Wichtige Eigenschaften der Einzelmolekültechnologien, die sich auf diese verschiedenen Anwendungen beziehen, werden im Folgenden erörtert.
Sequenzierung durch Synthese
Das erste kommerziell erhältliche Einzelmolekül-Sequenzierungssystem wurde von unseren Kollegen bei Helicos BioSciences entwickelt. Bei diesem System werden einzelne Moleküle auf eine Fließzellenoberfläche hybridisiert, die kovalent gebundene Oligonukleotide enthält. Fluoreszenzmarkierte Nukleotide und eine DNA-Polymerase werden nacheinander zugegeben, und die Inkorporationsereignisse werden durch Laseranregung und Aufzeichnung mit einer CCD-Kamera (charge coupled device) nachgewiesen. Das fluoreszierende ‚Virtual Terminator‘-Nukleotid verhindert den Einbau eines nachfolgenden Nukleotids, bis der Nukleotidfarbstoff gespalten ist. Die Bilder der einzelnen Zyklen werden zusammengesetzt, um einen Gesamtsatz von Sequenzlesungen zu erzeugen. Bei einem Standarddurchlauf werden 120 Zyklen der Nukleotidzugabe und -detektion durchgeführt. Bei diesem Ansatz können weit über eine Milliarde Moleküle gleichzeitig verfolgt werden. Da in einem Standardlauf zwei 25-Kanal-Durchflusszellen vorhanden sind, können 50 verschiedene Proben gleichzeitig sequenziert werden, mit der zusätzlichen Möglichkeit, den Probendurchsatz durch Multiplexing deutlich zu erhöhen. Die Anforderungen an die Proben sind die einfachsten aller Technologien: Es sind Mengen im Sub-Nanogramm-Bereich erforderlich, und auch DNA von sehr schlechter Qualität, einschließlich degradierter oder modifizierter DNA, kann sequenziert werden. Die durchschnittliche Leselänge ist relativ kurz (ca. 35 nt), wobei die Fehlerquote bei den einzelnen Nukleotiden derzeit bei etwa 3 bis 5 % liegt, die zufällig in den Sequenzleseabschnitten auftreten und überwiegend in Form von „Dark Base“- oder Deletionsfehlern auftreten, die im Alignment-Algorithmus berücksichtigt werden. Diese Fehlerquote spielt beim Nachweis von Polymorphismen keine Rolle, da bei diploiden Genomen mit Systemen der zweiten Generation in der Regel eine 30-fache Abdeckung verwendet wird, um die durch die Amplifikation verursachte ungleichmäßige Abdeckung zu überwinden. Um die stochastische Natur der Erkennung von Heterozygoten zu überwinden, ist eine Überabdeckung erforderlich, wobei eine 30-fache Abdeckung ratsam ist, um sicherzustellen, dass fast alle Heterozygoten korrekt erkannt werden. Bei diesem Abdeckungsgrad werden unabhängig von den Fehlerraten in diesem Bereich genaue Konsensussequenzen erzeugt. Einzelmolekülsysteme haben eine viel gleichmäßigere Abdeckung und benötigen daher nicht so viel Tiefe für die vollständige Erkennung von Heterozygoten. Die gleichmäßige Abdeckung im Vergleich zu Systemen der zweiten Generation wurde mit ChIP-Experimenten gezeigt, bei denen die Sequenzleseergebnisse in Bezug auf den GC-Gehalt bei der Einzelmolekülsequenzierung relativ konstant waren, während bei der amplifikationsbasierten Sequenzierung und bei der Ganzgenomsequenzierung einer menschlichen Probe sowohl bei hohem als auch bei niedrigem GC-Gehalt signifikante Abweichungen beobachtet wurden.
Das Helicos Sequencer-System kann auch RNA-Moleküle direkt sequenzieren, wodurch die vielen Artefakte vermieden werden, die mit der reversen Transkriptase verbunden sind, und eine unvergleichliche quantitative Genauigkeit für RNA-Expressionsmessungen ermöglicht wird. Die sehr hohe Lesezahl pro Probe ermöglicht präzise Expressionsmessungen mit RNA oder cDNA, was mit anderen Einzelmolekültechnologien noch nicht möglich ist. Tatsächlich können ganze Klassen von RNA-Molekülen, die mit anderen Technologien nicht sichtbar gemacht werden können, mit einem Einzelmolekülansatz nachgewiesen werden. Wie bei vielen Einzelmolekülsystemen können wiederholte Lesungen desselben Moleküls die Fehlerquote deutlich verbessern und auch den Nachweis sehr seltener Varianten in einer gemischten Probe ermöglichen. So könnte beispielsweise eine seltene Variante in einer Probe, die eine Mischung aus wenigen Tumorzellen und vielen normalen Zellen enthält, mit amplifizierter DNA nicht nachweisbar sein. Mit der wiederholten Sequenzierung desselben Moleküls kann die Fehlerquote so niedrig gehalten werden, dass Mutationen in heterogenen Proben wie Tumoren leicht erkannt werden können. Aufgrund der minimalen Probenvorbereitung, der Möglichkeit, außergewöhnlich kleine Ausgangsmengen zu verwenden, und der hohen Anzahl von Lesevorgängen ist diese Technologie ideal für quantitative Anwendungen wie ChIP, RNA-Expression und Kopienzahlvariation sowie für Situationen, in denen die Probenmenge begrenzt ist oder sich verschlechtert. Standardmäßig ist die Resequenzierung des gesamten menschlichen Genoms problemlos möglich, doch ist sie mit Systemen der zweiten Generation derzeit weniger kostspielig.
Pacific Biosciences hat einen weiteren Ansatz für die Sequenzierung durch Synthese entwickelt, bei dem fluoreszenzmarkierte Nukleotide verwendet werden. Bei diesem System wird die DNA auf ein sehr kleines Volumen in einem Zero-Mode-Wellenleiter beschränkt, und das Vorhandensein eines fluoreszierend markierten kognitiven Nukleotids in der Nähe der DNA-Polymerase wird gemessen. Die Abmessungen des Wellenleiters sind so klein, dass das Licht nur in den Bereich nahe der Kante eindringen kann, in dem die für die Sequenzierung verwendete Polymerase eingeschlossen ist. Nur Nukleotide in diesem kleinen Volumen in der Nähe der Polymerase können beleuchtet werden und fluoreszieren für den Nachweis. Da das Nukleotid, das in den sich verlängernden DNA-Strang eingebaut wird, eine längere Zeit in der Nähe der Polymerase verbringt, kann es weitgehend von nicht erkannten Nukleotiden unterschieden werden. Alle vier potenziellen Nukleotide werden in die Reaktion einbezogen, wobei jedes mit einem andersfarbigen Fluoreszenzfarbstoff markiert ist, so dass sie voneinander unterschieden werden können. Jedes Nukleotid hat eine charakteristische Inkorporationszeit, die bei der Verbesserung der Basenerkennung weiterhelfen kann. Sequenzlesungen von bis zu Tausenden von Basen, die länger sind als bei Systemen der zweiten Generation, werden in Echtzeit für jedes einzelne Molekül erhalten. Der derzeitige Durchsatz beträgt jedoch weniger als 100 000 Reads pro Lauf, so dass die Gesamtausbeute an Sequenzen viel geringer ist als bei Systemen der zweiten Generation und dem Helicos-System. Darüber hinaus ist die Rohfehlerrate, die derzeit 15 bis 20 % beträgt, deutlich höher als bei allen anderen aktuellen Sequenzierungstechnologien, was die Nutzung der Daten für einige Anwendungen, wie z. B. den Variantennachweis, erschwert.
Sehr viel längere Reads, die so genannten „Strobe-Reads“, können erzeugt werden, indem der Laser während der Sequenzierung für einige Zeit ausgeschaltet wird, wodurch eine vorzeitige Beendigung durch laserinduzierte Lichtschäden an der Polymerase und den Nukleotiden verhindert wird. Wenn lange Reads nicht erforderlich sind, kann die hohe Rohfehlerrate überwunden werden, indem ein Haarnadel-Oligonukleotid an jedes Ende der DNA ligiert wird, wodurch eine zirkuläre Matrize entsteht (SMRTbell für Single Molecule Real Time genannt), und dann wiederholt dasselbe Molekül sequenziert wird. Dieses Verfahren funktioniert, wenn die Moleküle relativ kurz sind, aber es kann nicht für lange Reads verwendet werden, so dass diese eine hohe Rohfehlerrate aufweisen. Selbst bei einer hohen Fehlerrate können die sehr langen Reads produktiv für das Zusammenfügen von Sequenzkontigs verwendet werden. Ein weiterer Vorteil dieses Systems ist die Möglichkeit, modifizierte Basen zu erkennen. Es ist möglich, 5-Methylcytosin nachzuweisen, obwohl die Rolle des Sequenzkontexts und anderer Faktoren für die Genauigkeit solcher Zuordnungen noch zu klären ist. Prinzipiell sollte mit diesem System auch eine direkte RNA-Sequenzierung möglich sein, was jedoch für natürliche RNA-Moleküle noch nicht berichtet wurde, da Nukleotide vor dem Nukleotideinbau wiederholt an die reverse Transkriptase binden und dadurch falsche Signale mit mehrfachen Einfügungen entstehen, die die Bestimmung einer sinnvollen Sequenz verhindern. Darüber hinaus ist dieses System aufgrund der geringen Anzahl von Lesevorgängen auf die Identifizierung gängiger mRNA-Isoformen beschränkt und nicht auf die Erstellung quantitativer Expressionsprofile oder die vollständige Erfassung des Transkriptoms, die beide eine wesentlich höhere Anzahl von Lesevorgängen erfordern, als in absehbarer Zukunft möglich ist. Im Allgemeinen ist dieses System aufgrund der langen Leseweiten und der kurzen Durchlaufzeit am nützlichsten für den Zusammenbau von Genomen, die Analyse struktureller Variationen, die Haplotypisierung, die Metagenomik und die Identifizierung von Spleiß-Isoformen.
Life Technologies, ein bedeutender Anbieter von Sequenziersystemen der ersten und zweiten Generation, entwickelt die ursprünglich von Visigen eingeführte Technologie der Einzelmolekülsequenzierung durch Synthese auf der Grundlage des Fluoreszenzresonanzenergietransfers (FRET) weiter. Es wurden beträchtliche Fortschritte erzielt, und die kommerzielle Freigabe des „Starlight“-Systems wird in naher Zukunft erwartet. Die derzeitige Technologie besteht aus einer mit Quantenpunkten markierten Polymerase, die DNA unter Verwendung von vier deutlich markierten Nukleotiden in einem Echtzeitsystem synthetisiert. Quantenpunkte, bei denen es sich um fluoreszierende halbleitende Nanopartikel handelt, haben gegenüber Fluoreszenzfarbstoffen den Vorteil, dass sie viel heller und weniger anfällig für Ausbleichen sind, allerdings sind sie auch viel größer und anfälliger für Blinken. Die zu sequenzierende Genomprobe wird an ein an der Oberfläche befestigtes Oligonukleotid einer bestimmten Sequenz ligiert und dann durch Verlängerung eines zum Oberflächenoligonukleotid komplementären Primers abgelesen. Wenn ein fluoreszierend markiertes Nukleotid an die Polymerase bindet, interagiert es mit dem Quantenpunkt, was zu einer Veränderung der Fluoreszenz sowohl des Nukleotids als auch des Quantenpunkts führt. Das Signal des Quantenpunkts nimmt ab, während das Signal des farbstoffmarkierten Phosphats an jedem Nukleotid bei einer charakteristischen Wellenlänge ansteigt. Die Echtzeitsequenz wird für jeden verlängerten Primer erfasst. Da jede Sequenz an die Oberfläche gebunden ist, kann sie zur Verbesserung der Genauigkeit erneut geprimert und sequenziert werden. Es ist nicht klar, wie die Sequenzspezifikationen aussehen werden, aber die Ähnlichkeit mit der Technologie von Pacific Biosciences macht diese zu einem wahrscheinlichen Referenzpunkt. Wenn dies der Fall ist, wird sie dieselben Stärken in Bezug auf Anwendungen haben (Genomassemblierung, strukturelle Variation, Haplotypisierung, Metagenomik), während sie bei quantitativen Anwendungen, die eine hohe Anzahl von Lesungen erfordern (wie ChIP oder RNA-Expression), möglicherweise eine Herausforderung darstellt.
Optische Sequenzierung und Kartierung
Es gibt andere Technologien, mit denen sehr lange Lesungen erzeugt werden können, allerdings zu den Kosten eines deutlich geringeren Durchsatzes. So ist es beispielsweise möglich, sehr lange DNA-Moleküle, die bis zu Hunderten von Kilobasen lang sein können, an Oberflächen anzuheften und sie auf bestimmte Sequenzen hin zu untersuchen, indem sie mit verschiedenen Restriktionsenzymen geschnitten oder nach Behandlung mit sequenzspezifischen Nicking-Enzymen markiert werden. Die Länge der untersuchten Moleküle hängt von der Fähigkeit ab, solch lange DNA zu handhaben, ohne sie mechanisch zu scheren. Vollständige Restriktionsverdauungen, die eine Ordnung der Sequenzkontigente ermöglichen, wurden für menschliche und andere Genome aus Sammlungen einzelner Moleküle erstellt, die ganze Genome umfassen. Sich stark wiederholende und duplizierte Genome, wie z. B. Mais, sind mit herkömmlichen Sequenzierungsmethoden besonders schwierig zu assemblieren, wurden aber mit diesem Einzelmolekülsystem erfolgreich analysiert. Die Restriktionsstellen liefern Sequenzmarkierungen auf der DNA, so dass lange Wiederholungsregionen und andere komplizierte Strukturvariationen eindeutig zugeordnet werden können. Spezialisierte Anwendungen wie genomweite Methylierungskartierung können ebenfalls durchgeführt werden.
Auch DNA-Moleküle können auf Nanoröhrchen fixiert und für die Betrachtung spezifisch markiert werden. Einzelne RNA-Moleküle wurden mittels Scanning Tip Raman-Spektroskopie sichtbar gemacht. In einer alternativen Methode, bei der ebenfalls lange DNA-Moleküle an eine Oberfläche adsorbiert werden, konnten Guanine von allen anderen Basen unterschieden und die Teilsequenz mit einem Rasterelektronenmikroskop gelesen werden. Möglichkeiten zum Ablesen anderer Basen durch Einfügung von schweren Atomen wie Brom oder Jod an bestimmten Nukleotiden wurden von ZS Genetics vorgeschlagen. Obwohl der niedrige Strangdurchsatz und das unvollständige Lesen der Sequenz derzeit einschränkend wirken, besteht das Potenzial für Lesevorgänge, die Hunderte von Kilobasen lang sind, was wiederum in erster Linie durch die Fähigkeit begrenzt wird, die DNA zu handhaben, ohne sie zu scheren. Andere Technologien, die das direkte Ablesen gestreckter DNA nutzen, wurden an anderer Stelle besprochen. Diese optischen Sequenzierungstechnologien bieten einen aussagekräftigen Einblick in die Genomstruktur, aber sie können keine detaillierten Sequenzdaten oder Zugang zu vielen anderen Sequenzierungsanwendungen liefern, die eine hohe Anzahl von Lesungen erfordern, wie z. B. Messungen der Genexpression.
Nanoporen
Alle bisher beschriebenen Sequenzierungstechniken erfordern eine Art von Markierung auf der DNA oder den Nukleotidsubstraten, um die einzelnen Basen für die Sequenzierung zu erkennen. Nanoporen-Ansätze benötigen jedoch im Allgemeinen keine exogene Markierung, sondern stützen sich zur Unterscheidung auf die elektronische oder chemische Struktur der verschiedenen Nukleotide. Die Vorteile und potenziellen Möglichkeiten des Einsatzes von Nanoporen wurden bereits untersucht. Zu den bisher interessantesten Nanoporen gehören solche, die mit Festkörpersystemen aus Materialien wie Kohlenstoff-Nanoröhren oder dünnen Filmen und dem biologisch basierten α-Hämolysin oder MspA aufgebaut sind. Diese bakteriellen Porenproteine wurden ausgiebig untersucht und entwickelt, um den Nachweis bestimmter Basen und die Translokationsrate der DNA durch die Pore zu optimieren. Obwohl die Sequenzierung nativer DNA auf der Grundlage ihrer natürlichen Eigenschaften den Schritt der Markierung überflüssig machen und möglicherweise sehr lange Leseweiten bei minimaler Probenvorbereitung ermöglichen würde, was die Kosten senken würde, sind die Unterschiede zwischen den Nukleotiden sehr gering, und ihre Erkennung wird durch die Schwierigkeiten bei der Kontrolle der Geschwindigkeit und der Richtung der DNA durch die Nanopore erschwert. Für eine hochpräzise Sequenzierung sind ein spezifischer Nachweis und ein unidirektionaler Fluss erforderlich.
Eine Vielzahl von Methoden wurde verwendet, um die Geschwindigkeit der DNA durch die Nanoporen zu verlangsamen, darunter die Anbringung von Polystyrolkügelchen, Salzkonzentrationen, Viskosität, Magnetfelder und die Einführung von Bereichen doppelsträngiger DNA auf einem einzelsträngigen Ziel. Bei den hohen Translokationsgeschwindigkeiten, die typischerweise auftreten (potenziell Millionen von Basen pro Sekunde), kann die Erkennung eines Signals gegenüber dem Hintergrundrauschen jedes einzelnen Nukleotids eine Herausforderung darstellen, die in einigen Fällen durch das Auslesen von Nukleotidgruppen (z. B. durch Hybridisierung bekannter Sequenzen, wie sie von NabSys entwickelt wird) oder durch eine komplexere Kodierung der ursprünglichen Sequenz durch Umwandlung der Nukleotidsequenz mit Hilfe eines binären Codes molekularer Baken (wie sie von NobleGen entwickelt wird) überwunden wurde. Die Aufrechterhaltung eines unidirektionalen DNA-Flusses wurde durch die Kopplung einer Exonuklease an den Prozess und das Ablesen der gespaltenen Nukleotide verbessert (wie von Oxford Nanopore entwickelt).
Obwohl die Nanopore-Sequenzierungstechnologien weiter voranschreiten, reicht es nicht aus, einfach nur die Fähigkeit zur DNA-Sequenzierung nachzuweisen, was bei Nanopores mit natürlicher DNA noch nicht gelungen ist. Es muss ein Weg zu niedrigeren Kosten, längeren Lesezeiten oder höherer Genauigkeit im Vergleich zu anderen Technologien gefunden werden, der Nanoporen einen einzigartigen Vorteil gegenüber anderen Methoden verschafft. Selbst wenn die Kosten für die Reagenzien erheblich gesenkt werden können, bleiben die Kosten für die Probenvorbereitung und die Informatikkosten bestehen, die sich zu den dominierenden Kosten der Sequenzierung entwickeln können und je nach verwendeter Technologie variieren werden. Die ständig wachsenden Hürden, die durch die bestehenden Technologien geschaffen werden, werden nicht leicht zu überwinden sein. Angesichts der Vielzahl von Technologien der zweiten Generation und Einzelmolekültechnologien, die bereits auf dem Markt sind, und weiterer, die sich am Horizont abzeichnen, wird es an vielen Fronten erhebliche Fortschritte geben müssen, um diese Technologien kommerziell rentabel zu machen.