The properties and applications of single-molecule DNA sequencing

Wanneer de eigenschappen van single-molecule sequencing technologieën worden bekeken, ligt de nadruk meestal op leeslengte, foutenpercentage, en doorvoer (figuur 3); De eisen die worden gesteld aan de hoeveelheid en kwaliteit van de inputmonsters, de eenvoud en parallelliseerbaarheid van de monstervoorbereiding en de gegevensanalyse zijn echter ook belangrijke componenten waarmee rekening moet worden gehouden wanneer wordt overwogen of een technologie, al dan niet op basis van één molecuul, geschikt is voor een bepaald probleem. Enkele van de toepassingen die vaak met de huidige sequencing-technologieën worden uitgevoerd en het relatieve belang van diverse eigenschappen van verschillende sequencing-methoden worden in tabel 1 weergegeven. Belangrijke eigenschappen van single-molecuul-technologieën die betrekking hebben op deze verschillende toepassingen worden hieronder besproken.

Figuur 3
figuur 3

De eigenschappen van single-molecule sequencing-technologie. De huidige leesaantallen en leeslengtes voor single-molecule-sequencingtechnologieën worden weergegeven door de stippen. Elke technologie streeft naar verbeteringen in haar belangrijkste kenmerken, waarbij het onderzoek zich richt op de richtingen die door de pijl worden aangegeven.

Tabel 1 Welke sequencing-technologie moet worden gebruikt en wanneer?a

Sequencing door synthese

Het eerste commercieel verkrijgbare sequencingsysteem voor enkelvoudige moleculen werd ontwikkeld door onze collega’s van Helicos BioSciences . In dit systeem worden individuele moleculen gehybridiseerd op een stroomceloppervlak dat covalent aangehechte oligonucleotiden bevat. Fluorescent gelabelde nucleotiden en een DNA-polymerase worden achtereenvolgens toegevoegd en de incorporatiegebeurtenissen worden gedetecteerd door excitatie met laser en opgenomen met een CCD-camera (charge coupled device). Het fluorescerende ‘Virtual Terminator’-nucleotide verhindert de opname van een volgende nucleotide totdat het nucleotide-kleurstofgedeelte is gesplitst. De beelden van elke cyclus worden samengevoegd om een totale reeks sequentielezen te genereren. Bij een standaardrun worden 120 cycli van nucleotidetoevoeging en -detectie uitgevoerd. Met deze aanpak kunnen meer dan een miljard moleculen tegelijk worden gevolgd. Omdat er twee 25-kanaals flowcellen zijn in een standaard run, kunnen 50 verschillende monsters tegelijk worden gesequeneerd, met de extra mogelijkheid van een aanzienlijk grotere doorvoer van monsters door multiplexing. De monstervereisten zijn de eenvoudigste van alle technologieën: hoeveelheden van sub-nanogrammen zijn nodig en DNA van zeer slechte kwaliteit, met inbegrip van gedegradeerd of gemodificeerd DNA, kan worden gesequeneerd. De gemiddelde leeslengte is betrekkelijk kort (ongeveer 35 nt) met foutenpercentages in ruwe individuele nucleotiden van momenteel ongeveer 3 tot 5%, die willekeurig in de gehele sequentielezing voorkomen en voornamelijk in de vorm van een “dark base”- of verwijderingsfout, waarmee rekening wordt gehouden in het aligneringsalgoritme . Dit foutenpercentage is geen probleem bij het opsporen van polymorfismen, omdat 30× dekking meestal wordt gebruikt voor diploïde genomen met systemen van de tweede generatie om de ongelijke dekking door amplificatie te overwinnen. Over-bemonstering is nodig om de stochastische aard van heterozygote detectie te overwinnen, met 30 × dekking aan te raden om ervoor te zorgen dat bijna alle heterozygoten correct worden genoemd. Bij dit dekkingsniveau worden nauwkeurige consensussequenties gegenereerd, ongeacht de foutenpercentages binnen dit bereik. Systemen met één molecuul hebben een veel gelijkmatigere dekking en vereisen dus niet zo veel diepte voor een volledige detectie van heterozygoten. De gelijkmatige dekking ten opzichte van de tweede generatie systemen werd aangetoond met ChIP-experimenten, waarin sequentielezen relatief constant waren ten opzichte van GC-gehalte met single-molecule sequencing, terwijl significante afwijkingen werden waargenomen bij zowel hoge als lage GC-gehalte met amplificatie-gebaseerde sequencing en met het hele genoom sequencing van een menselijk monster.

Het Helicos Sequencer systeem kan ook RNA-moleculen direct sequencen, waardoor de vele artefacten geassocieerd met reverse transcriptase worden vermeden en een ongeëvenaarde kwantitatieve nauwkeurigheid voor RNA expressie metingen wordt verkregen. Dankzij het zeer hoge aantal afgelezen gegevens per monster kunnen nauwkeurige expressiemetingen worden verricht met zowel RNA als cDNA, een eigenschap die nog niet mogelijk is met andere technologieën voor enkel-moleculen. Inderdaad, hele klassen van RNA-moleculen die niet kunnen worden gevisualiseerd met behulp van andere technologieën kunnen worden gedetecteerd met behulp van een single-molecule aanpak. Zoals bij veel single-molecule systemen kunnen herhaalde lezingen van hetzelfde molecuul het foutenpercentage aanzienlijk verbeteren en ook de detectie van zeer zeldzame varianten in een gemengd monster mogelijk maken. Bijvoorbeeld, een zeldzame variant in een monster met een mengsel van weinig tumorcellen tussen veel normale cellen misschien niet detecteerbaar met geamplificeerde DNA. Met herhaalde sequencing van hetzelfde molecuul kan de foutenmarge zo laag worden gehouden dat mutaties in heterogene monsters zoals tumoren gemakkelijk kunnen worden opgespoord. Door de minimale monstervoorbereiding, de mogelijkheid om uitzonderlijk kleine basishoeveelheden te gebruiken en het hoge aantal gelezen sequenties is deze technologie ideaal voor kwantitatieve toepassingen zoals ChIP, RNA-expressie, en kopiegetalvariatie, en situaties waarin de monstervolumes beperkt of afgebroken zijn. Standaard, gehele menselijk genoom resequencing is gemakkelijk te bereiken, maar het is momenteel minder duur op de tweede generatie systemen.

Pacific Biosciences heeft een andere sequencing-by-synthesis aanpak met behulp van fluorescent gelabelde nucleotiden ontwikkeld. In dit systeem wordt het DNA beperkt tot een zeer klein volume in een nulmodus-golfgeleider en wordt de aanwezigheid van een fluorescent gelabeld cognaat-nucleotide nabij de DNA-polymerase gemeten. De afmetingen van de golfgeleider zijn zo klein dat licht alleen kan doordringen in het gebied zeer dicht bij de rand, waar de voor sequencing gebruikte polymerase wordt begrensd. Alleen nucleotiden in dat kleine volume in de buurt van de polymerase kunnen worden belicht en fluoresceren voor detectie. Omdat het nucleotide dat in de zich uitbreidende DNA-streng wordt opgenomen, langere tijd in de buurt van het polymerase verblijft, kan het grotendeels worden onderscheiden van niet-herkende nucleotiden. Alle vier potentiële nucleotiden worden in de reactie opgenomen, elk gelabeld met een andere kleur fluorescerende kleurstof, zodat zij van elkaar kunnen worden onderscheiden. Elke nucleotide heeft een karakteristieke incorporatietijd die verder kan helpen bij het verbeteren van base calls. Sequence reads van wel duizenden basen, langer dan mogelijk is met systemen van de tweede generatie, worden in real time verkregen voor elk afzonderlijk molecuul. De huidige verwerkingscapaciteit bedraagt echter minder dan 100.000 lezingen per run, zodat de totale sequentieopbrengst veel lager is dan bij systemen van de tweede generatie en het Helicos-systeem. Bovendien is de ruwe foutmarge, momenteel 15 tot 20% , aanzienlijk hoger dan met enige andere huidige sequencing technologie, waardoor uitdagingen in het gebruik van de gegevens voor sommige toepassingen, zoals variant detectie.

Veel langere leest, aangeduid als ‘strobe leest’ , kan worden gegenereerd door het uitschakelen van de laser voor periodes van tijd tijdens sequencing, die voortijdige beëindiging veroorzaakt door laser-geïnduceerde fotodeschade aan de polymerase en nucleotiden voorkomt. Als lange lezingen niet nodig zijn, kan het hoge ruwe foutenpercentage worden ondervangen door een haarspeld-oligonucleotide aan elk uiteinde van het DNA te ligeren, waardoor een cirkelvormig sjabloon wordt gecreëerd (SMRTbell genoemd voor single molecule real time), en vervolgens herhaaldelijk dezelfde molecule te sequencen. Deze procedure werkt wanneer de moleculen betrekkelijk kort zijn, maar kan niet worden gebruikt met lange lezingen, die dus een hoog ruw foutenpercentage behouden. Zelfs met een hoge foutmarge kunnen de zeer lange lezingen productief worden gebruikt voor het samenvoegen van sequentiecontigs. Een extra voordeel voor dit systeem is de mogelijkheid om gemodificeerde basen te detecteren. Het is mogelijk 5-methylcytosine op te sporen, hoewel de rol van sequentiecontext en andere factoren bij de beïnvloeding van de nauwkeurigheid van dergelijke toewijzingen nog moet worden opgehelderd. In principe zou directe RNA-sequencing ook mogelijk moeten zijn met dit systeem, maar dit is nog niet gerapporteerd voor natuurlijke RNA-moleculen omdat nucleotiden zich herhaaldelijk binden aan het omgekeerde transcriptase voordat nucleotide-integratie plaatsvindt, waardoor valse signalen met meerdere invoegingen worden gegeven die de bepaling van een zinvolle sequentie verhinderen. Bovendien zal de lage lezen tellen van dit systeem te beperken tot de identificatie van gemeenschappelijke mRNA isovormen in plaats van kwantitatieve expressie profilering of volledige transcriptoom dekking, die beide vereisen een veel hogere lezen tellen dan mogelijk in de nabije toekomst. In het algemeen maken de lange lezingen en de korte doorlooptijd dit systeem het nuttigst voor het helpen assembleren van genomen, het beoordelen van de analyse van structurele variatie, haplotypering, metagenomics, en identificatie van splicing isovormen.

Life Technologies, een belangrijke leverancier van zowel eerste als tweede generatie sequencing systemen, ontwikkelt de op fluorescentie resonantie energie overdracht (FRET)-gebaseerde single-molecule sequencing-by-synthesis technologie die oorspronkelijk door Visigen is geïntroduceerd. Er is aanzienlijke vooruitgang geboekt en de commerciële introductie van het “Starlight”-systeem wordt in de nabije toekomst verwacht. De huidige technologie bestaat uit een quantum-dot-gelabelde polymerase die DNA synthetiseert met gebruikmaking van vier afzonderlijke gelabelde nucleotiden in een real-time systeem. Quantum dots, fluorescerende halfgeleidende nanodeeltjes, hebben als voordeel boven fluorescerende kleurstoffen dat zij veel helderder zijn en minder gevoelig voor verbleking, maar zij zijn ook veel groter en gevoeliger voor verbleking. Het te sequencen genomisch monster wordt geligeerd aan een aan het oppervlak gehecht oligonucleotide met een bepaalde sequentie en vervolgens afgelezen door extensie van een primer die complementair is aan het aan het oppervlak gehechte oligonucleotide. Wanneer een fluorescent gelabeld nucleotide aan het polymerase bindt, treedt er interactie op met de quantumdot, waardoor de fluorescentie van zowel het nucleotide als de quantumdot verandert. Het kwantumdotsignaal daalt, terwijl het signaal van het met kleurstof gemerkte fosfaat op elk nucleotide bij een karakteristieke golflengte toeneemt. De real-time sequentie wordt vastgelegd voor elke uitbreidende primer. Omdat elke sequentie aan het oppervlak is gebonden, kan deze voor een grotere nauwkeurigheid worden gereprimed en opnieuw worden gesequenced. Het is niet duidelijk wat de sequentiespecificaties zullen zijn, maar de gelijkenis met de technologie van Pacific Biosciences maakt dat dit een waarschijnlijk referentiepunt is. Als dat zo is, zal het dezelfde sterke punten hebben wat betreft toepassingen (genoomassemblage, structurele variatie, haplotypering, metagenomics), terwijl het mogelijk een uitdaging zal vormen voor kwantitatieve toepassingen die een hoog aantal lezingen vereisen (zoals ChIP of RNA-expressie).

Optical sequencing and mapping

Er zijn andere technologieën waarmee zeer lange lezingen kunnen worden geproduceerd, maar ten koste van een aanzienlijk lagere verwerkingscapaciteit. Het is bijvoorbeeld mogelijk zeer lange DNA-moleculen, tot honderden kilobasen lang, op oppervlakken te kleven en ze te ondervragen op bepaalde sequenties door ze te knippen met verschillende restrictie-enzymen of door ze te labelen na behandeling met sequentiespecifieke inkepingsenzymen. De lengte van de onderzochte moleculen is afhankelijk van de mogelijkheid om dergelijk lang DNA te hanteren zonder het mechanisch af te schuiven. Volledige restrictiedigests die het ordenen van sequentiecontigs mogelijk maken, zijn gegenereerd voor menselijke en andere genomen uit collecties van enkele moleculen die volledige genomen omvatten. Zeer repetitieve en gedupliceerde genomen, zoals maïs, zijn bijzonder moeilijk te assembleren met traditionele sequencing, maar zijn met succes geanalyseerd met dit single-molecule systeem. De restrictieplaatsen bieden sequentiemarkeringen op het DNA en zo kunnen lange herhaalde regio’s en andere ingewikkelde structurele variaties op een ondubbelzinnige manier worden toegewezen. Gespecialiseerde toepassingen zoals genoom-brede methylering in kaart brengen kan ook worden ondernomen.

Op vergelijkbare wijze kunnen DNA-moleculen worden beperkt tot nanobuisjes en specifiek gelabeld voor het bekijken . Enkelvoudige moleculen van RNA zijn gevisualiseerd met behulp van scanning tip Raman spectroscopie . In een alternatieve methode ook met behulp van adsorptie van lange DNA-moleculen aan een oppervlak, guanines kunnen worden onderscheiden van alle andere basen en de partiële sequentie gelezen met een scanning elektronenmicroscoop . Mogelijkheden voor het aflezen van andere basen door het inbrengen van zware atomen zoals broom of jodium op bepaalde nucleotiden zijn voorgesteld door ZS Genetics . Hoewel de lage doorvoer van strengen en het onvolledig aflezen van sequenties momenteel een beperking vormen, zijn er mogelijkheden voor het aflezen van honderden kilobasen, wederom hoofdzakelijk beperkt door de mogelijkheid om het DNA te hanteren zonder het af te schuiven. Andere technologieën die gebruik maken van het direct lezen van uitgerekt DNA zijn elders besproken. Deze optische sequencing-technologieën bieden een krachtige kijk op de genoomstructuur, maar ze kunnen niet de gedetailleerde sequentiegegevens of toegang tot veel andere sequencing-toepassingen bieden die een hoog aantal lezingen vereisen, zoals genexpressiemetingen.

Nanopores

Alle tot nu toe beschreven sequencing-technieken vereisen een soort label op het DNA of nucleotidesubstraten om de individuele base te detecteren voor sequencing. Nanopore-benaderingen vereisen echter over het algemeen geen exogeen label, maar vertrouwen in plaats daarvan op de elektronische of chemische structuur van de verschillende nucleotiden voor onderscheid. De voordelen en mogelijke middelen van het gebruik van nanoporiën zijn besproken. Tot de tot dusver meest interessante nanoporiën behoren die welke zijn geassembleerd met vastestofsystemen die zijn opgebouwd uit materialen zoals koolstofnanobuisjes of dunne films en het biologisch gebaseerde α-hemolysine of MspA . Deze bacteriële poreiwitten zijn uitvoerig bestudeerd en gemanipuleerd om de detectie van specifieke basen en de translocatiesnelheid van DNA door de porie te optimaliseren. Hoewel het sequencen van natief DNA op basis van zijn natuurlijke eigenschappen de stap van het labelen zou elimineren en mogelijk zeer lange lezingen met minimale monstervoorbereiding mogelijk zou maken, waardoor de kosten zouden dalen, zijn de verschillen tussen de nucleotiden zeer bescheiden en wordt hun detectie bemoeilijkt door moeilijkheden bij het controleren van het tempo en de richting van het DNA door de nanoporie. Specifieke detectie en unidirectionele stroom zijn vereist voor hoge nauwkeurigheid sequencing.

Er zijn verschillende methoden gebruikt om het tempo van DNA te vertragen door nanoporiën, met inbegrip van bevestiging van polystyreen kralen , zout concentraties , viscositeit , magnetische velden , en de invoering van regio’s van dubbelstrengs DNA op een enkelstrengs doel . Bij de hoge translocatiesnelheden die gewoonlijk worden aangetroffen (mogelijk miljoenen basen per seconde), kan het detecteren van een signaal boven de achtergrondruis van elke nucleotide een uitdaging zijn, en dit is in sommige gevallen ondervangen door groepen nucleotiden te lezen (zoals door gebruik te maken van hybridisatie van bekende sequenties zoals wordt ontwikkeld door NabSys ) of door de oorspronkelijke sequentie op een complexere wijze te coderen door de nucleotidensequentie om te zetten met gebruikmaking van een binaire code van moleculaire bakens (zoals wordt ontwikkeld door NobleGen ). Het handhaven van een eenrichtingsstroom van DNA is verbeterd door een exonuclease aan het proces te koppelen en de gesplitste nucleotiden te lezen (zoals ontwikkeld door Oxford Nanopore ).

Hoewel nanopore-sequencingtechnologieën zich blijven ontwikkelen, is het niet voldoende om alleen maar te laten zien dat je DNA kunt sequencen, iets wat nog niet is aangetoond door nanopores met natuurlijk DNA. Er moet een weg zijn naar lagere kosten, langere lezingen, of hogere nauwkeurigheid ten opzichte van andere technologieën die nanopores een uniek voordeel geven ten opzichte van andere methoden. Zelfs als de kosten van reagentia aanzienlijk kunnen worden verlaagd, blijven de kosten van monstervoorbereiding en informaticakosten over en deze kunnen de dominante kosten van sequencing worden en zullen variëren naar gelang van de gebruikte technologie. De steeds hoger wordende hinderpalen die door de bestaande technologie worden opgeworpen, zullen niet gemakkelijk te overwinnen zijn. Gezien de verscheidenheid aan tweede-generatie- en enkel-molecuultechnologieën die reeds op de markt zijn gebracht en andere die in het verschiet liggen, zal er op vele fronten aanzienlijke vooruitgang moeten worden geboekt om deze technologieën commercieel levensvatbaar te maken.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.