The properties and applications of single-molecule DNA sequencing

Při posuzování vlastností technologií jednomolekulového sekvenování se pozornost nejčastěji zaměřuje na délku čtení, chybovost a propustnost (obr. 3); nicméně požadavky na množství a kvalitu vstupních vzorků, jednoduchost a paralelizovatelnost přípravy vzorků a analýza dat jsou také důležitými složkami, které je třeba vzít v úvahu při zvažování, zda je technologie, jednomolekulová nebo jiná, vhodná pro daný problém. Některé aplikace, které se často provádějí pomocí současných sekvenačních technologií, a relativní význam různých vlastností různých sekvenačních metod jsou uvedeny v tabulce 1. Důležité vlastnosti jednomolekulových technologií, které se týkají těchto různých aplikací, jsou diskutovány níže.

Obrázek 3
obrázek3

Atributy jednomolekulové sekvenační technologie. Aktuální počty čtení a délky čtení pro technologie jednomolekulového sekvenování jsou znázorněny tečkami. Každá technologie usiluje o zlepšení svých klíčových atributů, přičemž výzkum je zaměřen směrem znázorněným šipkou.

Tabulka 1 Kterou technologii sekvenování použít a kdy? a

Sekvenování syntézou

První komerčně dostupný systém sekvenování jedné molekuly byl vyvinut našimi kolegy ze společnosti Helicos BioSciences . V tomto systému jsou jednotlivé molekuly hybridizovány na povrch průtokové buňky obsahující kovalentně připojené oligonukleotidy. Fluorescenčně značené nukleotidy a DNA polymeráza se přidávají postupně a inkorporace se detekuje laserovou excitací a záznamem pomocí kamery CCD (charge coupled device). Fluorescenční nukleotid „virtuální terminátor“ zabraňuje inkorporaci jakéhokoli následujícího nukleotidu, dokud není odštěpena část nukleotidového barviva. Snímky z každého cyklu se sestaví a vytvoří se celkový soubor sekvenčních čtení. Při standardním běhu se provede 120 cyklů přidání nukleotidu a detekce. Tímto přístupem lze současně sledovat více než miliardu molekul. Vzhledem k tomu, že ve standardním běhu jsou dvě 25kanálové průtokové buňky, lze současně sekvenovat 50 různých vzorků, s další možností výrazně vyšší propustnosti vzorků díky multiplexování. Požadavky na vzorek jsou ze všech technologií nejjednodušší: stačí subnanogramové množství a lze sekvenovat DNA velmi špatné kvality, včetně degradované nebo modifikované DNA . Průměrná délka čtení je relativně krátká (přibližně 35 nt) s mírou chyb surových jednotlivých nukleotidů, která se v současné době pohybuje kolem 3 až 5 % a vyskytuje se náhodně v celém čtení sekvence a převážně ve formě chyby „tmavé báze“ nebo delece, která je zohledněna v algoritmu zarovnávání . Tato chybovost nepředstavuje problém při zjišťování polymorfismů, protože u diploidních genomů se obvykle používá 30× pokrytí systémy druhé generace, aby se překonalo nerovnoměrné pokrytí způsobené amplifikací. K překonání stochastické povahy detekce heterozygotů je zapotřebí nadměrné vzorkování, přičemž 30× pokrytí je vhodné k zajištění správného označení téměř všech heterozygotů. Při této úrovni pokrytí jsou generovány přesné konsenzuální sekvence bez ohledu na chybovost v tomto rozsahu. Jednomolekulární systémy mají mnohem rovnoměrnější pokrytí, a proto nevyžadují takovou hloubku pro úplnou detekci heterozygotů. Rovnoměrné pokrytí ve srovnání se systémy druhé generace bylo prokázáno u experimentů ChIP, u nichž byla čtení sekvencí relativně konstantní s ohledem na obsah GC u jednomolekulového sekvenování, zatímco u sekvenování založeného na amplifikaci a u sekvenování celého genomu lidského vzorku byly pozorovány významné odchylky při vysokém i nízkém obsahu GC .

Systém Helicos Sequencer může také přímo sekvenovat molekuly RNA, čímž se vyhne mnoha artefaktům spojeným s reverzní transkriptázou a poskytuje bezkonkurenční kvantitativní přesnost měření exprese RNA . Velmi vysoký počet čtení na vzorek umožňuje provádět přesná měření exprese buď s RNA, nebo cDNA , což je vlastnost, která u jiných jednomolekulových technologií zatím není možná. Jednomolekulárním přístupem lze skutečně detekovat celé třídy molekul RNA, které nelze vizualizovat pomocí jiných technologií . Stejně jako u mnoha jiných jednomolekulových systémů může opakované čtení stejné molekuly výrazně zlepšit chybovost a také umožnit detekci velmi vzácných variant ve smíšeném vzorku. Například vzácná varianta ve vzorku obsahujícím směs několika málo nádorových buněk mezi mnoha normálními buňkami nemusí být pomocí amplifikované DNA detekovatelná. Při opakovaném sekvenování téže molekuly lze snížit chybovost natolik, že lze snadno detekovat mutace v heterogenních vzorcích, jako jsou nádory. Vzhledem k minimálním nárokům na přípravu vzorku, možnosti používat výjimečně malá výchozí množství a vysokému počtu čtení je tato technologie ideální pro kvantitativní aplikace, jako je ChIP, exprese RNA a změny počtu kopií, a pro situace, kdy je množství vzorku omezené nebo znehodnocené . Standardní resekvenování celého lidského genomu je snadno proveditelné , ale v současné době je levnější na systémech druhé generace.

Společnost Pacific Biosciences vyvinula další přístup sekvenování pomocí syntézy s využitím fluorescenčně značených nukleotidů. V tomto systému je DNA omezena na velmi malý objem ve vlnovodu s nulovým režimem a měří se přítomnost fluorescenčně značeného kognitivního nukleotidu v blízkosti DNA polymerázy. Rozměry vlnovodu jsou tak malé, že světlo může proniknout pouze do oblasti velmi blízko okraje, kde je omezena polymeráza používaná pro sekvenování. Pouze nukleotidy v tomto malém objemu v blízkosti polymerázy mohou být osvětleny a fluoreskovat pro detekci. Protože nukleotid, který se začleňuje do prodlužujícího se vlákna DNA, stráví delší dobu v blízkosti polymerázy, lze jej do značné míry odlišit od nepoznávaných nukleotidů. Do reakce jsou zahrnuty všechny čtyři potenciální nukleotidy, každý označený jinou barvou fluorescenčního barviva, takže je lze od sebe odlišit. Každý nukleotid má charakteristickou dobu inkorporace, která může dále pomoci při zlepšování volání bází. Sekvenční čtení až tisíců bází, delší než je možné u systémů druhé generace, se získávají v reálném čase pro každou jednotlivou molekulu . Současná propustnost je však menší než 100 000 čtení na běh, takže celková výtěžnost sekvencí je mnohem nižší než u systémů druhé generace a systému Helicos. Kromě toho je míra hrubých chyb, v současné době 15 až 20 % , výrazně vyšší než u jakékoli jiné současné technologie sekvenování, což vytváří problémy při využívání dat pro některé aplikace, jako je detekce variant.

Mnohem delší čtení, označovaná jako „strobe reads“ , lze generovat vypnutím laseru na určitou dobu během sekvenování, což zabraňuje předčasnému ukončení způsobenému fotopoškozením polymerázy a nukleotidů vyvolaným laserem. Pokud nejsou dlouhá čtení nutná, lze vysokou míru hrubých chyb překonat ligováním vlásenkového oligonukleotidu na každý konec DNA, čímž se vytvoří kruhový templát (nazývaný SMRTbell pro single molecule real time) a poté se opakovaně sekvenuje stejná molekula . Tento postup funguje, pokud jsou molekuly relativně krátké, ale nelze jej použít u dlouhých čtení, takže ta si zachovávají vysokou míru hrubé chybovosti. I při vysoké chybovosti lze velmi dlouhá čtení produktivně využít pro spojování sekvenčních kontigů. Další výhodou tohoto systému je možnost potenciální detekce modifikovaných bází. Je možné detekovat 5-methylcytosin , i když úloha sekvenčního kontextu a dalších faktorů ovlivňujících přesnost takového přiřazení musí být ještě objasněna. V zásadě by s tímto systémem mělo být možné i přímé sekvenování RNA, ale to zatím nebylo u přirozených molekul RNA zaznamenáno, protože nukleotidy se před inkorporací nukleotidů opakovaně vážou na reverzní transkriptázu, čímž vznikají falešné signály s vícenásobnými inzercemi, které brání určení smysluplné sekvence. Kromě toho nízký počet čtení tohoto systému jej bude omezovat spíše na identifikaci běžných izoforem mRNA než na kvantitativní profilování exprese nebo úplné pokrytí transkriptomu, což obojí vyžaduje mnohem vyšší počet čtení, než je v dohledné době možné. Obecně lze říci, že díky dlouhým čtením a krátké době obratu je tento systém nejužitečnější pro pomoc při sestavování genomů, posuzování analýzy strukturní variability, haplotypizaci, metagenomiku a identifikaci izoforem sestřihu.

Life Technologies, hlavní dodavatel systémů sekvenování první i druhé generace, vyvíjí technologii sekvenování po syntéze na bázi fluorescenční rezonance energie (FRET), kterou původně představila společnost Visigen . Bylo dosaženo značného pokroku a v blízké budoucnosti se očekává komerční uvolnění systému „Starlight“. Současná technologie se skládá z polymerázy značené kvantovými tečkami, která syntetizuje DNA pomocí čtyř odlišně značených nukleotidů v systému reálného času . Kvantové tečky, což jsou fluorescenční polovodičové nanočástice, mají oproti fluorescenčním barvivům výhodu v tom, že jsou mnohem jasnější a méně náchylné k blednutí, ačkoli jsou také mnohem větší a náchylnější k blikání. Genomový vzorek, který má být sekvenován, se liguje na povrchově připojený oligonukleotid definované sekvence a poté se čte prodloužením primeru komplementárního k povrchovému oligonukleotidu. Když se fluorescenčně značený nukleotid naváže na polymerázu, interaguje s kvantovou tečkou, což způsobí změnu fluorescence nukleotidu i kvantové tečky. Signál kvantové tečky klesá, zatímco signál z barvivem značeného fosfátu na každém nukleotidu stoupá při charakteristické vlnové délce. Sekvence v reálném čase je zachycena pro každý prodlužující se primer. Protože je každá sekvence navázána na povrch, lze ji pro zvýšení přesnosti znovu navázat a sekvenovat. Není jasné, jaké budou specifikace sekvence, ale její podobnost s technologií Pacific Biosciences z ní činí pravděpodobný referenční bod. Pokud tomu tak bude, bude mít stejné silné stránky, pokud jde o aplikace (sestavování genomu, strukturní variace, haplotypizace, metagenomika), zatímco potenciálně bude mít problémy s kvantitativními aplikacemi vyžadujícími vysoký počet čtení (jako je ChIP nebo exprese RNA).

Optické sekvenování a mapování

Existují další technologie, které umožňují vytvářet velmi dlouhá čtení, ale za cenu výrazně nižší propustnosti. Například je možné přilepit velmi dlouhé molekuly DNA, dlouhé až stovky kilobází, na povrchy a dotazovat se jich na konkrétní sekvence řezáním různými restrikčními enzymy nebo jejich značením po ošetření sekvenčně specifickými nicking enzymy. Délka zkoumaných molekul závisí na schopnosti manipulovat s takto dlouhou DNA, aniž by došlo k jejímu mechanickému střihu. Kompletní restrikční digesce, které umožňují uspořádání sekvenčních kontigů, byly vytvořeny pro lidské a jiné genomy ze souborů jednotlivých molekul pokrývajících celé genomy . Vysoce repetitivní a duplikované genomy, jako je kukuřice, je obzvláště obtížné sestavit pomocí tradičního sekvenování, ale byly úspěšně analyzovány pomocí tohoto jednomolekulového systému . Restrikční místa poskytují sekvenční orientační body na DNA, a tak lze jednoznačně přiřadit dlouhé opakující se oblasti a další složité strukturní odchylky. Lze také provádět specializované aplikace, jako je mapování metylace celého genomu .

Podobně lze molekuly DNA omezit na nanotrubičky a specificky označit pro zobrazení . Jednotlivé molekuly RNA byly vizualizovány pomocí Ramanovy spektroskopie se skenovacím hrotem . Při alternativní metodě rovněž využívající adsorpci dlouhých molekul DNA na povrch bylo možné odlišit guaniny od všech ostatních bází a přečíst dílčí sekvenci pomocí skenovacího elektronového mikroskopu . Možnosti čtení dalších bází pomocí vložení těžkých atomů, jako je brom nebo jód, na konkrétní nukleotidy navrhla ZS Genetics . Ačkoli nízká propustnost vlákna a neúplné čtení sekvence jsou v současné době limitující, existuje potenciál pro čtení dlouhé stovky kilobází, což je opět omezeno především schopností manipulovat s DNA bez jejího střihu. Další technologie využívající přímé čtení natažené DNA byly přezkoumány jinde . Tyto technologie optického sekvenování poskytují výkonný pohled na strukturu genomu, ale nemohou poskytnout podrobné sekvenční údaje nebo přístup k mnoha dalším aplikacím sekvenování, které vyžadují vysoký počet čtení, jako je například měření genové exprese.

Nanopóry

Všechny dosud popsané techniky sekvenování vyžadují nějaký druh značky na DNA nebo nukleotidových substrátech, aby bylo možné detekovat jednotlivé báze pro sekvenování. Nanoporové přístupy však obecně nevyžadují exogenní značku, ale místo toho se při rozlišování spoléhají na elektronickou nebo chemickou strukturu různých nukleotidů. Byly přezkoumány výhody a možné způsoby použití nanopórů . Mezi nanopóry, o které je zatím největší zájem, patří nanopóry sestavené pomocí pevnolátkových systémů zkonstruovaných z materiálů, jako jsou uhlíkové nanotrubičky nebo tenké vrstvy, a biologicky založený α-hemolyzin nebo MspA . Tyto bakteriální pórové proteiny byly podrobně studovány a konstruovány s cílem optimalizovat detekci specifických bází a rychlost translokace DNA pórem. Ačkoli sekvenování nativní DNA na základě jejích přirozených vlastností by eliminovalo krok značení a potenciálně umožnilo velmi dlouhá čtení s minimální přípravou vzorku, čímž by se snížily náklady, rozdíly mezi nukleotidy jsou velmi skromné a jejich detekce je ztížena obtížemi při řízení rychlosti a směru průchodu DNA nanoporem. Pro vysoce přesné sekvenování je nutná specifická detekce a jednosměrný tok.

K zpomalení rychlosti průchodu DNA nanopóry byla použita řada metod, včetně připojení polystyrénových kuliček , koncentrace soli , viskozity , magnetického pole a zavedení oblastí dvouvláknové DNA na jednovláknový terčík. Při vysokých rychlostech translokace, které se obvykle vyskytují (potenciálně miliony bází za sekundu), může být detekce signálu přes šum pozadí z každého nukleotidu náročná, což bylo v některých případech překonáno čtením skupin nukleotidů (například pomocí hybridizace známých sekvencí, jak vyvíjí společnost NabSys ) nebo kódováním původní sekvence složitějším způsobem převodem sekvence nukleotidů pomocí binárního kódu molekulárních majáků (jak vyvíjí společnost NobleGen ). Udržování jednosměrného toku DNA bylo vylepšeno zapojením exonukleázy do procesu a čtením odštěpených nukleotidů (jak vyvíjí společnost Oxford Nanopore ).

Přestože technologie sekvenování pomocí nanopórů stále postupují, pouhé prokázání schopnosti sekvenovat DNA, což nanopóry s přírodní DNA dosud neprokázaly, nestačí. Musí existovat cesta k nižším nákladům, delšímu čtení nebo vyšší přesnosti ve srovnání s jinými technologiemi, která nanoporům poskytne jedinečnou výhodu ve srovnání s jinými metodami. I když se podaří výrazně snížit náklady na činidla, zůstávají náklady na přípravu vzorků a informatiku, které se mohou stát dominantními náklady na sekvenování a budou se lišit v závislosti na použité technologii. Neustále rostoucí překážky, které vytváří stávající technologie, nebude snadné překonat. Vzhledem k různorodosti již komercializovaných technologií druhé generace a technologií pro jednu molekulu a dalších na obzoru bude třeba dosáhnout značného pokroku na mnoha frontách, aby se tyto technologie staly komerčně životaschopnými.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.