Proprietățile și aplicațiile secvențierii ADN cu o singură moleculă

Când se analizează proprietățile tehnologiilor de secvențiere cu o singură moleculă, accentul se pune cel mai frecvent pe lungimea de citire, rata de eroare și randamentul (Figura 3); cu toate acestea, cantitatea de probe de intrare și cerințele de calitate, simplitatea și paralelizabilitatea pregătirii probelor și analiza datelor sunt, de asemenea, componente importante care trebuie luate în considerare atunci când se analizează dacă o tehnologie, cu o singură moleculă sau de alt tip, este adecvată pentru o anumită problemă. În tabelul 1 sunt prezentate unele dintre aplicațiile frecvent realizate cu tehnologiile actuale de secvențiere și importanța relativă a diverselor proprietăți ale diferitelor metode de secvențiere. Proprietățile importante ale tehnologiilor cu o singură moleculă care se referă la aceste diverse aplicații sunt discutate mai jos.

Figura 3
figura3

Atributele tehnologiei de secvențiere cu o singură moleculă. Numărul actual de citiri și lungimile de citire pentru tehnologiile de secvențiere cu o singură moleculă sunt indicate prin puncte. Fiecare tehnologie se străduiește să își îmbunătățească atributele cheie, cercetarea fiind orientată în direcțiile indicate de săgeată.

Tabelul 1 Ce tehnologie de secvențiere se utilizează și când?a

Secvențiere prin sinteză

Primul sistem de secvențiere cu o singură moleculă disponibil în comerț a fost dezvoltat de colegii noștri de la Helicos BioSciences . În acest sistem, moleculele individuale sunt hibridizate pe o suprafață a celulei de curgere care conține oligonucleotide atașate covalent. Nucleotidele marcate fluorescent și o ADN polimerază sunt adăugate secvențial, iar evenimentele de încorporare sunt detectate prin excitare cu laser și înregistrare cu o cameră CCD (charge coupled device). Nucleotidul fluorescent „Virtual Terminator” previne încorporarea oricărui nucleotid ulterior până când fracțiunea de colorant nucleotidic este scindată . Imaginile din fiecare ciclu sunt asamblate pentru a genera un set global de secvențe citite. La o serie standard, se efectuează 120 de cicluri de adăugare și detectare a nucleotidelor. Mult peste un miliard de molecule pot fi urmărite simultan prin această abordare. Deoarece există două celule de curgere cu 25 de canale într-o cursă standard, 50 de probe diferite pot fi secvențiate simultan, cu posibilitatea suplimentară de a obține un debit semnificativ mai mare de probe prin multiplexare. Cerințele privind probele sunt cele mai simple dintre toate tehnologiile: sunt necesare cantități de sub un nanogram și ADN de foarte proastă calitate, inclusiv ADN degradat sau modificat, poate fi secvențiat . Lungimile medii de citire sunt relativ scurte (aproximativ 35 nt), cu rate de eroare de nucleotide individuale brute, în prezent de aproximativ 3 până la 5%, care apar în mod aleatoriu pe parcursul citirilor de secvență și predominant sub forma unei erori de „bază întunecată” sau de ștergere, care este luată în considerare în algoritmul de aliniere . Această rată de eroare nu reprezintă o problemă atunci când se detectează polimorfismele, deoarece se utilizează de obicei o acoperire de 30× pentru genomurile diploide cu sisteme de a doua generație pentru a depăși acoperirea neuniformă indusă de amplificare. Supraeșantionarea este necesară pentru a depăși natura stocastică a detectării heterozigoților, o acoperire de 30× fiind recomandabilă pentru a se asigura că aproape toți heterozigoții sunt numiți corect. La acest nivel de acoperire, se generează secvențe consensuale exacte, indiferent de ratele de eroare din acest interval. Sistemele cu o singură moleculă au o acoperire mult mai uniformă și, prin urmare, nu necesită atât de multă profunzime pentru detectarea completă a heterozigoților. Acoperirea uniformă în raport cu sistemele de a doua generație a fost demonstrată cu experimente ChIP, în care citirile de secvență au fost relativ constante în ceea ce privește conținutul de GC cu secvențierea cu o singură moleculă, în timp ce au fost observate abateri semnificative atât la un conținut ridicat cât și la un conținut scăzut de GC cu secvențierea bazată pe amplificare și cu secvențierea întregului genom al unei probe umane .

Sistemul Helicos Sequencer poate, de asemenea, să secvențieze direct moleculele de ARN, evitând astfel numeroasele artefacte asociate cu transcriptaza inversă și oferind o precizie cantitativă de neegalat pentru măsurătorile expresiei ARN . Numărul foarte mare de citiri per eșantion permite efectuarea unor măsurători precise ale expresiei fie cu ARN, fie cu ADNc , o caracteristică care nu este încă posibilă cu alte tehnologii cu o singură moleculă. Într-adevăr, clase întregi de molecule de ARN care nu pot fi vizualizate cu ajutorul altor tehnologii pot fi detectate cu ajutorul unei abordări cu o singură moleculă . La fel ca în cazul multor sisteme cu o singură moleculă, citirile repetate ale aceleiași molecule pot îmbunătăți în mod semnificativ rata de eroare și permit, de asemenea, detectarea variantelor foarte rare într-un eșantion mixt. De exemplu, o variantă rară într-un eșantion care conține un amestec de câteva celule tumorale printre multe celule normale ar putea să nu poată fi detectată cu ADN amplificat. Cu secvențierea repetată a aceleiași molecule, rata de eroare poate fi condusă la un nivel suficient de scăzut pentru ca mutațiile din eșantioane eterogene, cum ar fi tumorile, să poată fi detectate cu ușurință. Datorită necesităților minime de pregătire a probelor, a capacității de a utiliza cantități de pornire excepțional de mici și a numărului mare de citiri, această tehnologie este ideală pentru aplicații cantitative, cum ar fi ChIP, expresia ARN și variația numărului de copii, precum și pentru situații în care cantitatea de probe este limitată sau degradată . Secvențierea standard, a întregului genom uman este ușor de realizat , dar în prezent este mai puțin costisitoare pe sistemele de a doua generație.

Pacific Biosciences a dezvoltat o altă abordare de secvențiere prin sinteză care utilizează nucleotide marcate fluorescent. În acest sistem, ADN-ul este constrâns într-un volum foarte mic într-un ghid de undă în mod zero și se măsoară prezența unei nucleotide cognate marcate fluorescent în apropierea ADN polimerazei. Dimensiunile ghidului de undă sunt atât de mici încât lumina poate pătrunde doar în regiunea foarte apropiată de margine, unde este constrânsă polimeraza utilizată pentru secvențiere. Numai nucleotidele din acel volum mic din apropierea polimerazei pot fi iluminate și pot deveni fluorescente pentru detectare. Deoarece nucleotidul care este încorporat în șirul de ADN care se extinde petrece un timp mai îndelungat în apropierea polimerazei, acesta poate, în mare măsură, să fie distins de nucleotidele necunoscute. Toate cele patru nucleotide potențiale sunt incluse în reacție, fiecare fiind marcat cu un colorant fluorescent de culoare diferită, astfel încât să poată fi distins unul de celălalt. Fiecare nucleotid are un timp de încorporare caracteristic care poate ajuta și mai mult la îmbunătățirea identificării bazelor. Se obțin citiri de secvență de până la mii de baze, mai lungi decât este posibil cu sistemele de a doua generație, în timp real pentru fiecare moleculă individuală . Cu toate acestea, debitul actual este mai mic de 100 000 de citiri pe cursă, astfel încât randamentul general al secvenței este mult mai mic decât cel al sistemelor de a doua generație și al sistemului Helicos. În plus, rata de eroare brută, în prezent de 15 până la 20% , este semnificativ mai mare decât în cazul oricărei alte tehnologii actuale de secvențiere, ceea ce creează provocări în utilizarea datelor pentru anumite aplicații, cum ar fi detectarea variantelor.

Lecturi mult mai lungi, denumite „strobe reads” , pot fi generate prin oprirea laserului pentru perioade de timp în timpul secvențierii, ceea ce previne terminarea prematură cauzată de fotodeteriorarea indusă de laser a polimerazei și a nucleotidelor. În cazul în care nu sunt necesare lecturi lungi, rata mare de eroare brută poate fi depășită prin ligarea unei oligonucleotide în formă de ac de păr la fiecare capăt al ADN-ului, creând un șablon circular (numit SMRTbell pentru single molecule real time) și apoi secvențiind în mod repetat aceeași moleculă . Această procedură funcționează atunci când moleculele sunt relativ scurte, dar nu poate fi utilizată cu lecturi lungi, astfel încât acestea păstrează rata ridicată de eroare brută. Chiar și cu o rată de eroare ridicată, citirile foarte lungi pot fi utilizate în mod productiv pentru a uni contigurile de secvențe. Un beneficiu suplimentar pentru acest sistem este capacitatea de a detecta potențial bazele modificate. Este posibil să se detecteze 5-metilcitozina , deși rolul contextului secvenței și al altor factori în afectarea acurateței acestor atribuiri rămâne de clarificat. În principiu, secvențierea directă a ARN-ului ar trebui să fie, de asemenea, posibilă cu acest sistem, dar acest lucru nu a fost încă raportat pentru moleculele naturale de ARN, deoarece nucleotidele se leagă în mod repetat de transcriptaza inversă înainte de încorporarea nucleotidelor, dând astfel semnale false cu inserții multiple care împiedică determinarea unei secvențe semnificative. În plus, numărul scăzut de citiri al acestui sistem îl va limita la identificarea izoformelor comune de ARNm, mai degrabă decât la profilarea cantitativă a expresiei sau la acoperirea completă a transcriptomului, ambele necesitând un număr de citiri mult mai mare decât este posibil în viitorul apropiat. În general, citirile lungi și timpul scurt de execuție fac ca acest sistem să fie cel mai util pentru a ajuta la asamblarea genomurilor, evaluarea analizei variației structurale, haplotiparea, metagenomica și identificarea izoformelor de splicing.

Life Technologies, un furnizor important de sisteme de secvențiere de prima și a doua generație, dezvoltă tehnologia de secvențiere prin sinteză cu o singură moleculă bazată pe transferul de energie prin rezonanță de fluorescență (FRET), introdusă inițial de Visigen . S-au făcut progrese substanțiale, iar lansarea comercială a sistemului „Starlight” este așteptată în viitorul apropiat. Tehnologia actuală constă într-o polimerază marcată cu puncte cuantice care sintetizează ADN-ul folosind patru nucleotide marcate în mod distinct într-un sistem în timp real . Punctele cuantice, care sunt nanoparticule semiconductoare fluorescente, au un avantaj față de coloranții fluorescenți prin faptul că sunt mult mai luminoase și mai puțin susceptibile la albire, deși sunt, de asemenea, mult mai mari și mai susceptibile de a clipi. Proba genomică ce urmează a fi secvențiată este ligaturată la un oligonucleotid atașat la suprafață cu o secvență definită și apoi citită prin extinderea unui primer complementar oligonucleotidului de suprafață. Atunci când un nucleotid marcat fluorescent se leagă de polimerază, acesta interacționează cu punctul cuantic, provocând o modificare a fluorescenței atât a nucleotidului, cât și a punctului cuantic. Semnalul punctului cuantic scade, în timp ce un semnal de la fosfatul marcat cu colorant de pe fiecare nucleotid crește la o lungime de undă caracteristică. Secvența în timp real este captată pentru fiecare amorsă de extensie. Deoarece fiecare secvență este legată de suprafață, aceasta poate fi re-amorsată și secvențiată din nou pentru o precizie îmbunătățită. Nu este clar care vor fi specificațiile secvenței, dar asemănarea sa cu tehnologia Pacific Biosciences face ca aceasta să fie un punct de referință probabil. Dacă este așa, va avea aceleași puncte forte în ceea ce privește aplicațiile (asamblarea genomului, variația structurală, haplotiparea, metagenomica), în timp ce, potențial, va fi pusă în dificultate cu aplicațiile cantitative care necesită un număr mare de citiri (cum ar fi ChIP sau expresia ARN).

Secvențiere și cartografiere optică

Există și alte tehnologii care permit producerea de citiri foarte lungi, dar cu prețul unui randament semnificativ mai mic. De exemplu, este posibilă aderarea unor molecule de ADN foarte lungi, de până la sute de kilobaze, la suprafețe și interogarea lor pentru anumite secvențe prin tăierea lor cu diferite enzime de restricție sau etichetarea lor după tratarea cu enzime de nicking specifice secvențelor. Lungimile moleculelor examinate depind de capacitatea de a manipula un ADN atât de lung fără a-l forfeca mecanic. Au fost generate digeste de restricție complete care permit ordonarea contigurilor de secvențe pentru genomul uman și pentru alte genomuri din colecții de molecule unice care acoperă genomuri întregi . Genomurile foarte repetitive și duplicate, cum ar fi cel al porumbului, sunt deosebit de dificil de asamblat cu secvențierea tradițională, dar au fost analizate cu succes cu acest sistem monomodular . Locurile de restricție oferă repere de secvență pe ADN și, astfel, regiunile lungi de repetiție și alte variații structurale complicate pot fi atribuite într-un mod lipsit de ambiguitate. Se pot întreprinde, de asemenea, aplicații specializate, cum ar fi cartografierea metilației la nivelul întregului genom .

În mod similar, moleculele de ADN pot fi constrânse pe nanotuburi și marcate în mod specific pentru vizualizare . Moleculele unice de ARN au fost vizualizate cu ajutorul spectroscopiei Raman cu vârf de scanare . Într-o metodă alternativă care utilizează, de asemenea, adsorbția moleculelor lungi de ADN pe o suprafață, guaninele ar putea fi distinse de toate celelalte baze și secvența parțială ar putea fi citită cu un microscop electronic de scanare . Posibilitățile de citire a altor baze prin inserția de atomi grei, cum ar fi bromul sau iodul, pe anumite nucleotide au fost sugerate de ZS Genetics . Cu toate că randamentul scăzut al șirului și citirea incompletă a secvenței sunt în prezent limitative, există un potențial pentru citiri cu o lungime de sute de kilobaze, din nou limitate în primul rând de capacitatea de a manipula ADN-ul fără a-l forfeca. Alte tehnologii care utilizează citirea directă a ADN-ului întins au fost analizate în altă parte . Aceste tehnologii de secvențiere optică oferă o vizualizare puternică a structurii genomului, dar nu pot furniza date detaliate privind secvența sau accesul la multe alte aplicații de secvențiere care necesită un număr mare de citiri, cum ar fi măsurătorile expresiei genice.

Nanopori

Toate tehnicile de secvențiere descrise până acum necesită un fel de etichetă pe ADN sau pe substraturile de nucleotide pentru a detecta baza individuală pentru secvențiere. Cu toate acestea, abordările prin nanopori nu necesită, în general, o etichetă exogenă, ci se bazează în schimb pe structura electronică sau chimică a diferitelor nucleotide pentru discriminare. Avantajele și mijloacele potențiale de utilizare a nanoporilor au fost trecute în revistă . Nanoporii de cel mai mare interes până în prezent îi includ pe cei asamblați cu sisteme în stare solidă construite din materiale cum ar fi nanotuburile de carbon sau pelicule subțiri și α-hemolizina de origine biologică sau MspA . Aceste proteine de pori bacterieni au fost studiate și modificate în mod extensiv pentru a optimiza detectarea bazelor specifice și rata de translocare a ADN-ului prin por. Deși secvențierea ADN-ului nativ pe baza proprietăților sale naturale ar elimina etapa de etichetare și ar permite, potențial, citiri foarte lungi cu o pregătire minimă a probei, reducând astfel costurile, diferențele dintre nucleotide sunt foarte modeste, iar detectarea lor este îngreunată de dificultățile legate de controlul ritmului și direcționalității ADN-ului prin nanopor. Detecția specifică și curgerea unidirecțională sunt necesare pentru o secvențiere de înaltă precizie.

Au fost folosite o varietate de metode pentru a încetini ritmul ADN-ului prin nanopori, inclusiv atașarea de bile de polistiren , concentrații de sare , vâscozitate , câmpuri magnetice și introducerea unor regiuni de ADN bicatenar pe o țintă monocatenară . La vitezele mari de translocare întâlnite în mod obișnuit (potențial milioane de baze pe secundă), detectarea unui semnal peste zgomotul de fond de la fiecare nucleotidă poate fi o provocare, iar acest lucru a fost depășit în unele cazuri prin citirea unor grupuri de nucleotide (cum ar fi prin utilizarea hibridizării unor secvențe cunoscute, așa cum este dezvoltat de NabSys ) sau prin codificarea secvenței originale într-o manieră mai complexă prin conversia secvenței de nucleotide cu ajutorul unui cod binar de balize moleculare (așa cum este dezvoltat de NobleGen ). Menținerea unui flux unidirecțional de ADN a fost îmbunătățită prin cuplarea unei exonucleaze la proces și citirea nucleotidelor scindate (așa cum a fost dezvoltat de Oxford Nanopore ).

Deși tehnologiile de secvențiere prin nanopori continuă să avanseze, simpla demonstrare a capacității de a secvenția ADN, lucru care nu a fost încă demonstrat de nanopori cu ADN natural, nu este suficientă. Trebuie să existe o cale către costuri mai mici, lecturi mai lungi sau o precizie mai mare în raport cu alte tehnologii care să ofere nanoporilor un avantaj unic în raport cu alte metode. Chiar dacă costurile reactivilor pot fi reduse în mod semnificativ, rămân costurile de pregătire a probelor și costurile informatice, care pot deveni costurile dominante ale secvențierii și care vor varia în funcție de tehnologia utilizată. Obstacolele din ce în ce mai mari create de tehnologia existentă nu vor fi ușor de depășit. Având în vedere varietatea de tehnologii de a doua generație și de tehnologii cu o singură moleculă deja comercializate și altele la orizont, vor fi necesare progrese substanțiale pe mai multe fronturi pentru ca aceste tehnologii să devină viabile din punct de vedere comercial.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.