Le proprietà e le applicazioni del sequenziamento del DNA a singola molecola

Quando si considerano le proprietà delle tecnologie di sequenziamento a singola molecola, l’attenzione è più frequentemente sulla lunghezza di lettura, tasso di errore e throughput (Figura 3); Tuttavia, la quantità e la qualità del campione in ingresso, la semplicità e la parallelizzabilità della preparazione del campione e l’analisi dei dati sono anche componenti importanti che devono essere presi in considerazione quando si considera se una tecnologia, a singola molecola o altro, è appropriata per un dato problema. Alcune delle applicazioni frequentemente intraprese con le attuali tecnologie di sequenziamento e l’importanza relativa delle varie proprietà dei diversi metodi di sequenziamento sono riportati nella tabella 1. Le proprietà importanti delle tecnologie a singola molecola che si riferiscono a queste varie applicazioni sono discusse di seguito.

Figura 3
figura3

Gli attributi della tecnologia di sequenziamento a singola molecola. Gli attuali conteggi e lunghezze di lettura per le tecnologie di sequenziamento a singola molecola sono mostrati dai punti. Ogni tecnologia sta cercando di migliorare i propri attributi chiave con la ricerca rivolta nelle direzioni indicate dalla freccia.

Tabella 1 Quale tecnologia di sequenziamento usare e quando? a

Sequenziamento per sintesi

Il primo sistema di sequenziamento di singole molecole disponibile in commercio è stato sviluppato dai nostri colleghi di Helicos BioSciences. In questo sistema, le singole molecole sono ibridate su una superficie della cella di flusso che contiene oligonucleotidi covalentemente attaccati. Nucleotidi marcati in modo fluorescente e una DNA polimerasi vengono aggiunti in sequenza e gli eventi di incorporazione vengono rilevati mediante eccitazione laser e registrazione con una telecamera CCD (charge coupled device). Il nucleotide “Virtual Terminator” fluorescente impedisce l’incorporazione di qualsiasi nucleotide successivo fino a quando la parte colorante del nucleotide non viene scissa. Le immagini di ogni ciclo sono assemblate per generare un insieme complessivo di letture di sequenza. In una corsa standard, vengono eseguiti 120 cicli di aggiunta e rilevazione del nucleotide. Ben oltre un miliardo di molecole possono essere seguite simultaneamente con questo approccio. Poiché ci sono due celle di flusso a 25 canali in una corsa standard, 50 diversi campioni possono essere sequenziati simultaneamente, con la possibilità aggiuntiva di un throughput significativamente maggiore di campioni attraverso il multiplexing. I requisiti del campione sono i più semplici di tutte le tecnologie: sono necessarie quantità sub-nanogrammi e il DNA di qualità molto scarsa, compreso il DNA degradato o modificato, può essere sequenziato. Le lunghezze medie di lettura sono relativamente brevi (circa 35 nt) con tassi di errore nucleotidici individuali grezzi attualmente circa il 3-5%, che si verificano in modo casuale in tutta la sequenza legge e prevalentemente sotto forma di una ‘base scura’ o errore di cancellazione, che è contabilizzato nell’algoritmo di allineamento. Questo tasso di errore non è un problema quando si rilevano polimorfismi perché la copertura 30× è tipicamente utilizzata per i genomi diploidi con sistemi di seconda generazione per superare la copertura irregolare indotta dall’amplificazione. Il sovracampionamento è necessario per superare la natura stocastica del rilevamento degli eterozigoti, con una copertura di 30× consigliabile per garantire che quasi tutti gli eterozigoti siano chiamati correttamente. A questo livello di copertura, le sequenze di consenso accurate sono generate indipendentemente dai tassi di errore all’interno di questo intervallo. I sistemi a singola molecola hanno una copertura molto più uniforme e quindi non richiedono tanta profondità per il rilevamento completo degli eterozigoti. La copertura uniforme rispetto ai sistemi di seconda generazione è stata dimostrata con esperimenti ChIP, in cui le letture di sequenza erano relativamente costante rispetto al contenuto di GC con sequenziamento a singola molecola, mentre deviazioni significative sono state osservate sia ad alto che a basso contenuto di GC con il sequenziamento basato sull’amplificazione e con il sequenziamento del genoma intero di un campione umano.

Il sistema Helicos Sequencer può anche sequenziare le molecole di RNA direttamente, evitando così i molti artefatti associati alla trascrittasi inversa e fornendo una precisione quantitativa senza precedenti per le misure di espressione RNA. L’altissimo numero di letture per campione permette di effettuare misure precise di espressione sia con RNA che con cDNA, una caratteristica non ancora possibile con altre tecnologie a singola molecola. Infatti, intere classi di molecole di RNA che non possono essere visualizzate utilizzando altre tecnologie possono essere rilevate utilizzando un approccio a singola molecola. Come con molti sistemi a singola molecola, letture ripetute della stessa molecola possono migliorare notevolmente il tasso di errore e anche consentire il rilevamento di varianti molto rare in un campione misto. Per esempio, una variante rara in un campione contenente una miscela di poche cellule tumorali tra molte cellule normali potrebbe non essere rilevabile con il DNA amplificato. Con il sequenziamento ripetuto della stessa molecola, il tasso di errore può essere guidato sufficientemente basso che le mutazioni in campioni eterogenei come i tumori possono essere prontamente rilevate. A causa delle minime esigenze di preparazione del campione, la capacità di utilizzare quantità di partenza eccezionalmente piccole e l’alto numero di letture, questa tecnologia è ideale per applicazioni quantitative come ChIP, espressione RNA e variazione del numero di copie, e situazioni in cui la quantità di campione è limitante o degradata. Standard, il risequenziamento dell’intero genoma umano è facilmente realizzabile, ma è attualmente meno costoso sui sistemi di seconda generazione.

Pacific Biosciences ha sviluppato un altro approccio di sequenziamento per sintesi utilizzando nucleotidi marcati con fluorescenza. In questo sistema, il DNA è costretto in un volume molto piccolo in una guida d’onda a modalità zero e viene misurata la presenza di un nucleotide cognitivo marcato con fluorescenza vicino alla DNA polimerasi. Le dimensioni della guida d’onda sono così piccole che la luce può penetrare solo la regione molto vicina al bordo, dove è costretta la polimerasi usata per il sequenziamento. Solo i nucleotidi in quel piccolo volume vicino alla polimerasi possono essere illuminati e diventare fluorescenti per il rilevamento. Poiché il nucleotide che viene incorporato nel filamento di DNA in estensione trascorre un tempo più lungo vicino alla polimerasi, può, in larga misura, essere distinto dai nucleotidi non riconosciuti. Tutti e quattro i potenziali nucleotidi sono inclusi nella reazione, ciascuno etichettato con un colorante fluorescente di colore diverso in modo che possano essere distinti l’uno dall’altro. Ogni nucleotide ha un tempo di incorporazione caratteristico che può aiutare ulteriormente a migliorare le chiamate di base. Le letture di sequenza fino a migliaia di basi, più lunghe di quelle possibili con i sistemi di seconda generazione, sono ottenute in tempo reale per ogni singola molecola. Tuttavia, il throughput attuale è inferiore a 100.000 letture per corsa, quindi la resa complessiva della sequenza è molto inferiore rispetto ai sistemi di seconda generazione e al sistema Helicos. Inoltre, il tasso di errore grezzo, attualmente dal 15 al 20%, è significativamente più alto rispetto a qualsiasi altra tecnologia di sequenziamento attuale, creando sfide nell’utilizzo dei dati per alcune applicazioni, come il rilevamento delle varianti.

Letture molto più lunghe, denominate ‘strobo reads’, possono essere generate spegnendo il laser per periodi di tempo durante il sequenziamento, che impedisce la terminazione prematura causata dal danno fotografico indotto dal laser alla polimerasi e ai nucleotidi. Se le letture lunghe non sono necessarie, l’alto tasso di errore grezzo può essere superato legando un oligonucleotide hairpin a ciascuna estremità del DNA, creando un template circolare (chiamato SMRTbell per single molecule real time), e poi sequenziando ripetutamente la stessa molecola. Questa procedura funziona quando le molecole sono relativamente brevi, ma non può essere utilizzata con letture lunghe, quindi quelle mantengono l’alto tasso di errore grezzo. Anche con un alto tasso di errore, le letture molto lunghe possono essere utilizzate in modo produttivo per unire i contig di sequenza. Un ulteriore vantaggio di questo sistema è la capacità di rilevare potenzialmente le basi modificate. È possibile rilevare la 5-metilcitosina, anche se il ruolo del contesto di sequenza e di altri fattori nell’influenzare la precisione di tali assegnazioni rimane da chiarire. In linea di principio, il sequenziamento diretto dell’RNA dovrebbe anche essere possibile con questo sistema, ma questo non è stato ancora riportato per le molecole di RNA naturale perché i nucleotidi si legano ripetutamente alla trascrittasi inversa prima dell’incorporazione del nucleotide, dando così falsi segnali con inserzioni multiple che impediscono la determinazione di una sequenza significativa. Inoltre, il basso numero di letture di questo sistema lo limiterà all’identificazione delle comuni isoforme di mRNA piuttosto che al profilo di espressione quantitativa o alla copertura completa del trascrittoma, entrambi i quali richiedono un numero di letture molto più alto di quello possibile nel prossimo futuro. In generale, le lunghe letture e il breve tempo di risposta rendono questo sistema più utile per aiutare ad assemblare i genomi, valutare l’analisi della variazione strutturale, l’aplotipizzazione, la metagenomica e l’identificazione delle isoforme di splicing.

Life Technologies, un importante fornitore di sistemi di sequenziamento di prima e seconda generazione, sta sviluppando il trasferimento di energia a risonanza di fluorescenza (FRET) – basato sulla tecnologia di sequenziamento per sintesi a singola molecola inizialmente introdotto da Visigen. Sono stati fatti progressi sostanziali, con il rilascio commerciale del sistema ‘Starlight’ previsto nel prossimo futuro. La tecnologia attuale consiste in una polimerasi etichettata con punti quantici che sintetizza il DNA usando quattro nucleotidi distintamente etichettati in un sistema in tempo reale. I punti quantici, che sono nanoparticelle semiconduttrici fluorescenti, hanno un vantaggio rispetto ai coloranti fluorescenti in quanto sono molto più luminosi e meno suscettibili allo sbiancamento, anche se sono anche molto più grandi e più suscettibili al lampeggiamento. Il campione genomico da sequenziare viene legato a un oligonucleotide di superficie di sequenza definita e quindi letto per estensione di un primer complementare all’oligonucleotide di superficie. Quando un nucleotide marcato con fluorescenza si lega alla polimerasi, interagisce con il punto quantico, causando un’alterazione della fluorescenza sia del nucleotide che del punto quantico. Il segnale del punto quantico scende, mentre un segnale dal fosfato marcato con colorante su ogni nucleotide sale ad una lunghezza d’onda caratteristica. La sequenza in tempo reale viene catturata per ogni primer estensibile. Dato che ogni sequenza è legata alla superficie, può essere ripescata e sequenziata di nuovo per una migliore accuratezza. Non è chiaro quali saranno le specifiche della sequenza, ma la sua somiglianza con la tecnologia di Pacific Biosciences la rende un probabile punto di riferimento. Se è così, avrà gli stessi punti di forza in termini di applicazioni (assemblaggio del genoma, variazione strutturale, aplotipizzazione, metagenomica) mentre sarà potenzialmente sfidato con applicazioni quantitative che richiedono un alto numero di letture (come ChIP o espressione di RNA).

Sequenziamento ottico e mappatura

Ci sono altre tecnologie che permettono di produrre letture molto lunghe ma al costo di un throughput significativamente inferiore. Per esempio, è possibile far aderire molecole di DNA molto lunghe, fino a centinaia di kilobasi, a superfici e interrogarle per sequenze particolari tagliandole con vari enzimi di restrizione o etichettandole dopo il trattamento con enzimi di nichelatura specifici della sequenza. Le lunghezze delle molecole esaminate dipendono dalla capacità di gestire un DNA così lungo senza tagliarlo meccanicamente. Digest di restrizione completi che permettono di ordinare i contig di sequenza sono stati generati per i genomi umani e altri genomi da collezioni di singole molecole che coprono interi genomi. I genomi altamente ripetitivi e duplicati, come il mais, sono particolarmente difficili da assemblare con il sequenziamento tradizionale, ma sono stati analizzati con successo con questo sistema a singola molecola. I siti di restrizione forniscono punti di riferimento di sequenza sul DNA e quindi lunghe regioni ripetute e altre intricate variazioni strutturali possono essere assegnate in modo non ambiguo. Applicazioni specializzate come la mappatura della metilazione a livello di genoma possono anche essere intraprese.

Similmente, le molecole di DNA possono essere vincolate ai nanotubi e specificamente etichettate per la visualizzazione. Singole molecole di RNA sono state visualizzate usando la spettroscopia Raman a scansione. In un metodo alternativo che utilizza anche l’adsorbimento di lunghe molecole di DNA su una superficie, le guanine potrebbero essere distinte da tutte le altre basi e la sequenza parziale letta con un microscopio elettronico a scansione. Possibilità di leggere altre basi attraverso l’inserimento di atomi pesanti come bromo o iodio su particolari nucleotidi sono state suggerite da ZS Genetics. Anche se il basso rendimento del filamento e la lettura incompleta della sequenza sono attualmente limitanti, c’è il potenziale per letture che sono lunghe centinaia di kilobasi, di nuovo limitate principalmente dalla capacità di gestire il DNA senza cesoiarlo. Altre tecnologie che utilizzano la lettura diretta del DNA allungato sono state esaminate altrove. Queste tecnologie di sequenziamento ottico forniscono una visione potente della struttura del genoma, ma non possono fornire i dati di sequenza dettagliati o l’accesso a molte altre applicazioni di sequenziamento che richiedono alti conteggi di lettura, come le misure di espressione genica.

Nanopori

Tutte le tecniche di sequenziamento descritte finora richiedono un qualche tipo di etichetta sul DNA o substrati nucleotidici per rilevare la singola base per il sequenziamento. Tuttavia, gli approcci nanopore generalmente non richiedono un’etichetta esogena ma si basano invece sulla struttura elettronica o chimica dei diversi nucleotidi per la discriminazione. I vantaggi e i mezzi potenziali dell’uso dei nanopori sono stati rivisti. I nanopori di maggiore interesse finora includono quelli assemblati con sistemi a stato solido costruiti con materiali come nanotubi di carbonio o pellicole sottili e l’α-emolisina biologica o MspA. Queste proteine poro batteriche sono state ampiamente studiate e ingegnerizzate per ottimizzare il rilevamento di basi specifiche e il tasso di traslocazione del DNA attraverso il poro. Anche se il sequenziamento del DNA nativo basato sulle sue proprietà naturali eliminerebbe la fase di etichettatura e potenzialmente permetterebbe letture molto lunghe con una preparazione minima del campione, riducendo così i costi, le differenze tra i nucleotidi sono molto modeste e la loro rilevazione è aggravata dalle difficoltà nel controllare il ritmo e la direzionalità del DNA attraverso il nanoporo. Un rilevamento specifico e un flusso unidirezionale sono necessari per un sequenziamento di alta precisione.

Una varietà di metodi sono stati utilizzati per rallentare il ritmo del DNA attraverso i nanopori, compreso l’attaccamento di perline di polistirene, concentrazioni di sale, viscosità, campi magnetici e l’introduzione di regioni di DNA a doppio filamento su un bersaglio a singolo filamento. Alle alte velocità di traslocazione tipicamente trovate (potenzialmente milioni di basi al secondo), rilevare un segnale sopra il rumore di fondo da ogni nucleotide può essere una sfida, e questo è stato superato in alcuni casi leggendo gruppi di nucleotidi (ad esempio utilizzando l’ibridazione di sequenze note come è stato sviluppato da NabSys ) o codificando la sequenza originale in un modo più complesso convertendo la sequenza nucleotidica utilizzando un codice binario di fari molecolari (come è stato sviluppato da NobleGen ). Mantenere un flusso unidirezionale di DNA è stato migliorato accoppiando un’esonucleasi al processo e leggendo i nucleotidi scissi (come sviluppato da Oxford Nanopore ).

Anche se le tecnologie di sequenziamento nanopore continuano a progredire, mostrare semplicemente la capacità di sequenziare il DNA, cosa non ancora dimostrata dai nanopori con DNA naturale, non è sufficiente. Ci deve essere un percorso verso costi più bassi, letture più lunghe, o una maggiore accuratezza rispetto ad altre tecnologie che fornirà ai nanopori un vantaggio unico rispetto ad altri metodi. Anche se i costi dei reagenti possono essere significativamente ridotti, la preparazione del campione e i costi informatici rimangono e questi possono diventare i costi dominanti del sequenziamento e varieranno a seconda della tecnologia utilizzata. Gli ostacoli sempre crescenti creati dalla tecnologia esistente non saranno facili da superare. Con la varietà di tecnologie di seconda generazione e a singola molecola già commercializzate e altre all’orizzonte, ci sarà bisogno di progressi sostanziali su molti fronti per rendere queste tecnologie commercialmente valide.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.