Las propiedades y aplicaciones de la secuenciación de ADN de una sola molécula

Cuando se consideran las propiedades de las tecnologías de secuenciación de una sola molécula, la atención se centra con mayor frecuencia en la longitud de lectura, la tasa de error y el rendimiento (Figura 3); Sin embargo, los requisitos de cantidad y calidad de las muestras de entrada, la simplicidad y la paralelizabilidad de la preparación de las muestras y el análisis de los datos también son componentes importantes que deben tenerse en cuenta a la hora de considerar si una tecnología, de una sola molécula o de otro tipo, es apropiada para un problema determinado. En la Tabla 1 se muestran algunas de las aplicaciones que se realizan con frecuencia con las tecnologías de secuenciación actuales y la importancia relativa de varias propiedades de los distintos métodos de secuenciación. Las propiedades importantes de las tecnologías de molécula única que se relacionan con estas diversas aplicaciones se discuten a continuación.

Figura 3
figura3

Los atributos de la tecnología de secuenciación de molécula única. Los puntos muestran los recuentos y las longitudes de lectura actuales de las tecnologías de secuenciación monomolecular. Cada tecnología se esfuerza por mejorar sus atributos clave con la investigación dirigida en las direcciones indicadas por la flecha.

Tabla 1 ¿Qué tecnología de secuenciación utilizar y cuándo? a

Secuenciación por síntesis

El primer sistema de secuenciación de moléculas individuales disponible en el mercado fue desarrollado por nuestros colegas de Helicos BioSciences . En este sistema, las moléculas individuales se hibridan a una superficie de celda de flujo que contiene oligonucleótidos unidos covalentemente. Se añaden secuencialmente nucleótidos marcados con fluorescencia y una polimerasa de ADN y los eventos de incorporación se detectan mediante excitación láser y grabación con una cámara de dispositivo de carga acoplada (CCD). El nucleótido fluorescente «Virtual Terminator» impide la incorporación de cualquier nucleótido posterior hasta que se escinda la fracción de colorante del nucleótido. Las imágenes de cada ciclo se ensamblan para generar un conjunto global de lecturas de la secuencia. En un ciclo estándar, se realizan 120 ciclos de adición y detección de nucleótidos. Con este método se pueden seguir simultáneamente más de mil millones de moléculas. Dado que hay dos celdas de flujo de 25 canales en una corrida estándar, se pueden secuenciar 50 muestras diferentes simultáneamente, con la posibilidad adicional de un rendimiento significativamente mayor de las muestras a través de la multiplexación. Los requisitos de las muestras son los más sencillos de todas las tecnologías: se necesitan cantidades inferiores al nanogramo y se puede secuenciar ADN de muy baja calidad, incluido el degradado o modificado. Las longitudes medias de las lecturas son relativamente cortas (unos 35 nt), con tasas de error de nucleótidos individuales en bruto que actualmente se sitúan entre el 3 y el 5%, y que se producen de forma aleatoria a lo largo de las lecturas de la secuencia y predominantemente en forma de «base oscura» o error de supresión, que se tiene en cuenta en el algoritmo de alineación. Esta tasa de error no es un problema a la hora de detectar polimorfismos porque se suele utilizar una cobertura de 30× para los genomas diploides con sistemas de segunda generación para superar la cobertura desigual inducida por la amplificación. El sobremuestreo es necesario para superar la naturaleza estocástica de la detección de heterocigotos, siendo aconsejable una cobertura de 30× para asegurar que casi todos los heterocigotos son llamados correctamente. Con este nivel de cobertura, se generan secuencias de consenso precisas independientemente de las tasas de error dentro de este rango. Los sistemas monomoleculares tienen una cobertura mucho más uniforme y, por lo tanto, no requieren tanta profundidad para la detección completa de heterocigotos. La cobertura uniforme en relación con los sistemas de segunda generación se demostró con experimentos de ChIP, en los que las lecturas de la secuencia fueron relativamente constantes con respecto al contenido de GC con la secuenciación de una sola molécula, mientras que se observaron desviaciones significativas tanto en el contenido de GC alto como en el bajo con la secuenciación basada en la amplificación y con la secuenciación del genoma completo de una muestra humana.

El sistema Helicos Sequencer también puede secuenciar moléculas de ARN directamente, evitando así los numerosos artefactos asociados con la transcriptasa inversa y proporcionando una precisión cuantitativa sin precedentes para las mediciones de la expresión del ARN . El elevadísimo número de lecturas por muestra permite realizar mediciones precisas de la expresión tanto con ARN como con ADNc, una característica que aún no es posible con otras tecnologías de molécula única. De hecho, clases enteras de moléculas de ARN que no pueden visualizarse con otras tecnologías pueden detectarse con un enfoque de molécula única. Al igual que con muchos sistemas de molécula única, las lecturas repetidas de la misma molécula pueden mejorar notablemente la tasa de error y también permitir la detección de variantes muy raras en una muestra mixta. Por ejemplo, una variante rara en una muestra que contenga una mezcla de pocas células tumorales entre muchas células normales podría no ser detectable con ADN amplificado. Con la secuenciación repetida de la misma molécula, la tasa de error puede ser lo suficientemente baja como para poder detectar fácilmente las mutaciones en muestras heterogéneas, como los tumores. Debido a las mínimas necesidades de preparación de la muestra, la capacidad de utilizar cantidades de partida excepcionalmente pequeñas y el elevado número de lecturas, esta tecnología es ideal para aplicaciones cuantitativas como ChIP, expresión de ARN y variación del número de copias, así como para situaciones en las que la cantidad de muestra es limitante o está degradada. La resecuenciación estándar de todo el genoma humano se realiza fácilmente, pero actualmente es menos costosa en los sistemas de segunda generación.

Pacific Biosciences ha desarrollado otro enfoque de secuenciación por síntesis utilizando nucleótidos marcados con fluorescencia. En este sistema, el ADN se limita a un volumen muy pequeño en una guía de ondas de modo cero y se mide la presencia de un nucleótido cognado marcado con fluorescencia cerca de la ADN polimerasa. Las dimensiones de la guía de ondas son tan pequeñas que la luz sólo puede penetrar en la región muy cercana al borde, donde la polimerasa utilizada para la secuenciación está restringida. Sólo los nucleótidos que se encuentran en ese pequeño volumen cerca de la polimerasa pueden ser iluminados y fluorescentes para su detección. Como el nucleótido que se incorpora a la cadena de ADN que se extiende pasa más tiempo cerca de la polimerasa, puede, en gran medida, distinguirse de los nucleótidos no reconocidos. Los cuatro nucleótidos potenciales se incluyen en la reacción, cada uno etiquetado con un colorante fluorescente diferente para que puedan distinguirse unos de otros. Cada nucleótido tiene un tiempo de incorporación característico que puede ayudar a mejorar las llamadas de base. Se obtienen lecturas de secuencias de hasta miles de bases, más largas de lo que permiten los sistemas de segunda generación, en tiempo real para cada molécula individual. Sin embargo, el rendimiento actual es inferior a 100.000 lecturas por carrera, por lo que el rendimiento global de la secuencia es mucho menor que el de los sistemas de segunda generación y el sistema Helicos. Además, la tasa de error en bruto, actualmente entre el 15 y el 20%, es significativamente mayor que la de cualquier otra tecnología de secuenciación actual, lo que dificulta el uso de los datos para algunas aplicaciones, como la detección de variantes.

Pueden generarse lecturas mucho más largas, denominadas «lecturas estroboscópicas», apagando el láser durante periodos de tiempo durante la secuenciación, lo que evita la terminación prematura causada por el fotodaño inducido por el láser en la polimerasa y los nucleótidos. Si no se necesitan lecturas largas, la alta tasa de error en bruto puede superarse ligando un oligonucleótido en forma de horquilla a cada extremo del ADN, creando una plantilla circular (llamada SMRTbell para molécula única en tiempo real), y luego secuenciando repetidamente la misma molécula . Este procedimiento funciona cuando las moléculas son relativamente cortas, pero no puede utilizarse con lecturas largas, por lo que éstas conservan la alta tasa de error en bruto. Incluso con una tasa de error elevada, las lecturas muy largas pueden utilizarse de forma productiva para unir contigs de secuencias. Una ventaja adicional de este sistema es la capacidad de detectar potencialmente bases modificadas. Es posible detectar la 5-metilcitosina , aunque el papel del contexto de la secuencia y de otros factores que afectan a la precisión de tales asignaciones está por aclarar. En principio, la secuenciación directa de ARN también debería ser posible con este sistema, pero aún no se ha informado de ello para moléculas de ARN natural porque los nucleótidos se unen repetidamente a la transcriptasa inversa antes de la incorporación de los nucleótidos, lo que da lugar a falsas señales con múltiples inserciones que impiden la determinación de una secuencia significativa. Además, el bajo recuento de lecturas de este sistema lo limitará a la identificación de isoformas comunes de ARNm, más que a la elaboración de perfiles de expresión cuantitativos o a la cobertura completa del transcriptoma, que requieren un recuento de lecturas mucho mayor del que será posible en un futuro previsible. En general, las lecturas largas y el corto tiempo de respuesta hacen que este sistema sea más útil para ayudar a ensamblar genomas, evaluar el análisis de la variación estructural, la haplotípica, la metagenómica y la identificación de isoformas de empalme.

Life Technologies, uno de los principales proveedores de sistemas de secuenciación de primera y segunda generación, está desarrollando la tecnología de secuenciación por síntesis de una sola molécula basada en la transferencia de energía por resonancia de fluorescencia (FRET), introducida inicialmente por Visigen . Se han realizado importantes avances y se espera el lanzamiento comercial del sistema «Starlight» en un futuro próximo. La tecnología actual consiste en una polimerasa marcada con puntos cuánticos que sintetiza el ADN utilizando cuatro nucleótidos claramente marcados en un sistema en tiempo real. Los puntos cuánticos, que son nanopartículas semiconductoras fluorescentes, tienen la ventaja sobre los colorantes fluorescentes de que son mucho más brillantes y menos susceptibles de blanquearse, aunque también son mucho más grandes y más susceptibles de parpadear. La muestra genómica que se va a secuenciar se liga a un oligonucleótido de superficie de secuencia definida y luego se lee por extensión de un cebador complementario al oligonucleótido de superficie. Cuando un nucleótido marcado con fluorescencia se une a la polimerasa, interactúa con el punto cuántico, provocando una alteración en la fluorescencia tanto del nucleótido como del punto cuántico. La señal del punto cuántico disminuye, mientras que la señal del fosfato marcado con colorante en cada nucleótido aumenta a una longitud de onda característica. La secuencia en tiempo real se captura para cada cebador que se extiende. Dado que cada secuencia está unida a la superficie, se puede volver a cebar y secuenciar de nuevo para mejorar la precisión. No está claro cuáles serán las especificaciones de la secuencia, pero su similitud con la tecnología de Pacific Biosciences la convierten en un probable punto de referencia. Si es así, tendrá los mismos puntos fuertes en términos de aplicaciones (ensamblaje del genoma, variación estructural, haplotípica, metagenómica) mientras que potencialmente se verá desafiada con aplicaciones cuantitativas que requieran un alto recuento de lecturas (como ChIP o expresión de ARN).

Secuenciación óptica y mapeo

Hay otras tecnologías que permiten producir lecturas muy largas pero a costa de un rendimiento significativamente menor. Por ejemplo, es posible adherir moléculas de ADN muy largas, de hasta cientos de kilobases, a superficies e interrogarlas en busca de secuencias particulares cortándolas con varias enzimas de restricción o etiquetándolas después de tratarlas con enzimas de mellado específicas de la secuencia. Las longitudes de las moléculas examinadas dependen de la capacidad de manejar un ADN tan largo sin cizallarlo mecánicamente. Se han generado digestiones de restricción completas que permiten ordenar los contigs de secuencias para los genomas humanos y otros a partir de colecciones de moléculas individuales que abarcan genomas enteros . Los genomas altamente repetitivos y duplicados, como el del maíz, son particularmente difíciles de ensamblar con la secuenciación tradicional, pero se han analizado con éxito con este sistema de molécula única. Los sitios de restricción proporcionan puntos de referencia de la secuencia en el ADN y, por lo tanto, las regiones de repetición largas y otras variaciones estructurales intrincadas se pueden asignar de manera inequívoca. También se pueden llevar a cabo aplicaciones especializadas, como el mapeo de la metilación en todo el genoma.

De forma similar, las moléculas de ADN pueden limitarse a los nanotubos y etiquetarse específicamente para su visualización. Se han visualizado moléculas individuales de ARN mediante espectroscopia Raman de punta de barrido . En un método alternativo que también utiliza la adsorción de largas moléculas de ADN a una superficie, las guaninas pueden distinguirse de todas las demás bases y la secuencia parcial puede leerse con un microscopio electrónico de barrido. ZS Genetics ha sugerido la posibilidad de leer otras bases mediante la inserción de átomos pesados, como el bromo o el yodo, en determinados nucleótidos. Aunque el bajo rendimiento de la hebra y la lectura incompleta de la secuencia son actualmente limitantes, hay potencial para lecturas de cientos de kilobases de longitud, de nuevo limitado principalmente por la capacidad de manejar el ADN sin cizallarlo. Otras tecnologías que utilizan la lectura directa del ADN estirado han sido revisadas en otra parte. Estas tecnologías de secuenciación óptica proporcionan una poderosa visión de la estructura del genoma, pero no pueden proporcionar los datos detallados de la secuencia o el acceso a muchas otras aplicaciones de secuenciación que requieren altos recuentos de lecturas, como las mediciones de la expresión génica.

Nanoporos

Todas las técnicas de secuenciación descritas hasta ahora requieren algún tipo de etiqueta en el ADN o sustratos de nucleótidos para detectar la base individual para la secuenciación. Sin embargo, los enfoques de nanoporos generalmente no requieren una etiqueta exógena, sino que se basan en la estructura electrónica o química de los diferentes nucleótidos para la discriminación. Se han revisado las ventajas y los medios potenciales de utilizar los nanoporos. Los nanoporos de mayor interés hasta el momento incluyen los ensamblados con sistemas de estado sólido construidos con materiales como nanotubos de carbono o películas delgadas y la α-hemolisina de base biológica o MspA . Estas proteínas de poro bacterianas han sido ampliamente estudiadas y diseñadas para optimizar la detección de bases específicas y la velocidad de translocación del ADN a través del poro. Aunque la secuenciación del ADN nativo basada en sus propiedades naturales eliminaría el paso de etiquetado y permitiría potencialmente lecturas muy largas con una preparación mínima de la muestra, reduciendo así los costes, las diferencias entre nucleótidos son muy modestas y su detección se ve agravada por las dificultades para controlar el ritmo y la direccionalidad del ADN a través del nanoporo. La detección específica y el flujo unidireccional son necesarios para una secuenciación de alta precisión.

Se han utilizado diversos métodos para ralentizar el ritmo del ADN a través de los nanoporos, incluyendo la fijación de perlas de poliestireno , las concentraciones de sal , la viscosidad , los campos magnéticos , y la introducción de regiones de ADN de doble cadena en un objetivo de cadena simple . A las altas velocidades de translocación que se encuentran típicamente (potencialmente millones de bases por segundo), la detección de una señal por encima del ruido de fondo de cada nucleótido puede ser un reto, y esto se ha superado en algunos casos mediante la lectura de grupos de nucleótidos (por ejemplo, utilizando la hibridación de secuencias conocidas como está siendo desarrollado por NabSys ) o la codificación de la secuencia original de una manera más compleja mediante la conversión de la secuencia de nucleótidos utilizando un código binario de balizas moleculares (como está siendo desarrollado por NobleGen ). El mantenimiento de un flujo unidireccional de ADN se ha mejorado acoplando una exonucleasa al proceso y leyendo los nucleótidos escindidos (como ha desarrollado Oxford Nanopore ).

Aunque las tecnologías de secuenciación por nanoporos siguen avanzando, no basta con mostrar la capacidad de secuenciar ADN, algo que todavía no han demostrado los nanoporos con ADN natural. Es necesario que haya una vía para reducir los costes, obtener lecturas más largas o lograr una mayor precisión en relación con otras tecnologías que proporcionen a los nanoporos una ventaja única en relación con otros métodos. Incluso si los costes de los reactivos pueden reducirse significativamente, los costes de preparación de las muestras y de la informática siguen siendo los costes dominantes de la secuenciación y variarán en función de la tecnología utilizada. Los obstáculos cada vez mayores creados por la tecnología existente no serán fáciles de superar. Con la variedad de tecnologías de segunda generación y de molécula única ya comercializadas y otras en el horizonte, se necesitarán avances sustanciales en muchos frentes para que estas tecnologías sean comercialmente viables.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.