Análisis de Datos de Secuencias de ADN – Iniciándose en la Bioinformática

En mi artículo anterior, he introducido los fundamentos del ADN, los nucleótidos y su disposición. Quizá se pregunte cómo podemos identificar el orden preciso de los nucleótidos de una molécula de ADN. Aquí es donde entra en acción la secuenciación del ADN.

La secuenciación es la operación de determinar el orden preciso de los nucleótidos de una determinada molécula de ADN. Se utiliza para determinar el orden de las cuatro bases adenina (A), guanina (G), citosina (C) y timina (T), en una cadena de ADN.

La secuenciación del ADN se utiliza para determinar la secuencia de genes individuales, cromosomas completos o genomas completos de un organismo. La secuenciación del ADN también se ha convertido en la forma más eficaz de secuenciar el ARN o las proteínas.

Molécula de ADN (Fuente de la imagen: https://.com)

Historia de la secuenciación

El trabajo realizado por un bioquímico británico llamado Frederick Sanger, sentó las bases para la secuenciación de proteínas. En 1955, Sanger había completado la secuencia de todos los aminoácidos de la insulina. Su trabajo proporcionó pruebas de que las proteínas consistían en entidades químicas con un patrón específico, en lugar de una mezcla de sustancias.

Frederick Sanger (Fuente de la imagen: https://en.wikipedia.org/wiki/DNA_sequencing)

Más tarde, Frederick Sanger y sus colegas desarrollaron un método denominado secuenciación de Sanger en 1977, en el que se podía secuenciar el ADN generando fragmentos. Fue el método de secuenciación más utilizado durante aproximadamente 40 años.

Secuenciación del genoma completo y ensamblaje de secuencias

Una reacción de secuenciación del ADN produce una secuencia de varios cientos de bases. Las secuencias de genes suelen tener miles de bases. El mayor gen conocido es el asociado a la distrofia muscular de Duchenne. Tiene una longitud de aproximadamente 2,4 millones de bases. Para estudiar un gen completo, los científicos utilizan una estrategia sencilla conocida como secuenciación de escopeta. La larga secuencia de ADN se ensambla a partir de una serie de secuencias más cortas superpuestas. Veamos qué ocurre en el enfoque de la secuenciación shotgun.

Secuenciación por escopeta

Secuenciación por escopeta

Se utilizan máquinas especiales, conocidas como máquinas de secuenciación, para extraer secuencias cortas de ADN al azar de un genoma particular que deseamos determinar (genoma objetivo). Las tecnologías actuales de secuenciación del ADN no pueden leer un genoma completo de una vez. Se leen pequeños trozos de entre 20 y 30000 bases, dependiendo de la tecnología utilizada. Estos trozos cortos se denominan lecturas. Se utiliza un software especial para ensamblar estas lecturas en función de su solapamiento, con el fin de generar cadenas continuas llamadas contigs. Estos contigs pueden ser el propio genoma objetivo completo, o partes del genoma (como se muestra en la figura anterior).

El proceso de alineación y fusión de fragmentos de una secuencia de ADN más larga, con el fin de reconstruir la secuencia original se conoce como Ensamblaje de Secuencias.

Para obtener la secuencia completa del genoma, es posible que necesitemos generar más y más lecturas aleatorias, hasta que los contigs coincidan con el genoma objetivo.

Problema de ensamblaje de secuencias

El problema de ensamblaje de secuencias puede describirse como sigue.

Dado un conjunto de secuencias, encuentre la cadena de longitud mínima que contenga todos los miembros del conjunto como subcadenas.

Fuente de imagen: http://www.homolog.us/Tutorials/index.php?p=1.3&s=1

Este problema se complica aún más debido a la existencia de secuencias repetitivas en el genoma, así como de sustituciones o mutaciones dentro de ellas.

El problema de ensamblaje de secuencias puede compararse con un escenario de la vida real de la siguiente manera.

Supongamos que se toman muchas copias de un libro, se pasa cada una de ellas por una trituradora con un cortador diferente, y luego se intenta recomponer el texto del libro simplemente pegando los trozos triturados. Es obvio que esta tarea es bastante difícil. Además, hay algunos problemas prácticos adicionales. El ejemplar original puede tener muchos párrafos repetidos, y algunos trozos pueden haber sido modificados durante la trituración y tener errores tipográficos. También pueden haberse añadido partes de otro libro, y algunos fragmentos pueden ser completamente irreconocibles.

Suena muy confuso y bastante imposible de llevar a cabo. Se sabe que este problema es NP completo. Los problemas NP completos son problemas cuyo estado es desconocido. Todavía no se ha descubierto ningún algoritmo de tiempo polinómico para ningún problema NP completo, ni nadie ha podido demostrar todavía que no existe ningún algoritmo de tiempo polinómico para ninguno de ellos. Sin embargo, existen algoritmos codiciosos para resolver el problema de ensamblaje de secuencias, en los que los experimentos han demostrado un rendimiento bastante bueno en la práctica.

Un método común utilizado para resolver el problema de ensamblaje de secuencias y realizar el análisis de datos de secuencias es el alineamiento de secuencias.

Alineamiento de secuencias

El alineamiento de secuencias es un método de ordenación de secuencias de ADN, ARN o proteínas para identificar regiones de similitud. La similitud que se identifica, puede ser el resultado de relaciones funcionales, estructurales o evolutivas entre las secuencias.

Si comparamos dos secuencias, se conoce como alineación de secuencias por pares. Si comparamos más de dos secuencias, se conoce como alineamiento múltiple de secuencias.

Secuenciación de próxima generación

La secuenciación de próxima generación (NGS), también conocida como secuenciación de alto rendimiento, es el término colectivo utilizado para describir muchas tecnologías modernas de secuenciación diferentes como,

  • Secuenciación Illumina (Solexa)
  • Secuenciación Roche 454
  • Secuenciación Ion torrent Proton / PGM
  • Secuenciación SOLiD

Estas recientes tecnologías permiten secuenciar el ADN y el ARN de forma mucho más rápida y económica que la anteriormente utilizada secuenciación Sanger, y han revolucionado el estudio de la genómica.

Pensamientos finales

El análisis de datos de secuencias se ha convertido en un aspecto muy importante en el campo de la genómica. La bioinformática ha facilitado mucho la tarea de análisis a los biólogos, proporcionando diferentes soluciones de software y ahorrando todo el tedioso trabajo manual.

Puede encontrar una lista de herramientas de software utilizadas para la secuenciación de ADN desde aquí. Además, puedes encontrar una lista de software de alineación de secuencias desde aquí.

Espero que tengas una idea básica sobre el análisis de datos de secuencias.

En mi próximo artículo, te guiaré a través de los detalles de la alineación de secuencias por pares y algunos algoritmos comunes que se están utilizando en el campo.

Como todavía soy muy nuevo en este campo, me gustaría escuchar tus consejos. 😇

Gracias por leer… 😃

Deja una respuesta

Tu dirección de correo electrónico no será publicada.