El proyecto 1000 Genomes se desarrolló entre 2008 y 2015, creando el mayor catálogo público de datos de variación y genotipos humanos. Al finalizar el proyecto, el Centro de Coordinación de Datos del EMBL-EBI ha recibido financiación continua del Wellcome Trust para mantener y ampliar el recurso. Para ello se creó el Recurso Internacional de Muestras Genómicas (IGSR) con los siguientes objetivos:
- Asegurar el acceso futuro y la usabilidad de los datos de referencia de 1000 Genomas
- Incorporar datos genómicos adicionales publicados sobre las muestras de 1000 Genomas
- Ampliar la colección de datos para incluir nuevas poblaciones no representadas en el Proyecto 1000 Genomas
- El Proyecto 1000 Genomas
- Resumen del Proyecto 1000 Genomas
- Diseño del Proyecto 1000 Genomas
- Proyecto piloto
- Proyecto principal
- Publicaciones
- Muestras y datos del Proyecto 1000 Genomas
- IGSR
- 1. Garantizar la futura usabilidad de los datos de referencia de 1000 Genomas
- 2. Incorporar los datos genómicos publicados en el GRCh38. Incorporar datos genómicos publicados sobre las muestras de 1000 Genomes
- 3. Ampliar la recopilación de datos para incluir nuevas poblaciones
El Proyecto 1000 Genomas
Resumen del Proyecto 1000 Genomas
El objetivo del Proyecto 1000 Genomas era encontrar la mayoría de las variantes genéticas con frecuencias de al menos el 1% en las poblaciones estudiadas.
El Proyecto 1000 Genomas aprovechó los avances en la tecnología de secuenciación, que redujeron drásticamente el coste de la misma. Fue el primer proyecto en el que se secuenciaron los genomas de un gran número de personas, para proporcionar un recurso completo sobre la variación genética humana. Los datos del Proyecto 1000 Genomas se pusieron rápidamente a disposición de la comunidad científica mundial a través de bases de datos públicas de libre acceso.
La secuenciación seguía siendo demasiado cara para secuenciar en profundidad las numerosas muestras estudiadas en el proyecto. Sin embargo, cualquier región concreta del genoma suele contener un número limitado de haplotipos. Los datos se combinaron entre las muestras para permitir la detección eficiente de la mayoría de las variantes en una región. El proyecto preveía secuenciar cada muestra hasta una cobertura del genoma de 4x; con esta profundidad, la secuenciación no puede descubrir todas las variantes de cada muestra, pero puede permitir la detección de la mayoría de las variantes con frecuencias tan bajas como el 1%. En la fase final del proyecto, se combinaron los datos de 2.504 muestras para permitir una asignación muy precisa de los genotipos de cada muestra en todos los sitios de variantes que el proyecto descubrió. El enfoque de múltiples muestras, combinado con la imputación de genotipos, permitió al proyecto determinar el genotipo de una muestra, incluso en las variantes no cubiertas por las lecturas de secuenciación en esa muestra.
La contribución del Proyecto 1000 Genomas a la genómica se resumió en Nature en el número que contiene las publicaciones finales del proyecto principal.
Diseño del Proyecto 1000 Genomas
El proyecto se planificó durante una reunión en The Welcome Genome Campus en septiembre de 2007. Puede leer el plan original en el informe de la reunión. Una vez en marcha, el proyecto se llevó a cabo en cuatro etapas: una fase piloto y tres fases del proyecto principal. En el proyecto principal, las fases uno y tres produjeron datos, y la fase dos se concentró en el desarrollo técnico.
Proyecto piloto
Tres estudios piloto aportaron datos para el diseño del proyecto a gran escala:
Piloto | Finalidad | Cobertura | Estrategia | Estado |
---|---|---|---|---|
1 – baja cobertura | Evaluar la estrategia de compartir datos entre muestras | 2-4X | Secuenciación del genoma completo de 180 muestras | Secuenciación finalizada en octubre de 2008 |
2 – tríos | Evaluar la cobertura y las plataformas y centros | 20-60X | Secuenciación del genoma completo degenoma de 2 tríos madre-padre-hijo adulto | Secuenciación finalizada en octubre de 2008 |
3 – regiones génicas | Evaluar métodos decaptura | 50X | 1000 regiones génicas en 900 muestras | Secuenciación finalizada en junio de 2009 |
Se analizaron los datos de los proyectos piloto para determinar si la estrategia de cobertura 4x era adecuada para cumplir los objetivos del proyecto.
Proyecto principal
La secuenciación se llevó a cabo en las fases uno y tres del proyecto principal, con liberaciones de datos y análisis correspondientes a cada una. La congelación final de datos, asociada a la tercera y última fase, tuvo lugar el 2 de mayo de 2013. Este conjunto de datos (definido en el archivo 20130502.sequence.index) representó el conjunto de datos finalizado en el que se basó el análisis de la tercera fase y sustituyó a las liberaciones de datos anteriores. Durante el transcurso del proyecto, se siguieron desarrollando los métodos de análisis y el análisis de la fase tres sustituye a las versiones anteriores.
El conjunto de datos final contiene datos de 2.504 individuos de 26 poblaciones. Los datos de las secuencias de baja cobertura y del exoma están presentes para todos estos individuos, 24 individuos también fueron secuenciados a alta cobertura con fines de validación.
Se llevaron a cabo análisis, observando tanto las variaciones cortas (de hasta 50 pares de bases de longitud) como las variaciones estructurales. Estos análisis se publicaron al concluir el proyecto en 2015. A continuación se puede ver una lista de nuestras principales publicaciones.
Publicaciones
- Análisis piloto
- Un mapa de la variación del genoma humano a partir de la secuenciación a escala poblacional Nature 467, 1061-1073 (28 de octubre de 2010)
- Análisis de la fase 1
- Un mapa integrado de la variación genética de 1,092 genomas humanos Nature 491, 56-65 (01 de noviembre de 2012)
- Análisis de la fase 3
- Una referencia global para la variación genética humana Nature 526, 68-74 (01 de octubre de 2015)
- Un mapa integrado de la variación estructural en 2.504 genomas humanos Nature 526, 75-81 (01 de octubre de 2015)
Muestras y datos del Proyecto 1000 Genomas
El Proyecto 1000 Genomas elaboró unas directrices sobre consideraciones éticas para los investigadores que realizan el muestreo, recogidas en el Documento de Antecedentes del Consentimiento Informado y en la Plantilla del Formulario de Consentimiento Informado. Todas las recolecciones incluidas en el Proyecto siguieron estas directrices éticas y el modelo de lenguaje de consentimiento informado. El Comité Directivo del Proyecto 1000 Genomas, con el aporte del Grupo de Muestras y ELSI del Proyecto, tomó las decisiones finales sobre qué poblaciones y conjuntos de muestras incluir en el Proyecto.
Los datos del Proyecto 1000 Genomas están disponibles sin embargo, después de las publicaciones finales del proyecto. El uso de los datos debe citarse de la manera habitual, con detalles actuales disponibles en las preguntas frecuentes, donde se pueden encontrar más detalles sobre el uso de los datos del Proyecto 1000 Genomas. Existe información adicional sobre el uso de los datos proporcionados por la IGSR, que también debe consultarse.
Los datos disponibles del Proyecto 1000 Genomas pueden explorarse en nuestra página de datos, junto con otros datos de la IGSR. Las líneas celulares y el ADN están disponibles para todas las muestras de 1000 Genomas y pueden obtenerse en el Instituto Coriell. Puede encontrar una lista completa de las poblaciones disponibles en nuestra página de Líneas Celulares y ADN
Las muestras para el Proyecto 1000 Genomas son anónimas y no tienen datos médicos o de fenotipo asociados. El proyecto mantiene la etnia y el género autodeclarados. Todos los participantes declararon estar sanos en el momento en que se recogieron las muestras.
IGSR
Como se ha dicho, el IGSR se creó para garantizar la futura usabilidad y accesibilidad de los datos del Proyecto 1000 Genomas y para ampliar el conjunto de datos con el fin de incluir nuevos datos sobre las muestras de 1000 Genomas y nuevas poblaciones en las que el muestreo se ha llevado a cabo de acuerdo con los principios de muestreo del IGSR.
1. Garantizar la futura usabilidad de los datos de referencia de 1000 Genomas
En 2014, el Consorcio de Referencia del Genoma publicó una actualización del ensamblaje humano, GRCh38. Esta actualización del ensamblaje de referencia humano muestra una mejora significativa en la cantidad de loci alternativos representados. Ahora contiene 178 regiones genómicas con loci alternativos asociados (2% de la secuencia cromosómica (61,9 Mb)). Se trata de 261 loci alternativos (que contienen 3,6 Mb de secuencia nueva en relación con los cromosomas). El GRC también pudo resolver más de 1000 problemas de la versión anterior del ensamblaje.
Aprovechar los loci alternativos al identificar la variación y llamar a los genotipos es un paso importante para mejorar nuestra capacidad de descubrir la variación humana. Actualmente, muy pocas herramientas pueden utilizar los datos de los loci alternativos. El IGSR ha reasignado los datos de la fase 3 de los 1000 Genomas a la GRCh38 de una manera que tiene en cuenta los loci alternativos utilizando BWA mem. Esto proporciona a la comunidad de desarrollo de métodos una fuente de alineaciones que puede impulsar nuevos métodos, así como proporcionar a la comunidad en general alineaciones actualizadas, asegurando que todos puedan beneficiarse de los datos en el contexto del nuevo ensamblaje. El IGSR planea recordar las variantes en estos nuevos alineamientos.
Además, se están alineando otros conjuntos de datos de secuencias genómicas con GRCh38, siendo los datos de Platinum Genomes de Illumina la primera colección nueva de datos que se alineará.
2. Incorporar los datos genómicos publicados en el GRCh38. Incorporar datos genómicos publicados sobre las muestras de 1000 Genomes
Las muestras de 1000 Genomes han demostrado ser un recurso popular para los experimentos de fenotipado molecular y para investigar las asociaciones entre la variación genética y la expresión o las mediciones del estado epigenético. Se han generado grandes conjuntos de datos sobre estas muestras gracias a proyectos como GEUVADIS, que generó datos de RNA-Seq sobre las muestras europeas de 1000 Genomas y la población YRI, y ENCODE, que ha llevado a cabo amplios ensayos sobre la línea celular NA12878. Muchos otros grupos también han realizado ensayos sobre las muestras de 1000 Genomas. La IGSR quisiera presentar toda esta información de manera unificada para que la comunidad pueda beneficiarse de todos los datos que existen sobre estas muestras.
3. Ampliar la recopilación de datos para incluir nuevas poblaciones
La IGSR reconoce que las muestras actuales del Proyecto 1000 Genomas no reflejan todas las poblaciones. Un objetivo importante para la IGSR es ampliar las poblaciones representadas en la colección y asegurar que los datos públicos disponibles representen la máxima diversidad poblacional posible. Esto asegurará que el conjunto de datos de 1000 Genomas siga siendo un valioso recurso abierto para la comunidad durante los próximos cinco años. El IGSR trabajará con los grupos que no pudieron contribuir con muestras al Proyecto 1000 Genomas antes de que éste finalizara la recolección de muestras e investigará colaboraciones con otros grupos para asegurar que se cubran las brechas de diversidad poblacional. Puede encontrar más detalles sobre esto en nuestra página de principios de recogida de muestras.
Por favor, envíe un correo electrónico con sus preguntas sobre cualquiera de los puntos anteriores a [email protected].