IGSR : The International Genome Sample Resource

Le projet 1000 Génomes s’est déroulé entre 2008 et 2015, créant le plus grand catalogue public de données sur les variations et les génotypes humains. Le projet ayant pris fin, le centre de coordination des données de l’EMBL-EBI a reçu un financement continu du Wellcome Trust pour maintenir et développer la ressource. L’International Genome Sample Resource (IGSR) a été créé à cet effet avec les objectifs suivants :

  1. Assurer l’accès futur et l’utilisabilité des données de référence de 1000 Génomes
  2. Intégrer des données génomiques supplémentaires publiées sur les échantillons de 1000 Génomes
  3. Élargir la collection de données pour inclure de nouvelles populations non représentées. dans le projet 1000 Génomes

Le projet 1000 Génomes

Vue d’ensemble du projet 1000 Génomes

Le but du projet 1000 Génomes était de trouver la plupart des variants génétiques avec des fréquences d’au moins 1% dans les populations étudiées.

Le projet 1000 génomes a profité des développements de la technologie de séquençage, qui ont fortement réduit le coût du séquençage. C’était le premier projet visant à séquencer les génomes d’un grand nombre de personnes, afin de fournir une ressource complète sur la variation génétique humaine. Les données du projet 1000 génomes ont été rapidement mises à la disposition de la communauté scientifique mondiale par le biais de bases de données publiques librement accessibles.

Le séquençage est resté trop coûteux pour séquencer en profondeur les nombreux échantillons étudiés dans le cadre du projet. Cependant, toute région particulière du génome contient généralement un nombre limité d’haplotypes. Les données ont été combinées entre les échantillons pour permettre une détection efficace de la plupart des variants dans une région. Le projet prévoyait de séquencer chaque échantillon jusqu’à une couverture de 4 fois le génome ; à cette profondeur, le séquençage ne peut pas découvrir tous les variants dans chaque échantillon, mais peut permettre la détection de la plupart des variants avec des fréquences aussi basses que 1%. Dans la phase finale du projet, les données de 2 504 échantillons ont été combinées pour permettre une affectation très précise des génotypes de chaque échantillon à tous les sites de variants découverts par le projet. L’approche multi-échantillons combinée à l’imputation du génotype a permis au projet de déterminer le génotype d’un échantillon, même dans les variantes non couvertes par les lectures de séquençage dans cet échantillon.

La contribution du projet 1000 génomes à la génomique a été résumée dans Nature dans le numéro contenant les publications finales du projet principal.

Conception du projet 1000 génomes

Le projet a été planifié lors d’une réunion au Campus génomique de Welcome en septembre 2007. Vous pouvez lire le plan original dans le rapport de la réunion. Une fois lancé, le projet a été mené en quatre étapes : une phase pilote et trois phases du projet principal. Dans le projet principal, les phases un et trois ont produit des données, la phase deux se concentrant sur le développement technique.

Projet pilote

Trois études pilotes ont fourni des données pour informer la conception du projet à grande échelle :

Pilote But Couverture Stratégie Statut
1 – faible couverture Évaluer la stratégie de partage des données entre les échantillons 2-.4X Séquençage du génome entier de 180 échantillons Séquençage terminé en octobre 2008
2 – trios Évaluer la couverture et les plateformes et centres 20-60X Séquençage du génome entier de 2 mères-femmes.génome de 2 trios mère-père-enfant adulte Séquençage terminé en octobre 2008
3 – régions génétiques Évaluer les méthodes de capture de régions génétiques-.capture 50X 1000 régions génétiques dans 900 échantillons Séquençage achevé en juin 2009

Les données des projets pilotes ont été analysées pour déterminer si la stratégie de couverture 4x était adéquate pour atteindre les objectifs du projet.

Projet principal

Le séquençage a été effectué dans les phases un et trois du projet principal, avec des libérations de données et des analyses correspondant à chacune. Le gel final des données, associé à la troisième et dernière phase, a eu lieu le 2 mai 2013. Cet ensemble de données (défini dans le fichier 20130502.sequence.index) représentait l’ensemble de données finalisé sur lequel l’analyse de la phase trois était basée et remplaçait les publications de données précédentes. Au cours du projet, les méthodes d’analyse ont été perfectionnées et l’analyse de phase trois remplace les versions antérieures.

L’ensemble de données final contient les données de 2 504 individus issus de 26 populations. Des données de séquence à faible couverture et d’exome sont présentes pour tous ces individus, 24 individus ont également été séquencés à haute couverture à des fins de validation.

Des analyses ont été menées, portant à la fois sur les variations courtes (jusqu’à 50 paires de bases) et également sur les variations structurelles. Ces analyses ont été publiées à la fin du projet en 2015. Une liste de nos principales publications peut être consultée ci-dessous.

Publications

  • Analyse pilote
    • Une carte des variations du génome humain à partir du séquençage à l’échelle de la population Nature 467, 1061-1073 (28 octobre 2010)
  • Analyse de phase 1
    • Une carte intégrée des variations génétiques à partir de 1,092 génomes humains Nature 491, 56-65 (01 novembre 2012)
  • Analyse de la phase 3
    • Une référence globale pour la variation génétique humaine Nature 526, 68-74 (01 octobre 2015)
    • Une carte intégrée de la variation structurelle dans 2 504 génomes humains Nature 526, 75-81 (01 octobre 2015)

Échantillons et données du projet 1000 génomes

Le projet 1000 génomes a élaboré des lignes directrices sur les considérations éthiques pour les enquêteurs effectuant des échantillonnages, décrites dans le document de base sur le consentement éclairé et le modèle de formulaire de consentement éclairé. Toutes les collections incluses dans le projet ont suivi ces directives éthiques et le modèle de formulaire de consentement éclairé. Le comité directeur du projet 1000 génomes, avec la contribution du groupe des échantillons et des ELSI du projet, a pris les décisions finales concernant les populations et les ensembles d’échantillons à inclure dans le projet.

Les données du projet 1000 génomes sont disponibles sans embargo, après les publications finales du projet. L’utilisation des données doit être citée de la manière habituelle, les détails actuels étant disponibles dans la FAQ, où l’on peut trouver des détails supplémentaires sur l’utilisation des données du projet 1000 génomes. Des informations supplémentaires sur l’utilisation des données fournies par l’IGSR sont disponibles et devraient également être consultées.

Les données disponibles du projet 1000 génomes peuvent être explorées sur notre page de données, aux côtés d’autres données de l’IGSR. Les lignées cellulaires et l’ADN sont disponibles pour tous les échantillons du projet 1000 Génomes et peuvent être obtenus auprès de l’Institut Coriell. Une liste complète des populations disponibles se trouve sur notre page Lignes cellulaires et ADN

Les échantillons pour le projet 1000 Génomes sont anonymes et n’ont pas de données médicales ou phénotypiques associées. Le projet retient l’ethnicité et le sexe autodéclarés. Tous les participants se sont déclarés en bonne santé au moment où les échantillons ont été collectés.

IGSR

Comme indiqué, l’IGSR a été mis en place pour assurer la facilité d’utilisation et l’accessibilité futures des données du projet 1000 Génomes et pour étendre l’ensemble des données afin d’inclure de nouvelles données sur les échantillons 1000 Génomes et de nouvelles populations où l’échantillonnage a été effectué conformément aux principes d’échantillonnage de l’IGSR.

1. Assurer l’utilisabilité future des données de référence de 1000 Génomes

En 2014, le Consortium de référence du génome a publié une mise à jour de l’assemblage humain, GRCh38. Cette mise à jour de l’assemblage de référence humain montre une amélioration significative de la quantité de loci alternatifs représentés. Elle contient désormais 178 régions génomiques avec des loci alternatifs associés (2% de la séquence chromosomique (61,9 Mb)). Ces régions sont constituées de 261 loci alternatifs (contenant 3,6 Mb de nouvelle séquence par rapport aux chromosomes). Le GRC a également pu résoudre plus de 1000 problèmes de la version précédente de l’assemblage.

Prendre avantage des loci alternatifs lors de l’identification de la variation et de l’appel des génotypes est une étape importante pour améliorer notre capacité à découvrir la variation humaine. Actuellement, très peu d’outils peuvent utiliser les données des loci alternatifs. L’IGSR a remappé les données de la phase 3 de 1000 Génomes à GRCh38 d’une manière qui tient compte des loci alternatifs en utilisant BWA mem. Cela fournit à la communauté de développement de méthodes une source d’alignements qui peut faire avancer les nouvelles méthodes, tout en fournissant à la communauté plus large des alignements à jour, garantissant que chacun puisse bénéficier des données dans le contexte du nouvel assemblage. L’IGSR prévoit de rappeler les variantes sur ces nouveaux alignements.

En outre, d’autres ensembles de données de séquences génomiques sont en cours d’alignement sur GRCh38, les données Platinum Genomes d’Illumina étant la première nouvelle collection de données à être alignée.

2. Incorporer les données génomiques publiées sur les échantillons 1000 Genomes

Les échantillons 1000 Genomes se sont avérés une ressource populaire pour les expériences de phénotypage moléculaire et l’étude des associations entre la variation génétique et l’expression ou les mesures de l’état épigénétique. De grands ensembles de données ont été générés sur ces échantillons par des projets tels que GEUVADIS, qui a généré des données RNA-Seq sur les échantillons européens des 1000 Génomes et la population YRI, et ENCODE, qui a réalisé des analyses approfondies sur la lignée cellulaire NA12878. De nombreux autres groupes ont également réalisé des analyses sur les échantillons de 1000 Génomes. L’IGSR souhaite présenter toutes ces informations de manière unifiée afin que la communauté puisse bénéficier de toutes les données qui existent sur ces échantillons.

3. Étendre la collecte de données pour inclure de nouvelles populations

L’IGSR reconnaît que les échantillons actuels du projet 1000 Génomes ne reflètent pas toutes les populations. Un objectif important pour l’IGSR est d’élargir les populations représentées dans la collection et de s’assurer que les données publiques disponibles représentent la plus grande diversité de population possible. Cela garantira que l’ensemble de données du projet 1000 génomes reste une ressource ouverte précieuse pour la communauté au cours des cinq prochaines années. L’IGSR travaillera avec les groupes qui n’ont pas été en mesure de fournir des échantillons au projet 1000 Genomes avant la fin de la collecte des échantillons et étudiera les collaborations avec d’autres groupes pour s’assurer que les lacunes en matière de diversité de la population sont comblées. Vous pouvez trouver plus de détails à ce sujet sur notre page de principes de collecte d’échantillons.

Veuillez envoyer vos questions sur tout ce qui précède à [email protected].

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.