IGSR: The International Genome Sample Resource

O Projeto 1000 Genomes funcionou entre 2008 e 2015, criando o maior catálogo público de variação humana e dados genotípicos. Quando o projeto terminou, o Centro de Coordenação de Dados da EMBL-EBI recebeu financiamento contínuo do Wellcome Trust para manter e expandir o recurso. O Recurso Internacional de Amostra de Genoma (IGSR) foi criado para fazer isto com os seguintes objectivos:

  1. Asseguir o acesso futuro e a usabilidade dos dados de referência dos 1000 Genomas
  2. Incorporar dados genómicos adicionais publicados sobre as amostras dos 1000 Genomas
  3. Expandir a recolha de dados para incluir novas populações não representadas no Projeto 1000 Genomes

O Projeto 1000 Genomes

Visão geral do Projeto 1000 Genomes

>

O objetivo do Projeto 1000 Genomes era encontrar a maioria das variantes genéticas com frequências de pelo menos 1% nas populações estudadas.

O Projeto 1000 Genomes aproveitou os desenvolvimentos na tecnologia de seqüenciamento, o que reduziu drasticamente o custo do seqüenciamento. Foi o primeiro projeto a seqüenciar os genomas de um grande número de pessoas, para fornecer um recurso abrangente sobre a variação genética humana. Os dados do Projeto 1000 Genomes foram rapidamente disponibilizados à comunidade científica mundial através de bancos de dados públicos de livre acesso.

O sequenciamento permaneceu muito caro para sequenciar profundamente as muitas amostras que estavam sendo estudadas no projeto. Entretanto, qualquer região em particular do genoma geralmente contém um número limitado de haplótipos. Os dados foram combinados entre as amostras para permitir a detecção eficiente da maioria das variantes em uma região. O projeto planejou sequenciar cada amostra para 4x a cobertura do genoma; a esta profundidade, o sequenciamento não pode descobrir todas as variantes em cada amostra, mas pode permitir a detecção da maioria das variantes com frequências tão baixas quanto 1%. Na fase final do projeto, os dados de 2.504 amostras foram combinados para permitir a atribuição altamente precisa dos genótipos em cada amostra em todos os locais de variantes que o projeto descobriu. A abordagem multiamostra combinada com a imputação de genótipos permitiu ao projecto determinar o genótipo de uma amostra, mesmo em variantes não abrangidas pelo sequenciamento lê-se nessa amostra.

A contribuição do Projecto 1000 Genomas para a genómica foi resumida na Nature no número contendo as publicações finais do projecto principal.

Design do Projecto 1000 Genomas

O Projecto foi planeado durante uma reunião no The Welcome Genome Campus em Setembro de 2007. Você pode ler o plano original no relatório da reunião. Uma vez em andamento, o projeto foi conduzido em quatro fases: uma fase piloto e três fases do projeto principal. No projeto principal, as fases um e três produziram dados, sendo que a fase dois se concentrou no desenvolvimento técnico.

Projeto piloto

Três estudos-piloto forneceram dados para informar o desenho do projeto em escala real:

>

>

>

>

>

>

>

Piloto Piloto Cobertura Estratégia Status
1 – baixa cobertura Estratégia de avaliação da partilha de dados entre amostras 2-4X Sequenciamento de 180 amostras de todo o genoma Sequenciamento concluído em outubro de 2008
2 – trios Avaliar cobertura e plataformas e centros 20-60X Tudo-Sequenciação genómica de 2 trios de mãe-pai-adulto criança Sequenciação concluída em Outubro de 2008
3 – regiões genéticas Métodos de avaliação para o género-região-captura 50X 1000 regiões do gene em 900 amostras Sequenciamento concluído em junho de 2009

Dados dos projetos-piloto foram analisados para determinar se a estratégia de cobertura 4x era adequada para atingir os objetivos do projeto.

Projeto principal

Sequenciamento foi realizado nas fases um e três do projeto principal, com liberação de dados e análise correspondentes a cada uma delas. O congelamento final dos dados, associado à terceira e última fase, teve lugar no dia 2 de Maio de 2013. Este conjunto de dados (definido no ficheiro 20130502.sequence.index) representou o conjunto de dados finalizado no qual se baseou a análise da terceira fase e substituiu as anteriores versões dos dados. Durante o curso do projecto, os métodos de análise foram mais desenvolvidos e a análise da fase três substitui as versões anteriores.

O conjunto de dados final contém dados para 2.504 indivíduos de 26 populações. Dados de baixa cobertura e seqüência exome estão presentes para todos esses indivíduos, 24 indivíduos também foram sequenciados para alta cobertura para fins de validação.

Análises foram conduzidas, observando tanto as variações curtas (até 50 pares de bases de comprimento) como também as variações estruturais. Estas análises foram publicadas na conclusão do projeto em 2015. Uma lista das nossas principais publicações pode ser vista abaixo.

Publicações

  • Análise Piloto
    • Um mapa de variação do genoma humano a partir da seqüência em escala populacional Nature 467, 1061-1073 (28 de outubro de 2010)
  • Análise Fase 1
    • Um mapa integrado de variação genética a partir de 1,092 genomas humanos Natureza 491, 56-65 (01 de Novembro de 2012)
  • Análise Fase 3
    • Uma referência global para a variação genética humana Natureza 526, 68-74 (01 de outubro de 2015)
    • Um mapa integrado de variação estrutural em 2.504 genomas humanos Nature 526, 75-81 (01 de outubro de 2015)

1000 Genomes Project samples and data

O Projeto 1000 Genomes desenvolveu diretrizes sobre considerações éticas para os investigadores que fazem amostragem, delineadas no Documento de Base do Consentimento Livre e Esclarecido e no Modelo do Formulário de Consentimento Livre e Esclarecido. Todas as coleções incluídas no Projeto seguiram estas diretrizes éticas e modelo de linguagem de consentimento livre e esclarecido. O Comitê Gestor do Projeto 1000 Genomes, com a contribuição das Amostras do Projeto e do Grupo ELSI, tomou decisões finais sobre quais populações e conjuntos de amostras a serem incluídos no Projeto.

Dados do Projeto 1000 Genomes estão disponíveis sem embargo, seguindo as publicações finais do projeto. O uso dos dados deve ser citado da forma usual, com detalhes atuais disponíveis nas FAQs, onde mais detalhes sobre o uso dos dados do Projeto 1000 Genomes podem ser encontrados. Informações adicionais sobre o uso dos dados fornecidos pelo IGSR estão disponíveis e também devem ser consultadas.

Os dados disponíveis do Projeto 1000 Genomes podem ser explorados em nossa página de dados, juntamente com outros dados do IGSR. As linhas celulares e DNA estão disponíveis para todas as amostras de 1000 Genomas e podem ser obtidas no Instituto Coriell. Uma lista completa das populações disponíveis pode ser encontrada em nossa página de Linhas Celulares e DNA

As amostras para o Projeto 1000 Genomas são anônimas e não possuem dados médicos ou fenotípicos associados. O projeto tem auto-relato de etnia e gênero. Todos os participantes declararam-se saudáveis no momento em que as amostras foram coletadas.

IGSR

Como declarado, o IGSR foi criado para assegurar a usabilidade e acessibilidade futura dos dados do Projeto 1000 Genomas e para estender o conjunto de dados para incluir novos dados sobre as amostras de 1000 Genomas e novas populações onde a amostragem foi realizada de acordo com os princípios de amostragem do IGSR.

1. assegurando a usabilidade futura dos dados de referência dos 1000 Genomas

Em 2014, o Genome Reference Consortium lançou uma atualização da montagem humana, GRCh38. Esta atualização da montagem humana de referência mostra uma melhora significativa na quantidade de loci alternativos representados. Ele agora contém 178 regiões genômicas com loci alternativos associados (2% da seqüência cromossômica (61,9 Mb)). Esta é composta de 261 loci alternativos (contendo 3,6 Mb de sequência de romance relativo aos cromossomas). O GRC também foi capaz de resolver mais de 1000 problemas da versão anterior do conjunto.

Tirar vantagem dos loci alternativos ao identificar variação e chamar genótipos é um passo importante para melhorar a nossa capacidade de descobrir variação humana. Atualmente, muito poucas ferramentas podem usar os dados dos loci alternativos. O IGSR refez os dados da fase 3 1000 Genomes para GRCh38 de uma maneira alternativa aos loci usando o BWA mem. Isto fornece à comunidade de desenvolvimento de métodos uma fonte de alinhamentos que pode impulsionar novos métodos, bem como fornecer à comunidade mais ampla alinhamentos atualizados, garantindo que todos possam se beneficiar dos dados no contexto da nova montagem. O IGSR planeja chamar variantes desses novos alinhamentos.

Além disso, outros conjuntos de dados de seqüência genômica estão sendo alinhados ao GRCh38, sendo os dados de Genomas Platina do Illumina a primeira nova coleção de dados a serem alinhados.

2. Incorporar dados genômicos publicados sobre as amostras de 1000 Genomes

As amostras de 1000 Genomes provaram ser um recurso popular para experimentos de fenotipagem molecular e para investigar as associações entre variação genética e expressão ou medidas do estado epigenético. Grandes conjuntos de dados foram gerados sobre essas amostras por projetos como o GEUVADIS, que gerou dados RNA-Seq sobre as amostras européias dos 1000 Genomes e a população YRI, e ENCODE, que realizou extensos ensaios na linha de células NA12878. Muitos outros grupos também realizaram ensaios sobre as amostras dos 1000 Genomas. O IGSR gostaria de apresentar todas estas informações de forma unificada para que a comunidade possa se beneficiar de todos os dados existentes nestas amostras.

3. Expandir a coleta de dados para incluir novas populações

O IGSR reconhece que as amostras atuais do Projeto 1000 Genomas não refletem todas as populações. Um objetivo importante do IGSR é expandir as populações representadas na coleção e assegurar que os dados públicos disponíveis representem a máxima diversidade populacional possível. Isto assegurará que o conjunto de dados dos 1000 Genomas permaneça um valioso recurso aberto para a comunidade durante os próximos cinco anos. O IGSR irá trabalhar com os grupos que não puderam contribuir com amostras para o Projeto 1000 Genomes antes de terminar a coleta de amostras e investigar colaborações com outros grupos para garantir que as lacunas de diversidade populacional sejam preenchidas. Você pode encontrar mais detalhes sobre isso em nossa página de princípios de coleta de amostras.

Por favor, envie perguntas sobre qualquer um dos itens acima para [email protected].

Deixe uma resposta

O seu endereço de email não será publicado.