updatedNote: Updated Mar. 4, 2021
Description
O NCBI RefSeq Genes composite track mostra a codificação de proteínas humanas e não proteínas-codinggenes retirados da colecção de sequências de referência do NCBI RNA (RefSeq). Todas as subtrações são fornecidas pela RefSeq, exceto a faixa RefSeq da UCSC, que a UCSC produz ao realinhar os RNAs RefSeq ao genoma. Este realinhamento pode resultar em diferenças ocasionais entre as coordenadas da anotação fornecidas pela UCSC e pela NCBI. Para análise de RNA-seq, aconselhamos a utilização de tabelas alinhadas pelo NCBI como RefSeq All ou RefSeq Curated. Consulte a secção Métodos para mais detalhes sobre como as diferentes pistas foram criadas.
Please visit the NCBI’s Feedback for Gene and Reference Sequences (RefSeq) page to make suggestions, submit additions and corrections, or ask for help concerning RefSeq records.
Para mais informações sobre as diferentes faixas de genes, veja nossa FAQ Genes.
Convenções de exibição e configuração
Esta faixa é uma faixa composta que contém diferentes conjuntos de dados. Para mostrar apenas um conjunto selecionado de subfaixas, desmarque as caixas próximas às faixas que você deseja ocultar. Nota: Nem todos os subtractos estão disponíveis em todos os conjuntos.
As subfaixas possíveis incluem: RefSeq anotações alinhadas e UCSC alinhamento das anotações RefSeq
- RefSeq All – todas as anotações curadas e previstas fornecidas por RefSeq.
- RefSeq Curated – subconjunto do RefSeq All que inclui apenas as anotações cujas entradas começam com NM, NR, NP ou YP. (NP e YP são usados apenas para genes codificadores de proteínas na mitocôndria; YP é usado apenas para humanos).
- RefSeq Predicted – subconjunto do RefSeq All that includes those annotations whose accessions begin with XM or XR.
- RefSeq Other – todas as outras anotações produzidas pelo grupo RefSeq que não se encaixam nos requisitos para inclusão no RefSeq Curated ou no RefSeq Predicted tracks.
- RefSeq Alinhamentos – alinhamentos dos RNAs RefSeq com o genoma humano fornecidos pelo grupo RefSeq, seguindo as convenções de exibição das faixas dePSL.
- RefSeq Diffs – diferenças de alinhamento entre o(s) genoma(s) de referência humano(s) e transcrições do RefSeq. (Faixa não disponível atualmente para cada conjunto.)
- RefSeq UCSC – anotações geradas a partir do realinhamento de RNAs pela UCSC com acessos NM e NR ao genoma humano. Esta faixa era anteriormente conhecida como a faixa “RefSeq Genes”.
- RefSeq Select+MANE (subconjunto) – subconjunto do RefSeq Curated, transcrições marcadas como RefSeq Select ou MANE Select. Uma única transcrição Select é escolhida como representativa de cada gene codificador de proteínas. Esta faixa inclui transcrições categorizadas como MANE, que são ainda acordadas como representativas tanto pelo NCBI RefSeq como pelo Ensembl/GENCODE, e têm uma correspondência 100% idêntica a uma transcrição na anotação do Ensembl. Ver NCBI RefSeq Select. Note que fornecemos uma faixa separada, MANE (hg38), que contém apenas as transcrições de MANE.
- RefSeq HGMD (subconjunto) – Subconjunto do RefSeq Curated, transcrições anotadas pelo Human Gene Mutation Database. Esta faixa está disponível apenas nos genomas humanos hg19 e hg38. É o subconjunto mais restrito do RefSeq, visando o diagnóstico clínico.
Cor Nível de revisão Revisado: o registo RefSeq foi revisto pelo pessoal do NCBI ou por um colaborador. O processo de revisão do NCBI inclui a avaliação dos dados sequenciais disponíveis e da literatura. Alguns registros RefSeq podem incorporar informações expandidas de sequência e anotação. Provisão: o registro RefSeq ainda não foi sujeito a revisão individual. A associação inicial sequência-a-gene foi estabelecida por colaboradores externos ou pessoal do NCBI. Predicted: o registo RefSeq ainda não foi sujeito a revisão individual, e algum aspecto do registo RefSeq está previsto. As etiquetas de item e as propriedades de exibição do códon para os recursos dentro desta faixa podem ser configuradas através dos controles da caixa de seleção no topo da página de descrição da faixa. Para ajustar as configurações para uma subpista individual, clique no ícone da chave ao lado do nome da faixa na lista de subpistas .
- Etiqueta: Por padrão, os itens são etiquetados pelo nome do gene. Clique na opção Label apropriada para exibir o nome de acesso ou identificador OMIM em vez do nome do gene, mostrar todas ou um subconjunto destas etiquetas incluindo o nome do gene, identificador OMIM e nomes de acesso, ou desligar completamente a etiqueta.
- Coloração Codon: Esta faixa tem um recurso opcional de coloração de códon que permite aos usuários validar e comparar rapidamente as previsões genéticas. Para exibir as cores do códão, selecione a opção códões genômicos no menu suspenso Color track by codons. Para mais informações sobre este recurso, vá para a página Colorir Previsões Genéticas e Anotações por Códão.
A faixa Diffs RefSeq contém cinco tipos diferentes de inconsistência entre a sequência do genoma de referência e as sequências de transcrição RefSeq. Os cinco tipos de áreas de diferenças são os seguintes:
- não concordância – bases alinhadas mas não concordantes, mais HGVS g. para mostrar a alteração genómica necessária para corresponder à transcrição e HGVS c./n. para mostrar a alteração da transcrição necessária para corresponder ao genoma.
- gap curto – gaps genômicos que são muito pequenos para serem introns (corte arbitrário de < 45 bp), mais prováveis variantes de inserção/deleção ou erros, com HGVS g. e c./n. mostrando diferenças.
- shift gap – itens shortGap cuja colocação poderia ser deslocada para a esquerda e/ou direita no genoma devido à seqüência repetitiva, com HGVS c./n. intervalo de posição de região ambígua na transcrição. Aqui, são usadas linhas finas e grossas — a linha fina mostra o intervalo da sequência competitiva, e a linha grossa mostra o intervalo mais à direita deslocado.
- duplo intervalo – intervalo genômico que é longo o suficiente para ser introns mas que pula a sequência da transcrição (invisível na configuração padrão), com HGVS c./n. deletion.
- skipped – sequência no início ou no final de uma transcrição que não está alinhada ao genoma (invisível na configuração padrão), com HGVS c./n. delete
HGVS Terminology (Human Genome Variation Society):g. = sequência genómica ; c. = codificação da sequência de ADN ; n. = sequência de referência RNA não codificante.
Ao relatar HGVS com sequências RefSeq, para ter a certeza que os resultados dos artigos de pesquisa podem ser mapeados para o genoma sem ambiguidade, por favor especifique a versão da anotação RefSeq exibida na página de detalhes do Navegador do Genoma da transcrição e também o ID da transcrição RefSeq com a versão (por exemplo, NM_012309.4 e não NM_012309).
Métodos
Tracks contidos na anotação RefSeq e as pistas de alinhamento do RefSeq RNA foram criadas na UCSC utilizando dados do projecto RefSeq do NCBI. Os arquivos de dados foram baixados do RefSeq em formato de arquivo GFF e convertidos para os formatos de tabela genePred e PSL para exibição no Genome Browser. Informações sobre o pipeline de anotações NCBI podem ser encontradas aqui.
A faixa RefSeq Diffs é gerada pelo UCSC utilizando os alinhamentos RNA RefSeq do NCBI.
A faixa RefSeq Genes do UCSC é construída utilizando os mesmos métodos das faixas anteriores do RefSeq Genes.RefSeq RNAs foram alinhadas contra o genoma humano utilizando BLAT. Aqueles com um alinhamento sem mais de 15% foram descartados. Quando um único RNA alinhado em vários lugares, foi identificado o RNA com a maior identidade de base. Somente os alinhamentos com um nível de identidade base dentro de 0,1% da melhor e pelo menos 96% da identidade base com a seqüência genômica foram descartados.
Acesso aos dados
Os dados brutos para estas faixas podem ser acessados de múltiplas formas. Ele pode ser explorado de forma interativa usando o Table Browser ou o Data Integrator. As tabelas também podem ser acessadas programmaticamente através do nosso servidor MySQL público ou baixadas do nosso servidor dedownloads para processamento local. Você também pode acessar qualquer tabela RefSeq em formato JSON através do nosso JSON API.
Os dados no RefSeq Other e RefSeq Diffs tracks são organizados em formato de arquivo bigBed; mais informações sobre como acessar as informações neste arquivo bigBed podem ser encontradas abaixo. As outras subpistas estão associadas às tabelas da base de dados da seguinte forma:
formato genePred:
- RefSeq Todos – ncbiRefSeq
- RefSeq Curado – ncbiRefSeq Curado
- RefSeq Predito – ncbiRefSeqPredito
- RefSeq HGMD – ncbiRefSeqHgmd
- RefSeq Select+MANE – ncbiRefSeqSelect
- UCSC RefSeq – refGene
Formato PSL:
- RefSeq Alinhamentos – ncbiRefSeqPsl
A primeira coluna de cada uma destas tabelas é “bin”. Esta coluna é projetada para acelerar o acesso para exibição no Genome Browser, mas pode ser ignorada com segurança na análise a jusante. Você pode ler mais sobre o sistema de indexação bin em nenhum lugar.
As anotações nas faixas RefSeqOther e RefSeqDiffs são armazenadas em arquivos bigBed, que podem ser obtidos do nosso servidor de downloads aqui,ncbiRefSeqOther.bb e ncbiRefSeqDiffs.bb.Regiões individuais ou todo o conjunto de anotações do genoma podem ser obtidas usando nossa ferramentabigBedToBed que pode ser compilada a partir do código fonte ou baixada como um binário pré-compilado para o seu sistema a partir do diretório de utilidades ligado abaixo. Por exemplo, para extrair somente anotações em uma determinada região, você pode usar o seguinte comando:
bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/ncbiRefSeq/ncbiRefSeqOther.bb-chrom=chr16 -start=34990190 -end=36727467 stdout
Você pode baixar uma versão em formato GTF da tabela RefSeq All a partir do diretório de downloads GTF. As faixas em formato genePred também podem ser convertidas para o formato GTF usando o utilitáriogenePredToGtf, disponível a partir do diretórioutilities no servidor de downloads do UCSC. O utilitário pode ser executado a partir da linha de comando como so:
genePredToGtf hg38 ncbiRefSeqPredicted ncbiRefSeqPredicted.gtf
Note que usando o genePredToGtf desta forma acessa nosso servidor MySQL público, e portanto você deve configurar seu hg.conf como descrito na página MySQL ligada perto do início da seção de acesso aos dados.
Um arquivo contendo as seqüências de RNA em formato FASTA para todos os itens no RefSeq All, RefSeq Curated, e RefSeq Predicted tracks podem ser encontrados em nosso servidor de downloads em nenhum lugar.
Por favor, consulte nossos arquivos da lista de discussão para perguntas.
Versões anteriores do conjunto de faixas ncbiRefSeq podem ser encontradas em nosso servidor de downloads do arquivo.
Créditos
Esta faixa foi produzida na UCSC a partir de dados gerados por cientistas do mundo todo e curada pelo projetoNCBI RefSeq.
Kent WJ.BLAT – a ferramenta de alinhamento do tipo BLAST. Genome Res. 2002 Apr;12(4):656-64.PMID: 11932250; PMC: PMC187518
Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J,Landrum MJ, McGarvey KM et al.RefSeq: uma atualização sobre sequências de referência de mamíferos.Nucleic Acids Res. 2014 Jan;42(Database issue):D756-63.PMID: 24259432; PMC: PMC3965018