NCBI RefSeq Track Settings

updatedNote : Updated Mar. 4, 2021

Description

La piste composite NCBI RefSeq Genes montre des gènes humains codant pour des protéines et ne codant pas pour des protéines, pris dans la collection de séquences de référence ARN du NCBI (RefSeq). Toutes les sous-pistes utilisent les coordonnées fournies par RefSeq, à l’exception de la piste UCSC RefSeq, que l’UCSC produit en réalignant les ARN RefSeq sur le génome. Ce réalignement peut entraîner des différences occasionnelles entre les coordonnées d’annotation fournies par UCSC et NCBI. Pour l’analyse RNA-seq, nous conseillons d’utiliser les tables alignées du NCBI comme RefSeq All ou RefSeq Curated. Voir la section Méthodes pour plus de détails sur la façon dont les différentes pistes ont été créées.

Veuillez consulter la page Feedback for Gene and Reference Sequences (RefSeq) du NCBI pour faire des suggestions, soumettre des ajouts et des corrections, ou demander de l’aide concernant les enregistrements RefSeq.

Pour plus d’informations sur les différentes pistes de gènes, consultez notre FAQ Gènes.

Conventions d’affichage et configuration

Cette piste est une piste composite qui contient différents ensembles de données.Pour afficher uniquement un ensemble sélectionné de sous-pistes, décochez les cases à côté des pistes que vous souhaitez masquer. Remarque : toutes les sous-pistes ne sont pas disponibles sur tous les assemblages.

Les sous-pistes possibles comprennent : Annotations alignées RefSeq et alignement UCSC des annotations RefSeq

  • RefSeq All – toutes les annotations curatées et prédites fournies par RefSeq.
  • RefSeq Curated – sous-ensemble de RefSeq All qui inclut uniquement les annotations dont les accessions commencent par NM, NR, NP ou YP. (NP et YP sont utilisés uniquement pour les gènes codant pour des protéines sur la mitochondrie ; YP est utilisé pour l’homme uniquement).
  • RefSeq Predicted – sous-ensemble de RefSeq All qui comprend les annotations dont les accessions commencent par XM ou XR.
  • RefSeq Other – toutes les autres annotations produites par le groupe RefSeq qui ne répondent pas aux exigences d’inclusion dans les pistes RefSeq Curated ou RefSeq Predicted.
  • RefSeq Alignments – alignements d’ARN RefSeq sur le génome humain fournis par le groupe RefSeq, suivant les conventions d’affichage des pistesPSL.
  • RefSeq Diffs – différences d’alignement entre le ou les génomes de référence humains et les transcriptions RefSeq. (Piste non disponible actuellement pour tous les assemblages.)
  • UCSC RefSeq – annotations générées à partir du réalignement par UCSC des ARN avec les accessions NM et NR au génome humain. Cette piste était auparavant connue sous le nom de piste « RefSeq Genes ».
  • RefSeq Select+MANE (subset) – Sous-ensemble de RefSeq Curated, transcriptions marquées comme RefSeq Select ou MANE Select. Une seule transcription Select est choisie comme représentative pour chaque gène codant pour une protéine. Cette piste comprend les transcriptions catégorisées MANE, qui sont reconnues comme représentatives à la fois par NCBI RefSeq et Ensembl/GENCODE, et qui ont une correspondance identique à 100% avec une transcription dans l’annotation Ensembl. Voir NCBI RefSeq Select. Notez que nous fournissons une piste distincte, MANE (hg38), qui contient uniquement les transcriptions MANE.
  • RefSeq HGMD (subset) – Sous-ensemble de RefSeq Curated, transcriptions annotées par la base de données des mutations génétiques humaines. Cette piste est uniquement disponible sur les génomes humains hg19 et hg38. Il s’agit du sous-ensemble RefSeq le plus restreint, ciblant les diagnostics cliniques.

Les pistes RefSeq All, RefSeq Curated, RefSeq Predicted, RefSeq HGMD,RefSeq Select/MANE et UCSC RefSeq suivent les conventions d’affichage forgene pistes de prédiction.L’ombrage de couleur indique le niveau de révision que l’enregistrement RefSeq a subi:prédit (clair), provisoire (moyen) ou révisé (foncé), tel que défini par RefSeq.

Couleur Niveau d’examen
Examiné : l’enregistrement RefSeq a été examiné par le personnel du NCBI ou par un collaborateur. Le processus de révision du NCBI comprend l’évaluation des données de séquence disponibles et de la littérature. Certains enregistrements RefSeq peuvent intégrer des informations élargies sur les séquences et les annotations.
Provisional : l’enregistrement RefSeq n’a pas encore été soumis à un examen individuel. L’association initiale séquence-gène a été établie par des collaborateurs extérieurs ou par le personnel du NCBI.
Predicted : l’enregistrement RefSeq n’a pas encore fait l’objet d’un examen individuel, et un certain aspect de l’enregistrement RefSeq est prédit.

Les étiquettes des éléments et les propriétés d’affichage des codons pour les caractéristiques de cette piste peuvent être configurées par le biais des commandes de cases à cocher en haut de la page de description de la piste. Pour ajuster les paramètres d’une sous-piste individuelle, cliquez sur l’icône de clé à molette à côté du nom de la piste dans la liste des sous-pistes .

  • Étiquette : Par défaut, les éléments sont étiquetés par le nom du gène. Cliquez sur l’option Étiquette appropriée pour afficher le nom d’accession ou l’identifiant OMIM au lieu du nom du gène, afficher toutes ou un sous-ensemble de ces étiquettes, y compris le nom du gène, l’identifiant OMIM et les noms d’accession, ou désactiver complètement l’étiquette.
  • Coloration des codons : Cette piste dispose d’une fonction optionnelle de coloration des codons qui permet aux utilisateurs de valider et de comparer rapidement les prédictions de gènes. Pour afficher les couleurs des codons, sélectionnez l’option codons génomiques dans le menu déroulant Color track by codons. Pour plus d’informations sur cette fonctionnalité, consultez la page Coloration des prédictions et des annotations de gènes par codon.

La piste RefSeq Diffs contient cinq différents types d’incohérence entre la séquence du génome de référence et les séquences de transcription RefSeq. Les cinq types de zones de différences suivent:

  • mismatch – bases alignées mais non concordantes, plus HGVS g. pour montrer le changement génomique nécessaire pour correspondre à la transcription et HGVS c./n. pour montrer le changement de transcription nécessaire pour correspondre au génome.
  • short gap – écarts génomiques trop petits pour être des introns (seuil arbitraire de < 45 pb), très probablement des variantes d’insertion/délétion ou des erreurs, avec HGVS g. et c./n. montrant les différences.
  • shift gap – éléments shortGap dont le placement pourrait être décalé à gauche et/ou à droite sur le génome en raison d’une séquence répétitive, avec HGVS c./n. plage de position de la région ambiguë dans le transcrit. Ici, des lignes fines et épaisses sont utilisées — la ligne fine montre l’étendue de la séquence répétitive, et la ligne épaisse montre l’écart décalé le plus à droite.
  • double écart – écarts génomiques qui sont assez longs pour être des introns mais qui sautent la séquence de transcription (invisible dans le réglage par défaut), avec la délétion HGVS c./n.
  • sautée – séquence au début ou à la fin d’une transcription qui n’est pas alignée sur le génome (invisible dans le réglage par défaut), avec la délétion HGVS c./n.

Terminologie HGVS (Human Genome Variation Society):g. = séquence génomique ; c. = séquence d’ADN codant ; n. = séquence de référence d’ARN non codant.

Lorsque vous rapportez des HGVS avec des séquences RefSeq, pour vous assurer que les résultats des articles de recherche peuvent être mappés au génome sans ambiguïté, veuillez spécifier la version de l’annotation RefSeq affichée sur la page de détails du transcrit duGenome Browser et également l’ID du transcrit RefSeq avec la version(par exemple NM_012309.4 et non NM_012309).

Méthodes

Les pistes contenues dans l’annotation RefSeq et les pistes d’alignement d’ARN RefSeq ont été créées à l’UCSC en utilisant les données du projet RefSeq du NCBI. Les fichiers de données ont été téléchargés depuis RefSeq au format de fichier GFF et convertis aux formats de tableau genePred et PSL pour être affichés dans le Genome Browser. Des informations sur le pipeline d’annotation du NCBI peuvent être trouvées ici.

La piste RefSeq Diffs est générée par UCSC en utilisant les alignements d’ARN RefSeq du NCBI.

La piste UCSC RefSeq Genes est construite en utilisant les mêmes méthodes que les pistes RefSeq Genes précédentes.Les ARN RefSeq ont été alignés par rapport au génome humain en utilisant BLAT. Ceux dont l’alignement était inférieur à 15 % ont été écartés. Lorsqu’un seul ARN s’est aligné à plusieurs endroits, l’alignement ayant l’identité de base la plus élevée a été identifié. Seuls les alignements ayant un niveau d’identité de base à moins de 0,1% du meilleur et au moins 96% d’identité de base avec la séquence génomique ont été conservés.

Accès aux données

Les données brutes de ces pistes sont accessibles de plusieurs façons. Elles peuvent être explorées de manière interactive en utilisant le navigateur de tableaux ou l’intégrateur de données. Les tableaux peuvent également être accédés par programmation via notre serveur MySQL public ou téléchargés depuis notre serveur de téléchargement pour un traitement local. Vous pouvez également accéder à toutes les entrées des tables RefSeq au format JSON par le biais de notre API JSON.

Les données des pistes RefSeq Other et RefSeq Diffs sont organisées au format de fichier bigBed ; vous trouverez plus d’informations sur l’accès aux informations de ce fichier bigBed ci-dessous. Les autres sous-pistes sont associées aux tables de la base de données comme suit :

format genePred :

  • RefSeq All – ncbiRefSeq
  • RefSeq Curated – ncbiRefSeqCurated
  • RefSeq Predicted – ncbiRefSeqPredicted
  • RefSeq HGMD – ncbiRefSeqHgmd
  • RefSeq Select+MANE – ncbiRefSeqSelect
  • UCSC RefSeq – refGene

Format PSL :

  • RefSeq Alignments – ncbiRefSeqPsl

La première colonne de chacun de ces tableaux est « bin ». Cette colonne est conçue pour accélérer l’accès pour l’affichage dans le Genome Browser, mais peut être ignorée sans risque dans l’analyse en aval. Vous pouvez en savoir plus sur le système d’indexation bin ici.

Les annotations dans les pistes RefSeqOther et RefSeqDiffs sont stockées dans des fichiers bigBed, qui peuvent être obtenus sur notre serveur de téléchargement ici,ncbiRefSeqOther.bb et ncbiRefSeqDiffs.Des régions individuelles ou l’ensemble des annotations de l’ensemble du génome peuvent être obtenues à l’aide de notre outil bigBedToBed, qui peut être compilé à partir du code source ou téléchargé sous forme de binaire précompilé pour votre système à partir du répertoire d’utilitaires lié ci-dessous. Par exemple, pour extraire uniquement les annotations dans une région donnée, vous pouvez utiliser la commande suivante :

bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/ncbiRefSeq/ncbiRefSeqOther.bb-chrom=chr16 -start=34990190 -end=36727467 stdout

Vous pouvez télécharger une version au format GTF du tableau RefSeq All à partir du répertoire de téléchargement GTF.Les pistes au format genePred peuvent également être converties au format GTF à l’aide de l’utilitairegenePredToGtf, disponible à partir du répertoireutilities sur le serveur de téléchargement de l’UCSC. L’utilitaire peut être exécuté à partir de la ligne de commande comme suit :

genePredToGtf hg38 ncbiRefSeqPredicted ncbiRefSeqPredicted.gtf

Notez que l’utilisation de genePredToGtf de cette manière accède à notre serveur MySQL public, et vous devez donc configurer votre hg.conf comme décrit sur la page MySQL liée vers le début de la section Accès aux données.

Un fichier contenant les séquences d’ARN au format FASTA pour tous les éléments des pistes RefSeq All, RefSeq Curated et RefSeq Predicted peut être trouvé sur notre serveur de téléchargement ici.

Veuillez vous référer aux archives de notre liste de diffusion pour les questions.

Les versions précédentes de l’ensemble de pistes ncbiRefSeq peuvent être trouvées sur notre serveur de téléchargement d’archives.

Credits

Cette piste a été produite à l’UCSC à partir de données générées par des scientifiques du monde entier et curatées par le projet RefSeq du NCBI.

Kent WJ.BLAT – l’outil d’alignement de type BLAST. Genome Res. 2002 Apr;12(4):656-64.PMID : 11932250 ; PMC : PMC187518

Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J,Landrum MJ, McGarvey KM et al.RefSeq : une mise à jour des séquences de référence des mammifères.Nucleic Acids Res. 2014 Jan;42(Database issue):D756-63.PMID : 24259432 ; PMC : PMC3965018

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.