actualizadoNota: Actualizado el 4 de marzo de 2021
Descripción
El track compuesto NCBI RefSeq Genes muestra genes humanos codificantes y no codificantes de proteínas tomados de la colección de secuencias de referencia de ARN del NCBI (RefSeq). Todas las subpistas utilizan las coordenadas proporcionadas por RefSeq, excepto la pista UCSC RefSeq, que la UCSC produce realineando los ARN de RefSeq con el genoma. Esta realineación puede dar lugar a diferencias ocasionales entre las coordenadas de anotación proporcionadas por UCSC y NCBI. Para el análisis de RNA-seq, aconsejamos utilizar las tablas alineadas del NCBI como RefSeq All o RefSeq Curated. Consulte la sección Métodos para obtener más detalles sobre cómo se crearon las diferentes pistas.
Por favor, visite la página de comentarios del NCBI para las secuencias de genes y de referencia (RefSeq) para hacer sugerencias, enviar adiciones y correcciones, o pedir ayuda en relación con los registros de RefSeq.
Para obtener más información sobre las diferentes pistas de genes, consulte nuestro Genes FAQ.
Convenciones de visualización y configuración
Esta pista es una pista compuesta que contiene diferentes conjuntos de datos.Para mostrar sólo un conjunto seleccionado de subpistas, desmarque las casillas situadas junto a las pistas que desea ocultar. Nota: No todas las sustracciones están disponibles en todos los conjuntos.
Las posibles subpistas incluyen: Anotaciones alineadas de RefSeq y alineación de UCSC de las anotaciones de RefSeq
- RefSeq All – todas las anotaciones curadas y predichas proporcionadas por RefSeq.
- RefSeq Curated – subconjunto de RefSeq All que incluye sólo las anotaciones cuyas accesiones comienzan por NM, NR, NP o YP. (NP e YP se utilizan sólo para los genes que codifican proteínas en la mitocondria; YP se utiliza sólo para los humanos).
- RefSeq Predicted – subconjunto de RefSeq All que incluye aquellas anotaciones cuyas accesiones comienzan por XM o XR.
- RefSeq Other – todas las demás anotaciones producidas por el grupo RefSeq que no se ajustan a los requisitos para su inclusión en las pistas RefSeq Curated o RefSeq Predicted.
- RefSeq Alignments – alineaciones de los ARN de RefSeq con el genoma humano proporcionadas por el grupo RefSeq, siguiendo las convenciones de visualización de las pistas dePSL.
- RefSeq Diffs – diferencias de alineación entre el(los) genoma(s) humano(s) de referencia y los transcritos de RefSeq. (Pista no disponible actualmente para cada ensamblaje.)
- UCSC RefSeq – anotaciones generadas a partir de la realineación de UCSC de ARN con accesiones NM y NR al genoma humano. Esta pista se conocía anteriormente como la pista «RefSeq Genes».
- RefSeq Select+MANE (subconjunto) – Subconjunto de RefSeq Curated, transcripciones marcadas como RefSeq Select o MANE Select. Se elige un único transcrito Select como representante de cada gen codificador de proteínas. Esta pista incluye transcritos categorizados como MANE, que además son acordados como representativos tanto por NCBI RefSeq como por Ensembl/GENCODE, y tienen una coincidencia 100% idéntica con un transcrito en la anotación de Ensembl. Véase NCBI RefSeq Select. Tenga en cuenta que proporcionamos una pista separada, MANE (hg38), que contiene sólo los transcritos de MANE.
- RefSeq HGMD (subconjunto) – Subconjunto de RefSeq Curated, transcripciones anotadas por la base de datos de mutaciones genéticas humanas. Esta pista sólo está disponible en los genomas humanos hg19 y hg38. Es el subconjunto de RefSeq más restringido, orientado al diagnóstico clínico.
Las pistas RefSeq All, RefSeq Curated, RefSeq Predicted, RefSeq HGMD,RefSeq Select/MANE y UCSC RefSeq siguen las convenciones de visualización de las pistas de predicción forgene.El sombreado de color indica el nivel de revisión al que se ha sometido el registro RefSeq:predicho (claro), provisional (medio) o revisado (oscuro), según la definición de RefSeq.
Color | Nivel de revisión |
---|---|
Revisado: el registro RefSeq ha sido revisado por el personal del NCBI o por un colaborador. El proceso de revisión del NCBI incluye la evaluación de los datos de secuencia disponibles y de la literatura. Algunos registros RefSeq pueden incorporar información ampliada sobre la secuencia y la anotación. | |
Provisional: el registro RefSeq aún no ha sido sometido a una revisión individual. La asociación inicial entre la secuencia y el gen ha sido establecida por colaboradores externos o por el personal del NCBI. | |
Predicho: el registro RefSeq aún no ha sido sometido a revisión individual, y algún aspecto del registro RefSeq está predicho. |
Las etiquetas de los elementos y las propiedades de visualización de los codones para las características dentro de esta pista pueden configurarse a través de los controles de las casillas de verificación en la parte superior de la página de descripción de la pista. Para ajustar la configuración de una subpista individual, haga clic en el icono de la llave inglesa junto al nombre de la pista en la lista de subpistas.
- Etiqueta: Por defecto, los elementos se etiquetan por el nombre del gen. Haga clic en la opción de etiqueta apropiada para mostrar el nombre de acceso o el identificador OMIM en lugar del nombre del gen, mostrar todas o un subconjunto de estas etiquetas, incluyendo el nombre del gen, el identificador OMIM y los nombres de acceso, o desactivar la etiqueta por completo.
- Coloreado de codones: Esta pista tiene una característica opcional de coloración de codones que permite a los usuarios validar y comparar rápidamente las predicciones de genes. Para mostrar los colores de los codones, seleccione la opción de codones genómicos en el menú desplegable Colorear pista por codones. Para obtener más información sobre esta función, vaya a la página Colorear predicciones y anotaciones de genes por codones.
La pista de diferencias de RefSeq contiene cinco tipos diferentes de incoherencias entre la secuencia del genoma de referencia y las secuencias de transcripción de RefSeq. Los cinco tipos de áreas de diferencias son los siguientes:
- mismatch – bases alineadas pero no coincidentes, además de HGVS g. para mostrar el cambio genómico necesario para coincidir con el transcrito y HGVS c./n. para mostrar el cambio del transcrito necesario para coincidir con el genoma.
- brecha corta – brechas genómicas que son demasiado pequeñas para ser intrones (corte arbitrario de < 45 pb), probablemente variantes de inserción/deleción o errores, con HGVS g. y c./n. mostrando las diferencias.
- brecha de cambio – elementos de brecha corta cuya colocación podría ser desplazada a la izquierda y/o derecha en el genoma debido a la secuencia repetitiva, con HGVS c./n. rango de posición de la región ambigua en el transcrito. Aquí se utilizan líneas delgadas y gruesas — la línea delgada muestra el rango de la secuencia repetitiva, y la línea gruesa muestra la brecha desplazada a la derecha.
- doble brecha – brechas genómicas que son lo suficientemente largas para ser intrones pero que se saltan la secuencia del transcrito (invisible en la configuración por defecto), con HGVS c./n. deletion.
- skipped – secuencia al principio o al final de un transcrito que no está alineada con el genoma (invisible en la configuración por defecto), con HGVS c./n. deletion
Terminología HGVS (Human Genome Variation Society):g. = secuencia genómica ; c. = secuencia de ADN codificante ; n. = secuencia de referencia de ARN no codificante.
Cuando se informe de HGVS con secuencias RefSeq, para asegurarse de que los resultados de los artículos de investigación se puedan asignar al genoma sin ambigüedad, especifique la versión de la anotación RefSeq que se muestra en la página de detalles del Navegador del Genoma de la transcripción y también el ID de la transcripción RefSeq con la versión (por ejemplo, NM_012309.4 no NM_012309).
Métodos
Las pistas contenidas en la anotación de RefSeq y las pistas de alineación de RefSeq RNA se crearon en la UCSC utilizando datos del proyecto RefSeq del NCBI. Los archivos de datos se descargaron de RefSeq en formato de archivo GFF y se convirtieron a los formatos de tabla genePred y PSL para su visualización en el Genome Browser. La información sobre el proceso de anotación del NCBI se puede encontrar aquí.
La pista de RefSeq Diffs ha sido generada por la UCSC utilizando las alineaciones de ARN RefSeq del NCBI.
La pista de RefSeq Genes de la UCSC se ha construido utilizando los mismos métodos que las pistas anteriores de RefSeq Genes.Los ARN RefSeq se alinearon con el genoma humano utilizando BLAT. Se descartaron aquellos con una alineación inferior al 15%. Cuando un mismo ARN se alineaba en varios lugares, se identificaba el alineamiento con mayor identidad de bases. Sólo se mantuvieron los alineamientos que tenían un nivel de identidad de bases dentro del 0,1% del mejor y una identidad de bases de al menos el 96% con la secuencia genómica.
Acceso a los datos
Se puede acceder a los datos brutos de estas pistas de múltiples maneras. Pueden explorarse de forma interactiva utilizando el Navegador de Tablas o el Integrador de Datos. También se puede acceder a las tablas de forma programada a través de nuestro servidor MySQL público o descargarlas de nuestro servidor de descargas para su procesamiento local. También puede acceder a cualquier entrada de la tabla RefSeq en formato JSON a través de nuestra API JSON.
Los datos de las pistas RefSeq Other y RefSeq Diffs están organizados en formato de archivo bigBed; a continuación encontrará más información sobre cómo acceder a la información de este archivo bigBed. Las otras subpistas están asociadas a las tablas de la base de datos de la siguiente manera:
formato genePred:
- RefSeq All – ncbiRefSeq
- RefSeq Curated – ncbiRefSeqCurated
- RefSeq Predicted – ncbiRefSeqPredicted
- RefSeq HGMD – ncbiRefSeqHgmd
- RefSeq Select+MANE – ncbiRefSeqSelect
- UCSC RefSeq – refGene
Formato PSL:
- RefSeq Alignments – ncbiRefSeqPsl
La primera columna de cada una de estas tablas es «bin». Esta columna está diseñada para acelerar el acceso para la visualización en el Navegador del Genoma, pero puede ser ignorada con seguridad en el análisis posterior. Puede leer más sobre el sistema de indexación bin aquí.
Las anotaciones en las pistas RefSeqOther y RefSeqDiffs se almacenan en archivos bigBed, que pueden obtenerse de nuestro servidor de descargas aquí,ncbiRefSeqOther.bb y ncbiRefSeqDiffs.bb. Las regiones individuales o el conjunto de anotaciones de todo el genoma pueden obtenerse utilizando nuestra herramienta bigBedToBed, que puede compilarse a partir del código fuente o descargarse como un binario precompilado para su sistema desde el directorio de utilidades enlazado más abajo. Por ejemplo, para extraer sólo las anotaciones de una región determinada, puede utilizar el siguiente comando:
bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/ncbiRefSeq/ncbiRefSeqOther.bb-chrom=chr16 -start=34990190 -end=36727467 stdout
Puede descargar una versión en formato GTF de la tabla RefSeq All del directorio de descargas GTF.Las pistas en formato genePred también pueden convertirse a formato GTF utilizando la utilidadgenePredToGtf, disponible en el directorio de utilidades del servidor de descargas de la UCSC. La utilidad puede ejecutarse desde la línea de comandos de la siguiente manera:
genePredToGtf hg38 ncbiRefSeqPredicted ncbiRefSeqPredicted.gtf
Tenga en cuenta que al utilizar genePredToGtf de esta manera se accede a nuestro servidor público de MySQL, y por lo tanto debe configurar su hg.conf como se describe en la página de MySQL enlazada cerca del comienzo de la sección de acceso a datos.
Un archivo que contiene las secuencias de ARN en formato FASTA para todos los elementos de las pistas RefSeq All, RefSeq Curated y RefSeq Predicted se puede encontrar en nuestro servidor de descargasaquí.
Por favor, consulte los archivos de nuestra lista de correo para preguntas.
Las versiones anteriores del conjunto de pistas ncbiRefSeq pueden encontrarse en nuestro servidor de descargas de archivos.
Créditos
Esta pista fue producida en la UCSC a partir de datos generados por científicos de todo el mundo y curados por el proyecto RefSeq delNCBI.
Kent WJ.BLAT – the BLAST-like alignment tool. Genome Res. 2002 Apr;12(4):656-64.PMID: 11932250; PMC: PMC187518
Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J,Landrum MJ, McGarvey KM et al.RefSeq: an update on mammalian reference sequences.Nucleic Acids Res. 2014 Jan;42(Database issue):D756-63.PMID: 24259432; PMC: PMC3965018