aggiornatoNota: Aggiornato il 4 marzo 2021
Descrizione
La traccia composita NCBI RefSeq Genes mostra geni umani codificanti proteine e non codificanti proteine presi dalla collezione di sequenze di riferimento NCBI RNA (RefSeq). Tutte le sottotracce usecoordinates fornito da RefSeq, ad eccezione della traccia UCSC RefSeq, che UCSC produce byrealigning il RefSeq RNAs al genoma. Questo riallineamento può risultare in occasionali differenze tra le coordinate di annotazione fornite da UCSC e NCBI. Per l’analisi RNA-seq, consigliamo di utilizzare le tabelle allineate di NCBI come RefSeq All o RefSeq Curated. Vedi la sezione Metodi per maggiori dettagli su come sono state create le diverse tracce.
Si prega di visitare la pagina di feedback dell’NCBI per Gene and Reference Sequences (RefSeq) per dare suggerimenti, inviare aggiunte e correzioni, o chiedere aiuto riguardo ai record RefSeq.
Per maggiori informazioni sulle diverse tracce dei geni, vedi la nostra Genes FAQ.
Convenzioni di visualizzazione e configurazione
Questa traccia è una traccia composita che contiene diversi set di dati.Per mostrare solo un set selezionato di sottotracce, deseleziona le caselle accanto alle tracce che desideri nascondere. Nota: non tutte le sottotracce sono disponibili su tutti gli assiemi.
Le possibili sottotracce includono: Annotazioni allineate RefSeq e allineamento UCSC delle annotazioni RefSeq
- RefSeq All – tutte le annotazioni curate e predette fornite da RefSeq.
- RefSeq Curated – sottoinsieme di RefSeq All che include solo le annotazioni le cui accessioni iniziano con NM, NR, NP o YP. (NP e YP sono usati solo per i geni codificanti proteine sul mitocondrio; YP è usato solo per l’uomo).
- RefSeq Predicted – sottoinsieme di RefSeq All che include le annotazioni le cui accessioni iniziano con XM o XR.
- RefSeq Other – tutte le altre annotazioni prodotte dal gruppo RefSeq che non soddisfano i requisiti per l’inclusione nelle tracce RefSeq Curated o RefSeq Predicted.
- RefSeq Alignments – allineamenti di RefSeq RNA al genoma umano forniti dal gruppo RefSeq, seguendo le convenzioni di visualizzazione delle traccePSL.
- RefSeq Diffs – differenze di allineamento tra il genoma umano di riferimento e le trascrizioni RefSeq. (Traccia attualmente non disponibile per ogni assemblaggio)
- UCSC RefSeq – annotazioni generate dal riallineamento UCSC di RNA con accessioni NM e NR al genoma umano. Questa traccia era precedentemente conosciuta come traccia “RefSeq Genes”.
- RefSeq Select+MANE (sottoinsieme) – Sottoinsieme di RefSeq Curated, trascrizioni contrassegnate come RefSeq Select o MANE Select. Una singola trascrizione Select è scelta come rappresentativa per ogni gene codificante la proteina. Questa traccia include trascrizioni classificate come MANE, che sono ulteriormente concordate come rappresentative sia da NCBI RefSeq che da Ensembl/GENCODE, e hanno una corrispondenza identica al 100% con una trascrizione nell’annotazione Ensembl. Vedi NCBI RefSeq Select. Si noti che forniamo una traccia separata, MANE (hg38), che contiene solo le trascrizioni MANE.
- RefSeq HGMD (sottoinsieme) – Sottoinsieme di RefSeq Curated, trascrizioni annotate dallo Human Gene Mutation Database. Questa traccia è disponibile solo sui genomi umani hg19 e hg38. È il sottoinsieme RefSeq più ristretto, rivolto alla diagnostica clinica.
Le tracce RefSeq All, RefSeq Curated, RefSeq Predicted, RefSeq HGMD, RefSeq Select/MANE e UCSC RefSeq seguono le convenzioni di visualizzazione delle tracce di predizione, il cui colore indica il livello di revisione che il record RefSeq ha subito: predetto (chiaro), provvisorio (medio) o rivisto (scuro), come definito da RefSeq.
Colore | Livello di revisione |
---|---|
Revisionato: il record RefSeq è stato revisionato dal personale NCBI o da un collaboratore. Il processo di revisione dell’NCBI include la valutazione dei dati di sequenza disponibili e della letteratura. Alcuni record RefSeq possono incorporare la sequenza estesa e le informazioni di annotazione. | |
Provisional: il record RefSeq non è stato ancora sottoposto a revisione individuale. L’associazione iniziale sequenza-gene è stata stabilita da collaboratori esterni o dal personale NCBI. | |
Predetto: il record RefSeq non è ancora stato soggetto a revisione individuale, e qualche aspetto del record RefSeq è predetto. |
Le etichette degli elementi e le proprietà di visualizzazione dei codoni per le caratteristiche all’interno di questa traccia possono essere configurate attraverso i controlli a casella di controllo nella parte superiore della pagina di descrizione della traccia. Per regolare le impostazioni di una singola sottotraccia, fai clic sull’icona della chiave inglese accanto al nome della traccia nell’elenco delle sottotracce .
- Etichetta: Per impostazione predefinita, gli elementi sono etichettati dal nome del gene. Fare clic sull’opzione Label appropriata per visualizzare il nome di adesione o l’identificatore OMIM invece del nome del gene, mostrare tutte le etichette o un sottoinsieme di queste etichette tra cui il nome del gene, l’identificatore OMIM e i nomi di adesione, o disattivare completamente l’etichetta.
- Colorazione del codone: Questa traccia ha una funzione opzionale di colorazione del codone che permette agli utenti di convalidare e confrontare rapidamente le previsioni dei geni. Per visualizzare i colori dei codoni, seleziona l’opzione codoni genomici dal menu a tendina Color track by codons. Per maggiori informazioni su questa funzione, vai alla pagina Coloring Gene Predictions and Annotations by Codon.
La traccia RefSeq Diffs contiene cinque diversi tipi di incongruenze tra la sequenza del genoma di riferimento e le sequenze di trascrizione RefSeq. I cinque tipi di aree di differenze sono i seguenti:
- mismatch – basi allineate ma non corrispondenti, più HGVS g. per mostrare il cambiamento genomico richiesto per corrispondere al trascritto e HGVS c./n. per mostrare il cambiamento del trascritto richiesto per corrispondere al genoma.
- gap breve – lacune genomiche che sono troppo piccole per essere introni (cutoff arbitrario di < 45 bp), molto probabilmente varianti di inserzione/cancellazione o errori, con HGVS g. e c./n. che mostrano le differenze.
- shift gap – elementi shortGap il cui posizionamento potrebbe essere spostato a sinistra e/o a destra sul genoma a causa della sequenza ripetitiva, con HGVS c./n. gamma di posizione della regione ambigua nel trascritto. Qui, sono usate linee sottili e spesse — la linea sottile mostra l’intervallo della sequenza ripetitiva, e la linea spessa mostra il gap spostato più a destra.
- doppio gap – lacune genomiche che sono abbastanza lunghe da essere introni ma che saltano la sequenza del trascritto (invisibile nell’impostazione predefinita), con HGVS c./n. deletion.
- skipped – sequenza all’inizio o alla fine di un trascritto che non è allineata al genoma (invisibile nell’impostazione predefinita), con HGVS c./n. deletion
Terminologia HGVS (Human Genome Variation Society):g. = sequenza genomica; c. = sequenza di DNA codificante; n. = sequenza di riferimento di RNA non codificante.
Quando si riporta HGVS con sequenze RefSeq, per assicurarsi che i risultati degli articoli di ricerca possano essere mappati al genoma senza ambiguità, si prega di specificare la versione dell’annotazione RefSeq visualizzata nella pagina dei dettagli del Genome Browser della trascrizione e anche l’ID della trascrizione RefSeq con la versione (ad esempio NM_012309.4 non NM_012309).
Metodi
Le tracce contenute nell’annotazione RefSeq e le tracce di allineamento RefSeq RNA sono state create alla UCSC utilizzando i dati del progetto NCBI RefSeq. I file di dati sono stati scaricati da RefSeq in formato GFF e convertiti nei formati di tabella genePred e PSL per la visualizzazione nel Genome Browser. Informazioni sulla pipeline di annotazione NCBI può essere trovato qui.
La traccia RefSeq Diffs è generato da UCSC utilizzando NCBI RefSeq allineamenti RNA.
La traccia UCSC RefSeq Genes è costruito utilizzando gli stessi metodi come precedenti RefSeq Genes tracks.RefSeq RNA sono stati allineati contro il genoma umano utilizzando BLAT. Quelli con un allineamento inferiore al 15% sono stati scartati. Quando un singolo RNA allineato in più luoghi, l’allineamento con la più alta identità di base è stato identificato. Solo gli allineamenti che avevano un livello di identità di base entro lo 0,1% del migliore e almeno il 96% di identità di base con la sequenza genomica sono stati mantenuti.
Accesso ai dati
I dati grezzi per queste tracce possono essere consultati in più modi. Possono essere esplorati interattivamente usando il Table Browser o il Data Integrator. Le tabelle possono anche essere accedute programmaticamente attraverso il nostro server pubblico MySQL o scaricate dal nostro server per l’elaborazione locale. È anche possibile accedere a qualsiasi tabella RefSeq in formato JSON attraverso la nostra API JSON.
I dati nelle tracce RefSeq Other e RefSeq Diffs sono organizzati in formato file bigBed; maggiori informazioni sull’accesso alle informazioni in questo file bigBed possono essere trovate di seguito. Le altre sottotracce sono associate a tabelle di database come segue:
formato genePred:
- RefSeq All – ncbiRefSeq
- RefSeq Curated – ncbiRefSeqCurated
- RefSeq Predicted – ncbiRefSeqPredicted
- RefSeq HGMD – ncbiRefSeqHgmd
- RefSeq Select+MANE – ncbiRefSeqSelect
- UCSC RefSeq – refGene
formato PSL:
- Allineamenti RefSeq – ncbiRefSeqPsl
La prima colonna di ciascuna di queste tabelle è “bin”. Questa colonna è progettata per accelerare l’accesso per la visualizzazione nel Genome Browser, ma può essere tranquillamente ignorata nelle analisi a valle. Puoi leggere di più sul sistema di indicizzazione binhere.
Le annotazioni nelle tracce RefSeqOther e RefSeqDiffs sono memorizzate in file bigBed, che possono essere ottenuti dal nostro server di download qui,ncbiRefSeqOther.bb e ncbiRefSeqDiffs.Le singole regioni o l’intero set di annotazioni a livello di genoma possono essere ottenute usando il nostro toolbigBedToBed che può essere compilato dal codice sorgente o scaricato come precompilato per il tuo sistema dalla directory delle utility collegata qui sotto. Per esempio, per estrarre solo le annotazioni in una data regione, puoi usare il seguente comando:
bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/ncbiRefSeq/ncbiRefSeqOther.bb-chrom=chr16 -start=34990190 -end=36727467 stdout
Puoi scaricare una versione in formato GTF della tabella RefSeq All dalla directory dei download GTF.Le tracce in formato genePred possono anche essere convertite in formato GTF usando l’utilitygenePredToGtf, disponibile nella directoryutilities sul server dei download UCSC. L’utilità può essere eseguita dalla linea di comando in questo modo:
genePredToGtf hg38 ncbiRefSeqPredicted ncbiRefSeqPredicted.gtf
Nota che usando genePredToGtf in questo modo si accede al nostro server pubblico MySQL, e quindi devi impostare il tuo hg.conf come descritto nella pagina MySQL collegata all’inizio della sezione Data Access.
Un file contenente le sequenze di RNA in formato FASTA per tutti gli elementi nelle tracce RefSeq All, RefSeq Curated, e RefSeq Predicted può essere trovato sul nostro server di downloadqui.
Si prega di fare riferimento ai nostri archivi della mailing list per le domande.
Le versioni precedenti del set di tracce ncbiRefSeq possono essere trovate sul nostro server di download dell’archivio.
Credits
Questa traccia è stata prodotta alla UCSC da dati generati da scienziati di tutto il mondo e curata dal progettoNCBI RefSeq.
Kent WJ.BLAT – the BLAST-like alignment tool. Genome Res. 2002 Apr;12(4):656-64.PMID: 11932250; PMC: PMC187518
Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J,Landrum MJ, McGarvey KM et al.RefSeq: un aggiornamento sulle sequenze di riferimento dei mammiferi.Nucleic Acids Res. 2014 Jan;42(Database issue):D756-63.PMID: 24259432; PMC: PMC3965018