updatedNote: Bijgewerkt op 4 mrt. 2021
Description
Het NCBI RefSeq Genes composite track toont menselijke eiwitcoderende en niet-eiwitcoderende genen uit de NCBI RNA reference sequences collection (RefSeq). Alle subtracks gebruiken de coördinaten van RefSeq, behalve het UCSC RefSeq-spoor, dat UCSC produceert door de RefSeq RNA’s op het genoom af te stemmen. Deze herschikking kan leiden tot incidentele verschillen tussen de annotatiecoördinaten van UCSC en NCBI. Voor RNA-seq analyse, adviseren wij gebruik NCBI uitgelijnde tabellen zoals RefSeq All of RefSeq Curated. Zie de sectie Methoden voor meer details over hoe de verschillende sporen werden gemaakt.
Bezoek NCBI’s Feedback for Gene and Reference Sequences (RefSeq) pagina om suggesties te doen, aanvullingen en correcties voor te leggen, of om hulp te vragen bij RefSeq records.
Voor meer informatie over de verschillende gen-sporen, zie onze Genen FAQ.
Weergaveconventies en configuratie
Dit spoor is een samengesteld spoor dat verschillende datasets bevat. Om alleen een geselecteerde set van sub-sporen te tonen, vinkt u de vakjes naast de sporen die u wilt verbergen aan. Opmerking: Niet alle subtracts zijn beschikbaar op alle assemblies.
De mogelijke subtracks zijn onder andere: RefSeq uitgelijnde annotaties en UCSC uitlijning van RefSeq annotaties
- RefSeq All – alle gecureerde en voorspelde annotaties geleverd door RefSeq.
- RefSeq Curated – subset van RefSeq All die alleen die annotaties bevat waarvan de accessies beginnen met NM, NR, NP of YP. (NP en YP worden alleen gebruikt voor eiwitcoderende genen op het mitochondrion; YP wordt alleen gebruikt voor de mens).
- RefSeq Predicted – subset van RefSeq All die annotaties bevat waarvan de accessies beginnen met XM of XR.
- RefSeq Other – alle andere annotaties geproduceerd door de RefSeq groep die niet voldoen aan de eisen voor opname in de RefSeq Curated of de RefSeq Predicted tracks.
- RefSeq Alignments – alignments van RefSeq RNA’s aan het menselijk genoom, geleverd door de RefSeq groep, volgens de weergaveconventies voorPSL tracks.
- RefSeq Diffs – alignment differences tussen het menselijk referentiegenoom (de menselijke referentiegenomen) en RefSeq transcripts. (Track momenteel niet voor elke assemblage beschikbaar.)
- UCSC RefSeq – annotaties gegenereerd uit UCSC’s herschikking van RNA’s met NM- en NR-toegangen tot het menselijk genoom. Dit spoor was voorheen bekend als het spoor “RefSeq Genen”.
- RefSeq Select+MANE (subset) – Subset van RefSeq Curated, transcripten gemarkeerd als RefSeq Select of MANE Select. Voor elk eiwitcoderend gen wordt één Select-transcript als representatief gekozen. Deze track omvat transcripten die als MANE zijn gecategoriseerd, die door zowel NCBI RefSeq als Ensembl/GENCODE als representatief worden beschouwd, en een 100% identieke overeenkomst hebben met een transcript in de Ensembl-annotatie. Zie NCBI RefSeq Select. Merk op dat wij een apart spoor aanbieden, MANE (hg38), dat alleen de MANE-transcripten bevat.
- RefSeq HGMD (subset) – Subset van RefSeq Curated, transcripten geannoteerd door de Human Gene Mutation Database. Deze track is alleen beschikbaar op de humane genomen hg19 en hg38. Het is de meest beperkte RefSeq-subset, gericht op klinische diagnostiek.
De RefSeq All, RefSeq Curated, RefSeq Predicted, RefSeq HGMD,RefSeq Select/MANE en UCSC RefSeq tracks volgen de weergaveconventies voorgene prediction tracks. De kleurschakering geeft aan welk niveau van review het RefSeq record heeft ondergaan: predicted (licht), provisional (medium), of reviewed (donker), zoals gedefinieerd door RefSeq.
Kleur | Reviewniveau |
---|---|
Reviewed: het RefSeq-record is door NCBI-medewerkers of door een medewerker gereviewd. Het NCBI-beoordelingsproces omvat een beoordeling van de beschikbare sequentiegegevens en de literatuur. Sommige RefSeq-records kunnen uitgebreide sequentie- en annotatie-informatie bevatten. | |
Provisional: het RefSeq-record is nog niet onderworpen aan een individuele beoordeling. De initiële sequentie-genassociatie is vastgesteld door externe medewerkers of NCBI-medewerkers. | |
Voorspeld: het RefSeq-record is nog niet onderworpen aan een individuele beoordeling, en een bepaald aspect van het RefSeq-record is voorspeld. |
De itemlabels en codonweergave-eigenschappen voor kenmerken binnen deze track kunnen worden geconfigureerd via de selectievakjes bovenaan de pagina met de beschrijving van de track. Om de instellingen voor een individuele subtrack aan te passen, klikt u op het moersleutel-icoon naast de tracknaam in de subtracklijst .
- Label: Standaard worden items gelabeld met de gennaam. Klik op de juiste Label-optie om de toetredingsnaam of OMIM-identifier weer te geven in plaats van de gennaam, toon alle of een subset van deze labels inclusief de gennaam, OMIM-identifier en toetredingsnamen, of zet het label volledig uit.
- Codon-kleuring: Deze track heeft een optionele codon kleuringsfunctie die gebruikers toelaat om snel genvoorspellingen te valideren en te vergelijken. Om codon-kleuren weer te geven, selecteert u de genomische codons-optie uit het kleurspoor op codons-afrolmenu. Ga voor meer informatie over deze functie naar de pagina Kleur genvoorspellingen en annotaties per codon.
Het RefSeq Diffs-spoor bevat vijf verschillende soorten verschillen tussen de genoomsequentie van erferentie en de RefSeq transcriptsequenties. De vijf soorten verschillen gebieden als volgt:
- mismatch – uitgelijnde maar niet overeenkomende basen, plus HGVS g. om de genomische verandering aan te geven die nodig is om het transcript te evenaren en HGVS c./n. om de transcript verandering aan te geven die nodig is om het genoom te evenaren.
- short gap – genomische hiaten die te klein zijn om introns te zijn (arbitraire cutoff van < 45 bp), hoogstwaarschijnlijk insertie/deletie-varianten of fouten, met HGVS g. en c./n. die verschillen aangeven.
- shift gap – shortGap items waarvan de plaatsing links en/of rechts van het genoom kan worden verschoven als gevolg van repetitieve sequentie, met HGVS c./n. positiebereik van ambigue regio in transcript. Hier worden dunne en dikke lijnen gebruikt — de dunne lijn toont het bereik van de repetitieve sequentie, en de dikke lijn toont het meest rechtse verschoven hiaat.
- double gap – genomische gaten die lang genoeg zijn om introns te zijn, maar die de transcriptsequentie overslaan (onzichtbaar in de standaardinstelling), met HGVS c./n. deletion.
- skipped – sequentie aan het begin of einde van een transcript die niet is uitgelijnd met het genoom (onzichtbaar in de standaardinstelling), met HGVS c./n. deletion
HGVS Terminologie (Human Genome Variation Society):g. = genoomsequentie ; c. = coderende DNA sequentie ; n. = niet-coderende RNA referentie sequentie.
Wanneer HGVS met RefSeq sequenties wordt gerapporteerd, om er zeker van te zijn dat de resultaten van onderzoeksartikelen ondubbelzinnig aan het genoom kunnen worden gekoppeld, gelieve dan de RefSeq annotatie release te specificeren die op de Genome Browser details pagina van het transcript wordt getoond en ook de RefSeq transcript ID met versie (b.v. NM_012309.4 niet NM_012309).
Methods
Sporen in de RefSeq annotatie en RefSeq RNA uitlijning sporen werden gemaakt bij UCSC met behulp van gegevens uit het NCBI RefSeq project. Gegevensbestanden werden gedownload van RefSeq in GFF-bestandsformaat en omgezet naar de genePred en PSL tabelformaten voor weergave in de Genome Browser. Informatie over de NCBI annotatie pijplijn kan hier worden gevonden.
Het RefSeq Diffs spoor is gegenereerd door UCSC met behulp van NCBI’s RefSeq RNA alignments.
Het UCSC RefSeq Genen spoor is geconstrueerd met behulp van dezelfde methoden als eerdere RefSeq Genen sporen.RefSeq RNA’s werden uitgelijnd tegen het menselijk genoom met behulp van BLAT. RNA’s met een uitlijning van minder dan 15% werden verwijderd. Wanneer een enkel RNA op meerdere plaatsen was uitgelijnd, werd de uitlijning met de hoogste basenidentiteit geïdentificeerd. Alleen uitlijningen met een basisidentiteitsniveau binnen 0,1% van de beste en ten minste 96% basisidentiteit met de genoomsequentie werden bewaard.
Toegang tot de gegevens
De ruwe gegevens voor deze sporen kunnen op verschillende manieren worden geraadpleegd. Ze kunnen interactief worden verkend met behulp van de tabelbrowser of de gegevensintegrator. De tabellen kunnen ook programmatisch benaderd worden via onze publieke MySQL server of gedownload worden van onze download server voor lokale verwerking. U kunt ook toegang krijgen tot alle RefSeq tabelgegevens in JSON formaat via onze JSON API.
De gegevens in de RefSeq Other en RefSeq Diffs tracks zijn georganiseerd in bigBed bestandsformaat; meer informatie over de toegang tot de informatie in dit bigBed bestand kan hieronder worden gevonden. De andere subtracks zijn geassocieerd met databasetabellen als volgt:
genePred formaat:
- RefSeq All – ncbiRefSeq
- RefSeq Curated – ncbiRefSeqCurated
- RefSeq Predicted – ncbiRefSeqPredicted
- RefSeq HGMD – ncbiRefSeqHgmd
- RefSeq Select+MANE – ncbiRefSeqSelect
- UCSC RefSeq – refGene
PSL-indeling:
- RefSeq Alignments – ncbiRefSeqPsl
De eerste kolom van elk van deze tabellen is “bin”. Deze kolom is bedoeld om de toegang te versnellen voor weergave in de Genome Browser, maar kan veilig worden genegeerd in downstream-analyses. U kunt hier meer lezen over het bin indexeringssysteem.
De annotaties in de RefSeqOther en RefSeqDiffs tracks worden opgeslagen in bigBed bestanden, die kunnen worden verkregen van onze downloadserver hier,ncbiRefSeqOther.bb en ncbiRefSeqDiffs.bb.Afzonderlijke regio’s of de hele set van genoom-brede annotaties kunnen worden verkregen met behulp van onze tool bigBedToBed, die kan worden gecompileerd uit de broncode of gedownload als een pre-gecompileerdebinary voor uw systeem uit de utilities directory hieronder gelinkt. Om bijvoorbeeld alleen annotaties in een bepaalde regio te extraheren, kunt u het volgende commando gebruiken:
bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/ncbiRefSeq/ncbiRefSeqOther.bb-chrom=chr16 -start=34990190 -end=36727467 stdout
U kunt een GTF-formaat versie van de RefSeq All tabel downloaden uit de GTF downloads directory.De genPred formaat tracks kunnen ook worden geconverteerd naar GTF-formaat met behulp van het genePredToGtf hulpprogramma, beschikbaar in deutilities directory op de UCSC downloads server. Het hulpprogramma kan vanaf de opdrachtregel als volgt worden uitgevoerd:
genePredToGtf hg38 ncbiRefSeqPredicted ncbiRefSeqPredicted.gtf
Merk op dat het gebruik van genePredToGtf op deze manier toegang geeft tot onze publieke MySQL server, en u moet daarom uw hg.conf instellen zoals beschreven op de MySQL pagina gelinkt aan het begin van de Data Accesssectie.
Een bestand met de RNA-sequenties in FASTA-formaat voor alle items in de RefSeq All, RefSeq Curated, en RefSeq Predicted tracks is te vinden op onze downloadserver hier.
Raadpleeg onze mailinglijst archieven voor vragen.
Vorige versies van de ncbiRefSeq-reeks van sporen kunnen op onze archief downloadserver worden gevonden.
Credits
Deze spoor werd geproduceerd bij UCSC van gegevens die door wetenschappers wereldwijd worden gegenereerd en door hetNCBI RefSeq-project worden gecureerd.
Kent WJ.BLAT – the BLAST-like alignment tool. Genome Res. 2002 Apr;12(4):656-64.PMID: 11932250; PMC: PMC187518
Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J,Landrum MJ, McGarvey KM et al.RefSeq: an update on mammalian reference sequences.Nucleic Acids Res. 2014 Jan;42(Database issue):D756-63.PMID: 24259432; PMC: PMC3965018