NCBI RefSeq Track Settings

uppdateradNote: Uppdaterad 4 mars 2021

Beskrivning

NC NCBI RefSeq Genes composite track visar humana proteinkodande och icke-proteinkodande gener från NCBI RNA reference sequences collection (RefSeq). Alla underspår använder koordinater som tillhandahålls av RefSeq, utom UCSC RefSeq-spåret, som UCSC producerar genom att ställa in RefSeq-RNA:erna på genomet. Denna justering kan resultera i enstaka skillnader mellan de annotationskoordinater som tillhandahålls av UCSC och NCBI. För RNA-seq-analyser rekommenderar vi att man använder NCBI-anpassade tabeller som RefSeq All eller RefSeq Curated. Se avsnittet Metoder för mer information om hur de olika spåren skapades.

Besök NCBI:s sida Feedback for Gene and Reference Sequences (RefSeq) för att lämna förslag, skicka in tillägg och korrigeringar eller be om hjälp angående RefSeq-poster.

För mer information om de olika genspåren, se vår FAQ om gener.

Displaykonventioner och konfiguration

Det här spåret är ett sammansatt spår som innehåller olika datamängder.Om du bara vill visa en utvald uppsättning underspår avmarkerar du rutorna bredvid de spår som du vill dölja. Observera: Alla underspår är inte tillgängliga för alla sammansättningar.

De möjliga underspåren inkluderar: RefSeq-anpassade annotationer och UCSC-anpassning av RefSeq-annotationer

  • RefSeq All – alla kurerade och förutspådda annotationer som tillhandahålls av RefSeq.
  • RefSeq Curated – en delmängd av RefSeq All som endast omfattar de annotationer vars accesssioner börjar med NM, NR, NP eller YP. (NP och YP används endast för proteinkodande gener på mitokondrien; YP används endast för människor).
  • RefSeq Predicted – delmängd av RefSeq All som omfattar de annotationer vars accessioner börjar med XM eller XR.
  • RefSeq Other – alla andra annotationer som producerats av RefSeq-gruppen och som inte uppfyller kraven för att inkluderas i spåren RefSeq Curated eller RefSeq Predicted.
  • RefSeq Alignments – anpassningar av RefSeq RNA till det mänskliga genomet som tillhandahålls av RefSeq-gruppen, i enlighet med visningskonventionerna förPSL-spåren.
  • RefSeq Diffs – anpassningsskillnader mellan det eller de mänskliga referensgenomet(erna) och RefSeq-transkriptioner. (Spår som för närvarande inte är tillgängligt för alla sammansättningar.)
  • UCSC RefSeq – Annotationer som genererats från UCSC:s omjustering av RNA:er med NM- och NR-accessioner till det mänskliga genomet. Detta spår var tidigare känt som ”RefSeq Genes”-spåret.
  • RefSeq Select+MANE (subset) – Delmängd av RefSeq Curated, transkriptioner markerade som RefSeq Select eller MANE Select. Ett enda Select-transkript väljs som representativt för varje proteinkodande gen. Detta spår omfattar transkript som kategoriserats som MANE, som dessutom har godkänts som representativa av både NCBI RefSeq och Ensembl/GENCODE, och som har en 100 % identisk matchning med ett transkript i Ensembl-annotationen. Se NCBI RefSeq Select. Observera att vi tillhandahåller ett separat spår, MANE (hg38), som endast innehåller MANE-transkriptioner.
  • RefSeq HGMD (subset) – Delmängd av RefSeq Curated, transkript som annoterats av Human Gene Mutation Database. Detta spår är endast tillgängligt för de mänskliga genomerna hg19 och hg38. Det är den mest begränsade RefSeq-undermängden med inriktning på klinisk diagnostik.

Spåren RefSeq All, RefSeq Curated, RefSeq Predicted, RefSeq HGMD,RefSeq Select/MANE och UCSC RefSeq följer de visningskonventioner som gäller för gene prediktionsspåren.Färgskuggningen indikerar vilken granskningsnivå RefSeq-posten har genomgått: predikterad (ljus), provisorisk (medel) eller granskad (mörk), enligt RefSeqs definition.

Färg Granskningsnivå
Granskad: RefSeq-posten har granskats av NCBI-personal eller av en medarbetare. NCBI:s granskningsprocess omfattar en bedömning av tillgängliga sekvensdata och litteratur. Vissa RefSeq-poster kan innehålla utökad sekvens- och annotationsinformation.
Provisorisk: RefSeq-posten har ännu inte varit föremål för individuell granskning. Den initiala sekvens-till-gen-associationen har fastställts av externa medarbetare eller NCBI-personal.
Predicted: RefSeq-posten har ännu inte varit föremål för individuell granskning, och någon aspekt av RefSeq-posten är förutspådd.

Etiketternas etiketter och egenskaperna för visning av kodon för funktioner inom det här spåret kan konfigureras med hjälp av kontrollerna för kryssrutor längst upp på sidan med spårsbeskrivning. Om du vill justera inställningarna för ett enskilt underspår klickar du på skiftnyckelikonen bredvid spårnamnet i listan över underspår .

  • Etikett: Som standard märks objekt med gennamn. Klicka på lämpligt etikettalternativ för att visa accessionsnamnet eller OMIM-identifieraren i stället för gennamnet, visa alla eller en delmängd av dessa etiketter inklusive gennamn, OMIM-identifierare och accessionsnamn, eller stänga av etiketten helt.
  • Kodonfärgning: Det här spåret har en valfri funktion för kodonfärgning som gör det möjligt för användare att snabbt validera och jämföra genprediktioner. Om du vill visa kodonfärger väljer du alternativet genomiska kodoner från rullgardinsmenyn Color track by codons (Färga spår efter kodoner). Mer information om den här funktionen finns på sidan Färgläggning av genförutsägelser och kommentarer efter kodon.

The RefSeq Diffs track contains five different types of inconsistency between thereference genome sequence and the RefSeq transcript sequences. De fem typerna av skillnader är följande:

  • mismatch – anpassade baser som inte matchar varandra, plus HGVS g. för att visa den genomiska förändring som krävs för att matcha transkriptet och HGVS c./n. för att visa den transkriptförändring som krävs för att matcha genomet.
  • short gap – genomiska luckor som är för små för att vara introner (godtycklig gräns på < 45 bp), troligen varianter eller fel vid insättning/avlägsnande, med HGVS g. och HGVS c./n. som visar skillnaderna.
  • shift gap – shortGap-objekt vars placering skulle kunna förskjutas till vänster och/eller höger på genomet på grund av repetitiva sekvenser, med HGVS c./n. positionsintervallet för den tvetydiga regionen i transkriptet. Här används tunna och tjocka linjer – den tunna linjen visar den repetitiva sekvensens spännvidd och den tjocka linjen visar den mest till höger förskjutna luckan.
  • dubbel lucka – genomiska luckor som är tillräckligt långa för att vara introner men som hoppar över transkriptsekvensen (osynlig i standardinställningen), med HGVS c./n. deletion
  • överhoppad – sekvens i början eller slutet av ett transkript som inte är anpassad till genomet (osynlig i standardinställningen), med HGVS c./n. deletion

HGVS-terminologi (Human Genome Variation Society): g.

När du rapporterar HGVS med RefSeq-sekvenser, för att se till att resultat från forskningsartiklar kan mappas till genomet på ett otvetydigt sätt, ange den RefSeq-annotationsversion som visas på transkriptets sida med detaljer i Genome Browser och även RefSeq-transkript-ID med version (t.ex. NM_012309.4 och inte NM_012309).

Metoder

Spår som ingår i RefSeq-annotationen och RefSeq RNA-anpassningsspåren skapades vid UCSC med hjälp av data från NCBI RefSeq-projektet. Datafiler hämtades från RefSeq i GFF-filformat och konverterades till tabellerna genePred och PSL för visning i Genome Browser. Information om NCBI:s annoteringspipeline finns här.

The RefSeq Diffs track genereras av UCSC med hjälp av NCBI:s RefSeq RNA alignments.

The UCSC RefSeq Genes track konstrueras med hjälp av samma metoder som tidigare RefSeq Genes tracks.RefSeq RNAs anpassades mot det mänskliga genomet med hjälp av BLAT. De som hade en anpassning på mindre än 15 % valdes bort. När ett enskilt RNA anpassades på flera ställen identifierades den anpassning som hade den högsta basidentiteten. Endast anpassningar med en basidentitetsnivå inom 0,1 % av den bästa och minst 96 % basidentitet med den genomiska sekvensen behölls.

Dataåtkomst

Rådata för dessa spår kan nås på flera sätt. De kan utforskas interaktivt med hjälp av Table Browser eller Data Integrator. Tabellerna kan också nås programmatiskt via vår offentliga MySQL-server eller laddas ner från vår nedladdningsserver för lokal bearbetning. Du kan också få tillgång till alla RefSeq-tabeller i JSON-format via vårt JSON API.

Data i spåren RefSeq Other och RefSeq Diffs är organiserade i bigBed-filformat; mer information om hur du får tillgång till informationen i denna bigBed-fil finns nedan. De andra delspåren är kopplade till databastabeller enligt följande:

genePred-format:

  • RefSeq All – ncbiRefSeq
  • RefSeq Curated – ncbiRefSeqCurated
  • RefSeq Predicted – ncbiRefSeqPredicted
  • RefSeq HGMD –
    • RefSeq ncbiRefSeqHgmd
    • RefSeq Select+MANE – ncbiRefSeqSeqSelect
    • UCSC RefSeq – refGene

    PSL-format:

    • RefSeq Alignments – ncbiRefSeqPsl

    Den första kolumnen i dessa tabeller är ”bin”. Denna kolumn är utformad för att påskynda åtkomsten för visning i Genome Browser, men kan utan problem ignoreras i efterföljande analyser. Du kan läsa mer om bin-indexeringssystemet här.

    Anteckningarna i RefSeqOther- och RefSeqDiffs-spåren lagras i bigBed-filer, som kan hämtas från vår nedladdningsserver här,ncbiRefSeqOther.bb och ncbiRefSeqDiffs.bb.Enskilda regioner eller hela uppsättningen av annotationer över hela genomet kan erhållas med hjälp av vårt verktygbigBedToBed som kan kompileras från källkoden eller laddas ner som en förkompilerad binärfil för ditt system från den verktygskatalog som är länkad nedan. Om du till exempel vill extrahera endastannotationer i en viss region kan du använda följande kommando:

    bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/ncbiRefSeq/ncbiRefSeqOther.bb-chrom=chr16 -start=34990190 -end=36727467 stdout

    Du kan ladda ner en version i GTF-format av RefSeq All-tabellen från katalogen för nedladdningar av GTF.Spåren i genePred-formatet kan också konverteras till GTF-format med hjälp av verktygetgenePredToGtf som finns tillgängligt i katalogen för verktyg på UCSC:s nedladdningsserver. Verktyget kan köras från kommandoraden på följande sätt:

    genePredToGtf hg38 ncbiRefSeqPredicted ncbiRefSeqPredicted.gtf

    Notera att om du använder genePredToGtf på det här sättet får du tillgång till vår offentliga MySQL-server, och du måste därför ställa in din hg.conf enligt beskrivningen på MySQL-sidan som är länkad i början av avsnittet om dataåtkomst.

    En fil som innehåller RNA-sekvenser i FASTA-format för alla objekt i spåren RefSeq All, RefSeq Curated och RefSeq Predicted finns på vår server för nedladdningarhär.

    Vänligen hänvisas till våra arkiv för sändlistor för frågor.

    Förre versioner av ncbiRefSeq-spåren finns på vår nedladdningsserver.

    Credits

    Detta spår har producerats vid UCSC från data som genererats av forskare över hela världen och kuraterats avNCBI RefSeq-projektet.

    Kent WJ.BLAT – det BLAST-liknande anpassningsverktyget. Genome Res. 2002 Apr;12(4):656-64.PMID: 11932250; PMC: PMC187518

    Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J,Landrum MJ, McGarvey KM et al.RefSeq: an update on mammalian reference sequences.Nucleic Acids Res. 2014 Jan;42(Database issue):D756-63.PMID: 24259432; PMC: PMC3965018

    .

Lämna ett svar

Din e-postadress kommer inte publiceras.