opdateretNote: Opdateret 4. marts 2021
Beskrivelse
Det sammensatte NCBI RefSeq Genes-spor viser menneskelige protein-kodende og ikke-protein-kodende gener fra NCBI RNA-referencesekvenssamlingen (RefSeq). Alle underspor anvender koordinater leveret af RefSeq, bortset fra UCSC RefSeq-sporet, som UCSC producerer ved at tilpasse RefSeq RNA’erne til genomet. Denne justering kan resultere i lejlighedsvise forskelle mellem de annotationskoordinater, der leveres af UCSC og NCBI. Til RNA-seq-analyser anbefaler vi, at man anvender NCBI-justerede tabeller som RefSeq All eller RefSeq Curated. Se afsnittet Metoder for flere oplysninger om, hvordan de forskellige spor blev oprettet.
Besøg NCBI’s Feedback for Gene and Reference Sequences (RefSeq) side for at komme med forslag, indsende tilføjelser og rettelser eller bede om hjælp vedrørende RefSeq-poster.
For yderligere oplysninger om de forskellige genspor, se vores ofte stillede spørgsmål om gener.
Anvisningskonventioner og konfiguration
Dette spor er et sammensat spor, der indeholder forskellige datasæt.Hvis du kun vil vise et udvalgt sæt af underspor, skal du fjerne markeringen af felterne ud for de spor, som du ønsker at skjule. Bemærk: Ikke alle underspor er tilgængelige på alle samlinger.
De mulige underspor omfatter: RefSeq-justerede annotationer og UCSC-justering af RefSeq-annotationer
- RefSeq All – alle kuraterede og forudsagte annotationer leveret af RefSeq.
- RefSeq Curated – delmængde af RefSeq All, der kun omfatter de annotationer, hvis accessionsnumre begynder med NM, NR, NP eller YP. (NP og YP anvendes kun for proteinkodende gener på mitokondriet; YP anvendes kun for mennesker).
- RefSeq Predicted – delmængde af RefSeq All, der omfatter de annotationer, hvis accessionsnumre begynder med XM eller XR.
- RefSeq Other – alle andre annotationer produceret af RefSeq-gruppen, der ikke opfylder kravene til optagelse i RefSeq Curated- eller RefSeq Predicted-sporene.
- RefSeq Alignments – tilpasninger af RefSeq RNA’er til det menneskelige genom leveret af RefSeq-gruppen, der følger visningskonventionerne forPSL-spor.
- RefSeq Diffs – tilpasningsforskelle mellem det eller de menneskelige referencegenomer og RefSeq-transskriptioner. (Sporet er i øjeblikket ikke tilgængeligt for alle samlinger.)
- UCSC RefSeq – annotationer, der er genereret fra UCSC’s genretablering af RNA’er med NM- og NR-adgang til det menneskelige genom. Dette spor var tidligere kendt som “RefSeq Genes”-sporet.
- RefSeq Select+MANE (delmængde) – delmængde af RefSeq Curated, transkriptioner markeret som RefSeq Select eller MANE Select. Et enkelt Select-transkript er valgt som repræsentativt for hvert proteinkodende gen. Dette spor omfatter transkriptioner, der er kategoriseret som MANE, og som er yderligere godkendt som repræsentative af både NCBI RefSeq og Ensembl/GENCODE, og som har et 100 % identisk match med en transkription i Ensembl-annotationen. Se NCBI RefSeq Select. Bemærk, at vi tilbyder et separat spor, MANE (hg38), som kun indeholder MANE-transskriptioner.
- RefSeq HGMD (delmængde) – Delmængde af RefSeq Curated, transkriptioner annoteret af Human Gene Mutation Database. Dette spor er kun tilgængeligt på de menneskelige genomer hg19 og hg38. Det er den mest begrænsede RefSeq-undergruppe, der er rettet mod klinisk diagnostik.
RefSeq All, RefSeq Curated, RefSeq Predicted, RefSeq HGMD,RefSeq Select/MANE og UCSC RefSeq-sporerne følger visningskonventionerne for gene prediktionsspor.Farvefarven angiver det niveau af gennemgang, som RefSeq-posten har gennemgået: predicted (lys), provisional (medium) eller reviewed (mørk), som defineret af RefSeq.
Farve | Gennemgangens niveau |
---|---|
Reviewed: RefSeq-posten er blevet gennemgået af NCBI-medarbejdere eller af en samarbejdspartner. NCBI’s gennemgangsproces omfatter en vurdering af tilgængelige sekvensdata og litteraturen. Nogle RefSeq-poster kan indeholde udvidede sekvens- og annotationsoplysninger. | |
Provisional: RefSeq-posten har endnu ikke været genstand for en individuel gennemgang. Den oprindelige sekvens-til-gen-tilknytning er blevet etableret af eksterne samarbejdspartnere eller NCBI-medarbejdere. | |
Predicted: RefSeq-posten har endnu ikke været genstand for individuel gennemgang, og et eller andet aspekt af RefSeq-posten er forudset. |
Etiketterne og egenskaberne for kodonvisning for funktioner i dette spor kan konfigureres ved hjælp af kontrolkasserne øverst på siden med sporbeskrivelse. Hvis du vil justere indstillingerne for et individuelt underspor, skal du klikke på skruenøgleikonet ud for spornavnet på listen over underspor .
- Label: Som standard er emnerne mærket med gennavn. Klik på den relevante Label-indstilling for at vise accession-navnet eller OMIM-identifikatoren i stedet for gennavnet, vise alle eller en delmængde af disse labels, herunder gennavnet, OMIM-identifikatoren og accession-navnene, eller slå labelet helt fra.
- Codon coloring (kodonfarvning): Dette spor har en valgfri funktion til kodonfarvning, der giver brugerne mulighed for hurtigt at validere og sammenligne genprædiktioner. Hvis du vil vise kodonfarver, skal du vælge indstillingen genomiske kodoner i rullemenuen Color track by codons (Farve spor efter kodoner). Du kan få flere oplysninger om denne funktion ved at gå til siden Farvelægning af genforudsigelser og annotationer efter codon.
Sporet RefSeq Diffs indeholder fem forskellige typer af uoverensstemmelser mellem derference-genomsekvensen og RefSeq-transkriptsekvenserne. De fem typer af forskelleområder er følgende:
- mismatch – tilpassede, men ikke matchende baser, plus HGVS g. for at vise den genomiske ændring, der kræves for at matche transkriptet, og HGVS c./n. for at vise den transkriptændring, der kræves for at matche genomet.
- short gap – genomiske huller, der er for små til at være introner (arbitrær grænseværdi på < 45 bp), sandsynligvis indsætnings-/deletionsvarianter eller fejl, med HGVS g. og c./n., der viser forskelle.
- shift gap – shortGap-elementer, hvis placering kan være forskudt til venstre og/eller højre på genomet på grund af gentagende sekvenser, med HGVS c./n. positionsinterval for tvetydig region i transkriptet. Her anvendes tynde og tykke linjer – den tynde linje viser den repetitive sekvens’ spændvidde, og den tykke linje viser det mest til højre forskudte hul.
- double gap – genomiske huller, der er lange nok til at være introner, men som springer over transkriptsekvensen (usynlig i standardindstillingen), med HGVS c./n. deletion.
- skipped – sekvens i begyndelsen eller slutningen af et transkript, der ikke er afstemt med genomet (usynlig i standardindstillingen), med HGVS c./n. deletion
HGVS Terminologi (Human Genome Variation Society): g. = genomisk sekvens; c. = kodende DNA-sekvens; n. = ikke-kodende RNA-referencesekvens.
Ved rapportering af HGVS med RefSeq-sekvenser skal du for at sikre, at resultater fra forskningsartikler kan kortlægges entydigt til genomet, angive den RefSeq-annotationsudgave, der vises på transkriptetsGenome Browser-detaljeside, og også RefSeq-transkript-ID med version (f.eks. NM_012309.4 og ikke NM_012309).
Metoder
Sporene i RefSeq-annotationen og RefSeq RNA-udligningssporene blev oprettet på UCSC ved hjælp af data fra NCBI RefSeq-projektet. Datafiler blev downloadet fra RefSeq i GFF-filformat og konverteret til genePred- og PSL-tabelleformatet med henblik på visning i Genome Browser. Oplysninger om NCBI’s annotationspipeline kan findes her.
RefSeq Diffs-sporet er genereret af UCSC ved hjælp af NCBI’s RefSeq RNA-udligninger.
UCSC RefSeq Genes-sporet er konstrueret ved hjælp af de samme metoder som tidligere RefSeq Genes-spor.RefSeq RNA’er blev udlignet mod det menneskelige genom ved hjælp af BLAT. De med en tilpasning på mindre end 15 % blev kasseret. Når et enkelt RNA blev tilpasset flere steder, blev den tilpasning, der havde den højeste baseidentitet, identificeret. Kun tilpasninger med et baseidentitetsniveau inden for 0,1 % af det bedste og mindst 96 % baseidentitet med genomsekvensen blev bevaret.
Dataadgang
Råddataene for disse spor kan tilgås på flere måder. De kan udforskes interaktivt ved hjælp af Table Browser eller Data Integrator. Tabellerne kan også tilgås programmatisk via voresoffentlige MySQL-server eller downloades fra voresdownloadserver til lokal behandling. Du kan også få adgang til alle RefSeq-tabellenotater i JSON-format via vores JSON API.
Dataene i RefSeq Other- og RefSeq Diffs-sporene er organiseret i bigBed-filformat; der findes flere oplysninger om adgang til oplysningerne i denne bigBed-fil nedenfor. De andre underspor er forbundet med databasetabeller som følger:
genePred-format:
- RefSeq All – ncbiRefSeq
- RefSeq Curated – ncbiRefSeqCurated
- RefSeq Predicted – ncbiRefSeqPredicted
- RefSeq HGMD –
- RefSeq ncbiRefSeqSeqHgmd
- RefSeq Select+MANE – ncbiRefSeqSeqSelect
- UCSC RefSeq – refGene
PSL-format:
- RefSeq Alignments – ncbiRefSeqPsl
Den første kolonne i hver af disse tabeller er “bin”. Denne kolonne er beregnet til at fremskynde adgangen til visning i Genome Browser, men kan uden problemer ignoreres i downstreamanalyser. Du kan læse mere om bin-indekseringssystemet her.
Annotationerne i RefSeqOther- og RefSeqDiffs-sporene er gemt i bigBed-filer, som kan hentes fra vores download-server her,ncbiRefSeqOther.bb og ncbiRefSeqDiffs.bb.Individuelle regioner eller hele sættet af genomdækkende annotationer kan hentes ved hjælp af vores værktøjbigBedToBed, som kan kompileres fra kildekoden eller downloades som en forkompileret binær fil til dit system fra den nedenfor linkede mappe med værktøjer. Hvis du f.eks. kun vil udtrække annotationer i en given region, kan du bruge følgende kommando:
bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/ncbiRefSeq/ncbiRefSeqOther.bb-chrom=chr16 -start=34990190 -end=36727467 stdout
Du kan downloade en version i GTF-format af RefSeq All-tabellen fra GTF-downloadmappen.GenPred-formatsporene kan også konverteres til GTF-format ved hjælp af værktøjetgenePredToGtf, der findes i mappenutilities på UCSC’s downloadserver. Værktøjet kan køres fra kommandolinjen på følgende måde:
genePredToGtf hg38 ncbiRefSeqPredicted ncbiRefSeqPredicted.gtf
Bemærk, at brugen af genePredToGtf på denne måde giver adgang til vores offentlige MySQL-server, og du skal derfor opsætte din hg.conf som beskrevet på MySQL-siden, der er linket til nær begyndelsen af af afsnittet om dataadgang.
En fil med RNA-sekvenserne i FASTA-format for alle elementer i sporene RefSeq All, RefSeq Curated og RefSeq Predicted findes på vores downloads-serverher.
Her henvises til vores postlistearkiver for spørgsmål.
Forrige versioner af ncbiRefSeq-sporene kan findes på vores arkivdownloadserver.
Credits
Dette spor blev produceret på UCSC fra data genereret af forskere over hele verden og kurateret afNCBI RefSeq-projektet.
Kent WJ.BLAT – det BLAST-lignende tilpasningsværktøj. Genome Res. 2002 Apr;12(4):656-64.PMID: 11932250; PMC: PMC187518
Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J,Landrum MJ, McGarvey KM et al.RefSeq: an update on mammalian reference sequences.Nucleic Acids Res. 2014 Jan;42(Database issue):D756-63.PMID: 24259432; PMC: PMC3965018