päivitettyHuomautus: Päivitetty 4.3.2021
Kuvaus
NCBI RefSeq Genes -yhdistelmäraidalla näytetään ihmisen proteiineja koodaavia ja muita kuin proteiineja koodaavia geenejä, jotka on poimittu NCBI:n RNA:n referenssisekvenssikokoelmasta (RefSeq). Kaikki alaradat käyttävät RefSeqin antamia koordinaatteja lukuun ottamatta UCSC:n RefSeq-rataa, jonka UCSC tuottaa kohdistamalla RefSeqin RNA:t genomiin. Tämä uudelleensuuntaus voi aiheuttaa satunnaisia eroja UCSC:n ja NCBI:n antamien annotaatiokoordinaattien välillä. RNA-seq-analyysejä varten suosittelemme käyttämään NCBI:n kohdistettuja taulukoita, kuten RefSeq All tai RefSeq Curated. Lisätietoja siitä, miten eri raidat on luotu, on kohdassa Menetelmät.
Käy NCBI:n Feedback for Gene and Reference Sequences (RefSeq) -sivulla tekemässä ehdotuksia, lähettämässä lisäyksiä ja korjauksia tai pyytämässä apua RefSeq-tietueisiin liittyen.
Lisätietoja eri geeniradoista on Genes FAQ:ssa.
Näyttökäytännöt ja konfigurointi
Tämä rata on yhdistetty rata, joka sisältää erilaisia tietokokonaisuuksia.Jos haluat näyttää vain valitun joukon alaratoja, poista valintaruudut niiden ratojen vierestä, jotka haluat piilottaa. Huomautus: Kaikki alaradat eivät ole käytettävissä kaikissa kokoonpanoissa.
Mahdollisia alaratoja ovat mm: RefSeq aligned annotations and UCSC alignment of RefSeq annotations
- RefSeq All – kaikki kuratoidut ja ennustetut annotaatiot, jotka RefSeq tarjoaa.
- RefSeq Curated – RefSeq All:n osajoukko, joka sisältää vain ne annotaatiot, joiden merkinnät alkavat NM-, NR-, NP- tai YP-kirjaimilla. (NP:tä ja YP:tä käytetään vain mitokondrion proteiinia koodaavista geeneistä; YP:tä käytetään vain ihmisestä).
- RefSeq Predicted – RefSeq All:n osajoukko, joka sisältää ne annotaatiot, joiden merkinnät alkavat XM:llä tai XR:llä.
- RefSeq Other – kaikki muut RefSeq-ryhmän tuottamat annotaatiot, jotka eivät täytä vaatimuksia, joiden perusteella ne voidaan sisällyttää RefSeq Curated- tai RefSeq Predicted -kappaleisiin.
- RefSeq Alignments – RefSeq-ryhmän toimittamat RefSeq RNA:iden kohdistukset ihmisen genomiin noudattaenPSL-ratojen näyttökonventioita.
- RefSeq Diffs – ihmisen referenssigenomin (referenssigenomien) ja RefSeq-transkriptien väliset kohdistuserot. (Rata ei ole tällä hetkellä saatavilla jokaiselle assemblaatiolle.)
- UCSC RefSeq – annotaatiot, jotka on tuotettu UCSC:n NM- ja NR-aksessioiden NM- ja NR-aksessioiden RNA:iden uudelleensuuntauksesta ihmisen genomiin. Tämä raita tunnettiin aiemmin nimellä ”RefSeq Genes”-raita.
- RefSeq Select+MANE (osajoukko) – RefSeq Curatedin osajoukko, transkriptiot, jotka on merkitty RefSeq Selectiksi tai MANE Selectiksi. Yksi Select-transkripti valitaan edustavaksi kullekin proteiinia koodaavalle geenille. Tämä raita sisältää MANE-luokkaan luokitellut transkriptit, jotka on lisäksi sovittu edustaviksi sekä NCBI RefSeqin että Ensembl/GENCODEn toimesta ja joilla on 100-prosenttisesti identtinen vastaavuus Ensemblin annotaatiossa olevan transkriptin kanssa. Katso NCBI RefSeq Select. Huomaa, että tarjoamme erillisen raidan MANE (hg38), joka sisältää vain MANE-transkriptejä.
- RefSeq HGMD (subset) – RefSeq Curatedin osajoukko, Human Gene Mutation Database -tietokannassa annotoidut transkriptit. Tämä raita on käytettävissä vain ihmisen genomeissa hg19 ja hg38. Se on rajoitetuin RefSeq-osajoukko, joka on suunnattu kliiniseen diagnostiikkaan.
RefSeq All-, RefSeq Curated-, RefSeq Predicted-, RefSeq HGMD-, RefSeq Select/MANE- ja UCSC RefSeq -raidat noudattavat gene prediction -raidoille tyypillisiä esityskäytäntöjä.Värivarjostus ilmaisee RefSeq-tietueelle suoritetun tarkistuksen tason: predicted (vaalea), provisional (keskipitkänmallinen) tai reviewed (tummansävyinen) RefSeq:n määrittelemällä tavalla.
Väri | Tarkistuksen taso |
---|---|
Reviewed: NCBI:n henkilökunta tai yhteistyökumppani on tarkistanut RefSeq-tietueen. NCBI:n tarkistusprosessiin kuuluu saatavilla olevan sekvenssidatan ja kirjallisuuden arviointi. Jotkin RefSeq-tietueet saattavat sisältää laajennettuja sekvenssi- ja annotaatiotietoja. | |
Provisional: RefSeq-tietuetta ei ole vielä tarkastettu erikseen. Ulkopuoliset yhteistyökumppanit tai NCBI:n henkilökunta on vahvistanut alkuperäisen sekvenssi-geeni-assosiaatioyhteyden. | |
Predicted: RefSeq-tietue ei ole vielä ollut yksilöllisen tarkistuksen kohteena, ja RefSeq-tietueen jokin osa-alue on ennustettu. |
Kohdan merkinnät ja koodonien esittämisominaisuudet tämän raidan piirteille voidaan määrittää raidan kuvaussivun yläreunan valintaruudun säätimien avulla. Voit säätää yksittäisen alaradan asetuksia napsauttamalla alarata-luettelossa radan nimen vieressä olevaa jakoavaimen kuvaketta.
- Label: Oletusarvoisesti kohteet merkitään geenin nimen mukaan. Napsauttamalla asianmukaista Label-vaihtoehtoa voit näyttää geenin nimen sijasta liittymänimen tai OMIM-tunnisteen, näyttää kaikki tai osajoukon näistä merkinnöistä, mukaan lukien geenin nimi, OMIM-tunniste ja liittymänimet, tai kytkeä merkinnät kokonaan pois päältä.
- Codon coloring: Tällä raidalla on valinnainen koodonien väritysominaisuus, jonka avulla käyttäjät voivat nopeasti validoida ja vertailla geeniennusteita. Jos haluat näyttää koodonien värit, valitse Genomic codons -vaihtoehto Color track by codons -pudotusvalikosta. Lisätietoja tästä ominaisuudesta on sivulla Coloring Gene Predictions and Annotations by Codon page (Geeniennusteiden ja merkintöjen värittäminen koodoneittain).
RefSeq Diffs -raita sisältää viisi erityyppistä epäjohdonmukaisuutta referenssin genomisekvenssin ja RefSeq-transkriptisekvenssien välillä. Viisi erityyppistä eroaluetta ovat seuraavat:
- mismatch – kohdistetut, mutta epäsuhtaiset emäkset, sekä HGVS g. osoittamaan genomimuutoksen, joka vaaditaan transkriptin vastaavuuden saavuttamiseksi, ja HGVS c./n. osoittamaan transkriptimuutoksen, joka vaaditaan genomin vastaavuuden saavuttamiseksi.
- short gap – genomin aukot, jotka ovat liian pieniä ollakseen introneja (mielivaltainen rajaus < 45 bp), todennäköisimmin insertio-/deleetiovariantteja tai virheitä, HGVS g. ja c./n. osoittavat erot.
- shift gap – shortGap-elementit, joiden sijoittuminen voisi olla siirtynyt vasemmalle ja/tai oikealle genomissa toistuvan sekvenssin vuoksi, HGVS c./n.:n kanssa transkriptiossa olevan epäselvän alueen sijaintivalikoima. Tässä käytetään ohuita ja paksuja viivoja – ohut viiva osoittaa toistuvan sekvenssin alueen ja paksu viiva osoittaa oikeanpuoleisimman siirtyneen aukon.
- kaksinkertainen aukko – genomin aukkoja, jotka ovat riittävän pitkiä ollakseen introneja, mutta jotka ohittavat transkriptin sekvenssin (näkymätön oletusasetuksessa), HGVS c./n. deletion kanssa.
- skipped – transkriptin alussa tai lopussa oleva sekvenssi, jota ei ole linjattu genomiin (näkymätön oletusasetuksessa), HGVS c./n. deletion kanssa
HGVS-terminologiaa (Human Genome Variation Societyn kanssa):g. = genomisekvenssi ; c. = koodaava DNA-sekvenssi ; n. = ei-koodaava RNA-referenssisekvenssi.
Kun ilmoitat HGVS:n RefSeq-sekvenssien kanssa, jotta varmistetaan, että tutkimusartikkelien tulokset voidaan kartoittaa genomiin yksiselitteisesti, ilmoita transkriptin Genome Browser -tietosivulla näkyvä RefSeq-annotaation julkaisu sekä RefSeq-transkriptin tunniste versiolla varustettuna (esim. NM_012309.4, ei NM_012309).
Metodit
RefSeq-annotaation sisältämät raidat ja RefSeq RNA-kohdistusraidat on luotu UCSC:ssä käyttäen NCBI:n RefSeq-projektin tietoja. Datatiedostot ladattiin RefSeqistä GFF-tiedostomuodossa ja muunnettiin genePred- ja PSL-taulukkomuotoihin Genome Browserissa näyttämistä varten. Tietoa NCBI:n annotaatioputkesta löytyy täältä.
RefSeq Diffs -rata on luotu UCSC:ssä käyttäen NCBI:n RefSeq RNA:n kohdistuksia.
UCSC:n RefSeq Genes -rata on luotu käyttäen samoja menetelmiä kuin aiemmat RefSeq Genes -radat.RefSeq RNA:t kohdistettiin ihmisen genomiin BLAT:lla. Ne, joiden kohdistus oli alle 15 %, hylättiin. Jos yksi RNA oli linjattu useaan paikkaan, tunnistettiin linjaus, jolla oli suurin emäsidentiteetti. Ainoastaan linjaukset, joiden emäsidentiteettitaso oli alle 0,1 % parhaasta ja joiden emäsidentiteetti genomisekvenssin kanssa oli vähintään 96 %, säilytettiin.
Data Access
Tämän kappaleen raakadataa voi käyttää usealla eri tavalla. Niitä voidaan tutkia interaktiivisesti Table Browserin tai Data Integratorin avulla. Taulukoita voidaan käyttää myös ohjelmallisesti julkisen MySQL-palvelimemme kautta tai ladata latauspalvelimeltamme paikallista käsittelyä varten. Voit myös käyttää mitä tahansa RefSeq-taulukon merkintöjä JSON-muodossa JSON API:n kautta.
Tiedot RefSeq Other- ja RefSeq Diffs -raidoilla on järjestetty bigBed-tiedostomuodossa; lisätietoa bigBed-tiedoston tietojen käyttämisestä on jäljempänä. Muut alaradat liittyvät tietokantataulukoihin seuraavasti:
genePred-muodossa:
- RefSeq All – ncbiRefSeq
- RefSeq Curated – ncbiRefSeqCurated
- RefSeq Predicted – ncbiRefSeqPredicted
- RefSeq HGMD – ncbiRefSeqHgmd
- RefSeq Select+MANE – ncbiRefSeqSelect
- UCSC RefSeq – refGene
PSL format:
- RefSeq Alignments – ncbiRefSeqPsl
Kunkin taulukon ensimmäinen sarake on ”bin”. Tämä sarake on suunniteltu nopeuttamaan pääsyä Genome Browser -selaimessa, mutta se voidaan turvallisesti jättää huomiotta myöhemmässä analyysissä. Voit lukea lisää bin-indeksointijärjestelmästä täältä.
RefSeqOther- ja RefSeqDiffs-kappaleiden annotaatiot on tallennettu bigBed-tiedostoihin, jotka voi saada latauspalvelimeltamme täältä,ncbiRefSeqOther.bb ja ncbiRefSeqDiffs.bb.Yksittäiset alueet tai koko genomin laajuiset annotaatiot voidaan saada käyttämällä työkaluabigBedToBed, joka voidaan kääntää lähdekoodista tai ladata esikäännettynä binääritiedostona järjestelmääsi varten alla olevasta apuohjelmahakemistosta. Jos haluat esimerkiksi poimia vain tietyn alueen annotaatiot, voit käyttää seuraavaa komentoa:
bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/ncbiRefSeq/ncbiRefSeqOther.bb-chrom=chr16 -start=34990190 -end=36727467 stdout
Voit ladata GTF-muotoisen version RefSeq All -taulukosta GTF-lataushakemistosta.GenePred-muotoiset raidat voidaan myös muuntaa GTF-muotoisiksi genePredToGtf-apuohjelmalla, joka on saatavissa UCSC:n latauspalvelimen apuohjelmahakemistosta. Apuohjelma voidaan ajaa komentoriviltä seuraavasti:
genePredToGtf hg38 ncbiRefSeqPredicted ncbiRefSeqPredicted.gtf
Huomaa, että käyttämällä genePredToGtf-ohjelmaa tällä tavalla päästään käsiksi julkiseen MySQL-palvelimeemme, joten sinun on määritettävä hg.conf-tiedostosi siten kuin se on kuvattu MySQL-sivulla, johon on linkki lähellä datan saatavuutta käsittelevän osion alussa.
Tiedosto, joka sisältää RNA-sekvenssit FASTA-muodossa kaikkien RefSeq All-, RefSeq Curated- ja RefSeq Predicted -kappaleiden kohteiden osalta, löytyy latauspalvelimeltamme täältä.
Kysymyksiä varten tutustu postituslistamme arkistoihin.
NcbiRefSeq-kappalesarjan aiemmat versiot löytyvät arkistomme latauspalvelimelta.
Credits
Tämä kappale on tuotettu UCSC:ssä tiedemiesten eri puolilla maailmaa tuottamista tiedoista, jotka on kuratoinutNCBI RefSeq -projekti.
Kent WJ.BLAT – BLASTin kaltainen kohdistustyökalu. Genome Res. 2002 Apr;12(4):656-64.PMID: 11932250; PMC: PMC187518
Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J,Landrum MJ, McGarvey KM et al.RefSeq: an update on mammalian reference sequences.Nucleic Acids Res. 2014 Jan;42(Database issue):D756-63.PMID: 24259432; PMC: PMC3965018
.