NCBI RefSeq Track Settings

frissítveMegjegyzés: Frissítve 2021. március 4.

leírás

Az NCBI RefSeq Genes összetett track az NCBI RNS-referenciaszekvencia-gyűjteményéből (RefSeq) származó emberi fehérjekódoló és nem fehérjekódoló géneket mutatja. Minden alsáv a RefSeq által megadott koordinátákat használja, kivéve az UCSC RefSeq sávot, amelyet az UCSC a RefSeq RNS-ek genomhoz való igazításával állít elő. Ez az újrarendezés esetenként eltéréseket eredményezhet az UCSC és az NCBI által megadott annotációs koordináták között. Az RNS-seq elemzéshez javasoljuk az NCBI által összehangolt táblázatok, például a RefSeq All vagy a RefSeq Curated használatát. A különböző sávok létrehozásának módjáról további részleteket a Módszerek részben talál.

Kérjük, látogasson el az NCBI Feedback for Gene and Reference Sequences (RefSeq) oldalára, ahol javaslatokat tehet, kiegészítéseket és javításokat küldhet, vagy segítséget kérhet a RefSeq rekordokkal kapcsolatban.

A különböző génsávokkal kapcsolatos további információkért tekintse meg a Gén GYIK-et.

Megjelenítési konvenciók és konfiguráció

Ez a sáv egy összetett sáv, amely különböző adatkészleteket tartalmaz.Ha csak egy kiválasztott alsávot szeretne megjeleníteni, vegye ki a jelölőnégyzeteket azon sávok mellett, amelyeket el szeretne rejteni. Megjegyzés: Nem minden részsínpálya érhető el minden összeállításon.

A lehetséges alpályák a következők:

  • RefSeq All – a RefSeq által biztosított összes kurált és prediktált annotáció.
  • RefSeq Curated – a RefSeq All részhalmaza, amely csak azokat az annotációkat tartalmazza, amelyek hozzáférése NM, NR, NP vagy YP betűvel kezdődik. (Az NP és YP csak a mitokondriumban található fehérjekódoló génekre vonatkozik; az YP csak a humán génekre).
  • RefSeq Predicted – a RefSeq All részhalmaza, amely azokat az annotációkat tartalmazza, amelyek hozzáférése XM vagy XR betűvel kezdődik.
  • RefSeq Other – a RefSeq csoport által készített minden egyéb annotáció, amely nem felel meg a RefSeq Curated vagy a RefSeq Predicted pályákra való felvétel követelményeinek.
  • RefSeq Alignments – a RefSeq RNS-ek igazítása a RefSeq csoport által a humán genomhoz, aPSL track-ek megjelenítési konvencióit követve.
  • RefSeq Diffs – az emberi referencia genom(ok) és a RefSeq transzkriptumok közötti igazítási különbségek. (A sáv jelenleg nem áll rendelkezésre minden összeállításhoz.)
  • UCSC RefSeq – az UCSC által a humán genomhoz NM és NR hozzáféréssel rendelkező RNS-ek újrahangolásából generált annotációk. Ez a sáv korábban “RefSeq Genes” sáv néven volt ismert.
  • RefSeq Select+MANE (alcsoport) – RefSeq Curated alcsoportja, RefSeq Select vagy MANE Select jelölésű átiratok. Minden fehérjekódoló génhez egyetlen Select transzkriptet választunk reprezentatívnak. Ez a sáv tartalmazza azokat a MANE-kategóriába sorolt átiratokat, amelyeket az NCBI RefSeq és az Ensembl/GENCODE egyaránt reprezentatívnak minősít, és amelyek 100%-ban megegyeznek az Ensembl annotációban szereplő átirattal. Lásd NCBI RefSeq Select. Megjegyezzük, hogy külön sávot biztosítunk, MANE (hg38) néven, amely csak a MANE transzkripteket tartalmazza.
  • RefSeq HGMD (részhalmaz) – A RefSeq Curated részhalmaza, a Human Gene Mutation Database által annotált transzkriptek. Ez a sáv csak a hg19 és hg38 humán genomokon érhető el. Ez a legszűkebb RefSeq alhalmaz, amely a klinikai diagnosztikát célozza meg.

A RefSeq All, RefSeq Curated, RefSeq Predicted, RefSeq HGMD,RefSeq Select/MANE és UCSC RefSeq sávok a gene predikciós sávok megjelenítési konvencióit követik.A színárnyalat a RefSeq rekord felülvizsgálatának szintjét jelzi: predicted (világos), provisional (közepes) vagy reviewed (sötét), a RefSeq meghatározása szerint.

Color Level of review
Reviewed: a RefSeq rekordot az NCBI munkatársai vagy egy munkatárs felülvizsgálta. Az NCBI felülvizsgálati folyamata magában foglalja a rendelkezésre álló szekvenciaadatok és az irodalom értékelését. Egyes RefSeq rekordok bővített szekvencia- és annotációs információkat tartalmazhatnak.
Provisional: a RefSeq rekordot még nem vizsgálták át egyedileg. A kezdeti szekvencia-gén asszociációt külső munkatársak vagy az NCBI munkatársai állapították meg.
Predicted: a RefSeq rekordot még nem vizsgálták meg egyénileg, és a RefSeq rekord valamely aspektusa előre jelzett.

A tételcímkék és a kódok megjelenítési tulajdonságai az ezen a pályán belüli jellemzőkhöz a pálya leíró oldalának tetején található jelölőnégyzetek segítségével konfigurálhatók. Az egyes alpályák beállításainak módosításához kattintson az alpálya listában a pálya neve melletti csavarkulcs ikonra.

  • Címke: Alapértelmezés szerint az elemek génnév szerint vannak felcímkézve. A megfelelő Címke opcióra kattintva megjelenítheti a génnév helyett a hozzáférési nevet vagy az OMIM azonosítót, megjelenítheti az összes ilyen címkét vagy azok egy részhalmazát, beleértve a génnevet, az OMIM azonosítót és a hozzáférési neveket, vagy teljesen kikapcsolhatja a címkét.
  • Codon színezés: Ez a pálya rendelkezik egy opcionális kodonszínezés funkcióval, amely lehetővé teszi a felhasználók számára a génjóslások gyors validálását és összehasonlítását. A kodonok színének megjelenítéséhez válassza ki a Genomikus kodonok opciót a Nyomon követés színezése kodonok szerint lehúzható menüből. A funkcióval kapcsolatos további információkért látogasson el a Gén-előrejelzések és megjegyzések színezése kodonok szerint oldalra.

A RefSeq Diffs sáv öt különböző típusú ellentmondást tartalmaz a referencia genomszekvencia és a RefSeq transzkript szekvenciák között. Az ötféle eltérési terület a következő:

  • mismatch – összehangolt, de nem egyező bázisok, valamint HGVS g. a transzkripttel való egyezéshez szükséges genomváltozást és HGVS c./n. a genommal való egyezéshez szükséges transzkriptváltozást mutatja.
  • short gap – genomiális hézagok, amelyek túl kicsik ahhoz, hogy intronok legyenek (önkényes határérték < 45 bp), valószínűleg beillesztési/eltávolítási variánsok vagy hibák, a HGVS g. és c./n. eltérésekkel.
  • shift gap – shortGap elemek, amelyek helyzete a genomban balra és/vagy jobbra tolódhatott el ismétlődő szekvencia miatt, a HGVS c./n. pozíciótartományával a transzkriptben lévő kétértelmű régióhoz. Itt vékony és vastag vonalakat használunk — a vékony vonal az ismétlődő szekvencia terjedelmét mutatja, a vastag vonal pedig a legjobban jobbra tolódott hézagot.
  • dupla rés – genomi hézagok, amelyek elég hosszúak ahhoz, hogy intronok legyenek, de átugorják a transzkript szekvenciát (alapértelmezett beállításban láthatatlan), HGVS c./n. delécióval.
  • kihagyott – a transzkript elején vagy végén lévő szekvencia, amely nem igazodik a genomhoz (alapértelmezett beállításban láthatatlan), HGVS c./n. delécióval

HGVS terminológia (Human Genome Variation Society):g. = genomi szekvencia ; c. = kódoló DNS szekvencia ; n. = nem kódoló RNS referenciaszekvencia.

A RefSeq szekvenciákkal történő HGVS jelentéskor, annak érdekében, hogy a kutatási cikkek eredményei egyértelműen leképezhetők legyenek a genomra, kérjük, adja meg a transzkriptumGenome Browser adatlapján megjelenő RefSeq annotációs kiadást, valamint a RefSeq transzkriptum azonosítóját a verzióval (pl. NM_012309.4 nem NM_012309).

Módszerek

A RefSeq annotációs és RefSeq RNS-illesztési sávokban szereplő sávokat az UCSC-ben hozták létre az NCBI RefSeq projekt adataiból. Az adatfájlokat GFF fájlformátumban töltöttük le a RefSeq-ből, és a Genome Browserben való megjelenítéshez a genePred és PSL táblázatformátumba konvertáltuk. Az NCBI annotációs csővezetékéről itt található információ.

A RefSeq Diffs sávot az UCSC az NCBI RefSeq RNS igazítások felhasználásával hozta létre.

A UCSC RefSeq Genes sávot a korábbi RefSeq Genes sávokkal azonos módszerekkel építették fel.A RefSeq RNS-eket a BLAT segítségével igazították a humán genomhoz. A 15%-nál kisebb illeszkedést mutató géneket elvetettük. Ha egyetlen RNS több helyen is illeszkedett, akkor a legnagyobb bázisazonossággal rendelkező illeszkedést azonosították. Csak a legjobbtól 0,1%-on belüli bázisazonosságú és a genomi szekvenciával legalább 96%-os bázisazonosságú illesztéseket tartottuk meg.

Adatok elérése

A pályák nyers adataihoz többféle módon lehet hozzáférni. A Table Browser vagy a Data Integrator segítségével interaktívan vizsgálhatók. A táblázatokhoz programozottan is hozzá lehet férni a nyilvános MySQL szerverünkön keresztül, vagy letölthetők a letöltési szerverünkről helyi feldolgozás céljából. A JSON API-nkon keresztül JSON formátumban is hozzáférhet bármely RefSeq táblázati bejegyzéshez.

A RefSeq Other és RefSeq Diffs pályák adatai bigBed fájlformátumban vannak megszervezve; a bigBed fájlban található információk elérésével kapcsolatos további információk az alábbiakban találhatók. A többi alsáv az alábbiak szerint kapcsolódik az adatbázis-táblákhoz:

genePred formátum:

  • RefSeq All – ncbiRefSeq
  • RefSeq Curated – ncbiRefSeqCurated
  • RefSeq Predicted – ncbiRefSeqPredicted
  • RefSeq HGMD -. ncbiRefSeqHgmd
  • RefSeq Select+MANE – ncbiRefSeqSelect
  • UCSC RefSeq – refGene

PSL formátum:

  • RefSeq Alignments – ncbiRefSeqPsl

Mindegyik táblázat első oszlopa a “bin”. Ez az oszlop a Genome Browserben történő megjelenítéshez való hozzáférés gyorsítására szolgál, de a későbbi elemzés során nyugodtan figyelmen kívül hagyható. A bin indexelési rendszerről bővebben itt olvashat.

A RefSeqOther és RefSeqDiffs sávokban található annotációkat bigBed fájlokban tároljuk, amelyek letölthetőek a letöltési szerverünkről itt,ncbiRefSeqOther.bb és ncbiRefSeqDiffs.bb.Az egyes régiók vagy az egész genomra kiterjedő annotációk teljes készlete beszerezhető a bigBedToBed eszközünkkel, amely a forráskódból fordítható, vagy letölthető az Ön rendszerére előre lefordított bináris fájlként az alább linkelt segédprogramok könyvtárából. Például, ha csak egy adott régió annotációit szeretné kinyerni, a következő parancsot használhatja:

bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/ncbiRefSeq/ncbiRefSeqOther.bb-chrom=chr16 -start=34990190 -end=36727467 stdout

A RefSeq All táblázat GTF formátumú változatát letöltheti a GTF letöltések könyvtárból.A genePred formátumú pályák is átalakíthatók GTF formátumba a genePredToGtf segédprogrammal, amely a UCSC letöltések szerverének segédprogramok könyvtárából érhető el. A segédprogram a parancssorból a következőképpen futtatható:

genePredToGtf hg38 ncbiRefSeqPredicted ncbiRefSeqPredicted.gtf

Megjegyzendő, hogy a genePredToGtf ilyen módon történő használata hozzáfér a nyilvános MySQL szerverünkhöz, ezért a hg.conf állományt az adathozzáférési szakasz elején található MySQL oldalon leírtak szerint kell beállítani.

A RefSeq All, RefSeq Curated és RefSeq Predicted pályák összes elemének RNS-szekvenciáit FASTA formátumban tartalmazó fájl megtalálható a letöltési szerverünkön itt.

Kérdések esetén kérjük, tekintse meg levelezési listánk archívumát.

Az ncbiRefSeq trackek korábbi változatai megtalálhatók az archív letöltési szerverünkön.

Credits

Ez a track az UCSC-ben készült a tudósok által világszerte generált és azNCBI RefSeq projekt által kuratált adatokból.

Kent WJ.BLAT – a BLAST-szerű illesztési eszköz. Genome Res. 2002 Apr;12(4):656-64.PMID: 11932250; PMC: PMC187518

Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J,Landrum MJ, McGarvey KM et al.RefSeq: an update on mammalian reference sequences.Nucleic Acids Res. 2014 Jan;42(Database issue):D756-63.PMID: 24259432; PMC: PMC3965018

.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.