Nastavení stopy NCBI RefSeq

aktualizovánoPoznámka: Aktualizováno 4. března 2021

Popis

Složená stopa NCBI RefSeq Genes zobrazuje lidské proteiny kódující a nekódující geny převzaté ze sbírky referenčních sekvencí RNA NCBI (RefSeq). Všechny dílčí stopy používají souřadnice, které poskytuje RefSeq, s výjimkou stopy UCSC RefSeq, kterou UCSC vytváří přirovnáním RNA z RefSeq ke genomu. Toto zarovnání může mít za následek občasné rozdíly mezi anotačními souřadnicemi poskytovanými UCSC a NCBI. Pro analýzu RNA-seq doporučujeme používat zarovnané tabulky NCBI jako RefSeq All nebo RefSeq Curated. Další podrobnosti o tom, jak byly jednotlivé stopy vytvořeny, naleznete v části Metody.

Navštivte prosím stránku NCBI Feedback for Gene and Reference Sequences (RefSeq) (Zpětná vazba pro genové a referenční sekvence (RefSeq)), kde můžete podávat návrhy, zasílat doplňky a opravy nebo žádat o pomoc týkající se záznamů RefSeq.

Další informace o různých stopách genů naleznete v sekci Často kladené dotazy ke genům.

Zobrazovací konvence a konfigurace

Tato stopa je složená stopa, která obsahuje různé sady dat. chcete-li zobrazit pouze vybranou sadu dílčích stop, zrušte zaškrtnutí políček vedle stop, které chcete skrýt. Poznámka: Ne všechny dílčí stopy jsou k dispozici u všech sestav.

Možné dílčí stopy zahrnují: RefSeq aligned annotations a UCSC alignment of RefSeq annotations

  • RefSeq All – všechny kurátorované a predikované anotace poskytnuté RefSeq.
  • RefSeq Curated – podmnožina RefSeq All, která zahrnuje pouze ty anotace, jejichž přístupy začínají NM, NR, NP nebo YP. (NP a YP se používají pouze pro geny kódující proteiny na mitochondrii; YP se používá pouze pro člověka).
  • RefSeq Predicted – podmnožina RefSeq All, která zahrnuje ty anotace, jejichž přístupy začínají XM nebo XR.
  • RefSeq Other – všechny ostatní anotace vytvořené skupinou RefSeq, které nesplňují požadavky pro zařazení do stop RefSeq Curated nebo RefSeq Predicted.
  • RefSeq Alignments – zarovnání RNA z RefSeq k lidskému genomu poskytnuté skupinou RefSeq podle konvencí zobrazení pro stopyPSL.
  • RefSeq Diffs – rozdíly v zarovnání mezi lidským referenčním genomem (genomy) a transkripty RefSeq. (Stopa není v současné době k dispozici pro každou sestavu.)
  • UCSC RefSeq – anotace vytvořené na základě zarovnání RNA s NM a NR přístupy UCSC k lidskému genomu. Tato stopa byla dříve známá jako stopa „RefSeq Genes“.
  • RefSeq Select+MANE (podmnožina) – podmnožina RefSeq Curated, transkripty označené jako RefSeq Select nebo MANE Select. Pro každý gen kódující protein je vybrán jeden transkript Select jako reprezentativní. Tato stopa zahrnuje transkripty klasifikované jako MANE, které jsou dále odsouhlaseny jako reprezentativní jak NCBI RefSeq, tak Ensembl/GENCODE a mají 100% shodu s transkriptem v anotaci Ensembl. Viz NCBI RefSeq Select. Všimněte si, že poskytujeme samostatnou stopu MANE (hg38), která obsahuje pouze transkripty MANE.
  • RefSeq HGMD (podmnožina) – podmnožina RefSeq Curated, transkripty anotované databází lidských genových mutací. Tato stopa je k dispozici pouze u lidských genomů hg19 a hg38. Jedná se o nejužší podmnožinu RefSeq, zaměřenou na klinickou diagnostiku.

Sledování RefSeq All, RefSeq Curated, RefSeq Predicted, RefSeq HGMD,RefSeq Select/MANE a UCSC RefSeq se řídí konvencemi pro zobrazování predikčních stop. barevné stínování označuje úroveň revize, kterou záznam RefSeq prošel:predicted (světlá), provisional (střední) nebo reviewed (tmavá), jak definuje RefSeq.

Barva Úroveň přezkoumání
Přezkoumáno: záznam RefSeq byl přezkoumán pracovníky NCBI nebo spolupracovníkem. Proces přezkoumání NCBI zahrnuje posouzení dostupných sekvenčních údajů a literatury. Některé záznamy RefSeq mohou obsahovat rozšířené sekvenční a anotační informace.
Provisional: záznam RefSeq dosud nebyl podroben individuálnímu přezkoumání. Počáteční přiřazení sekvence ke genu bylo stanoveno externími spolupracovníky nebo pracovníky NCBI.
Předpokládaný: záznam RefSeq dosud nebyl podroben individuálnímu přezkoumání a některý aspekt záznamu RefSeq je předpokládaný.

Značky položek a vlastnosti zobrazení kodonů pro prvky v rámci této stopy lze konfigurovat prostřednictvím ovládacích prvků zaškrtávacích políček v horní části stránky s popisem stopy. Chcete-li upravit nastavení pro jednotlivou dílčí stopu, klikněte na ikonu klíče vedle názvu stopy v seznamu dílčích stop .

  • Popisek: Ve výchozím nastavení jsou položky označeny názvem genu. Kliknutím na příslušnou možnost Label (Štítek) můžete místo názvu genu zobrazit přístupový název nebo identifikátor OMIM, zobrazit všechny tyto štítky nebo jejich podmnožinu včetně názvu genu, identifikátoru OMIM a přístupových názvů nebo štítky zcela vypnout.
  • Codon coloring (Obarvení kodonů): Tato stopa má volitelnou funkci barvení kodonů, která umožňuje uživatelům rychle ověřovat a porovnávat předpovědi genů. Chcete-li zobrazit barvy kodonů, vyberte možnost genomické kodony z rozbalovací nabídky Color track by codons (Barva stopy podle kodonů). Další informace o této funkci naleznete na stránce Coloring Gene Predictions and Annotations by Codon (Obarvení předpovědí a anotací genů podle kodonů).

Sledovat RefSeq Diffs (Rozdíly RefSeq) obsahuje pět různých typů nesrovnalostí mezi tamní referenční sekvencí genomu a sekvencemi transkriptů RefSeq. Následuje pět typů oblastí rozdílů:

  • mismatch – zarovnané, ale neshodující se báze, plus HGVS g. pro zobrazení genomové změny nutné pro shodu s transkriptem a HGVS c./n. pro zobrazení změny transkriptu nutné pro shodu s genomem.
  • krátká mezera – genomové mezery, které jsou příliš malé na to, aby byly introny (libovolná mezní hodnota < 45 bp), nejspíše varianty inzerce/delece nebo chyby, přičemž HGVS g. a c./n. ukazují rozdíly.
  • posunutá mezera – položky krátkéGap, jejichž umístění by mohlo být posunuto doleva a/nebo doprava na genomu kvůli repetitivní sekvenci, přičemž HGVS c./n. rozsah polohy nejednoznačné oblasti v transkriptu. Zde jsou použity tenké a tlusté čáry – tenká čára ukazuje rozpětí tamnípetitivní sekvence a tlustá čára ukazuje nejpravější posunutou mezeru.
  • dvojitá mezera – genomové mezery, které jsou dostatečně dlouhé na to, aby byly introny, ale které přeskakují sekvenci transkriptu (ve výchozím nastavení neviditelné), s HGVS c./n. delece.
  • přeskočená – sekvence na začátku nebo na konci transkriptu, která není zarovnána s genomem (ve výchozím nastavení neviditelná), s HGVS c./n. delece

HGVS Terminology (Human Genome Variation Society):g. = genomová sekvence ; c. = kódující sekvence DNA ; n. = nekódující referenční sekvence RNA.

Při hlášení HGVS se sekvencemi RefSeq, aby bylo zajištěno jednoznačné mapování výsledků z výzkumných článků na genom, uveďte prosím vydání anotace RefSeq zobrazené na stránce s podrobnostmi o transkriptu vGenome Browser a také ID transkriptu RefSeq s verzí (např. NM_012309.4, nikoli NM_012309).

Metody

Stopy obsažené v anotaci RefSeq a stopy zarovnání RefSeq RNA byly vytvořeny na UCSC pomocí dat z projektu NCBI RefSeq. Datové soubory byly staženy z RefSeq ve formátu GFF a převedeny do formátů genePred a PSL tabulky pro zobrazení v Genome Browser. Informace o anotační pipeline NCBI naleznete zde.

Sled RefSeq Diffs je vytvořen UCSC pomocí zarovnání RNA z RefSeq NCBI.

Sled UCSC RefSeq Genes je vytvořen stejnými metodami jako předchozí stopy RefSeq Genes.

RNA z RefSeq byly zarovnány proti lidskému genomu pomocí BLAT. Ty, jejichž zarovnání bylo menší než 15 %, byly vyřazeny. Pokud se jedna RNA zarovnala na více místech, bylo určeno zarovnání s nejvyšší shodou bází. Zachována byla pouze zarovnání, která měla bázovou identitu na úrovni do 0,1 % nejlepší a alespoň 96% bázovou identitu s genomovou sekvencí.

Přístup k datům

K nezpracovaným datům pro tyto stopy lze přistupovat několika způsoby. Lze je zkoumat interaktivně pomocí Prohlížeče tabulek nebo Integrátoru dat. K tabulkám lze také přistupovat programově prostřednictvím našehoveřejného serveru MySQL nebo je stáhnout z našeho serveru pro lokální zpracování. Ke všem údajům v tabulkách RefSeq můžete také přistupovat ve formátu JSON prostřednictvím našeho rozhraní JSON API.

Údaje ve stopách RefSeq Other a RefSeq Diffs jsou uspořádány ve formátu souboru bigBed; další informace o přístupu k informacím v tomto souboru bigBed naleznete níže. Ostatní dílčí stopy jsou spojeny s databázovými tabulkami takto:

formát genePred:

  • RefSeq All – ncbiRefSeq
  • RefSeq Curated – ncbiRefSeqCurated
  • RefSeq Predicted – ncbiRefSeqPredicted
  • RefSeq HGMD – ncbiRefSeqHgmd
  • RefSeq Select+MANE – ncbiRefSeqSelect
  • UCSC RefSeq – refGene

PSL formát:

  • RefSeq Alignments – ncbiRefSeqPsl

První sloupec každé z těchto tabulek je „bin“. Tento sloupec je určenpro urychlení přístupu pro zobrazení v Genome Browser, ale při následné analýze jej lze bezpečně ignorovat. Více o systému indexování bin si můžete přečíst zde.

Anotace ve stopách RefSeqOther a RefSeqDiffs jsou uloženy v souborech bigBed, které lze získat z našeho serveru ke stažení zde,ncbiRefSeqOther.bb a ncbiRefSeqDiffs.bb.Jednotlivé oblasti nebo celý soubor anotací celého genomu lze získat pomocí našeho nástrojebigBedToBed, který lze zkompilovat ze zdrojového kódu nebo stáhnout jako předkompilovaný soubor pro váš systém z níže uvedeného adresáře utilities. Chcete-li například extrahovat pouzeanotace v dané oblasti, můžete použít následující příkaz:

bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/ncbiRefSeq/ncbiRefSeqOther.bb-chrom=chr16 -start=34990190 -end=36727467 stdout

Ve verzi formátu GTF si můžete stáhnout tabulku RefSeq All z adresáře GTF ke stažení. stopy ve formátu genePred lze také převést do formátu GTF pomocí nástrojegenePredToGtf, který je k dispozici v adresářiutilities na serveru UCSC ke stažení. Nástroj lze spustit z příkazového řádku takto:

genePredToGtf hg38 ncbiRefSeqPredicted ncbiRefSeqPredicted.gtf

Všimněte si, že použití nástroje genePredToGtf tímto způsobem zpřístupňuje náš veřejný server MySQL, a proto musíte nastavit svůj hg.conf, jak je popsáno na stránce MySQL, na kterou je odkaz na začátku sekce Přístup k datům.

Soubor obsahující sekvence RNA ve formátu FASTA pro všechny položky ve stopách RefSeq All, RefSeq Curated a RefSeq Predicted naleznete na našem serveru pro stahování zde.

V případě dotazů se prosím obraťte na archivy naší poštovní konference.

Předchozí verze sady stop ncbiRefSeq naleznete na našem serveru archivů ke stažení.

Kredity

Tato stopa byla vytvořena na UCSC z dat generovaných vědci z celého světa a kurátorovaných projektemNCBI RefSeq.

Kent WJ.BLAT – nástroj pro zarovnávání podobný BLASTu. Genome Res. 2002 Apr;12(4):656-64.PMID: 11932250; PMC: PMC187518

Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J,Landrum MJ, McGarvey KM et al.RefSeq: an update on mammalian reference sequences.Nucleic Acids Res. 2014 Jan;42(Database issue):D756-63.PMID: 24259432; PMC: PMC3965018

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.