NCBI RefSeq Track Settings

updatedNota: Actualizat la 4 martie 2021

Descriere

Pista compozită NCBI RefSeq Genes prezintă genele umane codificatoare de proteine și non-codificatoare de proteine preluate din colecția de secvențe de referință NCBI RNA (RefSeq). Toate subpistele utilizează coordonatele furnizate de RefSeq, cu excepția pistei UCSC RefSeq, pe care UCSC o produce prin realinierea ARN-urilor RefSeq la genom. Această realiniere poate duce la diferențe ocazionale între coordonatele de adnotare furnizate de UCSC și NCBI. Pentru analiza ARN-seq, vă sfătuim să utilizați tabelele aliniate de NCBI, cum ar fi RefSeq All sau RefSeq Curated. Consultați secțiunea Metode pentru mai multe detalii despre modul în care au fost create diferitele piste.

Vă rugăm să vizitați pagina NCBI’s Feedback for Gene and Reference Sequences (RefSeq) pentru a face sugestii, a trimite adăugiri și corecții sau a cere ajutor cu privire la înregistrările RefSeq.

Pentru mai multe informații despre diferitele piste de gene, consultați FAQ Genes.

Display Conventions and Configuration

Această pistă este o pistă compozită care conține diferite seturi de date. pentru a afișa numai un set selectat de subpiste, debifați căsuțele de lângă pistele pe care doriți să le ascundeți. Notă: Nu toate substraturile sunt disponibile pe toate ansamblurile.

Subpistele posibile includ: RefSeq aligned annotations and UCSC alignment of RefSeq annotations

  • RefSeq All – toate adnotările îngrijite și prezise furnizate de RefSeq.
  • RefSeq Curated – subset al RefSeq All care include numai acele adnotări ale căror accesări încep cu NM, NR, NP sau YP. (NP și YP sunt utilizate numai pentru genele care codifică proteine pe mitocondrie; YP este utilizat numai pentru oameni).
  • RefSeq Predicted – subset al RefSeq All care include acele adnotări ale căror accesiuni încep cu XM sau XR.
  • RefSeq Other – toate celelalte adnotări produse de grupul RefSeq care nu corespund cerințelor de includere în pistele RefSeq Curated sau RefSeq Predicted.
  • RefSeq Alignments – alinieri ale ARN-urilor RefSeq la genomul uman furnizate de grupul RefSeq, în conformitate cu convențiile de afișare pentru pistelePSL.
  • RefSeq Diffs – diferențe de aliniere între genomul (genomurile) uman(e) de referință și transcrierile RefSeq. (Pista nu este disponibilă în prezent pentru fiecare ansamblu.)
  • UCSC RefSeq – adnotări generate de realinierea UCSC a ARN-urilor cu accesiuni NM și NR la genomul uman. Această pistă era cunoscută anterior sub numele de pista „RefSeq Genes”.
  • RefSeq Select+MANE (subset) – Subset de RefSeq Curated, transcripții marcate ca RefSeq Select sau MANE Select. Un singur transcript Select este ales ca fiind reprezentativ pentru fiecare genă codificatoare de proteine. Această pistă include transcripții clasificate ca MANE, care sunt acceptate ca fiind reprezentative atât de NCBI RefSeq, cât și de Ensembl/GENCODE, și care au o potrivire identică 100% cu un transcript din adnotarea Ensembl. A se vedea NCBI RefSeq Select. Rețineți că furnizăm o pistă separată, MANE (hg38), care conține doar transcrierile MANE.
  • RefSeq HGMD (subset) – Subset de RefSeq Curated, transcripții adnotate de Human Gene Mutation Database. Această piesă este disponibilă numai pe genomurile umane hg19 și hg38. Este cel mai restrâns subset RefSeq, vizând diagnosticele clinice.

Pistele RefSeq All, RefSeq Curated, RefSeq Predicted, RefSeq HGMD,RefSeq Select/MANE și UCSC RefSeq respectă convențiile de afișare pentru piesele de predicție ale RefSeq.Umbrirea culorii indică nivelul de revizuire la care a fost supusă înregistrarea RefSeq:predicted (deschis), provizoriu (mediu) sau revizuit (închis), așa cum este definit de RefSeq.

Color Level of review
Reviewed: înregistrarea RefSeq a fost revizuită de către personalul NCBI sau de către un colaborator. Procesul de revizuire al NCBI include evaluarea datelor secvențiale disponibile și a literaturii de specialitate. Unele înregistrări RefSeq pot încorpora informații extinse privind secvența și adnotările.
Provisional: înregistrarea RefSeq nu a fost încă supusă unei revizuiri individuale. Asocierea inițială dintre secvență și genă a fost stabilită de colaboratori externi sau de personalul NCBI.
Predicted: înregistrarea RefSeq nu a făcut încă obiectul unei revizuiri individuale, iar un anumit aspect al înregistrării RefSeq este prezis.

Etichetele elementelor și proprietățile de afișare a codonilor pentru caracteristicile din cadrul acestei piste pot fi configurate prin intermediul comenzilor cu casete de selectare din partea de sus a paginii de descriere a pistei. Pentru a ajusta setările pentru o subpistă individuală, faceți clic pe pictograma cu cheie din dreptul numelui pistei din lista de subpiste .

  • Label: În mod implicit, elementele sunt etichetate după numele genei. Faceți clic pe opțiunea Label corespunzătoare pentru a afișa numele de acces sau identificatorul OMIM în loc de numele genei, pentru a afișa toate aceste etichete sau un subset al acestora, inclusiv numele genei, identificatorul OMIM și numele de acces, sau pentru a dezactiva complet eticheta.
  • Codon coloring: Această pistă are o funcție opțională de colorare a codonilor care permite utilizatorilor să valideze și să compare rapid predicțiile genetice. Pentru a afișa culorile codonilor, selectați opțiunea codoni genomici din meniul derulant Color track by codons (Colorează pista după codoni). Pentru mai multe informații despre această funcție, accesați pagina Coloring Gene Predictions and Annotations by Codon (Colorarea predicțiilor și adnotărilor genice în funcție de codon).

The RefSeq Diffs track (Pista RefSeq Diffs) conține cinci tipuri diferite de neconcordanțe între secvența genomului de referință și secvențele de transcriere RefSeq. Cele cinci tipuri de zone de diferențe sunt următoarele:

  • mismatch – baze aliniate, dar care nu se potrivesc, plus HGVS g. pentru a arăta modificarea genomică necesară pentru a se potrivi cu transcrierea și HGVS c./n. pentru a arăta modificarea transcrierii necesară pentru a se potrivi cu genomul.
  • short gap – goluri genomice care sunt prea mici pentru a fi introni (limită arbitrară de < 45 pb), cel mai probabil variante de inserție/deleție sau erori, cu HGVS g. și c./n. care arată diferențele.
  • shift gap – elemente shortGap a căror plasare ar putea fi deplasată la stânga și/sau la dreapta pe genom din cauza secvenței repetitive, cu HGVS c./n. intervalul de poziție al regiunii ambigue din transcript. Aici se folosesc linii subțiri și groase – linia subțire arată intervalul de timp al secvenței repetitive, iar linia groasă arată decalajul deplasat cel mai la dreapta.
  • dublu decalaj – decalaje genomice care sunt suficient de lungi pentru a fi introni, dar care sar peste secvența transcrisă (invizibil în setarea implicită), cu HGVS c./n. deletion.
  • skipped – secvență la începutul sau la sfârșitul unui transcris care nu este aliniată la genom (invizibilă în setarea implicită), cu HGVS c./n. deletion

Terminologie HGVS (Human Genome Variation Society):g. = secvență genomică ; c. = secvență ADN codificatoare ; n. = secvență de referință ARN necodificatoare.

Când raportați HGVS cu secvențe RefSeq, pentru a vă asigura că rezultatele articolelor de cercetare pot fi mapate la genom fără ambiguitate, vă rugăm să specificați versiunea de adnotare RefSeq afișată pe pagina de detalii a transcriptuluiGenome Browser și, de asemenea, ID-ul transcriptului RefSeq cu versiunea (de exemplu, NM_012309.4 și nu NM_012309).

Methods

Pistele conținute în adnotarea RefSeq și pistele de aliniere a ARN-ului RefSeq au fost create la UCSC folosind date din proiectul NCBI RefSeq. Fișierele de date au fost descărcate de la RefSeq în format de fișier GFF și convertite în formatele de tabel genePred și PSL pentru a fi afișate în Genome Browser. Informații despre conducta de adnotare NCBI pot fi găsite aici.

Pista RefSeq Diffs este generată de UCSC folosind alinierile ARN RefSeq de la NCBI.

Pista RefSeq Genes de la UCSC este construită folosind aceleași metode ca și pistele RefSeq Genes anterioare.ARN RefSeq au fost aliniate față de genomul uman folosind BLAT. Cele cu o aliniere de mai puțin de 15% au fost eliminate. În cazul în care un singur ARN s-a aliniat în mai multe locuri, a fost identificată alinierea cu cea mai mare identitate de bază. Au fost păstrate doar alinierile care aveau un nivel de identitate de bază în limita a 0,1% din cea mai bună și cel puțin 96% identitate de bază cu secvența genomică.

Acces la date

Datele brute pentru aceste piste pot fi accesate în mai multe moduri. Ele pot fi explorate în mod interactiv folosind Table Browser sau Data Integrator. Tabelele pot fi, de asemenea, accesate în mod programatic prin intermediul serverului nostrupublic MySQL sau descărcate de pe serverul nostrudownloads pentru procesare locală. De asemenea, puteți accesa orice date din tabelele RefSeq în format JSON prin intermediul API-ului nostru JSON.

Datele din pistele RefSeq Other și RefSeq Diffs sunt organizate în format de fișier bigBed; mai multeinformații despre accesarea informațiilor din acest fișier bigBed pot fi găsite mai jos. Celelalte subpiste sunt asociate cu tabele de baze de date după cum urmează:

format genePred:

  • RefSeq All – ncbiRefSeq
  • RefSeq Curated – ncbiRefSeqCurated
  • RefSeq Predicted – ncbiRefSeqPredicted
  • RefSeq HGMD – ncbiRefSeqHgmd
  • RefSeq Select+MANE – ncbiRefSeqSelect
  • UCSC RefSeq – refGene

Format PSL:

  • RefSeq Alignments – ncbiRefSeqPsl

Prima coloană a fiecăruia dintre aceste tabele este „bin”. Această coloană este concepută pentru a accelera accesul pentru afișarea în Genome Browser, dar poate fi ignorată în siguranță în analiza în aval. Puteți citi mai multe despre sistemul de indexare bin aici.

Anotațiile din pistele RefSeqOther și RefSeqDiffs sunt stocate în fișiere bigBed, care pot fi obținute de pe serverul nostru de descărcări aici,ncbiRefSeqOther.bb și ncbiRefSeqDiffs.bb.Regiuni individuale sau întregul set de adnotări la nivelul întregului genom pot fi obținute cu ajutorul instrumentului nostrubigBedToBed, care poate fi compilat din codul sursă sau descărcat ca fișier binar precompilat pentru sistemul dumneavoastră din directorul de utilități legat mai jos. De exemplu, pentru a extrage numai adnotările dintr-o anumită regiune, puteți utiliza următoarea comandă:

bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/ncbiRefSeq/ncbiRefSeqOther.bb-chrom=chr16 -start=34990190 -end=36727467 stdout

Puteți descărca o versiune în format GTF a tabelului RefSeq All din directorul de descărcări GTF.Urmele în format genePred pot fi, de asemenea, convertite în format GTF utilizând utilitarulgenePredToGtf, disponibil în directorulutilities de pe serverul de descărcări al UCSC. Utilitarul poate fi rulat din linia de comandă astfel:

genePredToGtf hg38 ncbiRefSeqPredicted ncbiRefSeqPredicted.gtf

Rețineți că utilizarea genePredToGtf în acest mod accesează serverul nostru public MySQL și, prin urmare, trebuie să vă configurați hg.conf așa cum este descris pe pagina MySQL legată aproape de începutul secțiunii Data Accesssection.

Un fișier care conține secvențele de ARN în format FASTA pentru toate elementele din pistele RefSeq All, RefSeq Curated și RefSeq Predicted poate fi găsit pe serverul nostru de descărcări aici.

Vă rugăm să consultați arhivele listei noastre de discuții pentru întrebări.

Versiunile anterioare ale setului de piste ncbiRefSeq pot fi găsite pe serverul nostru de descărcări de arhivă.

Credințe

Această pistă a fost produsă la UCSC din date generate de oameni de știință din întreaga lume și curatoriate de proiectulNCBI RefSeq.

Kent WJ.BLAT – instrumentul de aliniere de tip BLAST. Genome Res. 2002 Apr;12(4):656-64. PMID: 11932250; PMC: PMC187518

Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J,Landrum MJ, McGarvey KM et al.RefSeq: an update on mammalian reference sequences.Nucleic Acids Res. 2014 Jan;42(Database issue):D756-63.PMID: 24259432; PMC: PMC3965018

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.