NCBI RefSeq Track Settings

AktualisiertHinweis: Aktualisiert am 4. März 2021

Beschreibung

Der NCBI RefSeq Genes Composite Track zeigt menschliche proteincodierende und nicht-proteincodierende Gene aus der NCBI RNA-Referenzsequenzsammlung (RefSeq). Alle Unterspuren verwenden die von RefSeq bereitgestellten Koordinaten, mit Ausnahme der UCSC-RefSeq-Spur, die UCSC durch Neuausrichtung der RefSeq-RNAs auf das Genom erstellt. Diese Neuausrichtung kann zu gelegentlichen Unterschieden zwischen den von UCSC und NCBI bereitgestellten Annotationskoordinaten führen. Für die RNA-seq-Analyse empfehlen wir die Verwendung von NCBI-ausgerichteten Tabellen wie RefSeq All oder RefSeq Curated. Im Abschnitt „Methoden“ finden Sie weitere Einzelheiten darüber, wie die verschiedenen Spuren erstellt wurden.

Besuchen Sie die NCBI-Seite Feedback for Gene and Reference Sequences (RefSeq), um Vorschläge zu machen, Ergänzungen und Korrekturen einzureichen oder um Hilfe zu RefSeq-Datensätzen zu bitten.

Weitere Informationen zu den verschiedenen Genspuren finden Sie in den FAQ zu Genen.

Anzeigekonventionen und Konfiguration

Diese Spur ist eine zusammengesetzte Spur, die verschiedene Datensätze enthält. Um nur einen ausgewählten Satz von Unterspuren anzuzeigen, deaktivieren Sie die Kästchen neben den Spuren, die Sie ausblenden möchten. Hinweis: Nicht alle Unterspuren sind für alle Baugruppen verfügbar.

Die möglichen Unterspuren umfassen: RefSeq-ausgerichtete Annotationen und UCSC-Ausrichtung von RefSeq-Annotationen

  • RefSeq All – alle kuratierten und vorhergesagten Annotationen, die von RefSeq bereitgestellt werden
  • RefSeq Curated – Teilmenge von RefSeq All, die nur die Annotationen enthält, deren Zugänge mit NM, NR, NP oder YP beginnen. (NP und YP werden nur für proteinkodierende Gene auf dem Mitochondrium verwendet; YP wird nur für den Menschen verwendet).
  • RefSeq Predicted – Teilmenge von RefSeq All, die die Annotationen enthält, deren Zugänge mit XM oder XR beginnen.
  • RefSeq Other – alle anderen von der RefSeq-Gruppe erstellten Annotationen, die nicht die Anforderungen für die Aufnahme in die RefSeq Curated- oder RefSeq Predicted-Tracks erfüllen.
  • RefSeq Alignments – Alignments von RefSeq-RNAs zum menschlichen Genom, die von der RefSeq-Gruppe bereitgestellt werden und den Darstellungskonventionen für PSL-Tracks entsprechen.
  • RefSeq Diffs – Alignment-Unterschiede zwischen dem/den menschlichen Referenzgenom(en) und RefSeq-Transkripten. (Track derzeit nicht für jede Assembly verfügbar.)
  • UCSC RefSeq – Annotationen, die aus der Neuausrichtung von RNAs mit NM- und NR-Zugängen zum menschlichen Genom durch UCSC generiert wurden. Dieser Track war früher als „RefSeq Genes“-Track bekannt.
  • RefSeq Select+MANE (Teilmenge) – Teilmenge von RefSeq Curated, Transkripte, die als RefSeq Select oder MANE Select gekennzeichnet sind. Für jedes proteincodierende Gen wird ein einzelnes Select-Transkript als repräsentativ ausgewählt. Diese Spur umfasst als MANE kategorisierte Transkripte, die sowohl von NCBI RefSeq als auch von Ensembl/GENCODE als repräsentativ eingestuft werden und eine 100%ige Übereinstimmung mit einem Transkript in der Ensembl-Annotation aufweisen. Siehe NCBI RefSeq Select. Beachten Sie, dass wir einen separaten Track, MANE (hg38), anbieten, der nur die MANE-Transkripte enthält.
  • RefSeq HGMD (Teilmenge) – Teilmenge von RefSeq Curated, Transkripte, die von der Human Gene Mutation Database annotiert wurden. Dieser Track ist nur für die menschlichen Genome hg19 und hg38 verfügbar. Es handelt sich um die am stärksten eingeschränkte RefSeq-Teilmenge, die auf die klinische Diagnostik ausgerichtet ist.

Die RefSeq-All-, RefSeq-Curated-, RefSeq-Predicted-, RefSeq-HGMD-, RefSeq-Select/MANE- und UCSC-RefSeq-Tracks folgen den Darstellungskonventionen für RefSeq-Prediction-Tracks. Die Farbschattierung zeigt den Grad der Überprüfung des RefSeq-Datensatzes an: vorhergesagt (hell), vorläufig (mittel) oder überprüft (dunkel), wie von RefSeq definiert.

Farbe Überprüfungsgrad
Überprüft: Der RefSeq-Datensatz wurde von NCBI-Mitarbeitern oder von einem Mitarbeiter überprüft. Der Überprüfungsprozess des NCBI umfasst die Bewertung der verfügbaren Sequenzdaten und der Literatur. Einige RefSeq-Datensätze können erweiterte Sequenz- und Annotationsinformationen enthalten.
Vorläufig: Der RefSeq-Datensatz wurde noch nicht einer individuellen Überprüfung unterzogen. Die anfängliche Sequenz-Gen-Assoziation wurde von externen Mitarbeitern oder NCBI-Mitarbeitern hergestellt.
Vorhersehbar: Der RefSeq-Datensatz wurde noch nicht einer individuellen Überprüfung unterzogen, und einige Aspekte des RefSeq-Datensatzes sind vorhersehbar.

Die Elementbeschriftungen und Codon-Anzeigeeigenschaften für Merkmale innerhalb dieser Spur können über die Kontrollkästchen oben auf der Spurbeschreibungsseite konfiguriert werden. Um die Einstellungen für einen einzelnen Subtrack anzupassen, klicken Sie auf das Schraubenschlüssel-Symbol neben dem Track-Namen in der Subtrack-Liste.

  • Label: Standardmäßig werden die Elemente mit dem Gen-Namen gekennzeichnet. Klicken Sie auf die entsprechende Beschriftungsoption, um den Zugangsnamen oder den OMIM-Identifikator anstelle des Gennamens anzuzeigen, alle oder eine Teilmenge dieser Beschriftungen einschließlich des Gennamens, des OMIM-Identifikators und der Zugangsnamen anzuzeigen oder die Beschriftung vollständig zu deaktivieren.
  • Codonfärbung: Diese Spur verfügt über eine optionale Codonfärbungsfunktion, die es den Benutzern ermöglicht, Genvorhersagen schnell zu validieren und zu vergleichen. Um Codon-Farben anzuzeigen, wählen Sie die Option „Genomische Codons“ aus dem Pulldown-Menü „Track nach Codons einfärben“. Weitere Informationen zu dieser Funktion finden Sie auf der Seite Einfärben von Genvorhersagen und Anmerkungen nach Codon.

Die RefSeq-Diffs-Spur enthält fünf verschiedene Arten von Inkonsistenzen zwischen der Referenzgenomsequenz und den RefSeq-Transkriptsequenzen. Die fünf Arten von Unterschieden sind folgende:

  • mismatch – ausgerichtete, aber nicht übereinstimmende Basen, plus HGVS g., um die für die Übereinstimmung mit dem Transkript erforderliche genomische Änderung anzuzeigen, und HGVS c./n., um die für die Übereinstimmung mit dem Genom erforderliche Transkriptänderung anzuzeigen.
  • short gap – genomische Lücken, die zu klein sind, um Introns zu sein (willkürlicher Cutoff von < 45 bp), höchstwahrscheinlich Insertions-/Deletionsvarianten oder Fehler, wobei HGVS g. und c./n. die Unterschiede anzeigen.
  • shift gap – shortGap-Elemente, deren Platzierung aufgrund repetitiver Sequenzen im Genom nach links und/oder rechts verschoben sein könnte, wobei HGVS c./n. den Positionsbereich der mehrdeutigen Region im Transkript anzeigt. Hier werden dünne und dicke Linien verwendet – die dünne Linie zeigt die Spanne der repetitiven Sequenz, und die dicke Linie zeigt die ganz rechts verschobene Lücke.
  • Doppellücke – genomische Lücken, die lang genug sind, um Introns zu sein, die aber die Transkriptsequenz überspringen (in der Standardeinstellung unsichtbar), mit HGVS c./n. deletion.
  • skipped – Sequenz am Anfang oder Ende eines Transkripts, die nicht am Genom ausgerichtet ist (in der Standardeinstellung unsichtbar), mit HGVS c./n. deletion

HGVS Terminologie (Human Genome Variation Society):g. = genomische Sequenz; c. = kodierende DNA-Sequenz; n. = nicht-kodierende RNA-Referenzsequenz.

Bei der Meldung von HGVS mit RefSeq-Sequenzen geben Sie bitte die RefSeq-Annotation an, die auf derGenom-Browser-Detailseite des Transkripts angezeigt wird, sowie die RefSeq-Transkript-ID mit Version (z.B. NM_012309.4 und nicht NM_012309), um sicherzustellen, dass die Ergebnisse aus Forschungsartikeln eindeutig dem Genom zugeordnet werden können.

Methoden

Die in der RefSeq-Annotation enthaltenen Spuren und die RefSeq-RNA-Alignment-Spuren wurden an der UCSC mit Daten aus dem NCBI RefSeq-Projekt erstellt. Die Datendateien wurden von RefSeq im GFF-Dateiformat heruntergeladen und für die Anzeige im Genome Browser in die Tabellenformate genePred und PSL konvertiert. Informationen über die NCBI-Annotation-Pipeline finden Sie hier.

Der RefSeq Diffs-Track wurde von der UCSC unter Verwendung der RefSeq-RNA-Alignments des NCBI erstellt.

Der UCSC RefSeq Genes-Track wurde mit denselben Methoden wie die früheren RefSeq Genes-Tracks erstellt.RefSeq-RNAs wurden mit BLAT am menschlichen Genom ausgerichtet. RNAs mit einem Alignment von weniger als 15 % wurden aussortiert. Wenn eine einzelne RNA an mehreren Stellen ausgerichtet wurde, wurde das Alignment mit der höchsten Basenidentität ermittelt. Nur Alignments mit einer Basenidentität innerhalb von 0,1 % des besten Alignments und einer Basenidentität von mindestens 96 % mit der Genomsequenz wurden beibehalten.

Datenzugriff

Die Rohdaten für diese Tracks können auf verschiedene Weise aufgerufen werden. Sie können interaktiv mit dem Tabellenbrowser oder dem Datenintegrator erkundet werden. Auf die Tabellen kann auch programmatisch über unseren öffentlichen MySQL-Server zugegriffen werden oder sie können von unserem Download-Server zur lokalen Verarbeitung heruntergeladen werden. Sie können auch über unsere JSON-API auf alle RefSeq-Tabelleneinträge im JSON-Format zugreifen.

Die Daten in den Spuren RefSeq Other und RefSeq Diffs sind im bigBed-Dateiformat organisiert; weitere Informationen über den Zugriff auf die Informationen in dieser bigBed-Datei finden Sie weiter unten. Die anderen Unterspuren sind wie folgt mit Datenbanktabellen verknüpft:

genePred-Format:

  • RefSeq All – ncbiRefSeq
  • RefSeq Curated – ncbiRefSeqCurated
  • RefSeq Predicted – ncbiRefSeqPredicted
  • RefSeq HGMD – ncbiRefSeqHgmd
  • RefSeq Select+MANE – ncbiRefSeqSelect
  • UCSC RefSeq – refGene

PSL-Format:

  • RefSeq Alignments – ncbiRefSeqPsl

Die erste Spalte jeder dieser Tabellen ist „bin“. Diese Spalte dient der Beschleunigung des Zugriffs bei der Anzeige im Genom-Browser, kann aber bei der nachgeschalteten Analyse getrost ignoriert werden. Weitere Informationen über das bin-Indexierungssystem finden Sie hier.

Die Annotationen in den RefSeqOther- und RefSeqDiffs-Spuren werden in bigBed-Dateien gespeichert, die von unserem Download-Server hier abgerufen werden können,ncbiRefSeqOther.bb und ncbiRefSeqDiffs.Einzelne Regionen oder der gesamte Satz genomweiter Annotationen können mit unserem ToolbigBedToBed extrahiert werden, das Sie aus dem Quellcode kompilieren oder als vorkompilierte Binärdatei für Ihr System aus dem unten verlinkten Utilities-Verzeichnis herunterladen können. Um beispielsweise nur die Anmerkungen in einer bestimmten Region zu extrahieren, können Sie folgenden Befehl verwenden:

bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/ncbiRefSeq/ncbiRefSeqOther.bb-chrom=chr16 -start=34990190 -end=36727467 stdout

Sie können eine Version der RefSeq-All-Tabelle im GTF-Format aus dem GTF-Download-Verzeichnis herunterladen.Die Spuren im genePred-Format können auch mit dem DienstprogrammgenePredToGtf in das GTF-Format konvertiert werden, das im Verzeichnisutilities auf dem UCSC-Download-Server verfügbar ist. Das Dienstprogramm kann von der Befehlszeile aus wie folgt ausgeführt werden:

genePredToGtf hg38 ncbiRefSeqPredicted ncbiRefSeqPredicted.gtf

Bitte beachten Sie, dass die Verwendung von genePredToGtf auf diese Weise auf unseren öffentlichen MySQL-Server zugreift und Sie daher Ihre hg.conf so einrichten müssen, wie auf der am Anfang des Abschnitts Datenzugriff verlinkten MySQL-Seite beschrieben.

Eine Datei mit den RNA-Sequenzen im FASTA-Format für alle Elemente in den Spuren RefSeq All, RefSeq Curated und RefSeq Predicted finden Sie auf unserem Download-Serverhier.

Bei Fragen wenden Sie sich bitte an unsere Mailinglisten-Archive.

Vorherige Versionen der ncbiRefSeq-Tracks finden Sie auf unserem Archiv-Download-Server.

Credits

Dieser Track wurde am UCSC aus Daten erstellt, die von Wissenschaftlern weltweit generiert und vomNCBI RefSeq-Projekt kuratiert wurden.

Kent WJ.BLAT – the BLAST-like alignment tool. Genome Res. 2002 Apr;12(4):656-64.PMID: 11932250; PMC: PMC187518

Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J,Landrum MJ, McGarvey KM et al.RefSeq: an update on mammalian reference sequences.Nucleic Acids Res. 2014 Jan;42(Database issue):D756-63.PMID: 24259432; PMC: PMC3965018

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.