NCBI RefSeqトラックの設定

更新注:2021年3月4日更新

説明

NCBI RefSeq Genes composite trackはNCBI RNA reference sequences collection (RefSeq) から取得した人間のタンパク質コード化遺伝子と非タンパクコード化遺伝子を表示します。 ただし、UCSC RefSeqトラックは、UCSCがRefSeq RNAをゲノムに再整列して作成したものです。 この再調整により、UCSCとNCBIが提供するアノテーション座標に差異が生じる場合があります。 RNA-seq解析には、RefSeq AllやRefSeq CuratedなどのNCBIアライメントテーブルを使用することをお勧めします。 各トラックの作成方法の詳細については、「方法」セクションを参照してください。

提案、追加や修正の提出、RefSeq レコードに関するヘルプの依頼は NCBI の Feedback for Gene and Reference Sequences (RefSeq) ページで行ってください。

異なる遺伝子トラックに関する詳細は、遺伝子 FAQ を参照してください。

Display Conventions and Configuration

このトラックは異なるデータセットを含む複合トラックです。 注:すべてのサブトラックがすべてのアセンブリで利用できるわけではありません。

可能なサブトラックは以下の通りです。 RefSeq aligned annotations and UCSC alignment of RefSeq annotations

  • RefSeq All – RefSeq が提供するすべての curated および predicted annotations.
  • RefSeq Curated – Accessions が NM、NR、NP または YP から始まる annotations のみ含む RefSeq All のサブセットです。 (NPとYPはミトコンドリア上のタンパク質コード遺伝子にのみ使用、YPはヒトにのみ使用)
  • RefSeq Predicted – アクセッションが XM または XR で始まるアノテーションを含む RefSeq All のサブセット。
  • RefSeq Other – RefSeq Curated または RefSeq Predicted トラックに含めるための要件に適合しない RefSeq グループによるその他のすべてのアノテーション。
  • RefSeq Alignments – RefSeq グループが提供するヒトゲノムに対する RefSeq RNA のアラインメントで、PSL トラックの表示規則に従っています。
  • RefSeq Diffs – ヒト参照ゲノムと RefSeq トランスミッション間のアラインメント差です。 (
  • UCSC RefSeq – UCSCによるヒトゲノムのNMおよびNRアクセッションのRNAの再アラインメントから生成されたアノテーションです。 このトラックは以前は「RefSeq Genes」トラックとして知られていました。
  • RefSeq Select+MANE (subset) – RefSeq Curated のサブセットで、RefSeq Select または MANE Select としてマークされた転写産物です。 各タンパク質コード遺伝子の代表として、1つのSelect転写物が選ばれています。 このトラックには、NCBI RefSeqとEnsembl/GENCODEの両方で代表としてさらに合意され、Ensemblアノテーションの転写物と100%一致するMANEと分類された転写物が含まれています。 NCBI RefSeq Selectを参照。 なお、MANE転写産物のみを収録したMANE (hg38)というトラックも別途提供しています。
  • RefSeq HGMD (subset) – RefSeq Curatedのサブセットで、Human Gene Mutation Databaseによりアノテーションされた転写物です。 このトラックは、ヒトゲノム hg19 と hg38 でのみ利用可能です。 ヒトゲノムhg19とhg38にのみ適用され、臨床診断をターゲットとした最も限定されたRefSeqサブセットである。

RefSeq All, RefSeq Curated, RefSeq Predicted, RefSeq HGMD, RefSeq Select/MANE および UCSC RefSeq トラックは、予測トラックの表示規則に準拠しています。

Reviewed: NCBIスタッフまたは協力者によってレビューされたRefSeqレコードです。 NCBIのレビュープロセスには、利用可能な配列データおよび文献の評価が含まれる。 また、RefSeqレコードの中には、拡張された配列やアノテーション情報が含まれているものもある。

レビューレベル
Provisional:まだ個別のレビューを受けていないRefSeqレコード。 このトラック内のフィーチャーのアイテムラベルとコドン表示プロパティは、トラック説明ページの上部にあるチェックボックスコントロールで設定できます。 個々のサブトラックの設定を調整するには、サブトラックリストのトラック名の横にあるレンチアイコンをクリックします.

  • Label: デフォルトでは、アイテムは遺伝子名でラベル付けされます。 適切なLabelオプションをクリックすると、遺伝子名の代わりにアクセッション名またはOMIM識別子を表示したり、遺伝子名、OMIM識別子、アクセッション名を含むこれらのラベルのすべてまたはサブセットを表示したり、ラベルを完全にオフにしたりできます。
  • Codon coloring: このトラックにはオプションでコドンカラーリング機能があり、ユーザーは遺伝子予測の検証や比較を素早く行うことができます。 コドンの色を表示するには、Color track by codons プルダウンメニューからゲノムのコドンオプションを選択します。 この機能の詳細については、Coloring Gene Predictions and Annotations by Codon ページを参照してください。

RefSeq Diffs トラックは、Thereference ゲノム配列と RefSeq トランスクリプト配列の間の 5 種類の不一致を含んでいます。

  • mismatch – アラインされているが塩基が不一致、さらにHGVS g.は転写産物と一致するために必要なゲノム変化を、HGVS c./n. はゲノムと一致するために必要な転写産物の変化を示しています。
  • short gap – イントロンと呼ぶには小さすぎるゲノムギャップ(カットオフは< 45 bp)、挿入/欠失バリアントまたはエラーと思われ、HGVS g. と c./n. はその違いを示す。
  • shift gap – 繰り返し配列によりゲノム上で左または右に配置がシフトされた short gap アイテム、HGVS c./n. は転写産物の不明瞭な領域の位置範囲とする。 ここでは、細い線と太い線が使用されており、細い線は反復配列のスパンを、太い線は右端のシフトしたギャップを示しています。
  • double gap – イントロンとして十分な長さがあり、転写配列上をスキップするゲノムギャップ(デフォルト設定では不可)、HGVS c./n. deletionと併用
  • skipped – ゲノムに整合しない転写物の最初または最後の配列(デフォルト設定では不可)、HGVS c./n. deletionと併用

HGVS用語(ヒトゲノム変動協会):G.

HGVS を RefSeq 配列で報告する場合、研究論文の結果がゲノムに明確にマッピングされるように、転写産物の Genome Browser 詳細ページに表示される RefSeq アノテーション リリース、および RefSeq トランスクリプト ID とバージョン(例:NM_012309 ではなく NM_012309.4 )を明示してください。

方法

RefSeqアノテーションに含まれるトラックとRefSeq RNAアライメントトラックは、NCBI RefSeqプロジェクトのデータを用いてUCSCで作成されました。 データファイルはRefSeqからGFFファイル形式でダウンロードし、ゲノムブラウザで表示するためにgenePredおよびPSLテーブル形式に変換されたものです。 NCBIアノテーションパイプラインに関する情報はこちらをご覧ください。

RefSeq Diffs トラックは NCBI の RefSeq RNA アラインメントを用いて UCSC で作成されたものです。 アラインメントが15%未満のものは破棄された。 1つのRNAが複数の場所でアラインメントされた場合、最も塩基同一性の高いアラインメントが特定された。 1098>

Data Access

これらのトラックの生データは、複数の方法でアクセスすることができます。 Table Browser や Data Integrator を使ってインタラクティブに調べることができる。 また、公開されている MySQL サーバーからプログラム的にテーブルにアクセスしたり、ダウンロードサーバーからダウンロードしてローカルで処理することも可能です。 RefSeq Other および RefSeq Diffs トラックのデータは、bigBed ファイル形式で構成されており、この bigBed ファイルの情報へのアクセスに関する詳細は、以下を参照してください。 その他のサブトラックは、以下のようにデータベーステーブルと関連付けられている:

genePred format:

  • RefSeq All – ncbiRefSeq
  • RefSeq Curated – ncbiRefSeqCurated
  • RefSeq Predicted – ncbiRefSeqPredicted
  • RefSeq HGMD – ncbiRefSeq Curated
  • RefSeq予測済
  • RefSeq予測済 ncbiRefSeqHgmd
  • RefSeq Select+MANE – ncbiRefSeqSelect
  • UCSC RefSeq – refGene

PSL フォーマットです。

  • RefSeq Alignments – ncbiRefSeqPsl

これらのテーブルの最初の列は “bin “である。 この列はゲノムブラウザでの表示を高速化するためのものですが、下流の解析では無視しても問題ありません。

RefSeqOther および RefSeqDiffs トラックのアノテーションは bigBed ファイルに格納されており、ダウンロードサーバーから ncbiRefSeqOther.bb および ncbiRefSeqDiffs.bb を取得することができる。このツールは、ソースコードからコンパイルするか、以下のリンク先のutilitiesディレクトリから、お使いのシステム用にコンパイル済みのバイナリとしてダウンロードすることができます。 例えば、ある領域のアノテーションのみを抽出する場合、以下のコマンドを使用します:

bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/ncbiRefSeq/ncbiRefSeqOther.bb-chrom=chr16 -start=34990190 -end=36727467 stdout

RefSeq All tableのGTFフォーマット版はGTF downloadsディレクトリからダウンロードできます。GenePredフォーマットのトラックもgenePredToGtf utilityを使ってGTFフォーマットへと変換でき、UCSC ダウンロードサーバ上のtheutilities ディレクトリから利用できます。 このユーティリティはコマンドラインから次のように実行できます。

genePredToGtf hg38 ncbiRefSeqPredicted ncbiRefSeqPredicted.gtf

Note that using genePredToGtf in this manner access our public MySQL server, and therefore you must set up your hg.conf as described on the MySQL page linked near the beginning of the Data Access sections.この方法で genePredToGtf を使うと、MySQL 公開サーバーにアクセスして、データアクセスの章の最初の方で説明されているように、 hg.conf を設定する必要があることに注意してください。

RefSeq All、RefSeq Curated、および RefSeq Predicted トラックのすべてのアイテムの FASTA 形式の RNA 配列を含むファイルは、こちらのダウンロードサーバーで見つけることができます。

ncbiRefSeq トラックの以前のバージョンは、アーカイブのダウンロード サーバーにあります。

Credits

このトラックは、世界中の科学者によって生成されたデータと NCBI RefSeq プロジェクトによって管理されているデータから UCSC で生成されました。

Kent WJ.BLAT – the BLAST-like alignment tool. Genome Res. 2002 Apr;12(4):656-64.PMID: 11932250; PMC: PMC187518

Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J,Landrum MJ, McGarvey KM et al.は、NCBIのRefeqプロジェクトにより作成された、世界中の研究者が参加するデータベース。RefSeq: an update on mammalian reference sequences.Nucleic Acids Res. 2014 Jan;42(Database issue):D756-63.PMID: 24259432; PMC: PMC3965018

.

コメントを残す

メールアドレスが公開されることはありません。