The 1000 Genomes Projectは2008年から2015年にかけて実施され、ヒトの変異と遺伝子型データの最大の公開カタログが作成されました。 プロジェクトの終了に伴い、EMBL-EBIのデータ調整センターは、ウェルカムトラストから継続的に資金提供を受け、リソースの維持・拡張を行っている。 International Genome Sample Resource (IGSR)は、これを行うために以下の目的で設立されました。
- 1000ゲノムリファレンスデータへのアクセスおよびユーザビリティを将来にわたって確保する
- 1000ゲノムサンプルに関する追加の公開ゲノムデータを取り込む
- データ収集を拡大し、代表的ではない新しい集団を取り込む
- 国際ゲノムサンプルリソース(International Genome Sample Resource: IGSR)は、以下の目的で設定されました。 1000 Genomes Project
1000 Genomes Project
1000ゲノムプロジェクトの概要
1000ゲノムプロジェクトの目標は、調査した集団で少なくとも1%の頻度でほとんどの遺伝子変異を見つけることであった。
1000ゲノム・プロジェクトは、配列決定技術の発展を利用し、配列決定のコストを大幅に削減しました。 これは、ヒトの遺伝的変異に関する包括的なリソースを提供するために、多数の人々のゲノムの配列を決定した最初のプロジェクトでした。 1000人ゲノムプロジェクトのデータは、自由にアクセスできる公開データベースを通じて、世界中の科学者コミュニティに迅速に提供されました。 しかし、ゲノムのどの特定の領域にも、一般に限られた数のハプロタイプが含まれている。 そのため、ある領域内のほとんどの変異を効率的に検出するために、サンプル間でデータを結合した。 この深さでは、各サンプルに含まれるすべてのバリアントを発見することはできませんが、1%という低い頻度でほとんどのバリアントを検出することができます。 プロジェクトの最終段階では、2,504サンプルのデータを統合し、プロジェクトが発見したすべてのバリアント部位における各サンプルの遺伝子型の高精度な割り当てを可能にしました。
1000ゲノムプロジェクトのゲノミクスへの貢献は、メインプロジェクトからの最終出版物を含む号のNatureに要約されています。 当初の計画は会議の報告書で読むことができます。 進行後は、パイロット・フェーズとメイン・プロジェクトの3つのフェーズの4段階で実施されました。 メインプロジェクトでは、第1期と第3期でデータを作成し、第2期は技術開発に集中した。
パイロット・プロジェクト
3回のパイロット・スタディにより、本格的なプロジェクトの設計に必要なデータが提供された。
パイロット | 目的 | カバー率 | 戦略 | 状況 |
---|---|---|---|---|
1 – 。 低カバレッジ | サンプル間でデータを共有する戦略を評価する | 2-…4X | 180サンプルの全ゲノムシーケンス | 2008年10月完了 |
2 – トリオ | カバー率とプラットフォームとセンターを評価 | 20-60X | ホールゲノムシークエンス | 2008年10月完了 |
3-遺伝子領域 | 遺伝子領域の解析手法の検討capture | 50X | 1000 gene regions in 900 samples | Sequencing completed June 2009 |
4x coverageの戦略がプロジェクトの目標を満たすのに適切かどうか、パイロットプロジェクトのデータが分析されました。
メインプロジェクト
メインプロジェクトのフェーズ1と3でシーケンスが行われ、それぞれに対応したデータリリースと分析が行われた。 最終段階である第3期に関連する最終的なデータ凍結は、2013年5月2日に行われた。 このデータセット(20130502.sequence.index ファイルに定義)は、フェーズ 3 分析のベースとなる最終データセットで、以前のデータリリースを置き換えたものです。 プロジェクトの過程で、解析方法はさらに開発され、第3段階の解析は以前のバージョンに取って代わる。
最終データセットには、26の集団から2,504人のデータが含まれている。 低カバレッジとエクソーム配列データはこれらの個体すべてに存在し、24の個体は検証目的で高カバレッジの配列も決定された。
解析は、短い変異(長さ50塩基対まで)と構造変異の両方を調べながら行われた。 これらの解析は、2015年のプロジェクト終了時に発表された。 主な発表論文の一覧は以下をご覧ください。
Publications
- Pilot Analysis
- A map of human genome variation from population-scale sequencing Nature 467, 1061-1073 (28 October 2010)
- Phase 1 Analysis
- An integrated map of genetic variation from 1.1.0 (1048),092 human genomes Nature 491, 56-65 (01 November 2012)
- Phase 3 Analysis
- A global reference for human genetic variation Nature 526, 68-74 (01 October 2015)
- An integrated map of structural variation in 2,504 human genomes Nature 526, 75-81 (01 October 2015)
1000 Genomes Project samples and data
The 1000 Genomes Projectではサンプリングを行う研究者の倫理面に関するガイドラインを作成して、Informed Consent Background DocumentとInformed Consent Form Templateに概要を示しました。 プロジェクトに含まれるすべてのコレクションは、これらの倫理的ガイドラインとインフォームドコンセントのモデル言語に従っている。 1000ゲノムプロジェクト運営委員会は、プロジェクトのサンプルとELSIグループからの情報をもとに、どの集団とサンプルセットをプロジェクトに含めるかを最終的に決定した
1000ゲノムプロジェクトからのデータは、プロジェクトからの最終発表に続いて、禁輸なしで利用可能である。 このデータの使用は通常の方法で引用されるべきであり、現在の詳細は、1000ゲノムプロジェクトのデータの使用に関する詳細が記載されているFAQで入手可能である。 IGSRが提供するデータの使用に関する追加情報は、IGSRのデータページで閲覧することができます。 細胞株とDNAはすべての1000ゲノムサンプルについて入手可能であり、Coriell Instituteから入手できる。 1000 Genomes Projectのサンプルは匿名であり、関連する医療データや表現型データはない。 このプロジェクトでは、自己申告による民族と性別を保有している。 IGSRは、1000ゲノムプロジェクトのデータの将来の有用性とアクセス性を確保し、1000ゲノムサンプルの新しいデータおよびIGSRサンプリング原則に沿ったサンプリングが実施された新しい集団を含むデータセットを拡張するために設立された。
1.1000ゲノム参照データの将来の有用性の確保
2014年、ゲノム参照コンソーシアムは、ヒトアセンブリのアップデートであるGRCh38をリリースしました。 このヒト参照アセンブリの更新では、表現された代替遺伝子座の量が大幅に改善されている。 現在,関連する代替遺伝子座を持つ178のゲノム領域(染色体配列の2%(61.9 Mb))が含まれている。 これは261の代替遺伝子座(染色体に対して3.6Mbの新規配列を含む)から構成されている。 GRCはまた、旧バージョンのアセンブリから1000以上の問題を解決することができた。
変異を識別し、遺伝子型を呼び出す際に代替遺伝子座を利用することは、ヒトの変異を発見する能力を向上させるための重要なステップである。 現在、代替遺伝子座のデータを使用できるツールは非常に少ない。 IGSRは、BWA memを用いて、第3期の1000ゲノムデータを代替遺伝子座を意識した方法でGRCh38に再マッピングした。 これにより、手法開発コミュニティは、新しい手法を推進するためのアラインメントのソースを提供するだけでなく、より広いコミュニティに最新のアラインメントを提供し、誰もが新しいアセンブリのコンテキストでデータから利益を得られることを保証します。 IGSRは、これらの新しいアラインメントでバリアントをリコールする予定です。
さらに、ゲノム配列データのさらなるセットがGRCh38にアラインされており、イルミナのPlatinum Genomesデータがアラインされる最初の新しいデータコレクションとなっています。 1000 Genomesサンプルの公開ゲノムデータを取り込む
1000 Genomesサンプルは、分子表現型実験や、遺伝的変異と発現の関連性、エピジェネティック状態の測定などを調べるためのリソースとして人気があることが証明されています。 1000ゲノム欧州サンプルとYRI集団のRNA-Seqデータを作成したGEUVADISや、NA12878細胞株の大規模アッセイを実施したENCODEなどのプロジェクトにより、これらのサンプルで大規模なデータセットが作成されてきた。 その他にも多くのグループが1000ゲノムサンプルでアッセイを行っています。 IGSRは、これらの情報を統一的な方法で提示し、コミュニティがこれらのサンプルに存在するすべてのデータから利益を得られるようにしたい
3. 新しい集団を含むデータ収集の拡大
IGSRは、現在の1000ゲノムプロジェクトのサンプルがすべての集団を反映していないことを認識している。 IGSRの重要な目的は、コレクションで表される集団を拡大し、利用可能な公開データが最大限の集団多様性を表していることを確実にすることです。 これにより、1000ゲノムデータセットが今後5年間、コミュニティにとって貴重なオープンリソースであり続けることができるのです。 IGSRは、1000ゲノムプロジェクトがサンプル収集を終了する前にサンプルを提供できなかったグループと協力し、集団多様性のギャップを確実に埋めるために他のグループとのコラボレーションを検討します。 これについての詳細は、サンプル収集の原則のページでご覧いただけます。
上記のいずれかについてのご質問は、[email protected].
まで電子メールでお送りください。