DNA塩基配列データ解析-バイオインフォマティクスへの出発

前回の記事では、DNAの基本であるヌクレオチドとその配列について紹介しました。 DNA分子のヌクレオチドの正確な並びをどのようにして特定するのか、不思議に思われるかもしれません。

シーケンシングとは、与えられたDNA分子のヌクレオチドの正確な順序を決定する操作のことです。

シーケンシングは、DNA鎖のアデニン(A)、グアニン(G)、シトシン(C)、チミン(T)の4塩基の順序を決定するために使用されます。 また、DNA配列の決定は、RNAやタンパク質の配列を決定する最も効率的な方法にもなっています。

DNA Molecule (Image Source: https://.com)

History of Sequencing

イギリスの生化学者フレデリック サンガーによって行われた研究は、タンパク質配列決定の基礎を築くものでした。 1955年、サンガーはインスリンの全アミノ酸の塩基配列を完成させた。 彼の研究は、タンパク質が物質の混合物ではなく、特定のパターンを持つ化学物質で構成されていることを示す証拠となった。

Frederick Sanger(画像出典:https://en.wikipedia.org/wiki/DNA_sequencing)

その後、1977年にフレデリック・サンガーと彼の同僚によってサンガー配列決定という、断片を発生させてDNAを配列決定できる方法が開発されました。

全ゲノム配列決定と配列の組み立て

DNA配列決定反応では、数百塩基の長さの配列が作られます。 遺伝子配列は通常、数千塩基の長さです。 最も大きな遺伝子として知られているのは、デュシェンヌ型筋ジストロフィーに関連するものである。 その長さは約240万塩基である。 1つの遺伝子全体を研究するために、科学者たちはショットガンシーケンスと呼ばれる簡単な戦略を用いる。 長いDNA配列は、短い配列が重なり合ったものから組み立てられていく。 それでは、ショットガンシーケンスの手法で何が起こるか見てみましょう。

Shotgun Sequencing

Shotgun Sequencing

sequencing machineと呼ばれる特殊な機械で、決定したい特定のゲノム(ターゲットゲノム)から短いランダムDNAシーケンスを抽出するのです。 現在のDNAシーケンシング技術では、1つのゲノム全体を一度に読み取ることはできません。 使用する技術によって異なりますが、20から30000塩基の小さな断片を読み取ります。 この短い断片をリードと呼びます。 特殊なソフトウェアを用いて、これらのリードの重なり具合に応じてアセンブルし、コンティグと呼ばれる連続した文字列を生成する。 このコンティグは、ターゲットゲノムそのものであったり、ゲノムの一部であったりします(上図参照)。

長いDNA配列の断片を並べて結合し、元の配列を復元する作業をシーケンスアセンブリと呼びます。

Sequence Assembly Problem

配列アセンブリ問題は以下のように記述できる。

配列のセットが与えられたとき、セットのすべてのメンバーを部分配列として含む最小長の文字列を求める。

画像ソース。 http://www.homolog.us/Tutorials/index.php?p=1.3&s=1

この問題は、ゲノム中の繰り返し配列や、その中の置換や突然変異の存在によってさらに複雑になります。

配列アセンブリ問題を実際のシナリオに例えると、以下のようになります。

ある本のコピーをたくさん取って、それぞれを異なるカッターを使ったシュレッダーに通し、シュレッダーの破片を接着するだけで本の本文を元に戻そうとしたとします。 この作業がかなり難しいことは明らかである。 さらに、現実的な問題もある。 原書は段落の繰り返しが多いかもしれないし、シュレッダーの際に修正されて誤字があるシュレッダーもあるかもしれない。 また、別の本からの部分が追加されているかもしれませんし、一部の細断片はまったく認識できないかもしれません。 この問題はNP完全であることが知られている。 NP完全問題とは、その状態が未知の問題である。 NP完全問題に対して多項式時間アルゴリズムはまだ発見されておらず、また、多項式時間アルゴリズムが存在しないことを証明できる人もまだいない。 しかし、配列アセンブリ問題を解くための貪欲なアルゴリズムがあり、そこでは、実験が実際にかなりうまくいくことが証明されている。

配列アセンブリ問題を解いて配列データ解析を行うためによく用いられる方法は配列アライメントである。

Sequence Alignment

配列アライメントはDNA、RNAまたはタンパク質の配列を並べて類似性の領域を特定する手法である。 識別される類似性は、配列間の機能的、構造的、または進化的な関係の結果である可能性があります。 2つ以上の配列を比較する場合は、マルチプルシーケンスアライメントと呼ばれる。

Next-Generation Sequencing

ハイスループット シーケンスとしても知られる次世代シーケンサー(NGS)は、次のような多くの異なる最新のシーケンサー技術を表す総称として使用されています。

  • Illumina (Solexa) sequencing
  • Roche 454 sequencing
  • Ion torrent Proton / PGM sequencing
  • SOLiD sequencing

これらの最近の技術は、以前使われていたSanger sequencingよりもはるかに早く、安価にDNAおよびRNAを解読できるため、ゲノム研究において大変革を起こしています。

最後に思うこと

配列データの解析は、ゲノミクスの分野で非常に重要な側面になっている。 バイオインフォマティクスは、さまざまなソフトウェアソリューションを提供し、退屈な手作業をすべて省くことで、生物学者にとって分析作業がはるかに容易になりました。

配列データ解析についての基本的な考え方はご理解いただけたでしょうか。

次回の記事では、ペアワイズ配列アライメントの詳細と、この分野で使用されているいくつかの一般的なアルゴリズムについて説明します。 😇

お読みいただきありがとうございました😃

コメントを残す

メールアドレスが公開されることはありません。