Motif Enrichment Analysis: a unified framework and an evaluation on ChIP data

Fixed-partition methods

まず、今回検討した最もシンプルなMEA法、YFP法について精度を検討する。 これらの方法は、生物学的信号であるYに固定された閾値を使用して、入力データを正と負のセットに分割する。固定分割MEA方法は、広く使用されている(例えば、)。 我々は、4つのYFP手法(Fisher-YFP、mHG-YFP、Ranksum-YFP、Clover-YFP)の精度を、237の酵母ChIPチップデータセットそれぞれにおける正しいTFモチーフを特定するタスクについて測定しました。 生物学的シグナルであるYは、ChIP-chip蛍光のp値であり、固定Y分割閾値t yの様々な値を用いて、各MEA法を実行した。 この実験の結果を図1に示す。 図中の縦青線の左側の結果は、237個のChIP-chipデータセットのうち、Yに関する分割閾値t y が空の正セットとなるデータセットを全て無視したため、次第に小さくなる部分集合についての結果であることに注意されたい。 例えば、図中のt y = 10-10のポイントは、10-10未満の蛍光p値を少なくとも1つ含む57のChIP-chipデータセットの結果を示す。

Figure 1
figure 1

Accuracy of MEA methods using fixed Y partitions. 237の酵母ChIP-chip実験における既知のTFモチーフを正しくランク付けするための異なるMEA法の能力を示す。 各ポイントは、t y(X軸)の値よりも小さい蛍光p値を有する少なくとも1つの配列を含むすべてのChIP-チップデータセットに対するMEA法の平均(パネルa)または中央値(パネルb)パーセントランク精度(PRA)に相当する。 X値を増加させることは、TFによって結合しているとみなされる配列のための閾値を緩和することに対応する。 縦線の右側は237セットすべてが含まれ、左側はt yの閾値を厳しくすると含まれるセットがますます少なくなる。

YFPバージョンのCloverは、237の酵母ChIP-チップデータセットすべてでChIPされたTFモチーフを特定するのに、他の方法より明らかに優れている(図1a)。 すべての手法の平均精度(PRA、式8)は、Yパーティションの閾値が下がるにつれて上昇する。 237 のデータセットすべてで使用できる最小のパーティション閾値である t y = 0.001 の場合、Clover-YFP は正しい TF を 84%ile にランク付けし (PRA = 84.1) 、次に優れた手法 (mHG-YFP) はそれを平均 80%ile にランク付け (PRA = 80.4) しています。 Clover-YFP の優位性は、Y パーティション閾値の大きな値でさらに顕著ですが、すべてのメソッドの絶対精度はパーティション閾値の増加とともに低下します (図 1a)。

ランクサム法の YFP バージョンが、すべての 237 ChIP- チップ データセットでテストしたメソッドの中で明らかに最悪です。 メソッドのパフォーマンスが極端に低いデータセットにあまり重点を置かない、より寛容な中央値 PRA メトリックの下でも、ランクサム-YFP は他のメソッドよりも大幅に低い精度を示します (図 1b)。 Y分割のしきい値t y = 0.001では、ランサム-YFPのPRA中央値は96.0に過ぎませんが、テストした他の3つのMEA手法では98.4でした。 Clover-YFPとRanksum-YFPはともにモチーフ親和性関数としてAMAを使用しているため(表1)、少なくともこの種の生体信号データ(ChIP-chip)においては、Cloverの関連関数は固定Yパーティションを用いたMEAのランクサム・テストよりも明らかに優れていると言えるでしょう。 ここでテストしたMEA手法のYFPバージョンは、いずれも237の酵母ChIP-chipデータセットすべてで極めて良好なパフォーマンスを示していない。 実際、どの手法も、ChIP-chipデータセットの60%以上で、ChIPされたTFモチーフを予測される上位3つのモチーフの中に入れていません(データは示されていません)。 これは、Gordânらが、ChIP-chip実験の35%において、PBM由来(モチーフ配列特異性を決定する独立したin vitroの方法)が有意に濃縮されなかったことを考えると、驚くべきことではない。

Clover-YFP法は、t y = 0.001未満の蛍光p値を含む酵母ChIP-chipデータセットだけでテストした場合、他の3つのMEA法のY分割最大化変種より正確である(図1aの垂直青線より左側にある結果)。 しかし、PRAの平均値における各手法間の相対的な差は、Y分割の閾値が小さくなるにつれて小さくなっている。 このように、MEA法のYFPバリエーションでは、Clover-YFPがChIP-chipデータに最適であり、特にChIP-chipデータの信号対雑音比が低い場合(すなわち、,

Unconstrained partition maximization methods

我々の固定パーティション実験から、酵母ChIP-chip TF identificationタスクにおけるMEAメソッドの精度は、蛍光p値の閾値の選択に強く依存することがわかった。 これらの実験では、一般的な慣習に従い、すべての237のChIP-chipデータセットに対して単一の閾値を選択した。 我々は、データセットごとに異なる、データ依存の閾値を選択することが有利であるかどうかを考えた。 これを自動的に行う一つの方法は、可能な限りの閾値を検討し、アソシエーション関数(式4)を最大化するものを選択することである。 この種のアプローチは、最近、MEAとモチーフ発見のためのFisherとmHGの関連関数についてそれぞれ研究されている。 (後述するように、これらの2つの研究では、無制約パーティション最大化ではなく、制約付きパーティション最大化の形式を用いている)

無制約Yパーティション最大化(YUPM)は、237のChIP-チップデータセットにおいてChIPした酵母のTFを同定する4つのMEA手法の能力をすべて改善できなかった(図2)。 237個のChIP-chipデータセットに少なくとも1つの陽性配列が存在するような最小の固定Y閾値(t y = 0.001)を使用する場合と比較して、式5に従って分割閾値を選択できるようにすると、平均精度(平均PRA)が大幅に低くなります。 例えば、YUPM版のClover(Clover-YUPM)の平均PRAは67.19であるのに対し、Yの閾値を0.001に固定した場合(Clover-YFP)は84.15となります。 これは、237の酵母ChIP-chipデータセットに対するYUPM手法の中で、実際、最も優れた平均精度です。 興味深いことに、ランクサムMEA法は、YFPを使用するときに最も悪い方法であることに加えて、YUPMを使用するときに最も精度が低下する。

Figure 2
figure 2

Accuracy of MEA methods using unconstrained-Y -partition-maximisation. 237の酵母ChIP-chip実験における既知のTFモチーフを正しくランク付けするための異なるMEA法の能力を示す。 4つのMEAメソッドのunconstrained-Y-partition-maximization(YUPM、青いバー)とfixed-partition(YFP、赤いバー、t y = 0.001)変異体の平均パーセントランク精度が示されている。 エラーバーは標準誤差を示す。

MEA法のYUPMバリエーションは、生体信号、Yに従って並べられたデータのすべての可能なパーティションを考慮する。少なくともChIP-チップデータについては、関連関数を最大化するYパーティションを選ぶことは良いアイデアではないことが図2より明らかである。 図2のデータを観察すると、(正しいモチーフ以外の)高ランクのモチーフは、多くの場合、極めて多数の、つまりTFが事前に予想した「陽性」配列のバインドよりもはるかに大きなYパーティションに対して最大限の関連スコアを持つことがわかります(データは示されていません)。 これらの「陽性」配列のほとんどは非常に大きなY値を持ち、大きな関連スコアは多くの配列でX(モチーフ親和性スコア)とY(ChIP-チップ蛍光p値)の間のわずかな相関に起因します。 アソシエーション関数はこのような相関を検出することに非常に優れているが、図2のMEAのYUPM変種の精度が低いことが示すように、相関はしばしばTFの機能的結合を示すものではない。

Constrained partition maximization methods

上述したように、無制約分割最大化MEA法は、配列の非常に大きな「陽性」セットに対応する最適Y(ChIP-チップ蛍光p値)閾値を選択するために酵母のTF識別タスクではパフォーマンスが低いようである。 これは、MEAとモチーフ発見のためのパーティション最大化の以前の使用が、しばしばポジティブセットの最大サイズを制限している理由を説明するかもしれない。 例えば、MEAアルゴリズムPASTAAは、ポジティブセットのサイズを1000配列以下に制限している。 同様に、モチーフ発見アルゴリズムDRIMは、本研究で使用した酵母ChIP-chipデータでテストされ、デフォルトでポジティブセットのサイズを最大300配列に制限し、1000配列を超えないようにします。

mHG法のパーティション最大化変種をYの閾値に拘束すると、300以上の「陽性」配列は得られないが、酵母のTFランキング課題における平均精度は、固定パーティションと無拘束パーティション最大化変種の中間である(図3)。 したがって、このタスクでは、DRIMが使用する制約付きパーティション最大化のタイプは、蛍光p値が0.001未満の配列を「陽性」セットに割り当てることに対応する固定パーティションを使用するよりも改善されていないようです。 我々は、237の酵母ChIP-chipデータセットにおいて、300番目の配列のYの平均値(Y、蛍光p値の増加によってソート)は0.04であることに注意してください。 これは、Yパーティションを300個の「陽性」配列に制限することにより、図3の方法mHG-YFPで使用するt y = 0.001の固定閾値と比較して、有意な生体シグナル(Y)が「陽性」集合に含まれることを意味する<1645><871><3702><1931>図3<5095><871><5727>図3<1867><155><871><7820>最高300の陽性配列に制限されるmHG法の正確性。 237の酵母ChIP-chip実験において、既知のTFモチーフを正しくランク付けするmHG法の3つの変種の能力を示す。 各バーは、MEA法のバージョンの平均PRAを表しています。 mHG-YDRIMと書かれたバーは、最大300の「ポジティブ」配列を持つパーティションに限定したパーティション最大化を用いた精度を示しています。 他の2つのバーは、それぞれ、t y = 0.001の固定パーティション法(mHG-YFP)、および制約のないパーティション最大化(mHG-YUPM)を使用した精度を示しています。 この方法は式5で記述され、Yの閾値t yに上限を置き、下限を置かない。 (すなわち、式5において、ある上限値bに対してr y =を定義する)これにより、「正」配列集合の最大サイズが効果的に制限されるが、データ依存の方法である。

酵母ChIP-chip TFモチーフ同定課題において、4つのMEA法のうち3つの制約付きY分割最大化変種の最大精度は、固定分割変種よりも優れていない(図4)。 t yの上限を0.001に設定すると、最悪の手法(Ranksum)に若干の改善が見られるが、このタスクでは最も精度の低い手法であることに変わりはない。 bの値(したがって,「正」の集合の最大サイズ)を増加させると,4つのYCPM手法すべての平均値と中央値のパーセンタイルランクの精度が低下します. 1645>

Figure 4
figure 4

Accuracy of MEA methods using constrained partition-maximization.The best accuracy is achieved when the upper bound on t y is 0.001, the smallest possible bound in order that all 237 ChIP-chip datasets have at least one “positive” sequence.Extended Partition Maximization. 237の酵母ChIP-chip実験における既知のTFモチーフを正しくランク付けするための異なるMEA法の能力を示す。 各パネルは、比較のために固定パーティション(YFP)バリアントの精度とともに、ある手法のY制約付きパーティション最大化(YCPM)の精度を示している。 各ポイントは、MEA法のPRA(Y軸)の平均値または中央値を示しています。 YCPM法の場合、プロットのX軸はt yが想定し得る最大値、bであり、YFP法の場合、それは方法の固定閾値、t y .

しかしながら、制約付きY分割最大化(YCPM)MEA変種は固定分割変種(YFP)より堅牢である。 両方の変種は、ユーザによって選択されなければならない1つの自由パラメータ-YCPM変種のための上限、b、およびYFP変種のための固定閾値、t y、-を有する。 図4から明らかなように、YCPM変種は、配列に束縛されたTFを考慮するための絶対閾値t y の緩和に対してYFP変種よりも、選択可能な最大閾値(b)の緩和に対して敏感である。 このため,4つのMEA手法のうち制約付きY分割最大化手法は,固定分割手法と比較して明らかに有利である. さらに、図 4 では、YCPM 法は与えられた自由パラメータ値 (b) に対して、同じ自由パラメータ値 (t y ) を用いた YFP 法と比較して常に同等以上の精度を達成することが示されています。 したがって、ここで研究したタスクでは、制約付きYパーティション最大化MEA変種は、固定パーティション変種よりも明らかに優れている。

Partition-free MEA methods

(固定パーティション変種と比較して)制約付きパーティション最大化MEA変種の利点は、単一のフリーパラメータの選択に対する相対的不感受性にある。 しかし、ユーザーが選択しなければならない自由パラメータがなく、同等の精度を持つ方法は、さらに優れています。 無制約分割最大化法には自由パラメータがありませんが、上記で示したように、現在のタスクでは非常に低いパフォーマンスです。 その代わりに、関連関数はYとXの線形回帰の誤差の逆数となる。

我々のパラメータフリー線形回帰(LR)MEA法は、酵母TFモチーフランキング課題において、それぞれの自由パラメータの最適値を用いた他の4つの方法より高い精度を達成した(図5)。 LR法は、平均パーセンタイルランク精度が87.57であるのに対し、2番目に優れたClover-YFP法では84.15を達成した。 Clover-YFP、mHG-YFP、Ranksum-YFPでは、最高の精度を達成する自由パラメータ(t y )の値を選択することで「ごまかし」ているため、これは(LRに対して)不公平な比較であることは強調しておく必要があります。 これらの他の方法 (またはより堅牢な YCPM 変数) の実際のユーザーは、最適なパラメーター値を知らない可能性が高いため、精度が悪くなります。

Figure 5
figure 5

Accuracy of a Partition-free MEA Method (パーティションなしの MEA 法)。 237の酵母ChIP-chip実験において、異なるMEA法が既知のTFモチーフを正しくランク付けする能力を示している。 各バーは、すべての237のChIP-chipデータセットに対する与えられたMEAメソッドの平均PRAを示す。 エラーバーは標準誤差を示す。 LR法はパーティションフリーです。 PASTAAは、XおよびY制約付きパーティション最大化を使用し、「正」セット内の最大1000配列である。 すべての固定パーティション(YFP)法は、t y = 0.001の閾値を使用する。

LR法が顕著なパフォーマンスを示したので、我々は別のパラメータフリー法、スピアマンの順位相関係数を実装した。 線形回帰とは異なり、Spearmanの順位相関はXとYの間に線形関係を仮定しない。我々のSpearmanの順位相関法は非常に悪い結果を出し、平均パーセンタイルランク精度は69.46とこの比較で最悪で、YFP法より大幅に低い。

先に、MEA法PASTAAは制約付きY分割最大化の形式を使っていると言及しました。 実際、それはAMAとフィッシャー正確検定の関連関数に類似した親和性関数を用いて、XとYの両方に対して制約付き最大化を実行する。 TFランキングタスクに適用した場合、PASTAA(デフォルトの制約を使用)は、Cloverを除く他のすべてのパーティションベースのアプローチよりも優れた性能を発揮する(図5)。 これは、他の手法(Cloverを含む)のYFPバリアントの場合のように、その自由パラメータを最適化しなかったため、PASTAAの頑健性を示すものである。 それでも、酵母ChIP-chipのTFモチーフランキングタスクでは、PASTAAは今回紹介するパーティションフリー、パラメータフリーのLR法と比較して大幅に低い精度を達成している。

Software Availability

我々は、本研究で開発した二つのソフトウェアツールを公開し、オンラインで利用可能とした。 AME(Analysis of Motif Enrichment)とRAMEN(Regression Analysis of Motif ENrichment)は、いずれもhttp://bioinformatics.org.au/ame/からダウンロード可能である。 AMEとRAMENはどちらもMac OS XとLinux用のバイナリとして提供されており、ソースはリクエストに応じて入手可能です。

AME は Fisher, mHG, Ranksum, 線形回帰 (LR), spearman の順位相関法を YFP と YUPM モードで実装しています。 解析ステップを追加することにより、AMEはYCPMにも使用することができます。 RAMEN は、パラメータなしの LR 法を実装し、さらに並べ替えに基づく p 値の計算をサポートします。 AME と RAMEN のより完全なドキュメントは、ウェブサイト

でご覧いただけます。

コメントを残す

メールアドレスが公開されることはありません。