Motif Enrichment Analysis: egységes keretrendszer és értékelés ChIP-adatokon

Fixed-partition módszerek

Először a legegyszerűbb MEA módszerek pontosságát vizsgáljuk, amelyeket ebben a tanulmányban figyelembe veszünk, az YFP módszereket. Ezek a módszerek a bemeneti adatokat pozitív és negatív halmazokra osztják a biológiai jelre, Y-ra vonatkozó fix küszöbérték segítségével. A fix partíciójú MEA-módszereket széles körben használták (pl.) Négy YFP-módszer – Fischer-YFP, mHG-YFP, Ranksum-YFP és Clover-YFP – pontosságát mérjük a helyes TF-motívum azonosításának feladatán mind a 237 élesztő ChIP-chip adathalmazban. A biológiai jel, Y, a ChIP-chip fluoreszcencia p-értéke, és az egyes MEA-módszereket a rögzített Y partícionálási küszöb, t y, különböző értékeivel futtatjuk. A kísérlet eredményeit az 1. ábra mutatja. Megjegyezzük, hogy az ábrán a függőleges kék vonaltól balra lévő eredmények a 237 ChIP-chip-adatkészlet egyre kisebb részhalmazaira vonatkoznak, mivel figyelmen kívül hagyunk minden olyan adatkészletet, ahol az Y partícionálási küszöbérték t y üres pozitív halmazt eredményez. Például az ábrán a t y = 10-10 értékű pontok az 57 olyan ChIP-chip-adatkészletre vonatkozó eredményeket adják meg, amelyek legalább egy 10-10-nél kisebb p-értéket tartalmaznak.

1. ábra
1. ábra

A MEA-módszerek pontossága fix Y partíciók használatával. A különböző MEA-módszerek képességét mutatjuk be az ismert TF-motívumok helyes rangsorolására 237 élesztő ChIP-chip-kísérletben. Minden pont megfelel egy MEA-módszer átlagos (a panel) vagy medián (b panel) percentilis rangsorpontosságának (PRA) az összes olyan ChIP-chip-adatkészleten, amely legalább egy olyan szekvenciát tartalmaz, amelynek fluoreszcencia p-értéke kisebb, mint a t y (X-tengely) értéke. Az X értékek növekedése megfelel annak a küszöbértéknek az enyhítésének, amely alapján egy szekvencia TF által kötöttnek tekinthető. A függőleges vonaltól jobbra mind a 237 halmaz szerepel; balra egyre kevesebb halmaz szerepel szigorúbb t y küszöbértékek mellett.

A Clover YFP változata egyértelműen jobb, mint a többi módszer a ChIP-elt TF-motívum azonosításában mind a 237 élesztő ChIP-chip adathalmazban (1a. ábra). Az összes módszer átlagos pontossága (PRA, 8. egyenlet) nő az Y partíciós küszöbérték csökkenésével. A t y = 0,001 küszöbértéknél, amely a legkisebb partíciós küszöbérték, amely mind a 237 adatkészlet esetében használható, a Clover-YFP a 84. percentilisben (PRA = 84,1), míg a következő legjobb módszer (mHG-YFP) átlagosan a 80. percentilisben (PRA = 80,4) sorolja be a helyes TF-et. A Clover-YFP fölénye még kifejezettebb az Y partíciós küszöb nagyobb értékeinél, de az összes módszer abszolút pontossága csökken a partíciós küszöb növekedésével (1a. ábra).

A Ranksum módszer YFP változata egyértelműen a legrosszabb a 237 ChIP-chip-adatkészleten tesztelt módszerek közül. A Ranksum-YFP még az elnézőbb medián PRA metrika szerint is, amely kevesebb hangsúlyt fektet azokra az adatkészletekre, ahol egy módszer rendkívül rosszul teljesít, lényegesen alacsonyabb pontosságú, mint a többi módszer (1b. ábra). A t y = 0,001-es Y partíciós küszöbérték mellett a Ranksum-YFP PRA mediánja mindössze 96,0, míg a három másik vizsgált MEA-módszer esetében 98,4 volt. Mivel mind a Clover-YFP, mind a Ranksum-YFP AMA-t használ motívumaffinitási függvényként (1. táblázat), a Clover asszociációs függvénye egyértelműen jobb, mint a fix Y partíciót használó MEA rangösszeg-tesztje, legalábbis ilyen típusú biológiai jeladatokon (ChIP-chip). Az itt tesztelt MEA-módszerek YFP-változatai közül egyik sem teljesít rendkívül jól mind a 237 élesztő ChIP-chip-adatkészleten. Valójában egyetlen módszer sem helyezi a ChIP-elt TF-motívumot a ChIP-chip-adatsorok több mint 60%-ánál az első három prediktált motívum közé (az adatok nem láthatóak). Ez nem meglepő, tekintve, hogy Gordân és munkatársai azt találták, hogy a ChIP-chip-kísérletek 35%-ában egyetlen PBM-eredetű (a motívum szekvencia-specifikusságának meghatározására szolgáló független, in vitro módszer) sem volt szignifikánsan feldúsulva.

A Clover-YFP módszer szintén pontosabb, mint a másik három MEA-módszer Y partíciómaximalizációs változatai, amikor csak az élesztő ChIP-chip-adatsorokon tesztelték, amelyek t y = 0,001 alatti fluoreszcencia p-értékeket tartalmaznak (eredmények az 1a. ábra függőleges kék vonalától balra). A módszerek közötti relatív különbség azonban az átlagos PRA tekintetében csökken az Y partíciós küszöbérték csökkenésével. Így a MEA-módszerek YFP-változatai közül a Clover-YFP tűnik a legjobb megközelítésnek a ChIP-chip adatokhoz, és különösen előnyös, ha a ChIP-chip adatok alacsony jel-zaj aránnyal rendelkeznek (azaz, olyan esetekben, amikor egyetlen microarray-szonda sem rendelkezik alacsony fluoreszcencia p-értékkel).

Kényszermentes partíciómaximalizálási módszerek

Fixált partícióval végzett kísérleteinkből azt látjuk, hogy a MEA-módszerek pontossága az élesztő ChIP-chip TF-azonosítási feladatban erősen függ a fluoreszcencia p-érték küszöbértékének megválasztásától. Ezekben a kísérletekben az általános gyakorlatot követjük, és egyetlen küszöbértéket választunk mind a 237 ChIP-chip-adatkészletre. Elgondolkodtunk azon, hogy vajon nem lenne-e előnyös, ha minden egyes adatkészlethez más, adatfüggő küszöbértéket választanánk. Ennek egyik automatikus módja, hogy figyelembe vesszük az összes lehetséges küszöbértéket, és kiválasztjuk azt, amelyik maximalizálja az asszociációs függvényt (4. egyenlet). Ezt a fajta megközelítést a közelmúltban vizsgálták a Fisher- és az mHG-asszociációs függvények esetében a MEA és a motívumfelfedezés esetében. (Amint azt később tárgyaljuk, ez a két tanulmány a korlátozott, nem pedig a korlátlan partíciómaximalizálás formáit használta.)

A korlátlan Y partíciómaximalizálás (YUPM) nem javítja mind a négy MEA-módszer képességét a ChIP-elt élesztő TF-ek azonosítására a 237 ChIP-chip-adatkészletben (2. ábra). Azzal összehasonlítva, hogy a legkisebb fix Y küszöbértéket használtuk, úgy, hogy mind a 237 ChIP-chip adatkészletben legyen legalább egy pozitív szekvencia (t y = 0,001), az, hogy a módszerek az 5. egyenlet szerint választhatják meg a partíciós küszöbértéket, lényegesen alacsonyabb átlagos pontosságot (átlagos PRA) eredményez. Például a Clover YUPM verziójának (Clover-YUPM) átlagos PRA értéke 67,19, szemben a 84,15-tel, amikor az Y küszöbértéket 0,001-ben rögzítjük (Clover-YFP). Ez valójában a legjobb átlagos pontosság a YUPM-módszerek közül a 237 élesztő ChIP-chip-adatkészleten. Érdekes módon a Ranksum MEA módszer amellett, hogy a leggyengébb módszer, amikor YFP-t használunk, a legnagyobb mértékben csökken a pontossága, amikor YUPM-et használunk.

2. ábra
2. ábra

A MEA módszerek pontossága korlátlan- Y -partíció-maximálással. A különböző MEA-módszerek képességét mutatjuk be az ismert TF-motívumok helyes rangsorolására 237 élesztő ChIP-chip-kísérletben. A négy MEA-módszer korlátlan Y-partíció-maximalizálás (YUPM, kék sávok) és rögzített partíció (YFP, piros sávok, t y = 0,001) változatainak átlagos százalékos rangsorolási pontossága látható. A hibasávok a standard hibát mutatják.

A MEA-módszerek YUPM-változatai a biológiai jel, Y szerint rendezett adatok minden lehetséges partícióját figyelembe veszik. Legalábbis a ChIP-chip-adatok esetében a 2. ábrából világosan látszik, hogy az asszociációs függvényt maximalizáló Y partíció kiválasztása nem jó ötlet. A 2. ábra alapjául szolgáló adatok vizsgálata azt mutatja, hogy a magasan rangsorolt motívumok (a helyes motívumtól eltérő) gyakran olyan Y partíciók esetében rendelkeznek maximális asszociációs pontszámmal, amelyek rendkívül nagy számú – sokkal nagyobb, mint amennyit a TF eleve elvárna a “pozitív” szekvenciák kötésére (az adatok nem láthatóak). E “pozitív” szekvenciák többségének nagyon nagy Y értékei vannak, és a nagy asszociációs pontszám az X (a motívum affinitási pontszáma) és az Y (a ChIP-chip fluoreszcencia p-értéke) közötti enyhe korrelációnak köszönhető sok szekvencia esetében. Az asszociációs függvények meglehetősen jók az ilyen korrelációk kimutatásában, de a korrelációk gyakran nem utalnak a TF funkcionális kötődésére, amint azt a MEA YUPM-változatainak alacsonyabb pontossága is jelzi a 2. ábrán.

Kényszeres partíciómaximalizálási módszerek

Amint fentebb említettük, úgy tűnik, hogy a kötetlen partíciómaximalizálási MEA módszerek rosszul teljesítenek az élesztő TF-azonosítási feladatban, mivel nagyon nagy “pozitív” szekvenciahalmazoknak megfelelő optimális Y (ChIP-chip fluoreszcencia p-érték) küszöbértékeket választanak. Ez magyarázatot adhat arra, hogy a partíciómaximalizálás korábbi alkalmazása a MEA és a motívumfelfedezés során miért korlátozta gyakran a pozitív halmaz maximális méretét. A PASTAA MEA algoritmus például a pozitív halmaz méretét legfeljebb 1000 szekvenciára korlátozza. Hasonlóképpen, a DRIM motívumfelfedező algoritmus , amelyet a jelen tanulmányban használt élesztő ChIP-chip adatokon teszteltünk, alapértelmezés szerint legfeljebb 300 szekvenciára korlátozza a pozitív halmazt, és legfeljebb 1000 szekvenciára. Mindkettő csak kis töredéke az itt használt élesztő ChIP-chip adathalmazok teljes szekvencia-számának (kb. 6000).

Ha az mHG módszer partíciómaximalizálási változatát olyan Y küszöbértékekre korlátozzuk, amelyek legfeljebb 300 “pozitív” szekvenciát eredményeznek, akkor az élesztő TF rangsorolási feladat átlagos pontossága a rögzített partíció és a korlátlan partíciómaximalizálási változat között van (3. ábra). Úgy tűnik tehát, hogy ennél a feladatnál a DRIM által használt korlátozott partíciómaximalizálás típusa nem javít a fix partíció használatán, amely megfelel a 0,001-nél kisebb fluoreszcencia p-értékkel rendelkező szekvenciák “pozitív” halmazba sorolásának. Megjegyezzük, hogy a 237 élesztő ChIP-chip-adatkészletben a 300. szekvencia (növekvő Y, fluoreszcencia p-érték szerint rendezve) Y átlagértéke 0,04. Ez azt jelenti, hogy az Y felosztás 300 “pozitív” szekvenciára való korlátozása lehetővé teszi, hogy a kevésbé jelentős biológiai jelekkel (Y) rendelkező szekvenciák bekerüljenek a “pozitív” halmazba, szemben a 3. ábrán az mHG-YFP módszerrel használt t y = 0,001-es rögzített küszöbértékkel.

3. ábra
3. ábra

Az mHG módszer pontossága legfeljebb 300 pozitív szekvenciára korlátozva. Az mHG-módszer három változatának képessége az ismert TF-motívumok helyes rangsorolására 237 élesztő ChIP-chip-kísérletben. Az egyes sávok az mHG módszer változatainak átlagos PRA értékét mutatják. Az mHG-YDRIM feliratú sáv a partíciómaximalizálást alkalmazó, legfeljebb 300 “pozitív” szekvenciát tartalmazó partíciókra korlátozott pontosságot mutatja. A másik két oszlop a pontosságot mutatja a rögzített partíció módszerrel, t y = 0,001 (mHG-YFP), illetve a korlátlan partíciómaximalizálással (mHG-YUPM).

A partíciómaximalizálási módszerek korlátozásának talán általánosabb módja, ha a korlátozást az Y biológiai jelben, és nem a “pozitív” szekvenciák számában határozzuk meg. Ezt a megközelítést az 5. egyenlet írja le, ahol az Y küszöbértékre, t y-ra felső korlátot állítunk, de alsó korlátot nem. (Ez azt jelenti, hogy az 5. egyenletben r y = valamilyen b felső korláthoz definiáljuk.) Ez hatékonyan korlátozza a “pozitív” szekvenciahalmaz maximális méretét, de az adatoktól függő módon. A jelenlegi alkalmazásban minden olyan szekvencia bekerülhet a “pozitív” halmazba, amelynek ChIP-chip fluoreszcencia p-értéke kisebb, mint t y, de ennél nagyobb p-értékkel egyik sem.

A négy MEA módszer közül háromnak a korlátozott Y partíció maximalizálási változatának maximális pontossága nem jobb, mint a rögzített partíció változatáé az élesztő ChIP-chip TF-motívum azonosítási feladatban (4. ábra). A legrosszabb módszer (Ranksum) némi javulást mutat, ha a t y felső korlátját 0,001-re állítjuk, de továbbra is ez a legkevésbé pontos módszer ebben a feladatban. Ahogy növeljük a b értékét (és így a “pozitív” halmaz maximális méretét), mind a négy YCPM-módszer átlagos és medián percentilis rangsorolási pontossága csökken. A legjobb pontosságot a korlátozott módszerek akkor érik el, ha a t y felső korlátja 0,001, a lehető legkisebb korlát, hogy mind a 237 ChIP-chip adathalmazban legyen legalább egy “pozitív” szekvencia.

4. ábra
4. ábra

A MEA módszerek pontossága korlátozott partíció-maximalizálással. A különböző MEA-módszerek képességét mutatjuk be az ismert TF-motívumok helyes rangsorolására 237 élesztő ChIP-chip-kísérletben. Az egyes panelek egy-egy módszer Y-kényszeres partíciómaximalizálás (YCPM) pontosságát mutatják, összehasonlításképpen a rögzített partíció (YFP) változat pontosságával együtt. Minden pont a MEA módszer átlagos vagy medián PRA értékét (Y-tengely) mutatja. Az YCPM módszerek esetében a grafikon X-tengelye az a maximális érték, b, amelyet t y felvehet; az YFP módszerek esetében a módszer rögzített küszöbértéke, t y .

Mindenesetre a korlátozott Y partíciómaximalizáló (YCPM) MEA-változatok robusztusabbak, mint a rögzített partíciójú (YFP) változatok. Mindkét változatnak van egy szabad paramétere, amelyet a felhasználónak kell megválasztania – a felső korlát, b az YCPM-változatok esetében, és a rögzített küszöbérték, t y , az YFP-változatok esetében. A 4. ábrából kitűnik, hogy az YCPM-változatok kevésbé érzékenyek a szekvenciához kötött TF figyelembevételéhez szükséges maximális választható küszöbérték (b) lazítására, mint az YFP-változatok a szekvenciához kötött TF figyelembevételéhez szükséges abszolút küszöbérték (t y ) lazítására. Mivel a felhasználó általában egyik módszer esetében sem fogja ismerni a szabad paraméter optimális választását, ez egyértelmű előnye a négy MEA-módszer Y partíciómaximalizálási változatainak a rögzített partíciójú változatokkal szemben. Mi több, a 4. ábra azt mutatja, hogy az YCPM változatok mindig azonos vagy jobb pontosságot érnek el a szabad paraméter adott értéke (b) esetén, mint az YFP változatok, ha ugyanazt a szabad paraméterértéket (t y ) használják. Ezért az itt vizsgált feladatban a korlátozott Y partíciómaximalizáló MEA-változatok egyértelműen jobbak a rögzített partíciójú változatoknál.

Partíciómentes MEA-módszerek

A korlátozott partíciómaximalizáló MEA-változatok előnye (a rögzített partíciójú változatokhoz képest) abban rejlik, hogy viszonylag érzéketlenek egyetlen szabad paraméter megválasztására. Még mindig jobb lenne azonban egy olyan hasonló pontosságú módszer, amelynél a felhasználónak nem kell szabad paramétereket választania. A korlátlan partíciómaximalizálási változatoknak nincsenek szabad paraméterei, de nagyon rosszul teljesítenek a jelenlegi feladatban, amint azt fentebb megmutattuk. Egy másik paramétermentes MEA-módszer, amelyet itt vizsgálunk, a lineáris regressziós (LR) módszer, amely nem osztja fel a szekvenciákat “pozitív” és “negatív” halmazokra az Y biológiai jel segítségével. Ehelyett az asszociációs függvény az Y és X lineáris regressziója hibájának reciproka.

A paramétermentes lineáris regressziós (LR) MEA-módszerünk nagyobb pontosságot ér el az élesztő TF-motívumok rangsorolási feladatában, mint a másik négy módszer mindegyike a szabad paramétereik optimális értékeit használva (5. ábra). Az LR módszer 87,57 százalékos átlagos percentilis rangsorolási pontosságot ér el, szemben a második legjobb módszer, a Clover-YFP 84,15 értékével. Hangsúlyozni kell, hogy ez egy igazságtalan összehasonlítás (az LR-rel szemben), mivel a Clover-YFP, az mHG-YFP és a Ranksum-YFP esetében “csaltunk” azzal, hogy a szabad paraméterük (t y ) azon értékét választottuk, amellyel a legnagyobb pontosság érhető el. Valószínű, hogy e többi módszer (vagy a robusztusabb YCPM-változatok) tényleges felhasználója nem ismerné az optimális paraméterértéket, így a pontosságuk rosszabb lenne.

5. ábra
5. ábra

A partíciómentes MEA-módszer pontossága. A különböző MEA-módszerek képességét mutatjuk be az ismert TF-motívumok helyes rangsorolására 237 élesztő ChIP-chip-kísérletben. Az egyes sávok az adott MEA-módszer átlagos PRA értékét mutatják mind a 237 ChIP-chip-adatkészleten. A hibasávok a standard hibát mutatják. Az LR módszer partíciómentes. A PASTAA X és Y korlátozású partíciómaximalizálást alkalmaz, a “pozitív” halmazokban legfeljebb 1000 szekvenciával. Minden rögzített partíciójú (YFP) módszer t y = 0,001 küszöbértéket használ.

Mivel az LR módszer feltűnően jól teljesített, egy másik paramétermentes módszert, a Spearman-féle rangkorrelációs együtthatót is bevezettük. A lineáris regresszióval ellentétben a Spearman-féle rangkorreláció nem feltételez lineáris kapcsolatot X és Y között. A Spearman-féle rangkorrelációs módszerünk rendkívül rosszul teljesített, 69,46-os átlagos százalékos pontosságot ért el, ami a legrosszabb ebben az összehasonlításban, és lényegesen alacsonyabb, mint az YFP módszereké.

Már korábban említettük, hogy a PASTAA MEA módszer a korlátozott Y partíció maximalizálásának egy formáját használja. Valójában korlátozott maximalizálást hajt végre mind X, mind Y felett, az AMA-hoz és a Fisher Exact Test asszociációs függvényhez hasonló affinitási függvényt használva. A TF rangsorolási feladatra alkalmazva a PASTAA (az alapértelmezett kényszereket használva) jobban teljesít, mint az összes többi partícióalapú megközelítés a Clover kivételével (5. ábra). Ez a PASTAA robusztusságát jelzi, mivel nem optimalizáltuk a szabad paramétereit, mint a többi módszer (beleértve a Clover-t is) YFP-változatai esetében. Ennek ellenére az élesztő ChIP-chip TF-motívumok rangsorolási feladatán a PASTAA lényegesen alacsonyabb pontosságot ér el az itt bemutatott partíció- és paramétermentes LR-módszerhez képest.

Szoftverek elérhetősége

A jelen tanulmányban kifejlesztett két szoftvereszközünket kiadtuk, és online elérhetővé tettük. Az AME (Analysis of Motif Enrichment) és a RAMEN (Regression Analysis of Motif ENrichment) egyaránt letölthető a http://bioinformatics.org.au/ame/ címről. Mind az AME, mind a RAMEN bináris programként elérhető Mac OS X és Linux operációs rendszerekhez, a forráskód kérésre rendelkezésre áll. Mindkét eszköz a MEME licenc alatt áll.

Az AME implementálja a Fisher, mHG, Ranksum, lineáris regresszió (LR) és spearman’s rank correlation módszereket YFP és YUPM módban. Egy további elemzési lépéssel az AME használható YCPM-re is. A RAMEN implementálja a paramétermentes LR-módszerünket, és emellett támogatja a permutáció-alapú p-értékek kiszámítását. Az AME és a RAMEN teljesebb dokumentációja a weboldalon található.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.