Motif Enrichment Analysis: a unified framework and an evaluation on ChIP data

Fixed-partition methods

Nejprve zkoumáme přesnost nejjednodušších metod MEA, které v této studii uvažujeme, metod YFP. Tyto metody rozdělují vstupní data na pozitivní a negativní množiny pomocí pevného prahu biologického signálu Y. Metody MEA s pevným rozdělením byly hojně používány (např. ). Měříme přesnost čtyř metod YFP – Fisher-YFP, mHG-YFP, Ranksum-YFP a Clover-YFP – v úloze identifikace správného motivu TF v každé z 237 sad dat z kvasinkových čipů ChIP. Biologický signál, Y, je p-hodnota fluorescence ChIP-čipu a každou metodu MEA jsme provedli s použitím různých hodnot pevného prahu rozdělení Y, t y . Výsledky tohoto experimentu jsou uvedeny na obr. 1. Všimněte si, že výsledky vlevo od svislé modré čáry na obrázku jsou pro stále menší podmnožiny 237 souborů dat ChIP-čip, protože ignorujeme všechny soubory dat, u nichž práh rozdělení na Y, t y , vede k prázdné pozitivní množině. Například body na obrázcích s t y = 10-10 udávají výsledky pro 57 datových sad ChIP-chip, které obsahují alespoň jednu fluorescenční p-hodnotu menší než 10-10.

Obrázek 1
obrázek1

Přesnost metod MEA při použití pevných rozdělení Y. Je znázorněna schopnost různých metod MEA správně zařadit známý motiv TF u 237 kvasinkových ChIP-čipových experimentů. Každý bod odpovídá průměrné (panel a) nebo mediánové (panel b) přesnosti percentilu pořadí (PRA) metody MEA na všech souborech dat ChIP-chip, které obsahují alespoň jednu sekvenci s fluorescenční p-hodnotou menší než hodnota t y (osa X). Zvyšující se hodnoty X odpovídají zmírnění prahu pro to, aby sekvence byla považována za vázanou TF. Vpravo od svislé čáry je zahrnuto všech 237 sad; vlevo je při přísnějších prahových hodnotách t y zahrnuto stále méně sad.

Verze Clover s YFP je jasně lepší než ostatní metody při identifikaci motivu ChIP-ované TF ve všech 237 sadách dat ChIP-chip kvasinek (obr. 1a). Průměrná přesnost (PRA, rovnice 8) všech metod se zvyšuje se snižujícím se prahem rozdělení Y. Při prahové hodnotě t y = 0,001, což je nejmenší práh rozdělení, který lze použít u všech 237 datových sad, označí Clover-YFP správný TF v 84. percentilu (PRA = 84,1), zatímco další nejlepší metoda (mHG-YFP) jej označí v průměru v 80. percentilu (PRA = 80,4). Převaha metody Clover-YFP je ještě výraznější při větších hodnotách prahu rozdělení Y, ale absolutní přesnost všech metod klesá s rostoucím prahem rozdělení (obr. 1a).

Verze YFP metody Ranksum je jednoznačně nejhorší z metod testovaných na všech 237 souborech dat z čipů ChIP. Dokonce i podle shovívavější mediánové metriky PRA, která klade menší důraz na datové sady, v nichž metoda vykazuje extrémně špatné výsledky, má Ranksum-YFP podstatně nižší přesnost než ostatní metody (obr. 1b). Při prahové hodnotě rozdělení Y t y = 0,001 je medián PRA pro Ranksum-YFP pouze 96,0, zatímco pro ostatní tři testované metody MEA je to 98,4 %. Vzhledem k tomu, že jak Clover-YFP, tak Ranksum-YFP používají AMA jako funkci afinity motivu (tabulka 1), je asociační funkce Clover zjevně lepší než rank-sum test pro MEA s použitím pevného rozdělení Y, alespoň na tomto typu dat biologického signálu (ChIP-chip). Žádná z YFP verzí metod MEA, které zde testujeme, nefunguje extrémně dobře na všech 237 souborech dat ChIP-chip kvasinek. Ve skutečnosti žádná metoda neumisťuje motiv ChIP-ované TF mezi tři nejlepší předpovězené motivy u více než 60 % datových sad ChIP-chip (údaje nejsou uvedeny). To není překvapivé vzhledem k tomu, že Gordân et al. zjistili, že u 35 % experimentů ChIP-chip nedošlo k významnému obohacení PBM (nezávislá, in vitro metoda určení specifičnosti sekvence motivu).

Metoda Clover-YFP je také přesnější než varianty maximalizace rozdělení Y ostatních tří metod MEA, když je testována pouze na souborech dat ChIP-chip kvasinek obsahujících fluorescenční p-hodnoty nižší než t y = 0,001 (výsledky nalevo od svislé modré čáry na obr. 1a). Relativní rozdíl mezi metodami, pokud jde o průměrnou hodnotu PRA, však klesá se snižujícím se prahem rozdělení Y. Mezi variantami YFP metod MEA se tedy jeví jako nejlepší přístup pro data z čipů ChIP metoda Clover-YFP, která je výhodná zejména v případě, že data z čipů ChIP mají nízký poměr signál/šum (tj, v případech, kdy žádná sonda na mikročipu nemá nízkou fluorescenční p-hodnotu).

Metody maximalizace neomezeného rozdělení

Na základě našich experimentů s pevným rozdělením vidíme, že přesnost metod MEA v úloze identifikace TF na ChIP-chipu kvasinek silně závisí na volbě prahu fluorescenční p-hodnoty. V těchto experimentech se řídíme běžnou praxí a volíme jeden práh pro všech 237 souborů dat ChIP-chip. Zajímalo nás, zda by bylo výhodné zvolit pro každou datovou sadu jiný, na datech závislý práh. Jednou z možností, jak to provést automaticky, je zvážit všechny možné prahy a vybrat ten, který maximalizuje asociační funkci (rovnice 4). Tento typ přístupu byl nedávno zkoumán pro Fisherovu a mHG asociační funkci pro MEA, resp. pro objevování motivů. (Jak uvádíme později, tyto dvě studie používaly spíše formy omezené než neomezené maximalizace rozdělení.)

Neomezená maximalizace rozdělení Y (YUPM) nedokáže zlepšit schopnost všech čtyř metod MEA identifikovat ChIP-ované kvasinkové TF v souborech dat 237 ChIP-čipů (obr. 2). V porovnání s použitím nejmenšího pevného prahu Y tak, aby všech 237 datových sad ChIP-chip mělo alespoň jednu pozitivní sekvenci (t y = 0,001), vede povolení metodám zvolit práh rozdělení podle rovnice 5 k podstatně nižší průměrné přesnosti (průměrná PRA). Například verze YUPM metody Clover (Clover-YUPM) má průměrnou PRA 67,19 oproti 84,15, když stanovíme práh Y na 0,001 (Clover-YFP). To je ve skutečnosti nejlepší průměrná přesnost ze všech metod YUPM na 237 souborech dat z kvasinkových čipů ChIP. Zajímavé je, že metoda MEA Ranksum, kromě toho, že je nejhorší metodou při použití YFP, nejvíce snižuje přesnost při použití YUPM.

Obrázek 2
obrázek2

Přesnost metod MEA při použití neomezené- Y -maximalizace rozdělení. Je znázorněna schopnost různých metod MEA správně zařadit známý motiv TF u 237 kvasinkových ChIP-čipových experimentů. Je zobrazena průměrná percentilová přesnost řazení neomezené Y-rozdělení-maximalizace (YUPM, modré sloupce) a varianty s pevným rozdělením (YFP, červené sloupce, t y = 0,001) čtyř metod MEA. Chybové sloupce ukazují standardní chybu.

Varianty YUPM metod MEA uvažují všechna možná rozdělení dat seřazená podle biologického signálu, Y. Přinejmenším pro data ChIP-chip je z obr. 2 zřejmé, že výběr rozdělení Y, které maximalizuje asociační funkci, není dobrý nápad. Inspekce dat, která jsou podkladem pro obr. 2, ukazuje, že vysoce hodnocené motivy (jiné než správný motiv) mají často maximální asociační skóre pro rozdělení Y s extrémně velkým počtem – mnohem větším, než by se a priori očekávalo, že TF bude vázat „pozitivní“ sekvence (údaje nejsou zobrazeny). Většina těchto „pozitivních“ sekvencí má velmi velké hodnoty Y a velké asociační skóre je způsobeno mírnou korelací mezi X (skóre afinity motivu) a Y (p-hodnota fluorescence ChIP-čipu) u mnoha sekvencí. Asociační funkce jsou v odhalování takových korelací poměrně dobré, ale korelace často nevypovídají o funkční vazbě TF, jak naznačuje nižší přesnost variant YUPM MEA na obr. 2.

Metody maximalizace rozdělení s omezením

Jak bylo uvedeno výše, zdá se, že metody MEA s maximalizací rozdělení bez omezení mají v úloze identifikace kvasinkových TF špatné výsledky v důsledku volby optimálních prahových hodnot Y (p-hodnota fluorescence ChIP-čipu) odpovídajících velmi velkým „pozitivním“ souborům sekvencí. To může vysvětlovat, proč předchozí použití maximalizace rozdělení pro MEA a objevování motivů často omezovalo maximální velikost pozitivní množiny. Například algoritmus MEA PASTAA omezuje velikost pozitivní množiny na maximálně 1000 sekvencí. Podobně algoritmus pro objevování motivů DRIM , který byl testován na datech ChIP-čipů kvasinek použitých v této studii, standardně omezuje pozitivní množinu na maximálně 300 sekvencí a ne více než 1000 sekvencí. Obojí jsou jen malé zlomky celkového počtu sekvencí (asi 6000) v zde použitých souborech dat ChIP-chip kvasinek.

Pokud omezíme naši variantu maximalizace rozdělení metody mHG na prahové hodnoty Y, které dávají nejvýše 300 „pozitivních“ sekvencí, je průměrná přesnost v úloze řazení kvasinkových TF střední mezi variantami s pevným rozdělením a bez omezení maximalizace rozdělení (obr. 3). Zdá se tedy, že v této úloze typ omezené maximalizace rozdělení, který používá DRIM, nezlepšuje použití pevného rozdělení odpovídajícího přiřazení sekvencí s fluorescenčními p-hodnotami menšími než 0,001 do „pozitivní“ množiny. Všimněme si, že v 237 souborech dat ChIP-čipů kvasinek je průměrná hodnota Y pro 300. sekvenci (seřazenou podle rostoucího Y, fluorescenční p-hodnoty) 0,04. To znamená, že omezení rozdělení Y na 300 „pozitivních“ sekvencí umožňuje zahrnout do „pozitivního“ souboru sekvence s méně významnými biologickými signály (Y) ve srovnání s pevnou prahovou hodnotou t y = 0,001, kterou používáme u metody mHG-YFP na obr. 3.

Obrázek 3
obrázek3

Přesnost metody mHG omezené na nejvýše 300 pozitivních sekvencí. Je znázorněna schopnost tří variant metody mHG správně zařadit známý motiv TF ve 237 experimentech ChIP-chip kvasinek. Každý sloupec představuje průměrnou PRA verzí metody mHG. Sloupec označený mHG-YDRIM ukazuje přesnost pomocí maximalizace rozdělení, omezené na rozdělení s maximálně 300 „pozitivními“ sekvencemi. Další dva sloupce ukazují přesnost při použití metody pevného rozdělení s t y = 0,001 (mHG-YFP), resp. neomezené maximalizace rozdělení (mHG-YUPM).

Možná obecnějším způsobem omezení metod maximalizace rozdělení je uvést omezení v termínech biologického signálu Y, nikoli jako počet „pozitivních“ sekvencí. Tento přístup popisuje rovnice 5, kde stanovíme horní hranici prahu Y, t y , ale žádnou dolní hranici. (To znamená, že ve rovnici 5 definujeme r y = pro nějakou horní hranici, b.) To účinně omezuje maximální velikost souboru „pozitivních“ sekvencí, ale způsobem závislým na datech. V současné aplikaci mohou být do „pozitivní“ množiny zahrnuty všechny sekvence s p-hodnotami fluorescence ChIP-čipu menšími než t y, ale žádná s většími p-hodnotami.

Maximální přesnost variant maximalizace rozdělení omezeného Y tří ze čtyř metod MEA není lepší než přesnost variant s pevným rozdělením v úloze identifikace motivů TF na ChIP-čipu kvasinek (obr. 4). U nejhorší metody (Ranksum) dochází k mírnému zlepšení, když je horní hranice t y nastavena na 0,001, ale zůstává nejméně přesnou metodou na této úloze. Jakmile zvýšíme hodnotu b (a tím i maximální velikost „pozitivní“ množiny), průměrná i mediánová přesnost percentilového pořadí všech čtyř metod YCPM klesá. Nejlepší přesnosti pro omezené metody je dosaženo, když je horní hranice t y 0,001, což je nejmenší možná hranice, aby všech 237 souborů dat ChIP-čipů mělo alespoň jednu „pozitivní“ sekvenci.

Obrázek 4
obrázek4

Přesnost metod MEA s použitím omezené maximalizace rozdělení. Je znázorněna schopnost různých metod MEA správně zařadit známý motiv TF u 237 kvasinkových ChIP-čipových experimentů. Každý panel ukazuje přesnost metody Y constrained partition maximization (YCPM) spolu s přesností varianty s pevným rozdělením (YFP) pro srovnání. Každý bod ukazuje průměr nebo medián PRA (osa Y) metody MEA. U metod YCPM je osa X grafu maximální hodnota, b, které může t y nabývat; u metod YFP je to pevný práh metody, t y .

Varianty MEA s omezenou maximalizací rozdělení Y (YCPM) jsou však robustnější než varianty s pevným rozdělením (YFP). Obě varianty mají jeden volný parametr, který musí zvolit uživatel – horní mez, b u variant YCPM, a pevný práh, t y , u variant YFP. Z obr. 4 je zřejmé, že varianty YCPM jsou méně citlivé na uvolnění maximální volitelné prahové hodnoty pro zohlednění vazby TF na sekvenci (b) než varianty YFP na uvolnění absolutní prahové hodnoty pro zohlednění vazby TF na sekvenci, t y . Vzhledem k tomu, že uživatel zpravidla nezná optimální volbu volného parametru pro žádnou z těchto metod, je to jasná výhoda pro varianty maximalizace omezeného rozdělení Y čtyř metod MEA ve srovnání s variantami s pevným rozdělením. Z obr. 4 navíc vyplývá, že varianty YCPM dosahují pro danou hodnotu volného parametru (b) vždy stejné nebo lepší přesnosti než varianty YFP při použití stejné hodnoty volného parametru (t y ). Na zde studované úloze jsou tedy varianty MEA s omezenou maximalizací rozdělení Y jednoznačně lepší než varianty s pevným rozdělením.

Metody MEA bez rozdělení

Výhoda variant MEA s omezenou maximalizací rozdělení (oproti variantám s pevným rozdělením) spočívá v jejich relativní necitlivosti na volbu jediného volného parametru. Ještě lepší by však byla metoda srovnatelné přesnosti bez volných parametrů, které si uživatel musí zvolit. Varianty maximalizace neomezeného rozdělení nemají žádné volné parametry, ale v aktuální úloze si vedou velmi špatně, jak jsme ukázali výše. Jednou z dalších bezparametrických metod MEA, které zde studujeme, je metoda lineární regrese (LR), která nerozděluje sekvence na „pozitivní“ a „negativní“ množiny pomocí biologického signálu Y. Místo toho je asociační funkcí reciproká chyba lineární regrese Y a X.

Naše bezparametrická metoda lineární regrese (LR) MEA dosahuje vyšší přesnosti v úloze řazení motivů kvasinek TF než každá z ostatních čtyř metod při použití optimálních hodnot jejich volných parametrů (obr. 5). Metoda LR dosahuje průměrné percentilové přesnosti řazení 87,57 ve srovnání s 84,15 u druhé nejlepší metody Clover-YFP. Je třeba zdůraznit, že se jedná o nespravedlivé srovnání (vůči LR), protože jsme „podváděli“ v případě Clover-YFP, mHG-YFP a Ranksum-YFP tím, že jsme zvolili hodnotu jejich volného parametru (t y ), která dosahuje nejvyšší přesnosti. Je pravděpodobné, že skutečný uživatel některé z těchto dalších metod (nebo robustnějších variant YCPM) by optimální hodnotu parametru neznal, takže jejich přesnost by byla horší.

Obrázek 5
obrázek5

Přesnost metody MEA bez rozdělení. Je znázorněna schopnost různých metod MEA správně zařadit známý motiv TF v 237 kvasinkových ChIP-čipových experimentech. Každý sloupec ukazuje průměrnou PRA dané metody MEA na všech 237 souborech dat ChIP-chip. Chybové sloupce ukazují standardní chybu. Metoda LR je bez rozdělení. PASTAA používá maximalizaci rozdělení s omezením X a Y s maximem 1000 sekvencí v „pozitivních“ sadách. Všechny metody s pevným rozdělením (YFP) používají práh t y = 0,001.

Jelikož metoda LR vykazovala nápadně dobré výsledky, implementovali jsme další bezparametrickou metodu, Spearmanův korelační koeficient pořadí. Na rozdíl od lineární regrese Spearmanova korelace pořadí nepředpokládá lineární vztah mezi X a Y. Naše metoda Spearmanovy korelace pořadí si vedla velmi špatně, dosáhla průměrné přesnosti percentilu pořadí 69,46, což je nejhorší výsledek v tomto srovnání a podstatně nižší než u metod YFP.

Předtím jsme se zmínili, že metoda MEA PASTAA používá určitou formu omezené maximalizace rozdělení Y. V tomto srovnání jsme se však nezmínili o tom, že by metoda MEA PASTAA měla být použita jako metoda pro maximalizaci rozdělení Y. Ve skutečnosti provádí omezenou maximalizaci nad X i Y, přičemž používá afinitní funkci podobnou AMA a asociační funkci Fisherova exaktního testu. Při aplikaci na úlohu řazení TF dosahuje PASTAA (s použitím svých výchozích omezení) lepších výsledků než všechny ostatní přístupy založené na rozdělení s výjimkou Cloveru (obr. 5). To svědčí o robustnosti metody PASTAA, protože jsme neoptimalizovali její volné parametry jako v případě variant YFP ostatních metod (včetně metody Clover). Nicméně v úloze řazení motivů TF na kvasinkovém čipu ChIP dosahuje PASTAA podstatně nižší přesnosti ve srovnání s metodou LR bez rozdělení a parametrů, kterou zde představujeme.

Dostupnost softwaru

Zveřejnili jsme dva softwarové nástroje vyvinuté v této studii a zpřístupnili je online. AME (Analysis of Motif Enrichment) a RAMEN (Regression Analysis of Motif ENrichment) jsou k dispozici ke stažení na adrese http://bioinformatics.org.au/ame/. AME i RAMEN jsou k dispozici jako binární soubory pro Mac OS X a Linux, přičemž zdrojové kódy jsou k dispozici na vyžádání. Oba nástroje jsou licencovány pod licencí MEME.

AME implementuje metody Fisher, mHG, Ranksum, lineární regrese (LR) a spearmanovy korelace pořadí v režimech YFP a YUPM. Pomocí dalšího kroku analýzy lze AME použít také pro YCPM. RAMEN implementuje naši bezparametrickou metodu LR a navíc podporuje výpočet p-hodnot na základě permutace. Úplnější dokumentaci k AME a RAMEN naleznete na webových stránkách.

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.