Fixed-partition methods
În primul rând explorăm acuratețea celor mai simple metode MEA pe care le luăm în considerare în acest studiu, metodele YFP. Aceste metode împart datele de intrare în seturi pozitive și negative folosind un prag fix pentru semnalul biologic, Y. Metodele MEA cu partiție fixă au fost utilizate pe scară largă (de exemplu, ). Măsurăm acuratețea a patru metode YFP – Fisher-YFP, mHG-YFP, Ranksum-YFP și Clover-YFP – cu privire la sarcina de identificare a motivului TF corect în fiecare dintre cele 237 de seturi de date ChIP-chip de drojdie. Semnalul biologic, Y, este valoarea p a fluorescenței ChIP-chip, iar noi am rulat fiecare metodă MEA folosind diferite valori ale pragului fix de partiționare Y, t y . Rezultatele acestui experiment sunt prezentate în Fig. 1. Rețineți că rezultatele din stânga liniei verticale albastre din figură sunt pentru subseturi din ce în ce mai mici din cele 237 de seturi de date ChIP-chip, deoarece ignorăm toate seturile de date în care pragul de partiționare pe Y, t y , are ca rezultat un set pozitiv gol. De exemplu, punctele din figuri cu t y = 10-10 oferă rezultate pentru cele 57 de seturi de date ChIP-chip care conțin cel puțin o valoare p de fluorescență mai mică de 10-10.
Versiunea YFP a Clover este în mod clar superioară celorlalte metode în ceea ce privește identificarea motivului TF cu ChIP în toate cele 237 de seturi de date ChIP-chip de drojdie (Fig. 1a). Precizia medie (PRA, Eqn. 8) a tuturor metodelor crește odată cu scăderea pragului de partiție Y. La un prag de t y = 0,001, cel mai mic prag de partiție care poate fi utilizat cu toate cele 237 de seturi de date, Clover-YFP clasifică TF-ul corect în a 84-a percentila (PRA = 84,1), în timp ce următoarea metodă cea mai bună (mHG-YFP) îl clasifică în medie în a 80-a percentila (PRA = 80,4). Superioritatea lui Clover-YFP este și mai pronunțată la valori mai mari ale pragului de partiție Y, dar precizia absolută a tuturor metodelor scade pe măsură ce crește pragul de partiție (Fig. 1a).
Versiunea YFP a metodei Ranksum este în mod clar cea mai proastă dintre metodele testate pe toate cele 237 de seturi de date ChIP-chip. Chiar și în cadrul metricii PRA mediană mai iertătoare, care pune mai puțin accentul pe seturile de date în care o metodă are performanțe extrem de slabe, Ranksum-YFP are o acuratețe substanțial mai mică decât celelalte metode (Fig. 1b). La un prag de partiție Y de t y = 0,001, PRA median pentru Ranksum-YFP este de numai 96,0, în timp ce este de 98,4 pentru celelalte trei metode MEA testate. Deoarece atât Clover-YFP, cât și Ranksum-YFP utilizează AMA ca funcție de afinitate a motivului (tabelul 1), funcția de asociere a lui Clover este în mod clar mai bună decât testul rank-sum pentru MEA utilizând o partiție Y fixă, cel puțin pe acest tip de date de semnal biologic (ChIP-chip). Niciuna dintre versiunile YFP ale metodelor MEA pe care le testăm aici nu funcționează extrem de bine pe toate cele 237 de seturi de date ChIP-chip pentru drojdie. De fapt, nicio metodă nu plasează motivul TF ChIP-ed printre primele trei motive prezise pentru mai mult de 60 % din seturile de date ChIP-chip (datele nu sunt prezentate). Acest lucru nu este surprinzător, având în vedere că Gordân et al. au constatat că în 35 % din experimentele ChIP-chip niciun derivat PBM (o metodă independentă, in vitro, de determinare a specificității secvenței motivului) nu a fost îmbogățit în mod semnificativ.
Metoda Clover-YFP este, de asemenea, mai precisă decât variantele de maximizare a partiției Y ale celorlalte trei metode MEA atunci când este testată doar pe seturile de date ChIP-chip de drojdie care conțin valori p de fluorescență sub t y = 0,001 (rezultate la stânga liniei verticale albastre din Fig. 1a). Cu toate acestea, diferența relativă dintre metode în ceea ce privește PRA mediu scade odată cu scăderea pragului de partiție Y. Astfel, printre variantele YFP ale metodelor MEA, Clover-YFP pare a fi cea mai bună abordare pentru datele ChIP-chip și este deosebit de avantajoasă atunci când datele ChIP-chip au un raport semnal-zgomot scăzut (de ex, în cazurile în care nicio sondă de microarray nu are o valoare p scăzută a fluorescenței).
Metode de maximizare a partiției fără constrângeri
Vezi din experimentele noastre cu partiție fixă că acuratețea metodelor MEA pe sarcina de identificare a TF-urilor ChIP-chip din drojdie depinde în mare măsură de alegerea pragului valorii p a fluorescenței. În aceste experimente, urmăm practica obișnuită și alegem un singur prag pentru toate cele 237 de seturi de date ChIP-chip. Ne-am întrebat dacă ar fi avantajos să alegem un prag diferit, dependent de date, pentru fiecare set de date. O modalitate de a face acest lucru în mod automat este de a lua în considerare toate pragurile posibile și de a-l alege pe cel care maximizează funcția de asociere (Eqn. 4). Acest tip de abordare a fost investigat recent pentru funcțiile de asociere Fisher și mHG pentru MEA și, respectiv, pentru descoperirea motivelor. (După cum vom discuta mai târziu, aceste două studii au folosit forme de maximizare a partiției constrânse mai degrabă decât neconstrânse.)
Majorarea partiției Y neconstrânse (YUPM) nu reușește să îmbunătățească capacitățile tuturor celor patru metode MEA de a identifica TF-urile de drojdie ChIP-ed în cele 237 de seturi de date ChIP-chip (Fig. 2). În comparație cu utilizarea celui mai mic prag fix Y astfel încât toate cele 237 de seturi de date ChIP-chip să aibă cel puțin o secvență pozitivă (t y = 0,001), permițând metodelor să aleagă pragul de partiție în conformitate cu Eqn. 5 are ca rezultat o precizie medie substanțial mai mică (PRA mediu). De exemplu, versiunea YUPM a metodei Clover (Clover-YUPM) are un PRA mediu de 67,19, comparativ cu 84,15 atunci când fixăm pragul Y la 0,001 (Clover-YFP). Aceasta este, de fapt, cea mai bună precizie medie a oricăreia dintre metodele YUPM pe cele 237 de seturi de date ChIP-chip de drojdie. În mod interesant, metoda Ranksum MEA, pe lângă faptul că este cea mai slabă metodă atunci când se utilizează YFP, scade cel mai mult în acuratețe atunci când se utilizează YUPM.
Variantele YUPM ale metodelor MEA iau în considerare toate partițiile posibile ale datelor sortate în funcție de semnalul biologic, Y. Cel puțin pentru datele ChIP-chip, este clar din Fig. 2 că alegerea partiției Y care maximizează funcția de asociere nu este o idee bună. Inspectarea datelor care stau la baza Fig. 2 arată că motivele foarte bine clasate (altele decât motivul corect) au adesea scoruri de asociere maxime pentru partițiile Y cu un număr extrem de mare – mult mai mare decât cel pe care TF s-ar aștepta a priori să îl grupeze – de secvențe „pozitive” (datele nu sunt prezentate). Majoritatea acestor secvențe „pozitive” au valori Y foarte mari, iar scorul mare de asociere se datorează unei corelații ușoare între X (scorul de afinitate al motivului) și Y (valoarea p a fluorescenței ChIP-chip) în cazul multor secvențe. Funcțiile de asociere sunt destul de bune la detectarea unor astfel de corelații, dar corelațiile nu sunt adesea un indiciu al legării funcționale a TF, după cum indică precizia mai mică a variantelor YUPM ale MEA din figura 2.
Metode de maximizare a partiției constrânse
După cum s-a menționat mai sus, metodele MEA de maximizare a partiției neconstrânse par să aibă performanțe slabe în sarcina de identificare a TF-urilor de drojdie din cauza alegerii pragurilor optime Y (valoarea p a fluorescenței ChIP-chip) care corespund unor seturi foarte mari de secvențe „pozitive”. Acest lucru poate explica de ce utilizările anterioare ale maximizării partiției pentru MEA și descoperirea motivelor au constrâns adesea dimensiunea maximă a setului pozitiv. De exemplu, algoritmul MEA PASTAA limitează dimensiunea setului pozitiv la cel mult 1000 de secvențe. În mod similar, algoritmul de descoperire a motivelor DRIM , care a fost testat pe datele ChIP-chip de drojdie utilizate în studiul actual, limitează setul pozitiv la cel mult 300 de secvențe în mod implicit, și nu mai mult de 1000 de secvențe. Ambele sunt doar fracțiuni mici din numărul total de secvențe (aproximativ 6000) din seturile de date ChIP-chip de drojdie utilizate aici.
Dacă constrângem varianta noastră de maximizare a partiției a metodei mHG la praguri Y care nu produc mai mult de 300 de secvențe „pozitive”, precizia medie a sarcinii de clasificare a TF de drojdie este intermediară între varianta de maximizare a partiției fixe și cea de maximizare a partiției fără constrângeri (Fig. 3). Astfel, la această sarcină, tipul de maximizare a partiției constrânse utilizat de DRIM nu pare să îmbunătățească utilizarea unei partiții fixe care corespunde atribuirii secvențelor cu valori p de fluorescență mai mici de 0,001 la setul „pozitiv”. Observăm că, în cele 237 de seturi de date ChIP-chip pentru drojdie, valoarea medie a lui Y pentru cea de-a 300-a secvență (ordonată în funcție de creșterea Y, valoarea p de fluorescență) este de 0,04. Aceasta înseamnă că limitarea partiției Y la 300 de secvențe „pozitive” permite ca secvențele cu semnale biologice (Y) mai puțin semnificative să fie incluse în setul „pozitiv”, în comparație cu pragul fix de t y = 0,001 pe care îl folosim cu metoda mHG-YFP în Fig. 3.
Poate că un mod mai general de a constrânge metodele de maximizare a partiției este de a enunța constrângerea în termeni de semnal biologic Y, mai degrabă decât ca număr de secvențe „pozitive”. Această abordare este descrisă de ecuația 5, în care stabilim o limită superioară pentru pragul Y, t y , dar nu și o limită inferioară. (Adică, definim r y = pentru o anumită limită superioară, b, în Eqn. 5.) Acest lucru limitează efectiv dimensiunea maximă a setului de secvențe „pozitive”, dar într-un mod dependent de date. În aplicația actuală, toate secvențele cu valori p de fluorescență ChIP-chip mai mici decât t y pot fi incluse în setul „pozitiv”, dar niciuna cu valori p mai mari.
Precizia maximă a variantelor de maximizare a partiției Y constrânse a trei din cele patru metode MEA nu este mai bună decât cea a variantelor de partiție fixă în sarcina de identificare a motivelor TF din ChIP-chip pentru drojdia ChIP-chip (Fig. 4). Există o ușoară îmbunătățire în cazul celei mai slabe metode (Ranksum) atunci când limita superioară a lui t y este stabilită la 0,001, dar aceasta rămâne cea mai puțin precisă metodă pentru această sarcină. Pe măsură ce creștem valoarea lui b (și, prin urmare, dimensiunea maximă a setului „pozitiv”), atât precizia medie, cât și cea mediană a rangului percentila al tuturor celor patru metode YCPM scad. Cea mai bună acuratețe pentru metodele constrânse este obținută atunci când limita superioară a lui t y este 0,001, cea mai mică limită posibilă pentru ca toate cele 237 de seturi de date ChIP-chip să aibă cel puțin o secvență „pozitivă”.
Cu toate acestea, variantele MEA cu maximizare constrânsă a partiției Y (YCPM) sunt mai robuste decât variantele cu partiție fixă (YFP). Ambele variante au un parametru liber care trebuie să fie ales de utilizator – limita superioară, b pentru variantele YCPM, și pragul fix, t y , pentru variantele YFP. Din figura 4 reiese clar că variantele YCPM sunt mai puțin sensibile la relaxarea pragului maxim selectabil pentru a considera un TF legat de o secvență (b) decât variantele YFP sunt la relaxarea pragului absolut pentru a considera un TF legat de o secvență, t y . Având în vedere că, în general, utilizatorul nu va cunoaște alegerea optimă a parametrului liber pentru niciuna dintre metode, acesta este un avantaj clar pentru variantele de maximizare a partiției Y constrânse ale celor patru metode MEA în comparație cu versiunile cu partiție fixă. Mai mult, Fig. 4 arată că variantele YCPM obțin întotdeauna o precizie egală sau mai bună pentru o anumită valoare a parametrului liber (b) în comparație cu variantele YFP care utilizează aceeași valoare a parametrului liber (t y ). Prin urmare, în sarcina studiată aici, variantele MEA de maximizare a partiției Y constrânse sunt în mod clar superioare variantelor de partiție fixă.
Metode MEA fără partiție
Avantajul variantelor MEA de maximizare a partiției constrânse (în raport cu variantele de partiție fixă) constă în insensibilitatea lor relativă la alegerea unui singur parametru liber. Cu toate acestea, o metodă de acuratețe comparabilă fără parametri liberi pe care utilizatorul trebuie să-i aleagă ar fi și mai bună. Variantele de maximizare a partițiilor fără constrângeri nu au parametri liberi, dar au performanțe foarte slabe în sarcina actuală, după cum am arătat mai sus. O altă metodă MEA fără parametri pe care o studiem aici este metoda de regresie liniară (LR), care nu împarte secvențele în seturi „pozitive” și „negative” folosind semnalul biologic Y. În schimb, funcția de asociere este reciproca erorii regresiei liniare a lui Y și X.
Metoda noastră MEA de regresie liniară (LR) fără parametri atinge o acuratețe mai mare pe sarcina de clasificare a motivelor TF din drojdie decât fiecare dintre celelalte patru metode folosind valorile optime ale parametrilor lor liberi (Fig. 5). Metoda LR atinge o precizie medie a rangului percentilic de 87,57, comparativ cu 84,15 pentru Clover-YFP, a doua cea mai bună metodă. Trebuie subliniat faptul că aceasta este o comparație nedreaptă (față de LR), deoarece am „trișat” pentru Clover-YFP, mHG-YFP și Ranksum-YFP prin alegerea valorii parametrului lor liber (t y ) care obține cea mai mare precizie. Este probabil ca un utilizator real al uneia dintre aceste alte metode (sau al variantelor mai robuste ale YCPM) să nu cunoască valoarea optimă a parametrului, astfel încât acuratețea lor ar fi mai slabă.
Dacă metoda LR a avut performanțe uimitoare, am implementat o altă metodă fără parametri, coeficientul de corelație de rang al lui Spearman. Spre deosebire de regresia liniară, corelația de rang Spearman nu presupune o relație liniară între X și Y. Metoda noastră de corelație de rang Spearman a avut o performanță extrem de slabă, obținând o acuratețe medie a rangului percentila de 69,46, cea mai slabă din această comparație și substanțial mai mică decât metodele YFP.
Anterior, am menționat că metoda MEA PASTAA utilizează o formă de maximizare a partiției Y constrânse. De fapt, aceasta realizează o maximizare constrânsă atât pe X, cât și pe Y, utilizând o funcție de afinitate similară cu AMA și cu funcția de asociere a testului exact Fisher. Atunci când este aplicată la sarcina de clasificare TF, PASTAA (utilizând constrângerile sale implicite) are rezultate mai bune decât toate celelalte abordări bazate pe partiții, cu excepția Clover (Fig. 5). Acest lucru indică robustețea PASTAA, deoarece nu am optimizat parametrii liberi ai acesteia, așa cum am făcut în cazul variantelor YFP ale celorlalte metode (inclusiv Clover). Cu toate acestea, în sarcina de clasificare a motivelor TF pe ChIP-chip de drojdie, PASTAA obține o acuratețe substanțial mai mică în comparație cu metoda LR fără partiții și parametri pe care o prezentăm aici.
Disponibilitatea software-ului
Am lansat cele două instrumente software dezvoltate în acest studiu și le-am pus la dispoziție online. AME (Analysis of Motif Enrichment) și RAMEN (Regression Analysis of Motif ENrichment) sunt ambele disponibile pentru descărcare de la http://bioinformatics.org.au/ame/. Atât AME, cât și RAMEN sunt disponibile ca fișiere binare pentru Mac OS X și Linux, iar sursa este disponibilă la cerere. Ambele instrumente sunt licențiate sub licența MEME.
AME implementează metodele Fisher, mHG, Ranksum, regresia liniară (LR) și corelația de rang Spearman în modurile YFP și YUPM. Cu o etapă suplimentară de analiză, AME poate fi utilizată și pentru YCPM. RAMEN implementează metoda noastră LR fără parametri și suportă, în plus, calculul valorilor p bazate pe permutare. O documentație mai completă pentru AME și RAMEN poate fi găsită pe site-ul web.
.