Metodi a partizione fissa
Prima esploriamo la precisione dei metodi MEA più semplici che consideriamo in questo studio, i metodi YFP. Questi metodi dividono i dati di input in insiemi positivi e negativi utilizzando una soglia fissa sul segnale biologico, Y. I metodi MEA a partizione fissa sono stati ampiamente utilizzati (ad esempio, ). Misuriamo l’accuratezza di quattro metodi YFP – Fisher-YFP, mHG-YFP, Ranksum-YFP e Clover-YFP – sul compito di identificare il motivo TF corretto in ciascuno dei 237 set di dati ChIP-chip di lievito. Il segnale biologico, Y, è il p-value di fluorescenza ChIP-chip, e abbiamo eseguito ogni metodo MEA utilizzando vari valori della soglia fissa di partizionamento Y, t y . I risultati di questo esperimento sono mostrati in Fig. 1. Si noti che i risultati a sinistra della linea blu verticale nella figura sono per sottoinsiemi sempre più piccoli dei 237 ChIP-chip set di dati in quanto ignoriamo tutti i set di dati in cui la soglia di partizione su Y, t y , risulta in un set positivo vuoto. Per esempio, i punti nelle figure con t y = 10-10 danno risultati per i 57 set di dati ChIP-chip che contengono almeno un p-value di fluorescenza inferiore a 10-10.
La versione YFP di Clover è chiaramente superiore agli altri metodi nell’identificare il motivo ChIP-ed TF in tutti i 237 dataset ChIP-chip di lievito (Fig. 1a). L’accuratezza media (PRA, Eqn. 8) di tutti i metodi aumenta al diminuire della soglia di partizione Y. Ad una soglia di t y = 0.001, la più piccola soglia di partizione che può essere utilizzata con tutti i 237 set di dati, Clover-YFP classifica la TF corretta nell’84° percentile (PRA = 84.1), mentre il metodo successivo migliore (mHG-YFP) la classifica nell’80° percentile (PRA = 80.4), in media. La superiorità di Clover-YFP è ancora più pronunciata a valori più grandi della soglia di partizione Y, ma l’accuratezza assoluta di tutti i metodi diminuisce all’aumentare della soglia di partizione (Fig. 1a).
La versione YFP del metodo Ranksum è chiaramente la peggiore dei metodi testati su tutti i 237 dataset ChIP-chip. Anche sotto la metrica PRA mediana più indulgente, che pone meno enfasi sui set di dati in cui un metodo si comporta in modo estremamente povero, Ranksum-YFP ha una precisione sostanzialmente inferiore rispetto agli altri metodi (Fig. 1b). Ad una soglia di partizione Y di t y = 0.001, il PRA mediano per Ranksum-YFP è solo 96.0, mentre è 98.4 per gli altri tre metodi MEA testati. Dal momento che sia Clover-YFP e Ranksum-YFP utilizzare AMA come funzione di affinità del motivo (Tabella 1), la funzione di associazione Clover è chiaramente migliore del test rank-sum per MEA utilizzando una partizione Y fissa, almeno su questo tipo di dati del segnale biologico (ChIP-chip). Nessuna delle versioni YFP dei metodi MEA che testiamo qui si comporta estremamente bene su tutti i 237 set di dati ChIP-chip del lievito. Infatti, nessun metodo colloca il motivo ChIP-ed TF tra i primi tre motivi previsti per più del 60% dei dataset ChIP-chip (dati non mostrati). Questo non è sorprendente, dato che Gordân et al. hanno trovato che nel 35% degli esperimenti ChIP-chip nessun derivato PBM (un indipendente, metodo in vitro di determinare la specificità della sequenza del motivo) è stato significativamente arricchito.
Il metodo Clover-YFP è anche più preciso rispetto alle varianti Y partizione massimizzazione degli altri tre metodi MEA quando testato solo sul lievito ChIP-chip dataset contenenti fluorescenza p-valori sotto t y = 0,001 (risultati a sinistra della linea blu verticale in Fig. 1a). Tuttavia, la differenza relativa tra i metodi in termini di PRA media diminuisce con la diminuzione della soglia di partizione Y. Così, tra le varianti YFP dei metodi MEA, Clover-YFP sembra essere il miglior approccio per ChIP-chip dati, ed è particolarmente vantaggioso quando il ChIP-chip dati ha basso rapporto segnale-rumore (cioè, nei casi in cui nessuna sonda microarray ha un basso p-valore di fluorescenza).
Metodi di massimizzazione della partizione non vincolata
Dai nostri esperimenti a partizione fissa vediamo che l’accuratezza dei metodi MEA sul compito di identificazione di TF su ChIP-chip di lievito dipende fortemente dalla scelta della soglia del p-valore di fluorescenza. In questi esperimenti seguiamo la pratica comune e scegliamo una singola soglia per tutti i 237 set di dati ChIP-chip. Ci siamo chiesti se sarebbe vantaggioso scegliere una soglia diversa, dipendente dai dati, per ogni set di dati. Un modo per farlo automaticamente è quello di considerare tutte le possibili soglie e scegliere quella che massimizza la funzione di associazione (Eqn. 4). Questo tipo di approccio è stato studiato recentemente per le funzioni di associazione Fisher e mHG per MEA e la scoperta di motivi, rispettivamente. (Come discutiamo più avanti, questi due studi hanno usato forme di massimizzazione delle partizioni vincolate piuttosto che non vincolate.)
Massimizzazione non vincolata delle partizioni Y (YUPM) non riesce a migliorare le capacità di tutti e quattro i metodi MEA di identificare le TF del lievito ChIP-ed nei 237 set di dati ChIP-chip (Fig. 2). Rispetto all’utilizzo della più piccola soglia fissa Y tale che tutti i 237 set di dati ChIP-chip hanno almeno una sequenza positiva (t y = 0,001), permettendo ai metodi di scegliere la soglia di partizione secondo l’Eqn. 5 si traduce in una precisione media sostanzialmente inferiore (PRA media). Per esempio, la versione YUPM di Clover (Clover-YUPM) ha un PRA medio di 67,19, rispetto a 84,15 quando fissiamo la soglia Y a 0,001 (Clover-YFP). Questa è infatti la migliore precisione media di qualsiasi metodo YUPM sui 237 set di dati ChIP-chip del lievito. È interessante notare che il metodo Ranksum MEA, oltre ad essere il metodo più povero quando si usa YFP, diminuisce maggiormente l’accuratezza quando si usa YUPM.
Le varianti YUPM dei metodi MEA considerare ogni possibile partizionamento dei dati ordinati secondo il segnale biologico, Y. Almeno per ChIP-chip dati, è chiaro dalla Fig. 2 che la scelta della partizione Y che massimizza la funzione di associazione non è una buona idea. L’ispezione dei dati alla base della Fig. 2 mostra che i motivi altamente classificati (diversi dal motivo corretto) spesso hanno punteggi di associazione massimi per le partizioni Y con un numero estremamente grande – molto più grande di quello che la TF dovrebbe a priori legare – di sequenze “positive” (dati non mostrati). La maggior parte di queste sequenze “positive” hanno valori Y molto grandi e il grande punteggio di associazione è dovuto a una leggera correlazione tra X (il punteggio di affinità del motivo) e Y (il valore p di fluorescenza ChIP-chip) su molte sequenze. Le funzioni di associazione sono abbastanza buone nel rilevare tali correlazioni, ma le correlazioni spesso non sono indicative del legame funzionale della TF, come indicato dalla minore precisione delle varianti YUPM di MEA in Fig. 2.
Metodi di massimizzazione delle partizioni vincolate
Come accennato in precedenza, i metodi MEA di massimizzazione delle partizioni non vincolate sembrano avere scarse prestazioni nel compito di identificazione delle TF su lievito a causa della scelta di soglie ottimali Y (ChIP-chip fluorescenza p-value) corrispondenti a set di sequenze “positive” molto grandi. Questo può spiegare perché i precedenti usi della massimizzazione delle partizioni per MEA e la scoperta di motivi hanno spesso limitato la dimensione massima del set positivo. Per esempio, l’algoritmo MEA PASTAA limita la dimensione del set positivo a non più di 1000 sequenze. Allo stesso modo, l’algoritmo di scoperta dei motivi DRIM, che è stato testato sui dati ChIP-chip del lievito utilizzati nello studio attuale, limita il set positivo a un massimo di 300 sequenze per impostazione predefinita, e non più di 1000 sequenze. Questi sono entrambi solo piccole frazioni del numero totale di sequenze (circa 6000) nei set di dati ChIP-chip del lievito utilizzati qui.
Se vincoliamo la nostra variante di massimizzazione delle partizioni del metodo mHG a soglie Y che non producono più di 300 sequenze “positive”, la precisione media sul compito di classificazione TF del lievito è intermedia tra la partizione fissa e le varianti di massimizzazione delle partizioni non vincolate (Fig. 3). Quindi, su questo compito, il tipo di massimizzazione della partizione vincolata usata da DRIM non sembra migliorare sull’uso di una partizione fissa corrispondente ad assegnare le sequenze con valori p di fluorescenza inferiori a 0,001 al set “positivo”. Notiamo che nei 237 set di dati ChIP-chip del lievito, il valore medio di Y per la 300esima sequenza (ordinata per Y crescente, p-valore di fluorescenza) è 0,04. Questo significa che limitare la partizione Y a 300 sequenze “positive” permette alle sequenze con segnali biologici meno significativi (Y) di essere incluse nel set “positivo”, rispetto alla soglia fissa di t y = 0,001 che usiamo con il metodo mHG-YFP in Fig. 3.
Forse un modo più generale per vincolare i metodi di massimizzazione della partizione è di dichiarare il vincolo in termini di segnale biologico Y, piuttosto che come un numero di sequenze “positive”. Questo approccio è descritto dall’Eqn. 5, dove poniamo un limite superiore alla soglia Y, t y , ma nessun limite inferiore. (Cioè, definiamo r y = per qualche limite superiore, b, nell’equazione 5.) Questo limita effettivamente la dimensione massima dell’insieme di sequenze “positive”, ma in un modo dipendente dai dati. Nell’applicazione corrente, tutte le sequenze con valori p di fluorescenza ChIP-chip inferiori a t y possono essere incluse nel set “positivo”, ma nessuna con valori p più grandi.
L’accuratezza massima delle varianti di massimizzazione della partizione Y vincolata di tre dei quattro metodi MEA non è migliore di quella delle varianti di partizione fissa sul lievito ChIP-chip TF compito di identificazione motivo (Fig. 4). C’è un leggero miglioramento nel metodo peggiore (Ranksum) quando il limite superiore di t y è impostato a 0,001, ma rimane il metodo meno accurato su questo compito. Aumentando il valore di b (e quindi la dimensione massima dell’insieme “positivo”), sia l’accuratezza media e mediana del percentile rank di tutti e quattro i metodi YCPM diminuisce. La migliore accuratezza per i metodi vincolati si ottiene quando il limite superiore di t y è 0.001, il più piccolo limite possibile in modo che tutti i 237 dataset ChIP-chip abbiano almeno una sequenza “positiva”.
Tuttavia, le varianti MEA a massimizzazione di partizione Y vincolata (YCPM) sono più robuste delle varianti a partizione fissa (YFP). Entrambe le varianti hanno un parametro libero che deve essere scelto dall’utente – il limite superiore, b per le varianti YCPM, e la soglia fissa, t y , per le varianti YFP. E’ chiaro dalla Fig. 4 che le varianti YCPM sono meno sensibili all’allentamento della soglia massima selezionabile per considerare una TF legata ad una sequenza (b) di quanto lo siano le varianti YFP all’allentamento della soglia assoluta per considerare una TF legata ad una sequenza, t y . Poiché l’utente generalmente non conosce la scelta ottimale per il parametro libero per entrambi i metodi, questo è un chiaro vantaggio per le varianti di massimizzazione della partizione Y vincolata dei quattro metodi MEA rispetto alle versioni a partizione fissa. Inoltre, la Fig. 4 mostra che le varianti YCPM raggiungono sempre una precisione uguale o migliore per un dato valore del parametro libero (b) rispetto alle varianti YFP usando lo stesso valore del parametro libero (t y ). Quindi, sul compito qui studiato, le varianti MEA di massimizzazione delle partizioni Y vincolate sono chiaramente superiori alle varianti a partizione fissa.
Metodi MEA senza partizione
Il vantaggio delle varianti MEA di massimizzazione delle partizioni vincolate (relative alle varianti a partizione fissa) sta nella loro relativa insensibilità alla scelta di un singolo parametro libero. Tuttavia, un metodo di precisione comparabile senza parametri liberi che l’utente deve scegliere sarebbe ancora meglio. Le varianti di massimizzazione delle partizioni non vincolate non hanno parametri liberi, ma si comportano molto male nel compito attuale, come abbiamo mostrato sopra. Un altro metodo MEA senza parametri che studiamo qui è il metodo di regressione lineare (LR), che non partiziona le sequenze in set “positivi” e “negativi” utilizzando il segnale biologico Y. Invece, la funzione di associazione è il reciproco dell’errore della regressione lineare di Y e X.
Il nostro metodo di regressione lineare senza parametri (LR) MEA raggiunge una maggiore precisione sul compito di classificazione dei motivi TF del lievito rispetto a ciascuno degli altri quattro metodi utilizzando i valori ottimali dei loro parametri liberi (Fig. 5). Il metodo LR raggiunge un’accuratezza media di rank percentile di 87.57 rispetto a 84.15 per Clover-YFP, il secondo miglior metodo. Va sottolineato che questo è un confronto ingiusto (con LR), poiché abbiamo “barato” per Clover-YFP, mHG-YFP e Ranksum-YFP scegliendo il valore del loro parametro libero (t y ) che raggiunge la massima precisione. È probabile che un utente effettivo di uno di questi altri metodi (o delle varianti YCPM più robuste) non conoscerebbe il valore ottimale del parametro, quindi la loro accuratezza sarebbe peggiore.
Visto che il metodo LR ha funzionato molto bene, abbiamo implementato un altro metodo senza parametri, il coefficiente di correlazione di Spearman. A differenza della regressione lineare, la correlazione di rango di Spearman non suppone una relazione lineare tra X e Y. Il nostro metodo di correlazione di rango di Spearman ha funzionato estremamente male, raggiungendo una precisione media di rango percentile di 69,46, la peggiore in questo confronto, e sostanzialmente inferiore ai metodi YFP.
Prima, abbiamo menzionato che il metodo MEA PASTAA usa una forma di massimizzazione vincolata della partizione Y. Infatti, esegue la massimizzazione vincolata sia su X che su Y, usando una funzione di affinità simile a AMA e la funzione di associazione del test esatto di Fisher. Quando viene applicato al compito di classificazione TF, PASTAA (usando i suoi vincoli predefiniti) si comporta meglio di tutti gli altri approcci basati sulle partizioni, tranne Clover (Fig. 5). Questo indica la robustezza di PASTAA, poiché non abbiamo ottimizzato i suoi parametri liberi come abbiamo fatto nel caso delle varianti YFP degli altri metodi (incluso Clover). Ciononostante, sul compito di classificazione dei motivi TF su ChIP-chip di lievito, PASTAA raggiunge un’accuratezza sostanzialmente inferiore rispetto al metodo LR senza partizioni e parametri che presentiamo qui.
Disponibilità del software
Abbiamo rilasciato i due strumenti software sviluppati in questo studio e li abbiamo resi disponibili online. AME (Analysis of Motif Enrichment) e RAMEN (Regression Analysis of Motif ENrichment) sono entrambi disponibili per il download da http://bioinformatics.org.au/ame/. Sia AME che RAMEN sono disponibili come binari per Mac OS X e Linux, con sorgente disponibile su richiesta. Entrambi gli strumenti sono concessi in licenza MEME.
AME implementa i metodi Fisher, mHG, Ranksum, regressione lineare (LR) e correlazione di rango di Spearman nelle modalità YFP e YUPM. Con una fase di analisi aggiuntiva, AME può essere utilizzato anche per YCPM. RAMEN implementa il nostro metodo LR senza parametri e supporta inoltre il calcolo dei valori p basati sulla permutazione. Una documentazione più completa per AME e RAMEN può essere trovata sul sito web.