Méthodes à partition fixe
Nous explorons d’abord la précision des méthodes MEA les plus simples que nous considérons dans cette étude, les méthodes YFP. Ces méthodes divisent les données d’entrée en ensembles positifs et négatifs en utilisant un seuil fixe sur le signal biologique, Y. Les méthodes MEA à partition fixe ont été largement utilisées (par exemple, ). Nous mesurons la précision de quatre méthodes YFP – Fisher-YFP, mHG-YFP, Ranksum-YFP et Clover-YFP – pour identifier le motif TF correct dans chacun des 237 ensembles de données ChIP-chip de levure. Le signal biologique, Y, est la valeur p de la fluorescence de la puce ChIP, et nous exécutons chaque méthode MEA en utilisant différentes valeurs du seuil de partitionnement Y fixe, t y . Les résultats de cette expérience sont présentés dans la figure 1. Notez que les résultats à gauche de la ligne bleue verticale dans la figure sont pour des sous-ensembles de plus en plus petits des 237 ensembles de données ChIP-chip puisque nous ignorons tous les ensembles de données où le seuil de partition sur Y, t y , donne un ensemble positif vide. Par exemple, les points dans les figures avec t y = 10-10 donnent des résultats pour les 57 ensembles de données ChIP-chip contenant au moins une valeur p de fluorescence inférieure à 10-10.
La version YFP de Clover est clairement supérieure aux autres méthodes pour identifier le motif TF ChIP-ed dans les 237 ensembles de données ChIP-chip de levure (figure 1a). La précision moyenne (PRA, Eqn. 8) de toutes les méthodes augmente avec la diminution du seuil de la partition Y. À un seuil de t y = 0,001, le plus petit seuil de partition pouvant être utilisé avec les 237 ensembles de données, Clover-YFP classe la bonne TF dans le 84e percentile (PRA = 84,1), tandis que la méthode suivante (mHG-YFP) la classe dans le 80e percentile (PRA = 80,4), en moyenne. La supériorité de Clover-YFP est encore plus prononcée pour des valeurs plus élevées du seuil de partition Y, mais la précision absolue de toutes les méthodes diminue à mesure que le seuil de partition augmente (Fig. 1a).
La version YFP de la méthode Ranksum est clairement la pire des méthodes testées sur les 237 ensembles de données de puces à ADN. Même avec la métrique PRA médiane, plus indulgente, qui met moins l’accent sur les ensembles de données où une méthode est extrêmement peu performante, Ranksum-YFP a une précision nettement inférieure à celle des autres méthodes (figure 1b). À un seuil de partition Y de t y = 0,001, le PRA médian de Ranksum-YFP n’est que de 96,0, alors qu’il est de 98,4 pour les trois autres méthodes MEA testées. Étant donné que Clover-YFP et Ranksum-YFP utilisent tous deux AMA comme fonction d’affinité du motif (tableau 1), la fonction d’association de Clover est clairement meilleure que le test rank-sum de MEA utilisant une partition Y fixe, du moins sur ce type de données de signaux biologiques (ChIP-chip). Aucune des versions YFP des méthodes MEA que nous testons ici n’est extrêmement performante sur les 237 ensembles de données ChIP-chip de levure. En fait, aucune méthode ne place le motif TF ChIP-ed parmi les trois premiers motifs prédits pour plus de 60% des ensembles de données ChIP-chip (données non présentées). Cela n’est pas surprenant, étant donné que Gordân et al. ont constaté que dans 35 % des expériences de ChIP-chip, aucun motif dérivé du PBM (une méthode indépendante, in vitro, de détermination de la spécificité de la séquence du motif) n’était significativement enrichi.
La méthode Clover-YFP est également plus précise que les variantes de maximisation de la partition Y des trois autres méthodes MEA lorsqu’elle est testée uniquement sur les ensembles de données de ChIP-chip de levure contenant des valeurs p de fluorescence inférieures à t y = 0,001 (résultats à gauche de la ligne bleue verticale dans la figure 1a). Cependant, la différence relative entre les méthodes en termes de PRA moyenne diminue avec la diminution du seuil de la partition Y. Ainsi, parmi les variantes YFP des méthodes MEA, Clover-YFP semble être la meilleure approche pour les données de puces à ADN, et est particulièrement avantageuse lorsque les données de puces à ADN ont un faible rapport signal/bruit (c’est-à-dire, dans les cas où aucune sonde de microarray n’a une faible p-value de fluorescence).
Méthodes de maximisation de partition sans contrainte
Nous voyons dans nos expériences de partition fixe que la précision des méthodes MEA sur la tâche d’identification de TF de ChIP-chip de levure dépend fortement du choix du seuil de p-value de fluorescence. Dans ces expériences, nous suivons la pratique courante et choisissons un seuil unique pour les 237 ensembles de données ChIP-chip. Nous nous sommes demandé s’il serait avantageux de choisir un seuil différent, dépendant des données, pour chaque ensemble de données. Une façon de le faire automatiquement est de considérer tous les seuils possibles et de choisir celui qui maximise la fonction d’association (Eqn. 4). Ce type d’approche a été étudié récemment pour les fonctions d’association de Fisher et mHG pour la MEA et la découverte de motifs, respectivement. (Comme nous l’expliquons plus loin, ces deux études ont utilisé des formes de maximisation de partition sous contrainte plutôt que sans contrainte.)
La maximisation de partition Y sans contrainte (YUPM) ne parvient pas à améliorer les capacités des quatre méthodes MEA à identifier les TF de levure ChIP-ed dans les 237 ensembles de données ChIP-chip (Fig. 2). Par rapport à l’utilisation du plus petit seuil Y fixe tel que les 237 ensembles de données ChIP-chip ont au moins une séquence positive (t y = 0,001), le fait de permettre aux méthodes de choisir le seuil de partition selon l’équation 5 entraîne une précision moyenne (PRA moyenne) nettement inférieure. Par exemple, la version YUPM de Clover (Clover-YUPM) a une PRA moyenne de 67,19, contre 84,15 lorsque nous fixons le seuil Y à 0,001 (Clover-YFP). Il s’agit en fait de la meilleure précision moyenne de toutes les méthodes YUPM sur les 237 ensembles de données ChIP-chip de levure. Il est intéressant de noter que la méthode MEA de Ranksum, en plus d’être la méthode la plus pauvre lors de l’utilisation de YFP, diminue le plus en précision lorsque YUPM est utilisé.
Les variantes YUPM des méthodes MEA considèrent toutes les partitions possibles des données triées selon le signal biologique, Y. Au moins pour les données ChIP-chip, il est clair d’après la Fig. 2 que le choix de la partition Y qui maximise la fonction d’association n’est pas une bonne idée. L’inspection des données sous-jacentes à la figure 2 montre que les motifs hautement classés (autres que le motif correct) ont souvent des scores d’association maximaux pour les partitions Y comportant un nombre extrêmement élevé de séquences » positives » (données non montrées), bien supérieur à celui que la TF devrait a priori classer. La plupart de ces séquences » positives » ont des valeurs Y très importantes et le score d’association élevé est dû à une légère corrélation entre X (le score d’affinité du motif) et Y (la valeur p de fluorescence de la puce ChIP) sur de nombreuses séquences. Les fonctions d’association sont assez bonnes pour détecter de telles corrélations, mais les corrélations ne sont souvent pas indicatives d’une liaison fonctionnelle de la TF, comme l’indique la plus faible précision des variantes YUPM de MEA dans la figure 2.
Méthodes de maximisation de partition sous contrainte
Comme mentionné ci-dessus, les méthodes de MEA de maximisation de partition sans contrainte semblent donner de mauvais résultats sur la tâche d’identification de TF de levure en raison du choix de seuils Y (p-value de fluorescence ChIP-puce) optimaux correspondant à de très grands ensembles de séquences » positives « . Cela peut expliquer pourquoi les utilisations précédentes de la maximisation de partition pour la MEA et la découverte de motifs ont souvent limité la taille maximale de l’ensemble positif. Par exemple, l’algorithme MEA PASTAA limite la taille de l’ensemble positif à un maximum de 1000 séquences. De même, l’algorithme de découverte de motifs DRIM , qui a été testé sur les données ChIP-chip de levure utilisées dans la présente étude, limite l’ensemble positif à 300 séquences au maximum par défaut, et à 1000 séquences au maximum. Il s’agit dans les deux cas de petites fractions du nombre total de séquences (environ 6000) dans les ensembles de données ChIP-chip de levure utilisés ici.
Si nous contraignons notre variante de maximisation de partition de la méthode mHG à des seuils Y ne donnant pas plus de 300 séquences » positives « , la précision moyenne sur la tâche de classement TF de levure est intermédiaire entre la variante de maximisation de partition fixe et la variante de maximisation de partition sans contrainte (figure 3). Ainsi, pour cette tâche, le type de maximisation de partition sous contrainte utilisé par DRIM ne semble pas améliorer l’utilisation d’une partition fixe correspondant à l’assignation des séquences avec des p-values de fluorescence inférieures à 0,001 à l’ensemble « positif ». Nous notons que dans les 237 ensembles de données ChIP-chip de levure, la valeur moyenne de Y pour la 300e séquence (triée par Y croissant, valeur p de fluorescence) est de 0,04. Cela signifie que la limitation de la partition Y à 300 séquences » positives » permet d’inclure dans l’ensemble » positif » des séquences présentant des signaux biologiques (Y) moins significatifs, par rapport au seuil fixe de t y = 0,001 que nous utilisons avec la méthode mHG-YFP dans la figure 3.
Peut-être qu’une façon plus générale de contraindre les méthodes de maximisation de partition est d’énoncer la contrainte en termes de signal biologique Y, plutôt que comme un nombre de séquences « positives ». Cette approche est décrite par l’équation 5, où nous plaçons une limite supérieure sur le seuil Y, t y , mais pas de limite inférieure. (C’est-à-dire que nous définissons r y = pour une certaine limite supérieure, b, dans l’équation 5.) Cela limite effectivement la taille maximale de l’ensemble de séquences « positives », mais d’une manière qui dépend des données. Dans l’application actuelle, toutes les séquences avec des valeurs p de fluorescence de ChIP-chip inférieures à t y peuvent être incluses dans l’ensemble » positif « , mais aucune avec des valeurs p plus grandes.
La précision maximale des variantes de maximisation de partition Y contraintes de trois des quatre méthodes MEA n’est pas meilleure que celle des variantes de partition fixe sur la tâche d’identification de motifs TF de ChIP-chip de levure (figure 4). On constate une légère amélioration de la pire méthode (Ranksum) lorsque la limite supérieure de t y est fixée à 0,001, mais elle reste la méthode la moins précise pour cette tâche. Lorsque nous augmentons la valeur de b (et, par conséquent, la taille maximale de l’ensemble « positif »), la précision moyenne et médiane du rang centile des quatre méthodes YCPM diminue. La meilleure précision pour les méthodes contraintes est obtenue lorsque la limite supérieure de t y est de 0,001, la plus petite limite possible pour que les 237 ensembles de données ChIP-chip aient au moins une séquence « positive ».
Cependant, les variantes MEA à maximisation de partition Y contrainte (YCPM) sont plus robustes que les variantes à partition fixe (YFP). Les deux variantes ont un paramètre libre qui doit être choisi par l’utilisateur – la limite supérieure, b pour les variantes YCPM, et le seuil fixe, t y , pour les variantes YFP. Il ressort clairement de la figure 4 que les variantes YCPM sont moins sensibles à l’assouplissement du seuil maximal sélectionnable pour considérer une TF liée à une séquence (b) que les variantes YFP ne le sont à l’assouplissement du seuil absolu pour considérer une TF liée à une séquence, t y . Étant donné que l’utilisateur ne connaîtra généralement pas le choix optimal du paramètre libre pour l’une ou l’autre des méthodes, il s’agit d’un avantage évident pour les variantes de maximisation de la partition Y sous contrainte des quatre méthodes MEA par rapport aux versions à partition fixe. De plus, la figure 4 montre que les variantes YCPM atteignent toujours une précision égale ou supérieure pour une valeur donnée du paramètre libre (b) par rapport aux variantes YFP utilisant la même valeur de paramètre libre (t y ). Par conséquent, sur la tâche étudiée ici, les variantes de MEA à maximisation de partition Y contrainte sont clairement supérieures aux variantes à partition fixe.
Méthodes MEA sans partition
L’avantage des variantes de MEA à maximisation de partition contrainte (par rapport aux variantes à partition fixe) réside dans leur relative insensibilité au choix d’un seul paramètre libre. Cependant, une méthode d’une précision comparable sans aucun paramètre libre que l’utilisateur doit choisir serait encore meilleure. Les variantes de maximisation de partition sans contrainte n’ont pas de paramètres libres, mais sont très peu performantes dans la tâche actuelle, comme nous le montrons ci-dessus. Une autre méthode MEA sans paramètre que nous étudions ici est la méthode de régression linéaire (LR), qui ne partitionne pas les séquences en ensembles » positifs » et » négatifs » en utilisant le signal biologique Y. Au lieu de cela, la fonction d’association est la réciproque de l’erreur de la régression linéaire de Y et X.
Notre méthode MEA de régression linéaire (LR) sans paramètre atteint une précision plus élevée sur la tâche de classement des motifs TF de levure que chacune des quatre autres méthodes en utilisant les valeurs optimales de leurs paramètres libres (Fig. 5). La méthode LR atteint une précision moyenne du rang centile de 87,57, contre 84,15 pour Clover-YFP, la deuxième meilleure méthode. Il convient de souligner qu’il s’agit d’une comparaison injuste (par rapport à LR), puisque nous avons » triché » pour Clover-YFP, mHG-YFP et Ranksum-YFP en choisissant la valeur de leur paramètre libre (t y ) qui permet d’obtenir la plus grande précision. Il est probable qu’un utilisateur réel de l’une de ces autres méthodes (ou des variantes plus robustes de YCPM) ne connaisse pas la valeur optimale du paramètre, de sorte que leur précision serait moins bonne.
Comme la méthode LR a donné des résultats étonnamment bons, nous avons mis en œuvre une autre méthode sans paramètre, le coefficient de corrélation de rang de Spearman. Contrairement à la régression linéaire, la corrélation de rang de Spearman ne suppose pas une relation linéaire entre X et Y. Notre méthode de corrélation de rang de Spearman a donné des résultats extrêmement médiocres, obtenant une précision moyenne du rang centile de 69,46, la pire de cette comparaison, et nettement inférieure aux méthodes YFP.
Auparavant, nous avons mentionné que la méthode MEA PASTAA utilise une forme de maximisation contrainte de la partition de Y. En fait, elle effectue une maximisation contrainte sur X et Y, en utilisant une fonction d’affinité similaire à AMA et à la fonction d’association du test exact de Fisher. Lorsqu’elle est appliquée à la tâche de classement TF, PASTAA (avec ses contraintes par défaut) obtient de meilleures performances que toutes les autres approches basées sur les partitions, à l’exception de Clover (Fig. 5). Cela indique la robustesse de PASTAA, car nous n’avons pas optimisé ses paramètres libres comme nous l’avons fait dans le cas des variantes YFP des autres méthodes (y compris Clover). Néanmoins, sur la tâche de classement des motifs TF de ChIP-chip de levure, PASTAA atteint une précision sensiblement plus faible par rapport à la méthode LR sans partition et sans paramètres que nous présentons ici.
Disponibilité du logiciel
Nous avons publié les deux outils logiciels développés dans cette étude, et les avons rendus disponibles en ligne. AME (analyse de l’enrichissement des motifs) et RAMEN (analyse de la régression de l’enrichissement des motifs) sont tous deux disponibles pour téléchargement à partir de http://bioinformatics.org.au/ame/. AME et RAMEN sont tous deux disponibles sous forme de binaires pour Mac OS X et Linux, les sources étant disponibles sur demande. Les deux outils sont sous licence MEME.
AME met en œuvre les méthodes de Fisher, mHG, Ranksum, régression linéaire (LR), et corrélation de rang de spearman dans les modes YFP et YUPM. Avec une étape d’analyse supplémentaire, AME peut également être utilisé pour YCPM. RAMEN met en œuvre notre méthode LR sans paramètre et prend également en charge le calcul des valeurs p basées sur la permutation. Une documentation plus complète pour AME et RAMEN est disponible sur le site Web.