Fixed-partition methods
Primeiro exploramos a precisão dos métodos MEA mais simples que consideramos neste estudo, os métodos YFP. Estes métodos dividem os dados de entrada em conjuntos positivos e negativos usando um limiar fixo no sinal biológico, Y. Os métodos MEA de partição fixa têm sido amplamente utilizados (por exemplo, ). Nós medimos a precisão de quatro métodos YFP – Fisher-YFP, mHG-YFP, Ranksum-YFP e Clover-YFP – na tarefa de identificar o motivo TF correto em cada um dos 237 conjuntos de dados de ChIP-chip de levedura. O sinal biológico, Y, é o valor p de fluorescência do ChIP-chip, e nós executamos cada método MEA usando vários valores do limiar de partição Y fixo, t y . Os resultados deste experimento são mostrados na Fig. 1. Note que os resultados à esquerda da linha azul vertical na figura são para subconjuntos cada vez menores dos 237 conjuntos de dados do ChIP-chip, uma vez que ignoramos todos os conjuntos de dados onde o limiar de partição em Y, t y , resulta em um conjunto positivo vazio. Por exemplo, os pontos das figuras com t y = 10-10 dão resultados para os 57 conjuntos de dados ChIP-chip contendo pelo menos um valor p de fluorescência inferior a 10-10,
A versão YFP do trevo é claramente superior aos outros métodos de identificação do motivo ChIP-ed TF em todos os 237 conjuntos de dados ChIP-chip de levedura (Fig. 1a). A precisão média (PRA, Eqn. 8) de todos os métodos aumenta com a diminuição do limiar de partição Y. A um limiar de t y = 0,001, o menor limiar de partição que pode ser usado com todos os 237 conjuntos de dados, Clover-YFP classifica a TF correta no percentil 84 (PRA = 84,1), enquanto o próximo melhor método (mHG-YFP) o classifica no percentil 80 (PRA = 80,4), em média. A superioridade do Clover-YFP é ainda mais pronunciada em valores maiores do limiar da partição Y, mas a precisão absoluta de todos os métodos diminui à medida que o limiar da partição aumenta (Fig. 1a).
A versão YFP do método Ranksum é claramente o pior dos métodos testados em todos os 237 conjuntos de dados ChIP-chip. Mesmo sob a métrica PRA mediana mais clemente, que coloca menos ênfase em conjuntos de dados onde um método tem um desempenho extremamente pobre, Ranksum-YFP tem uma precisão substancialmente menor que os outros métodos (Fig. 1b). A um limiar de partição Y de t y = 0,001, a PRA mediana para Ranksum-YFP é apenas 96,0, enquanto que é 98,4 para os outros três métodos MEA testados. Uma vez que tanto Clover-YFP como Ranksum-YFP usam AMA como a função de afinidade de motivos (Tabela 1), a função de associação de Clover é claramente melhor do que o teste de classificação da soma para MEA usando uma partição Y fixa, pelo menos neste tipo de dados de sinal biológico (ChIP-chip). Nenhuma das versões YFP dos métodos MEA que testamos aqui tem um desempenho extremamente bom em todos os 237 conjuntos de dados do ChIP-chip de levedura. Na verdade, nenhum método coloca o motivo ChIP-ed TF entre os três principais motivos previstos para mais de 60% dos conjuntos de dados ChIP-chip (dados não mostrados). Isto não é surpreendente, dado que Gordân et al. descobriram que em 35% dos experimentos com ChIP-chip não foi derivado de PBM (um método independente, in vitro de determinação da especificidade da seqüência de motivos) foi significativamente enriquecido.
O método Clover-YFP também é mais preciso que as variantes de maximização da partição Y dos outros três métodos MEA quando testado apenas nos conjuntos de dados do ChIP-chip de levedura contendo valores p de fluorescência abaixo de t y = 0,001 (resultados à esquerda da linha azul vertical na Fig. 1a). Contudo, a diferença relativa entre os métodos em termos de PRA média diminui com a diminuição do limiar de partição Y. Assim, entre as variantes YFP dos métodos MEA, a Clover-YFP parece ser a melhor abordagem para os dados ChIP-chip, e é especialmente vantajosa quando os dados ChIP-chip têm uma razão sinal-ruído baixa (i.e, nos casos em que nenhuma sonda de microarray tem um baixo valor de p de fluorescência).
Métodos de maximização de partições sem restrições
Vemos pelos nossos experimentos com partições fixas que a precisão dos métodos MEA na tarefa de identificação do ChIP-chip TF de levedura depende fortemente da escolha do limiar do valor de p de fluorescência. Nesses experimentos, seguimos a prática comum e escolhemos um único limiar para todos os 237 conjuntos de dados do ChIP-chip. Perguntamo-nos se seria vantajoso escolher um limiar diferente, dependente dos dados, para cada conjunto de dados. Uma maneira de fazer isso automaticamente é considerar todos os limiares possíveis e escolher aquele que maximiza a função de associação (Eqn. 4). Este tipo de abordagem tem sido investigado recentemente para as funções de associação Fisher e mHG para MEA e descoberta de motivos, respectivamente. (Como discutimos mais tarde, esses dois estudos usaram formas de maximização de partição Y restrita em vez de não restrita.)
Unconstrained Y partition maximization (YUPM) falha em melhorar as habilidades dos quatro métodos MEA para identificar as TFs de levedura ChIP-ed nos 237 conjuntos de dados ChIP-chip (Fig. 2). Em comparação com a utilização do menor limiar Y fixo, todos os conjuntos de dados ChIP-chip 237 têm pelo menos uma sequência positiva (t y = 0,001), permitindo aos métodos escolher o limiar de partição de acordo com Eqn. 5 resulta numa precisão média substancialmente inferior (PRA média). Por exemplo, a versão YUPM do Clover (Clover-YUPM) tem PRA média de 67,19, comparada com 84,15 quando fixamos o limiar Y em 0,001 (Clover-YFP). Esta é, de fato, a melhor precisão média de qualquer um dos métodos YUPM nos 237 conjuntos de dados do ChIP-chip de levedura. Curiosamente, o método Ranksum MEA, além de ser o método mais pobre quando se usa YFP, diminui mais na precisão quando se usa YUPM.
As variantes YUPM dos métodos MEA consideram todas as partições possíveis dos dados ordenados de acordo com o sinal biológico, Y. Pelo menos para os dados ChIP-chip, fica claro na Fig. 2 que escolher a partição Y que maximiza a função de associação não é uma boa ideia. A inspecção dos dados subjacentes à Fig. 2 mostra que os motivos altamente graduados (para além do motivo correcto) têm frequentemente pontuação máxima de associação para partições em Y com números extremamente grandes – muito maiores do que o TF seria a priori esperado para a classificação de sequências “positivas” (dados não mostrados). A maioria destas sequências “positivas” tem valores Y muito grandes e a grande pontuação de associação deve-se a uma ligeira correlação entre X (a pontuação de afinidade do motivo) e Y (o valor p de fluorescência do chip ChIP) sobre muitas sequências. As funções de associação são bastante boas para detectar tais correlações, mas as correlações muitas vezes não são indicativas de ligação funcional da TF, como indicado pela menor precisão das variantes YUPM da MEA na Fig. 2.
Métodos de maximização de partições sem restrições
Como mencionado acima, os métodos MEA de maximização de partições sem restrições parecem ter um mau desempenho na tarefa de identificação da TF da levedura devido à escolha de limiares óptimos Y (ChIP-chip fluorescence p-value) correspondentes a conjuntos muito grandes de sequências “positivas”. Isto pode explicar porque os usos anteriores de maximização de partições para MEA e descoberta de motivos têm frequentemente restringido o tamanho máximo do conjunto positivo. Por exemplo, o algoritmo MEA PASTAA limita o tamanho do conjunto positivo a não mais do que 1000 sequências. Da mesma forma, o algoritmo de descoberta de motivos DRIM , que foi testado nos dados do ChIP-chip de levedura usados no estudo atual, limita o conjunto positivo a no máximo 300 seqüências por padrão, e a não mais de 1000 seqüências. Estas duas são apenas pequenas fracções do número total de sequências (cerca de 6000) nos conjuntos de dados ChIP-chip de levedura utilizados aqui.
Se restringirmos a nossa variante de maximização de partições do método mHG a limites Y que não produzam mais de 300 sequências “positivas”, a precisão média na tarefa de classificação TF de levedura é intermédia entre a partição fixa e as variantes de maximização de partições sem restrições (Fig. 3). Assim, nesta tarefa, o tipo de maximização de partição restrita utilizado pelo DRIM não parece melhorar a utilização de uma partição fixa correspondente à atribuição de sequências com valores p de fluorescência inferiores a 0,001 para o conjunto “positivo”. Observamos que nos 237 conjuntos de dados ChIP-chip de levedura, o valor médio de Y para a sequência 300 (ordenado pelo aumento de Y, valor de p de fluorescência) é de 0,04. Isto significa que a limitação da partição Y para 300 sequências “positivas” permite incluir sequências com sinais biológicos menos significativos (Y) no conjunto “positivo”, em comparação com o limiar fixo de t y = 0,001 que usamos com o método mHG-YFP na Fig. 3.
Talvez uma forma mais geral de restringir os métodos de maximização de partição seja declarar a restrição em termos do sinal biológico Y, e não como um número de seqüências “positivas”. Esta abordagem é descrita por Eqn. 5, onde colocamos um limite superior no limite Y, t y , mas não um limite inferior. (Ou seja, definimos r y = para algum limite superior, b, em Eqn. 5.) Isto efectivamente limita o tamanho máximo do conjunto de sequências “positivas”, mas de uma forma dependente dos dados. Na aplicação actual, todas as sequências com valores p de fluorescência ChIP-chip inferiores a t y podem ser incluídas no conjunto “positivo”, mas nenhuma com valores p superiores.
A precisão máxima das variantes de maximização da partição Y restrita de três dos quatro métodos MEA não é melhor que a das variantes de partição fixa na tarefa de identificação do motivo ChIP-chip TF da levedura (Fig. 4). Há uma ligeira melhoria no pior método (Ranksum) quando o limite superior em t y está definido em 0,001, mas continua a ser o método menos preciso nesta tarefa. medida que aumentamos o valor de b (e, portanto, o tamanho máximo do conjunto “positivo”), tanto a média como a precisão do percentil mediano de todos os quatro métodos YCPM caem. A melhor precisão para os métodos com restrições é alcançada quando o limite superior em t y é 0,001, o menor limite possível para que todos os 237 conjuntos de dados ChIP-chip tenham pelo menos uma sequência “positiva”.
No entanto, as variantes MEA de maximização da partição Y (YCPM) são mais robustas do que as variantes de partição fixa (YFP). Ambas as variantes têm um parâmetro livre que deve ser escolhido pelo usuário – o limite superior, b para as variantes YCPM, e o limite fixo, t y , para as variantes YFP. A figura 4 mostra claramente que as variantes YCPM são menos sensíveis ao relaxamento do limite máximo selecionável para considerar uma TF vinculada a uma seqüência (b) do que as variantes YFP são ao relaxamento do limite absoluto para considerar uma TF vinculada a uma seqüência, t y . Como o usuário geralmente não conhece a escolha ótima para o parâmetro livre para qualquer dos métodos, esta é uma clara vantagem para as variantes de maximização da partição Y restrita dos quatro métodos MEA, em comparação com as versões de partição fixa. Além disso, a Figura 4 mostra que as variantes YCPM sempre alcançam precisão igual ou melhor para um determinado valor do parâmetro livre (b) em comparação com as variantes YFP usando o mesmo valor de parâmetro livre (t y ). Portanto, na tarefa estudada aqui, as variantes MEA de maximização da partição Y restrita são claramente superiores às variantes de partição fixa.
Métodos MEA sem partição
A vantagem das variantes MEA de maximização da partição restrita (em relação às variantes de partição fixa) reside na sua insensibilidade relativa à escolha de um único parâmetro livre. Entretanto, um método de precisão comparável sem parâmetros livres que o usuário deve escolher seria ainda melhor. As variantes de maximização de partições sem restrições não têm parâmetros livres, mas têm um desempenho muito fraco na tarefa atual, como mostramos acima. Um outro método MEA livre de parâmetros que estudamos aqui é o método de regressão linear (LR), que não divide as sequências em conjuntos “positivos” e “negativos” usando o sinal biológico Y. Em vez disso, a função de associação é o recíproco do erro da regressão linear de Y e X.
Nossa regressão linear livre de parâmetros (LR) método MEA alcança maior precisão na tarefa de classificação de motivos da levedura TF do que cada um dos outros quatro métodos usando os valores ótimos de seus parâmetros livres (Fig. 5). O método LR atinge uma precisão média de classificação percentual de 87,57 em comparação com 84,15 para o Clover-YFP, o segundo melhor método. Deve-se enfatizar que esta é uma comparação injusta (com LR), já que “enganamos” a Clover-YFP, mHG-YFP e Ranksum-YFP escolhendo o valor do seu parâmetro livre (t y ) que atinge a maior precisão. É provável que um usuário real de um desses outros métodos (ou das variantes mais robustas do YCPM) não soubesse o valor ótimo do parâmetro, portanto sua precisão seria pior.
Como o método LR teve um desempenho impressionante, implementamos outro método livre de parâmetros, o coeficiente de correlação de rank do Spearman. Ao contrário da regressão linear, a correlação de rank de Spearman não supõe uma relação linear entre X e Y. O nosso método de correlação de rank de Spearman teve um desempenho extremamente pobre, alcançando uma precisão média de rank do percentil 69,46, o pior nesta comparação, e substancialmente inferior aos métodos YFP.
Earlier, mencionamos que o método MEA PASTAA usa uma forma de maximização da partição Y restrita. Na verdade, ele realiza a maximização restrita sobre X e Y, usando uma função de afinidade semelhante à AMA e a função de associação Fisher Exact Test. Quando aplicada à tarefa de classificação TF, a PASTAA (usando suas restrições padrão) tem melhor desempenho que todas as outras abordagens baseadas em partições, exceto a Clover (Fig. 5). Isto indica a robustez do PASTAA, pois não otimizamos seus parâmetros livres como fizemos no caso das variantes YFP dos outros métodos (incluindo o Clover). No entanto, na tarefa de classificação de motivos do ChIP-chip TF de levedura, o PASTAA atinge uma precisão substancialmente menor em comparação com o método LR de partição e sem parâmetros que introduzimos aqui.
Disponibilidade do software
Lançamos as duas ferramentas de software desenvolvidas neste estudo, e as disponibilizamos online. AME (Analysis of Motif Enrichment) e RAMEN (Regression Analysis of Motif ENrichment) estão ambas disponíveis para download a partir de http://bioinformatics.org.au/ame/. Tanto AME como RAMEN estão disponíveis como binários para Mac OS X e Linux, com fonte disponível sob pedido. Ambas as ferramentas estão licenciadas sob a licença MEME.
AME implementa os métodos Fisher, mHG, Ranksum, linear regression (LR), e spearman’s rank correlation methods nos modos YFP e YUPM. Com um passo adicional de análise, AME também pode ser usado para YCPM. RAMEN implementa nosso método LR sem parâmetros e adicionalmente suporta o cálculo de p-valores baseados em permutação. Documentação mais completa para AME e RAMEN pode ser encontrada no website.