Análisis de enriquecimiento de motivos: un marco unificado y una evaluación en datos ChIP

Métodos de partición fija

Primero exploramos la precisión de los métodos MEA más simples que consideramos en este estudio, los métodos YFP. Estos métodos dividen los datos de entrada en conjuntos positivos y negativos utilizando un umbral fijo en la señal biológica, Y. Los métodos MEA de partición fija se han utilizado ampliamente (por ejemplo, ). Medimos la precisión de cuatro métodos YFP -Fisher-YFP, mHG-YFP, Ranksum-YFP y Clover-YFP- en la tarea de identificar el motivo TF correcto en cada uno de los 237 conjuntos de datos ChIP-chip de levadura. La señal biológica, Y, es el valor p de la fluorescencia del ChIP-chip, y ejecutamos cada método MEA utilizando varios valores del umbral fijo de partición de Y, t y . Los resultados de este experimento se muestran en la Fig. 1. Nótese que los resultados a la izquierda de la línea azul vertical en la figura son para subconjuntos cada vez más pequeños de los 237 conjuntos de datos de ChIP-chip, ya que ignoramos todos los conjuntos de datos en los que el umbral de partición en Y, t y , resulta en un conjunto positivo vacío. Por ejemplo, los puntos en las figuras con t y = 10-10 dan resultados para los 57 conjuntos de datos ChIP-chip que contienen al menos un valor p de fluorescencia inferior a 10-10.

Figura 1
figura1

Exactitud de los métodos MEA utilizando particiones Y fijas. Se muestra la capacidad de diferentes métodos MEA para clasificar correctamente el motivo TF conocido en 237 experimentos ChIP-chip de levadura. Cada punto corresponde a la media (Panel a) o a la mediana (Panel b) de la precisión del rango percentil (PRA) de un método MEA en todos los conjuntos de datos ChIP-chip que contienen al menos una secuencia con un valor p de fluorescencia inferior al valor de t y (eje X). El aumento de los valores de X corresponde a la relajación del umbral para que una secuencia se considere ligada a un TF. A la derecha de la línea vertical, se incluyen todos los 237 conjuntos; a la izquierda, se incluyen cada vez menos conjuntos con umbrales t y más estrictos.

La versión YFP de Clover es claramente superior a los otros métodos en la identificación del motivo TF unido por ChIP en los 237 conjuntos de datos ChIP-chip de levadura (Fig. 1a). La precisión media (PRA, Ecuación 8) de todos los métodos aumenta con la disminución del umbral de partición de Y. A un umbral de t y = 0,001, el umbral de partición más pequeño que puede utilizarse con los 237 conjuntos de datos, Clover-YFP clasifica el TF correcto en el percentil 84 (PRA = 84,1), mientras que el siguiente mejor método (mHG-YFP) lo clasifica en el percentil 80 (PRA = 80,4), en promedio. La superioridad de Clover-YFP es aún más pronunciada en valores mayores del umbral de partición Y, pero la precisión absoluta de todos los métodos disminuye a medida que aumenta el umbral de partición (Fig. 1a).

La versión YFP del método Ranksum es claramente el peor de los métodos probados en los 237 conjuntos de datos ChIP-chip. Incluso bajo la métrica PRA mediana más indulgente, que pone menos énfasis en los conjuntos de datos en los que un método funciona extremadamente mal, Ranksum-YFP tiene una precisión sustancialmente menor que los otros métodos (Fig. 1b). Con un umbral de partición Y de t y = 0,001, la mediana del ARP de Ranksum-YFP es sólo de 96,0, mientras que es de 98,4 para los otros tres métodos MEA probados. Dado que tanto Clover-YFP como Ranksum-YFP utilizan AMA como función de afinidad del motivo (Tabla 1), la función de asociación de Clover es claramente mejor que la prueba de suma de rangos para MEA utilizando una partición Y fija, al menos en este tipo de datos de señales biológicas (ChIP-chip). Ninguna de las versiones de YFP de los métodos de MEA que probamos aquí funciona extremadamente bien en los 237 conjuntos de datos ChIP-chip de levadura. De hecho, ningún método sitúa el motivo de TF de ChIP entre los tres primeros motivos predichos para más del 60% de los conjuntos de datos ChIP-chip (datos no mostrados). Esto no es sorprendente, dado que Gordân et al. encontraron que en el 35% de los experimentos ChIP-chip ningún derivado de PBM (un método independiente e in vitro para determinar la especificidad de la secuencia del motivo) estaba significativamente enriquecido.

El método Clover-YFP es también más preciso que las variantes de maximización de la partición Y de los otros tres métodos MEA cuando se prueba sólo en los conjuntos de datos ChIP-chip de levadura que contienen valores p de fluorescencia por debajo de t y = 0,001 (resultados a la izquierda de la línea azul vertical en la Fig. 1a). Sin embargo, la diferencia relativa entre los métodos en términos de PRA medio disminuye con la disminución del umbral de partición de Y. Así, entre las variantes YFP de los métodos MEA, Clover-YFP parece ser el mejor enfoque para los datos ChIP-chip, y es especialmente ventajoso cuando los datos ChIP-chip tienen una baja relación señal-ruido (es decir, en los casos en los que ninguna sonda de microarrays tiene un valor p de fluorescencia bajo).

Métodos de maximización de partición sin restricciones

A partir de nuestros experimentos de partición fija, vemos que la precisión de los métodos MEA en la tarea de identificación de TF de ChIP-chip de levadura depende en gran medida de la elección del umbral del valor p de fluorescencia. En estos experimentos seguimos la práctica habitual y elegimos un único umbral para los 237 conjuntos de datos ChIP-chip. Nos preguntamos si sería ventajoso elegir un umbral diferente, dependiente de los datos, para cada conjunto de datos. Una forma de hacerlo automáticamente es considerar todos los umbrales posibles y elegir el que maximice la función de asociación (Ecuación 4). Este tipo de enfoque se ha investigado recientemente para las funciones de asociación Fisher y mHG para MEA y el descubrimiento de motivos, respectivamente. (Como discutiremos más adelante, esos dos estudios utilizaron formas de maximización de partición restringida en lugar de no restringida.)

La maximización de partición Y no restringida (YUPM) no logra mejorar las capacidades de los cuatro métodos MEA para identificar los TFs de levadura con ChIP en los 237 conjuntos de datos ChIP-chip (Fig. 2). En comparación con el uso del umbral Y fijo más pequeño, de forma que los 237 conjuntos de datos ChIP-chip tengan al menos una secuencia positiva (t y = 0,001), permitir que los métodos elijan el umbral de partición de acuerdo con la Ecuación 5 resulta en una precisión media sustancialmente menor (PRA medio). Por ejemplo, la versión YUPM de Clover (Clover-YUPM) tiene una PRA media de 67,19, en comparación con 84,15 cuando fijamos el umbral de Y en 0,001 (Clover-YFP). Esta es de hecho la mejor precisión media de cualquiera de los métodos YUPM en los 237 conjuntos de datos ChIP-chip de levadura. Curiosamente, el método MEA de Ranksum, además de ser el método más pobre cuando se utiliza YFP, es el que más disminuye su precisión cuando se utiliza YUPM.

Figura 2
figura2

Exactitud de los métodos MEA utilizando la maximización de la partición Y sin restricciones. Se muestra la capacidad de diferentes métodos MEA para clasificar correctamente el motivo TF conocido en 237 experimentos ChIP-chip de levadura. Se muestra la precisión media del rango percentil de las variantes de maximización de partición Y sin restricciones (YUPM, barras azules) y de partición fija (YFP, barras rojas, t y = 0,001) de cuatro métodos MEA. Las barras de error muestran el error estándar.

Las variantes YUPM de los métodos MEA consideran todas las particiones posibles de los datos ordenados según la señal biológica, Y. Al menos para los datos de ChIP-chip, queda claro en la Fig. 2 que elegir la partición Y que maximiza la función de asociación no es una buena idea. La inspección de los datos subyacentes a la Fig. 2 muestra que los motivos altamente clasificados (que no son el motivo correcto) a menudo tienen puntuaciones de asociación máximas para las particiones Y con números extremadamente grandes -mucho más grandes de lo que se esperaría a priori que el TF agrupara- de secuencias «positivas» (datos no mostrados). La mayoría de estas secuencias «positivas» tienen valores Y muy grandes y la gran puntuación de asociación se debe a una ligera correlación entre X (la puntuación de afinidad del motivo) e Y (el valor p de fluorescencia del ChIP-chip) en muchas secuencias. Las funciones de asociación son bastante buenas para detectar tales correlaciones, pero las correlaciones a menudo no son indicativas de la unión funcional del TF, como indica la menor precisión de las variantes YUPM de MEA en la Fig. 2.

Métodos de maximización de partición restringida

Como se mencionó anteriormente, los métodos de MEA de maximización de partición no restringida parecen funcionar mal en la tarea de identificación de TF de levadura debido a la elección de umbrales óptimos de Y (valor p de fluorescencia de ChIP-chip) correspondientes a conjuntos de secuencias «positivas» muy grandes. Esto puede explicar por qué los usos anteriores de la maximización de la partición para MEA y el descubrimiento de motivos han restringido a menudo el tamaño máximo del conjunto positivo. Por ejemplo, el algoritmo MEA PASTAA limita el tamaño del conjunto positivo a no más de 1000 secuencias. Del mismo modo, el algoritmo de descubrimiento de motivos DRIM , que se probó en los datos de ChIP-chip de levadura utilizados en el presente estudio, limita el conjunto positivo a un máximo de 300 secuencias por defecto, y a no más de 1000 secuencias. Ambas son sólo pequeñas fracciones del número total de secuencias (alrededor de 6000) en los conjuntos de datos ChIP-chip de levadura utilizados aquí.

Si restringimos nuestra variante de maximización de partición del método mHG a los umbrales Y que producen no más de 300 secuencias «positivas», la precisión media en la tarea de clasificación de TF de levadura es intermedia entre las variantes de maximización de partición fija y sin restricciones (Fig. 3). Así, en esta tarea, el tipo de maximización de partición restringida utilizado por DRIM no parece mejorar el uso de una partición fija correspondiente a la asignación de secuencias con valores p de fluorescencia inferiores a 0,001 al conjunto «positivo». Observamos que en los 237 conjuntos de datos ChIP-chip de levadura, el valor medio de Y para la secuencia número 300 (ordenada por Y creciente, valor p de fluorescencia) es de 0,04. Esto significa que limitar la partición de Y a 300 secuencias «positivas» permite que las secuencias con señales biológicas menos significativas (Y) se incluyan en el conjunto «positivo», en comparación con el umbral fijo de t y = 0,001 que utilizamos con el método mHG-YFP en la Fig. 3.

Figura 3
figura3

Exactitud del método mHG restringido a un máximo de 300 secuencias positivas. Se muestra la capacidad de tres variantes del método mHG para clasificar correctamente el motivo TF conocido en 237 experimentos ChIP-chip de levadura. Cada barra representa el ARP medio de las versiones de un método mHG. La barra etiquetada como mHG-YDRIM muestra la precisión utilizando la maximización de particiones, limitada a particiones con un máximo de 300 secuencias «positivas». Las otras dos barras muestran la precisión utilizando el método de partición fija con t y = 0,001 (mHG-YFP) y la maximización de la partición sin restricciones (mHG-YUPM), respectivamente.

Tal vez una forma más general de restringir los métodos de maximización de la partición es establecer la restricción en términos de la señal biológica Y, en lugar de como un número de secuencias «positivas». Este enfoque se describe en la Ecuación 5, donde ponemos un límite superior en el umbral Y, t y , pero no un límite inferior. (Es decir, definimos r y = para algún límite superior, b, en la Ecuación 5.) Esto limita efectivamente el tamaño máximo del conjunto de secuencias «positivas», pero de una manera que depende de los datos. En la aplicación actual, todas las secuencias con valores p de fluorescencia ChIP-chip menores que t y pueden incluirse en el conjunto «positivo», pero ninguna con valores p mayores.

La máxima precisión de las variantes de maximización de partición Y restringida de tres de los cuatro métodos MEA no es mejor que la de las variantes de partición fija en la tarea de identificación de motivos TF ChIP-chip de levadura (Fig. 4). Hay una ligera mejora en el peor método (Ranksum) cuando el límite superior de t y se establece en 0,001, pero sigue siendo el método menos preciso en esta tarea. A medida que aumentamos el valor de b (y, por tanto, el tamaño máximo del conjunto «positivo»), tanto la media como la mediana de la precisión del rango percentil de los cuatro métodos YCPM disminuyen. La mejor precisión de los métodos restringidos se consigue cuando el límite superior de t y es 0,001, el límite más pequeño posible para que los 237 conjuntos de datos ChIP-chip tengan al menos una secuencia «positiva».

Figura 4
figura4

Exactitud de los métodos MEA utilizando la maximización de particiones restringida. Se muestra la capacidad de diferentes métodos MEA para clasificar correctamente el motivo TF conocido en 237 experimentos ChIP-chip de levadura. Cada panel muestra la precisión de la maximización de partición restringida Y (YCPM) de un método, junto con la precisión de la variante de partición fija (YFP) para comparar. Cada punto muestra la media o la mediana del ARP (eje Y) del método MEA. Para los métodos YCPM, el eje X del gráfico es el valor máximo, b, que t y puede asumir; para los métodos YFP, es el umbral fijo del método, t y .

Sin embargo, las variantes MEA de maximización de partición Y restringida (YCPM) son más robustas que las variantes de partición fija (YFP). Ambas variantes tienen un parámetro libre que debe ser elegido por el usuario: el límite superior, b para las variantes YCPM, y el umbral fijo, t y , para las variantes YFP. De la Fig. 4 se desprende que las variantes YCPM son menos sensibles a la relajación del umbral máximo seleccionable para considerar un TF ligado a una secuencia (b) que las variantes YFP a la relajación del umbral absoluto para considerar un TF ligado a una secuencia, t y . Dado que el usuario no suele conocer la elección óptima del parámetro libre para ninguno de los dos métodos, esto supone una clara ventaja para las variantes de maximización de la partición Y restringida de los cuatro métodos MEA en comparación con las versiones de partición fija. Es más, la Fig. 4 muestra que las variantes YCPM siempre logran una precisión igual o mejor para un valor dado del parámetro libre (b) en comparación con las variantes YFP utilizando el mismo valor del parámetro libre (t y ). Por lo tanto, en la tarea estudiada aquí, las variantes MEA de maximización de partición Y restringida son claramente superiores a las variantes de partición fija.

Métodos MEA sin partición

La ventaja de las variantes MEA de maximización de partición restringida (en relación con las variantes de partición fija) radica en su relativa insensibilidad a la elección de un único parámetro libre. Sin embargo, un método de precisión comparable sin parámetros libres que el usuario deba elegir sería aún mejor. Las variantes de maximización de la partición sin restricciones no tienen parámetros libres, pero tienen un rendimiento muy pobre en la tarea actual, como mostramos anteriormente. Otro método MEA sin parámetros que estudiamos aquí es el método de regresión lineal (LR), que no divide las secuencias en conjuntos «positivos» y «negativos» utilizando la señal biológica Y. En su lugar, la función de asociación es la recíproca del error de la regresión lineal de Y y X.

Nuestro método MEA de regresión lineal (LR) sin parámetros logra una mayor precisión en la tarea de clasificación de motivos TF de levadura que cada uno de los otros cuatro métodos utilizando los valores óptimos de sus parámetros libres (Fig. 5). El método LR alcanza una precisión media de rango percentil de 87,57 en comparación con 84,15 para Clover-YFP, el segundo mejor método. Cabe destacar que se trata de una comparación injusta (con LR), ya que hemos «engañado» a Clover-YFP, mHG-YFP y Ranksum-YFP eligiendo el valor de su parámetro libre (t y ) que consigue la mayor precisión. Es probable que un usuario real de uno de estos otros métodos (o de las variantes más robustas de YCPM) no conozca el valor óptimo del parámetro, por lo que su precisión sería peor.

Figura 5
figura5

Exactitud de un método MEA sin particiones. Se muestra la capacidad de diferentes métodos MEA para clasificar correctamente el motivo TF conocido en 237 experimentos ChIP-chip de levadura. Cada barra muestra la PRA media del método MEA dado en los 237 conjuntos de datos ChIP-chip. Las barras de error muestran el error estándar. El método LR está libre de particiones. PASTAA utiliza la maximización de la partición limitada a X e Y con un máximo de 1000 secuencias en los conjuntos «positivos». Todos los métodos de partición fija (YFP) utilizan un umbral de t y = 0,001.

Como el método LR funcionó sorprendentemente bien, implementamos otro método sin parámetros, el coeficiente de correlación de rangos de Spearman. A diferencia de la regresión lineal, la correlación de rangos de Spearman no supone una relación lineal entre X e Y. Nuestro método de correlación de rangos de Spearman tuvo un rendimiento extremadamente pobre, alcanzando una precisión media de rango percentil de 69,46, la peor en esta comparación, y sustancialmente inferior a los métodos YFP.

Antes mencionamos que el método MEA PASTAA utiliza una forma de maximización de partición Y restringida. De hecho, realiza una maximización restringida tanto sobre X como sobre Y, utilizando una función de afinidad similar a AMA y a la función de asociación de la prueba exacta de Fisher. Cuando se aplica a la tarea de clasificación de TF, PASTAA (utilizando sus restricciones por defecto) se comporta mejor que todos los demás enfoques basados en particiones, excepto Clover (Fig. 5). Esto indica la robustez de PASTAA, ya que no optimizamos sus parámetros libres como hicimos en el caso de las variantes YFP de los otros métodos (incluyendo Clover). Sin embargo, en la tarea de clasificación de motivos TF de ChIP-chip de levadura, PASTAA logra una precisión sustancialmente menor en comparación con el método LR sin particiones ni parámetros que presentamos aquí.

Disponibilidad del software

Hemos publicado las dos herramientas de software desarrolladas en este estudio, y las hemos puesto a disposición en línea. AME (Analysis of Motif Enrichment) y RAMEN (Regression Analysis of Motif ENrichment) están disponibles para su descarga en http://bioinformatics.org.au/ame/. Tanto AME como RAMEN están disponibles como binarios para Mac OS X y Linux, con el código fuente disponible bajo petición. Ambas herramientas están licenciadas bajo la licencia MEME.

AME implementa los métodos de Fisher, mHG, Ranksum, regresión lineal (LR) y correlación de rangos de Spearman en los modos YFP y YUPM. Con un paso de análisis adicional, AME también puede utilizarse para YCPM. RAMEN implementa nuestro método LR sin parámetros y, además, admite el cálculo de valores p basados en permutaciones. Se puede encontrar una documentación más completa de AME y RAMEN en el sitio web.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.