Motif Enrichment Analysis: a unified framework and an evaluation on ChIP data

Fixed-partition methods

We onderzoeken eerst de nauwkeurigheid van de eenvoudigste MEA methoden die we in deze studie beschouwen, de YFP methoden. Deze methoden splitsen de inputgegevens in positieve en negatieve sets met behulp van een vaste drempel op het biologische signaal, Y. Vaste-partitie MEA methoden zijn uitgebreid gebruikt (bijv. ). We meten de nauwkeurigheid van vier YFP-methoden-Fisher-YFP, mHG-YFP, Ranksum-YFP en Clover-YFP-op de taak van het identificeren van de juiste TF motief in elk van de 237 gist ChIP-chip datasets. Het biologische signaal, Y, is de ChIP-chip fluorescentie p-waarde, en we lopen elke MEA methode met behulp van verschillende waarden van de vaste Y partitionering drempel, t y . De resultaten van dit experiment zijn weergegeven in Fig. 1. Merk op dat de resultaten aan de linkerkant van de verticale blauwe lijn in de figuur zijn voor steeds kleinere subsets van de 237 ChIP-chip datasets, omdat we negeren alle datasets waar de verdeling drempel op Y, t y , resulteert in een lege positieve set. De punten in de figuren met t y = 10-10 geven bijvoorbeeld resultaten voor de 57 ChIP-chip-datasets die ten minste één fluorescentie p-waarde van minder dan 10-10 bevatten.

Figuur 1
figuur 1

Nauwkeurigheid van MEA-methoden met vaste Y-partities. Het vermogen van verschillende MEA methoden om de juiste rang van de bekende TF motief in 237 gist ChIP-chip experimenten wordt getoond. Elk punt komt overeen met het gemiddelde (Paneel a) of de mediaan (Paneel b) percentiel rang nauwkeurigheid (PRA) van een MEA methode op alle ChIP-chip datasets die ten minste een sequentie met een fluorescentie p-waarde lager dan de waarde van t y (X-as) bevatten. Toenemende X-waarden komen overeen met het versoepelen van de drempel voor een sequentie om te worden beschouwd als gebonden door een TF. Aan de rechterkant van de verticale lijn, zijn alle 237 sets zijn opgenomen; aan de linkerkant, steeds minder sets zijn opgenomen bij strengere t y drempels.

De YFP-versie van Clover is duidelijk superieur aan de andere methoden bij het identificeren van de ChIP-ed TF motief in alle 237 gist ChIP-chip datasets (Fig. 1a). De gemiddelde nauwkeurigheid (PRA, Eqn. 8) van alle methoden neemt toe met afnemende Y partitie drempel. Bij een drempel van t y = 0,001, de kleinste partitie drempel die kan worden gebruikt met alle 237 datasets, Clover-YFP rangschikt de juiste TF in de 84e percentiel (PRA = 84,1), terwijl de volgende beste methode (mHG-YFP) rangschikt het in de 80e percentiel (PRA = 80,4), op het gemiddelde. De superioriteit van Klaver-YFP is nog meer uitgesproken bij grotere waarden van de Y-partitiedrempel, maar de absolute nauwkeurigheid van alle methoden neemt af naarmate de partitiedrempel toeneemt (Fig. 1a).

De YFP-versie van de Ranksum-methode is duidelijk de slechtste van de geteste methoden op alle 237 ChIP-chip datasets. Zelfs onder de meer vergevingsgezinde mediane PRA metriek, die minder nadruk legt op datasets waar een methode extreem slecht presteert, heeft Ranksum-YFP een aanzienlijk lagere nauwkeurigheid dan de andere methoden (Fig. 1b). Bij een Y-partitiedrempel van t y = 0,001 is de mediane PRA voor Ranksum-YFP slechts 96,0, terwijl dat 98,4 is voor de drie andere geteste MEA-methoden. Aangezien zowel Clover-YFP en Ranksum-YFP gebruik maken van AMA als het motief affiniteit functie (tabel 1), Clover’s associatie functie is duidelijk beter dan de rang-sum test voor MEA met behulp van een vaste Y partitie, althans op dit type van biologische signaalgegevens (ChIP-chip). Geen van de YFP-versies van de MEA methoden die we hier testen presteren extreem goed op alle 237 gist ChIP-chip datasets. In feite plaatst geen enkele methode het gechIP-ed TF motief in de top drie van voorspelde motieven voor meer dan 60% van de ChIP-chip datasets (data niet weergegeven). Dit is niet verwonderlijk, gezien het feit dat Gordân et al. vonden dat in 35% van de ChIP-chip experimenten geen PBM-afgeleide (een onafhankelijke, in vitro methode voor het bepalen van motief sequentie specificiteit) significant was verrijkt.

De Clover-YFP methode is ook nauwkeuriger dan de Y partitie maximalisatie varianten van de andere drie MEA methoden wanneer alleen getest op de gist ChIP-chip datasets die fluorescentie p-waarden onder t y = 0,001 bevatten (resultaten links van de verticale blauwe lijn in Fig. 1a). Echter, het relatieve verschil tussen de methoden in termen van gemiddelde PRA neemt af met dalende Y partitie drempel. Dus, onder YFP varianten van de MEA methoden, Clover-YFP lijkt de beste aanpak voor ChIP-chip data, en is vooral voordelig wanneer de ChIP-chip data heeft een lage signaal-ruisverhouding (dat wil zeggen, in gevallen waarin geen microarray probe heeft een lage fluorescentie p-waarde).

Unconstrained partitie maximalisatie methoden

We zien uit onze vaste-partitie experimenten dat de nauwkeurigheid van MEA methoden op de gist ChIP-chip TF identificatie taak sterk afhankelijk is van de keuze van fluorescentie p-waarde drempel. In deze experimenten volgen we de gangbare praktijk en kiezen een enkele drempel voor alle 237 ChIP-chip datasets. We vroegen ons af of het voordelig zou zijn om voor elke dataset een andere, data-afhankelijke drempelwaarde te kiezen. Een manier om dit automatisch te doen is alle mogelijke drempelwaarden te beschouwen en die drempelwaarde te kiezen die de associatiefunctie (Eqn. 4) maximaliseert. Een dergelijke aanpak is onlangs onderzocht voor de Fisher en mHG associatiefuncties voor respectievelijk MEA en motif discovery. (Zoals we later bespreken, die twee studies gebruikt vormen van beperkte in plaats van ongedwongen partitie maximalisatie.)

Ongedwongen Y partitie maximalisatie (YUPM) niet in geslaagd om alle vier MEA methoden ‘capaciteiten om de ChIP-ed gist TF’s te identificeren in de 237 ChIP-chip datasets (Fig. 2) te verbeteren. Vergeleken met het gebruik van de kleinste vaste Y drempel, zodat alle 237 ChIP-chip datasets ten minste een positieve sequentie (t y = 0,001) hebben, waardoor de methoden om de partitie drempel te kiezen volgens Eqn. 5 resulteert in aanzienlijk lagere gemiddelde nauwkeurigheid (gemiddelde PRA). Bijvoorbeeld, de YUPM-versie van Clover (Clover-YUPM) heeft een gemiddelde PRA van 67,19, vergeleken met 84,15 wanneer we de Y-drempel op 0,001 vastleggen (Clover-YFP). Dit is in feite de beste gemiddelde nauwkeurigheid van een van de YUPM-methoden op de 237 gist ChIP-chip datasets. Interessant is dat de Ranksum MEA-methode, in aanvulling op de slechtste methode bij het gebruik van YFP, daalt het meest in nauwkeurigheid wanneer YUPM wordt gebruikt.

Figuur 2

Nauwkeurigheid van MEA methoden met behulp van ongedwongen- Y -partitie-maximalisatie. Het vermogen van verschillende MEA-methoden om de juiste rangschikking van de bekende TF motief in 237 gist ChIP-chip experimenten wordt getoond. De gemiddelde percentiel rang nauwkeurigheid van ongedwongen-Y-partitie-maximalisatie (YUPM, blauwe balken) en vaste-verdeling (YFP, rode balken, t y = 0,001) varianten van vier MEA methoden wordt getoond. Foutbalken tonen standaard error.

De YUPM varianten van de MEA methoden overwegen elke mogelijke partitionering van de gegevens gesorteerd op basis van het biologische signaal, Y. Tenminste voor ChIP-chip data, is het duidelijk uit Fig. 2 dat het kiezen van de Y partitie die de associatie functie maximaliseert is geen goed idee. Inspectie van de data die ten grondslag liggen aan Fig. 2 toont aan dat hoog gerangschikte motieven (andere dan het correcte motief) vaak maximale associatiescores hebben voor Y partities met extreem grote aantallen – veel groter dan de TF a priori zou verwachten – “positieve” sequenties (data niet getoond). De meeste van deze “positieve” sequenties hebben zeer grote Y-waarden en de grote associatiescore is te wijten aan een lichte correlatie tussen X (de affiniteitsscore van het motief) en Y (de ChIP-chip fluorescentie p-waarde) over vele sequenties. De associatie functies zijn vrij goed in het detecteren van dergelijke correlaties, maar de correlaties zijn vaak niet indicatief voor functionele binding van de TF, zoals aangegeven door de lagere nauwkeurigheid van de YUPM varianten van MEA in Fig. 2.

Beperkte partitie maximalisatie methoden

Zoals hierboven vermeld, de ongedeelde partitie maximalisatie MEA methoden lijken slecht te presteren op de gist TF identificatie taak als gevolg van het kiezen van optimale Y (ChIP-chip fluorescentie p-waarde) drempels die overeenkomen met zeer grote “positieve” sets van sequenties. Dit kan verklaren waarom eerdere toepassingen van partitie maximalisatie voor MEA en motief ontdekking hebben vaak beperkt de maximale grootte van de positieve set. Bijvoorbeeld, de MEA algoritme PASTAA beperkt de grootte van de positieve set tot niet meer dan 1000 sequenties. Ook het motief ontdekking algoritme DRIM , die werd getest op de gist ChIP-chip data gebruikt in de huidige studie, beperkt de positieve set op ten hoogste 300 sequenties standaard, en niet meer dan 1000 sequenties. Dit zijn beide slechts kleine fracties van het totale aantal sequenties (ongeveer 6000) in de gist ChIP-chip datasets hier gebruikt.

Als we onze partitie maximalisatie variant van de mHG methode te beperken tot Y drempels die niet meer dan 300 “positieve” sequenties opleveren, de gemiddelde nauwkeurigheid op de gist TF ranking taak ligt tussen de vaste partitie en ongedwongen partitie maximalisatie varianten (Fig. 3). Dus, op deze taak, het type van de beperkte partitie maximalisatie gebruikt door DRIM lijkt niet te verbeteren op het gebruik van een vaste partitie die overeenkomt met het toewijzen van sequenties met fluorescentie p-waarden minder dan 0,001 aan de “positieve” set. We merken op dat in de 237 gist ChIP-chip datasets, de gemiddelde waarde van Y voor de 300ste sequentie (gesorteerd op toenemende Y, fluorescentie p-waarde) 0,04 is. Dit betekent dat door de Y-verdeling te beperken tot 300 “positieve” sequenties sequenties met minder significante biologische signalen (Y) kunnen worden opgenomen in de “positieve” set, vergeleken met de vaste drempel van t y = 0,001 die we gebruiken met de methode mHG-YFP in Fig. 3.

Figuur 3
figure3

Nauwkeurigheid van de mHG-methode beperkt tot ten hoogste 300 positieve sequenties. Het vermogen van drie varianten van de mHG-methode om correct de rangorde van de bekende TF motief in 237 gist ChIP-chip experimenten wordt getoond. Elke balk vertegenwoordigt de gemiddelde PRA van varianten van een MEA-methode. De balk met het label mHG-YDRIM toont de nauwkeurigheid met behulp van partitie maximalisatie, beperkt tot partities met een maximum van 300 “positieve” sequenties. De andere twee balken tonen de nauwkeurigheid met behulp van de vaste partitie methode met t y = 0,001 (mHG-YFP) en en niet-beperkte partitie maximalisatie (mHG-YUPM), respectievelijk.

Misschien een meer algemene manier om de partitie maximalisatie methoden te beperken is om de beperking in termen van het biologische signaal Y, in plaats van als een aantal “positieve” sequenties. Deze benadering wordt beschreven door Eqn. 5, waarin we een bovengrens stellen aan de drempelwaarde voor Y, t y , maar geen ondergrens. (Dat wil zeggen, we definiëren r y = voor een bovengrens, b, in Eqn. 5.) Dit beperkt effectief de maximumgrootte van de “positieve” sequentieset, maar op een data-afhankelijke manier. In de huidige toepassing kunnen alle sequenties met ChIP-chip fluorescentie p-waarden kleiner dan t y worden opgenomen in de “positieve” set, maar geen met grotere p-waarden.

De maximale nauwkeurigheid van de beperkte Y partitie maximalisatie varianten van drie van de vier MEA methoden is niet beter dan die van de vaste partitie varianten op de gist ChIP-chip TF motief identificatie taak (Fig. 4). Er is een lichte verbetering in de slechtste methode (Ranksum) wanneer de bovengrens op t y is ingesteld op 0,001, maar het blijft de minst nauwkeurige methode op deze taak. Als we de waarde van b (en dus de maximale grootte van de “positieve” verzameling) verhogen, dalen zowel de gemiddelde als de mediane percentielrangnauwkeurigheid van alle vier YCPM-methoden. De beste nauwkeurigheid voor de beperkte methoden wordt bereikt wanneer de bovengrens voor t y 0,001 is, de kleinst mogelijke grens zodat alle 237 ChIP-chip-datasets ten minste één “positieve” sequentie hebben.

Figuur 4
figuur 4

Nauwkeurigheid van MEA-methoden met behulp van beperkte partitie-maximalisatie. Het vermogen van verschillende MEA methoden om correct te rangschikken de bekende TF motief in 237 gist ChIP-chip experimenten wordt getoond. Elk paneel toont de nauwkeurigheid van de Y constrained partitie maximalisatie (YCPM) van een methode, samen met de vaste partitie (YFP) variant van de nauwkeurigheid ter vergelijking. Elk punt toont de gemiddelde of mediane PRA (Y-as) van de MEA methode. Voor YCPM-methoden is de X-as van de plot de maximale waarde, b, die t y mag aannemen; voor YFP-methoden is dit de vaste drempelwaarde van de methode, t y .

De constrained Y partition maximization (YCPM) MEA-varianten zijn echter robuuster dan de vaste partitie (YFP)-varianten. Beide varianten hebben één vrije parameter die door de gebruiker moet worden gekozen – de bovengrens, b voor de YCPM varianten, en de vaste drempel, t y , voor de YFP varianten. Uit fig. 4 blijkt duidelijk dat de YCPM-varianten minder gevoelig zijn voor de versoepeling van de maximaal te kiezen drempelwaarde om een TF te beschouwen die aan een sequentie is gebonden (b) dan de YFP-varianten voor de versoepeling van de absolute drempelwaarde om een TF te beschouwen die aan een sequentie is gebonden, t y . Aangezien de gebruiker in het algemeen bij geen van beide methoden de optimale keuze voor de vrije parameter zal kennen, is dit een duidelijk voordeel voor de constrained Y partition maximization-varianten van de vier MEA-methoden ten opzichte van de vaste partitie-versies. Bovendien laat Fig. 4 zien dat de YCPM varianten altijd een gelijke of betere nauwkeurigheid bereiken voor een gegeven waarde van de vrije parameter (b) in vergelijking met de YFP varianten die dezelfde vrije parameterwaarde (t y ) gebruiken. Vandaar dat, op de taak die hier is bestudeerd, de constrained Y partition maximization MEA varianten duidelijk superieur zijn aan de fixed partition varianten.

Partition-free MEA methods

Het voordeel van de constrained partition maximization MEA varianten (ten opzichte van de fixed partition varianten) ligt in hun relatieve ongevoeligheid voor de keuze van een enkele vrije parameter. Een methode van vergelijkbare nauwkeurigheid zonder vrije parameters die de gebruiker moet kiezen, zou echter nog beter zijn. De onbeperkte partitie-maximalisatie varianten hebben geen vrije parameters, maar presteren zeer slecht op de huidige taak, zoals we hierboven laten zien. Een andere parametervrije MEA-methode die we hier bestuderen is de lineaire regressie (LR) methode, die de sequenties niet in “positieve” en “negatieve” sets verdeelt met behulp van het biologische signaal Y. In plaats daarvan is de associatiefunctie de reciproke van de fout van de lineaire regressie van Y en X.

Onze parametervrije lineaire regressie (LR) MEA-methode bereikt een hogere nauwkeurigheid op de gist TF motief rangschikking taak dan elk van de andere vier methoden met behulp van de optimale waarden van hun vrije parameters (Fig. 5). De LR-methode bereikt een gemiddelde percentiel rang nauwkeurigheid van 87.57 in vergelijking met 84.15 voor Clover-YFP, de tweede beste methode. Benadrukt moet worden dat dit een oneerlijke vergelijking is (met LR), aangezien we bij Clover-YFP, mHG-YFP en Ranksum-YFP hebben “valsgespeeld” door de waarde van hun vrije parameter (t y ) te kiezen waarmee de hoogste nauwkeurigheid wordt bereikt. Het is waarschijnlijk dat een daadwerkelijke gebruiker van een van deze andere methoden (of de meer robuuste YCPM-varianten) de optimale parameterwaarde niet zou kennen, zodat hun nauwkeurigheid slechter zou zijn.

Figuur 5
figuur 5

Nauwkeurigheid van een partitievrije MEA-methode. Het vermogen van verschillende MEA methode om correct te rangschikken de bekende TF motief in 237 gist ChIP-chip experimenten wordt getoond. Elke balk toont de gemiddelde PRA van de gegeven MEA methode op alle 237 ChIP-chip datasets. Foutbalkjes tonen standaardfout. De LR methode is partitie vrij. PASTAA maakt gebruik van X-en Y-beperkte partitie maximalisatie met een maximum van 1000 sequenties in de “positieve” sets. Alle methoden met vaste partities (YFP) gebruiken een drempel van t y = 0,001.

Aangezien de LR-methode opvallend goed presteerde, hebben we een andere parametervrije methode geïmplementeerd, de rangcorrelatiecoëfficiënt van Spearman. In tegenstelling tot lineaire regressie veronderstelt Spearman’s rangcorrelatie geen lineair verband tussen X en Y. Onze Spearman’s rangcorrelatiemethode presteerde uiterst slecht, met een gemiddelde percentielrangnauwkeurigheid van 69,46, de slechtste in deze vergelijking, en aanzienlijk lager dan de YFP-methoden.

Eerder hebben we vermeld dat de MEA-methode PASTAA een vorm van beperkte Y-partitiemaximalisatie gebruikt. In feite voert het een beperkte maximalisatie uit over zowel X als Y, met behulp van een affiniteitsfunctie vergelijkbaar met AMA en de Fisher Exact Test associatiefunctie. Wanneer toegepast op de TF ranking taak, presteert PASTAA (met de standaard beperkingen) beter dan alle andere partitie-gebaseerde benaderingen behalve Clover (Fig. 5). Dit geeft de robuustheid van PASTAA, omdat we niet optimaliseren van de vrije parameters zoals we deden in het geval van de YFP varianten van de andere methoden (inclusief Clover). Niettemin, op de gist ChIP-chip TF motief ranking taak, PASTAA bereikt aanzienlijk lagere nauwkeurigheid in vergelijking met de partitie- en parameter-vrije LR methode die we hier introduceren.

Software Beschikbaarheid

We hebben de twee software tools ontwikkeld in deze studie, en maakte ze online beschikbaar. AME (Analysis of Motif Enrichment) en RAMEN (Regression Analysis of Motif ENrichment) zijn beide beschikbaar voor download van http://bioinformatics.org.au/ame/. Zowel AME als RAMEN zijn beschikbaar als binaries voor Mac OS X en Linux, met broncode beschikbaar op aanvraag. Beide tools zijn gelicentieerd onder de MEME licentie.

AME implementeert de Fisher, mHG, Ranksum, lineaire regressie (LR), en spearman’s rang correlatie methoden in YFP en YUPM modes. Met een extra analysestap kan AME ook voor YCPM worden gebruikt. RAMEN implementeert onze parametervrije LR-methode en ondersteunt bovendien de berekening van permutatiegebaseerde p-waarden. Meer volledige documentatie voor AME en RAMEN is te vinden op de website.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.