Motif Enrichment Analysis: a unified framework and an evaluation on ChIP data

Fixed-partition metoder

Vi undersøger først nøjagtigheden af de enkleste MEA-metoder, som vi overvejer i denne undersøgelse, YFP-metoderne. Disse metoder opdeler inputdataene i positive og negative sæt ved hjælp af en fast tærskelværdi for det biologiske signal, Y. MEA-metoder med fast fordeling er blevet anvendt i vid udstrækning (f.eks.) Vi måler nøjagtigheden af fire YFP-metoder-Fisher-YFP, mHG-YFP, Ranksum-YFP og Clover-YFP – på opgaven med at identificere det korrekte TF-motiv i hvert af de 237 ChIP-chip-datasæt fra gær. Det biologiske signal, Y, er ChIP-chip-fluorescens p-værdien, og vi kører hver MEA-metode ved hjælp af forskellige værdier af den faste Y-partitioneringstærskel, t y . Resultaterne af dette eksperiment er vist i fig. 1. Bemærk, at resultaterne til venstre for den lodrette blå linje i figuren er for stadig mindre delmængder af de 237 ChIP-chip-datasæt, da vi ignorerer alle datasæt, hvor partitioneringstærsklen for Y, t y , resulterer i et tomt positivt sæt. F.eks. giver punkterne i figurerne med t y = 10-10 resultater for de 57 ChIP-chip-datasæt, der indeholder mindst én fluorescens-p-værdi på mindre end 10-10.

Figur 1
figur1

Nøjagtighed af MEA-metoder ved hjælp af faste Y-partitioner. De forskellige MEA-metoders evne til korrekt at rangordne det kendte TF-motiv i 237 ChIP-chip-forsøg med gær er vist. Hvert punkt svarer til den gennemsnitlige (panel a) eller den mediane (panel b) percentil rangnøjagtighed (PRA) for en MEA-metode på alle ChIP-chip-datasæt, der indeholder mindst én sekvens med en fluorescens-p-værdi mindre end værdien af t y (X-akse). Stigende X-værdier svarer til en lempelse af tærsklen for, at en sekvens anses for at være bundet af en TF. Til højre for den lodrette linje er alle 237 sæt inkluderet; til venstre er stadig færre sæt inkluderet ved strengere t y-tærskler.

YFP-versionen af Clover er klart overlegen i forhold til de andre metoder ved identifikation af det ChIP-ed TF-motiv i alle 237 ChIP-chip-datasæt for gær (Fig. 1a). Den gennemsnitlige nøjagtighed (PRA, Eqn. 8) for alle metoderne stiger med faldende Y-partitionstærskel. Ved en tærskelværdi på t y = 0,001, den mindste partitionstærskelværdi, der kan anvendes med alle 237 datasæt, placerer Clover-YFP den korrekte TF i 84. percentil (PRA = 84,1), mens den næstbedste metode (mHG-YFP) placerer den i 80. percentil (PRA = 80,4) i gennemsnit. Clover-YFP’s overlegenhed er endnu mere udtalt ved større værdier af Y-partitionstærsklen, men den absolutte nøjagtighed for alle metoder falder, efterhånden som partitionstærsklen stiger (fig. 1a).

YFP-versionen af Ranksum-metoden er klart den dårligste af de metoder, der er testet på alle 237 ChIP-chip-datasæt. Selv under den mere tilgivende median PRA-metrik, som lægger mindre vægt på datasæt, hvor en metode klarer sig ekstremt dårligt, har Ranksum-YFP en væsentlig lavere nøjagtighed end de andre metoder (fig. 1b). Ved en Y-partitionstærskel på t y = 0,001 er median-PRA for Ranksum-YFP kun 96,0, mens den er 98,4 for de tre andre testede MEA-metoder. Da både Clover-YFP og Ranksum-YFP anvender AMA som motivaffinitetsfunktion (tabel 1), er Clovers associeringsfunktion klart bedre end rangsummetesten for MEA ved hjælp af en fast Y-partition, i det mindste på denne type biologiske signaldata (ChIP-chip). Ingen af YFP-versionerne af de MEA-metoder, som vi tester her, klarer sig ekstremt godt på alle 237 ChIP-chip-datasæt for gær. Faktisk placerer ingen metode det ChIP-ede TF-motiv blandt de tre bedste forudsagte motiver for mere end 60 % af ChIP-chip-datasættene (data ikke vist). Dette er ikke overraskende, da Gordân et al. fandt, at i 35 % af ChIP-chip-eksperimenterne var ingen PBM-afledt (en uafhængig in vitro-metode til bestemmelse af motivsekvensspecificitet) signifikant beriget.

Metoden Clover-YFP er også mere præcis end Y-partitionsmaksimeringsvarianterne af de tre andre MEA-metoder, når den kun testes på de gær ChIP-chip-datasæt, der indeholder fluorescens p-værdier under t y = 0,001 (resultater til venstre for den lodrette blå linje i Fig. 1a). Den relative forskel mellem metoderne med hensyn til den gennemsnitlige PRA falder imidlertid med faldende Y-partitionstærskel. Blandt YFP-varianter af MEA-metoderne synes Clover-YFP således at være den bedste metode til ChIP-chip-data, og den er især fordelagtig, når ChIP-chip-dataene har et lavt signal/støj-forhold (dvs, i tilfælde, hvor ingen mikroarray-sonde har en lav fluorescens-p-værdi).

Ubesværede partitionsmaksimeringsmetoder

Vi ser fra vores eksperimenter med faste partitioner, at MEA-metodernes nøjagtighed på ChIP-chip TF-identifikationsopgaven i gær afhænger stærkt af valget af tærskelværdien for fluorescens-p-værdi. I disse eksperimenter følger vi almindelig praksis og vælger en enkelt tærskelværdi for alle 237 ChIP-chip-datasæt. Vi spurgte os selv, om det ville være en fordel at vælge en anden, dataafhængig tærskelværdi for hvert datasæt. En måde at gøre dette automatisk på er at overveje alle mulige tærskelværdier og vælge den tærskelværdi, der maksimerer associeringsfunktionen (Eqn. 4). Denne type tilgang er for nylig blevet undersøgt for Fisher- og mHG-associeringsfunktionerne for henholdsvis MEA og motivopdagelse. (Som vi diskuterer senere, brugte disse to undersøgelser former for begrænset snarere end ubegrænset partitionsmaksimering).)

Ubegrænset Y-partitionsmaksimering (YUPM) formår ikke at forbedre alle fire MEA-metoders evner til at identificere de ChIP-ed gær-TF’er i de 237 ChIP-chip datasæt (Fig. 2). Sammenlignet med anvendelse af den mindste faste Y-tærskel, således at alle 237 ChIP-chip-datasæt har mindst én positiv sekvens (t y = 0,001), resulterer det i væsentlig lavere gennemsnitlig nøjagtighed (gennemsnitlig PRA), hvis metoderne får mulighed for at vælge partitionstærsklen i henhold til Eqn. 5. F.eks. har YUPM-versionen af Clover (Clover-YUPM) en gennemsnitlig PRA på 67,19 sammenlignet med 84,15, når vi fastsætter Y-grænseværdien til 0,001 (Clover-YFP). Dette er faktisk den bedste gennemsnitlige nøjagtighed for nogen af YUPM-metoderne på de 237 ChIP-chip-datasæt for gær. Det er interessant, at Ranksum MEA-metoden, ud over at være den dårligste metode, når der anvendes YFP, falder mest i nøjagtighed, når YUPM anvendes.

Figur 2
figur2

Nøjagtighed af MEA-metoder ved hjælp af ubegrænset- Y -partition-maksimering. De forskellige MEA-metoders evne til korrekt at rangordne det kendte TF-motiv i 237 ChIP-chip-eksperimenter med gær er vist. Den gennemsnitlige percentilrangnøjagtighed af ubegrænset Y-partitionsmaksimering (YUPM, blå søjler) og fixed-partition (YFP, røde søjler, t y = 0,001) varianter af fire MEA-metoder er vist. Fejlbjælker viser standardfejl.

YUPM-varianterne af MEA-metoderne overvejer alle mulige partitioneringer af dataene sorteret efter det biologiske signal, Y. I det mindste for ChIP-chip-data fremgår det klart af fig. 2, at det ikke er en god idé at vælge den Y-partition, der maksimerer associeringsfunktionen. En inspektion af de data, der ligger til grund for Fig. 2, viser, at højt rangerede motiver (bortset fra det korrekte motiv) ofte har maksimale associationsscorer for Y-partitioner med ekstremt store antal – langt større end TF på forhånd ville forventes at binde – af “positive” sekvenser (data ikke vist). De fleste af disse “positive” sekvenser har meget store Y-værdier, og den store associationsscore skyldes en svag korrelation mellem X (motivaffinitetsscore) og Y (ChIP-chip-fluorescens-p-værdien) over mange sekvenser. Associeringsfunktionerne er ret gode til at detektere sådanne korrelationer, men korrelationerne er ofte ikke tegn på funktionel binding af TF’en, som det fremgår af den lavere nøjagtighed af YUPM-varianterne af MEA i fig. 2.

Begrænsede partitionsmaksimeringsmetoder

Som nævnt ovenfor synes de ubegrænsede partitionsmaksimerings-MEA-metoder at præstere dårligt på opgaven med identifikation af TF i gær på grund af valg af optimale Y (ChIP-chip fluorescens p-værdi) tærskler svarende til meget store “positive” sæt af sekvenser. Dette kan forklare, hvorfor tidligere anvendelser af partitionsmaksimering til MEA og motivopdagelse ofte har begrænset den maksimale størrelse af det positive sæt. F.eks. begrænser MEA-algoritmen PASTAA størrelsen af det positive sæt til ikke mere end 1000 sekvenser. På samme måde begrænser motivopdagelsesalgoritmen DRIM , som blev testet på de ChIP-chip-data fra gær, der blev anvendt i den aktuelle undersøgelse, som standard det positive sæt til højst 300 sekvenser og ikke mere end 1000 sekvenser. Disse er begge kun små brøkdele af det samlede antal sekvenser (ca. 6000) i de her anvendte yeast ChIP-chip-datasæt.

Hvis vi begrænser vores partitionmaksimeringsvariant af mHG-metoden til Y-tærskler, der ikke giver mere end 300 “positive” sekvenser, ligger den gennemsnitlige nøjagtighed på gær-TF-rangeringsopgaven midt imellem den faste partition og den ubegrænsede partitionmaksimeringsvariant (Fig. 3). På denne opgave synes den type af begrænset partitionsmaksimering, der anvendes af DRIM, således ikke at være bedre end brugen af en fast partition, der svarer til at tildele sekvenser med fluorescens-p-værdier på mindre end 0,001 til det “positive” sæt. Vi bemærker, at i de 237 ChIP-chip-datasæt for gær er den gennemsnitlige værdi af Y for den 300. sekvens (sorteret efter stigende Y, fluorescens-p-værdi) 0,04. Det betyder, at en begrænsning af Y-partitionen til 300 “positive” sekvenser gør det muligt at medtage sekvenser med mindre signifikante biologiske signaler (Y) i det “positive” sæt sammenlignet med den faste tærskel på t y = 0,001, som vi anvender med metoden mHG-YFP i fig. 3.

Figur 3
figure3

Nøjagtighed af mHG-metoden begrænset til højst 300 positive sekvenser. Evnen hos tre varianter af mHG-metoden til korrekt at rangordne det kendte TF-motiv i 237 ChIP-chip-eksperimenter med gær er vist. Hver søjle repræsenterer den gennemsnitlige PRA for versioner af en mHG-metode. Søjlen mærket mHG-YDRIM viser nøjagtigheden ved hjælp af partitionsmaksimering, begrænset til partitioner med højst 300 “positive” sekvenser. De to andre søjler viser nøjagtigheden ved hjælp af henholdsvis den faste partitionsmetode med t y = 0,001 (mHG-YFP) og og ubegrænset partitionsmaksimering (mHG-YUPM).

Måske er en mere generel måde at begrænse partitionsmaksimeringsmetoderne på at angive begrænsningen i form af det biologiske signal Y i stedet for som et antal “positive” sekvenser. Denne fremgangsmåde beskrives ved Eqn. 5, hvor vi sætter en øvre grænse for Y-grænsen, t y , men ingen nedre grænse. (Det vil sige, at vi definerer r y = for en eller anden øvre grænse, b, i Eqn. 5.) Dette begrænser effektivt den maksimale størrelse af det “positive” sekvenssæt, men på en dataafhængig måde. I den nuværende anvendelse kan alle sekvenser med ChIP-chip fluorescens p-værdier mindre end t y indgå i det “positive” sæt, men ingen med større p-værdier.

Den maksimale nøjagtighed af de begrænsede Y-partitionsmaksimeringsvarianter af tre ud af fire MEA-metoder er ikke bedre end de faste partitionsvarianter på ChIP-chip TF-motividentifikationsopgaven for gær ChIP-chip TF-motividentifikation (Fig. 4). Der er en lille forbedring i den dårligste metode (Ranksum), når den øvre grænse for t y sættes til 0,001, men den er stadig den mindst nøjagtige metode på denne opgave. Efterhånden som vi øger værdien af b (og dermed den maksimale størrelse af det “positive” sæt), falder både den gennemsnitlige og mediane percentilrangnøjagtighed for alle fire YCPM-metoder. Den bedste nøjagtighed for de begrænsede metoder opnås, når den øvre grænse for t y er 0,001, den mindste mulige grænse, for at alle 237 ChIP-chip-datasæt har mindst én “positiv” sekvens.

Figur 4
figur4

Nøjagtighed af MEA-metoder ved hjælp af begrænset partitionsmaksimering. De forskellige MEA-metoders evne til korrekt at rangordne det kendte TF-motiv i 237 ChIP-chip-eksperimenter med gær er vist. Hvert panel viser nøjagtigheden af Y constrained partition maximization (YCPM) af en metode sammen med den faste partition (YFP)-variants nøjagtighed til sammenligning. Hvert punkt viser den gennemsnitlige eller mediane PRA (Y-akse) for MEA-metoden. For YCPM-metoder er X-aksen på plottet den maksimale værdi, b, som t y kan antage; for YFP-metoder er det metodens faste tærskelværdi, t y .

Den begrænsede Y-partitionsmaksimering (YCPM) MEA-varianter er imidlertid mere robuste end varianterne med fast partition (YFP). Begge varianter har én fri parameter, som skal vælges af brugeren – den øvre grænse, b for YCPM-varianterne, og den faste tærskel, t y , for YFP-varianterne. Det fremgår klart af figur 4, at YCPM-varianterne er mindre følsomme over for en lempelse af den maksimale tærskel, der kan vælges for at overveje en TF-binding til en sekvens (b), end YFP-varianterne er over for en lempelse af den absolutte tærskel for at overveje en TF-binding til en sekvens, t y . Da brugeren normalt ikke kender det optimale valg af den frie parameter for nogen af metoderne, er dette en klar fordel for de fire MEA-metoders begrænsede Y-partitionsmaksimeringsvarianter af de fire MEA-metoder sammenlignet med versionerne med fast partition. Desuden viser fig. 4, at YCPM-varianterne altid opnår samme eller bedre nøjagtighed for en given værdi af den frie parameter (b) sammenlignet med YFP-varianterne med den samme værdi af den frie parameter (t y ). På den opgave, der er undersøgt her, er de begrænsede Y-partitionsmaksimerings-MEA-varianter således klart overlegne i forhold til de faste partitionsvarianter.

Partitionsfrie MEA-metoder

Førdelen ved de begrænsede partitionsmaksimerings-MEA-varianter (i forhold til de faste partitionsvarianter) ligger i deres relative ufølsomhed over for valget af en enkelt fri parameter. En metode med tilsvarende nøjagtighed uden frie parametre, som brugeren skal vælge, ville dog være endnu bedre. De ubegrænsede partitionsmaksimeringsvarianter har ingen frie parametre, men klarer sig meget dårligt på den aktuelle opgave, som vi viser ovenfor. En anden parameterfri MEA-metode, som vi undersøger her, er den lineære regressionsmetode (LR), som ikke opdeler sekvenserne i “positive” og “negative” sæt ved hjælp af det biologiske signal Y. I stedet er associeringsfunktionen det reciprokke af fejlen af den lineære regression af Y og X.

Vores parameterfri lineær regressionsmetode (LR) MEA-metode opnår en højere nøjagtighed på opgaven med rangordning af TF-motiver i gær end hver af de fire andre metoder ved hjælp af de optimale værdier af deres frie parametre (fig. 5). LR-metoden opnår en gennemsnitlig percentilrangnøjagtighed på 87,57 sammenlignet med 84,15 for Clover-YFP, den næstbedste metode. Det skal understreges, at dette er en uretfærdig sammenligning (i forhold til LR), da vi har “snydt” for Clover-YFP, mHG-YFP og Ranksum-YFP ved at vælge den værdi af deres frie parameter (t y ), der giver den højeste nøjagtighed. Det er sandsynligt, at en faktisk bruger af en af disse andre metoder (eller de mere robuste YCPM-varianter) ikke ville kende den optimale parameterværdi, så deres nøjagtighed ville være dårligere.

Figur 5
Figur5

Nøjagtighed af en partitionsfri MEA-metode. Forskellige MEA-metoders evne til korrekt at rangordne det kendte TF-motiv i 237 ChIP-chip-eksperimenter med gær er vist. Hver søjle viser den gennemsnitlige PRA for den givne MEA-metode på alle 237 ChIP-chip-datasæt. Fejlbjælkerne viser standardfejl. LR-metoden er partitionsfri. PASTAA anvender X- og Y-begrænset partitionsmaksimering med et maksimum på 1000 sekvenser i de “positive” sæt. Alle metoder med fast partition (YFP) anvender en tærskelværdi på t y = 0,001.

Da LR-metoden klarede sig slående godt, implementerede vi en anden parameterfri metode, Spearmans rangkorrelationskoefficient. I modsætning til lineær regression forudsætter Spearmans rangkorrelation ikke en lineær sammenhæng mellem X og Y. Vores Spearmans rangkorrelationsmetode klarede sig ekstremt dårligt og opnåede en gennemsnitlig percentilrangnøjagtighed på 69,46, hvilket er den dårligste i denne sammenligning og væsentligt lavere end YFP-metoderne.

Tidligere har vi nævnt, at MEA-metoden PASTAA anvender en form for begrænset Y-partitionsmaksimering. Faktisk udfører den begrænset maksimering over både X og Y ved hjælp af en affinitetsfunktion, der ligner AMA og Fisher Exact Test-associeringsfunktionen. Når PASTAA anvendes på TF-rangeringsopgaven, klarer PASTAA (med standardbegrænsninger) sig bedre end alle de andre partitionsbaserede metoder undtagen Clover (fig. 5). Dette viser PASTAA’s robusthed, da vi ikke optimerede dens frie parametre, som vi gjorde i forbindelse med YFP-varianterne af de andre metoder (herunder Clover). Ikke desto mindre opnår PASTAA på opgaven med ChIP-chip TF-motivrangering af gær ChIP-chip TF-motiver en væsentlig lavere nøjagtighed sammenlignet med den partitions- og parameterfri LR-metode, som vi introducerer her.

Softwaretilgængelighed

Vi har frigivet de to softwareværktøjer, der er udviklet i denne undersøgelse, og gjort dem tilgængelige online. AME (Analysis of Motif Enrichment) og RAMEN (Regression Analysis of Motif ENrichment) er begge tilgængelige til download fra http://bioinformatics.org.au/ame/. Både AME og RAMEN er tilgængelige som binære filer til Mac OS X og Linux, og kildekoden kan fås efter anmodning. Begge værktøjer er licenseret under MEME-licensen.

AME implementerer Fisher-, mHG-, Ranksum-, lineær regressions- (LR) og spearman’s rangkorrelationsmetoderne i YFP- og YUPM-tilstande. Med et ekstra analysetrin kan AME også anvendes til YCPM. RAMEN implementerer vores parameterfri LR-metode og understøtter desuden beregning af permutationsbaserede p-værdier. Mere fuldstændig dokumentation for AME og RAMEN kan findes på webstedet.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.