Fixed-partition-menetelmät
Aluksi tutkimme yksinkertaisimpien tässä tutkimuksessa tarkastelemiemme MEA-menetelmien, YFP-menetelmien, tarkkuutta. Nämä menetelmät jakavat syöttötiedot positiivisiin ja negatiivisiin joukkoihin käyttämällä biologisen signaalin, Y, kiinteää kynnysarvoa. Kiinteän osituksen MEA-menetelmiä on käytetty laajalti (esim ). Mittaamme neljän YFP-menetelmän – Fischer-YFP, mHG-YFP, Ranksum-YFP ja Clover-YFP – tarkkuutta tehtävässä tunnistaa oikea TF-motiivi jokaisessa 237 hiivan ChIP-chip-tietueessa. Biologinen signaali, Y, on ChIP-sirun fluoresenssin p-arvo, ja ajamme kutakin MEA-menetelmää käyttäen eri arvoja kiinteälle Y-jakokynnykselle, t y . Tämän kokeen tulokset on esitetty kuvassa 1. Huomaa, että kuvan pystysuoran sinisen viivan vasemmalla puolella olevat tulokset koskevat 237 ChIP-sirutietoaineiston yhä pienempiä osajoukkoja, koska jätämme huomiotta kaikki ne aineistot, joissa Y:n osituskynnys t y johtaa tyhjään positiiviseen joukkoon. Esimerkiksi kuvien pisteet, joissa t y = 10-10, antavat tulokset niille 57 ChIP-chip-datasetille, jotka sisältävät vähintään yhden fluoresenssin p-arvon, joka on pienempi kuin 10-10.
Cloverin YFP-versio on selvästi muita menetelmiä parempi tunnistamaan ChIP:hen sidotun TF-motiivin kaikissa 237:ssä hiivan ChIP-sirutietokannassa (kuva 1a). Kaikkien menetelmien keskimääräinen tarkkuus (PRA, yhtälö 8) kasvaa Y-osion kynnysarvon pienentyessä. Kynnyksellä t y = 0,001, joka on pienin partitiokynnys, jota voidaan käyttää kaikkien 237 tietokokonaisuuden kanssa, Clover-YFP sijoittaa oikean TF:n keskimäärin 84. persentiiliin (PRA = 84,1), kun taas seuraavaksi paras menetelmä (mHG-YFP) sijoittaa sen keskimäärin 80. persentiiliin (PRA = 80,4). Clover-YFP:n paremmuus korostuu vielä enemmän Y-jakokynnyksen suuremmilla arvoilla, mutta kaikkien menetelmien absoluuttinen tarkkuus laskee jakokynnyksen kasvaessa (kuva 1a).
Ranksum-menetelmän YFP-versio on selvästi huonoin kaikista 237 ChIP-sirutietoaineistolla testatuista menetelmistä. Jopa anteeksiantavammalla PRA:n mediaanimittarilla, jossa painotetaan vähemmän datasettejä, joissa menetelmä suoriutuu erittäin huonosti, Ranksum-YFP:n tarkkuus on huomattavasti alhaisempi kuin muiden menetelmien (kuva 1b). Kun Y-osion kynnysarvo on t y = 0,001, Ranksum-YFP:n PRA:n mediaani on vain 96,0, kun se kolmella muulla testatulla MEA-menetelmällä on 98,4. Koska sekä Clover-YFP että Ranksum-YFP käyttävät AMA:ta motiiviaffiniteettifunktiona (taulukko 1), Cloverin assosiaatiofunktio on selvästi parempi kuin kiinteää Y-partitiota käyttävä MEA:n rank-summatesti, ainakin tämäntyyppisillä biologisilla signaalitiedoilla (ChIP-siru). Mikään tässä testatuista MEA-menetelmien YFP-versioista ei suoriudu erittäin hyvin kaikilla 237 hiivan ChIP-chip-tietoaineistolla. Itse asiassa mikään menetelmä ei sijoita ChIP:n kohteena olevaa TF-motiivia kolmen parhaan ennustetun motiivin joukkoon yli 60 prosentissa ChIP-chip-datasarjoista (tietoja ei ole esitetty). Tämä ei ole yllättävää, kun otetaan huomioon, että Gordân ym. havaitsivat, että 35 %:ssa ChIP-chip-kokeista yksikään PBM-johdos (riippumaton, in vitro -menetelmä motiivien sekvenssispesifisyyden määrittämiseksi) ei ollut merkittävästi rikastunut.
Clover-YFP-menetelmä on myös tarkempi kuin muiden kolmen MEA-menetelmän Y-jakautuman maksimointivaihtoehdot, kun sitä testattiin vain hiivan ChIP-chip-datasarjoilla, jotka sisälsivät fluoresenssiaineiston p-arvot, jotka alittivat arvot t y = 0,001. (Tulokset pystysuuntaisen sinisen viivan vasemmalla puolen kuvassa 1a). Menetelmien välinen suhteellinen ero keskimääräisen PRA:n suhteen kuitenkin pienenee, kun Y-partitiokynnys pienenee. Näin ollen MEA-menetelmien YFP-vaihtoehdoista Clover-YFP näyttää olevan paras lähestymistapa ChIP-chip-dataa varten, ja se on erityisen edullinen silloin, kun ChIP-chip-datan signaali-kohinasuhde on alhainen (ts, tapauksissa, joissa millään mikrosirun koettimella ei ole matalaa fluoresenssin p-arvoa).
Rajoittamattomat osion maksimointimenetelmät
Kiinteän osion kokeiluistamme näemme, että MEA-menetelmien tarkkuus hiivan ChIP-sirun TF-tunnistustehtävässä riippuu voimakkaasti fluoresenssin p-arvon kynnysarvon valinnasta. Noissa kokeissa noudatamme yleistä käytäntöä ja valitsemme yhden kynnysarvon kaikille 237 ChIP-chip-tietoaineistolle. Mietimme, olisiko edullista valita erilainen, datasta riippuvainen kynnysarvo kullekin tietokokonaisuudelle. Yksi tapa tehdä tämä automaattisesti on tarkastella kaikkia mahdollisia kynnysarvoja ja valita se, joka maksimoi assosiaatiofunktion (yhtälö 4). Tällaista lähestymistapaa on hiljattain tutkittu Fisherin ja mHG:n assosiaatiofunktioiden osalta MEA:n ja motiivien löytämiseksi. (Kuten myöhemmin käsittelemme, näissä kahdessa tutkimuksessa käytettiin pikemminkin rajoitetun kuin rajoituksettoman osion maksimoinnin muotoja.)
Rajoittamaton Y-osion maksimointi (YUPM) ei paranna kaikkien neljän MEA-menetelmän kykyä tunnistaa ChIP:llä varustettuja hiiva-TF:iä 237:ssä ChIP-sirutietokannassa (kuva 2). Verrattuna pienimmän kiinteän Y-kynnyksen käyttämiseen siten, että kaikissa 237 ChIP-sirutietokannassa on vähintään yksi positiivinen sekvenssi (t y = 0,001), kun menetelmien annetaan valita osiokynnys yhtälön 5 mukaisesti, keskimääräinen tarkkuus (keskimääräinen PRA) laskee huomattavasti. Esimerkiksi Cloverin YUPM-version (Clover-YUPM) keskimääräinen PRA on 67,19, kun se on 84,15, kun Y-kynnys on 0,001 (Clover-YFP). Tämä on itse asiassa kaikkien YUPM-menetelmien paras keskimääräinen tarkkuus 237 hiivan ChIP-chip-tietueella. Mielenkiintoista on, että sen lisäksi, että Ranksum MEA-menetelmä on huonoin menetelmä YFP:tä käytettäessä, sen tarkkuus laskee eniten, kun käytetään YUPM:ää.
MEA-menetelmien YUPM-variantit tarkastelevat biologisen signaalin Y mukaan lajitellun datan kaikkia mahdollisia osioita. Ainakaan ChIP-chip-datan osalta kuvasta 2 käy selvästi ilmi, että assosiaatiofunktiota maksimoivan Y-partition valitseminen ei ole hyvä idea. Kuvan 2 taustalla olevan datan tarkastelu osoittaa, että korkealle sijoittuneilla motiiveilla (muilla kuin oikealla motiivilla) on usein maksimaalinen assosiaatiopistemäärä Y-partitioissa, joissa on erittäin suuri määrä – paljon suurempi kuin TF:n odotetaan a priori sitovan ”positiivisia” sekvenssejä (tietoja ei ole esitetty). Useimmilla näistä ”positiivisista” sekvensseistä on hyvin suuret Y-arvot, ja suuri assosiaatiopistemäärä johtuu X:n (motiivin affiniteettipistemäärä) ja Y:n (ChIP-sirun fluoresenssin p-arvo) välisestä vähäisestä korrelaatiosta monissa sekvensseissä. Assosiaatiofunktiot ovat melko hyviä havaitsemaan tällaisia korrelaatioita, mutta korrelaatiot eivät useinkaan viittaa TF:n funktionaaliseen sitoutumiseen, kuten MEA:n YUPM-varianttien alhaisempi tarkkuus osoittaa kuvassa 2.
Rajoitetut osion maksimointimenetelmät
Kuten edellä mainittiin, rajoittamattomat osion maksimointimenetelmät MEA näyttävät suoriutuvan huonosti hiivan TF-tunnistustehtävästä johtuen optimaalisten Y-kynnysarvojen (ChIP-sirun fluoresenssin p-arvo) valitsemisesta, jotka vastaavat hyvin suuria ”positiivisia” sekvenssijoukkoja. Tämä saattaa selittää, miksi aiemmissa MEA:n ja motiivien löytämisen partition maksimoinnin käyttötavoissa on usein rajoitettu positiivisen joukon maksimikokoa. Esimerkiksi MEA-algoritmi PASTAA rajoittaa positiivisen joukon koon enintään 1000 sekvenssiin. Samoin motiivien löytämisalgoritmi DRIM , jota testattiin tässä tutkimuksessa käytetyllä hiivan ChIP-siruaineistolla, rajoittaa positiivisen joukon oletusarvoisesti enintään 300 sekvenssiin ja enintään 1000 sekvenssiin. Nämä molemmat ovat vain pieniä murto-osia tässä käytetyissä hiivan ChIP-sirutietoaineistoissa olevien sekvenssien kokonaismäärästä (noin 6000).
Jos rajoitamme mHG-menetelmän osion maksimointivaihtoehtomme Y-kynnysarvoihin, jotka tuottavat enintään 300 ”positiivista” sekvenssiä, keskimääräinen tarkkuus hiivan TF-luokittelutehtävässä on kiinteän osion ja rajoittamattoman osion maksimointivaihtoehdon välimaastossa (Kuva 3). Näin ollen tässä tehtävässä DRIM:n käyttämä rajoitetun osion maksimointi ei näytä parantavan kiinteän osion käyttöä, joka vastaa sellaisten sekvenssien, joiden fluoresenssin p-arvo on alle 0,001, määräämistä ”positiivisten” sekvenssien joukkoon. Huomaamme, että 237 hiivan ChIP-sirutietoaineistossa 300. sekvenssin (lajiteltu kasvavan Y:n mukaan, fluoresenssin p-arvo) Y:n keskiarvo on 0,04. Tämä tarkoittaa, että Y-osion rajoittaminen 300 ”positiiviseen” sekvenssiin mahdollistaa sen, että sekvenssit, joilla on vähemmän merkittäviä biologisia signaaleja (Y), voidaan sisällyttää ”positiiviseen” joukkoon verrattuna kiinteään kynnysarvoon t y = 0,001, jota käytämme menetelmällä mHG-YFP kuvassa 3.
Yleisempi tapa rajoittaa osioiden maksimointimenetelmiä on kenties ilmaista rajoitus biologisena signaalina Y eikä ”positiivisten” sekvenssien lukumääränä. Tätä lähestymistapaa kuvaa yhtälö 5, jossa Y-kynnysarvolle t y asetetaan yläraja, mutta ei alarajaa. (Toisin sanoen määrittelemme r y = jollekin ylärajalle b yhtälössä 5.) Tämä rajoittaa tehokkaasti ”positiivisen” sekvenssijoukon enimmäiskokoa, mutta datasta riippuvalla tavalla. Nykyisessä sovelluksessa kaikki sekvenssit, joiden ChIP-sirun fluoresenssin p-arvo on pienempi kuin t y, voidaan sisällyttää ”positiiviseen” joukkoon, mutta ei yhtään sellaista, jonka p-arvo on suurempi.
Kolmeen neljästä MEA-menetelmästä kolmen rajoitetun Y-osion maksimointivaihtoehdon rajoitettu Y-osion maksimointivaihtoehtojen maksimitarkkuus ei ole yhtään sen parempi kuin kiinteän osion vaihtoehtojen tarkkuus hiivan ChIP-siruun perustuvassa TF-aiheiden tunnistustehtävässä (kuva 4). Huonoin menetelmä (Ranksum) paranee hieman, kun t y:n ylärajaksi asetetaan 0,001, mutta se on edelleen epätarkin menetelmä tässä tehtävässä. Kun kasvatamme b:n arvoa (ja siten ”positiivisen” joukon enimmäiskokoa), sekä kaikkien neljän YCPM-menetelmän keskimääräinen että mediaaniprosenttiluokituksen tarkkuus laskee. Rajoitettujen menetelmien paras tarkkuus saavutetaan, kun t y:n yläraja on 0,001, joka on pienin mahdollinen raja, jotta kaikissa 237 ChIP-sirutietoaineistossa on vähintään yksi ”positiivinen” sekvenssi.
Rajoitetun Y-partition maksimoinnin (YCPM) MEA-vaihtoehdot ovat kuitenkin vankempia kuin kiinteän partition (YFP) vaihtoehdot. Molemmissa vaihtoehdoissa on yksi vapaa parametri, joka käyttäjän on valittava – YCPM-vaihtoehdoissa yläraja b ja YFP-vaihtoehdoissa kiinteä kynnysarvo t y . Kuviosta 4 käy selvästi ilmi, että YCPM-variantit ovat vähemmän herkkiä valittavan enimmäiskynnyksen (b) höllentämiselle TF:n pitämiseksi sekvenssiin sidottuna kuin YFP-variantit absoluuttisen kynnyksen (t y ) höllentämiselle TF:n pitämiseksi sekvenssiin sidottuna. Koska käyttäjä ei yleensä tiedä vapaan parametrin optimaalista valintaa kummallekaan menetelmälle, tämä on selkeä etu neljän MEA-menetelmän rajoitetun Y-osion maksimointivaihtoehdoille verrattuna kiinteän osion versioihin. Lisäksi kuvasta 4 käy ilmi, että YCPM-vaihtoehdoilla saavutetaan aina sama tai parempi tarkkuus tietyllä vapaan parametrin arvolla (b) verrattuna YFP-vaihtoehtoihin, jotka käyttävät samaa vapaan parametrin arvoa (t y ). Näin ollen tässä tutkitussa tehtävässä rajoitetun Y-osion maksimoinnin MEA-muunnokset ovat selvästi parempia kuin kiinteän osion muunnokset.
Osionvapaat MEA-menetelmät
Osionvapaiden rajoitetun osion maksimoinnin MEA-muunnosten etuna (suhteessa kiinteän osion muunnoksiin) on niiden suhteellinen epäherkkyys yksittäisen vapaan parametrin valintaan. Vastaavalla tarkkuudella toimiva menetelmä, jossa ei ole vapaita parametreja, jotka käyttäjän on valittava, olisi kuitenkin vielä parempi. Rajoittamattomien osioiden maksimointivaihtoehdoissa ei ole vapaita parametreja, mutta ne suoriutuvat hyvin huonosti nykyisessä tehtävässä, kuten edellä osoitamme. Yksi toinen parametriton MEA-menetelmä, jota tässä tutkimme, on lineaarisen regression (LR) menetelmä, joka ei jaa sekvenssejä ”positiivisiin” ja ”negatiivisiin” joukkoihin biologisen signaalin Y avulla. Sen sijaan assosiaatiofunktio on Y:n ja X:n lineaarisen regression virheen käänteisluku.
Parametriton lineaarisen regression (LR) MEA-menetelmämme saavuttaa suuremman tarkkuuden hiivan TF-kuvaajamotiivien luokittelutehtävässä kuin kukin neljästä muusta metodista, kun käytetään optimaalisia vapaita parametriarvoja (Kuva 5). LR-menetelmällä saavutetaan keskimääräinen prosenttiluokittelutarkkuus 87,57, kun toiseksi parhaan menetelmän Clover-YFP:n tarkkuus on 84,15. On korostettava, että tämä on epäreilu vertailu (LR:ään nähden), koska olemme ”huijanneet” Clover-YFP:n, mHG-YFP:n ja Ranksum-YFP:n osalta valitsemalla niiden vapaan parametrin (t y ) arvon, jolla saavutetaan suurin tarkkuus. On todennäköistä, että näiden muiden menetelmien (tai vankempien YCPM-varianttien) todellinen käyttäjä ei tietäisi optimaalista parametrin arvoa, joten niiden tarkkuus olisi huonompi.
Koska LR-menetelmä suoriutui hämmästyttävän hyvin, otimme käyttöön toisen parametrivapaan menetelmän, Spearmanin rank-korrelaatiokertoimen. Toisin kuin lineaarinen regressio, Spearmanin rankkorrelaatio ei oleta lineaarista suhdetta X:n ja Y:n välillä. Spearmanin rankkorrelaatiomenetelmämme suoriutui erittäin huonosti, sillä se saavutti keskimääräisen percentile rank -tarkkuuden 69,46, joka on huonoin tässä vertailussa ja huomattavasti alhaisempi kuin YFP-menetelmillä.
Aiemmin mainitsimme, että MEA-menetelmä PASTAA käyttää eräänlaista rajoitettua Y-jakojen maksimointia. Itse asiassa se suorittaa rajoitetun maksimoinnin sekä X:n että Y:n yli käyttäen AMA:n ja Fisher Exact Test -assosiaatiofunktion kaltaista affiniteettifunktiota. Kun PASTAA:a sovelletaan TF-luokittelutehtävään, PASTAA (käyttäen sen oletusrajoituksia) toimii paremmin kuin kaikki muut osiopohjaiset lähestymistavat Cloveria lukuun ottamatta (kuva 5). Tämä osoittaa PASTAA:n kestävyyttä, koska emme optimoineet sen vapaita parametreja, kuten teimme muiden menetelmien (Clover mukaan luettuna) YFP-varianttien tapauksessa. Siitä huolimatta hiivan ChIP-sirujen TF-motiivien luokittelutehtävässä PASTAA saavuttaa huomattavasti alhaisemman tarkkuuden verrattuna tässä esittelemäämme osioihin ja parametreihin perustuvaan LR-menetelmään.
Ohjelmiston saatavuus
Olemme julkaisseet tässä tutkimuksessa kehitetyt kaksi ohjelmistotyökalua ja asettaneet ne saataville verkossa. AME (Analysis of Motif Enrichment) ja RAMEN (Regression Analysis of Motif ENrichment) ovat molemmat ladattavissa osoitteesta http://bioinformatics.org.au/ame/. Sekä AME että RAMEN ovat saatavilla binääriohjelmina Mac OS X:lle ja Linuxille, ja lähdekoodi on saatavana pyydettäessä. Molemmat työkalut on lisensoitu MEME-lisenssillä.
AME toteuttaa Fisherin, mHG:n, Ranksumin, lineaarisen regression (LR) ja Spearmanin rank-korrelaatiomenetelmät YFP- ja YUPM-tiloissa. Lisäanalyysivaiheen avulla AME:ta voidaan käyttää myös YCPM:ssä. RAMEN toteuttaa parametrittoman LR-menetelmämme ja tukee lisäksi permutaatiopohjaisten p-arvojen laskentaa. AME:n ja RAMENin täydellisempi dokumentaatio löytyy verkkosivuilta.