Fixed-partition methods
Najpierw badamy dokładność najprostszych metod MEA, które rozważamy w tym badaniu, metod YFP. Metody te dzielą dane wejściowe na zbiory pozytywne i negatywne przy użyciu stałego progu sygnału biologicznego, Y. Metody MEA o stałym podziale były szeroko stosowane (np., ). Zmierzyliśmy dokładność czterech metod YFP – Fishera-YFP, mHG-YFP, Ranksuma-YFP i Clovera-YFP – w zadaniu identyfikacji właściwego motywu TF w każdym z 237 drożdżowych zestawów danych ChIP-chip. Sygnał biologiczny, Y, jest wartością p fluorescencji ChIP-chip, a każdą metodę MEA uruchomiliśmy używając różnych wartości ustalonego progu podziału Y, t y . Wyniki tego eksperymentu pokazane są na Rys. 1. Zauważmy, że wyniki na lewo od pionowej niebieskiej linii na rysunku są dla coraz mniejszych podzbiorów 237 zbiorów danych ChIP-chip, ponieważ ignorujemy wszystkie zbiory danych, w których próg podziału na Y, t y , daje pusty zbiór dodatni. Na przykład, punkty na rysunkach z t y = 10-10 dają wyniki dla 57 zestawów danych ChIP-chip zawierających co najmniej jedną fluorescencję o wartości p mniejszej niż 10-10.
Wersja YFP programu Clover jest wyraźnie lepsza od innych metod w identyfikacji motywu TF związanego przez ChIP-ed we wszystkich 237 zestawach danych ChIP-chip drożdży (Rys. 1a). Średnia dokładność (PRA, Eqn. 8) wszystkich metod wzrasta wraz z obniżaniem progu podziału Y. Przy progu t y = 0.001, najmniejszym progu podziału, który może być użyty dla wszystkich 237 zbiorów danych, Clover-YFP klasyfikuje poprawny TF w 84 percentylu (PRA = 84.1), podczas gdy kolejna najlepsza metoda (mHG-YFP) klasyfikuje go średnio w 80 percentylu (PRA = 80.4). Przewaga Clover-YFP jest jeszcze bardziej widoczna przy większych wartościach progu podziału Y, ale bezwzględna dokładność wszystkich metod spada wraz ze wzrostem progu podziału (Rys. 1a).
Wersja YFP metody Ranksuma jest wyraźnie najgorszą z metod testowanych na wszystkich 237 zestawach danych ChIP-chip. Nawet przy zastosowaniu bardziej wyrozumiałej metryki mediany PRA, która kładzie mniejszy nacisk na zestawy danych, w których metoda wypada wyjątkowo słabo, Ranksum-YFP ma znacznie niższą dokładność niż pozostałe metody (Rys. 1b). Przy progu partycji Y wynoszącym t y = 0,001, mediana PRA dla Ranksum-YFP wynosi tylko 96,0, podczas gdy dla trzech pozostałych testowanych metod MEA wynosi 98,4. Ponieważ zarówno Clover-YFP, jak i Ranksum-YFP używają AMA jako funkcji powinowactwa motywu (Tabela 1), funkcja asocjacyjna Clovera jest wyraźnie lepsza niż test sumy rang dla MEA z wykorzystaniem stałej partycji Y, przynajmniej na tego typu danych sygnału biologicznego (ChIP-chip). Żadna z wersji YFP metod MEA, które tutaj testujemy, nie działa wyjątkowo dobrze na wszystkich 237 zestawach danych ChIP-chip z drożdży. W rzeczywistości, żadna metoda nie umieszcza motywu TF ChIP-ed wśród trzech najlepszych przewidywanych motywów dla ponad 60% zestawów danych ChIP-chip (dane nie pokazane). Nie jest to zaskakujące, biorąc pod uwagę, że Gordân i wsp. odkryli, że w 35% eksperymentów ChIP-chip żaden z PBM-pochodnych (niezależna metoda in vitro określania specyficzności sekwencji motywu) nie był znacząco wzbogacony.
Metoda Clover-YFP jest również dokładniejsza niż warianty maksymalizacji partycji Y pozostałych trzech metod MEA, gdy testowana jest tylko na zestawach danych drożdżowych ChIP-chip zawierających fluorescencję p-values poniżej t y = 0.001 (wyniki na lewo od pionowej niebieskiej linii na Rys. 1a). Jednakże, względna różnica pomiędzy metodami pod względem średniej PRA maleje wraz z obniżaniem progu podziału Y. Tak więc, wśród wariantów YFP metod MEA, Clover-YFP wydaje się być najlepszym podejściem dla danych ChIP-chip, i jest szczególnie korzystne, gdy dane ChIP-chip mają niski stosunek sygnału do szumu (tj, w przypadkach, gdy żadna sonda mikromacierzowa nie ma niskiej wartości p-value fluorescencji).
Nieograniczone metody maksymalizacji partycji
Z naszych eksperymentów z ustalonymi partycjami widzimy, że dokładność metod MEA w zadaniu identyfikacji TF w ChIP-chip drożdży silnie zależy od wyboru progu wartości p-value fluorescencji. W tych eksperymentach, zgodnie z powszechną praktyką, wybraliśmy jeden próg dla wszystkich 237 zestawów danych ChIP-chip. Zastanawialiśmy się, czy nie byłoby korzystne wybrać inny, zależny od danych próg dla każdego zestawu danych. Jednym ze sposobów, aby zrobić to automatycznie, jest rozważenie wszystkich możliwych progów i wybranie tego, który maksymalizuje funkcję asocjacji (Eqn. 4). Tego typu podejście było ostatnio badane dla funkcji asocjacyjnych Fishera i mHG, odpowiednio dla MEA i odkrywania motywów. (Jak omówimy później, te dwa badania wykorzystywały formy ograniczonej, a nie nieograniczonej maksymalizacji partycji.)
Nieograniczona maksymalizacja partycji Y (YUPM) nie poprawiła zdolności wszystkich czterech metod MEA do identyfikacji drożdżowych TF-ów poddanych ChIP-ed w 237 zestawach danych ChIP-chip (Rys. 2). W porównaniu z użyciem najmniejszego stałego progu Y, tak aby wszystkie 237 zestawów danych ChIP-chip miało co najmniej jedną pozytywną sekwencję (t y = 0.001), pozwolenie metodom na wybór progu podziału zgodnie z Eqn. 5 skutkuje znacznie niższą średnią dokładnością (średnia PRA). Na przykład, Clover w wersji YUPM (Clover-YUPM) ma średnią PRA równą 67.19, w porównaniu z 84.15, gdy ustalimy próg Y na 0.001 (Clover-YFP). Jest to w rzeczywistości najlepsza średnia dokładność którejkolwiek z metod YUPM na 237 drożdżowych zestawach danych ChIP-chip. Co ciekawe, metoda MEA Ranksuma, oprócz tego, że jest najuboższą metodą, gdy używa YFP, najbardziej zmniejsza dokładność, gdy używana jest YUPM.
Warianty YUPM metod MEA rozważają każdy możliwy podział danych posortowanych zgodnie z sygnałem biologicznym, Y. Przynajmniej dla danych ChIP-chip, z Rys. 2 jasno wynika, że wybór podziału Y, który maksymalizuje funkcję asocjacji nie jest dobrym pomysłem. Inspekcja danych leżących u podstaw Rys. 2 pokazuje, że wysoko uszeregowane motywy (inne niż motyw prawidłowy) często mają maksymalne wyniki asocjacji dla partycji Y z ekstremalnie dużą liczbą – znacznie większą niż TF a priori spodziewałby się zbindować – „pozytywnych” sekwencji (dane nie pokazane). Większość z tych „pozytywnych” sekwencji ma bardzo duże wartości Y, a duży wynik asocjacji wynika z niewielkiej korelacji między X (wynik powinowactwa do motywu) i Y (wartość p fluorescencji ChIP-chip) w wielu sekwencjach. Funkcje asocjacyjne są dość dobre w wykrywaniu takich korelacji, ale korelacje te często nie wskazują na funkcjonalne wiązanie TF, na co wskazuje niższa dokładność YUPM wariantów MEA na Rys. 2.
Constrained partition maximization methods
Jak wspomniano powyżej, metody MEA z nieograniczoną maksymalizacją partycji wydają się osiągać słabe wyniki w zadaniu identyfikacji drożdżowych TF ze względu na wybór optymalnych progów Y (p-value fluorescencji ChIP-chip) odpowiadających bardzo dużym „pozytywnym” zestawom sekwencji. Może to wyjaśniać, dlaczego wcześniejsze zastosowania maksymalizacji partycji dla MEA i odkrywania motywów często ograniczały maksymalny rozmiar zbioru pozytywnego. Na przykład, algorytm MEA PASTAA ogranicza wielkość zbioru pozytywnego do nie więcej niż 1000 sekwencji. Podobnie, algorytm odkrywania motywów DRIM , który był testowany na danych ChIP-chip z drożdży używanych w obecnym badaniu, domyślnie ogranicza zbiór pozytywny do co najwyżej 300 sekwencji i nie więcej niż 1000 sekwencji. Są to tylko małe ułamki całkowitej liczby sekwencji (około 6000) w używanych tutaj zestawach danych drożdżowych ChIP-chip.
Jeśli ograniczymy nasz wariant maksymalizacji partycji metody mHG do progów Y dających nie więcej niż 300 „pozytywnych” sekwencji, średnia dokładność w zadaniu rankingu drożdżowych TF jest pośrednia pomiędzy wariantami stałej partycji i nieograniczonej maksymalizacji partycji (Rys. 3). Tak więc, w tym zadaniu, typ maksymalizacji partycji ograniczonej używany przez DRIM nie wydaje się być lepszy od użycia stałej partycji odpowiadającej przypisaniu sekwencji z fluorescencją o p-wartościach mniejszych niż 0,001 do zbioru „pozytywnego”. Zauważamy, że w 237 zestawach danych drożdżowych ChIP-chip, średnia wartość Y dla 300-tnej sekwencji (posortowanej według rosnącej Y, fluorescencji p-value) wynosi 0.04. Oznacza to, że ograniczenie partycji Y do 300 sekwencji „pozytywnych” pozwala na włączenie sekwencji o mniej znaczących sygnałach biologicznych (Y) do zbioru „pozytywnego”, w porównaniu z ustalonym progiem t y = 0.001, który stosujemy w metodzie mHG-YFP na Rys. 3.
Może bardziej ogólnym sposobem ograniczenia metod maksymalizacji partycji jest podanie ograniczenia w kategoriach sygnału biologicznego Y, a nie jako liczby sekwencji „pozytywnych”. To podejście jest opisane przez Eqn. 5, gdzie nakładamy górną granicę na próg Y, t y , ale nie nakładamy dolnej granicy. (To znaczy, definiujemy r y = dla jakiejś górnej granicy, b, w równaniu 5.) To skutecznie ogranicza maksymalny rozmiar zbioru sekwencji „pozytywnych”, ale w sposób zależny od danych. W obecnym zastosowaniu, wszystkie sekwencje z wartościami p fluorescencji ChIP-chip mniejszymi niż t y mogą być włączone do zbioru „pozytywnego”, ale żadna z większymi wartościami p.
Maksymalna dokładność wariantów maksymalizacji ograniczonej partycji Y trzech z czterech metod MEA nie jest lepsza niż wariantów stałej partycji w zadaniu identyfikacji motywu TF w drożdżach ChIP-chip (Rys. 4). Najgorsza metoda (Ranksum) ulega nieznacznej poprawie, gdy górna granica na t y jest ustawiona na 0.001, ale pozostaje ona najmniej dokładną metodą w tym zadaniu. W miarę jak zwiększamy wartość b (a więc maksymalny rozmiar zbioru „pozytywnego”), spada zarówno średnia, jak i mediana dokładności rankingu percentylowego wszystkich czterech metod YCPM. Najlepszą dokładność dla ograniczonych metod uzyskuje się, gdy górna granica na t y wynosi 0,001, najmniejsza możliwa granica, aby wszystkie 237 zbiorów danych ChIP-chip miały co najmniej jedną „pozytywną” sekwencję.
Jednakże warianty MEA z ograniczeniem maksymalizacji podziału Y (YCPM) są bardziej odporne niż warianty ze stałym podziałem (YFP). Oba warianty mają jeden wolny parametr, który musi być wybrany przez użytkownika – górną granicę, b dla wariantów YCPM, oraz stały próg, t y , dla wariantów YFP. Z Rys. 4 jasno wynika, że warianty YCPM są mniej wrażliwe na rozluźnienie maksymalnego progu do rozważenia TF związanego z sekwencją (b) niż warianty YFP na rozluźnienie progu bezwzględnego do rozważenia TF związanego z sekwencją, t y . Ponieważ użytkownik na ogół nie zna optymalnego wyboru wolnego parametru dla żadnej z metod, jest to wyraźna zaleta wariantów maksymalizacji ograniczonej partycji Y czterech metod MEA w porównaniu z wersjami o stałej partycji. Co więcej, Rys. 4 pokazuje, że warianty YCPM zawsze osiągają równą lub lepszą dokładność dla danej wartości parametru swobodnego (b) w porównaniu do wariantów YFP wykorzystujących tę samą wartość parametru swobodnego (t y ). Stąd, w badanym tu zadaniu, ograniczone warianty MEA maksymalizacji partycji Y są wyraźnie lepsze od wariantów o stałej partycji.
Bezpartycyjne metody MEA
Zaleta ograniczonych wariantów MEA maksymalizacji partycji (w stosunku do wariantów o stałej partycji) leży w ich względnej niewrażliwości na wybór pojedynczego wolnego parametru. However, a method of comparable accuracy with no free parameters that the user must choose would be better still. The unconstrained partition maximization variants have no free parameters, but perform very poorly on the current task, as we show above. Inną bezparametrową metodą MEA, którą tutaj badamy jest metoda regresji liniowej (LR), która nie dzieli sekwencji na zbiory „pozytywne” i „negatywne” używając sygnału biologicznego Y. Zamiast tego, funkcja asocjacji jest odwrotnością błędu regresji liniowej Y i X.
Nasza bezparametrowa metoda regresji liniowej (LR) MEA osiąga wyższą dokładność w zadaniu rankingowym motywu TF drożdży niż każda z pozostałych czterech metod używając optymalnych wartości ich wolnych parametrów (Rys. 5). Metoda LR osiąga średnią dokładność rankingu percentylowego 87,57 w porównaniu z 84,15 dla Clover-YFP, drugiej najlepszej metody. Należy podkreślić, że jest to niesprawiedliwe porównanie (do LR), ponieważ „oszukaliśmy” Clover-YFP, mHG-YFP i Ranksum-YFP wybierając wartość ich wolnego parametru (t y ), która osiąga najwyższą dokładność. Jest prawdopodobne, że rzeczywisty użytkownik jednej z tych innych metod (lub bardziej odpornych wariantów YCPM) nie znałby optymalnej wartości parametru, więc ich dokładność byłaby gorsza.
Ponieważ metoda LR działała uderzająco dobrze, zaimplementowaliśmy inną metodę bezparametrową, współczynnik korelacji rang Spearmana. W przeciwieństwie do regresji liniowej, korelacja rang Spearmana nie zakłada liniowej zależności między X i Y. Nasza metoda korelacji rang Spearmana wypadła wyjątkowo słabo, osiągając średnią dokładność rankingu percentylowego na poziomie 69,46, najgorszą w tym porównaniu i znacznie niższą niż metody YFP.
Wcześniej wspomnieliśmy, że metoda MEA PASTAA wykorzystuje formę ograniczonej maksymalizacji partycji Y. W rzeczywistości wykonuje ona ograniczoną maksymalizację partycji Y. W rzeczywistości, wykonuje ona ograniczoną maksymalizację zarówno nad X jak i Y, używając funkcji powinowactwa podobnej do AMA i funkcji asocjacji Fisher Exact Test. Po zastosowaniu do zadania rankingowego TF, PASTAA (wykorzystując domyślne ograniczenia) osiąga lepsze wyniki niż wszystkie inne podejścia oparte na partycjach z wyjątkiem Clovera (Rys. 5). Wskazuje to na solidność PASTAA, gdyż nie optymalizowaliśmy jej wolnych parametrów, jak to miało miejsce w przypadku wariantów YFP innych metod (w tym Clovera). Niemniej jednak, w zadaniu rankingowym motywów TF na drożdżach ChIP-chip, PASTAA osiąga znacznie niższą dokładność w porównaniu do metody LR wolnej od partycji i parametrów, którą tutaj przedstawiamy.
Dostępność oprogramowania
Uwolniliśmy dwa narzędzia programowe opracowane w tym badaniu i udostępniliśmy je online. AME (Analysis of Motif Enrichment) i RAMEN (Regression Analysis of Motif ENrichment) są dostępne do pobrania z http://bioinformatics.org.au/ame/. Zarówno AME jak i RAMEN dostępne są jako binaria dla systemów Mac OS X i Linux, a źródła dostępne są na życzenie. Oba narzędzia są objęte licencją MEME.
AME implementuje metody Fishera, mHG, Ranksuma, regresji liniowej (LR) i korelacji rangowej Spearmana w trybach YFP i YUPM. Dzięki dodatkowemu krokowi analizy, AME może być również użyty do YCPM. RAMEN implementuje naszą bezparametrową metodę LR i dodatkowo wspiera obliczanie wartości p opartych na permutacji. Pełniejszą dokumentację dla AME i RAMEN można znaleźć na stronie internetowej.