Motif Enrichment Analysis: a unified framework and an evaluation on ChIP data

Fixed-partition methods

Najpierw badamy dokładność najprostszych metod MEA, które rozważamy w tym badaniu, metod YFP. Metody te dzielą dane wejściowe na zbiory pozytywne i negatywne przy użyciu stałego progu sygnału biologicznego, Y. Metody MEA o stałym podziale były szeroko stosowane (np., ). Zmierzyliśmy dokładność czterech metod YFP – Fishera-YFP, mHG-YFP, Ranksuma-YFP i Clovera-YFP – w zadaniu identyfikacji właściwego motywu TF w każdym z 237 drożdżowych zestawów danych ChIP-chip. Sygnał biologiczny, Y, jest wartością p fluorescencji ChIP-chip, a każdą metodę MEA uruchomiliśmy używając różnych wartości ustalonego progu podziału Y, t y . Wyniki tego eksperymentu pokazane są na Rys. 1. Zauważmy, że wyniki na lewo od pionowej niebieskiej linii na rysunku są dla coraz mniejszych podzbiorów 237 zbiorów danych ChIP-chip, ponieważ ignorujemy wszystkie zbiory danych, w których próg podziału na Y, t y , daje pusty zbiór dodatni. Na przykład, punkty na rysunkach z t y = 10-10 dają wyniki dla 57 zestawów danych ChIP-chip zawierających co najmniej jedną fluorescencję o wartości p mniejszej niż 10-10.

Rysunek 1
figura1

Precyzyjność metod MEA przy użyciu stałych partycji Y. Pokazano zdolność różnych metod MEA do prawidłowego uszeregowania znanych motywów TF w 237 eksperymentach drożdżowych ChIP-chip. Każdy punkt odpowiada średniej (panel a) lub medianie (panel b) percentylowej dokładności rankingu (PRA) metody MEA na wszystkich zestawach danych ChIP-chip, które zawierają co najmniej jedną sekwencję z wartością fluorescencji p mniejszą niż wartość t y (oś X). Zwiększanie wartości X odpowiada rozluźnianiu progu, po przekroczeniu którego sekwencja może zostać uznana za związaną przez TF. Na prawo od pionowej linii, wszystkie 237 zestawów jest uwzględnionych; na lewo, coraz mniej zestawów jest uwzględnionych przy bardziej rygorystycznych progach t y.

Wersja YFP programu Clover jest wyraźnie lepsza od innych metod w identyfikacji motywu TF związanego przez ChIP-ed we wszystkich 237 zestawach danych ChIP-chip drożdży (Rys. 1a). Średnia dokładność (PRA, Eqn. 8) wszystkich metod wzrasta wraz z obniżaniem progu podziału Y. Przy progu t y = 0.001, najmniejszym progu podziału, który może być użyty dla wszystkich 237 zbiorów danych, Clover-YFP klasyfikuje poprawny TF w 84 percentylu (PRA = 84.1), podczas gdy kolejna najlepsza metoda (mHG-YFP) klasyfikuje go średnio w 80 percentylu (PRA = 80.4). Przewaga Clover-YFP jest jeszcze bardziej widoczna przy większych wartościach progu podziału Y, ale bezwzględna dokładność wszystkich metod spada wraz ze wzrostem progu podziału (Rys. 1a).

Wersja YFP metody Ranksuma jest wyraźnie najgorszą z metod testowanych na wszystkich 237 zestawach danych ChIP-chip. Nawet przy zastosowaniu bardziej wyrozumiałej metryki mediany PRA, która kładzie mniejszy nacisk na zestawy danych, w których metoda wypada wyjątkowo słabo, Ranksum-YFP ma znacznie niższą dokładność niż pozostałe metody (Rys. 1b). Przy progu partycji Y wynoszącym t y = 0,001, mediana PRA dla Ranksum-YFP wynosi tylko 96,0, podczas gdy dla trzech pozostałych testowanych metod MEA wynosi 98,4. Ponieważ zarówno Clover-YFP, jak i Ranksum-YFP używają AMA jako funkcji powinowactwa motywu (Tabela 1), funkcja asocjacyjna Clovera jest wyraźnie lepsza niż test sumy rang dla MEA z wykorzystaniem stałej partycji Y, przynajmniej na tego typu danych sygnału biologicznego (ChIP-chip). Żadna z wersji YFP metod MEA, które tutaj testujemy, nie działa wyjątkowo dobrze na wszystkich 237 zestawach danych ChIP-chip z drożdży. W rzeczywistości, żadna metoda nie umieszcza motywu TF ChIP-ed wśród trzech najlepszych przewidywanych motywów dla ponad 60% zestawów danych ChIP-chip (dane nie pokazane). Nie jest to zaskakujące, biorąc pod uwagę, że Gordân i wsp. odkryli, że w 35% eksperymentów ChIP-chip żaden z PBM-pochodnych (niezależna metoda in vitro określania specyficzności sekwencji motywu) nie był znacząco wzbogacony.

Metoda Clover-YFP jest również dokładniejsza niż warianty maksymalizacji partycji Y pozostałych trzech metod MEA, gdy testowana jest tylko na zestawach danych drożdżowych ChIP-chip zawierających fluorescencję p-values poniżej t y = 0.001 (wyniki na lewo od pionowej niebieskiej linii na Rys. 1a). Jednakże, względna różnica pomiędzy metodami pod względem średniej PRA maleje wraz z obniżaniem progu podziału Y. Tak więc, wśród wariantów YFP metod MEA, Clover-YFP wydaje się być najlepszym podejściem dla danych ChIP-chip, i jest szczególnie korzystne, gdy dane ChIP-chip mają niski stosunek sygnału do szumu (tj, w przypadkach, gdy żadna sonda mikromacierzowa nie ma niskiej wartości p-value fluorescencji).

Nieograniczone metody maksymalizacji partycji

Z naszych eksperymentów z ustalonymi partycjami widzimy, że dokładność metod MEA w zadaniu identyfikacji TF w ChIP-chip drożdży silnie zależy od wyboru progu wartości p-value fluorescencji. W tych eksperymentach, zgodnie z powszechną praktyką, wybraliśmy jeden próg dla wszystkich 237 zestawów danych ChIP-chip. Zastanawialiśmy się, czy nie byłoby korzystne wybrać inny, zależny od danych próg dla każdego zestawu danych. Jednym ze sposobów, aby zrobić to automatycznie, jest rozważenie wszystkich możliwych progów i wybranie tego, który maksymalizuje funkcję asocjacji (Eqn. 4). Tego typu podejście było ostatnio badane dla funkcji asocjacyjnych Fishera i mHG, odpowiednio dla MEA i odkrywania motywów. (Jak omówimy później, te dwa badania wykorzystywały formy ograniczonej, a nie nieograniczonej maksymalizacji partycji.)

Nieograniczona maksymalizacja partycji Y (YUPM) nie poprawiła zdolności wszystkich czterech metod MEA do identyfikacji drożdżowych TF-ów poddanych ChIP-ed w 237 zestawach danych ChIP-chip (Rys. 2). W porównaniu z użyciem najmniejszego stałego progu Y, tak aby wszystkie 237 zestawów danych ChIP-chip miało co najmniej jedną pozytywną sekwencję (t y = 0.001), pozwolenie metodom na wybór progu podziału zgodnie z Eqn. 5 skutkuje znacznie niższą średnią dokładnością (średnia PRA). Na przykład, Clover w wersji YUPM (Clover-YUPM) ma średnią PRA równą 67.19, w porównaniu z 84.15, gdy ustalimy próg Y na 0.001 (Clover-YFP). Jest to w rzeczywistości najlepsza średnia dokładność którejkolwiek z metod YUPM na 237 drożdżowych zestawach danych ChIP-chip. Co ciekawe, metoda MEA Ranksuma, oprócz tego, że jest najuboższą metodą, gdy używa YFP, najbardziej zmniejsza dokładność, gdy używana jest YUPM.

Rysunek 2
figure2

Dokładność metod MEA używających unconstrained- Y -partition-maximisation. Pokazano zdolność różnych metod MEA do prawidłowego uszeregowania znanego motywu TF w 237 eksperymentach drożdżowych ChIP-chip. Pokazano średnią percentylową dokładność rangową wariantów unconstrained-Y-partition-maximization (YUPM, niebieskie słupki) i fixed-partition (YFP, czerwone słupki, t y = 0,001) czterech metod MEA. Słupki błędów pokazują błąd standardowy.

Warianty YUPM metod MEA rozważają każdy możliwy podział danych posortowanych zgodnie z sygnałem biologicznym, Y. Przynajmniej dla danych ChIP-chip, z Rys. 2 jasno wynika, że wybór podziału Y, który maksymalizuje funkcję asocjacji nie jest dobrym pomysłem. Inspekcja danych leżących u podstaw Rys. 2 pokazuje, że wysoko uszeregowane motywy (inne niż motyw prawidłowy) często mają maksymalne wyniki asocjacji dla partycji Y z ekstremalnie dużą liczbą – znacznie większą niż TF a priori spodziewałby się zbindować – „pozytywnych” sekwencji (dane nie pokazane). Większość z tych „pozytywnych” sekwencji ma bardzo duże wartości Y, a duży wynik asocjacji wynika z niewielkiej korelacji między X (wynik powinowactwa do motywu) i Y (wartość p fluorescencji ChIP-chip) w wielu sekwencjach. Funkcje asocjacyjne są dość dobre w wykrywaniu takich korelacji, ale korelacje te często nie wskazują na funkcjonalne wiązanie TF, na co wskazuje niższa dokładność YUPM wariantów MEA na Rys. 2.

Constrained partition maximization methods

Jak wspomniano powyżej, metody MEA z nieograniczoną maksymalizacją partycji wydają się osiągać słabe wyniki w zadaniu identyfikacji drożdżowych TF ze względu na wybór optymalnych progów Y (p-value fluorescencji ChIP-chip) odpowiadających bardzo dużym „pozytywnym” zestawom sekwencji. Może to wyjaśniać, dlaczego wcześniejsze zastosowania maksymalizacji partycji dla MEA i odkrywania motywów często ograniczały maksymalny rozmiar zbioru pozytywnego. Na przykład, algorytm MEA PASTAA ogranicza wielkość zbioru pozytywnego do nie więcej niż 1000 sekwencji. Podobnie, algorytm odkrywania motywów DRIM , który był testowany na danych ChIP-chip z drożdży używanych w obecnym badaniu, domyślnie ogranicza zbiór pozytywny do co najwyżej 300 sekwencji i nie więcej niż 1000 sekwencji. Są to tylko małe ułamki całkowitej liczby sekwencji (około 6000) w używanych tutaj zestawach danych drożdżowych ChIP-chip.

Jeśli ograniczymy nasz wariant maksymalizacji partycji metody mHG do progów Y dających nie więcej niż 300 „pozytywnych” sekwencji, średnia dokładność w zadaniu rankingu drożdżowych TF jest pośrednia pomiędzy wariantami stałej partycji i nieograniczonej maksymalizacji partycji (Rys. 3). Tak więc, w tym zadaniu, typ maksymalizacji partycji ograniczonej używany przez DRIM nie wydaje się być lepszy od użycia stałej partycji odpowiadającej przypisaniu sekwencji z fluorescencją o p-wartościach mniejszych niż 0,001 do zbioru „pozytywnego”. Zauważamy, że w 237 zestawach danych drożdżowych ChIP-chip, średnia wartość Y dla 300-tnej sekwencji (posortowanej według rosnącej Y, fluorescencji p-value) wynosi 0.04. Oznacza to, że ograniczenie partycji Y do 300 sekwencji „pozytywnych” pozwala na włączenie sekwencji o mniej znaczących sygnałach biologicznych (Y) do zbioru „pozytywnego”, w porównaniu z ustalonym progiem t y = 0.001, który stosujemy w metodzie mHG-YFP na Rys. 3.

Ryc. 3
figure3

Dokładność metody mHG ograniczonej do co najwyżej 300 sekwencji pozytywnych. Pokazano zdolność trzech wariantów metody mHG do poprawnego uszeregowania znanych motywów TF w 237 eksperymentach drożdżowych ChIP-chip. Każdy słupek reprezentuje średnią PRA wersji metody MEA. Słupek oznaczony jako mHG-YDRIM pokazuje dokładność przy użyciu maksymalizacji partycji, ograniczonej do partycji z maksymalnie 300 „pozytywnymi” sekwencjami. Pozostałe dwa słupki pokazują dokładność przy użyciu metody stałej partycji z t y = 0,001 (mHG-YFP) i nieograniczonej maksymalizacji partycji (mHG-YUPM), odpowiednio.

Może bardziej ogólnym sposobem ograniczenia metod maksymalizacji partycji jest podanie ograniczenia w kategoriach sygnału biologicznego Y, a nie jako liczby sekwencji „pozytywnych”. To podejście jest opisane przez Eqn. 5, gdzie nakładamy górną granicę na próg Y, t y , ale nie nakładamy dolnej granicy. (To znaczy, definiujemy r y = dla jakiejś górnej granicy, b, w równaniu 5.) To skutecznie ogranicza maksymalny rozmiar zbioru sekwencji „pozytywnych”, ale w sposób zależny od danych. W obecnym zastosowaniu, wszystkie sekwencje z wartościami p fluorescencji ChIP-chip mniejszymi niż t y mogą być włączone do zbioru „pozytywnego”, ale żadna z większymi wartościami p.

Maksymalna dokładność wariantów maksymalizacji ograniczonej partycji Y trzech z czterech metod MEA nie jest lepsza niż wariantów stałej partycji w zadaniu identyfikacji motywu TF w drożdżach ChIP-chip (Rys. 4). Najgorsza metoda (Ranksum) ulega nieznacznej poprawie, gdy górna granica na t y jest ustawiona na 0.001, ale pozostaje ona najmniej dokładną metodą w tym zadaniu. W miarę jak zwiększamy wartość b (a więc maksymalny rozmiar zbioru „pozytywnego”), spada zarówno średnia, jak i mediana dokładności rankingu percentylowego wszystkich czterech metod YCPM. Najlepszą dokładność dla ograniczonych metod uzyskuje się, gdy górna granica na t y wynosi 0,001, najmniejsza możliwa granica, aby wszystkie 237 zbiorów danych ChIP-chip miały co najmniej jedną „pozytywną” sekwencję.

Rysunek 4
figure4

Precyzyjność metod MEA wykorzystujących ograniczone metody partition-maximization. Pokazano zdolność różnych metod MEA do poprawnego uszeregowania znanych motywów TF w 237 eksperymentach drożdżowych ChIP-chip. Każdy panel pokazuje dokładność Y constrained partition maximization (YCPM) danej metody, wraz z dokładnością wariantu fixed partition (YFP) dla porównania. Każdy punkt pokazuje średnią lub medianę PRA (oś Y) metody MEA. W przypadku metod YCPM osią X wykresu jest maksymalna wartość, b, jaką może przyjąć t y; w przypadku metod YFP jest to stały próg metody, t y .

Jednakże warianty MEA z ograniczeniem maksymalizacji podziału Y (YCPM) są bardziej odporne niż warianty ze stałym podziałem (YFP). Oba warianty mają jeden wolny parametr, który musi być wybrany przez użytkownika – górną granicę, b dla wariantów YCPM, oraz stały próg, t y , dla wariantów YFP. Z Rys. 4 jasno wynika, że warianty YCPM są mniej wrażliwe na rozluźnienie maksymalnego progu do rozważenia TF związanego z sekwencją (b) niż warianty YFP na rozluźnienie progu bezwzględnego do rozważenia TF związanego z sekwencją, t y . Ponieważ użytkownik na ogół nie zna optymalnego wyboru wolnego parametru dla żadnej z metod, jest to wyraźna zaleta wariantów maksymalizacji ograniczonej partycji Y czterech metod MEA w porównaniu z wersjami o stałej partycji. Co więcej, Rys. 4 pokazuje, że warianty YCPM zawsze osiągają równą lub lepszą dokładność dla danej wartości parametru swobodnego (b) w porównaniu do wariantów YFP wykorzystujących tę samą wartość parametru swobodnego (t y ). Stąd, w badanym tu zadaniu, ograniczone warianty MEA maksymalizacji partycji Y są wyraźnie lepsze od wariantów o stałej partycji.

Bezpartycyjne metody MEA

Zaleta ograniczonych wariantów MEA maksymalizacji partycji (w stosunku do wariantów o stałej partycji) leży w ich względnej niewrażliwości na wybór pojedynczego wolnego parametru. However, a method of comparable accuracy with no free parameters that the user must choose would be better still. The unconstrained partition maximization variants have no free parameters, but perform very poorly on the current task, as we show above. Inną bezparametrową metodą MEA, którą tutaj badamy jest metoda regresji liniowej (LR), która nie dzieli sekwencji na zbiory „pozytywne” i „negatywne” używając sygnału biologicznego Y. Zamiast tego, funkcja asocjacji jest odwrotnością błędu regresji liniowej Y i X.

Nasza bezparametrowa metoda regresji liniowej (LR) MEA osiąga wyższą dokładność w zadaniu rankingowym motywu TF drożdży niż każda z pozostałych czterech metod używając optymalnych wartości ich wolnych parametrów (Rys. 5). Metoda LR osiąga średnią dokładność rankingu percentylowego 87,57 w porównaniu z 84,15 dla Clover-YFP, drugiej najlepszej metody. Należy podkreślić, że jest to niesprawiedliwe porównanie (do LR), ponieważ „oszukaliśmy” Clover-YFP, mHG-YFP i Ranksum-YFP wybierając wartość ich wolnego parametru (t y ), która osiąga najwyższą dokładność. Jest prawdopodobne, że rzeczywisty użytkownik jednej z tych innych metod (lub bardziej odpornych wariantów YCPM) nie znałby optymalnej wartości parametru, więc ich dokładność byłaby gorsza.

Rysunek 5
Rysunek5

Dokładność bezpodziałowej metody MEA. Pokazano zdolność różnych metod MEA do poprawnego uszeregowania znanych motywów TF w 237 eksperymentach drożdżowych ChIP-chip. Każdy słupek pokazuje średnią PRA danej metody MEA na wszystkich 237 zestawach danych ChIP-chip. Słupki błędów pokazują błąd standardowy. Metoda LR jest wolna od partycji. PASTAA wykorzystuje maksymalizację partycji X i Y z maksimum 1000 sekwencji w zbiorach „pozytywnych”. Wszystkie metody o stałym podziale (YFP) używają progu t y = 0.001.

Ponieważ metoda LR działała uderzająco dobrze, zaimplementowaliśmy inną metodę bezparametrową, współczynnik korelacji rang Spearmana. W przeciwieństwie do regresji liniowej, korelacja rang Spearmana nie zakłada liniowej zależności między X i Y. Nasza metoda korelacji rang Spearmana wypadła wyjątkowo słabo, osiągając średnią dokładność rankingu percentylowego na poziomie 69,46, najgorszą w tym porównaniu i znacznie niższą niż metody YFP.

Wcześniej wspomnieliśmy, że metoda MEA PASTAA wykorzystuje formę ograniczonej maksymalizacji partycji Y. W rzeczywistości wykonuje ona ograniczoną maksymalizację partycji Y. W rzeczywistości, wykonuje ona ograniczoną maksymalizację zarówno nad X jak i Y, używając funkcji powinowactwa podobnej do AMA i funkcji asocjacji Fisher Exact Test. Po zastosowaniu do zadania rankingowego TF, PASTAA (wykorzystując domyślne ograniczenia) osiąga lepsze wyniki niż wszystkie inne podejścia oparte na partycjach z wyjątkiem Clovera (Rys. 5). Wskazuje to na solidność PASTAA, gdyż nie optymalizowaliśmy jej wolnych parametrów, jak to miało miejsce w przypadku wariantów YFP innych metod (w tym Clovera). Niemniej jednak, w zadaniu rankingowym motywów TF na drożdżach ChIP-chip, PASTAA osiąga znacznie niższą dokładność w porównaniu do metody LR wolnej od partycji i parametrów, którą tutaj przedstawiamy.

Dostępność oprogramowania

Uwolniliśmy dwa narzędzia programowe opracowane w tym badaniu i udostępniliśmy je online. AME (Analysis of Motif Enrichment) i RAMEN (Regression Analysis of Motif ENrichment) są dostępne do pobrania z http://bioinformatics.org.au/ame/. Zarówno AME jak i RAMEN dostępne są jako binaria dla systemów Mac OS X i Linux, a źródła dostępne są na życzenie. Oba narzędzia są objęte licencją MEME.

AME implementuje metody Fishera, mHG, Ranksuma, regresji liniowej (LR) i korelacji rangowej Spearmana w trybach YFP i YUPM. Dzięki dodatkowemu krokowi analizy, AME może być również użyty do YCPM. RAMEN implementuje naszą bezparametrową metodę LR i dodatkowo wspiera obliczanie wartości p opartych na permutacji. Pełniejszą dokumentację dla AME i RAMEN można znaleźć na stronie internetowej.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.