Motif Enrichment Analysis: a unified framework and an evaluation on ChIP data

Fixed-partition methods

Wir untersuchen zunächst die Genauigkeit der einfachsten MEA-Methoden, die wir in dieser Studie betrachten, die YFP-Methoden. Diese Methoden teilen die Eingabedaten in positive und negative Sätze auf, wobei ein fester Schwellenwert für das biologische Signal Y verwendet wird. MEA-Methoden mit fester Aufteilung wurden bereits ausgiebig verwendet (z. B. ). Wir messen die Genauigkeit von vier YFP-Methoden – Fischer-YFP, mHG-YFP, Ranksum-YFP und Clover-YFP – bei der Aufgabe, das korrekte TF-Motiv in jedem der 237 Hefe-Chip-Datensätze zu identifizieren. Das biologische Signal Y ist der p-Wert der ChIP-Chip-Fluoreszenz, und wir haben jede MEA-Methode mit verschiedenen Werten des festen Schwellenwerts für die Y-Verteilung, t y , durchgeführt. Die Ergebnisse dieses Experiments sind in Abb. 1 dargestellt. Beachten Sie, dass die Ergebnisse links von der vertikalen blauen Linie in der Abbildung für immer kleinere Teilmengen der 237 ChIP-Chip-Datensätze gelten, da wir alle Datensätze ignorieren, bei denen die Partitionsschwelle für Y, t y , zu einer leeren positiven Menge führt. Zum Beispiel geben die Punkte in den Abbildungen mit t y = 10-10 die Ergebnisse für die 57 ChIP-Chip-Datensätze an, die mindestens einen Fluoreszenz-p-Wert von weniger als 10-10 enthalten.

Abbildung 1
Abbildung1

Genauigkeit von MEA-Methoden mit festen Y-Partitionen. Gezeigt wird die Fähigkeit verschiedener MEA-Methoden, das bekannte TF-Motiv in 237 Hefe-ChIP-Chip-Experimenten korrekt einzuordnen. Jeder Punkt entspricht dem Mittelwert (Tafel a) oder dem Median (Tafel b) der Perzentil-Ranggenauigkeit (PRA) einer MEA-Methode für alle ChIP-Chip-Datensätze, die mindestens eine Sequenz mit einem Fluoreszenz-p-Wert kleiner als der Wert von t y (X-Achse) enthalten. Steigende X-Werte entsprechen einer Lockerung der Schwelle, ab der eine Sequenz als durch eine TF gebunden gilt. Rechts von der vertikalen Linie sind alle 237 Sätze eingeschlossen; links werden bei strengeren t y-Schwellenwerten immer weniger Sätze eingeschlossen.

Die YFP-Version von Clover ist den anderen Methoden bei der Identifizierung des ChIP-ed TF-Motivs in allen 237 Hefe-ChIP-Chip-Datensätzen deutlich überlegen (Abb. 1a). Die mittlere Genauigkeit (PRA, Gl. 8) aller Methoden steigt mit abnehmender Y-Partitionsschwelle. Bei einem Schwellenwert von t y = 0,001, dem kleinsten Partitionsschwellenwert, der für alle 237 Datensätze verwendet werden kann, ordnet Clover-YFP die korrekte TF im 84. Perzentil ein (PRA = 84,1), während die nächstbeste Methode (mHG-YFP) sie im Durchschnitt im 80. Perzentil einordnet (PRA = 80,4). Die Überlegenheit von Clover-YFP ist bei größeren Werten der Y-Partitionsschwelle noch ausgeprägter, aber die absolute Genauigkeit aller Methoden nimmt mit steigender Partitionsschwelle ab (Abb. 1a).

Die YFP-Version der Ranksum-Methode ist eindeutig die schlechteste der Methoden, die auf allen 237 ChIP-Chip-Datensätzen getestet wurden. Selbst bei der nachsichtigeren Median-PRA-Metrik, bei der Datensätze, bei denen eine Methode extrem schlecht abschneidet, weniger stark gewichtet werden, hat Ranksum-YFP eine wesentlich geringere Genauigkeit als die anderen Methoden (Abb. 1b). Bei einem Schwellenwert für die Y-Partition von t y = 0,001 beträgt der Median der PRA für Ranksum-YFP nur 96,0, während er für die drei anderen getesteten MEA-Methoden 98,4 beträgt. Da sowohl Clover-YFP als auch Ranksum-YFP AMA als Motiv-Affinitätsfunktion verwenden (Tabelle 1), ist die Assoziationsfunktion von Clover eindeutig besser als der Rang-Summen-Test für MEA mit einer festen Y-Partition, zumindest bei dieser Art von biologischen Signaldaten (ChIP-Chip). Keine der YFP-Versionen der MEA-Methoden, die wir hier testen, schneiden bei allen 237 Hefe-ChIP-Chip-Datensätzen extrem gut ab. Tatsächlich platziert keine Methode das ChIP-ed TF-Motiv unter den ersten drei vorhergesagten Motiven für mehr als 60% der ChIP-Chip-Datensätze (Daten nicht gezeigt). Dies ist nicht überraschend, wenn man bedenkt, dass Gordân et al. feststellten, dass in 35 % der ChIP-Chip-Experimente kein PBM (eine unabhängige In-vitro-Methode zur Bestimmung der Motivsequenzspezifität) signifikant angereichert war.

Die Clover-YFP-Methode ist auch genauer als die Y-Partitionsmaximierungsvarianten der anderen drei MEA-Methoden, wenn sie nur an den Hefe-ChIP-Chip-Datensätzen getestet wird, die Fluoreszenz-p-Werte unter t y = 0,001 enthalten (Ergebnisse links von der vertikalen blauen Linie in Abb. 1a). Der relative Unterschied zwischen den Methoden in Bezug auf die mittlere PRA nimmt jedoch mit abnehmender Y-Partitionsschwelle ab. Somit scheint Clover-YFP unter den YFP-Varianten der MEA-Methoden der beste Ansatz für ChIP-Chip-Daten zu sein und ist besonders vorteilhaft, wenn die ChIP-Chip-Daten ein geringes Signal-Rausch-Verhältnis aufweisen (d. h.,

Unbeschränkte Partitionsmaximierungsmethoden

Wir sehen in unseren Experimenten mit fester Partition, dass die Genauigkeit der MEA-Methoden bei der Hefe-ChIP-Chip-TF-Identifizierung stark von der Wahl der Fluoreszenz-P-Wert-Schwelle abhängt. In diesen Experimenten folgen wir der üblichen Praxis und wählen einen einzigen Schwellenwert für alle 237 ChIP-Chip-Datensätze. Wir haben uns gefragt, ob es von Vorteil wäre, für jeden Datensatz einen anderen, datenabhängigen Schwellenwert zu wählen. Eine Möglichkeit, dies automatisch zu tun, besteht darin, alle möglichen Schwellenwerte zu berücksichtigen und denjenigen zu wählen, der die Assoziationsfunktion (Gleichung 4) maximiert. Diese Art von Ansatz wurde vor kurzem für die Fisher- und mHG-Assoziationsfunktionen für MEA bzw. Motiventdeckung untersucht. (Wie wir später erörtern, wurden in diesen beiden Studien Formen der eingeschränkten und nicht der uneingeschränkten Partitionsmaximierung verwendet.)

Die uneingeschränkte Y-Partitionsmaximierung (YUPM) verbessert nicht die Fähigkeit aller vier MEA-Methoden, die ChIP-ed Hefe-TFs in den 237 ChIP-Chip-Datensätzen zu identifizieren (Abb. 2). Verglichen mit der Verwendung des kleinsten festen Y-Schwellenwerts, so dass alle 237 ChIP-Chip-Datensätze mindestens eine positive Sequenz aufweisen (t y = 0,001), führt die Möglichkeit für die Methoden, den Partitionsschwellenwert gemäß Gleichung 5 zu wählen, zu einer wesentlich geringeren durchschnittlichen Genauigkeit (mittlere PRA). Die YUPM-Version von Clover (Clover-YUPM) hat zum Beispiel eine mittlere PRA von 67,19, verglichen mit 84,15, wenn wir den Y-Schwellenwert auf 0,001 festlegen (Clover-YFP). Dies ist in der Tat die beste mittlere Genauigkeit aller YUPM-Methoden auf den 237 Hefe-ChIP-Chip-Datensätzen. Interessanterweise ist die Ranksum MEA-Methode nicht nur die schlechteste Methode, wenn YFP verwendet wird, sondern sie nimmt auch am meisten an Genauigkeit ab, wenn YUPM verwendet wird.

Abbildung 2
Abbildung2

Genauigkeit der MEA-Methoden unter Verwendung von unconstrained- Y -partition-maximisation. Die Fähigkeit verschiedener MEA-Methoden, das bekannte TF-Motiv in 237 Hefe-ChIP-Chip-Experimenten korrekt einzuordnen, ist dargestellt. Dargestellt ist die mittlere prozentuale Ranggenauigkeit der unconstrained-Y-partition-maximization (YUPM, blaue Balken) und fixed-partition (YFP, rote Balken, t y = 0,001) Varianten von vier MEA-Methoden. Die Fehlerbalken zeigen den Standardfehler.

Die YUPM-Varianten der MEA-Methoden berücksichtigen jede mögliche Partitionierung der Daten, sortiert nach dem biologischen Signal Y. Zumindest für ChIP-Chip-Daten wird aus Abb. 2 deutlich, dass die Wahl der Y-Partition, die die Assoziationsfunktion maximiert, keine gute Idee ist. Die Untersuchung der Daten, die Abb. 2 zugrunde liegen, zeigt, dass hochrangige Motive (die nicht das richtige Motiv sind) oft maximale Assoziationswerte für Y-Partitionen mit einer extrem großen Anzahl von „positiven“ Sequenzen aufweisen – viel mehr, als die TF a priori erwarten würde (Daten nicht gezeigt). Die meisten dieser „positiven“ Sequenzen haben sehr große Y-Werte, und der große Assoziationswert ist auf eine leichte Korrelation zwischen X (dem Motiv-Affinitätswert) und Y (dem ChIP-Chip-Fluoreszenz-p-Wert) bei vielen Sequenzen zurückzuführen. Die Assoziationsfunktionen sind recht gut darin, solche Korrelationen zu erkennen, aber die Korrelationen sind oft nicht indikativ für die funktionelle Bindung der TF, wie die geringere Genauigkeit der YUPM-Varianten von MEA in Abb. 2 zeigt.

Methoden der eingeschränkten Partitionsmaximierung

Wie oben erwähnt, scheinen die MEA-Methoden der uneingeschränkten Partitionsmaximierung bei der Hefe-TF-Identifizierung schlecht abzuschneiden, da sie optimale Y-Schwellenwerte (ChIP-Chip-Fluoreszenz p-Wert) wählen, die sehr großen „positiven“ Sequenzmengen entsprechen. Dies könnte erklären, warum frühere Anwendungen der Partitionsmaximierung für MEA und die Entdeckung von Motiven oft die maximale Größe der positiven Menge eingeschränkt haben. So begrenzt beispielsweise der MEA-Algorithmus PASTAA die Größe der Positivmenge auf höchstens 1000 Sequenzen. In ähnlicher Weise begrenzt der Algorithmus zur Entdeckung von Motiven DRIM , der an den in der aktuellen Studie verwendeten Hefe-ChIP-Chip-Daten getestet wurde, den positiven Satz standardmäßig auf höchstens 300 Sequenzen und nicht mehr als 1000 Sequenzen. Dies sind beides nur kleine Bruchteile der Gesamtzahl der Sequenzen (etwa 6000) in den hier verwendeten Hefe-ChIP-Chip-Datensätzen.

Wenn wir unsere Partitionsmaximierungsvariante der mHG-Methode auf Y-Schwellenwerte beschränken, die nicht mehr als 300 „positive“ Sequenzen ergeben, liegt die mittlere Genauigkeit bei der Hefe-TF-Ranking-Aufgabe zwischen den Varianten mit fester Partition und ohne Beschränkung der Partitionsmaximierung (Abb. 3). Bei dieser Aufgabe scheint die Art der eingeschränkten Partitionsmaximierung, die von DRIM verwendet wird, nicht besser zu sein als die Verwendung einer festen Partition, die dazu führt, dass Sequenzen mit Fluoreszenz-P-Werten von weniger als 0,001 dem „positiven“ Satz zugeordnet werden. Wir stellen fest, dass in den 237 Hefe-ChIP-Chip-Datensätzen der Mittelwert von Y für die 300. Sequenz (sortiert nach steigendem Y, Fluoreszenz-p-Wert) 0,04 beträgt. Dies bedeutet, dass die Begrenzung der Y-Partition auf 300 „positive“ Sequenzen es ermöglicht, Sequenzen mit weniger signifikanten biologischen Signalen (Y) in den „positiven“ Satz aufzunehmen, verglichen mit dem festen Schwellenwert von t y = 0,001, den wir mit der Methode mHG-YFP in Abb. 3 verwenden.

Abbildung 3
Abbildung3

Genauigkeit der mHG-Methode bei Beschränkung auf höchstens 300 positive Sequenzen. Dargestellt ist die Fähigkeit von drei Varianten der mHG-Methode, das bekannte TF-Motiv in 237 Hefe-ChIP-Chip-Experimenten korrekt einzuordnen. Jeder Balken stellt die mittlere PRA von Versionen einer MEA-Methode dar. Der Balken mit der Bezeichnung mHG-YDRIM zeigt die Genauigkeit unter Verwendung der Partitionsmaximierung, begrenzt auf Partitionen mit maximal 300 „positiven“ Sequenzen. Die beiden anderen Balken zeigen die Genauigkeit bei Verwendung der Methode der festen Partition mit t y = 0,001 (mHG-YFP) bzw. der Partitionsmaximierung ohne Einschränkungen (mHG-YUPM).

Eine allgemeinere Möglichkeit, die Methoden der Partitionsmaximierung einzuschränken, besteht vielleicht darin, die Einschränkung in Form des biologischen Signals Y und nicht als Anzahl der „positiven“ Sequenzen anzugeben. Dieser Ansatz wird durch Gleichung 5 beschrieben, in der wir eine Obergrenze für den Schwellenwert Y, t y , festlegen, aber keine Untergrenze. (Das heißt, wir definieren r y = für eine Obergrenze b in Gleichung 5.) Dadurch wird die maximale Größe des Satzes „positiver“ Sequenzen effektiv begrenzt, allerdings auf eine datenabhängige Weise. In der aktuellen Anwendung können alle Sequenzen mit ChIP-Chip-Fluoreszenz-p-Werten kleiner als t y in die „positive“ Menge aufgenommen werden, aber keine mit größeren p-Werten.

Die maximale Genauigkeit der eingeschränkten Y-Partitionsmaximierungsvarianten von drei der vier MEA-Methoden ist nicht besser als die der festen Partitionsvarianten bei der Hefe-ChIP-Chip-TF-Motividentifikationsaufgabe (Abb. 4). Es gibt eine leichte Verbesserung bei der schlechtesten Methode (Ranksum), wenn die obere Grenze für t y auf 0,001 gesetzt wird, aber sie bleibt die am wenigsten genaue Methode bei dieser Aufgabe. Wenn wir den Wert von b (und damit die maximale Größe der „positiven“ Menge) erhöhen, sinken sowohl die mittlere als auch die mittlere Perzentilranggenauigkeit aller vier YCPM-Methoden. Die beste Genauigkeit für die eingeschränkten Methoden wird erreicht, wenn die obere Grenze für t y 0,001 ist, die kleinstmögliche Grenze, damit alle 237 ChIP-Chip-Datensätze mindestens eine „positive“ Sequenz haben.

Abbildung 4
Abbildung4

Genauigkeit der MEA-Methoden unter Verwendung eingeschränkter Partitionsmaximierung. Die Fähigkeit verschiedener MEA-Methoden, das bekannte TF-Motiv in 237 Hefe-ChIP-Chip-Experimenten korrekt einzuordnen, ist dargestellt. Jedes Feld zeigt die Genauigkeit der Y constrained partition maximization (YCPM) einer Methode, zusammen mit der Genauigkeit der Variante mit fester Partition (YFP) zum Vergleich. Jeder Punkt zeigt den mittleren oder medianen PRA (Y-Achse) der MEA-Methode. Bei YCPM-Methoden ist die X-Achse des Diagramms der maximale Wert b, den t y annehmen kann; bei YFP-Methoden ist es der feste Schwellenwert der Methode, t y.

Die MEA-Varianten mit eingeschränkter Y-Partitionsmaximierung (YCPM) sind jedoch robuster als die Varianten mit fester Partition (YFP). Beide Varianten haben einen freien Parameter, der vom Benutzer gewählt werden muss – die Obergrenze b für die YCPM-Varianten und die feste Schwelle t y für die YFP-Varianten. Aus Abb. 4 ist ersichtlich, dass die YCPM-Varianten weniger empfindlich auf die Lockerung des maximal wählbaren Schwellenwerts für die Berücksichtigung einer an eine Sequenz gebundenen TF (b) reagieren als die YFP-Varianten auf die Lockerung des absoluten Schwellenwerts für die Berücksichtigung einer an eine Sequenz gebundenen TF, t y . Da der Benutzer im Allgemeinen die optimale Wahl des freien Parameters für beide Methoden nicht kennt, ist dies ein klarer Vorteil für die eingeschränkten Y-Partitionsmaximierungsvarianten der vier MEA-Methoden im Vergleich zu den festen Partitionsversionen. Darüber hinaus zeigt Abb. 4, dass die YCPM-Varianten bei einem gegebenen Wert des freien Parameters (b) immer die gleiche oder eine bessere Genauigkeit erreichen als die YFP-Varianten, die den gleichen Wert des freien Parameters (t y ) verwenden. Daher sind die MEA-Varianten mit eingeschränkter Y-Partitionsmaximierung bei der hier untersuchten Aufgabe den Varianten mit fester Partition eindeutig überlegen.

Partitionsfreie MEA-Methoden

Der Vorteil der MEA-Varianten mit eingeschränkter Partitionsmaximierung (gegenüber den Varianten mit fester Partition) liegt in ihrer relativen Unempfindlichkeit gegenüber der Wahl eines einzelnen freien Parameters. Eine Methode mit vergleichbarer Genauigkeit, bei der der Benutzer keine freien Parameter wählen muss, wäre jedoch noch besser. Die Varianten der ungebundenen Partitionsmaximierung haben keine freien Parameter, schneiden aber bei der aktuellen Aufgabe sehr schlecht ab, wie wir oben zeigen. Eine weitere parameterfreie MEA-Methode, die wir hier untersuchen, ist die Methode der linearen Regression (LR), die die Sequenzen nicht in „positive“ und „negative“ Mengen unter Verwendung des biologischen Signals Y partitioniert. Stattdessen ist die Assoziationsfunktion der Kehrwert des Fehlers der linearen Regression von Y und X.

Unsere parameterfreie MEA-Methode der linearen Regression (LR) erreicht bei der Hefe-TF-Motiv-Ranking-Aufgabe eine höhere Genauigkeit als jede der anderen vier Methoden unter Verwendung der optimalen Werte ihrer freien Parameter (Abb. 5). Die LR-Methode erreicht eine mittlere Perzentil-Ranggenauigkeit von 87,57 im Vergleich zu 84,15 für Clover-YFP, der zweitbesten Methode. Es sollte betont werden, dass dies ein unfairer Vergleich (mit LR) ist, da wir für Clover-YFP, mHG-YFP und Ranksum-YFP „geschummelt“ haben, indem wir den Wert ihres freien Parameters (t y ) gewählt haben, der die höchste Genauigkeit erzielt. Es ist wahrscheinlich, dass ein tatsächlicher Benutzer einer dieser anderen Methoden (oder der robusteren YCPM-Varianten) den optimalen Parameterwert nicht kennen würde, so dass ihre Genauigkeit schlechter wäre.

Abbildung 5
Abbildung5

Genauigkeit einer partitionsfreien MEA-Methode. Die Fähigkeit verschiedener MEA-Methoden, das bekannte TF-Motiv in 237 Hefe-ChIP-Chip-Experimenten korrekt einzuordnen, ist dargestellt. Jeder Balken zeigt den mittleren PRA-Wert der jeweiligen MEA-Methode für alle 237 ChIP-Chip-Datensätze. Die Fehlerbalken zeigen den Standardfehler. Die LR-Methode ist frei von Partitionen. PASTAA verwendet X- und Y-gebundene Partitionsmaximierung mit einem Maximum von 1000 Sequenzen in den „positiven“ Sets. Alle Methoden mit fester Partition (YFP) verwenden einen Schwellenwert von t y = 0,001.

Da die LR-Methode auffallend gut abschnitt, implementierten wir eine weitere parameterfreie Methode, den Rangkorrelationskoeffizienten von Spearman. Anders als bei der linearen Regression wird bei der Spearman’schen Rangkorrelation keine lineare Beziehung zwischen X und Y angenommen. Unsere Spearman’sche Rangkorrelationsmethode schnitt extrem schlecht ab und erreichte eine mittlere Perzentilranggenauigkeit von 69,46, die schlechteste in diesem Vergleich und wesentlich niedriger als die YFP-Methoden.

Wir haben bereits erwähnt, dass die MEA-Methode PASTAA eine Form der eingeschränkten Y-Partitionsmaximierung verwendet. Tatsächlich führt sie eine eingeschränkte Maximierung sowohl über X als auch über Y durch und verwendet eine Affinitätsfunktion, die der AMA und der Assoziationsfunktion des Fisher Exact Tests ähnelt. Bei der Anwendung auf die TF-Rankingaufgabe schneidet PASTAA (unter Verwendung seiner Standardbeschränkungen) besser ab als alle anderen partitionierungsbasierten Ansätze mit Ausnahme von Clover (Abb. 5). Dies deutet auf die Robustheit von PASTAA hin, da wir seine freien Parameter nicht optimiert haben, wie wir es im Fall der YFP-Varianten der anderen Methoden (einschließlich Clover) getan haben. Nichtsdestotrotz erreicht PASTAA bei der Hefe-ChIP-Chip-TF-Motiv-Ranking-Aufgabe eine wesentlich geringere Genauigkeit als die hier vorgestellte partitions- und parameterfreie LR-Methode.

Software-Verfügbarkeit

Wir haben die beiden in dieser Studie entwickelten Software-Tools freigegeben und online verfügbar gemacht. AME (Analysis of Motif Enrichment) und RAMEN (Regression Analysis of Motif ENrichment) stehen beide zum Download bereit unter http://bioinformatics.org.au/ame/. Sowohl AME als auch RAMEN sind als Binärdateien für Mac OS X und Linux verfügbar, wobei der Quellcode auf Anfrage erhältlich ist. Beide Tools sind unter der MEME-Lizenz lizenziert.

AME implementiert die Fisher-, mHG-, Ranksum-, lineare Regressions- (LR) und Spearman’s Rangkorrelationsmethoden im YFP- und YUPM-Modus. Mit einem zusätzlichen Analyseschritt kann AME auch für YCPM verwendet werden. RAMEN implementiert unsere parameterfreie LR-Methode und unterstützt zusätzlich die Berechnung von permutationsbasierten p-Werten. Eine ausführliche Dokumentation zu AME und RAMEN finden Sie auf unserer Website.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.