Az 1000 Genom projekt 2008 és 2015 között zajlott, és az emberi variációs és genotípusadatok legnagyobb nyilvános katalógusát hozta létre. Mivel a projekt véget ért, az EMBL-EBI adatkoordinációs központja a Wellcome Trust-tól folyamatos finanszírozást kapott az erőforrás fenntartására és bővítésére. Ennek érdekében hozták létre az International Genome Sample Resource-t (IGSR), amelynek céljai a következők:
- Az 1000 Genomes referenciaadatokhoz való jövőbeli hozzáférés és felhasználhatóság biztosítása
- Az 1000 Genomes minták további publikált genomikai adatainak beépítése
- Az adatgyűjtemény bővítése az eddig nem képviselt új populációk bevonásával. az 1000 Genomes projektben nem szereplő populációk bevonásával
- Az 1000 Genomes projekt
- Az 1000 Genomes projekt áttekintése
- Az 1000 Genom projekt tervezése
- Kísérleti projekt
- Főprojekt
- Publikációk
- 1000 Genomes Project samples and data
- IGSR
- 1. Az 1000 Genom referenciaadatok jövőbeli felhasználhatóságának biztosítása
- 2. Az IGSR tervezi, hogy az új illesztéseken visszahívja a variánsokat. Az 1000 Genomes minták közzétett genomikai adatainak beépítése
- 3. Az adatgyűjtés kiterjesztése új populációkra
Az 1000 Genomes projekt
Az 1000 Genomes projekt áttekintése
Az 1000 Genomes projekt célja az volt, hogy a vizsgált populációkban legalább 1%-os gyakorisággal megtalálják a legtöbb genetikai variánst.
Az 1000 Genom projekt kihasználta a szekvenálási technológia fejlődését, amely jelentősen csökkentette a szekvenálás költségeit. Ez volt az első olyan projekt, amely nagyszámú ember genomját szekvenálta, hogy átfogó forrást biztosítson az emberi genetikai variációról. Az 1000 Genom projekt adatait gyorsan elérhetővé tették a világ tudományos közössége számára szabadon hozzáférhető nyilvános adatbázisokon keresztül.
A szekvenálás továbbra is túl drága maradt ahhoz, hogy a projektben vizsgált sok mintát mélyen szekvenálni lehessen. A genom bármely adott régiója azonban általában korlátozott számú haplotípust tartalmaz. Az adatokat a minták között kombinálták, hogy lehetővé tegyék egy régió legtöbb variánsának hatékony kimutatását. A projekt úgy tervezte, hogy minden egyes mintát 4x-es genomlefedettségig szekvenálnak; ilyen mélységben a szekvenálás nem képes felfedezni az összes variánst minden egyes mintában, de lehetővé teszi a legtöbb, akár 1%-os gyakoriságú variáns kimutatását. A projekt végső fázisában 2504 minta adatait kombinálták, hogy lehetővé tegyék az egyes minták genotípusainak rendkívül pontos hozzárendelését a projekt által felfedezett összes variánshelyen. A többmintás megközelítés a genotípus-imputációval kombinálva lehetővé tette a projekt számára, hogy egy minta genotípusát olyan variánsok esetében is meghatározza, amelyekre az adott mintában nem terjedtek ki a szekvenálási leolvasások.
Az 1000 Genom projekt hozzájárulását a genomikához a Nature-ben foglalták össze a fő projekt végső publikációit tartalmazó számban.
Az 1000 Genom projekt tervezése
A projektet a The Welcome Genome Campuson 2007 szeptemberében tartott ülésen tervezték meg. Az eredeti terv a találkozó jelentésében olvasható. Miután elkezdődött, a projekt négy szakaszban zajlott: egy kísérleti szakaszban és a főprojekt három szakaszában. A főprojektben az első és a harmadik fázisban adatokat állítottak elő, a második fázis pedig a technikai fejlesztésre koncentrált.
Kísérleti projekt
Három kísérleti tanulmány szolgáltatott adatokat a teljes körű projekt tervezéséhez:
Pilot | Cél | Kiterjedés | Stratégia | Státusz | |
---|---|---|---|---|---|
1 – alacsony lefedettség | A minták közötti adatmegosztás stratégiájának értékelése | 2-4X | 180 minta teljes genom szekvenálása | Szekvenálás befejezve 2008 októberében | |
2 – triók | Fedettség, platformok és központok értékelése | 20-60X | Teljes-2 anya – apa – felnőtt gyermek trió genomszekvenálása | A szekvenálás 2008 októberében befejeződött | |
3 – génrégiók | A génrégiókra vonatkozó módszerek értékelése | A génrégió-rögzítése | 50X | 1000 génrégió 900 mintában | Szekvenálás befejezve 2009. június |
A kísérleti projektekből származó adatokat elemezték annak megállapítására, hogy a 4x-es lefedettség stratégiája megfelelő volt-e a projekt céljainak eléréséhez.
Főprojekt
A szekvenálást a főprojekt első és harmadik fázisában végezték el, az egyes fázisoknak megfelelő adatkiadásokkal és elemzésekkel. A harmadik és egyben utolsó fázishoz kapcsolódó végső adatbefagyasztásra 2013. május 2-án került sor. Ez az adatkészlet (amelyet a 20130502.sequence.index fájlban határoztak meg) jelentette a véglegesített adatkészletet, amelyre a harmadik fázis elemzése alapult, és amely felváltotta a korábbi adatkiadásokat. A projekt során az elemzési módszereket továbbfejlesztették, és a harmadik fázisú elemzés a korábbi verziók helyébe lép.
A végleges adathalmaz 26 populáció 2504 egyedének adatait tartalmazza. Alacsony lefedettségű és exom szekvenciaadatok vannak jelen minden ilyen egyedről, 24 egyedet magas lefedettségű szekvenálással is szekvenáltak validációs céllal.
Az elemzések során mind a rövid (legfeljebb 50 bázispár hosszúságú) variációkat, mind a strukturális variációkat vizsgálták. Ezeket az elemzéseket a projekt lezárásakor, 2015-ben tették közzé. A főbb publikációink listája az alábbiakban látható.
Publikációk
- Pilot Analysis
- A map of human genome variation from population-scale sequencing Nature 467, 1061-1073 (28 October 2010)
- Phase 1 Analysis
- An integrated map of genetic variation from 1,092 emberi genomból Nature 491, 56-65 (2012. november 01.)
- Phase 3 Analysis
- A global reference for human genetic variation Nature 526, 68-74 (2015. október 01.)
- An integrated map of structural variation in 2,504 human genomes Nature 526, 75-81 (2015. október 01.)
1000 Genomes Project samples and data
Az 1000 Genomes Project a mintavételt végző kutatók számára etikai megfontolásokra vonatkozó iránymutatásokat dolgozott ki, amelyeket az Informed Consent Background Document és a Informed Consent Form Template ismertet. A projektbe bevont valamennyi gyűjtés követte ezeket az etikai irányelveket és a tájékoztatáson alapuló beleegyező nyilatkozat mintáját. Az 1000 Genom Projekt Irányítóbizottsága a Projekt Minta- és ELSI-csoportjának közreműködésével hozta meg a végső döntést arról, hogy mely populációk és mintakészletek kerüljenek be a Projektbe.
Az 1000 Genom Projekt adatai a projekt végleges publikációit követően embargó nélkül hozzáférhetők. Az adatok felhasználására a szokásos módon kell hivatkozni, az aktuális részletek a GYIK-ben találhatók, ahol további részletek találhatók az 1000 Genomes Project adatainak felhasználásáról. Az IGSR által szolgáltatott adatok felhasználásával kapcsolatos további információk is rendelkezésre állnak, amelyeket szintén érdemes megnézni.
Az 1000 Genomes Project elérhető adatai az IGSR egyéb adataival együtt az adatoldalunkon tekinthetők meg. A sejtvonalak és a DNS valamennyi 1000 Genomes-mintához rendelkezésre állnak, és a Coriell Intézetben beszerezhetők. A rendelkezésre álló populációk teljes listája megtalálható a Sejtvonalak és DNS oldalunkon
Az 1000 Genom projekt mintái anonimak, és nincsenek hozzájuk kapcsolódó orvosi vagy fenotípus adatok. A projekt az önbevalláson alapuló etnikai hovatartozást és nemet tartja nyilván. Minden résztvevő egészségesnek vallotta magát a minták gyűjtésének időpontjában.
IGSR
Amint azt már említettük, az IGSR-t azért hozták létre, hogy biztosítsa az 1000 Genom projekt adatainak jövőbeli felhasználhatóságát és hozzáférhetőségét, valamint hogy az adatkészletet kiterjessze az 1000 Genomes mintákra vonatkozó új adatokra és új populációkra, ahol a mintavételt az IGSR mintavételi elveivel összhangban végezték.
1. Az 1000 Genom referenciaadatok jövőbeli felhasználhatóságának biztosítása
2014-ben a Genom Referencia Konzorcium kiadta az emberi összeszerelés frissített változatát, a GRCh38-at. A humán referencia-összeállítás e frissítése jelentős javulást mutat a reprezentált alternatív lókuszok mennyiségében. Most már 178 genomi régiót tartalmaz kapcsolódó alternatív lókuszokkal (a kromoszómális szekvencia 2%-a (61,9 Mb)). Ez 261 alternatív lókuszból áll (amely a kromoszómákhoz képest 3,6 Mb új szekvenciát tartalmaz). A GRC több mint 1000 problémát tudott megoldani az összeállítás előző változatából.
Az alternatív lókuszok kihasználása a variáció azonosítása és a genotípusok megadása során fontos lépés az emberi variáció felfedezésének javításában. Jelenleg nagyon kevés eszköz képes az alternatív lókuszok adatainak felhasználására. Az IGSR a BWA mem segítségével a 3. fázisú 1000 Genomes adatokat a GRCh38-ra alternatív lókuszok figyelembevételével újratérképezte. Ez a módszerfejlesztő közösség számára olyan illesztési forrást biztosít, amely új módszereket mozdíthat elő, valamint a szélesebb közösség számára is naprakész illesztéseket biztosít, biztosítva, hogy az új összeállítás kontextusában mindenki hasznát vehesse az adatoknak. Az IGSR azt tervezi, hogy ezeken az új illesztéseken visszahívja a variánsokat.
Ezenkívül további genomikai szekvenciaadatokat illesztünk a GRCh38-hoz, az Illumina Platinum Genomes adatai az első új adatgyűjtemény, amelyet illesztünk.
2. Az IGSR tervezi, hogy az új illesztéseken visszahívja a variánsokat. Az 1000 Genomes minták közzétett genomikai adatainak beépítése
Az 1000 Genomes minták népszerű forrásnak bizonyultak a molekuláris fenotipizálási kísérletekhez és a genetikai variáció és az expresszió közötti összefüggések vizsgálatához vagy az epigenetikai állapot méréséhez. Nagy adathalmazokat hoztak létre ezeken a mintákon olyan projektek, mint a GEUVADIS, amely RNA-Seq adatokat hozott létre az 1000 Genomes európai mintákon és az YRI-populáción, valamint az ENCODE, amely kiterjedt vizsgálatokat végzett az NA12878 sejtvonalon. Számos más csoport is végzett vizsgálatokat az 1000 Genomes mintákon. Az IGSR szeretné ezeket az információkat egységes módon bemutatni, hogy a közösség hasznosítani tudja az összes olyan adatot, amely ezekről a mintákról rendelkezésre áll.
3. Az adatgyűjtés kiterjesztése új populációkra
Az IGSR felismeri, hogy a jelenlegi 1000 Genom projekt mintái nem tükröznek minden populációt. Az IGSR fontos célja, hogy bővítse a gyűjteményben reprezentált populációkat, és biztosítsa, hogy a rendelkezésre álló nyilvános adatok a lehető legnagyobb populációs diverzitást képviseljék. Ez biztosítja, hogy az 1000 Genom adatállomány a következő öt évben is értékes nyílt forrás maradjon a közösség számára. Az IGSR együtt fog működni azokkal a csoportokkal, amelyek nem tudtak mintákat szolgáltatni az 1000 Genom projekthez, mielőtt az befejezte volna a mintagyűjtést, és megvizsgálja a más csoportokkal való együttműködést annak érdekében, hogy a populációs diverzitás hiányosságait pótolni lehessen. Erről további részleteket a mintagyűjtési elveink oldalán találhat.
A fentiekkel kapcsolatos kérdéseit a [email protected] e-mail címre küldje el.