Projekt 1000 Genomes probíhal v letech 2008-2015 a vytvořil největší veřejný katalog lidských variací a genotypových dat. Vzhledem k tomu, že projekt skončil, získalo Centrum pro koordinaci dat v EMBL-EBI od nadace Wellcome Trust další finanční prostředky na udržování a rozšiřování tohoto zdroje. Za tímto účelem byl zřízen Mezinárodní zdroj genomových vzorků (IGSR) s následujícími cíli:
- Zajistit budoucí přístup k referenčním údajům 1000 genomů a jejich použitelnost
- Zapojit další publikované genomické údaje o vzorcích 1000 genomů
- Rozšířit sbírku dat o nové populace, které nejsou zastoupeny. v projektu 1000 genomů
- Projekt 1000 genomů
- Přehled projektu 1000 genomů
- Design of the 1000 Genomes Project
- Pilotní projekt
- Hlavní projekt
- Publikace
- Vzorky a data projektu 1000 genomů
- IGSR
- 1. Zajištění budoucí použitelnosti referenčních dat projektu 1000 genomů
- 2. V rámci projektu GRCh38 jsou do GRCh38 zarovnávány další soubory genomových sekvencí. Začlenění publikovaných genomických dat o vzorcích 1000 Genomes
- 3. Rozšířit sběr dat o nové populace
Projekt 1000 genomů
Přehled projektu 1000 genomů
Cílem projektu 1000 genomů bylo najít většinu genetických variant s frekvencí alespoň 1 % ve studovaných populacích.
Projekt 1000 genomů využil vývoje sekvenační technologie, který prudce snížil náklady na sekvenování. Byl to první projekt, který sekvenoval genomy velkého počtu lidí a poskytl tak komplexní zdroj informací o genetické variabilitě člověka. Data z projektu 1000 genomů byla rychle zpřístupněna celosvětové vědecké komunitě prostřednictvím volně přístupných veřejných databází.
Sekvenování zůstávalo příliš drahé na to, aby bylo možné důkladně sekvenovat velké množství vzorků studovaných v rámci projektu. Každá konkrétní oblast genomu však obecně obsahuje omezený počet haplotypů. Data byla kombinována napříč vzorky, aby bylo možné efektivně detekovat většinu variant v dané oblasti. V rámci projektu se plánovalo sekvenovat každý vzorek do 4násobného pokrytí genomu; při této hloubce sekvenování nelze odhalit všechny varianty v každém vzorku, ale může umožnit detekci většiny variant s frekvencí pouhé 1 %. V závěrečné fázi projektu byla zkombinována data z 2 504 vzorků, což umožnilo vysoce přesné přiřazení genotypů v každém vzorku na všech místech variant, které projekt objevil. Přístup založený na více vzorcích v kombinaci s imputací genotypů umožnil projektu určit genotyp vzorku i u variant, které nebyly v daném vzorku pokryty sekvenačními čteními.
Přínos projektu 1000 genomů ke genomice byl shrnut v časopise Nature v čísle obsahujícím závěrečné publikace z hlavního projektu.
Design of the 1000 Genomes Project
Projekt byl naplánován během setkání v The Welcome Genome Campus v září 2007. Původní plán si můžete přečíst ve zprávě ze schůzky. Jakmile se projekt rozběhl, probíhal ve čtyřech fázích: pilotní fáze a tři fáze hlavního projektu. V rámci hlavního projektu byly v první a třetí fázi získány údaje, druhá fáze se soustředila na technický vývoj.
Pilotní projekt
Tři pilotní studie poskytly údaje, které sloužily jako podklad pro návrh projektu v plném rozsahu:
Pilotní projekt | Cíl | Obsah | Strategie | Stav | |
---|---|---|---|---|---|
1 -. nízké pokrytí | Zhodnocení strategie sdílení dat napříč vzorky | 2-4X | Celogenomové sekvenování 180 vzorků | Sekvenování dokončeno v říjnu 2008 | |
2 – trojice | Ohodnocení pokrytí a platforem a center | 20-60X | Celogenomové sekvenování | .sekvenování genomu 2 trojic matka-otec-dospělé dítě | Sekvenování dokončeno v říjnu 2008 |
3 – genové oblasti | Ohodnocení metod pro genové oblasti-zachycení | 50X | 1000 genových oblastí v 900 vzorcích | Sekvenování dokončeno červen 2009 |
Data z pilotních projektů byla analyzována, aby se zjistilo, zda strategie 4x pokrytí byla adekvátní k dosažení cílů projektu.
Hlavní projekt
Sekvenování bylo provedeno v první a třetí fázi hlavního projektu, přičemž každé z nich odpovídalo uvolnění a analýza dat. Závěrečné zmrazení dat spojené s třetí a poslední fází proběhlo 2. května 2013. Tento soubor dat (definovaný v souboru 20130502.sequence.index) představoval finalizovaný soubor dat, na němž byla založena analýza třetí fáze, a nahradil předchozí uvolnění dat. V průběhu projektu byly metody analýzy dále rozvíjeny a analýza třetí fáze nahrazuje dřívější verze.
Konečný soubor dat obsahuje údaje pro 2 504 jedinců z 26 populací. Pro všechny tyto jedince jsou k dispozici data o nízkém pokrytí a exomové sekvence, 24 jedinců bylo pro účely validace sekvenováno také na vysoké pokrytí.
Byly provedeny analýzy, které se zabývaly jak krátkými odchylkami (do délky 50 párů bází), tak i strukturálními odchylkami. Tyto analýzy byly zveřejněny na závěr projektu v roce 2015. Seznam našich hlavních publikací si můžete prohlédnout níže.
Publikace
- Pilotní analýza
- Mapa variability lidského genomu ze sekvenování v populačním měřítku Nature 467, 1061-1073 (28. října 2010)
- Analýza 1. fáze
- Integrovaná mapa genetické variability z 1. fáze,092 lidských genomů Nature 491, 56-65 (1. listopadu 2012)
- Fáze 3 Analýza
- Globální reference lidské genetické variability Nature 526, 68-74 (01. října 2015)
- Integrovaná mapa strukturní variability v 2 504 lidských genomech Nature 526, 75-81 (01. října 2015)
Vzorky a data projektu 1000 genomů
Projekt 1000 genomů vypracoval pokyny týkající se etických aspektů pro výzkumníky provádějící odběr vzorků, které jsou uvedeny v dokumentu Informed Consent Background Document a ve vzoru formuláře informovaného souhlasu. Všechny sběry zahrnuté do projektu se řídily těmito etickými pokyny a vzorovým zněním informovaného souhlasu. Řídící výbor projektu 1000 genomů s přispěním skupiny pro vzorky a ELSI projektu učinil konečné rozhodnutí o tom, které populace a soubory vzorků budou do projektu zahrnuty.
Data z projektu 1000 genomů jsou k dispozici bez embarga po vydání závěrečných publikací z projektu. Použití dat by mělo být uváděno obvyklým způsobem, přičemž aktuální podrobnosti jsou k dispozici v často kladených dotazech, kde lze nalézt další podrobnosti o používání dat z projektu 1000 genomů. Další informace o používání dat poskytovaných IGSR jsou k dispozici a měly by být rovněž konzultovány.
Dostupná data z projektu 1000 genomů lze prozkoumat na naší stránce s daty, spolu s dalšími daty v IGSR. Buněčné linie a DNA jsou k dispozici pro všechny vzorky z projektu 1000 genomů a lze je získat v Coriell Institute. Úplný seznam dostupných populací naleznete na naší stránce Buněčné linie a DNA
Vzorky pro projekt 1000 genomů jsou anonymní a nemají žádné související lékařské nebo fenotypové údaje. Projekt uchovává údaje o vlastní etnické příslušnosti a pohlaví. Všichni účastníci o sobě prohlásili, že byli v době odběru vzorků zdraví.
IGSR
Jak bylo uvedeno, IGSR byl založen za účelem zajištění budoucí použitelnosti a dostupnosti údajů z projektu 1000 genomů a rozšíření souboru údajů o nové údaje o vzorcích 1000 genomů a o nové populace, u nichž byl odběr vzorků proveden v souladu se zásadami odběru vzorků IGSR.
1. Zajištění budoucí použitelnosti referenčních dat projektu 1000 genomů
V roce 2014 vydalo konsorcium Genome Reference Consortium aktualizaci lidské sestavy GRCh38. Tato aktualizace lidské referenční sestavy vykazuje výrazné zlepšení v množství zastoupených alternativních lokusů. Nyní obsahuje 178 genomových oblastí s přidruženými alternativními lokusy (2 % chromozomální sekvence (61,9 Mb)). To je tvořeno 261 alternativními lokusy (obsahujícími 3,6 Mb nové sekvence vzhledem k chromozomům). GRC se také podařilo vyřešit více než 1000 problémů z předchozí verze sestavy.
Využití alternativních lokusů při identifikaci variability a volání genotypů je důležitým krokem ke zlepšení naší schopnosti odhalovat lidskou variabilitu. V současné době umí data z alternativních lokusů využívat jen velmi málo nástrojů. IGSR přemapoval data z fáze 3 1000 genomů na GRCh38 způsobem zohledňujícím alternativní lokusy pomocí BWA mem. To poskytuje komunitě vyvíjející metody zdroj zarovnání, která mohou pohánět nové metody kupředu, a také poskytuje širší komunitě aktuální zarovnání, což zajišťuje, že všichni mohou využívat data v kontextu nového sestavení. IGSR plánuje na těchto nových zarovnáních odvolávat varianty.
Kromě toho jsou do GRCh38 zarovnávány další soubory dat genomových sekvencí, přičemž první novou kolekcí dat, která bude zarovnána, jsou data Platinum Genomes od společnosti Illumina.
Vzorky 1000 Genomes se ukázaly jako oblíbený zdroj pro experimenty molekulárního fenotypování a zkoumání souvislostí mezi genetickou variabilitou a expresí nebo měření epigenetického stavu. Na těchto vzorcích byly vytvořeny rozsáhlé soubory dat v rámci projektů, jako je GEUVADIS, který vytvořil data RNA-Seq na evropských vzorcích 1000 genomů a populaci YRI, a ENCODE, který provedl rozsáhlé testy na buněčné linii NA12878. Mnoho dalších skupin rovněž provedlo testy na vzorcích 1000 genomů. IGSR by rád prezentoval všechny tyto informace jednotným způsobem, aby komunita mohla využívat všechny údaje, které o těchto vzorcích existují.
3. Rozšířit sběr dat o nové populace
IGSR uznává, že současné vzorky projektu 1000 genomů neodrážejí všechny populace. Důležitým cílem IGSR je rozšířit populace zastoupené ve sbírce a zajistit, aby dostupná veřejná data reprezentovala maximální možnou populační rozmanitost. Tím bude zajištěno, že soubor dat 1000 genomů zůstane v příštích pěti letech cenným otevřeným zdrojem pro komunitu. IGSR bude spolupracovat se skupinami, které nemohly přispět vzorky do projektu 1000 genomů před ukončením sběru vzorků, a prozkoumá možnosti spolupráce s dalšími skupinami, aby zajistil zaplnění mezer v populační rozmanitosti. Další podrobnosti o tom najdete na stránce o zásadách sběru vzorků.
Dotazy týkající se výše uvedeného zašlete na adresu [email protected].
.