IGSR: The International Genome Sample Resource

Projekt 1000 Genomes był realizowany w latach 2008-2015, tworząc największy publiczny katalog ludzkich danych dotyczących zmienności i genotypów. W związku z zakończeniem projektu, Centrum Koordynacji Danych w EMBL-EBI otrzymało dalsze finansowanie od Wellcome Trust w celu utrzymania i rozszerzenia zasobu. W tym celu utworzono International Genome Sample Resource (IGSR), którego cele są następujące:

  1. Zapewnienie przyszłego dostępu do danych referencyjnych 1000 Genomes i ich użyteczności
  2. Włączenie dodatkowych opublikowanych danych genomowych dotyczących próbek 1000 Genomes
  3. Rozszerzenie kolekcji danych w celu włączenia nowych populacji niereprezentowanych w 1000 Genomes Project

The 1000 Genomes Project

Overview of the 1000 Genomes Project

Celem 1000 Genomes Project było znalezienie większości wariantów genetycznych o częstotliwości co najmniej 1% w badanych populacjach.

Projekt 1000 Genomes wykorzystał rozwój technologii sekwencjonowania, który znacznie obniżył koszty sekwencjonowania. Był to pierwszy projekt mający na celu sekwencjonowanie genomów dużej liczby osób, aby zapewnić kompleksowe źródło informacji na temat zmienności genetycznej człowieka. Dane z projektu 1000 Genomes zostały szybko udostępnione światowej społeczności naukowej poprzez ogólnodostępne publiczne bazy danych.

Sekwencjonowanie pozostało zbyt drogie, aby dogłębnie przeanalizować wiele próbek badanych w ramach projektu. Jednak każdy konkretny region genomu generalnie zawiera ograniczoną liczbę haplotypów. Dane zostały połączone w próbkach, aby umożliwić efektywne wykrywanie większości wariantów w danym regionie. W ramach projektu zaplanowano sekwencjonowanie każdej próbki do 4x pokrycia genomu; przy tej głębokości sekwencjonowanie nie może odkryć wszystkich wariantów w każdej próbce, ale może pozwolić na wykrycie większości wariantów o częstotliwości zaledwie 1%. W końcowej fazie projektu, dane z 2,504 próbek zostały połączone, aby umożliwić bardzo dokładne przypisanie genotypów w każdej próbce we wszystkich miejscach występowania wariantów, które zostały odkryte w ramach projektu. Podejście wielopróbkowe w połączeniu z imputacją genotypu umożliwiło projektowi określenie genotypu próbki, nawet w przypadku wariantów nieobjętych odczytami sekwencjonowania w tej próbce.

Wkład Projektu 1000 Genomes w genomikę został podsumowany w Nature w wydaniu zawierającym końcowe publikacje z głównego projektu.

Projekt Projektu 1000 Genomes

Projekt został zaplanowany podczas spotkania w The Welcome Genome Campus we wrześniu 2007 roku. Pierwotny plan można przeczytać w raporcie z tego spotkania. Po rozpoczęciu, projekt był realizowany w czterech etapach: faza pilotażowa i trzy fazy projektu głównego. W ramach głównego projektu w fazach pierwszej i trzeciej uzyskano dane, a w fazie drugiej skoncentrowano się na rozwoju technicznym.

Projekt pilotażowy

Trzy badania pilotażowe dostarczyły danych, na podstawie których opracowano koncepcję projektu na pełną skalę:

Pilot Cel Objęcie Strategia Status
1 -. low coverage Assess strategy of sharing data across samples 2-4X Sekwencjonowanie całego genomu 180 próbek Sekwencjonowanie zakończone w październiku 2008
2 – trio Ocena pokrycia, platform i ośrodków 20-60X Sekwencjonowanie całego genomugenomowe sekwencjonowanie 2 trio matka-ojciec-dorosłe dziecko Sekwencjonowanie zakończone październik 2008
3 – regiony genowe Ocena metod dla regionów genowychcapture 50X 1000 regionów genowych w 900 próbkach Sekwencjonowanie zakończone czerwiec 2009

Dane z projektów pilotażowych zostały przeanalizowane w celu określenia, czy strategia 4x pokrycia była odpowiednia do spełnienia celów projektu.

Projekt główny

Sekwencjonowanie przeprowadzono w fazach pierwszej i trzeciej projektu głównego, z uwolnieniem danych i analizą odpowiadającą każdej z nich. Ostateczne zamrożenie danych, związane z trzecią i ostatnią fazą, miało miejsce 2 maja 2013 roku. Ten zbiór danych (określony w pliku 20130502.sequence.index) stanowił ostateczny zbiór danych, na którym opierała się analiza fazy trzeciej i zastąpił poprzednie wydania danych. W trakcie trwania projektu metody analizy były dalej rozwijane, a analiza fazy trzeciej zastępuje wcześniejsze wersje.

Ostateczny zbiór danych zawiera dane dla 2 504 osobników z 26 populacji. Niskie pokrycie i dane sekwencji egzomu są obecne dla wszystkich tych osób, 24 osoby zostały również zsekwencjonowane do wysokiego pokrycia dla celów walidacji.

Analizy zostały przeprowadzone, patrząc zarówno na krótkie zmiany (do 50 par zasad w długości), jak i zmiany strukturalne. Analizy te zostały opublikowane na zakończenie projektu w 2015 roku. Listę naszych głównych publikacji można zobaczyć poniżej.

Publikacje

  • Pilot Analysis
    • A map of human genome variation from population-scale sequencing Nature 467, 1061-1073 (28 października 2010)
  • Phase 1 Analysis
    • An integrated map of genetic variation from 1,092 ludzkich genomów Nature 491, 56-65 (01 listopada 2012)
  • Phase 3 Analysis
    • A global reference for human genetic variation Nature 526, 68-74 (01 października 2015)
    • An integrated map of structural variation in 2,504 human genomes Nature 526, 75-81 (01 października 2015)

1000 Genomes Project samples and data

The 1000 Genomes Project developed guidelines on ethical considerations for investigators doing sampling, outlined in the Informed Consent Background Document and the Informed Consent Form Template. Wszystkie zbiory włączone do projektu były zgodne z tymi wytycznymi etycznymi i wzorcowym językiem świadomej zgody. Komitet Sterujący Projektu 1000 Genomes, z wkładem Grupy Próbek i ELSI, podjął ostateczne decyzje o tym, które populacje i zestawy próbek włączyć do projektu.

Dane z Projektu 1000 Genomes są dostępne bez embarga, po końcowych publikacjach z projektu. Wykorzystanie tych danych powinno być cytowane w zwykły sposób, z aktualnymi szczegółami dostępnymi w FAQs, gdzie można znaleźć dalsze szczegóły dotyczące wykorzystania danych z 1000 Genomes Project. Dodatkowe informacje na temat wykorzystania danych dostarczonych przez IGSR są dostępne i również powinny być konsultowane.

Dostępne dane z Projektu 1000 Genomes mogą być zbadane na naszej stronie danych, obok innych danych w IGSR. Linie komórkowe i DNA są dostępne dla wszystkich próbek 1000 Genomes i mogą być uzyskane z Coriell Institute. Pełną listę dostępnych populacji można znaleźć na naszej stronie Linie komórkowe i DNA

Próbki dla Projektu 1000 Genomes są anonimowe i nie mają powiązanych danych medycznych lub fenotypowych. Projekt posiada samodzielnie zgłoszone pochodzenie etniczne i płeć. Wszyscy uczestnicy zadeklarowali, że są zdrowi w czasie pobierania próbek.

IGSR

Jak stwierdzono, IGSR został utworzony w celu zapewnienia przyszłej użyteczności i dostępności danych z Projektu 1000 Genomes i rozszerzenia zbioru danych w celu włączenia nowych danych na temat próbek 1000 Genomes i nowych populacji, w których pobieranie próbek zostało przeprowadzone zgodnie z zasadami pobierania próbek IGSR.

1. Zapewnienie przyszłej użyteczności danych referencyjnych 1000 Genomes

W 2014 r. konsorcjum Genome Reference Consortium wydało aktualizację złożenia ludzkiego, GRCh38. Ta aktualizacja ludzkiego złożenia referencyjnego wykazuje znaczącą poprawę w ilości reprezentowanych alternatywnych loci. Obecnie zawiera ona 178 regionów genomowych z powiązanymi loci alternatywnymi (2% sekwencji chromosomalnej (61,9 Mb)). Składa się na to 261 alternatywnych loci (zawierających 3,6 Mb nowej sekwencji w stosunku do chromosomów). GRC byli również w stanie rozwiązać ponad 1000 problemów z poprzedniej wersji montażu.

Wykorzystanie alternatywnych loci podczas identyfikacji zmienności i wywoływania genotypów jest ważnym krokiem w poprawie naszej zdolności do odkrywania ludzkiej zmienności. Obecnie bardzo niewiele narzędzi może wykorzystywać dane dotyczące alternatywnych loci. IGSR dokonał remappingu danych fazy 3 1000 Genomes do GRCh38 w sposób świadomy alternatywnych loci przy użyciu BWA mem. Zapewnia to społeczności opracowującej metody źródło wyrównań, które mogą być motorem napędowym nowych metod, jak również dostarcza szerszej społeczności aktualnych wyrównań, zapewniając, że wszyscy mogą korzystać z danych w kontekście nowego złożenia. IGSR planuje wycofać warianty na tych nowych wyrównaniach.

Ponadto kolejne zestawy danych sekwencji genomowych są dostosowywane do GRCh38, przy czym dane Platinum Genomes z Illumina są pierwszym nowym zbiorem danych, które mają być wyrównane.

2. Włączenie opublikowanych danych genomowych dotyczących próbek 1000 Genomes

Próbki 1000 Genomes okazały się popularnym zasobem do eksperymentów fenotypowania molekularnego i badania związków między zmiennością genetyczną a ekspresją lub pomiarami stanu epigenetycznego. Duże zbiory danych zostały wygenerowane na tych próbkach przez projekty takie jak GEUVADIS, który wygenerował dane RNA-Seq na europejskich próbkach 1000 Genomes i populacji YRI, oraz ENCODE, który przeprowadził obszerne badania na linii komórkowej NA12878. Wiele innych grup również przeprowadziło badania na próbkach z 1000 Genomes. IGSR chciałby przedstawić wszystkie te informacje w ujednolicony sposób, aby społeczność mogła skorzystać ze wszystkich danych, które istnieją na tych próbkach.

3. Rozszerzenie kolekcji danych, aby włączyć nowe populacje

IGSR uznaje, że obecne próbki Projektu 1000 Genomes nie odzwierciedlają wszystkich populacji. Ważnym celem dla IGSR jest rozszerzenie populacji reprezentowanych w kolekcji i zapewnienie, że dostępne dane publiczne reprezentują maksymalną możliwą różnorodność populacji. Zapewni to, że zbiór danych 1000 Genomes pozostanie wartościowym otwartym zasobem dla społeczności przez następne pięć lat. IGSR będzie współpracować z grupami, które nie były w stanie dostarczyć próbek do Projektu 1000 Genomes przed zakończeniem zbierania próbek oraz badać współpracę z innymi grupami w celu zapewnienia, że luki w różnorodności populacji zostaną wypełnione. Więcej szczegółów na ten temat można znaleźć na naszej stronie dotyczącej zasad zbierania próbek.

Proszę wysłać e-mail z pytaniami dotyczącymi któregokolwiek z powyższych tematów na adres [email protected].

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.