IGSR: The International Genome Sample Resource

Det 1000 Genomes-projektet løb mellem 2008 og 2015 og skabte det største offentlige katalog over menneskelig variation og genotypedata. Da projektet sluttede, har datakoordineringscentret ved EMBL-EBI modtaget fortsat finansiering fra Wellcome Trust til at vedligeholde og udvide ressourcen. International Genome Sample Resource (IGSR) blev oprettet med henblik på at gøre dette med følgende mål

  1. Sikre den fremtidige adgang til og anvendelighed af 1000 Genomes-referencedataene
  2. Indarbejde yderligere offentliggjorte genomiske data om 1000 Genomes-prøverne
  3. Udvide dataindsamlingen til at omfatte nye populationer, der ikke er repræsenteret i 1000 Genomes-projektet

1000 Genomes-projektet

Overblik over 1000 Genomes-projektet

Målet med 1000 Genomes-projektet var at finde de fleste genetiske varianter med en hyppighed på mindst 1 % i de undersøgte populationer.

Det 1000-genom-projektet benyttede sig af udviklingen inden for sekventeringsteknologien, som reducerede omkostningerne til sekventering markant. Det var det første projekt til at sekventere genomerne af et stort antal mennesker for at tilvejebringe en omfattende ressource om den menneskelige genetiske variation. Data fra 1000-genomprojektet blev hurtigt stillet til rådighed for det verdensomspændende videnskabelige samfund gennem frit tilgængelige offentlige databaser.

Sekventering var fortsat for dyrt til at foretage en dybdegående sekventering af de mange prøver, der blev undersøgt i projektet. En bestemt region af genomet indeholder imidlertid generelt et begrænset antal haplotyper. Data blev kombineret på tværs af prøverne for at muliggøre effektiv påvisning af de fleste varianter i en region. Projektet planlagde at sekventere hver prøve til 4x genomdækning; ved denne dybde kan sekventering ikke afdække alle varianter i hver prøve, men kan gøre det muligt at påvise de fleste varianter med frekvenser så lave som 1%. I projektets slutfase blev data fra 2 504 prøver kombineret for at muliggøre en meget nøjagtig tildeling af genotyperne i hver prøve på alle de variantsteder, som projektet havde opdaget. Tilgangen med flere prøver kombineret med genotypeimputering gjorde det muligt for projektet at bestemme en prøves genotype, selv i varianter, der ikke var dækket af sekventeringsreads i den pågældende prøve.

Det bidrag, som 1000 Genomes Project har ydet til genomforskning, blev sammenfattet i Nature i det nummer, der indeholdt de endelige publikationer fra hovedprojektet.

Design af 1000 Genomes Project

Projektet blev planlagt på et møde på The Welcome Genome Campus i september 2007. Du kan læse den oprindelige plan i mødereferatet. Da projektet først var gået i gang, blev det gennemført i fire faser: en pilotfase og tre faser af hovedprojektet. I hovedprojektet producerede fase et og tre data, mens fase to var koncentreret om den tekniske udvikling.

Pilotprojekt

Tre pilotundersøgelser leverede data til brug for udformningen af det fuldskala projekt:

Pilotprojekt Mål Opgave Dækning Strategi Status
1 – lav dækning Vurder strategi for deling af data på tværs af prøver 2-4X Helgenomsekventering af 180 prøver Sekventering afsluttet oktober 2008
2 – trioer Vurdering af dækning og platforme og centre 20-60X Helgenomsekventeringgenomsekventering af 2 trioer af mor, far og voksent barn Sekventering afsluttet oktober 2008
3 – genregioner Vurdering af metoder til gen-regions-capture 50X 1000 genregioner i 900 prøver Sequencing afsluttet juni 2009

Data fra pilotprojekterne blev analyseret for at afgøre, om strategien med 4x dækning var tilstrækkelig til at opfylde projektets mål.

Hovedprojekt

Sequencing blev udført i fase et og tre af hovedprojektet, med datafrigivelser og analyser svarende til hver fase. Den endelige frysning af data i forbindelse med den tredje og sidste fase fandt sted den 2. maj 2013. Dette datasæt (defineret i filen 20130502.sequence.index) repræsenterede det endelige datasæt, som analysen i fase tre var baseret på, og det erstattede tidligere datafrigivelser. I løbet af projektet blev analysemetoderne videreudviklet, og analysen i fase tre erstatter tidligere versioner.

Det endelige datasæt indeholder data for 2 504 individer fra 26 populationer. Der findes data for lav dækning og exomsekvensdata for alle disse individer. 24 individer blev også sekventeret til høj dækning med henblik på validering.

Der blev gennemført analyser, hvor der blev set på både de korte variationer (op til 50 basepars længde) og også strukturelle variationer. Disse analyser blev offentliggjort ved afslutningen af projektet i 2015. En liste over vores vigtigste publikationer kan ses nedenfor.

Publikationer

  • Pilotanalyse
    • Et kort over variationen i det menneskelige genom fra sekventering i befolkningsskala Nature 467, 1061-1073 (28. oktober 2010)
  • Fase 1-analyse
    • Et integreret kort over den genetiske variation fra 1,092 menneskelige genomer Nature 491, 56-65 (01 november 2012)
  • Fase 3-analyse
    • En global reference for menneskelig genetisk variation Nature 526, 68-74 (01 oktober 2015)
    • An integrated map of structural variation in 2,504 human genomes Nature 526, 75-81 (01 oktober 2015)

1000 Genomes Project samples and data

1000 Genomes Project udviklede retningslinjer for etiske overvejelser for forskere, der foretager prøveudtagning, som er beskrevet i Informed Consent Background Document og Informed Consent Form Template (skabelon for informeret samtykke). Alle indsamlinger, der indgår i projektet, fulgte disse etiske retningslinjer og modellen for informeret samtykke. 1000 Genomes Project Steering Committee traf med input fra projektets Samples and ELSI Group de endelige beslutninger om, hvilke populationer og prøvesæt der skulle indgå i projektet.

Data fra 1000 Genomes Project er tilgængelige uden embargo, efter de endelige publikationer fra projektet. Anvendelse af dataene bør citeres på den sædvanlige måde, med aktuelle oplysninger i FAQ’erne, hvor der findes yderligere oplysninger om anvendelse af 1000 Genomes Project-data. Yderligere oplysninger om anvendelse af data fra IGSR er tilgængelige og bør også konsulteres.

De tilgængelige data fra 1000 Genomes Project kan udforskes på vores dataside sammen med andre data i IGSR. Cellelinjer og DNA er tilgængelige for alle 1000 Genomes-prøver og kan fås fra Coriell Institute. En komplet liste over de tilgængelige populationer findes på vores side om cellelinjer og DNA

Prøverne til 1000 Genomes-projektet er anonyme og har ingen tilknyttede medicinske data eller fænotypedata. Projektet indeholder selvrapporteret etnicitet og køn. Alle deltagere erklærede, at de var raske på det tidspunkt, hvor prøverne blev indsamlet.

IGSR

Som nævnt blev IGSR oprettet for at sikre den fremtidige anvendelighed og tilgængelighed af data fra 1000-genom-projektet og for at udvide datasættet til at omfatte nye data om 1000-genom-prøverne og nye populationer, hvor prøveudtagningen er blevet udført i overensstemmelse med IGSR’s prøveudtagningsprincipper.

1. Sikring af den fremtidige anvendelighed af 1000 Genomes-referencedataene

I 2014 frigav Genome Reference Consortium en opdatering af den menneskelige samling, GRCh38. Denne opdatering af den menneskelige referencegruppering viser en betydelig forbedring i mængden af alternative loci, der er repræsenteret. Den indeholder nu 178 genomiske regioner med tilknyttede alternative loci (2 % af den kromosomale sekvens (61,9 Mb)). Dette består af 261 alternative loci (som indeholder 3,6 Mb ny sekvens i forhold til kromosomer). GRC var også i stand til at løse mere end 1000 problemer fra den tidligere version af samlingen.

At drage fordel af de alternative loci ved identifikation af variation og kaldelse af genotyper er et vigtigt skridt til at forbedre vores evne til at opdage menneskelig variation. I øjeblikket er der meget få værktøjer, der kan bruge de alternative loci-data. IGSR har omkortet fase 3 1000 Genomes-dataene til GRCh38 på en alternativ loci-bevidst måde ved hjælp af BWA mem. Dette giver metodeudviklingsfællesskabet en kilde til tilpasninger, der kan fremme nye metoder, samt giver det bredere samfund ajourførte tilpasninger, hvilket sikrer, at alle kan drage fordel af dataene i forbindelse med den nye samling. IGSR planlægger at tilbagekalde varianter på disse nye alignments.

Dertil kommer, at yderligere sæt genomiske sekvensdata er ved at blive alignet til GRCh38, idet Platinum Genomes-dataene fra Illumina er den første nye samling af data, der er blevet alignet.

2. Indarbejdelse af offentliggjorte genomiske data om 1000 Genomes-prøverne

1000 Genomes-prøverne har vist sig at være en populær ressource til molekylære fænotypeforsøg og til undersøgelse af forbindelserne mellem genetisk variation og ekspression eller målinger af epigenetisk tilstand. Store datasæt er blevet genereret på disse prøver af projekter som GEUVADIS, der genererede RNA-Seq-data på de europæiske 1000 Genomes-prøver og YRI-populationen, og ENCODE, der har udført omfattende analyser på NA12878-cellinjen. Mange andre grupper har også gennemført analyser på 1000-genom-prøverne. IGSR vil gerne præsentere alle disse oplysninger på en samlet måde, så samfundet kan drage fordel af alle de data, der findes om disse prøver.

3. Udvidelse af dataindsamlingen til at omfatte nye populationer

IGSR erkender, at de nuværende prøver fra 1000 Genomes-projektet ikke afspejler alle populationer. Et vigtigt mål for IGSR er at udvide de populationer, der er repræsenteret i indsamlingen, og sikre, at de tilgængelige offentlige data repræsenterer den størst mulige populationsdiversitet. Dette vil sikre, at 1000-genomdatasættet fortsat er en værdifuld åben ressource for samfundet i de næste fem år. IGSR vil arbejde sammen med de grupper, der ikke kunne bidrage med prøver til 1000-genomprojektet, inden det afsluttede prøveindsamlingen, og undersøge samarbejde med andre grupper for at sikre, at hullerne i befolkningsdiversiteten bliver udfyldt. Du kan finde flere oplysninger om dette på vores side om principperne for prøveindsamling.

Spørgsmål om ovenstående bedes sendt pr. e-mail til [email protected].

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.