IGSR: The International Genome Sample Resource

Projektet 1000 Genomes pågick mellan 2008 och 2015 och skapade den största offentliga katalogen över mänsklig variation och genotypdata. Eftersom projektet avslutades har datakoordineringscentret vid EMBL-EBI fått fortsatt finansiering från Wellcome Trust för att upprätthålla och utöka resursen. International Genome Sample Resource (IGSR) inrättades för att göra detta med följande mål:

  1. Säkerställa den framtida tillgången till och användbarheten av 1000 Genomes-referensdata
  2. Incorporera ytterligare publicerade genomdata om 1000 Genomes-proverna
  3. Expandera datainsamlingen för att inkludera nya populationer som inte är representerade. i 1000 Genomes-projektet

1000 Genomes-projektet

Översikt över 1000 Genomes-projektet

Målet med 1000 Genomes-projektet var att hitta de flesta genetiska varianter med frekvenser på minst 1 % i de studerade populationerna.

Det 1000 Genomes-projektet drog nytta av utvecklingen inom sekvenseringstekniken, som kraftigt minskade kostnaden för sekvensering. Det var det första projektet att sekvensera genomet hos ett stort antal människor, för att tillhandahålla en omfattande resurs om mänsklig genetisk variation. Data från 1000-genomprojektet gjordes snabbt tillgängliga för det världsomspännande forskarsamhället genom fritt tillgängliga offentliga databaser.

Sekvensering förblev för dyrt för att djupgående sekvensera de många prover som studerades i projektet. En viss region av genomet innehåller dock i allmänhet ett begränsat antal haplotyper. Data kombinerades mellan prover för att möjliggöra effektiv upptäckt av de flesta varianter i en region. Projektet planerade att sekvensera varje prov till 4x genomtäckning. På detta djup kan sekvenseringen inte upptäcka alla varianter i varje prov, men kan göra det möjligt att upptäcka de flesta varianter med frekvenser så låga som 1 %. I projektets slutfas kombinerades data från 2 504 prover för att möjliggöra en mycket noggrann tilldelning av genotyperna i varje prov på alla de variantplatser som projektet upptäckte. Metoden med flera prover i kombination med imputering av genotyper gjorde det möjligt för projektet att fastställa ett provs genotyp, även i varianter som inte täcktes av sekvenseringsläsningar i det provet.

Bidraget från 1000-genomprojektet till genomik sammanfattades i Nature i det nummer som innehöll de slutliga publikationerna från huvudprojektet.

Design av 1000-genomprojektet

Projektet planerades under ett möte på The Welcome Genome Campus i september 2007. Du kan läsa den ursprungliga planen i mötesrapporten. När projektet väl var igång genomfördes det i fyra faser: en pilotfas och tre faser av huvudprojektet. I huvudprojektet producerade fas ett och tre data, medan fas två koncentrerades på teknisk utveckling.

Pilotprojekt

Tre pilotstudier gav data som låg till grund för utformningen av det fullskaliga projektet:

Pilotprojekt Syfte Täckning Strategi Status
1 – Låg täckning Bedöm strategi för delning av data mellan prover 2-4X Helgenomsekvensering av 180 prover Sekvensering avslutad oktober 2008
2 – trios Bedömning av täckning, plattformar och centra 20-60X Helgenomsekvensering av 180 prover .genomsekvensering av två trios mor-fader-vuxet barn Sekvensering avslutad i oktober 2008
3 – genregioner Bedömning av metoder för genregion- ochcapture 50X 1000 genregioner i 900 prover Sequencing completed June 2009

Data från pilotprojekten analyserades för att avgöra om strategin med 4x täckning var tillräcklig för att uppfylla projektets mål.

Huvudprojekt

Sequencing genomfördes i fas ett och tre av huvudprojektet, med datautlämning och analys motsvarande varje fas. Den slutliga datafrysningen, i samband med den tredje och sista fasen, ägde rum den 2 maj 2013. Denna datamängd (definierad i filen 20130502.sequence.index) utgjorde den slutliga datamängd som låg till grund för analysen i fas tre och ersatte tidigare dataframsläpp. Under projektets gång utvecklades analysmetoderna ytterligare och analysen i fas tre ersätter tidigare versioner.

Den slutliga datamängden innehåller data för 2 504 individer från 26 populationer. Låg täckning och exomsekvensdata finns för alla dessa individer. 24 individer sekvenserades också till hög täckning i valideringssyfte.

Analyser genomfördes där man tittade på både korta variationer (upp till 50 baspars längd) och även strukturella variationer. Dessa analyser publicerades när projektet avslutades 2015. En förteckning över våra viktigaste publikationer finns nedan.

Publikationer

  • Pilotanalys
    • A map of human genome variation from population-scale sequencing Nature 467, 1061-1073 (28 oktober 2010)
  • Phase 1 Analysis
    • An integrated map of genetic variation from 1,092 mänskliga genomer Nature 491, 56-65 (01 november 2012)
  • Fas 3 analys
    • En global referens för mänsklig genetisk variation Nature 526, 68-74 (01 oktober 2015)
    • An integrated map of structural variation in 2,504 human genomes Nature 526, 75-81 (01 oktober 2015)

1000 Genomes Project samples and data

1000 Genomes Project har utarbetat riktlinjer för etiska överväganden för utredare som gör provtagningar, vilka beskrivs i dokumentet Informed Consent Background Document och Informed Consent Form Template. Alla insamlingar som ingår i projektet följde dessa etiska riktlinjer och mallen för informerat samtycke. 1000 Genomes Project Steering Committee, med bidrag från projektets Samples and ELSI Group, fattade de slutliga besluten om vilka populationer och provuppsättningar som skulle ingå i projektet.

Data från 1000 Genomes Project är tillgängliga utan embargo, efter de slutliga publikationerna från projektet. Användning av uppgifterna bör citeras på vanligt sätt, med aktuella uppgifter i FAQ, där ytterligare information om användning av uppgifter från 1000 Genomes-projektet finns att tillgå. Ytterligare information om användning av data som tillhandahålls av IGSR finns tillgänglig och bör också konsulteras.

De tillgängliga data från 1000 Genomes Project kan utforskas på vår datasida, tillsammans med andra data i IGSR. Cellinjer och DNA finns tillgängliga för alla 1000 Genomes-prover och kan erhållas från Coriell Institute. En fullständig förteckning över tillgängliga populationer finns på vår sida om cellinjer och DNA

Proverna för 1000 Genomes-projektet är anonyma och har inga tillhörande medicinska eller fenotypiska uppgifter. Projektet håller självrapporterad etnicitet och kön. Alla deltagare uppgav att de var friska när proverna samlades in.

IGSR

Som nämnts inrättades IGSR för att säkerställa den framtida användbarheten och tillgängligheten av data från 1000-genomprojektet och för att utöka datamängden så att den omfattar nya data om 1000-genomproverna och nya populationer där provtagningen har utförts i linje med IGSR:s provtagningsprinciper.

1. Säkerställa den framtida användbarheten av 1000 Genomes-referensdata

Under 2014 släppte Genome Reference Consortium en uppdatering av den mänskliga sammansättningen, GRCh38. Denna uppdatering av den mänskliga referenssamlingen visar en betydande förbättring av mängden alternativa loci som representeras. Den innehåller nu 178 genomiska regioner med tillhörande alternativa loci (2 % av den kromosomala sekvensen (61,9 Mb)). Detta består av 261 alternativa loci (som innehåller 3,6 Mb ny sekvens i förhållande till kromosomerna). GRC kunde också lösa mer än 1000 problem från den tidigare versionen av sammansättningen.

Att dra nytta av de alternativa loci när man identifierar variation och kallar genotyper är ett viktigt steg för att förbättra vår förmåga att upptäcka mänsklig variation. För närvarande är det mycket få verktyg som kan använda data från alternativa loci. IGSR har återkopplat fas 3 1000 Genomes-data till GRCh38 på ett sätt som är medvetet om alternativa loci med hjälp av BWA mem. Detta ger metodutvecklingsgruppen en källa till anpassningar som kan driva nya metoder framåt, samtidigt som den bredare gruppen får tillgång till uppdaterade anpassningar, vilket gör att alla kan dra nytta av uppgifterna i samband med den nya sammansättningen. IGSR planerar att återkalla varianter på dessa nya anpassningar.

Därutöver anpassas ytterligare uppsättningar av genomsekvensdata till GRCh38, där Platinum Genomes-data från Illumina är den första nya samling data som anpassas.

2. Införliva publicerade genomdata om 1000 Genomes-proverna

1000 Genomes-proverna har visat sig vara en populär resurs för molekylära fenotypningsexperiment och för att undersöka sambanden mellan genetisk variation och uttryck eller mätningar av epigenetiskt tillstånd. Stora datamängder har genererats på dessa prover av projekt som GEUVADIS, som genererade RNA-Seq-data på de europeiska 1000 Genomes-proverna och YRI-populationen, och ENCODE, som har utfört omfattande analyser på cellinjen NA12878. Många andra grupper har också utfört analyser på 1000 Genomes-proverna. IGSR vill presentera all denna information på ett enhetligt sätt så att samhället kan dra nytta av alla uppgifter som finns om dessa prover.

3. Utöka datainsamlingen för att inkludera nya populationer

IGSR inser att de nuvarande proverna från 1000 Genomes-projektet inte återspeglar alla populationer. Ett viktigt mål för IGSR är att utöka de populationer som representeras i samlingen och se till att de tillgängliga offentliga uppgifterna representerar största möjliga populationsdiversitet. Detta kommer att säkerställa att 1000 Genomes datasetet förblir en värdefull öppen resurs för samhället under de kommande fem åren. IGSR kommer att arbeta med de grupper som inte kunde bidra med prover till 1000 Genomes-projektet innan det avslutade provinsamlingen och undersöka samarbeten med andra grupper för att se till att luckorna i befolkningsdiversiteten fylls. Du hittar mer information om detta på vår sida om principer för provinsamling.

Vänligen maila frågor om något av ovanstående till [email protected].

Lämna ett svar

Din e-postadress kommer inte publiceras.