Het 1000-genoomproject liep van 2008 tot 2015 en creëerde de grootste openbare catalogus van menselijke variatie en genotypegegevens. Na afloop van het project heeft het Data Coordination Centre bij het EMBL-EBI verdere financiering van de Wellcome Trust gekregen om de bron te onderhouden en uit te breiden. Daartoe werd de International Genome Sample Resource (IGSR) opgezet met de volgende doelstellingen:
- Zorgen voor de toekomstige toegang tot en bruikbaarheid van de 1000-genoomreferentiegegevens
- Opnemen van extra gepubliceerde genoomgegevens over de 1000-genoomstalen
- Uitbreiden van de gegevensverzameling met nieuwe populaties die niet vertegenwoordigd zijn in het 1000-genomen project
- Het 1000-genomen project
- Overzicht van het 1000-genomen project
- Ontwerp van het 1000-genoomproject
- Proefproject
- Hoofdproject
- Publicaties
- 1000 Genomes Project samples and data
- IGSR
- 1. Zorgen voor de toekomstige bruikbaarheid van de 1000-genoomreferentiegegevens
- 2. Opnemen van gepubliceerde genomische gegevens over de 1000 Genomes-monsters
- 3. De gegevensverzameling uitbreiden om nieuwe populaties op te nemen
Het 1000-genomen project
Overzicht van het 1000-genomen project
Het doel van het 1000-genomen project was om de meeste genetische varianten te vinden met frequenties van ten minste 1% in de bestudeerde populaties.
Het 1000-genomenproject profiteerde van ontwikkelingen in de sequencingtechnologie, waardoor de kosten van sequencing sterk daalden. Het was het eerste project waarbij de genomen van een groot aantal mensen werden gesequenteerd om een uitgebreide bron van informatie over de menselijke genetische variatie te verkrijgen. De gegevens van het 1000-genoomproject werden snel ter beschikking van de wereldwijde wetenschappelijke gemeenschap gesteld via vrij toegankelijke openbare databanken.
Sequencing bleef te duur om de vele monsters die in het kader van het project werden bestudeerd, diepgaand te sequencen. Een bepaalde regio van het genoom bevat echter over het algemeen een beperkt aantal haplotypen. De gegevens van de verschillende monsters werden gecombineerd om de meeste varianten in een regio efficiënt te kunnen opsporen. Het project plande om elk staal te sequencen tot 4x genoom-dekking; op deze diepte kan sequencing niet alle varianten in elk staal ontdekken, maar wel de meeste varianten met frequenties tot 1% opsporen. In de laatste fase van het project werden de gegevens van 2.504 stalen gecombineerd om een zeer nauwkeurige toewijzing van de genotypes in elk staal op alle door het project ontdekte variantenplaatsen mogelijk te maken. De multi-sample aanpak gecombineerd met genotype imputatie stelde het project in staat het genotype van een monster te bepalen, zelfs bij varianten die niet werden gedekt door sequencing reads in dat monster.
De bijdrage van het 1000-genoomproject aan genomics werd samengevat in Nature in het nummer met de laatste publicaties van het hoofdproject.
Ontwerp van het 1000-genoomproject
Het project werd gepland tijdens een vergadering op The Welcome Genome Campus in september 2007. Het oorspronkelijke plan is te lezen in het verslag van de vergadering. Eenmaal van start gegaan, werd het project in vier fasen uitgevoerd: een proeffase en drie fasen van het hoofdproject. In het hoofdproject leverden fase één en drie gegevens op, terwijl fase twee op de technische ontwikkeling was toegespitst.
Proefproject
Drie proefstudies leverden gegevens op voor de opzet van het grootschalige project:
Pilot | Doel | Bereik | Strategie | Status |
---|---|---|---|---|
1 – lage dekking | Bepaal strategie voor het delen van gegevens over monsters | 2-4X | Whole-genome sequencing van 180 monsters | Sequencing voltooid in oktober 2008 |
2 – trio’s | Bepaal de dekking en platforms en centra | 20-60X | Whole-genoomsequencing van 2 moeder-vader-volwassen kind trio’s | Sequencing voltooid oktober 2008 |
3 – genregio’s | Beoordeling methoden voor gen-regio-50X | 1000 genregio’s in 900 monsters | Sequencing voltooid juni 2009 |
De gegevens van de proefprojecten werden geanalyseerd om te bepalen of de strategie van 4x dekking volstond om de doelstellingen van het project te verwezenlijken.
Hoofdproject
Sequencing werd uitgevoerd in fase één en fase drie van het hoofdproject, met gegevensvrijgave en -analyse voor elke fase. De bevriezing van de laatste gegevens, in verband met de derde en laatste fase, vond plaats op 2 mei 2013. Deze dataset (gedefinieerd in het bestand 20130502.sequence.index) vormde de definitieve dataset waarop de analyse van fase drie was gebaseerd en kwam in de plaats van eerdere gegevensreleases. In de loop van het project werden de analysemethoden verder ontwikkeld en de analyse van fase drie vervangt eerdere versies.
De definitieve dataset bevat gegevens voor 2.504 individuen uit 26 populaties. Voor al deze individuen zijn sequentiegegevens met een lage dekking en exoomsequentiegegevens aanwezig; voor validatiedoeleinden werden 24 individuen ook met een hoge dekking gesequencet.
Analyses werden uitgevoerd, waarbij zowel naar de korte variaties (tot 50 basenparen lengte) als naar structurele variaties werd gekeken. Deze analyses werden bij de afsluiting van het project in 2015 gepubliceerd. Een lijst van onze belangrijkste publicaties is hieronder te zien.
Publicaties
- Pilot Analysis
- A map of human genome variation from population-scale sequencing Nature 467, 1061-1073 (28 oktober 2010)
- Phase 1 Analysis
- An integrated map of genetic variation from 1,092 menselijke genomen Nature 491, 56-65 (01 november 2012)
- Phase 3 Analyse
- Een wereldwijde referentie voor menselijke genetische variatie Nature 526, 68-74 (01 oktober 2015)
- Een geïntegreerde kaart van structurele variatie in 2.504 menselijke genomen Nature 526, 75-81 (01 oktober 2015)
1000 Genomes Project samples and data
Het 1000 Genomes Project ontwikkelde richtlijnen voor ethische overwegingen voor onderzoekers die bemonstering doen, geschetst in het Informed Consent Background Document en het Informed Consent Form Template. Alle in het project opgenomen collecties volgden deze ethische richtsnoeren en de modeltaal voor geïnformeerde toestemming. De Stuurgroep van het 1000-genoomproject heeft, met inbreng van de Steekproeven- en ELSI-groep van het project, de uiteindelijke beslissingen genomen over welke populaties en steekproefreeksen in het project werden opgenomen.
De gegevens van het 1000-genoomproject zijn zonder embargo beschikbaar, na de laatste publicaties van het project. Gebruik van de gegevens moet op de gebruikelijke manier worden vermeld, met actuele details in de FAQ’s, waar verdere details over het gebruik van 1000-genomen-projectgegevens kunnen worden gevonden. Aanvullende informatie over het gebruik van door IGSR verstrekte gegevens is beschikbaar en moet ook worden geraadpleegd.
De beschikbare gegevens van het 1000-genoomsproject kunnen worden verkend op onze gegevenspagina, naast andere gegevens in IGSR. Cellijnen en DNA zijn beschikbaar voor alle 1000 Genomes-monsters en kunnen worden verkregen bij het Coriell Institute. Een volledige lijst van de beschikbare populaties is te vinden op onze cellijnen en DNA pagina
De monsters voor het 1000-genoomsproject zijn anoniem en hebben geen geassocieerde medische of fenotypegegevens. Het project houdt zelfgerapporteerde etniciteit en geslacht bij. Alle deelnemers verklaarden gezond te zijn op het moment dat de monsters werden verzameld.
IGSR
Zoals gezegd, werd het IGSR opgezet om de bruikbaarheid en toegankelijkheid van de gegevens van het 1000-genomenproject in de toekomst te verzekeren en de gegevensverzameling uit te breiden met nieuwe gegevens over de 1000-genomenmonsters en nieuwe populaties waar de bemonstering is uitgevoerd in overeenstemming met de IGSR-beginselen voor bemonstering.
1. Zorgen voor de toekomstige bruikbaarheid van de 1000-genoomreferentiegegevens
In 2014 heeft het Genome Reference Consortium een update uitgebracht van de menselijke assemblage, GRCh38. Deze update van de menselijke referentie-assemblage toont een aanzienlijke verbetering in de hoeveelheid vertegenwoordigde alternatieve loci. Het bevat nu 178 genomische regio’s met bijbehorende alternatieve loci (2% van de chromosomale sequentie (61,9 Mb)). Dit is samengesteld uit 261 alternatieve loci (die 3,6 Mb nieuwe sequentie ten opzichte van chromosomen bevatten). De GRC waren ook in staat om meer dan 1000 problemen uit de vorige versie van de assemblage op te lossen.
Het benutten van de alternatieve loci bij het identificeren van variatie en het noemen van genotypen is een belangrijke stap in het verbeteren van ons vermogen om menselijke variatie te ontdekken. Momenteel zijn er zeer weinig hulpmiddelen die de gegevens van de alternatieve loci kunnen gebruiken. IGSR heeft de fase 3 1000 Genomes-gegevens opnieuw toegewezen aan GRCh38 op een alternatieve-loci-bewuste manier met behulp van BWA mem. Dit voorziet de gemeenschap die methoden ontwikkelt van een bron van alignementen die nieuwe methoden vooruit kunnen helpen, en voorziet de bredere gemeenschap van actuele alignementen, zodat iedereen zijn voordeel kan doen met de gegevens in de context van de nieuwe assemblage. Het IGSR is van plan varianten op deze nieuwe alignments terug te halen.
Bovendien worden nog meer reeksen genoomsequentiegegevens aan GRCh38 gekoppeld, waarbij de Platinum Genomes-gegevens van Illumina de eerste nieuwe gegevensverzameling vormen die wordt gekoppeld.
2. Opnemen van gepubliceerde genomische gegevens over de 1000 Genomes-monsters
De 1000 Genomes-monsters zijn een populaire bron gebleken voor moleculaire fenotyperingsexperimenten en het onderzoeken van de associaties tussen genetische variatie en expressie of metingen van epigenetische toestand. Grote datasets zijn op deze monsters gegenereerd door projecten zoals GEUVADIS, dat RNA-Seq-gegevens heeft gegenereerd op de Europese 1000-genoom-monsters en de YRI-populatie, en ENCODE, dat uitgebreide tests heeft uitgevoerd op de NA12878-cellijn. Veel andere groepen hebben ook tests uitgevoerd op de 1000-genomen monsters. Het IGSR zou al deze informatie op een uniforme manier willen presenteren, zodat de gemeenschap kan profiteren van alle gegevens die over deze monsters bestaan.
3. De gegevensverzameling uitbreiden om nieuwe populaties op te nemen
Het IGSR erkent dat de huidige monsters van het 1000-genomenproject niet alle populaties weerspiegelen. Een belangrijk doel voor het IGSR is de populaties die in de collectie vertegenwoordigd zijn, uit te breiden en ervoor te zorgen dat de beschikbare openbare gegevens de grootst mogelijke populatiediversiteit vertegenwoordigen. Dit zal ervoor zorgen dat de 1000-genomendataset de komende vijf jaar een waardevolle open bron voor de gemeenschap blijft. Het IGSR zal samenwerken met de groepen die niet in staat waren monsters bij te dragen aan het 1000-genoomproject voordat het verzamelen van monsters was voltooid, en zal samenwerkingsverbanden met andere groepen onderzoeken om ervoor te zorgen dat de hiaten in de populatiediversiteit worden opgevuld. Meer details hierover zijn te vinden op onze pagina over de beginselen van monsterverzameling.
Vragen over het bovenstaande kunt u e-mailen naar [email protected].