IGSR: The International Genome Sample Resource

1000 Genomia -hanke oli käynnissä vuosina 2008-2015, ja sen avulla luotiin suurin julkinen luettelo ihmisen variaatio- ja genotyyppitiedoista. Koska hanke päättyi, EMBL-EBI:n datakoordinointikeskus on saanut Wellcome Trustilta jatkuvaa rahoitusta resurssin ylläpitämiseen ja laajentamiseen. Tätä varten perustettiin International Genome Sample Resource (IGSR), jonka tavoitteet ovat seuraavat:

  1. Varmistaa 1000 Genomes -vertailuaineiston saatavuus ja käytettävyys tulevaisuudessa
  2. Sisällyttää 1000 Genomes -näytteistä julkaistua lisägenomitietoa
  3. Laajentaa datakokoelmaa siten, että se käsittää uusia populaatioita, jotka eivät ole edustettuina. 1000 Genomes -hankkeessa

1000 Genomes -hanke

Yleiskatsaus 1000 Genomes -hankkeeseen

1000 Genomes -hankkeen tavoitteena oli löytää suurin osa geneettisistä varianteista, joiden frekvenssi on vähintään 1 % tutkituissa populaatioissa.

1000 genomia -hankkeessa hyödynnettiin sekvensointitekniikan kehitystä, joka alensi jyrkästi sekvensoinnin kustannuksia. Se oli ensimmäinen hanke, jossa sekvensoitiin suuren ihmisjoukon genomit, jotta saataisiin kattava resurssi ihmisen geneettisestä vaihtelusta. 1000 genomia -hankkeen tiedot saatiin nopeasti maailmanlaajuisen tiedeyhteisön käyttöön vapaasti käytettävissä olevien julkisten tietokantojen kautta.

Sekvensointi oli edelleen liian kallista, jotta hankkeessa tutkittavat lukuisat näytteet olisi voitu sekvensoida perusteellisesti. Jokaisella genomin alueella on kuitenkin yleensä rajallinen määrä haplotyyppejä. Näytteiden tiedot yhdistettiin, jotta suurin osa alueen varianteista voitiin havaita tehokkaasti. Hankkeessa aiottiin sekvensoida kukin näyte nelinkertaiseen genomin kattavuuteen asti; tällä syvyydellä sekvensoinnilla ei voida löytää kaikkia variantteja kussakin näytteessä, mutta voidaan havaita useimmat variantit, joiden esiintymistiheys on vain 1 prosentti. Hankkeen loppuvaiheessa yhdistettiin 2 504 näytteen tiedot, jotta kunkin näytteen genotyypit voitiin määrittää erittäin tarkasti kaikkien hankkeen löytämien varianttipaikkojen osalta. Monen näytteen lähestymistapa yhdistettynä genotyypin imputaatioon mahdollisti sen, että hanke pystyi määrittämään näytteen genotyypin myös sellaisissa muunnoksissa, joita kyseisen näytteen sekvensointilukemat eivät kattaneet.

1000 Genomia -hankkeen panos genomitutkimukseen tiivistettiin Nature-lehden numerossa, joka sisälsi päähankkeen loppujulkaisut.

1000 Genomia -hankkeen suunnitelma

Hankkeen suunnitelma laadittiin kokouksessa, joka pidettiin syyskuussa 2007 Tervetuloa-geeniteknologiakampuksella. Voit lukea alkuperäisen suunnitelman kokousraportista. Kun hanke oli käynnistetty, se toteutettiin neljässä vaiheessa: pilottivaiheessa ja päähankkeen kolmessa vaiheessa. Päähankkeessa vaiheet yksi ja kolme tuottivat tietoa, ja vaiheessa kaksi keskityttiin tekniseen kehittämiseen.

Pilottihanke

Kolme pilottitutkimusta tuottivat tietoa täysimittaisen hankkeen suunnittelua varten:

Pilottitutkimus Tarkoitus Kattavuus Strategia Tilanne
1 – – matala kattavuus Arvioidaan strategiaa tietojen jakamiseksi näytteiden kesken 2 -4X Koko genomin sekvensointi 180 näytteestä Sekvensointi valmistui lokakuussa 2008
2 – triot Arvioidaan kattavuus ja alustat ja keskukset 20-60X Koko genomin sekvensointi …genomin sekvensointi kahdesta äiti-isä-aikuinen lapsi -kolmikosta Sekvensointi valmistui lokakuussa 2008
3 – geenialueet Arvioidaan menetelmiä, joilla geenialueita-capture 50X 1000 geenialuetta 900 näytteessä Sekvensointi valmistui kesäkuussa 2009

Kokeiluhankkeista saatuja tietoja analysoitiin sen selvittämiseksi, oliko nelinkertaisen kattavuuden strategia riittävä hankkeen tavoitteiden saavuttamiseksi.

Päähanke

Sekvensointi toteutettiin päähankkeen vaiheissa yksi ja kolme, ja tiedot julkaistiin ja analysoitiin kutakin vaihetta vastaavasti. Kolmanteen ja viimeiseen vaiheeseen liittyvä viimeinen tietojen jäädytys tapahtui 2. toukokuuta 2013. Tämä tietokokonaisuus (määritelty tiedostossa 20130502.sequence.index) edusti lopullista tietokokonaisuutta, johon kolmannen vaiheen analyysi perustui, ja se korvasi aiemmat tietokokonaisuudet. Hankkeen aikana analyysimenetelmiä kehitettiin edelleen, ja kolmannen vaiheen analyysi korvaa aiemmat versiot.

Lopullinen aineisto sisältää tiedot 2 504 yksilöstä 26 populaatiosta. Kaikista näistä yksilöistä on matalan kattavuuden ja eksomisekvenssitiedot. 24 yksilöä sekvensoitiin myös korkeaan kattavuuteen validointia varten.

Analyysejä tehtiin tarkastelemalla sekä lyhyitä variaatioita (enintään 50 emäsparin pituisia) että myös rakenteellisia variaatioita. Nämä analyysit julkaistiin hankkeen päättyessä vuonna 2015. Alla on luettelo tärkeimmistä julkaisuistamme.

Publications

  • Pilot Analysis
    • A map of human genome variation from population-scale sequencing Nature 467, 1061-1073 (28 October 2010)
  • Phase 1 Analysis
    • An integrated map of genetic variation from 1,092 ihmisen genomista Nature 491, 56-65 (01 November 2012)
  • Phase 3 Analysis
    • A global reference for human genetic variation Nature 526, 68-74 (01 Lokakuu 2015)
    • An integrated map of structural variation in 2,504 human genomes Nature 526, 75-81 (01 Lokakuu 2015)

1000 Genomes Project -projektin näytteet ja aineistot

1000 Genomes Project -projektissa kehitettiin näytteenottoa suorittaville tutkijoille eettisiä näkökohtia koskevat ohjeet, jotka on esitetty informoidun suostumuksen tausta-asiakirjaan (Informed Consent Background Document) ja tietoon perustuvaan suostumukseen liittyviin tietoon perustuvaan suostumukseen liittyviin tietoon perustuvaan suostumukseen liittyviin lomakkeisiin liittyvissä asiakirjoissa. Kaikissa hankkeeseen kuuluvissa näytteenotoissa noudatettiin näitä eettisiä ohjeita ja tietoon perustuvan suostumuksen mallia. 1000 Genomia -hankkeen johtoryhmä teki lopulliset päätökset siitä, mitkä populaatiot ja näytejoukot otetaan mukaan hankkeeseen, hankkeen näytteiden ja ELSI-ryhmän myötävaikutuksella.

Tiedot 1000 Genomia -hankkeesta ovat saatavilla ilman embargoa hankkeen lopullisten julkaisujen jälkeen. Tietojen käyttö on mainittava tavalliseen tapaan, ja tämänhetkiset yksityiskohdat löytyvät usein kysytyistä kysymyksistä, joista löytyy lisätietoja 1000 Genomes Project -hankkeen tietojen käytöstä. Lisätietoa IGSR:n tarjoamien tietojen käytöstä on saatavilla, ja siihen on myös tutustuttava.

1000 Genomes Projectin saatavilla oleviin tietoihin voi tutustua tietosivullamme muiden IGSR:ssä olevien tietojen ohella. Solulinjoja ja DNA:ta on saatavilla kaikista 1000 Genomes -näytteistä, ja niitä voi hankkia Coriell-instituutista. Täydellinen luettelo saatavilla olevista populaatioista on Solulinjat ja DNA -sivullamme

1000 Genomia -hankkeen näytteet ovat anonyymejä, eikä niihin liity lääketieteellisiä tai fenotyyppitietoja. Hankkeessa säilytetään itse ilmoitettu etninen alkuperä ja sukupuoli. Kaikki osallistujat ilmoittivat olevansa terveitä näytteitä kerättäessä.

IGSR

Kuten todettiin, IGSR perustettiin varmistamaan 1000 Genomia -hankkeen tietojen tuleva käytettävyys ja saatavuus sekä laajentamaan tietokokonaisuutta siten, että se sisältää uusia tietoja 1000 Genomia -hankkeen näytteistä ja uusista populaatioista, joissa näytteenotto on suoritettu IGSR:n näytteenottoperiaatteiden mukaisesti.

1. 1000 Genomes -referenssidatan tulevan käytettävyyden varmistaminen

Vuonna 2014 Genome Reference Consortium julkaisi päivitetyn ihmisen assemblyn, GRCh38:n. Tämä ihmisen referenssikokoonpanon päivitys osoittaa merkittävää parannusta edustettujen vaihtoehtoisten lokusten määrässä. Se sisältää nyt 178 genomialuetta, joihin liittyy vaihtoehtoisia lokuksia (2 % kromosomisekvenssistä (61,9 Mb)). Tämä koostuu 261 vaihtoehtoisesta lokuksesta (jotka sisältävät 3,6 Mb uutta sekvenssiä suhteessa kromosomeihin). GRC pystyi myös ratkaisemaan yli 1000 ongelmaa, jotka liittyivät kokoonpanon edelliseen versioon.

Vaihtoehtoisten lokusten hyödyntäminen variaatiota tunnistettaessa ja genotyyppejä kutsuttaessa on tärkeä askel parantaaksemme kykyämme löytää ihmisen variaatiota. Tällä hetkellä hyvin harvat työkalut voivat käyttää vaihtoehtoisten lokusten tietoja. IGSR on uudelleenkartoittanut vaiheen 3 1000 Genomes -datan GRCh38:aan vaihtoehtoiset lokukset huomioivalla tavalla BWA memin avulla. Tämä tarjoaa menetelmien kehittämisyhteisölle lähteen, jonka avulla voidaan kehittää uusia menetelmiä, ja antaa myös laajemmalle yhteisölle ajantasaiset linjaukset, jolloin varmistetaan, että kaikki voivat hyötyä datasta uuden kokoonpanon yhteydessä. IGSR aikoo muistuttaa variantteja näistä uusista linjauksista.

Lisäksi uusia genomisekvenssiaineistoja linjataan GRCh38:n kanssa, ja Illuminan Platinum Genomes -aineisto on ensimmäinen linjattava uusi aineistokokoelma.

2. KUVAUS Sisällytetään julkaistut genomitiedot 1000 Genomes -näytteistä

1000 Genomes -näytteet ovat osoittautuneet suosituksi resurssiksi molekyylifenotyyppikokeissa ja geneettisen vaihtelun ja ilmentymisen välisten yhteyksien tutkimisessa tai epigeneettisen tilan mittauksissa. Näistä näytteistä on tuotettu laajoja tietokokonaisuuksia esimerkiksi GEUVADIS-hankkeissa, jotka tuottivat RNA-Seq-dataa eurooppalaisista 1000 Genomes -näytteistä ja YRI-populaatiosta, sekä ENCODE-hankkeissa, jotka ovat tehneet laajoja kokeita NA12878-solulinjalla. Myös monet muut ryhmät ovat tehneet määrityksiä 1000 Genomes -näytteillä. IGSR haluaisi esittää kaikki nämä tiedot yhtenäisellä tavalla, jotta yhteisö voisi hyötyä kaikista näistä näytteistä olemassa olevista tiedoista.

3. Laajennetaan tiedonkeruuta kattamaan uusia populaatioita

IGSR tunnustaa, että nykyiset 1000 Genomia -hankkeen näytteet eivät edusta kaikkia populaatioita. IGSR:n tärkeä tavoite on laajentaa kokoelmassa edustettuina olevia populaatioita ja varmistaa, että saatavilla olevat julkiset tiedot edustavat mahdollisimman suurta populaatioiden monimuotoisuutta. Näin varmistetaan, että 1000 Genomin tietokokonaisuus säilyy arvokkaana avoimena resurssina yhteisölle seuraavien viiden vuoden ajan. IGSR tekee yhteistyötä niiden ryhmien kanssa, jotka eivät pystyneet toimittamaan näytteitä 1000 Genomes -hankkeeseen ennen kuin se lopetti näytteiden keräämisen, ja tutkii yhteistyötä muiden ryhmien kanssa varmistaakseen, että populaatioiden monimuotoisuuteen liittyvät aukot täytetään. Löydät lisätietoja tästä näytteiden keräämisen periaatteet -sivultamme.

Sähköpostitse kysymyksiä kaikista edellä mainituista asioista osoitteeseen [email protected].

Vastaa

Sähköpostiosoitettasi ei julkaista.