IGSR: The International Genome Sample Resource

Proiectul 1000 Genomes s-a desfășurat între 2008 și 2015, creând cel mai mare catalog public de variații umane și date genotipice. Întrucât proiectul s-a încheiat, Centrul de coordonare a datelor de la EMBL-EBI a primit finanțare continuă din partea Wellcome Trust pentru a menține și extinde resursa. În acest scop, a fost înființată International Genome Sample Resource (IGSR), care are următoarele obiective:

  1. Asigurarea accesului viitor la datele de referință 1000 Genomes și a capacității de utilizare a acestora
  2. Incorporarea de date genomice suplimentare publicate cu privire la eșantioanele 1000 Genomes
  3. Extinderea colecției de date pentru a include noi populații nereprezentate în proiectul 1000 Genomes

Proiectul 1000 Genomes

Vizualizare generală a proiectului 1000 Genomes

Obiectivul proiectului 1000 Genomes a fost acela de a găsi majoritatea variantelor genetice cu frecvențe de cel puțin 1% în populațiile studiate.

Proiectul 1000 Genomes a profitat de evoluțiile în tehnologia de secvențiere, care a redus brusc costul secvențierii. A fost primul proiect de secvențiere a genomurilor unui număr mare de persoane, pentru a oferi o resursă cuprinzătoare privind variația genetică umană. Datele din cadrul Proiectului 1000 de genomuri au fost puse rapid la dispoziția comunității științifice mondiale prin intermediul unor baze de date publice accesibile în mod liber.

Secvențierea a rămas prea scumpă pentru a secvenția în profunzime numeroasele eșantioane studiate în cadrul proiectului. Cu toate acestea, orice regiune particulară a genomului conține, în general, un număr limitat de haplotipuri. Datele au fost combinate între eșantioane pentru a permite detectarea eficientă a majorității variantelor dintr-o regiune. Proiectul a planificat să secvențieze fiecare eșantion până la o acoperire de 4 ori mai mare decât cea a genomului; la această adâncime, secvențierea nu poate descoperi toate variantele din fiecare eșantion, dar poate permite detectarea majorității variantelor cu frecvențe de până la 1%. În faza finală a proiectului, datele provenite de la 2 504 eșantioane au fost combinate pentru a permite atribuirea cu mare precizie a genotipurilor din fiecare eșantion la toate situsurile de variante descoperite în cadrul proiectului. Abordarea pe mai multe eșantioane, combinată cu imputarea genotipurilor, a permis proiectului să determine genotipul unui eșantion, chiar și în cazul variantelor care nu au fost acoperite de citirile de secvențiere din eșantionul respectiv.

Contribuția Proiectului 1000 de genomuri la genomică a fost rezumată în Nature, în numărul care conținea publicațiile finale ale proiectului principal.

Designul Proiectului 1000 de genomuri

Proiectul a fost planificat în timpul unei întâlniri la The Welcome Genome Campus în septembrie 2007. Puteți citi planul inițial în raportul reuniunii. Odată demarat, proiectul s-a desfășurat în patru etape: o fază pilot și trei faze ale proiectului principal. În cadrul proiectului principal, fazele unu și trei au produs date, iar faza a doua s-a concentrat pe dezvoltarea tehnică.

Proiect-pilot

Trei studii pilot au furnizat date pentru a informa proiectarea proiectului la scară largă:

Pilot Scop Cuprindere Strategie Status
1 – acoperire scăzută Evaluați strategia de partajare a datelor între eșantioane 2-.4X Secvențierea întregului genom din 180 de eșantioane Secvențiere finalizată în octombrie 2008
2 – trios Evaluarea acoperirii și a platformelor și centrelor 20-60X Secvențierea întregului genom .secvențiere a genomului complet a 2 trio-uri mamă-părinte-copil adult Secvențiere finalizată în octombrie 2008
3 – regiuni genetice Evaluați metodele de secvențiere a regiunilor genetice Evaluați metodele de secvențiere a regiunilor genetice .captură 50X 1000 de regiuni genetice în 900 de eșantioane Secvențiere finalizată în iunie 2009

Datele din proiectele pilot au fost analizate pentru a determina dacă strategia de acoperire 4x a fost adecvată pentru a îndeplini obiectivele proiectului.

Proiect principal

Secvențierea a fost realizată în fazele unu și trei ale proiectului principal, cu eliberări de date și analize corespunzătoare fiecăreia. Înghețarea finală a datelor, asociată cu cea de-a treia și ultima fază, a avut loc la 2 mai 2013. Acest set de date (definit în fișierul 20130502.sequence.index) a reprezentat setul de date finalizat pe care s-a bazat analiza din faza a treia și a înlocuit eliberările de date anterioare. Pe parcursul proiectului, metodele de analiză au fost dezvoltate în continuare, iar analiza din faza a treia înlocuiește versiunile anterioare.

Setul de date final conține date pentru 2.504 indivizi din 26 de populații. Datele de secvență cu acoperire redusă și de secvență exomică sunt prezente pentru toți acești indivizi, 24 de indivizi au fost, de asemenea, secvențiați cu acoperire ridicată în scopuri de validare.

Au fost efectuate analize, analizând atât variațiile scurte (până la 50 de perechi de baze în lungime), cât și variațiile structurale. Aceste analize au fost publicate la încheierea proiectului în 2015. O listă a principalelor noastre publicații poate fi văzută mai jos.

Publicații

  • Pilot Analysis
    • A map of human genome variation from population-scale sequencing Nature 467, 1061-1073 (28 octombrie 2010)
  • Phase 1 Analysis
    • An integrated map of genetic variation from 1,092 genomuri umane Nature 491, 56-65 (01 noiembrie 2012)
  • Phase 3 Analysis
    • A global reference for human genetic variation Nature 526, 68-74 (01 octombrie 2015)
    • O hartă integrată a variației structurale în 2 504 genomuri umane Nature 526, 75-81 (01 octombrie 2015)

1000 Genomes Project samples and data

Proiectul 1000 Genomes a elaborat orientări privind considerațiile etice pentru cercetătorii care fac prelevări de probe, prezentate în documentul de bază privind consimțământul informat și în modelul de formular de consimțământ informat. Toate colecțiile incluse în proiect au urmat aceste orientări etice și modelul de limbaj de consimțământ informat. Comitetul director al Proiectului 1000 Genomes, cu contribuții din partea Grupului pentru eșantioane și ELSI al Proiectului, a luat deciziile finale cu privire la ce populații și seturi de eșantioane să fie incluse în Proiect.

Datele din cadrul Proiectului 1000 Genomes sunt disponibile fără embargo, în urma publicațiilor finale ale proiectului. Utilizarea datelor ar trebui să fie citată în mod obișnuit, cu detalii actuale disponibile în secțiunea Întrebări frecvente, unde pot fi găsite detalii suplimentare privind utilizarea datelor Proiectului 1000 Genomes. Informații suplimentare privind utilizarea datelor furnizate de IGSR sunt disponibile și ar trebui, de asemenea, să fie consultate.

Datele disponibile din Proiectul 1000 Genomes Project pot fi explorate pe pagina noastră de date, alături de alte date din IGSR. Liniile celulare și ADN-ul sunt disponibile pentru toate probele 1000 Genomes și pot fi obținute de la Institutul Coriell. O listă completă a populațiilor disponibile poate fi găsită pe pagina noastră Linii celulare și ADN

Eșantioanele pentru Proiectul 1000 Genomes sunt anonime și nu au date medicale sau fenotipice asociate. Proiectul reține etnia și sexul autodeclarate. Toți participanții s-au declarat sănătoși în momentul în care au fost colectate probele.

IGSR

După cum s-a precizat, IGSR a fost înființat pentru a asigura utilizarea și accesibilitatea viitoare a datelor din cadrul Proiectului 1000 Genomes și pentru a extinde setul de date pentru a include noi date privind probele 1000 Genomes și noi populații în cazul în care eșantionarea a fost efectuată în conformitate cu principiile de eșantionare ale IGSR.

1. Asigurarea utilizabilității viitoare a datelor de referință ale proiectului 1000 Genomes

În 2014, Genome Reference Consortium a publicat o actualizare a ansamblului uman, GRCh38. Această actualizare a ansamblului de referință uman arată o îmbunătățire semnificativă a cantității de loci alternativi reprezentați. Acesta conține acum 178 de regiuni genomice cu loci alternativi asociați (2 % din secvența cromozomială (61,9 Mb)). Aceasta este alcătuită din 261 de loci alternativi (care conțin 3,6 Mb de secvență nouă în raport cu cromozomii). GRC a reușit, de asemenea, să rezolve mai mult de 1000 de probleme din versiunea anterioară a ansamblului.

Să profităm de loci alternativi atunci când identificăm variația și apelăm genotipurile este un pas important în îmbunătățirea capacității noastre de a descoperi variația umană. În prezent, foarte puține instrumente pot utiliza datele privind loci alternativi. IGSR a refăcut datele 1000 Genomes din faza 3 la GRCh38 într-o manieră care ține cont de loci alternativi, utilizând BWA mem. Acest lucru oferă comunității de dezvoltare a metodelor o sursă de alinieri care poate impulsiona noi metode, precum și o comunitate mai largă cu alinieri actualizate, asigurând că toată lumea poate beneficia de date în contextul noului ansamblu. IGSR intenționează să recheme variantele pe aceste noi alinieri.

În plus, alte seturi de date de secvențe genomice sunt aliniate la GRCh38, datele Platinum Genomes de la Illumina fiind prima colecție nouă de date care urmează să fie aliniate.

2. Încorporarea datelor genomice publicate pe eșantioanele 1000 Genomes

Eșantioanele 1000 Genomes s-au dovedit a fi o resursă populară pentru experimentele de fenotipare moleculară și pentru investigarea asocierilor dintre variația genetică și expresie sau măsurători ale stării epigenetice. S-au generat seturi mari de date pe aceste eșantioane prin proiecte precum GEUVADIS, care a generat date RNA-Seq pe eșantioanele europene 1000 Genomes și pe populația YRI, și ENCODE, care a efectuat teste extinse pe linia celulară NA12878. Multe alte grupuri au efectuat, de asemenea, teste pe eșantioanele 1000 Genomes. IGSR ar dori să prezinte toate aceste informații într-o manieră unificată, astfel încât comunitatea să poată beneficia de toate datele care există cu privire la aceste eșantioane.

3. Extinderea colectării de date pentru a include noi populații

IGSR recunoaște că eșantioanele actuale ale proiectului 1000 Genomes nu reflectă toate populațiile. Un obiectiv important pentru IGSR este de a extinde populațiile reprezentate în colecție și de a se asigura că datele publice disponibile reprezintă diversitatea maximă posibilă a populațiilor. Acest lucru va asigura faptul că setul de date 1000 Genomes va rămâne o resursă deschisă valoroasă pentru comunitate în următorii cinci ani. IGSR va colabora cu grupurile care nu au putut contribui cu eșantioane la proiectul 1000 Genomes înainte ca acesta să finalizeze colectarea de eșantioane și va investiga colaborări cu alte grupuri pentru a se asigura că lacunele privind diversitatea populației sunt completate. Puteți găsi mai multe detalii despre acest lucru pe pagina noastră privind principiile de colectare a eșantioanelor.

Vă rugăm să trimiteți un e-mail cu întrebări despre oricare dintre cele de mai sus la [email protected].

Lasă un răspuns

Adresa ta de email nu va fi publicată.