Il progetto 1000 Genomi

Il progetto 1000 Genomi si è svolto tra il 2008 e il 2015, creando il più grande catalogo pubblico di dati di variazione e genotipi umani. Poiché il progetto è terminato, il Centro di coordinamento dei dati all’EMBL-EBI ha ricevuto un finanziamento continuo dal Wellcome Trust per mantenere ed espandere la risorsa. L’International Genome Sample Resource (IGSR) è stato istituito per fare questo con i seguenti obiettivi:

Assicurare il futuro accesso e l’usabilità dei dati di riferimento di 1000 Genomi
Integrare ulteriori dati genomici pubblicati sui campioni di 1000 Genomi
Espandere la raccolta dati per includere nuove popolazioni non rappresentate nel Progetto 1000 Genomi

Il Progetto 1000 Genomi
Panoramica del Progetto 1000 Genomi
Design del Progetto 1000 Genomi
Progetto pilota
Progetto principale
Pubblicazioni
1000 Genomes Project campioni e dati
IGSR
1. Garantire la futura utilizzabilità dei dati di riferimento di 1000 Genomi
2. Incorporare i dati genomici pubblicati sui campioni 1000 Genomi
3. Espandere la raccolta di dati per includere nuove popolazioni

Panoramica del Progetto 1000 Genomi

L’obiettivo del Progetto 1000 Genomi era di trovare la maggior parte delle varianti genetiche con frequenze di almeno 1% nelle popolazioni studiate.

Il Progetto 1000 Genomi ha approfittato degli sviluppi della tecnologia di sequenziamento, che ha ridotto notevolmente il costo del sequenziamento. È stato il primo progetto a sequenziare i genomi di un gran numero di persone, per fornire una risorsa completa sulla variazione genetica umana. I dati del Progetto 1000 Genomi sono stati rapidamente resi disponibili alla comunità scientifica mondiale attraverso database pubblici liberamente accessibili.

Il sequenziamento è rimasto troppo costoso per sequenziare in profondità i molti campioni studiati nel progetto. Tuttavia, ogni particolare regione del genoma contiene generalmente un numero limitato di aplotipi. I dati sono stati combinati tra i campioni per consentire l’individuazione efficiente della maggior parte delle varianti in una regione. Il progetto prevedeva di sequenziare ogni campione fino a 4 volte la copertura del genoma; a questa profondità, il sequenziamento non può scoprire tutte le varianti in ogni campione, ma può consentire l’individuazione della maggior parte delle varianti con frequenze fino all’1%. Nella fase finale del progetto, i dati di 2.504 campioni sono stati combinati per consentire un’assegnazione altamente accurata dei genotipi in ogni campione in tutti i siti di varianti che il progetto ha scoperto. L’approccio multi-campione combinato con l’imputazione del genotipo ha permesso al progetto di determinare il genotipo di un campione, anche nelle varianti non coperte dalle letture di sequenziamento in quel campione.

Il contributo del Progetto 1000 Genomi alla genomica è stato riassunto su Nature nel numero contenente le pubblicazioni finali del progetto principale.

Design del Progetto 1000 Genomi

Il Progetto è stato pianificato durante un incontro al The Welcome Genome Campus nel settembre 2007. È possibile leggere il piano originale nella relazione della riunione. Una volta avviato, il progetto è stato condotto in quattro fasi: una fase pilota e tre fasi del progetto principale. Nel progetto principale, le fasi uno e tre hanno prodotto dati, mentre la fase due si è concentrata sullo sviluppo tecnico.

Progetto pilota

Tre studi pilota hanno fornito dati per informare il design del progetto su larga scala:

Pilota	Scopo	Copertura	Strategia	Stato
1 – bassa copertura	Valuta la strategia di condivisione dei dati tra i campioni	2-4X	Sequenziamento del genoma intero di 180 campioni	Sequenziamento completato ottobre 2008
2 – trio	Valutare copertura e piattaforme e centri	20-60X	Sequenziamento delgenoma intero di 2 trii madre-padre-figlio adulto	Sequenziamento completato ottobre 2008
3 – regioni geniche	Valutate i metodi per la cattura delle regioni genichecattura	50X	1000 regioni geniche in 900 campioni	Sequencing completato giugno 2009

I dati dei progetti pilota sono stati analizzati per determinare se la strategia di copertura 4x era adeguata a soddisfare gli obiettivi del progetto.

Progetto principale

Il sequenziamento è stato effettuato nelle fasi uno e tre del progetto principale, con rilasci di dati e analisi corrispondenti a ciascuna. Il congelamento finale dei dati, associato alla terza e ultima fase, ha avuto luogo il 2 maggio 2013. Questo set di dati (definito nel file 20130502.sequence.index) ha rappresentato il set di dati finalizzato su cui si è basata l’analisi della terza fase e ha sostituito i precedenti rilasci di dati. Nel corso del progetto, i metodi di analisi sono stati ulteriormente sviluppati e l’analisi della fase tre sostituisce le versioni precedenti.

Il set di dati finale contiene dati per 2.504 individui da 26 popolazioni. Per tutti questi individui sono presenti dati di bassa copertura e sequenze di esomi, 24 individui sono stati anche sequenziati ad alta copertura per scopi di convalida.

Sono state condotte delle analisi, guardando sia le variazioni brevi (fino a 50 paia di basi di lunghezza) che le variazioni strutturali. Queste analisi sono state pubblicate alla conclusione del progetto nel 2015. Un elenco delle nostre principali pubblicazioni può essere visto qui sotto.

Pubblicazioni

Analisi pilota
- Una mappa della variazione del genoma umano dal sequenziamento su scala di popolazione Nature 467, 1061-1073 (28 ottobre 2010)
Analisi della fase 1
- Una mappa integrata della variazione genetica da 1,092 genomi umani Natura 491, 56-65 (01 novembre 2012)
Fase 3 Analisi
- Un riferimento globale per la variazione genetica umana Natura 526, 68-74 (01 ottobre 2015)
- Una mappa integrata della variazione strutturale in 2.504 genomi umani Nature 526, 75-81 (01 ottobre 2015)

1000 Genomes Project campioni e dati

Il 1000 Genomes Project ha sviluppato linee guida sulle considerazioni etiche per gli investigatori che fanno il campionamento, delineate nel documento di base sul consenso informato e nel modello di modulo di consenso informato. Tutte le raccolte incluse nel progetto hanno seguito queste linee guida etiche e il modello di consenso informato. Il comitato direttivo del Progetto 1000 Genomi, con l’input del Gruppo Campioni e ELSI del Progetto, ha preso le decisioni finali su quali popolazioni e set di campioni includere nel Progetto.

I dati del Progetto 1000 Genomi sono disponibili senza embargo, dopo le pubblicazioni finali del progetto. L’uso dei dati dovrebbe essere citato nel solito modo, con dettagli attuali disponibili nelle FAQ, dove si possono trovare ulteriori dettagli sull’uso dei dati del Progetto 1000 Genomi. Ulteriori informazioni sull’utilizzo dei dati forniti da IGSR sono disponibili e dovrebbero anche essere consultate.

I dati disponibili dal Progetto 1000 Genomi possono essere esplorati sulla nostra pagina dati, insieme ad altri dati in IGSR. Linee cellulari e DNA sono disponibili per tutti i campioni di 1000 Genomi e possono essere ottenuti dal Coriell Institute. Un elenco completo delle popolazioni disponibili può essere trovato sulla nostra pagina Linee cellulari e DNA

I campioni per il Progetto 1000 Genomi sono anonimi e non hanno dati medici o fenotipici associati. Il progetto tiene conto dell’etnia e del sesso auto-riferiti. Tutti i partecipanti si sono dichiarati sani al momento della raccolta dei campioni.

IGSR

Come detto, l’IGSR è stato istituito per garantire la futura utilizzabilità e accessibilità dei dati del Progetto 1000 Genomi e per estendere il set di dati per includere nuovi dati sui campioni 1000 Genomi e nuove popolazioni in cui il campionamento è stato effettuato in linea con i principi di campionamento IGSR.

1. Garantire la futura utilizzabilità dei dati di riferimento di 1000 Genomi

Nel 2014, il Genome Reference Consortium ha rilasciato un aggiornamento dell’assembly umano, GRCh38. Questo aggiornamento dell’assemblaggio di riferimento umano mostra un miglioramento significativo nella quantità di loci alternativi rappresentati. Ora contiene 178 regioni genomiche con loci alternativi associati (2% della sequenza cromosomica (61,9 Mb)). Questo è composto da 261 loci alternativi (contenenti 3,6 Mb di sequenza nuova rispetto ai cromosomi). Il GRC è stato anche in grado di risolvere più di 1000 problemi dalla versione precedente dell’assemblaggio.

Sfruttare i loci alternativi quando si identifica la variazione e si chiamano i genotipi è un passo importante per migliorare la nostra capacità di scoprire la variazione umana. Attualmente, pochissimi strumenti possono utilizzare i dati dei loci alternativi. L’IGSR ha rimappato i dati della fase 3 di 1000 Genomi su GRCh38 in un modo consapevole dei loci alternativi utilizzando BWA mem. Questo fornisce alla comunità di sviluppo del metodo una fonte di allineamenti che può portare avanti nuovi metodi, oltre a fornire alla comunità più ampia allineamenti aggiornati, assicurando che tutti possano beneficiare dei dati nel contesto del nuovo assemblaggio. L’IGSR prevede di richiamare le varianti su questi nuovi allineamenti.

Inoltre, ulteriori serie di dati di sequenze genomiche sono state allineate a GRCh38, con i dati Platinum Genomes di Illumina che sono la prima nuova raccolta di dati da allineare.

2. Incorporare i dati genomici pubblicati sui campioni 1000 Genomi

I campioni 1000 Genomi si sono dimostrati una risorsa popolare per gli esperimenti di fenotipizzazione molecolare e lo studio delle associazioni tra la variazione genetica e l’espressione o le misure dello stato epigenetico. Grandi insiemi di dati sono stati generati su questi campioni da progetti come GEUVADIS, che ha generato dati RNA-Seq sui campioni europei di 1000 Genomi e sulla popolazione YRI, e ENCODE, che ha effettuato ampi saggi sulla linea cellulare NA12878. Molti altri gruppi hanno anche condotto saggi sui campioni di 1000 Genomi. L’IGSR vorrebbe presentare tutte queste informazioni in modo unificato in modo che la comunità possa beneficiare di tutti i dati che esistono su questi campioni.

3. Espandere la raccolta di dati per includere nuove popolazioni

L’IGSR riconosce che gli attuali campioni del Progetto 1000 Genomi non riflettono tutte le popolazioni. Un obiettivo importante per l’IGSR è quello di espandere le popolazioni rappresentate nella raccolta e garantire che i dati pubblici disponibili rappresentino la massima diversità di popolazione possibile. Questo assicurerà che il set di dati di 1000 Genomi rimanga una preziosa risorsa aperta per la comunità nei prossimi cinque anni. L’IGSR lavorerà con i gruppi che non sono stati in grado di contribuire ai campioni del Progetto 1000 Genomi prima che terminasse la raccolta dei campioni e studierà collaborazioni con altri gruppi per garantire che le lacune nella diversità della popolazione siano colmate. È possibile trovare maggiori dettagli su questo sulla nostra pagina dei principi di raccolta dei campioni.

Si prega di inviare domande su qualsiasi di quanto sopra a [email protected].

IGSR: The International Genome Sample Resource