IGSR: The International Genome Sample Resource

Das 1000 Genomes Project lief zwischen 2008 und 2015 und schuf den größten öffentlichen Katalog menschlicher Variationen und Genotypdaten. Nach dem Ende des Projekts hat das Datenkoordinierungszentrum am EMBL-EBI weitere Mittel vom Wellcome Trust erhalten, um die Ressource zu pflegen und zu erweitern. Zu diesem Zweck wurde die International Genome Sample Resource (IGSR) mit den folgenden Zielen eingerichtet:

  1. Zukunftigen Zugang zu den 1000 Genomes-Referenzdaten und deren Nutzbarkeit sicherstellen
  2. Zusätzliche veröffentlichte Genomdaten zu den 1000 Genomes-Proben einbeziehen
  3. Die Datensammlung erweitern, um neue, nicht im 1000 Genomes-Projekt vertretene Populationen einzubeziehen

Das 1000-Genome-Projekt

Überblick über das 1000-Genome-Projekt

Das Ziel des 1000-Genome-Projekts war es, die meisten genetischen Varianten mit einer Häufigkeit von mindestens 1% in den untersuchten Populationen zu finden.

Das 1000-Genome-Projekt machte sich die Entwicklungen in der Sequenzierungstechnologie zunutze, durch die die Kosten für die Sequenzierung stark gesenkt werden konnten. Es war das erste Projekt, bei dem die Genome einer großen Zahl von Menschen sequenziert wurden, um eine umfassende Quelle für die genetische Variation des Menschen zu schaffen. Die Daten des 1000-Genome-Projekts wurden der weltweiten wissenschaftlichen Gemeinschaft über frei zugängliche öffentliche Datenbanken rasch zur Verfügung gestellt.

Die Sequenzierung war nach wie vor zu teuer, um die vielen im Rahmen des Projekts untersuchten Proben umfassend zu sequenzieren. Eine bestimmte Region des Genoms enthält jedoch im Allgemeinen nur eine begrenzte Anzahl von Haplotypen. Die Daten wurden probenübergreifend kombiniert, um einen effizienten Nachweis der meisten Varianten in einer Region zu ermöglichen. Das Projekt sah vor, jede Probe bis zu einer 4-fachen Genomabdeckung zu sequenzieren. Bei dieser Tiefe können durch die Sequenzierung nicht alle Varianten in jeder Probe entdeckt werden, aber es können die meisten Varianten mit einer Häufigkeit von nur 1 % nachgewiesen werden. In der Endphase des Projekts wurden die Daten von 2 504 Proben kombiniert, um eine hochgenaue Zuordnung der Genotypen in jeder Probe an allen im Projekt entdeckten Variantenstellen zu ermöglichen. Der Multistichprobenansatz in Kombination mit der Genotyp-Imputation ermöglichte es dem Projekt, den Genotyp einer Probe zu bestimmen, selbst bei Varianten, die nicht durch Sequenzierungslesungen in dieser Probe abgedeckt waren.

Der Beitrag des 1000 Genomes Project zur Genomik wurde in Nature in der Ausgabe mit den abschließenden Veröffentlichungen des Hauptprojekts zusammengefasst.

Design des 1000 Genomes Project

Das Projekt wurde bei einem Treffen auf dem Welcome Genome Campus im September 2007 geplant. Der ursprüngliche Plan kann im Sitzungsbericht nachgelesen werden. Nach dem Start wurde das Projekt in vier Phasen durchgeführt: eine Pilotphase und drei Phasen des Hauptprojekts. Im Hauptprojekt wurden in den Phasen eins und drei Daten produziert, während sich Phase zwei auf die technische Entwicklung konzentrierte.

Pilotprojekt

Drei Pilotstudien lieferten Daten für die Konzeption des Gesamtprojekts:

Pilot Zweck Abdeckung Strategie Status
1 – geringe Abdeckung Strategie der gemeinsamen Nutzung von Daten über Proben hinweg 2-4X Ganzgenomsequenzierung von 180 Proben Sequenzierung im Oktober 2008 abgeschlossen
2 – Trios Bewertung der Abdeckung und der Plattformen und Zentren 20-60X Ganz-Genomsequenzierung von 2 Mutter-Vater-Erwachsener-Kind-Trios Sequenzierung im Oktober 2008 abgeschlossen
3 – Genregionen Bewertung von Methoden zur Genregions-.Capture 50X 1000 Genregionen in 900 Proben Sequenzierung im Juni 2009 abgeschlossen

Daten aus den Pilotprojekten wurden analysiert, um festzustellen, ob die Strategie der 4-fachen Abdeckung geeignet war, die Ziele des Projekts zu erreichen.

Hauptprojekt

Die Sequenzierung wurde in den Phasen eins und drei des Hauptprojekts durchgeführt, wobei die Daten jeweils freigegeben und analysiert wurden. Das endgültige Einfrieren der Daten, das mit der dritten und letzten Phase verbunden war, fand am 2. Mai 2013 statt. Dieser Datensatz (definiert in der Datei 20130502.sequence.index) stellte den endgültigen Datensatz dar, auf den sich die Analyse der dritten Phase stützte, und löste die früheren Datenfreigaben ab. Im Laufe des Projekts wurden die Analysemethoden weiterentwickelt und die Phase-3-Analyse ersetzt frühere Versionen.

Der endgültige Datensatz enthält Daten für 2.504 Personen aus 26 Populationen. Für alle diese Individuen sind Low-Coverage- und Exom-Sequenzdaten vorhanden, 24 Individuen wurden zu Validierungszwecken auch mit hoher Coverage sequenziert.

Es wurden Analysen durchgeführt, die sowohl die kurzen Variationen (bis zu 50 Basenpaare Länge) als auch strukturelle Variationen untersuchten. Diese Analysen wurden zum Abschluss des Projekts im Jahr 2015 veröffentlicht. Eine Liste unserer wichtigsten Veröffentlichungen ist unten zu sehen.

Publikationen

  • Pilotanalyse
    • Eine Karte der menschlichen Genomvariation aus der populationsweiten Sequenzierung Nature 467, 1061-1073 (28. Oktober 2010)
  • Phase 1 Analyse
    • Eine integrierte Karte der genetischen Variation aus 1,092 menschlichen Genomen Nature 491, 56-65 (01 November 2012)
  • Phase 3 Analysis
    • A global reference for human genetic variation Nature 526, 68-74 (01 October 2015)
    • An integrated map of structural variation in 2,504 human genomes Nature 526, 75-81 (01 October 2015)

1000 Genomes Project samples and data

Das 1000 Genomes Project hat Richtlinien zu ethischen Erwägungen für Forscher, die Proben nehmen, entwickelt, die im Informed Consent Background Document und in der Informed Consent Form Template beschrieben sind. Alle in das Projekt einbezogenen Sammlungen folgten diesen ethischen Richtlinien und dem Muster für die Einwilligung nach Aufklärung. Der Lenkungsausschuss des 1000-Genome-Projekts traf unter Mitwirkung der Proben- und ELSI-Gruppe des Projekts die endgültigen Entscheidungen darüber, welche Populationen und Probensätze in das Projekt aufgenommen werden sollten.

Die Daten des 1000-Genome-Projekts sind nach den letzten Veröffentlichungen des Projekts ohne Embargo verfügbar. Die Verwendung der Daten sollte in der üblichen Weise zitiert werden, wobei aktuelle Einzelheiten in den FAQs zu finden sind, wo weitere Einzelheiten zur Verwendung von Daten des 1000 Genomes Project zu finden sind. Zusätzliche Informationen über die Verwendung von Daten, die von IGSR bereitgestellt werden, sind verfügbar und sollten ebenfalls konsultiert werden.

Die verfügbaren Daten aus dem 1000 Genomes Project können auf unserer Datenseite zusammen mit anderen Daten in IGSR erkundet werden. Zelllinien und DNA sind für alle 1000-Genome-Proben verfügbar und können vom Coriell-Institut bezogen werden. Eine vollständige Liste der verfügbaren Populationen finden Sie auf unserer Seite Zelllinien und DNA

Die Proben für das 1000 Genomes Project sind anonym und haben keine damit verbundenen medizinischen oder phänotypischen Daten. Im Rahmen des Projekts werden Angaben zur ethnischen Zugehörigkeit und zum Geschlecht gemacht. Alle Teilnehmer erklärten, zum Zeitpunkt der Probenahme gesund gewesen zu sein.

IGSR

Wie bereits erwähnt, wurde das IGSR eingerichtet, um die künftige Nutzbarkeit und Zugänglichkeit der Daten des 1000 Genomes Project zu gewährleisten und den Datensatz um neue Daten zu den 1000 Genomes-Proben und neuen Populationen zu erweitern, bei denen die Probenahme im Einklang mit den IGSR-Prinzipien erfolgt ist.

1. Sicherstellung der zukünftigen Nutzbarkeit der 1000 Genomes-Referenzdaten

Im Jahr 2014 veröffentlichte das Genome Reference Consortium eine Aktualisierung des menschlichen Assembly, GRCh38. Diese Aktualisierung des menschlichen Referenzassemblies zeigt eine deutliche Verbesserung der Anzahl der dargestellten alternativen Loci. Sie enthält nun 178 genomische Regionen mit zugehörigen alternativen Loci (2 % der chromosomalen Sequenz (61,9 Mb)). Dies setzt sich aus 261 alternativen Loci zusammen (mit 3,6 Mb neuer Sequenz im Verhältnis zu den Chromosomen). Die GRC konnten auch mehr als 1000 Probleme aus der vorherigen Version der Zusammenstellung lösen.

Die Nutzung der alternativen Loci bei der Identifizierung von Variation und der Bestimmung von Genotypen ist ein wichtiger Schritt zur Verbesserung unserer Fähigkeit, menschliche Variation zu entdecken. Derzeit können nur sehr wenige Werkzeuge die Daten der alternativen Loci nutzen. Das IGSR hat die 1000-Genome-Daten der Phase 3 mit Hilfe von BWA mem auf GRCh38 in einer Weise neu zugeordnet, die alternative Loci berücksichtigt. Damit steht der Gemeinschaft der Methodenentwickler eine Quelle von Alignments zur Verfügung, die neue Methoden vorantreiben können, und auch der breiteren Gemeinschaft werden aktuelle Alignments zur Verfügung gestellt, so dass jeder von den Daten im Kontext des neuen Assembly profitieren kann. Das IGSR plant, Varianten auf diesen neuen Alignments abzurufen.

Darüber hinaus werden weitere Sätze genomischer Sequenzdaten an GRCh38 ausgerichtet, wobei die Platinum Genomes-Daten von Illumina die erste neue Sammlung von Daten sind, die ausgerichtet werden.

2. Einbeziehung veröffentlichter genomischer Daten zu den 1000 Genomes-Proben

Die 1000 Genomes-Proben haben sich als beliebte Ressource für molekulare Phänotypisierungsexperimente und die Untersuchung der Zusammenhänge zwischen genetischer Variation und Expression oder Messungen des epigenetischen Zustands erwiesen. Im Rahmen von Projekten wie GEUVADIS, das RNA-Seq-Daten aus den europäischen 1000-Genome-Proben und der YRI-Population generiert hat, und ENCODE, das umfangreiche Tests an der Zelllinie NA12878 durchgeführt hat, wurden große Datensätze aus diesen Proben erstellt. Viele andere Gruppen haben ebenfalls Tests an den 1000-Genome-Proben durchgeführt. Die IGSR möchte all diese Informationen auf einheitliche Weise präsentieren, damit die Gemeinschaft von allen Daten, die zu diesen Proben existieren, profitieren kann.

3. Ausweitung der Datensammlung, um neue Populationen einzubeziehen

Die IGSR erkennt an, dass die aktuellen Proben des 1000 Genomes Projekts nicht alle Populationen widerspiegeln. Ein wichtiges Ziel der IGSR ist es, die in der Sammlung vertretenen Populationen zu erweitern und sicherzustellen, dass die verfügbaren öffentlichen Daten die größtmögliche Bevölkerungsvielfalt repräsentieren. Damit wird sichergestellt, dass der 1000-Genome-Datensatz auch in den nächsten fünf Jahren eine wertvolle offene Ressource für die Gemeinschaft bleibt. Das IGSR wird mit den Gruppen zusammenarbeiten, die nicht in der Lage waren, Proben zum 1000-Genome-Projekt beizusteuern, bevor es die Probensammlung abgeschlossen hat, und die Zusammenarbeit mit anderen Gruppen untersuchen, um sicherzustellen, dass die Lücken in der Bevölkerungsvielfalt geschlossen werden. Weitere Einzelheiten hierzu finden Sie auf unserer Seite über die Grundsätze der Probensammlung.

Bei Fragen zu den oben genannten Punkten senden Sie bitte eine E-Mail an [email protected].

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.