Lorsque l’on considère les propriétés des technologies de séquençage à une seule molécule, on se concentre le plus souvent sur la longueur de lecture, le taux d’erreur et le débit (figure 3) ; Cependant, les exigences en matière de quantité et de qualité des échantillons d’entrée, la simplicité et la parallélisation de la préparation des échantillons et l’analyse des données sont également des éléments importants qui doivent être pris en compte lorsqu’on se demande si une technologie, unimoléculaire ou autre, est appropriée pour un problème donné. Certaines des applications fréquemment entreprises avec les technologies de séquençage actuelles et l’importance relative des diverses propriétés des différentes méthodes de séquençage sont présentées dans le tableau 1. Les propriétés importantes des technologies à molécule unique qui se rapportent à ces diverses applications sont examinées ci-dessous.
Séquençage par synthèse
Le premier système de séquençage de molécules uniques disponible dans le commerce a été développé par nos collègues de Helicos BioSciences . Dans ce système, les molécules individuelles sont hybridées à une surface de cellule d’écoulement contenant des oligonucléotides fixés de manière covalente. Des nucléotides marqués par fluorescence et une ADN polymérase sont ajoutés séquentiellement et les événements d’incorporation sont détectés par excitation laser et enregistrement avec une caméra à dispositif à couplage de charge (CCD). Le nucléotide fluorescent « Virtual Terminator » empêche l’incorporation de tout nucléotide ultérieur jusqu’à ce que la partie colorante du nucléotide soit clivée. Les images de chaque cycle sont assemblées pour générer un ensemble global de lectures de séquences. Sur une série standard, 120 cycles d’addition et de détection de nucléotides sont effectués. Cette approche permet de suivre simultanément plus d’un milliard de molécules. Étant donné qu’il y a deux cellules d’écoulement à 25 canaux dans une série standard, 50 échantillons différents peuvent être séquencés simultanément, avec la possibilité supplémentaire d’augmenter considérablement le débit des échantillons grâce au multiplexage. Les exigences en matière d’échantillons sont les plus simples de toutes les technologies : des quantités inférieures au nanogramme sont nécessaires et de l’ADN de très mauvaise qualité, y compris de l’ADN dégradé ou modifié, peut être séquencé. Les longueurs moyennes de lecture sont relativement courtes (environ 35 nt) et les taux d’erreurs nucléotidiques individuelles brutes sont actuellement de l’ordre de 3 à 5 %, se produisant de manière aléatoire dans les lectures de la séquence et principalement sous la forme d’une erreur de « base sombre » ou de suppression, qui est prise en compte dans l’algorithme d’alignement. Ce taux d’erreur n’est pas un problème lors de la détection de polymorphismes car une couverture de 30× est généralement utilisée pour les génomes diploïdes avec les systèmes de deuxième génération pour surmonter la couverture inégale induite par l’amplification. Un sur-échantillonnage est nécessaire pour surmonter la nature stochastique de la détection des hétérozygotes, une couverture de 30× étant conseillée pour garantir que presque tous les hétérozygotes sont appelés correctement. À ce niveau de couverture, des séquences consensus précises sont générées, quel que soit le taux d’erreur dans cette fourchette. Les systèmes à molécule unique ont une couverture beaucoup plus uniforme et ne nécessitent donc pas autant de profondeur pour une détection complète des hétérozygotes. La couverture uniforme par rapport aux systèmes de deuxième génération a été démontrée avec des expériences de ChIP, dans lesquelles les lectures de séquence étaient relativement constantes par rapport au contenu GC avec le séquençage monomoléculaire, alors que des écarts significatifs ont été observés à la fois à un contenu GC élevé et faible avec le séquençage basé sur l’amplification et avec le séquençage du génome entier d’un échantillon humain .
Le système Helicos Sequencer peut également séquencer directement des molécules d’ARN, évitant ainsi les nombreux artefacts associés à la transcriptase inverse et fournissant une précision quantitative inégalée pour les mesures d’expression de l’ARN . Le nombre très élevé de lectures par échantillon permet d’effectuer des mesures d’expression précises avec de l’ARN ou de l’ADNc, ce qui n’est pas encore possible avec d’autres technologies à molécule unique. En effet, des classes entières de molécules d’ARN qui ne peuvent être visualisées à l’aide d’autres technologies peuvent être détectées grâce à une approche unimoléculaire. Comme pour de nombreux systèmes à molécule unique, la lecture répétée de la même molécule peut améliorer considérablement le taux d’erreur et permettre la détection de variantes très rares dans un échantillon mixte. Par exemple, une variante rare dans un échantillon contenant un mélange de quelques cellules tumorales parmi de nombreuses cellules normales pourrait ne pas être détectable avec de l’ADN amplifié. Avec le séquençage répété de la même molécule, le taux d’erreur peut être conduit à un niveau suffisamment bas pour que les mutations dans des échantillons hétérogènes tels que les tumeurs puissent être facilement détectées. En raison des besoins minimaux de préparation des échantillons, de la possibilité d’utiliser des quantités de départ exceptionnellement faibles et du nombre élevé de lectures, cette technologie est idéale pour les applications quantitatives telles que le ChIP, l’expression de l’ARN et la variation du nombre de copies, ainsi que pour les situations dans lesquelles la quantité d’échantillons est limitée ou dégradée. Standard, le reséquençage du génome humain entier est facilement accompli , mais il est actuellement moins coûteux sur les systèmes de deuxième génération.
Pacific Biosciences a développé une autre approche de séquençage par synthèse utilisant des nucléotides marqués par fluorescence. Dans ce système, l’ADN est contraint à un très petit volume dans un guide d’ondes à mode zéro et la présence d’un nucléotide cognat marqué par fluorescence près de l’ADN polymérase est mesurée. Les dimensions du guide d’ondes sont si petites que la lumière ne peut pénétrer que dans la région très proche du bord, où la polymérase utilisée pour le séquençage est contrainte. Seuls les nucléotides dans ce petit volume près de la polymérase peuvent être éclairés et devenir fluorescents pour être détectés. Comme le nucléotide qui est incorporé dans le brin d’ADN en cours d’extension passe plus de temps à proximité de la polymérase, il peut, dans une large mesure, être distingué des nucléotides non reconnus. Les quatre nucléotides potentiels sont inclus dans la réaction, chacun étant marqué avec un colorant fluorescent de couleur différente afin de pouvoir les distinguer les uns des autres. Chaque nucléotide a un temps d’incorporation caractéristique qui peut contribuer à améliorer l’identification des bases. Des lectures de séquences allant jusqu’à des milliers de bases, plus longues que celles possibles avec les systèmes de deuxième génération, sont obtenues en temps réel pour chaque molécule individuelle. Toutefois, le débit actuel est inférieur à 100 000 lectures par cycle, de sorte que le rendement global des séquences est bien inférieur à celui des systèmes de deuxième génération et du système Helicos. En outre, le taux d’erreur brut, actuellement de 15 à 20 % , est nettement plus élevé qu’avec toute autre technologie de séquençage actuelle, ce qui crée des difficultés dans l’utilisation des données pour certaines applications, telles que la détection de variants.
Des lectures beaucoup plus longues, appelées « strobe reads » , peuvent être générées en éteignant le laser pendant des périodes de temps au cours du séquençage, ce qui empêche la fin prématurée causée par les photodommages induits par le laser à la polymérase et aux nucléotides. Si de longues lectures ne sont pas nécessaires, le taux d’erreur brut élevé peut être surmonté en ligaturant un oligonucléotide en épingle à cheveux à chaque extrémité de l’ADN, créant ainsi une matrice circulaire (appelée SMRTbell pour single molecule real time), puis en séquençant de manière répétée la même molécule. Cette procédure fonctionne lorsque les molécules sont relativement courtes, mais elle ne peut être utilisée avec de longues lectures, qui conservent donc un taux d’erreur brut élevé. Même avec un taux d’erreur élevé, les lectures très longues peuvent être utilisées de manière productive pour joindre des contigs de séquence. Un avantage supplémentaire de ce système est la capacité de détecter potentiellement des bases modifiées. Il est possible de détecter la 5-méthylcytosine, bien que le rôle du contexte de la séquence et d’autres facteurs affectant la précision de ces attributions reste à clarifier. En principe, le séquençage direct de l’ARN devrait également être possible avec ce système, mais cela n’a pas encore été rapporté pour les molécules d’ARN naturelles car les nucléotides se lient de manière répétée à la transcriptase inverse avant l’incorporation des nucléotides, ce qui donne de faux signaux avec des insertions multiples qui empêchent la détermination d’une séquence significative. En outre, le faible nombre de lectures de ce système le limitera à l’identification d’isoformes communes d’ARNm plutôt qu’à l’établissement de profils d’expression quantitatifs ou à la couverture complète du transcriptome, qui nécessitent tous deux un nombre de lectures beaucoup plus élevé que ce qui est possible dans un avenir prévisible. En général, les longues lectures et le court délai d’exécution rendent ce système plus utile pour aider à assembler les génomes, évaluer l’analyse de la variation structurelle, l’haplotypage, la métagénomique et l’identification des isoformes d’épissage.
Life Technologies, un fournisseur majeur de systèmes de séquençage de première et de deuxième génération, développe la technologie de séquençage par synthèse de molécules uniques basée sur le transfert d’énergie de résonance de fluorescence (FRET), initialement introduite par Visigen . Des progrès substantiels ont été réalisés, et le lancement commercial du système « Starlight » est prévu dans un avenir proche. La technologie actuelle consiste en une polymérase marquée par des points quantiques qui synthétise l’ADN à l’aide de quatre nucléotides marqués distinctement dans un système en temps réel. Les points quantiques, qui sont des nanoparticules semi-conductrices fluorescentes, ont l’avantage, par rapport aux colorants fluorescents, d’être beaucoup plus brillants et moins susceptibles de blanchir, mais ils sont aussi beaucoup plus gros et plus susceptibles de clignoter. L’échantillon génomique à séquencer est ligaturé à un oligonucléotide de séquence définie fixé en surface, puis lu par extension d’une amorce complémentaire à l’oligonucléotide de surface. Lorsqu’un nucléotide marqué par fluorescence se lie à la polymérase, il interagit avec le point quantique, ce qui entraîne une modification de la fluorescence du nucléotide et du point quantique. Le signal du point quantique diminue, tandis qu’un signal provenant du phosphate marqué par un colorant sur chaque nucléotide augmente à une longueur d’onde caractéristique. La séquence en temps réel est capturée pour chaque amorce en extension. Comme chaque séquence est liée à la surface, elle peut être réamorcée et séquencée à nouveau pour une meilleure précision. Les spécifications de la séquence ne sont pas claires, mais sa similitude avec la technologie de Pacific Biosciences en fait un point de référence probable. Si tel est le cas, elle aura les mêmes atouts en termes d’applications (assemblage de génome, variation structurelle, haplotyping, métagénomique) tout en étant potentiellement mise au défi avec les applications quantitatives nécessitant un nombre élevé de lectures (comme le ChIP ou l’expression de l’ARN).
Séquençage optique et cartographie
Il existe d’autres technologies permettant de produire de très longues lectures mais au prix d’un débit nettement inférieur. Par exemple, il est possible de faire adhérer de très longues molécules d’ADN, jusqu’à des centaines de kilobases, à des surfaces et de les interroger pour trouver des séquences particulières en les coupant avec diverses enzymes de restriction ou en les marquant après traitement avec des enzymes de coupure spécifiques à une séquence. La longueur des molécules examinées dépend de la capacité à manipuler un ADN aussi long sans le cisailler mécaniquement. Des digests de restriction complets permettant de classer les contigs de séquence ont été générés pour les génomes humains et autres à partir de collections de molécules uniques couvrant des génomes entiers. Les génomes hautement répétitifs et dupliqués, comme celui du maïs, sont particulièrement difficiles à assembler avec le séquençage traditionnel mais ont été analysés avec succès avec ce système à molécule unique. Les sites de restriction fournissent des repères de séquence sur l’ADN, ce qui permet d’attribuer sans ambiguïté de longues régions répétitives et d’autres variations structurelles complexes. Des applications spécialisées telles que la cartographie de la méthylation à l’échelle du génome peuvent également être entreprises .
De même, les molécules d’ADN peuvent être contraintes aux nanotubes et marquées spécifiquement pour être visualisées . Des molécules uniques d’ARN ont été visualisées en utilisant la spectroscopie Raman à balayage. Dans une autre méthode utilisant également l’adsorption de longues molécules d’ADN sur une surface, les guanines peuvent être distinguées de toutes les autres bases et la séquence partielle peut être lue avec un microscope électronique à balayage. Les possibilités de lire d’autres bases par l’insertion d’atomes lourds tels que le brome ou l’iode sur des nucléotides particuliers ont été suggérées par ZS Genetics. Bien que le faible débit de brins et la lecture incomplète des séquences soient actuellement limitatifs, il existe un potentiel de lecture de centaines de kilobases de long, là encore limité principalement par la capacité à manipuler l’ADN sans le cisailler. D’autres technologies utilisant la lecture directe de l’ADN étiré ont été examinées ailleurs. Ces technologies de séquençage optique fournissent une vue puissante de la structure du génome, mais elles ne peuvent pas fournir les données de séquence détaillées ou l’accès à de nombreuses autres applications de séquençage qui nécessitent un nombre élevé de lectures, telles que les mesures d’expression génique.
Nanopores
Toutes les techniques de séquençage décrites jusqu’à présent nécessitent une sorte d’étiquette sur l’ADN ou les substrats de nucléotides pour détecter la base individuelle pour le séquençage. Cependant, les approches par nanopores ne nécessitent généralement pas de marqueur exogène mais s’appuient plutôt sur la structure électronique ou chimique des différents nucléotides pour la discrimination. Les avantages et les moyens potentiels d’utiliser les nanopores ont été passés en revue. Les nanopores les plus intéressants jusqu’à présent sont ceux qui sont assemblés avec des systèmes à l’état solide constitués de matériaux tels que les nanotubes de carbone ou les films minces et l’α-hémolysine ou MspA d’origine biologique. Ces protéines de pore bactériennes ont été largement étudiées et modifiées pour optimiser la détection de bases spécifiques et la vitesse de translocation de l’ADN à travers le pore. Bien que le séquençage de l’ADN natif sur la base de ses propriétés naturelles élimine l’étape de marquage et permette potentiellement des lectures très longues avec une préparation minimale de l’échantillon, réduisant ainsi les coûts, les différences entre nucléotides sont très modestes et leur détection est compliquée par les difficultés à contrôler la vitesse et la directionnalité de l’ADN à travers le nanopore. Une détection spécifique et un flux unidirectionnel sont nécessaires pour un séquençage de haute précision.
Une variété de méthodes a été utilisée pour ralentir la vitesse de l’ADN à travers les nanopores, y compris la fixation de billes de polystyrène , les concentrations de sel , la viscosité , les champs magnétiques , et l’introduction de régions d’ADN double brin sur une cible simple brin . Aux vitesses de translocation élevées généralement constatées (potentiellement des millions de bases par seconde), la détection d’un signal par rapport au bruit de fond de chaque nucléotide peut être un défi, et cela a été surmonté dans certains cas en lisant des groupes de nucléotides (comme en utilisant l’hybridation de séquences connues, comme cela est développé par NabSys ) ou en codant la séquence originale d’une manière plus complexe en convertissant la séquence de nucléotides en utilisant un code binaire de balises moléculaires (comme cela est développé par NobleGen ). Le maintien d’un flux unidirectionnel d’ADN a été amélioré en couplant une exonucléase au processus et en lisant les nucléotides clivés (comme développé par Oxford Nanopore ).
Bien que les technologies de séquençage des nanopores continuent de progresser, le simple fait de montrer la capacité de séquencer l’ADN, ce qui n’a pas encore été démontré par les nanopores avec de l’ADN naturel, n’est pas suffisant. Il doit y avoir une voie vers des coûts plus bas, des lectures plus longues ou une précision plus élevée par rapport aux autres technologies qui donnera aux nanopores un avantage unique par rapport aux autres méthodes. Même si les coûts des réactifs peuvent être réduits de manière significative, il reste les coûts de préparation des échantillons et les coûts informatiques, qui pourraient devenir les coûts dominants du séquençage et varieront en fonction de la technologie utilisée. Les obstacles sans cesse croissants créés par les technologies existantes ne seront pas faciles à surmonter. Avec la variété des technologies de deuxième génération et des technologies à molécule unique déjà commercialisées et d’autres à l’horizon, il faudra des avancées substantielles sur de nombreux fronts pour rendre ces technologies commercialement viables.