Analyse des données de séquences d’ADN – Débuter en bioinformatique

Dans mon article précédent, j’ai présenté les bases de l’ADN, les nucléotides et leur arrangement. Vous vous demandez peut-être comment nous pouvons identifier l’ordre précis des nucléotides d’une molécule d’ADN. C’est là que le séquençage de l’ADN entre en action.

Le séquençage est l’opération qui consiste à déterminer l’ordre précis des nucléotides d’une molécule d’ADN donnée. Il est utilisé pour déterminer l’ordre des quatre bases adénine (A), guanine (G), cytosine (C) et thymine (T), dans un brin d’ADN.

Le séquençage de l’ADN est utilisé pour déterminer la séquence de gènes individuels, de chromosomes complets ou de génomes entiers d’un organisme. Le séquençage de l’ADN est également devenu le moyen le plus efficace de séquencer l’ARN ou les protéines.

Molécule d’ADN (Source d’image : https://.com)

Histoire du séquençage

Les travaux réalisés par un biochimiste britannique nommé Frederick Sanger, ont jeté les bases du séquençage des protéines. En 1955, Sanger avait terminé la séquence de tous les acides aminés de l’insuline. Son travail a fourni la preuve que les protéines étaient constituées d’entités chimiques avec un modèle spécifique, plutôt qu’un mélange de substances.

Frederick Sanger (Image Source : https://en.wikipedia.org/wiki/DNA_sequencing)

Plus tard, une méthode nommée Sanger Sequencing a été développée par Frederick Sanger et ses collègues en 1977, où l’ADN pouvait être séquencé en générant des fragments. C’était la méthode de séquençage la plus largement utilisée pendant environ 40 ans.

Séquençage du génome entier et assemblage de séquences

Une réaction de séquençage de l’ADN produit une séquence de plusieurs centaines de bases. Les séquences de gènes sont généralement longues de milliers de bases. Le plus grand gène connu est celui associé à la dystrophie musculaire de Duchenne. Sa longueur est d’environ 2,4 millions de bases. Afin d’étudier un gène entier, les scientifiques utilisent une stratégie simple connue sous le nom de séquençage shotgun. La longue séquence d’ADN est assemblée à partir d’une série de séquences plus courtes qui se chevauchent. Voyons ce qui se passe dans l’approche du séquençage shotgun.

Séquençage shotgun

Séquençage shotgun

Des machines spéciales, appelées machines de séquençage, sont utilisées pour extraire de courtes séquences d’ADN aléatoires d’un génome particulier que nous souhaitons déterminer (génome cible). Les technologies actuelles de séquençage de l’ADN ne peuvent pas lire un génome entier en une seule fois. Elles lisent de petits morceaux de 20 à 30 000 bases, selon la technologie utilisée. Ces petits morceaux sont appelés « reads ». Des logiciels spéciaux sont utilisés pour assembler ces lectures en fonction de la façon dont elles se chevauchent, afin de générer des chaînes continues appelées contigs. Ces contigs peuvent être le génome cible entier lui-même, ou des parties du génome (comme indiqué dans la figure ci-dessus).

Le processus d’alignement et de fusion des fragments d’une séquence d’ADN plus longue, afin de reconstruire la séquence originale est connu sous le nom d’assemblage de séquences.

Pour obtenir la séquence du génome entier, nous pouvons avoir besoin de générer de plus en plus de lectures aléatoires, jusqu’à ce que les contigs correspondent au génome cible.

Problème d’assemblage de séquences

Le problème d’assemblage de séquences peut être décrit comme suit.

Donné un ensemble de séquences, trouver la chaîne de longueur minimale contenant tous les membres de l’ensemble comme sous-chaînes.

Source de l’image : http://www.homolog.us/Tutorials/index.php?p=1.3&s=1

Ce problème est encore plus compliqué en raison de l’existence de séquences répétitives dans le génome ainsi que de substitutions ou de mutations au sein de celles-ci.

Le problème d’assemblage de séquences peut être comparé à un scénario de la vie réelle comme suit .

Supposons que vous preniez de nombreuses copies d’un livre, que vous passiez chacune d’entre elles dans une déchiqueteuse avec un cutter différent, et que vous essayiez ensuite de reconstituer le texte du livre juste en collant ensemble les morceaux déchiquetés. Il est évident que cette tâche est assez difficile. En outre, il existe des problèmes pratiques supplémentaires. L’exemplaire original peut comporter de nombreux paragraphes répétés, et certains morceaux peuvent avoir été modifiés pendant le déchiquetage et comporter des fautes de frappe. Des parties d’un autre livre peuvent également avoir été ajoutées, et certains lambeaux peuvent être complètement méconnaissables.

Cela semble très confus et assez impossible à réaliser. Ce problème est connu pour être NP complet. Les problèmes NP complets sont des problèmes dont l’état est inconnu. Aucun algorithme en temps polynomial n’a encore été découvert pour aucun problème NP complet, et personne n’a encore pu prouver qu’aucun algorithme en temps polynomial n’existe pour aucun d’entre eux. Cependant, il existe des algorithmes avides pour résoudre le problème d’assemblage de séquences, dont les expériences se sont avérées assez performantes en pratique.

Une méthode courante utilisée pour résoudre le problème d’assemblage de séquences et effectuer l’analyse des données de séquences est l’alignement de séquences.

Alignement de séquences

L’alignement de séquences est une méthode d’arrangement de séquences d’ADN, d’ARN ou de protéines pour identifier les régions de similarité. La similarité identifiée, peut être le résultat de relations fonctionnelles, structurelles ou évolutives entre les séquences.

Si nous comparons deux séquences, on parle d’alignement de séquences par paires. Si nous comparons plus de deux séquences, on parle d’alignement de séquences multiples.

Séquençage de nouvelle génération

Le séquençage de nouvelle génération (NGS), également appelé séquençage à haut débit, est le terme collectif utilisé pour décrire de nombreuses technologies de séquençage modernes différentes telles que,

  • le séquençage Illumina (Solexa)
  • le séquençage Roche 454
  • le séquençage Ion torrent Proton / PGM
  • le séquençage SOLiD

Ces technologies récentes nous permettent de séquencer l’ADN et l’ARN beaucoup plus rapidement et à moindre coût que le séquençage Sanger utilisé auparavant, et ont révolutionné l’étude de la génomique.

Pensées finales

L’analyse des données de séquence est devenue un aspect très important dans le domaine de la génomique. La bioinformatique a rendu la tâche d’analyse beaucoup plus facile pour les biologistes, en fournissant différentes solutions logicielles et en épargnant tout le travail manuel fastidieux.

Vous pouvez trouver une liste d’outils logiciels utilisés pour le séquençage de l’ADN d’ici. En outre, vous pouvez trouver une liste de logiciels d’alignement de séquence d’ici.

J’espère que vous avez une idée de base sur l’analyse des données de séquence.

Dans mon prochain article, je vais vous promener à travers les détails de l’alignement de séquence par paire et quelques algorithmes communs qui sont utilisés dans le domaine.

Puisque je suis encore très nouveau dans ce domaine, je voudrais entendre vos conseils. 😇

Merci de lire… 😃

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.