Análise de Dados de Sequência de ADN – Começando em Bioinformática

No meu artigo anterior, introduzi o básico do ADN, nucleotídeos e sua disposição. Você pode estar se perguntando como podemos identificar a ordem precisa dos nucleotídeos de uma molécula de DNA. É aqui que a sequência de ADN entra em acção.

Sequenciação é a operação de determinar a ordem precisa dos nucleótidos de uma determinada molécula de ADN. É usada para determinar a ordem das quatro bases adenina (A), guanina (G), citosina (C) e timina (T), em uma cadeia de DNA.

Sequenciamento de DNA é usado para determinar a seqüência de genes individuais, cromossomos completos ou genomas inteiros de um organismo. O sequenciamento de DNA também se tornou a forma mais eficiente de seqüenciar RNA ou proteínas.

>

DNA Molecule (Fonte de imagem: https://.com)

História do sequenciamento

O trabalho realizado por um bioquímico britânico chamado Frederick Sanger, lançou as bases para o sequenciamento de proteínas. Em 1955, Sanger tinha completado a sequência de todos os aminoácidos da insulina. O seu trabalho forneceu evidências de que as proteínas consistiam de entidades químicas com um padrão específico, em vez de uma mistura de substâncias.

Frederick Sanger (Fonte de imagem: https://en.wikipedia.org/wiki/DNA_sequencing)
Later, um método chamado Sanger Sequencing foi desenvolvido por Frederick Sanger e seus colegas em 1977, onde o DNA podia ser sequenciado através da geração de fragmentos. Foi o método de sequenciamento mais utilizado durante aproximadamente 40 anos.

Sequenciamento de Genoma Completo e Conjunto de Sequência

Uma reação de sequenciamento de DNA produz uma seqüência que tem várias centenas de bases. As sequências de genes têm normalmente milhares de bases de comprimento. O maior gene conhecido é aquele associado com a distrofia muscular de Duchenne. Tem aproximadamente 2,4 milhões de bases de comprimento. A fim de estudar um gene inteiro, os cientistas usam uma estratégia simples conhecida como seqüenciamento de espingarda. A sequência longa de ADN é reunida a partir de uma série de sequências sobrepostas mais curtas. Vamos ver o que acontece na abordagem da sequenciação da espingarda.

Sequenciamento de caçadeira

>

Sequenciamento de caçadeira

Máquinas especiais, conhecidas como máquinas de sequenciamento são usadas para extrair sequências aleatórias curtas de DNA de um genoma particular que desejamos determinar (genoma alvo). As tecnologias atuais de sequenciamento de DNA não podem ler um genoma inteiro de uma só vez. Lê pequenos pedaços de entre 20 e 30000 bases, dependendo da tecnologia utilizada. Estas pequenas peças são chamadas de leituras. Um software especial é usado para montar estas leituras de acordo com a forma como se sobrepõem, a fim de gerar cadeias contínuas chamadas contigs. Estas contigs podem ser o próprio genoma alvo inteiro, ou partes do genoma (como mostrado na figura acima).

O processo de alinhamento e fusão de fragmentos de uma seqüência de DNA mais longa, a fim de reconstruir a seqüência original é conhecido como Sequence Assembly.

A fim de obter toda a seqüência do genoma, podemos precisar gerar mais e mais leituras aleatórias, até que as contigs coincidam com o genoma alvo.

Problema de montagem da sequência

O problema de montagem da sequência pode ser descrito da seguinte forma.

Dado um conjunto de sequências, encontre a cadeia de comprimento mínimo contendo todos os membros do conjunto como substrings.

Fonte de imagens: http://www.homolog.us/Tutorials/index.php?p=1.3&s=1

Este problema é ainda mais complicado devido à existência de sequências repetitivas no genoma assim como substituições ou mutações com elas.

O problema da montagem da sequência pode ser comparado com um cenário da vida real da seguinte forma

Passemos que você pega muitas cópias de um livro, passa cada uma delas por uma trituradora com um cortador diferente, e então você tenta fazer o texto do livro de volta, apenas colando as peças trituradas. É óbvio que esta tarefa é bastante difícil. Além disso, também há algumas questões práticas extras. A cópia original pode ter muitos parágrafos repetidos, e alguns fragmentos podem ser modificados durante a trituração para ter erros de digitação. Partes de outro livro também podem ter sido adicionadas, e alguns fragmentos podem ser completamente irreconhecíveis.

Soa muito confuso e bastante impossível de ser realizado. Este problema é conhecido por ser NP Completo. NP problemas completos são problemas cujo status é desconhecido. Ainda não foi descoberto nenhum algoritmo de tempo polinomial para qualquer problema NP completo, nem ninguém conseguiu provar que não existe nenhum algoritmo de tempo polinomial para nenhum deles. No entanto, existem algoritmos gananciosos para resolver o problema de montagem de sequências, onde os experimentos provaram ter um bom desempenho na prática.

Um método comum usado para resolver o problema de montagem de sequências e realizar análise de dados de sequências é o alinhamento de sequências.

Alinhamento de sequências

Alinhamento de sequências é um método de arranjo de sequências de DNA, RNA, ou proteínas para identificar regiões de similaridade. A similaridade sendo identificada, pode ser resultado de relações funcionais, estruturais ou evolutivas entre as sequências.

Se compararmos duas sequências, é conhecido como alinhamento de sequências em pares. Se compararmos mais de duas seqüências, é conhecido como alinhamento de seqüências múltiplas.

Sequenciamento de sequências de gerações futuras

Sequenciamento de sequências de gerações futuras (NGS), também conhecido como sequenciamento de alto rendimento, é o termo coletivo usado para descrever muitas tecnologias modernas de sequenciamento como, por exemplo,

  • Sequenciamento de Illumina (Solexa)
  • Sequenciamento de Roche 454
  • Sequenciamento de Protões de torrente iónica / PGM
  • Sequenciamento de SOLiDES

Estas tecnologias recentes permitem-nos sequenciar DNA e RNA muito mais rápida e barata do que o sequenciamento Sanger anteriormente utilizado, e revolucionaram o estudo da genómica.

Pensamentos Finais

Análise de dados de sequência tornou-se um aspecto muito importante no campo da genómica. A bioinformática tornou a tarefa de análise muito mais fácil para os biólogos, fornecendo diferentes soluções de software e salvando todo o tedioso trabalho manual.

Você pode encontrar uma lista de ferramentas de software usadas para seqüenciamento de DNA a partir daqui. Além disso, você pode encontrar uma lista de softwares de alinhamento de seqüências aqui.

Espera que você tenha uma idéia básica sobre análise de dados de seqüências.

No meu próximo artigo, eu vou guiá-lo pelos detalhes do alinhamento de seqüências em pares e alguns algoritmos comuns que estão sendo usados no campo.

Desde que eu ainda sou muito novo neste campo, eu gostaria de ouvir seus conselhos. 😇

Pelidos de leitura… 😃

Deixe uma resposta

O seu endereço de email não será publicado.