Sequenciamento de caçadeira Máquinas especiais, conhecidas como máquinas de sequenciamento são usadas para extrair sequências aleatórias curtas de DNA de um genoma particular que desejamos determinar (genoma alvo). As tecnologias atuais de sequenciamento de DNA não podem ler um genoma inteiro de uma só vez. Lê pequenos pedaços de entre 20 e 30000 bases, dependendo da tecnologia utilizada. Estas pequenas peças são chamadas de leituras. Um software especial é usado para montar estas leituras de acordo com a forma como se sobrepõem, a fim de gerar cadeias contínuas chamadas contigs. Estas contigs podem ser o próprio genoma alvo inteiro, ou partes do genoma (como mostrado na figura acima).
O processo de alinhamento e fusão de fragmentos de uma seqüência de DNA mais longa, a fim de reconstruir a seqüência original é conhecido como Sequence Assembly.
A fim de obter toda a seqüência do genoma, podemos precisar gerar mais e mais leituras aleatórias, até que as contigs coincidam com o genoma alvo.
Problema de montagem da sequência
O problema de montagem da sequência pode ser descrito da seguinte forma.
Dado um conjunto de sequências, encontre a cadeia de comprimento mínimo contendo todos os membros do conjunto como substrings.
Fonte de imagens: http://www.homolog.us/Tutorials/index.php?p=1.3&s=1
Este problema é ainda mais complicado devido à existência de sequências repetitivas no genoma assim como substituições ou mutações com elas.
O problema da montagem da sequência pode ser comparado com um cenário da vida real da seguinte forma
Passemos que você pega muitas cópias de um livro, passa cada uma delas por uma trituradora com um cortador diferente, e então você tenta fazer o texto do livro de volta, apenas colando as peças trituradas. É óbvio que esta tarefa é bastante difícil. Além disso, também há algumas questões práticas extras. A cópia original pode ter muitos parágrafos repetidos, e alguns fragmentos podem ser modificados durante a trituração para ter erros de digitação. Partes de outro livro também podem ter sido adicionadas, e alguns fragmentos podem ser completamente irreconhecíveis.
Soa muito confuso e bastante impossível de ser realizado. Este problema é conhecido por ser NP Completo. NP problemas completos são problemas cujo status é desconhecido. Ainda não foi descoberto nenhum algoritmo de tempo polinomial para qualquer problema NP completo, nem ninguém conseguiu provar que não existe nenhum algoritmo de tempo polinomial para nenhum deles. No entanto, existem algoritmos gananciosos para resolver o problema de montagem de sequências, onde os experimentos provaram ter um bom desempenho na prática.
Um método comum usado para resolver o problema de montagem de sequências e realizar análise de dados de sequências é o alinhamento de sequências.
Alinhamento de sequências
Alinhamento de sequências é um método de arranjo de sequências de DNA, RNA, ou proteínas para identificar regiões de similaridade. A similaridade sendo identificada, pode ser resultado de relações funcionais, estruturais ou evolutivas entre as sequências.
Se compararmos duas sequências, é conhecido como alinhamento de sequências em pares. Se compararmos mais de duas seqüências, é conhecido como alinhamento de seqüências múltiplas.
Sequenciamento de sequências de gerações futuras
Sequenciamento de sequências de gerações futuras (NGS), também conhecido como sequenciamento de alto rendimento, é o termo coletivo usado para descrever muitas tecnologias modernas de sequenciamento como, por exemplo,
Sequenciamento de Illumina (Solexa)
Sequenciamento de Roche 454
Sequenciamento de Protões de torrente iónica / PGM
Sequenciamento de SOLiDES
Estas tecnologias recentes permitem-nos sequenciar DNA e RNA muito mais rápida e barata do que o sequenciamento Sanger anteriormente utilizado, e revolucionaram o estudo da genómica.
Pensamentos Finais
Análise de dados de sequência tornou-se um aspecto muito importante no campo da genómica. A bioinformática tornou a tarefa de análise muito mais fácil para os biólogos, fornecendo diferentes soluções de software e salvando todo o tedioso trabalho manual.
Você pode encontrar uma lista de ferramentas de software usadas para seqüenciamento de DNA a partir daqui. Além disso, você pode encontrar uma lista de softwares de alinhamento de seqüências aqui.
Espera que você tenha uma idéia básica sobre análise de dados de seqüências.
No meu próximo artigo, eu vou guiá-lo pelos detalhes do alinhamento de seqüências em pares e alguns algoritmos comuns que estão sendo usados no campo.
Desde que eu ainda sou muito novo neste campo, eu gostaria de ouvir seus conselhos. 😇
Pelidos de leitura… 😃