Analisi dei dati delle sequenze di DNA – Iniziare la bioinformatica

Nel mio precedente articolo, ho introdotto le basi del DNA, i nucleotidi e la loro disposizione. Vi starete chiedendo come possiamo identificare l’ordine preciso dei nucleotidi di una molecola di DNA. È qui che entra in azione il sequenziamento del DNA.

Il sequenziamento è l’operazione di determinazione dell’ordine preciso dei nucleotidi di una data molecola di DNA. Si usa per determinare l’ordine delle quattro basi adenina (A), guanina (G), citosina (C) e timina (T), in un filamento di DNA.

Il sequenziamento del DNA è usato per determinare la sequenza di singoli geni, cromosomi completi o interi genomi di un organismo. Il sequenziamento del DNA è diventato anche il modo più efficiente per sequenziare l’RNA o le proteine.

Molecola di DNA (Fonte immagine: https://.com)

Storia del sequenziamento

Il lavoro svolto da un biochimico inglese di nome Frederick Sanger, pose le basi per il sequenziamento delle proteine. Nel 1955, Sanger aveva completato la sequenza di tutti gli amminoacidi dell’insulina. Il suo lavoro fornì la prova che le proteine consistevano in entità chimiche con un modello specifico, piuttosto che una miscela di sostanze.

Frederick Sanger (Fonte immagine: https://en.wikipedia.org/wiki/DNA_sequencing)

In seguito, un metodo chiamato Sanger Sequencing fu sviluppato da Frederick Sanger e dai suoi colleghi nel 1977, dove il DNA poteva essere sequenziato generando frammenti. È stato il metodo di sequenziamento più usato per circa 40 anni.

Sequenziamento del genoma intero e assemblaggio di sequenze

Una reazione di sequenziamento del DNA produce una sequenza che è lunga diverse centinaia di basi. Le sequenze di geni sono tipicamente lunghe migliaia di basi. Il più grande gene conosciuto è quello associato alla distrofia muscolare di Duchenne. È lungo circa 2,4 milioni di basi. Per studiare un intero gene, gli scienziati usano una semplice strategia conosciuta come sequenziamento shotgun. La lunga sequenza di DNA viene assemblata da una serie di sequenze più brevi sovrapposte. Vediamo cosa succede nell’approccio dello shotgun sequencing.

Shotgun Sequencing

Shotgun Sequencing

Macchine speciali, conosciute come sequenziatori sono usate per estrarre brevi sequenze casuali di DNA da un particolare genoma che vogliamo determinare (genoma target). Le attuali tecnologie di sequenziamento del DNA non possono leggere un intero genoma in una sola volta. Si leggono piccoli pezzi tra le 20 e le 30000 basi, a seconda della tecnologia utilizzata. Questi brevi pezzi sono chiamati letture. Un software speciale viene utilizzato per assemblare queste letture in base a come si sovrappongono, al fine di generare stringhe continue chiamate contigs. Questi contigs possono essere l’intero genoma target stesso, o parti del genoma (come mostrato nella figura sopra).

Il processo di allineamento e fusione dei frammenti di una sequenza di DNA più lunga, al fine di ricostruire la sequenza originale è noto come Sequence Assembly.

Al fine di ottenere l’intera sequenza del genoma, potrebbe essere necessario generare sempre più letture casuali, fino a quando i contigs corrispondono al genoma target.

Problema dell’assemblaggio della sequenza

Il problema dell’assemblaggio della sequenza può essere descritto come segue.

Dato un insieme di sequenze, trovare la stringa di lunghezza minima contenente tutti i membri dell’insieme come sottostringhe.

Image Source: http://www.homolog.us/Tutorials/index.php?p=1.3&s=1

Questo problema è ulteriormente complicato a causa dell’esistenza di sequenze ripetitive nel genoma e di sostituzioni o mutazioni all’interno di esse.

Il problema dell’assemblaggio delle sequenze può essere paragonato a uno scenario di vita reale come segue.

Assumiamo che si prendano molte copie di un libro, si passi ciascuna di esse attraverso un trituratore con una taglierina diversa, e poi si cerchi di rimettere insieme il testo del libro semplicemente incollando insieme i pezzi triturati. È ovvio che questo compito è piuttosto difficile. Inoltre, ci sono anche altri problemi pratici. La copia originale potrebbe avere molti paragrafi ripetuti, e alcuni brandelli potrebbero essere stati modificati durante la triturazione per avere dei refusi. Parti di un altro libro potrebbero anche essere state aggiunte, e alcuni frammenti potrebbero essere completamente irriconoscibili.

Sembra molto confuso e abbastanza impossibile da portare a termine. Questo problema è noto per essere NP completo. I problemi NP completi sono problemi il cui stato è sconosciuto. Nessun algoritmo in tempo polinomiale è stato ancora scoperto per qualsiasi problema NP completo, né qualcuno è stato ancora in grado di dimostrare che non esiste un algoritmo in tempo polinomiale per nessuno di essi. Tuttavia, ci sono algoritmi greedy per risolvere il problema dell’assemblaggio di sequenze, dove gli esperimenti hanno dimostrato di funzionare abbastanza bene nella pratica.

Un metodo comune usato per risolvere il problema dell’assemblaggio di sequenze ed eseguire l’analisi dei dati di sequenza è l’allineamento di sequenze.

Allineamento di sequenze

L’allineamento di sequenze è un metodo di disporre sequenze di DNA, RNA o proteine per identificare regioni di similarità. La somiglianza identificata può essere il risultato di relazioni funzionali, strutturali o evolutive tra le sequenze.

Se si confrontano due sequenze, si parla di allineamento di sequenze a coppie. Se si confrontano più di due sequenze, si parla di allineamento di sequenze multiple.

Sequencing di nuova generazione

Il sequenziamento di nuova generazione (NGS), noto anche come sequenziamento ad alto rendimento, è il termine collettivo usato per descrivere molte diverse tecnologie moderne di sequenziamento come,

  • Sequenziamento Illumina (Solexa)
  • Sequenziamento Roche 454
  • Sequenziamento Ion torrent Proton / PGM
  • Sequenziamento SOLiD

Queste recenti tecnologie ci permettono di sequenziare DNA e RNA molto più velocemente ed economicamente del precedente sequenziamento Sanger, e hanno rivoluzionato lo studio della genomica.

Pensieri finali

L’analisi dei dati di sequenza è diventata un aspetto molto importante nel campo della genomica. La bioinformatica ha reso il compito di analisi molto più facile per i biologi, fornendo diverse soluzioni software e risparmiando tutto il noioso lavoro manuale.

Puoi trovare una lista di strumenti software usati per il sequenziamento del DNA da qui. Inoltre, puoi trovare una lista di software per l’allineamento di sequenze da qui.

Spero che tu abbia un’idea di base sull’analisi dei dati di sequenza.

Nel mio prossimo articolo, ti accompagnerò attraverso i dettagli dell’allineamento di sequenze a coppie e alcuni algoritmi comuni che vengono usati nel campo.

Siccome sono ancora molto nuovo in questo campo, mi piacerebbe sentire i tuoi consigli. 😇

Grazie per la lettura… 😃

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.