În articolul meu anterior, am prezentat elementele de bază ale ADN-ului, nucleotidele și aranjamentul lor. S-ar putea să vă întrebați cum putem identifica ordinea exactă a nucleotidelor unei molecule de ADN. Aici intră în acțiune secvențierea ADN.
Secvențierea este operațiunea de determinare a ordinii precise a nucleotidelor unei anumite molecule de ADN. Este utilizată pentru a determina ordinea celor patru baze adenină (A), guanină (G), citozină (C) și timină (T), într-un șir de ADN.
Secvențierea ADN este utilizată pentru a determina secvența unor gene individuale, a unor cromozomi întregi sau a unor genomuri întregi ale unui organism. Secvențierea ADN a devenit, de asemenea, cel mai eficient mod de a secvenția ARN sau proteine.
- Istoria secvențierii
- Secvențierea întregului genom și asamblarea secvențelor
- Shotgun Sequencing
- Problema asamblării secvențelor
- Alinierea secvențelor
- Secvențierea de generație următoare
- Secvențierea de generație următoare (NGS), cunoscută și sub numele de secvențiere de mare randament, este termenul colectiv utilizat pentru a descrie multe tehnologii moderne diferite de secvențiere, cum ar fi Secvențierea Illumina (Solexa) Secvențierea Roche 454 Secvențierea Ion torrent Proton / PGM Secvențierea SOLiD
- Gânduri finale
Istoria secvențierii
Lucrările efectuate de un biochimist britanic pe nume Frederick Sanger, au pus bazele secvențierii proteinelor. În 1955, Sanger a finalizat secvențierea tuturor aminoacizilor din insulină. Munca sa a furnizat dovezi că proteinele constau în entități chimice cu un model specific, mai degrabă decât într-un amestec de substanțe.
Mai târziu, o metodă numită secvențiere Sanger a fost dezvoltată de Frederick Sanger și colegii săi în 1977, în care ADN-ul putea fi secvențiat prin generarea de fragmente. A fost cea mai utilizată metodă de secvențiere timp de aproximativ 40 de ani.
Secvențierea întregului genom și asamblarea secvențelor
O reacție de secvențiere a ADN-ului produce o secvență care are o lungime de câteva sute de baze. Secvențele de gene au, de obicei, mii de baze. Cea mai mare genă cunoscută este cea asociată cu distrofia musculară Duchenne. Aceasta are o lungime de aproximativ 2,4 milioane de baze. Pentru a studia o genă întreagă, oamenii de știință folosesc o strategie simplă cunoscută sub numele de shotgun sequencing. Secvența lungă de ADN este asamblată dintr-o serie de secvențe mai scurte care se suprapun. Să vedem ce se întâmplă în abordarea prin secvențierea shotgun.
Shotgun Sequencing
Mașini speciale, cunoscute sub numele de mașini de secvențiere, sunt folosite pentru a extrage secvențe scurte de ADN aleatorii dintr-un anumit genom pe care dorim să îl determinăm (genomul țintă). Tehnologiile actuale de secvențiere a ADN nu pot citi un genom întreg deodată. Se citesc bucăți mici cuprinse între 20 și 30000 de baze, în funcție de tehnologia utilizată. Aceste bucăți scurte se numesc lecturi. Se folosesc programe speciale pentru a asambla aceste citiri în funcție de modul în care se suprapun, pentru a genera șiruri continue numite contigs. Aceste contigs pot fi întregul genom țintă în sine, sau părți ale genomului (așa cum se arată în figura de mai sus).
Procesul de aliniere și fuziune a fragmentelor dintr-o secvență mai lungă de ADN, pentru a reconstrui secvența originală, este cunoscut sub numele de asamblare a secvențelor.
Pentru a obține întreaga secvență a genomului, este posibil să fie nevoie să generăm din ce în ce mai multe citiri aleatorii, până când contigs se potrivesc cu genomul țintă.
Problema asamblării secvențelor
Problema asamblării secvențelor poate fi descrisă după cum urmează.
Dat fiind un set de secvențe, găsiți șirul de lungime minimă care conține toți membrii setului ca subșiruri.
Această problemă se complică și mai mult din cauza existenței secvențelor repetitive în genom, precum și a substituțiilor sau mutațiilor din cadrul acestora.
Problema asamblării secvențelor poate fi comparată cu un scenariu din viața reală după cum urmează.
Să presupunem că luați mai multe exemplare ale unei cărți, treceți fiecare dintre ele printr-un distrugător cu un tăietor diferit și apoi încercați să refaceți textul cărții doar prin lipirea bucăților distruse. Este evident că această sarcină este destul de dificilă. În plus, există și câteva probleme practice suplimentare. Exemplarul original poate avea multe paragrafe repetate, iar unele fragmente pot fi modificate în timpul tocaturii pentru a avea greșeli de scriere. De asemenea, pot fi adăugate părți dintr-o altă carte, iar unele fragmente pot fi complet de nerecunoscut.
Sună foarte confuz și destul de imposibil de realizat. Această problemă este cunoscută ca fiind NP Completă. Problemele NP complete sunt probleme a căror stare este necunoscută. Nu a fost descoperit încă nici un algoritm în timp polinomial pentru nici o problemă NP completă și nimeni nu a reușit încă să demonstreze că nu există nici un algoritm în timp polinomial pentru niciuna dintre ele. Cu toate acestea, există algoritmi lacomi pentru rezolvarea problemei de asamblare a secvențelor, în cazul în care experimentele s-au dovedit a funcționa destul de bine în practică.
O metodă frecvent utilizată pentru a rezolva problema de asamblare a secvențelor și pentru a efectua analiza datelor de secvență este alinierea secvențelor.
Alinierea secvențelor
Alinierea secvențelor este o metodă de aranjare a secvențelor de ADN, ARN sau proteine pentru a identifica regiunile de similaritate. Similitudinea fiind identificată, poate fi un rezultat al relațiilor funcționale, structurale sau evolutive dintre secvențe.
Dacă comparăm două secvențe, aceasta este cunoscută sub numele de aliniere de secvențe pe perechi. Dacă comparăm mai mult de două secvențe, este cunoscută sub numele de aliniere de secvențe multiple.
Secvențierea de generație următoare
Secvențierea de generație următoare (NGS), cunoscută și sub numele de secvențiere de mare randament, este termenul colectiv utilizat pentru a descrie multe tehnologii moderne diferite de secvențiere, cum ar fi:
Aceste tehnologii recente ne permit să secvențiem ADN și ARN mult mai rapid și mai ieftin decât secvențierea Sanger, utilizată anterior, și au revoluționat studiul genomicii.
Gânduri finale
Analiza datelor de secvență a devenit un aspect foarte important în domeniul genomicii. Bioinformatica a făcut sarcina de analiză mult mai ușoară pentru biologi, oferind diferite soluții software și economisind toată munca manuală plictisitoare.
Puteți găsi o listă de instrumente software utilizate pentru secvențierea ADN de aici. Mai mult, puteți găsi o listă de software de aliniere a secvențelor de aici.
Sperăm că v-ați făcut o idee de bază despre analiza datelor de secvență.
În următorul articol, vă voi prezenta detaliile alinierii secvențelor pe perechi și câțiva algoritmi comuni care sunt utilizați în domeniu.
Din moment ce sunt încă foarte nou în acest domeniu, aș dori să aud sfaturile dumneavoastră. 😇
Mulțumesc pentru lectură… 😃
😃.