DNS-szekvenciaadatok elemzése – Indulás a bioinformatika világába

Az előző cikkemben bemutattam a DNS, a nukleotidok és elrendezésük alapjait. Talán kíváncsiak vagytok, hogyan tudjuk azonosítani egy DNS-molekula nukleotidjainak pontos sorrendjét. Itt jön a képbe a DNS-szekvenálás.

A szekvenálás egy adott DNS-molekula nukleotidjainak pontos sorrendjét meghatározó művelet. A négy bázis, az adenin (A), a guanin (G), a citozin (C) és a timin (T) sorrendjének meghatározására szolgál egy DNS-szálban.

A DNS-szekvenálást egy szervezet egyes génjeinek, teljes kromoszómáinak vagy teljes genomjainak sorrendjének meghatározására használják. A DNS-szekvenálás az RNS vagy a fehérjék szekvenálásának leghatékonyabb módjává is vált.

DNS-molekula (kép forrása: https://.com)

A szekvenálás története

A Frederick Sanger brit biokémikus által végzett munka megalapozta a fehérjék szekvenálását. Sanger 1955-ben elkészítette az inzulin összes aminosavának szekvenciáját. Munkája bizonyítékot szolgáltatott arra, hogy a fehérjék meghatározott mintázatú kémiai egységekből állnak, nem pedig anyagok keverékéből.

Frederick Sanger (Kép forrása: https://en.wikipedia.org/wiki/DNA_sequencing)

Később, 1977-ben Frederick Sanger és munkatársai kifejlesztették a Sanger-szekvenálásnak nevezett módszert, amellyel a DNS szekvenálását töredékek létrehozásával lehetett elvégezni. Körülbelül 40 évig ez volt a legszélesebb körben használt szekvenálási módszer.

A teljes genom szekvenálása és szekvencia-összeszerelés

A DNS-szekvenálási reakció több száz bázis hosszúságú szekvenciát eredményez. A génszekvenciák jellemzően több ezer bázis hosszúak. A legnagyobb ismert gén a Duchenne-izomdisztrófiához kapcsolódó gén. Ez körülbelül 2,4 millió bázis hosszúságú. Egy teljes gén tanulmányozásához a tudósok a shotgun szekvenálásnak nevezett egyszerű stratégiát alkalmazzák. A hosszú DNS-szekvenciát rövidebb, egymást átfedő szekvenciák sorozatából állítják össze. Lássuk, mi történik a shotgun szekvenálási megközelítés során.

Shotgun szekvenálás

Shotgun szekvenálás

A szekvenálógépeknek nevezett speciális gépek segítségével rövid, véletlenszerű DNS-szekvenciákat nyernek egy adott, meghatározni kívánt genomból (célgenom). A jelenlegi DNS-szekvenálási technológiák nem képesek egyszerre egy teljes genomot leolvasni. Az alkalmazott technológiától függően 20 és 30000 bázis közötti kis darabokat olvasnak le. Ezeket a rövid darabokat olvasatoknak nevezzük. Speciális szoftvereket használnak arra, hogy ezeket a leolvasásokat aszerint állítsák össze, hogy azok hogyan fedik egymást, és így folytonos sztringeket, úgynevezett kontigokat hozzanak létre. Ezek a contigek lehetnek maga a teljes célgenom, vagy a genom egyes részei (ahogy a fenti ábrán látható).

A hosszabb DNS-szekvenciából származó töredékek összehangolásának és egyesítésének folyamatát az eredeti szekvencia rekonstruálása érdekében szekvencia-összeszerelésnek nevezzük.

A teljes genomszekvencia megszerzéséhez szükség lehet újabb és újabb véletlenszerű olvasatok létrehozására, amíg a contigek nem egyeznek a célgenommal.

Szekvencia-összeszerelési probléma

A szekvencia-összeszerelési probléma a következőképpen írható le:

Adva egy szekvenciahalmazt, keressük meg azt a minimális hosszúságú sztringet, amely a halmaz minden tagját részsztringként tartalmazza.

Kép forrása: http://www.homolog.us/Tutorials/index.php?p=1.3&s=1

A problémát tovább bonyolítja, hogy a genomban ismétlődő szekvenciák, valamint az azokon belüli helyettesítések vagy mutációk léteznek.

A szekvencia összerakási probléma a következőképpen hasonlítható össze egy valós életbeli forgatókönyvvel.

Tegyük fel, hogy egy könyvből sok példányt veszünk, mindegyiket más-más vágóeszközzel átpasszírozzuk egy aprítógépen, majd megpróbáljuk a könyv szövegét csak az aprított darabok összeragasztásával újra összerakni. Nyilvánvaló, hogy ez a feladat elég nehéz. Ráadásul van néhány extra gyakorlati probléma is. Az eredeti példányban sok ismétlődő bekezdés lehet, és egyes foszlányok az aprítás során úgy módosulhatnak, hogy gépelési hibákat tartalmaznak. Előfordulhat, hogy egy másik könyvből származó részeket is beillesztettek, és egyes foszlányok teljesen felismerhetetlenek lehetnek.

Ez nagyon zavarosan hangzik, és meglehetősen lehetetlen végrehajtani. Ez a probléma köztudottan NP teljes. Az NP teljes problémák olyan problémák, amelyek állapota ismeretlen. Még egyetlen NP-teljes problémára sem fedeztek fel polinomiális idejű algoritmust, és még senki sem tudta bebizonyítani, hogy egyikre sem létezik polinomiális idejű algoritmus. Léteznek azonban mohó algoritmusok a szekvencia-összeállítási probléma megoldására, ahol a kísérletek során bebizonyosodott, hogy a gyakorlatban meglehetősen jól teljesítenek.

A szekvencia-összeállítási probléma megoldására és a szekvenciaadatok elemzésére gyakran használt módszer a szekvenciaillesztés.

Secvenciaillesztés

A szekvenciaillesztés a DNS-, RNS- vagy fehérjeszekvenciák elrendezésének módszere a hasonló régiók azonosítására. Az azonosított hasonlóság a szekvenciák közötti funkcionális, szerkezeti vagy evolúciós kapcsolatok eredménye lehet.

Ha két szekvenciát hasonlítunk össze, azt páros szekvenciaillesztésnek nevezzük. Ha kettőnél több szekvenciát hasonlítunk össze, azt többszörös szekvenciaillesztésnek nevezzük.

Újabb generációs szekvenálás

Az újgenerációs szekvenálás (NGS), más néven nagy áteresztőképességű szekvenálás, számos különböző modern szekvenálási technológia gyűjtőfogalma, mint pl.,

  • Illumina (Solexa) szekvenálás
  • Roche 454 szekvenálás
  • Ion torrent Proton / PGM szekvenálás
  • SOLiD szekvenálás

Ezek a legújabb technológiák lehetővé teszik a DNS és RNS szekvenálását sokkal gyorsabban és olcsóbban, mint a korábban használt Sanger szekvenálás, és forradalmasították a genomika vizsgálatát.

záró gondolatok

A szekvenciaadatok elemzése nagyon fontos szemponttá vált a genomika területén. A bioinformatika nagyban megkönnyítette a biológusok számára az elemzés feladatát azáltal, hogy különböző szoftveres megoldásokat kínál, és megspórolja a fárasztó kézi munkát.

A DNS-szekvenáláshoz használt szoftvereszközök listáját itt találja. Továbbá, a szekvencia-illesztési szoftverek listáját innen találja.

Remélem, kapott egy alapképet a szekvencia-adatok elemzéséről.

A következő cikkemben végigvezetem a páros szekvencia-illesztés részletein és néhány gyakori algoritmuson, amelyeket a területen használnak.

Mivel még nagyon új vagyok ezen a területen, szeretném hallani a tanácsait. 😇

Köszönöm, hogy elolvastad… 😃

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.