DNA-sekvenssidatan analysointi – Bioinformatiikan aloitus

Edellisessä artikkelissani esittelin DNA:n, nukleotidien ja niiden järjestelyn perusteet. Saatat ihmetellä, miten voimme tunnistaa DNA-molekyylin nukleotidien tarkan järjestyksen. Tässä kohtaa DNA:n sekvensointi astuu kuvaan.

Sekvensointi on toimenpide, jolla määritetään tietyn DNA-molekyylin nukleotidien tarkka järjestys. Sitä käytetään DNA-juosteen neljän emäksen adeniinin (A), guaniinin (G), sytosiinin (C) ja tymiinin (T) järjestyksen määrittämiseen.

DNA:n sekvensointia käytetään yksittäisten geenien, kokonaisten kromosomien tai koko organismin genomin järjestyksen määrittämiseen. DNA-sekvensoinnista on tullut myös tehokkain tapa sekvensoida RNA:ta tai proteiineja.

DNA-molekyyli (Kuvalähde: https://.com)

Sekvensoinnin historia

Britannialaisen biokemistin nimeltä Frederick Sanger tekemä työ loi pohjan valkuaisaineiden sekvensoinnille. Vuonna 1955 Sanger oli saanut valmiiksi kaikkien insuliinin aminohappojen sekvenssin. Hänen työnsä antoi todisteita siitä, että proteiinit koostuivat kemiallisista kokonaisuuksista, joilla oli tietty kuvio, eikä aineiden sekoituksesta.

Frederick Sanger (Kuvalähde: https://en.wikipedia.org/wiki/DNA_sequencing)

Myöhemmin Frederick Sanger ja hänen kollegansa kehittivät vuonna 1977 menetelmän, jota kutsuttiin nimellä Sanger- sekvensointi (Sanger Sequencing) ja jossa DNA:ta pystyttiin sekvensoimaan luomalla siitä katkelmia. Se oli laajimmin käytetty sekvensointimenetelmä noin 40 vuoden ajan.

Koko genomin sekvensointi ja sekvenssien kokoaminen

DNA:n sekvensointireaktio tuottaa useita satoja emäksiä pitkän sekvenssin. Geenisekvenssit ovat tyypillisesti tuhansia emäksiä pitkiä. Suurin tunnettu geeni on Duchennen lihasdystrofiaan liittyvä geeni. Sen pituus on noin 2,4 miljoonaa emästä. Tutkijat käyttävät yhden kokonaisen geenin tutkimiseen yksinkertaista strategiaa, jota kutsutaan haulikkosekvensoinniksi. Pitkä DNA-sekvenssi kootaan sarjasta lyhyempiä päällekkäisiä sekvenssejä. Katsotaan, mitä haulikkosekvensointimenetelmässä tapahtuu.

Haulikkosekvensointi

Haulikkosekvensointi

Erikoiskoneiden, niin sanottujen sekvensointikoneiden, avulla poimitaan lyhyitä sattumanvaraisia DNA-sekvenssejä tietystä genomista, jota halutaan määrittää (kohdegenomi). Nykyisillä DNA-sekvensointitekniikoilla ei voida lukea yhtä kokonaista genomia kerralla. Siinä luetaan pieniä, 20-30000 emäksen pituisia pätkiä käytetystä tekniikasta riippuen. Näitä lyhyitä kappaleita kutsutaan lukemiksi. Erikoisohjelmia käytetään näiden lukujen kokoamiseen sen mukaan, miten ne ovat päällekkäisiä, jotta saadaan muodostettua jatkuvia ketjuja, joita kutsutaan contigeiksi. Nämä contigit voivat olla koko kohdegenomi itsessään tai osia genomista (kuten yllä olevassa kuvassa on esitetty).

Prosessi, jossa pidemmän DNA-sekvenssin fragmentteja kohdistetaan ja yhdistetään alkuperäisen sekvenssin rekonstruoimiseksi, tunnetaan nimellä sekvenssin assosiointi.

Koko genomin sekvenssin saamiseksi saatetaan joutua tuottamaan yhä useampia satunnaisia lukukappaleita, kunnes contigit täsmäävät kohdegenomiin.

Sekvenssin kokoamisongelma

Sekvenssin kokoamisongelma voidaan kuvata seuraavasti.

Antaen joukon sekvenssejä, etsi minimaalisen pituinen merkkijono, joka sisältää kaikki joukon jäsenet osajonoina.

>

Lähteenä oleva kuva: http://www.homolog.us/Tutorials/index.php?p=1.3&s=1

Ongelmaa monimutkaistaa entisestään se, että genomissa on toistuvia sekvenssejä sekä niiden sisällä tapahtuvia substituutioita tai mutaatioita.

Sekvenssin kokoamisongelmaa voidaan verrata tosielämän skenaarioon seuraavasti.

Asettele, että otat monta kopiota kirjasta, kuljetat jokaisen niistä silppurin läpi eri leikkurilla, ja sitten yrität koota kirjan tekstin takaisin yhteen vain liimaamalla silputtuja paloja yhteen. On selvää, että tämä tehtävä on melko vaikea. Lisäksi siihen liittyy myös joitakin ylimääräisiä käytännön ongelmia. Alkuperäisessä kappaleessa voi olla monia toistuvia kohtia, ja joihinkin palasiin voi silppuamisen aikana tulla kirjoitusvirheitä. Myös osia toisesta kirjasta on saatettu lisätä, ja jotkin silppuset saattavat olla täysin tunnistamattomia.

Tämä kuulostaa hyvin sekavalta ja melko mahdottomalta toteuttaa. Tämän ongelman tiedetään olevan NP Complete. NP-täydelliset ongelmat ovat ongelmia, joiden tila on tuntematon. Yhdellekään NP-täydelliselle ongelmalle ei ole vielä löydetty polynomaaliaikaista algoritmia, eikä kukaan ole vielä pystynyt todistamaan, että millekään niistä ei ole olemassa polynomaaliaikaista algoritmia. Sekvenssien kokoamisongelman ratkaisemiseen on kuitenkin olemassa ahneita algoritmeja, joiden kokeilut ovat osoittautuneet käytännössä melko hyvin toimiviksi.

Yleinen menetelmä, jota käytetään sekvenssien kokoamisongelman ratkaisemiseen ja sekvenssidatan analysointiin, on sekvenssien kohdistaminen.

Sequence Alignment

Sequence Alignment (sekvenssien kohdistaminen) on menetelmä, jolla DNA:n, RNA:n tai proteiinin sekvenssejä voidaan järjestellä niin, että voidaan havaita samankaltaiset alueet. Tunnistettava samankaltaisuus voi johtua sekvenssien välisistä toiminnallisista, rakenteellisista tai evolutiivisista suhteista.

Jos vertaamme kahta sekvenssiä, sitä kutsutaan pareittaiseksi sekvenssikohdistukseksi. Jos vertaamme useampaa kuin kahta sekvenssiä, sitä kutsutaan monisekvenssikohdistukseksi.

Seuraavan sukupolven sekvensointi

Seuraavan sukupolven sekvensointi (NGS), joka tunnetaan myös nimellä korkean läpimenon sekvensointi, on yhteisnimitys, jota käytetään kuvaamaan monia erilaisia nykyaikaisia sekvensointitekniikoita, kuten,

  • Illumina (Solexa) sekvensointi
  • Roche 454 sekvensointi
  • Ion torrent Proton / PGM sekvensointi
  • SOLiD sekvensointi

Näiden viimeaikaisten tekniikoiden avulla voidaan sekvensoida DNA:ta ja RNA:ta paljon nopeammin ja halvemmalla kuin aiemmin käytössä olleella Sanger-sekvensoinnilla, ja ne ovat vallankumouksellisesti mullistaneet genomiikan tutkimuksen.

Loppuajatuksia

Sekvenssidatan analysoinnista on tullut erittäin tärkeä näkökohta genomiikan alalla. Bioinformatiikka on helpottanut biologien analyysitehtävää huomattavasti tarjoamalla erilaisia ohjelmistoratkaisuja ja säästämällä kaiken ikävän manuaalisen työn.

Luettelon DNA-sekvensoinnissa käytettävistä ohjelmistotyökaluista löydät täältä. Lisäksi löydät luettelon sekvenssien kohdistamisohjelmistoista täältä.

Toivottavasti sait peruskäsityksen sekvenssidatan analysoinnista.

Seuraavassa artikkelissani käyn läpi yksityiskohtaisesti pareittaisen sekvenssien kohdistamisen ja muutamia yleisiä algoritmeja, joita alalla käytetään.

Koska olen vielä hyvin uusi tällä alalla, haluaisin kuulla neuvojasi. 😇

Kiitos lukemisesta… 😃

Vastaa

Sähköpostiosoitettasi ei julkaista.