DNA-sekvensdataanalys – en början i bioinformatik

I min tidigare artikel har jag presenterat grunderna för DNA, nukleotider och deras placering. Du kanske undrar hur vi kan identifiera den exakta ordningen av nukleotider i en DNA-molekyl. Det är här som DNA-sekvensering kommer in i bilden.

Sekvensering är den operation som går ut på att bestämma den exakta ordningen av nukleotider i en given DNA-molekyl. Den används för att bestämma ordningen på de fyra baserna adenin (A), guanin (G), cytosin (C) och tymin (T) i en DNA-sträng.

DNA-sekvensering används för att bestämma sekvensen för enskilda gener, hela kromosomer eller hela genomer i en organism. DNA-sekvensering har också blivit det mest effektiva sättet att sekvensera RNA eller proteiner.

DNA Molekyl (Bildkälla: https://.com)

Sekvenseringens historia

Arbetet som utfördes av en brittisk biokemiker vid namn Frederick Sanger lade grunden för sekvensering av proteiner. År 1955 hade Sanger slutfört sekvensen av alla aminosyror i insulin. Hans arbete gav bevis för att proteiner bestod av kemiska enheter med ett specifikt mönster, snarare än en blandning av ämnen.

Frederick Sanger (Bildkälla: https://en.wikipedia.org/wiki/DNA_sequencing)

Senare utvecklade Frederick Sanger och hans kollegor 1977 en metod som kallades för Sanger Sequencing, där DNA kunde sekvenseras genom att generera fragment. Det var den mest använda sekvenseringsmetoden i cirka 40 år.

Helgenomsekvensering och sekvensmontering

En DNA-sekvenseringsreaktion ger en sekvens som är flera hundra baser lång. Gensekvenser är vanligtvis tusentals baser långa. Den största kända genen är den som är förknippad med Duchennes muskeldystrofi. Den är ungefär 2,4 miljoner baser lång. För att studera en hel gen använder forskarna en enkel strategi som kallas shotgun-sekvensering. Den långa DNA-sekvensen sätts samman av en rad kortare överlappande sekvenser. Låt oss se vad som händer i strategin med shotgun-sekvensering.

Shotgun Sequencing

Shotgun Sequencing

Särskilda maskiner, så kallade sekvenseringsmaskiner, används för att extrahera korta slumpmässiga DNA-sekvenser från ett visst genom som vi vill bestämma (målgenom). Den nuvarande tekniken för DNA-sekvensering kan inte läsa av ett helt genom på en gång. Den läser små bitar på mellan 20 och 30000 baser, beroende på vilken teknik som används. Dessa korta bitar kallas för reads. Särskilda programvaror används för att sätta ihop dessa avläsningar beroende på hur de överlappar varandra, för att generera kontinuerliga strängar som kallas contigs. Dessa contigs kan vara hela målgenomet eller delar av genomet (som visas i figuren ovan).

Processen att anpassa och slå samman fragment från en längre DNA-sekvens för att rekonstruera den ursprungliga sekvensen kallas sekvensmontering.

För att få fram hela sekvensen av genomet kan det vara nödvändigt att generera fler och fler slumpmässiga reads, tills contigs stämmer överens med målgenomet.

Sekvenssamlingsproblem

Sekvenssamlingsproblemet kan beskrivas på följande sätt:

Givet en uppsättning sekvenser, hitta den sträng med minimal längd som innehåller alla medlemmar i uppsättningen som delsträngar.

Bildkälla: http://www.homolog.us/Tutorials/index.php?p=1.3&s=1

Problemet kompliceras ytterligare på grund av förekomsten av repetitiva sekvenser i genomet samt substitutioner eller mutationer inom dem.

Problemet med sekvenssammanställningen kan jämföras med ett verkligt scenario enligt följande.

Antag att du tar många kopior av en bok, skickar var och en av dem genom en dokumentförstörare med en annan skärare och sedan försöker du göra ihop texten i boken igen bara genom att limma ihop de sönderslagna bitarna. Det är uppenbart att denna uppgift är ganska svår. Dessutom finns det några extra praktiska problem också. Originalkopian kan ha många upprepade stycken, och vissa strimlor kan ha ändrats under makuleringen så att de har stavfel. Delar från en annan bok kan också ha lagts in, och vissa strimlor kan vara helt oigenkännliga.

Det låter väldigt förvirrande och ganska omöjligt att genomföra. Detta problem är känt för att vara NP Complete. NP complete problem är problem vars status är okänd. Ingen algoritm med polynomialtid har ännu upptäckts för något NP komplett problem, och ingen har ännu kunnat bevisa att det inte finns någon algoritm med polynomialtid för något av dem. Det finns dock greedy-algoritmer för att lösa sekvenssammanställningsproblemet, där experiment har visat sig fungera ganska bra i praktiken.

En vanlig metod som används för att lösa sekvenssammanställningsproblemet och för att utföra analys av sekvensdata är sekvensanpassning.

Sekvensanpassning

Sekvensanpassning är en metod för att ordna sekvenser av DNA, RNA eller protein för att identifiera regioner som är likartade. Likheten som identifieras kan vara ett resultat av funktionella, strukturella eller evolutionära relationer mellan sekvenserna.

Om vi jämför två sekvenser kallas det för parvis sekvensanpassning. Om vi jämför fler än två sekvenser kallas det multipel sekvensanpassning.

Nästa generations sekvensering

Nästa generations sekvensering (NGS), även kallad sekvensering med högt genomflöde, är ett samlingsbegrepp som används för att beskriva många olika moderna sekvenseringstekniker som t.ex,

  • Illumina (Solexa) sekvensering
  • Roche 454 sekvensering
  • Ion torrent Proton / PGM sekvensering
  • SOLiD sekvensering

Dessa nya tekniker gör det möjligt för oss att sekvensera DNA och RNA mycket snabbare och billigare än den tidigare använda Sanger sekvenseringen, och har revolutionerat studiet av genomik.

Sluttliga tankar

Analys av sekvensdata har blivit en mycket viktig aspekt inom genomikområdet. Bioinformatiken har gjort analysarbetet mycket enklare för biologer genom att tillhandahålla olika mjukvarulösningar och spara allt tråkigt manuellt arbete.

Du kan hitta en lista över mjukvaruverktyg som används för DNA-sekvensering härifrån. Dessutom kan du hitta en lista över programvaror för sekvensanpassning härifrån.

Hoppet är att du fick en grundläggande idé om analys av sekvensdata.

I min nästa artikel kommer jag att gå igenom detaljerna kring parvis sekvensanpassning och några vanliga algoritmer som används inom området.

Då jag fortfarande är väldigt ny på det här området, skulle jag vilja höra era råd. 😇

Tack för att du läste… 😃

Lämna ett svar

Din e-postadress kommer inte publiceras.