DNA-sekvensdataanalyse – Begynd at starte i bioinformatik

I min tidligere artikel har jeg introduceret det grundlæggende om DNA, nukleotider og deres placering. Du undrer dig måske over, hvordan vi kan identificere den præcise rækkefølge af nukleotider i et DNA-molekyle. Det er her, DNA-sekventering kommer ind i billedet.

Sekventering er den operation, der består i at bestemme den præcise rækkefølge af nukleotider i et givet DNA-molekyle. Det bruges til at bestemme rækkefølgen af de fire baser adenin (A), guanin (G), cytosin (C) og thymin (T) i en DNA-streng.

DNA-sekventering bruges til at bestemme rækkefølgen af individuelle gener, hele kromosomer eller hele genomer i en organisme. DNA-sekventering er også blevet den mest effektive måde at sekventere RNA eller proteiner på.

DNA-molekyle (Billedkilde: https://.com)

Historien om sekventering

Det arbejde, der blev udført af en britisk biokemiker ved navn Frederick Sanger, lagde grunden til sekventering af proteiner. I 1955 havde Sanger færdiggjort sekvensen af alle aminosyrerne i insulin. Hans arbejde gav beviser for, at proteiner bestod af kemiske enheder med et specifikt mønster, snarere end en blanding af stoffer.

Frederick Sanger (Billedkilde: https://en.wikipedia.org/wiki/DNA_sequencing)

Senere blev en metode kaldet Sanger Sequencing udviklet af Frederick Sanger og hans kolleger i 1977, hvor DNA kunne sekventeres ved at generere fragmenter. Det var den mest udbredte sekventeringsmetode i ca. 40 år.

Helgenomsekventering og sekvenssamling

En DNA-sekventeringsreaktion producerer en sekvens, der er flere hundrede baser lang. Gensekvenser er typisk tusindvis af baser lange. Det største kendte gen er det gen, der er forbundet med Duchennes muskeldystrofi. Det har en længde på ca. 2,4 millioner baser. For at undersøge et helt gen anvender forskerne en simpel strategi, der kaldes shotgun-sekventering. Den lange DNA-sekvens sammensættes ud fra en række kortere overlappende sekvenser. Lad os se, hvad der sker i shotgun-sekventeringsmetoden.

Shotgun Sequencing

Shotgun Sequencing

Særlige maskiner, kendt som sekventeringsmaskiner, bruges til at udtrække korte tilfældige DNA-sekvenser fra et bestemt genom, som vi ønsker at bestemme (målgenom). De nuværende DNA-sekventeringsteknologier kan ikke læse et helt genom på én gang. Den læser små stykker på mellem 20 og 30000 baser, afhængigt af den anvendte teknologi. Disse korte stykker kaldes læsninger. Der anvendes særlig software til at samle disse læsninger efter, hvordan de overlapper hinanden, med henblik på at generere sammenhængende strenge kaldet contigs. Disse contigs kan være selve målgenomet eller dele af genomet (som vist i ovenstående figur).

Processen med at tilpasse og sammenføje fragmenter fra en længere DNA-sekvens med henblik på at rekonstruere den oprindelige sekvens kaldes Sequence Assembly.

For at få hele genomsekvensen kan det være nødvendigt at generere flere og flere tilfældige reads, indtil contigsne matcher målgenomet.

Sekvenssamlingsproblem

Sekvenssamlingsproblemet kan beskrives som følger:

Givet et sæt sekvenser, find den streng af minimal længde, der indeholder alle medlemmer af sættet som understrenge.

Billedkilde: http://www.homolog.us/Tutorials/index.php?p=1.3&s=1

Dette problem er yderligere kompliceret på grund af eksistensen af gentagne sekvenser i genomet samt substitutioner eller mutationer inden for disse.

Sekvenssamlingsproblemet kan sammenlignes med et virkeligt scenarie som følger.

Antag, at man tager mange eksemplarer af en bog, lader hver af dem passere gennem en makulator med en anden skærekniv, og derefter forsøger man at samle bogens tekst igen blot ved at lime de makulerede stykker sammen. Det er indlysende, at denne opgave er temmelig vanskelig. Desuden er der også nogle ekstra praktiske problemer. Det originale eksemplar kan have mange gentagne afsnit, og nogle stumper kan være ændret under makulering, så de har stavefejl. Dele fra en anden bog kan også være blevet tilføjet i, og nogle strimler kan være helt uigenkendelige.

Det lyder meget forvirrende og helt umuligt at udføre. Dette problem er kendt for at være NP Complete. NP komplette problemer er problemer, hvis status er ukendt. Der er endnu ikke blevet opdaget nogen polynomialtidsalgoritme for noget NP-komplet problem, og ingen har endnu kunnet bevise, at der ikke findes nogen polynomialtidsalgoritme for nogen af dem. Der findes dog greedy-algoritmer til at løse sekvenssamlingsproblemet, hvor eksperimenter har vist sig at fungere ret godt i praksis.

En almindelig metode, der anvendes til at løse sekvenssamlingsproblemet og udføre sekvensdataanalyse, er sekvenstilpasning.

Sekvenstilpasning

Sekvenstilpasning er en metode til at arrangere sekvenser af DNA, RNA eller protein for at identificere regioner med ligheder. Ligheden, der identificeres, kan være et resultat af funktionelle, strukturelle eller evolutionære relationer mellem sekvenserne.

Hvis vi sammenligner to sekvenser, er det kendt som parvis sekvenstilpasning. Hvis vi sammenligner mere end to sekvenser, er det kendt som multiple sequence alignment.

Næste generations sekventering

Næste generations sekventering (NGS), også kendt som highthroughput sekventering, er den samlede betegnelse for mange forskellige moderne sekventeringsteknologier som f.eks,

  • Illumina (Solexa) sekventering
  • Roche 454 sekventering
  • Ion torrent Proton / PGM sekventering
  • SOLiD sekventering

Disse nye teknologier giver os mulighed for at sekventere DNA og RNA meget hurtigere og billigere end den tidligere anvendte Sanger sekventering og har revolutioneret studiet af genomforskning.

Sluttanker

Sekvensdataanalyse er blevet et meget vigtigt aspekt inden for genomforskning. Bioinformatik har gjort analyseopgaven meget lettere for biologer ved at stille forskellige softwareløsninger til rådighed og spare alt det kedelige manuelle arbejde.

Du kan finde en liste over softwareværktøjer, der anvendes til DNA-sekventering, herfra. Desuden kan du finde en liste over software til sekvensudligning herfra.

Håber du fik en grundlæggende idé om analyse af sekvensdata.

I min næste artikel vil jeg gennemgå detaljerne i parvis sekvensudligning og nogle få almindelige algoritmer, der anvendes på området.

Da jeg stadig er meget ny på dette område, vil jeg gerne høre jeres råd. 😇

Tak for læsning… 😃

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.