DNA Sequence Data Analysis – Starting off in Bioinformatics

In mijn vorige artikel heb ik de basisbeginselen van DNA, nucleotiden en hun rangschikking geïntroduceerd. Je vraagt je misschien af hoe we de precieze volgorde van de nucleotiden van een DNA-molecule kunnen bepalen. Dit is waar DNA-sequencing in actie komt.

Sequencing is de bewerking van het bepalen van de precieze volgorde van nucleotiden van een bepaalde DNA-molecule. Het wordt gebruikt om de volgorde van de vier basen adenine (A), guanine (G), cytosine (C) en thymine (T) in een streng DNA te bepalen.

DNA-sequencing wordt gebruikt om de volgorde te bepalen van afzonderlijke genen, volledige chromosomen of volledige genomen van een organisme. DNA-sequencing is ook de meest efficiënte manier geworden om RNA of eiwitten te sequencen.

DNA Molecuul (Beeldbron: https://.com)

Geschiedenis van Sequencing

Het werk van een Britse biochemicus, Frederick Sanger genaamd, legde de basis voor het sequencen van eiwitten. In 1955 had Sanger de sequentie van alle aminozuren in insuline voltooid. Zijn werk leverde het bewijs dat eiwitten bestonden uit chemische entiteiten met een specifiek patroon, in plaats van uit een mengsel van stoffen.

Frederick Sanger (Image Source: https://en.wikipedia.org/wiki/DNA_sequencing)

Later werd door Frederick Sanger en zijn collega’s in 1977 een methode ontwikkeld met de naam Sanger Sequencing, waarbij DNA kon worden gesequeneerd door fragmenten te genereren. Het was gedurende ongeveer 40 jaar de meest gebruikte sequentiemethode.

Whole Genome Sequencing and Sequence Assembly

Een DNA-sequencingreactie produceert een sequentie die enkele honderden basen lang is. Gensequenties zijn doorgaans duizenden basen lang. Het grootste bekende gen is het gen dat in verband wordt gebracht met Duchenne spierdystrofie. Het is ongeveer 2,4 miljoen basen lang. Om een heel gen te bestuderen, gebruiken wetenschappers een eenvoudige strategie die bekend staat als shotgun sequencing. De lange DNA sequentie wordt samengesteld uit een reeks kortere overlappende sequenties. Laten we eens kijken wat er gebeurt in de shotgun sequencing aanpak.

Shotgun Sequencing

Shotgun Sequencing

Speciale machines, sequencingmachines genaamd, worden gebruikt om korte willekeurige DNA-sequenties te extraheren uit een bepaald genoom dat we willen bepalen (doelgenoom). De huidige DNA-sequencingtechnologieën kunnen geen volledig genoom in één keer lezen. Zij leest kleine stukjes van tussen 20 en 30000 bases, afhankelijk van de gebruikte technologie. Deze korte stukjes worden reads genoemd. Speciale software wordt gebruikt om deze gelezen sequenties te assembleren op basis van hun overlappingen, en zo continue reeksen te genereren die contigs worden genoemd. Deze contigs kunnen het volledige doelgenoom zelf zijn, of delen daarvan (zoals in bovenstaande figuur).

Het proces waarbij fragmenten van een langere DNA-sequentie worden uitgelijnd en samengevoegd om de oorspronkelijke sequentie te reconstrueren, staat bekend als sequentie-assemblage.

Om de volledige genoomsequentie te verkrijgen, moeten we wellicht meer en meer willekeurige reads genereren, totdat de contigs met het doelgenoom overeenkomen.

Sequentieassemblageprobleem

Het sequentieassemblageprobleem kan als volgt worden beschreven.

Gegeven een reeks sequenties, zoek de minimale lengtestring die alle leden van de reeks als substrings bevat.

Afbeelding Bron: http://www.homolog.us/Tutorials/index.php?p=1.3&s=1

Dit probleem wordt nog gecompliceerder door het bestaan van repetitieve sequenties in het genoom en door substituties of mutaties daarin.

Het sequentieassemblageprobleem kan als volgt worden vergeleken met een realistisch scenario.

Veronderstel dat je een groot aantal exemplaren van een boek neemt, die elk door een versnipperaar met een ander mesje haalt, en dan probeert de tekst van het boek weer aan elkaar te plakken door de versnipperde stukken aan elkaar te lijmen. Het is duidelijk dat deze taak vrij moeilijk is. Bovendien zijn er nog enkele praktische problemen. Het oorspronkelijke exemplaar kan veel herhaalde alinea’s bevatten, en sommige snippers kunnen tijdens het versnipperen zijn gewijzigd zodat er typefouten in staan. Er kunnen ook delen uit een ander boek aan zijn toegevoegd, en sommige snippers kunnen volledig onherkenbaar zijn.

Het klinkt erg verwarrend en vrij onmogelijk om uit te voeren. Dit probleem staat bekend als NP-compleet. NP-complete problemen zijn problemen waarvan de status onbekend is. Er is nog geen polynomiale-tijdalgoritme ontdekt voor een NP-volledig probleem, en niemand heeft nog kunnen bewijzen dat er voor geen enkel probleem een polynomiale-tijdalgoritme bestaat. Er bestaan echter greedy-algoritmen om het sequentie-assemblageprobleem op te lossen, waarvan experimenten hebben bewezen dat ze in de praktijk redelijk goed presteren.

Een veelgebruikte methode om het sequentie-assemblageprobleem op te lossen en sequentie-gegevens te analyseren is sequentie-uitlijning.

Sequence Alignment

Sequence alignment is een methode om sequenties van DNA, RNA of eiwit te rangschikken om gebieden van overeenkomst te identificeren. De geïdentificeerde overeenkomst kan het resultaat zijn van functionele, structurele of evolutionaire relaties tussen de sequenties.

Als we twee sequenties vergelijken, staat dit bekend als paarsgewijze sequentie-uitlijning. Als we meer dan twee sequenties vergelijken, staat dit bekend als multiple sequence alignment.

Next-Generation Sequencing

Next-generation sequencing (NGS), ook bekend als high-throughput sequencing, is de verzamelnaam die wordt gebruikt om veel verschillende moderne sequencingtechnologieën te beschrijven, zoals,

  • Illumina (Solexa) sequencing
  • Roche 454 sequencing
  • Ion torrent Proton / PGM sequencing
  • SOLiD sequencing

Deze recente technologieën stellen ons in staat om DNA en RNA veel sneller en goedkoper te sequencen dan de vroeger gebruikte Sanger sequencing, en hebben een revolutie teweeggebracht in de studie van genomics.

Eindgedachten

De analyse van sequentiegegevens is een zeer belangrijk aspect geworden op het gebied van de genomica. Bio-informatica heeft de analysetaak van biologen veel gemakkelijker gemaakt, door verschillende software-oplossingen te bieden en al het vervelende handwerk te besparen.

U kunt hier een lijst vinden van software-instrumenten die voor DNA-sequencing worden gebruikt. Verder kunt u een lijst van sequentie uitlijning software van hier vinden.

Hoop je hebt een basisidee over sequentie data-analyse.

In mijn volgende artikel, zal ik u door de details van de paarsgewijze sequentie uitlijning en een paar veel voorkomende algoritmen die worden gebruikt in het veld.

Omdat ik ben nog steeds erg nieuw op dit gebied, zou ik graag uw advies te horen. 😇

Dank voor het lezen… 😃

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.