Egenskaper och tillämpningar av DNA-sekvensering av enmolekyler

När man tittar på egenskaperna hos tekniker för sekvensering av enmolekyler, ligger fokus oftast på avläsningslängd, felfrekvens och genomströmning (figur 3); Kvantitet och kvalitetskrav för ingående prov, enkelhet och parallelliserbarhet för provberedning och dataanalys är dock också viktiga komponenter som måste tas med i beräkningen när man överväger om en teknik, en enmolekylär eller annan, är lämplig för ett visst problem. Några av de tillämpningar som ofta genomförs med nuvarande sekvenseringsteknik och den relativa betydelsen av olika egenskaper hos olika sekvenseringsmetoder visas i tabell 1. Viktiga egenskaper hos tekniker för enkelmolekylär sekvensering som rör dessa olika tillämpningar diskuteras nedan.

Figur 3
figur3

Attributen hos tekniken för enkelmolekylär sekvensering. De aktuella antal läsningar och läsningslängder för tekniker för sekvensering av enmolekyler visas med prickarna. Varje teknik strävar efter att förbättra sina viktigaste egenskaper och forskningen är inriktad på de riktningar som pilen visar.

Tabell 1 Vilken sekvenseringsteknik ska man använda och när?a

Syntessekvensering

Det första kommersiellt tillgängliga systemet för sekvensering av enstaka molekyler utvecklades av våra kollegor på Helicos BioSciences . I detta system hybridiseras enskilda molekyler till en flödescellsyta som innehåller kovalent fastsatta oligonukleotider. Fluorescerande märkta nukleotider och ett DNA-polymeras tillsätts sekventiellt och inkorporeringshändelser detekteras genom laser excitation och registrering med en CCD-kamera (Charge Coupped Device). Den fluorescerande ”Virtual Terminator”-nukleoiden förhindrar inkorporering av alla efterföljande nukleotider tills nukleotidfärgämnet har spaltats. Bilderna från varje cykel sammanställs för att generera en övergripande uppsättning sekvensläsningar. Vid en standardkörning utförs 120 cykler av nukleotidtillsats och detektering. Med detta tillvägagångssätt kan långt över en miljard molekyler följas samtidigt. Eftersom det finns två flödesceller med 25 kanaler i en standardkörning kan 50 olika prover sekvenseras samtidigt, med ytterligare möjlighet till betydligt större genomströmning av prover genom multiplexering. Provkraven är de enklaste av alla tekniker: det krävs mängder på mindre än nanogram och DNA av mycket dålig kvalitet, inklusive nedbrutet eller modifierat DNA, kan sekvenseras. De genomsnittliga avläsningslängderna är relativt korta (ca 35 nt) med en felfrekvens för enskilda nukleotider som för närvarande ligger på ca 3-5 % och som förekommer slumpmässigt i hela sekvensavläsningen och huvudsakligen i form av ett fel i form av en ”mörk bas” eller ett borttagningsfel, vilket beaktas i anpassningsalgoritmen . Denna felfrekvens är inte ett problem när det gäller att upptäcka polymorfismer eftersom 30× täckning vanligtvis används för diploida genomer med andra generationens system för att överbrygga den ojämna täckning som orsakas av amplifiering. Överprovtagning behövs för att övervinna den stokastiska karaktären hos upptäckten av heterozygoter, där 30× täckning är tillrådligt för att se till att nästan alla heterozygoter identifieras korrekt. Vid denna täckningsnivå genereras korrekta konsensussekvenser oavsett felnivåer inom detta område. System med enstaka molekyler har en mycket jämnare täckning och kräver därför inte lika stort djup för fullständig upptäckt av heterozygoter. Den jämna täckningen i förhållande till andra generationens system visades med ChIP-experiment, där sekvensavläsningarna var relativt konstanta med avseende på GC-innehållet med enkelmolekylär sekvensering, medan betydande avvikelser observerades vid både högt och lågt GC-innehåll med amplifikationsbaserad sekvensering och med helgenomsekvensering av ett mänskligt prov .

Helicos Sequencer-systemet kan också sekvensera RNA-molekyler direkt, och på så sätt undvika de många artefakter som är förknippade med omvänt transkriptas och ge oöverträffad kvantitativ noggrannhet för mätningar av RNA-uttryck . Det mycket höga antalet avläsningar per prov gör det möjligt att göra exakta uttrycksmätningar med antingen RNA eller cDNA , vilket ännu inte är möjligt med andra tekniker för enstaka molekyler. Hela klasser av RNA-molekyler som inte kan visualiseras med andra tekniker kan faktiskt detekteras med hjälp av en enkelmolekylär metod . Liksom med många andra enkelmolekylsystem kan upprepade läsningar av samma molekyl avsevärt förbättra felprocenten och även göra det möjligt att upptäcka mycket sällsynta varianter i ett blandat prov. En sällsynt variant i ett prov som innehåller en blandning av ett fåtal tumörceller bland många normala celler skulle till exempel inte kunna upptäckas med förstärkt DNA. Med upprepad sekvensering av samma molekyl kan felprocenten drivas tillräckligt lågt så att mutationer i heterogena prover, t.ex. tumörer, lätt kan upptäckas. På grund av det minimala behovet av provberedning, förmågan att använda exceptionellt små startmängder och det höga antalet avläsningar är denna teknik idealisk för kvantitativa tillämpningar som ChIP, RNA-uttryck och variation av antalet kopior, och situationer där provmängden är begränsad eller nedbruten . Standardiserad, ny sekvensering av hela det mänskliga genomet är lätt att genomföra , men det är för närvarande billigare på andra generationens system.

Pacific Biosciences har utvecklat ett annat tillvägagångssätt för sekvensering genom syntes med hjälp av fluorescerande märkta nukleotider. I detta system begränsas DNA till en mycket liten volym i en vågledare med nolläge och närvaron av en fluorescerande märkt kognitiv nukleotid i närheten av DNA-polymeraset mäts. Vågledarens dimensioner är så små att ljuset endast kan tränga in i området mycket nära kanten, där det polymeras som används för sekvensering är begränsat. Endast nukleotider i den lilla volymen nära polymeraset kan belysas och fluorescera för detektion. Eftersom den nukleotid som införlivas i den förlängda DNA-strängen tillbringar en längre tid nära polymeraset kan den i stor utsträckning särskiljas från icke-kognitiva nukleotider. Alla fyra potentiella nukleotider ingår i reaktionen, var och en märkt med ett fluorescerande färgämne av olika färg så att de kan särskiljas från varandra. Varje nukleotid har en karakteristisk inkorporeringstid som ytterligare kan bidra till att förbättra basidentifieringen. Sekvensavläsningar på upp till tusentals baser, längre än vad som är möjligt med andra generationens system, erhålls i realtid för varje enskild molekyl. Den nuvarande genomströmningen är dock mindre än 100 000 läsningar per körning, så det totala sekvensutbytet är mycket lägre än för andra generationens system och Helicos-systemet. Dessutom är råfelsfrekvensen, för närvarande 15-20 % , betydligt högre än med någon annan aktuell sekvenseringsteknik, vilket skapar utmaningar när det gäller att använda data för vissa tillämpningar, t.ex. variantdetektering.

Mycket längre läsningar, så kallade ”strobe reads” , kan genereras genom att man stänger av lasern under perioder under sekvenseringen, vilket förhindrar för tidig avbrytning som orsakas av laserinducerad fotoskada på polymeraset och nukleotiderna. Om långa avläsningar inte är nödvändiga kan man komma till rätta med den höga råfelsfrekvensen genom att ligera en hårnålsoligonukleotid till varje ände av DNA:t, skapa en cirkulär mall (kallad SMRTbell för single molecule real time) och sedan sekvensera samma molekyl upprepade gånger . Detta förfarande fungerar när molekylerna är relativt korta, men det kan inte användas med långa läsuppgifter, så dessa behåller den höga råfelsfrekvensen. Även med en hög felprocent kan de mycket långa läsningarna användas på ett produktivt sätt för att sammanfoga sekvenskontigar. En ytterligare fördel med detta system är möjligheten att eventuellt upptäcka modifierade baser. Det är möjligt att upptäcka 5-metylcytosin , även om det återstår att klargöra vilken roll sekvenskontexten och andra faktorer spelar när det gäller att påverka noggrannheten i sådana tilldelningar. I princip borde direkt RNA-sekvensering också vara möjlig med detta system, men detta har ännu inte rapporterats för naturliga RNA-molekyler eftersom nukleotider binder upprepade gånger till det omvända transkriptaset före nukleotidinkorporering, vilket ger falska signaler med flera infogningar som förhindrar bestämning av en meningsfull sekvens. Dessutom kommer det låga antalet avläsningar i detta system att begränsa det till identifiering av vanliga mRNA-isoformer snarare än kvantitativ uttrycksprofilering eller fullständig transkriptomtäckning, som båda kräver ett mycket högre antal avläsningar än vad som är möjligt inom en överskådlig framtid. Generellt sett gör de långa avläsningarna och den korta genomströmningstiden detta system mest användbart för att hjälpa till att sätta ihop genomer, bedöma analysen av strukturell variation, haplotypning, metagenomik och identifiering av isoformer för splicing.

Life Technologies, en stor leverantör av både första och andra generationens sekvenseringssystem, håller på att utveckla den fluorescensresonansenergiöverföringsbaserade FRET-tekniken (fluorescence resonance energy transfer), som bygger på sekvensering genom syntes av enstaka molekyler, och som ursprungligen lanserades av Visigen . Betydande framsteg har gjorts och det kommersiella lanseringen av ”Starlight”-systemet väntas inom en snar framtid. Den nuvarande tekniken består av ett kvantprickmärkt polymeras som syntetiserar DNA med hjälp av fyra distinkt märkta nukleotider i ett realtidssystem . Kvantprickar, som är fluorescerande halvledande nanopartiklar, har en fördel jämfört med fluorescerande färgämnen eftersom de är mycket ljusare och mindre känsliga för blekning, även om de också är mycket större och mer känsliga för att blinka. Det genomiska prov som skall sekvenseras ligeras till en oligonukleotid med definierad sekvens som fästs på ytan och läses sedan genom förlängning av en primer som är komplementär till oligonukleotiden på ytan. När en fluorescerande märkt nukleotid binder till polymeraset interagerar den med kvantpunkten och orsakar en förändring av fluorescensen hos både nukleotid och kvantpunkt. Signalen från kvantpunkten sjunker, medan signalen från den färgämnesmärkta fosfaten på varje nukleotid stiger vid en karakteristisk våglängd. Sekvensen i realtid registreras för varje förlängande primer. Eftersom varje sekvens är bunden till ytan, kan den återigen primas och sekvenseras på nytt för ökad noggrannhet. Det är inte klart vad sekvensspecifikationerna kommer att vara, men dess likhet med Pacific Biosciences teknik gör den till en trolig referenspunkt. Om så är fallet kommer den att ha samma styrka när det gäller tillämpningar (sammansättning av arvsmassan, strukturell variation, haplotypning, metagenomik) medan den eventuellt kommer att utmanas med kvantitativa tillämpningar som kräver ett högt antal avläsningar (t.ex. ChIP eller RNA-expression).

Optisk sekvensering och kartläggning

Det finns andra tekniker som gör det möjligt att producera mycket långa avläsningar, men till priset av en betydligt lägre genomströmning. Det är till exempel möjligt att fästa mycket långa DNA-molekyler, upp till hundratals kilobaser långa, på ytor och förhöra dem efter särskilda sekvenser genom att skära dem med olika restriktionsenzymer eller märka dem efter behandling med sekvensspecifika nikkingenzymer. Längden på de undersökta molekylerna är beroende av förmågan att hantera så långt DNA utan att mekaniskt klippa det. Fullständiga restriktionsdigester som gör det möjligt att ordna sekvenskontigens har genererats för mänskliga och andra genom från samlingar av enskilda molekyler som sträcker sig över hela genomer . Mycket repetitiva och duplicerade genomer, t.ex. majs, är särskilt svåra att sammanställa med traditionell sekvensering, men har framgångsrikt analyserats med detta system med enstaka molekyler. Restriktionsplatserna ger sekvensmarkörer på DNA:t och därmed kan långa upprepade regioner och andra komplicerade strukturella variationer tilldelas på ett otvetydigt sätt. Specialiserade tillämpningar såsom kartläggning av metylering i hela genomet kan också genomföras .

På liknande sätt kan DNA-molekyler begränsas till nanorör och märkas specifikt för visning . Enskilda RNA-molekyler har visualiserats med hjälp av skanningspets-Raman-spektroskopi . I en alternativ metod som också använder adsorption av långa DNA-molekyler till en yta kan guaniner urskiljas från alla andra baser och den partiella sekvensen avläsas med ett svepelektronmikroskop . Möjligheterna att läsa av andra baser genom att lägga in tunga atomer, t.ex. brom eller jod, på vissa nukleotider har föreslagits av ZS Genetics . Även om den låga genomströmningen av strängar och den ofullständiga sekvensavläsningen för närvarande är begränsande, finns det potential för avläsningar som är hundratals kilobaser långa, vilket återigen främst begränsas av förmågan att hantera DNA utan att klippa det. Andra tekniker som använder direktläsning av sträckat DNA har granskats på annat håll . Dessa optiska sekvenseringstekniker ger en kraftfull bild av genomets struktur, men de kan inte ge detaljerade sekvensdata eller tillgång till många andra sekvenseringstillämpningar som kräver höga avläsningssiffror, t.ex. mätningar av genuttryck.

Nanoporer

Alla sekvenseringstekniker som beskrivits hittills kräver någon form av etikett på DNA:t eller nukleotidsubstratet för att upptäcka den enskilda basen för sekvensering. Nanoporemetoder kräver dock i allmänhet ingen exogen märkning utan förlitar sig i stället på den elektroniska eller kemiska strukturen hos de olika nukleotiderna för diskriminering. Fördelarna med och möjligheterna att använda nanoporer har granskats . De nanoporer som hittills varit mest intressanta är de som monterats med fasta system som består av material som kolnanorör eller tunna filmer och det biologiskt baserade α-hemolysinet eller MspA . Dessa bakteriella porproteiner har studerats ingående och konstruerats för att optimera upptäckten av specifika baser och translokationshastigheten för DNA genom porerna. Även om sekvensering av inhemskt DNA baserat på dess naturliga egenskaper skulle eliminera märkningssteget och potentiellt möjliggöra mycket långa avläsningar med minimal provberedning, vilket skulle minska kostnaderna, är skillnaderna mellan nukleotider mycket blygsamma och deras detektion försvåras av svårigheter med att kontrollera DNA:s hastighet och riktning genom nanoporerna. Specifik detektering och enkelriktat flöde krävs för sekvensering med hög noggrannhet.

En mängd olika metoder har använts för att bromsa DNA:s hastighet genom nanoporerna, inklusive fastsättning av polystyrenpärlor , saltkoncentrationer , viskositet , magnetfält och införande av regioner av dubbelsträngat DNA på ett enkelsträngat mål . Vid de höga translokationshastigheter som vanligtvis förekommer (potentiellt miljontals baser per sekund) kan det vara en utmaning att detektera en signal över bakgrundsbruset från varje nukleotid, och detta har i vissa fall övervunnits genom att läsa av grupper av nukleotider (t.ex. genom att använda hybridisering av kända sekvenser, vilket utvecklas av NabSys ) eller genom att koda den ursprungliga sekvensen på ett mer komplext sätt genom att omvandla nukleotidsekvensen med hjälp av en binär kod av molekylära fyrar (vilket utvecklas av NobleGen ). Upprätthållandet av ett enkelriktat flöde av DNA har förbättrats genom att koppla ett exonukleas till processen och läsa av de klyvda nukleotiderna (vilket utvecklats av Oxford Nanopore ).

Och även om tekniken för sekvensering med nanoporerna fortsätter att utvecklas är det inte tillräckligt att bara visa upp förmågan att sekvensera DNA, något som ännu inte visats av nanoporerna med naturligt DNA. Det måste finnas en väg till lägre kostnader, längre läsningar eller högre noggrannhet i förhållande till annan teknik som ger nanoporerna en unik fördel i förhållande till andra metoder. Även om kostnaderna för reagens kan minskas avsevärt kvarstår kostnaderna för provberedning och informatik, och dessa kan bli de dominerande kostnaderna för sekvensering och kommer att variera beroende på vilken teknik som används. Det kommer inte att bli lätt att övervinna de ständigt ökande hinder som den befintliga tekniken skapar. Med tanke på de många olika andra generationens tekniker och tekniker för enstaka molekyler som redan har kommersialiserats och andra som är på gång, kommer det att krävas betydande framsteg på många fronter för att dessa tekniker ska bli kommersiellt lönsamma.

Lämna ett svar

Din e-postadress kommer inte publiceras.