Analýza sekvenčních dat DNA – začátky v bioinformatice

V předchozím článku jsem představil základy DNA, nukleotidy a jejich uspořádání. Možná vás zajímá, jak můžeme určit přesné pořadí nukleotidů v molekule DNA. Zde přichází ke slovu sekvenování DNA.

Sekvenování je operace, při níž se určuje přesné pořadí nukleotidů dané molekuly DNA. Používá se k určení pořadí čtyř bází adeninu (A), guaninu (G), cytosinu (C) a tyminu (T) ve vlákně DNA.

Sekvenování DNA se používá k určení sekvence jednotlivých genů, celých chromozomů nebo celých genomů organismu. Sekvenování DNA se také stalo nejefektivnějším způsobem sekvenování RNA nebo proteinů.

Molekula DNA (Zdroj obrázku: https://.com)

Historie sekvenování

Práce, kterou provedl britský biochemik Frederick Sanger, položila základ sekvenování proteinů. V roce 1955 Sanger dokončil sekvenci všech aminokyselin v inzulínu. Jeho práce poskytla důkaz, že bílkoviny se skládají z chemických jednotek se specifickou strukturou, a nikoli ze směsi látek.

Frederick Sanger (Zdroj obrázku: https://en.wikipedia.org/wiki/DNA_sequencing)

Později, v roce 1977, vyvinul Frederick Sanger a jeho kolegové metodu nazvanou Sangerovo sekvenování, při níž bylo možné sekvenovat DNA generováním fragmentů. Přibližně 40 let se jednalo o nejpoužívanější metodu sekvenování.

Celogenomové sekvenování a sestavování sekvencí

Sekvenační reakce DNA vytváří sekvenci dlouhou několik set bází. Sekvence genů jsou obvykle dlouhé tisíce bází. Největší známý gen je gen spojený s Duchennovou svalovou dystrofií. Jeho délka je přibližně 2,4 milionu bází. Ke studiu jednoho celého genu používají vědci jednoduchou strategii známou jako shotgun sekvenování. Dlouhá sekvence DNA je sestavena z řady kratších překrývajících se sekvencí. Podívejme se, co se děje při přístupu shotgun sekvenování.

Shotgun sekvenování

Shotgun sekvenování

Speciální stroje, známé jako sekvenátory, se používají k získání krátkých náhodných sekvencí DNA z určitého genomu, který chceme určit (cílový genom). Současné technologie sekvenování DNA nedokážou přečíst jeden celý genom najednou. Čtou se malé kousky o délce 20 až 30000 bází, v závislosti na použité technologii. Tyto krátké kousky se nazývají čtení. Speciální software se používá ke skládání těchto čtení podle toho, jak se překrývají, aby se vytvořily souvislé řetězce nazývané kontigy. Tyto kontigy mohou být samotný celý cílový genom nebo jeho části (jak je znázorněno na obrázku výše).

Proces zarovnávání a spojování fragmentů z delší sekvence DNA za účelem rekonstrukce původní sekvence se nazývá sestavování sekvence.

Pro získání celé sekvence genomu můžeme potřebovat generovat další a další náhodné čtení, dokud se kontigy neshodují s cílovým genomem.

Problém sestavení sekvence

Problém sestavení sekvence lze popsat takto:

Při dané množině sekvencí najděte řetězec minimální délky obsahující všechny členy množiny jako podřetězce.

Zdroj obrázku: http://www.homolog.us/Tutorials/index.php?p=1.3&s=1

Tento problém je dále komplikován existencí opakujících se sekvencí v genomu a také substitucí nebo mutací v nich.

Problém sestavení sekvence lze přirovnat k reálnému scénáři následovně.

Předpokládejme, že vezmete mnoho kopií knihy, každou z nich necháte projít skartovačkou s jinou řezačkou a pak se pokusíte text knihy opět složit dohromady pouhým slepením skartovaných částí. Je zřejmé, že tento úkol je dost obtížný. Navíc jsou zde i další praktické problémy. Původní výtisk může mít mnoho opakujících se odstavců a některé skartované kusy mohou být při skartaci upraveny tak, že v nich budou překlepy. Mohly být také přidány části z jiné knihy a některé skartované části mohou být zcela nerozpoznatelné.

Zní to velmi zmateně a zcela nemožně proveditelné. O tomto problému je známo, že je NP úplný. NP úplné problémy jsou problémy, jejichž stav není znám. Pro žádný NP úplný problém nebyl dosud objeven algoritmus s polynomiálním časem a nikomu se dosud nepodařilo dokázat, že pro žádný z nich neexistuje algoritmus s polynomiálním časem. Existují však chamtivé algoritmy pro řešení problému sestavení sekvence, kde se experimentálně ukázalo, že v praxi fungují poměrně dobře.

Běžnou metodou používanou k řešení problému sestavení sekvence a provádění analýzy sekvenčních dat je zarovnání sekvence.

Zarovnání sekvence

Zarovnání sekvence je metoda uspořádání sekvencí DNA, RNA nebo bílkovin s cílem určit oblasti podobnosti. Identifikovaná podobnost může být výsledkem funkčních, strukturních nebo evolučních vztahů mezi sekvencemi.

Pokud porovnáváme dvě sekvence, jedná se o tzv. párové zarovnání sekvencí. Pokud porovnáváme více než dvě sekvence, jedná se o tzv. vícenásobné zarovnání sekvencí.

Sekvenování nové generace

Sekvenování nové generace (NGS), známé také jako sekvenování s vysokou výkonností, je souhrnné označení pro mnoho různých moderních sekvenačních technologií, např,

  • sekvenování Illumina (Solexa)
  • sekvenování Roche 454
  • sekvenování Ion torrent Proton / PGM
  • sekvenování SOLiD

Tyto nejnovější technologie nám umožňují sekvenovat DNA a RNA mnohem rychleji a levněji než dříve používané Sangerovo sekvenování a způsobily revoluci ve studiu genomiky.

Závěrečné myšlenky

Sekvenční analýza dat se stala velmi důležitým aspektem v oblasti genomiky. Bioinformatika biologům úkol analýzy značně usnadnila tím, že jim poskytla různá softwarová řešení a ušetřila jim veškerou zdlouhavou ruční práci.

Seznam softwarových nástrojů používaných pro sekvenování DNA najdete zde. Dále můžete najít seznam softwarových nástrojů pro zarovnávání sekvencí odsud.

Doufám, že jste získali základní představu o analýze sekvenčních dat.

V příštím článku vás podrobně seznámím s párovým zarovnáváním sekvencí a několika běžnými algoritmy, které se v této oblasti používají.

Protože jsem v této oblasti stále ještě nováčkem, rád bych slyšel vaše rady. 😇

Děkuji za přečtení… 😃

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.