W poprzednim artykule przedstawiłem podstawy DNA, nukleotydy i ich ułożenie. Być może zastanawiasz się, w jaki sposób możemy zidentyfikować dokładną kolejność nukleotydów w cząsteczce DNA. W tym miejscu do akcji wkracza sekwencjonowanie DNA.
Sekwencjonowanie jest operacją polegającą na określeniu dokładnej kolejności nukleotydów danej cząsteczki DNA. Służy do określenia kolejności czterech zasad: adeniny (A), guaniny (G), cytozyny (C) i tyminy (T), w nici DNA.
Sekwencjonowanie DNA służy do określania sekwencji poszczególnych genów, pełnych chromosomów lub całych genomów organizmu. Sekwencjonowanie DNA stało się również najbardziej efektywnym sposobem sekwencjonowania RNA lub białek.
Prace przeprowadzone przez brytyjskiego biochemika Fredericka Sangera położyły podwaliny pod sekwencjonowanie białek. W 1955 roku, Sanger ukończył sekwencję wszystkich aminokwasów w insulinie. Jego praca dostarczyła dowodów na to, że białka składały się z jednostek chemicznych o określonym wzorze, a nie z mieszaniny substancji.
Później, w 1977 r. Frederick Sanger i jego współpracownicy opracowali metodę nazwaną sekwencjonowaniem Sangera, w której DNA można było sekwencjonować poprzez generowanie fragmentów. Była to najpowszechniej stosowana metoda sekwencjonowania przez około 40 lat.
Whole Genome Sequencing and Sequence Assembly
Reakcja sekwencjonowania DNA wytwarza sekwencję o długości kilkuset baz. Sekwencje genów mają zwykle długość tysięcy zasad. Największym znanym genem jest ten związany z dystrofią mięśniową Duchenne’a. Ma on około 2,4 miliona zasad. Ma on długość około 2,4 miliona zasad. Aby zbadać jeden cały gen, naukowcy stosują prostą strategię zwaną sekwencjonowaniem typu shotgun. Długa sekwencja DNA jest składana z serii krótszych, nakładających się na siebie sekwencji. Zobaczmy, co się dzieje w metodzie sekwencjonowania typu shotgun.
Sekwencjonowanie typu shotgun
Specjalne maszyny, znane jako sekwenatory, są używane do wyodrębniania krótkich losowych sekwencji DNA z konkretnego genomu, który chcemy określić (genom docelowy). Obecne technologie sekwencjonowania DNA nie są w stanie odczytać całego genomu naraz. Odczytuje ona małe fragmenty o długości od 20 do 30000 zasad, w zależności od zastosowanej technologii. Te krótkie fragmenty nazywane są odczytami. Specjalne oprogramowanie jest używane do łączenia tych odczytów w zależności od tego, jak się nakładają, w celu wygenerowania ciągłych ciągów zwanych kontigami. Te kontigi mogą być całym docelowym genomem lub jego częściami (jak pokazano na powyższym rysunku).
Proces wyrównywania i łączenia fragmentów dłuższej sekwencji DNA, w celu odtworzenia oryginalnej sekwencji jest znany jako Sequence Assembly.
W celu uzyskania całej sekwencji genomu, możemy potrzebować generować coraz więcej losowych odczytów, aż kontigi będą pasować do docelowego genomu.
Problem składania sekwencji
Problem składania sekwencji można opisać następująco.
Dając zbiór sekwencji, znajdź ciąg o minimalnej długości zawierający wszystkich członków zbioru jako podciągi.