Analiza danych sekwencji DNA – początki w bioinformatyce

W poprzednim artykule przedstawiłem podstawy DNA, nukleotydy i ich ułożenie. Być może zastanawiasz się, w jaki sposób możemy zidentyfikować dokładną kolejność nukleotydów w cząsteczce DNA. W tym miejscu do akcji wkracza sekwencjonowanie DNA.

Sekwencjonowanie jest operacją polegającą na określeniu dokładnej kolejności nukleotydów danej cząsteczki DNA. Służy do określenia kolejności czterech zasad: adeniny (A), guaniny (G), cytozyny (C) i tyminy (T), w nici DNA.

Sekwencjonowanie DNA służy do określania sekwencji poszczególnych genów, pełnych chromosomów lub całych genomów organizmu. Sekwencjonowanie DNA stało się również najbardziej efektywnym sposobem sekwencjonowania RNA lub białek.

Cząsteczka DNA (Źródło obrazu: https://.com)

Historia sekwencjonowania

Prace przeprowadzone przez brytyjskiego biochemika Fredericka Sangera położyły podwaliny pod sekwencjonowanie białek. W 1955 roku, Sanger ukończył sekwencję wszystkich aminokwasów w insulinie. Jego praca dostarczyła dowodów na to, że białka składały się z jednostek chemicznych o określonym wzorze, a nie z mieszaniny substancji.

Frederick Sanger (Źródło obrazu: https://en.wikipedia.org/wiki/DNA_sequencing)

Później, w 1977 r. Frederick Sanger i jego współpracownicy opracowali metodę nazwaną sekwencjonowaniem Sangera, w której DNA można było sekwencjonować poprzez generowanie fragmentów. Była to najpowszechniej stosowana metoda sekwencjonowania przez około 40 lat.

Whole Genome Sequencing and Sequence Assembly

Reakcja sekwencjonowania DNA wytwarza sekwencję o długości kilkuset baz. Sekwencje genów mają zwykle długość tysięcy zasad. Największym znanym genem jest ten związany z dystrofią mięśniową Duchenne’a. Ma on około 2,4 miliona zasad. Ma on długość około 2,4 miliona zasad. Aby zbadać jeden cały gen, naukowcy stosują prostą strategię zwaną sekwencjonowaniem typu shotgun. Długa sekwencja DNA jest składana z serii krótszych, nakładających się na siebie sekwencji. Zobaczmy, co się dzieje w metodzie sekwencjonowania typu shotgun.

Sekwencjonowanie typu shotgun

Sekwencjonowanie typu shotgun

Specjalne maszyny, znane jako sekwenatory, są używane do wyodrębniania krótkich losowych sekwencji DNA z konkretnego genomu, który chcemy określić (genom docelowy). Obecne technologie sekwencjonowania DNA nie są w stanie odczytać całego genomu naraz. Odczytuje ona małe fragmenty o długości od 20 do 30000 zasad, w zależności od zastosowanej technologii. Te krótkie fragmenty nazywane są odczytami. Specjalne oprogramowanie jest używane do łączenia tych odczytów w zależności od tego, jak się nakładają, w celu wygenerowania ciągłych ciągów zwanych kontigami. Te kontigi mogą być całym docelowym genomem lub jego częściami (jak pokazano na powyższym rysunku).

Proces wyrównywania i łączenia fragmentów dłuższej sekwencji DNA, w celu odtworzenia oryginalnej sekwencji jest znany jako Sequence Assembly.

W celu uzyskania całej sekwencji genomu, możemy potrzebować generować coraz więcej losowych odczytów, aż kontigi będą pasować do docelowego genomu.

Problem składania sekwencji

Problem składania sekwencji można opisać następująco.

Dając zbiór sekwencji, znajdź ciąg o minimalnej długości zawierający wszystkich członków zbioru jako podciągi.

Źródło obrazu: http://www.homolog.us/Tutorials/index.php?p=1.3&s=1

Problem ten jest dodatkowo skomplikowany ze względu na istnienie powtarzających się sekwencji w genomie, jak również substytucji lub mutacji w ich obrębie.

Problem składania sekwencji można porównać do rzeczywistego scenariusza życia w następujący sposób.

Załóżmy, że bierzesz wiele kopii książki, przepuszczasz każdą z nich przez niszczarkę z innym nożem, a następnie próbujesz zrobić tekst książki z powrotem razem tylko przez klejenie razem rozdrobnionych kawałków. Jest oczywiste, że zadanie to jest dosyć trudne. Do tego dochodzą jeszcze dodatkowe problemy praktyczne. Oryginalny egzemplarz może mieć wiele powtórzonych akapitów, a niektóre strzępy mogą zostać zmodyfikowane podczas niszczenia i zawierać literówki. Części z innej książki mogły również zostać dodane, a niektóre strzępy mogą być całkowicie nierozpoznawalne.

To brzmi bardzo zagmatwanie i całkiem niemożliwe do przeprowadzenia. Ten problem jest znany jako NP-zupełny. Problemy NP kompletne to problemy, których stan jest nieznany. Żaden algorytm czasu wielomianowego nie został jeszcze odkryty dla żadnego problemu NP kompletnego, ani nikt jeszcze nie był w stanie udowodnić, że żaden algorytm czasu wielomianowego nie istnieje dla żadnego z nich. Istnieją jednak chciwe algorytmy do rozwiązywania problemu składania sekwencji, gdzie eksperymenty dowiodły, że sprawdzają się one dość dobrze w praktyce.

Powszechną metodą stosowaną do rozwiązywania problemu składania sekwencji i przeprowadzania analizy danych sekwencyjnych jest wyrównywanie sekwencji.

Wyrównywanie sekwencji

Wyrównywanie sekwencji jest metodą układania sekwencji DNA, RNA lub białek w celu identyfikacji regionów podobieństwa. Zidentyfikowane podobieństwo może być wynikiem funkcjonalnych, strukturalnych lub ewolucyjnych związków między sekwencjami.

Jeśli porównujemy dwie sekwencje, jest to znane jako wyrównanie sekwencji w parze. Jeśli porównujemy więcej niż dwie sekwencje, to jest to znane jako wielokrotne wyrównanie sekwencji.

Sekwencjonowanie następnej generacji

Sekwencjonowanie następnej generacji (NGS), znane również jako sekwencjonowanie o wysokiej przepustowości, jest zbiorczym terminem używanym do opisania wielu różnych nowoczesnych technologii sekwencjonowania, takich jak,

  • sekwencjonowanie Illumina (Solexa)
  • sekwencjonowanie Roche 454
  • sekwencjonowanie Ion torrent Proton / PGM
  • sekwencjonowanie SOLiD

Te ostatnie technologie pozwalają nam sekwencjonować DNA i RNA znacznie szybciej i taniej niż wcześniej stosowane sekwencjonowanie Sangera i zrewolucjonizowały badania nad genomiką.

Mysły końcowe

Analiza danych sekwencyjnych stała się bardzo ważnym aspektem w dziedzinie genomiki. Bioinformatyka znacznie ułatwiła zadanie analizy biologom, dostarczając różnych rozwiązań programowych i oszczędzając żmudnej pracy ręcznej.

Możesz znaleźć listę narzędzi programowych używanych do sekwencjonowania DNA stąd. Ponadto, możesz znaleźć listę oprogramowania do wyrównywania sekwencji stąd.

Mam nadzieję, że masz podstawowe pojęcie o analizie danych sekwencyjnych.

W moim następnym artykule, przejdę przez szczegóły wyrównania sekwencji parami i kilka wspólnych algorytmów, które są używane w tej dziedzinie.

Ponieważ wciąż jestem bardzo nowy w tej dziedzinie, chciałbym usłyszeć twoją radę. 😇

Dziękuję za przeczytanie… 😃

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.