updatedNote: Updated Mar. 4, 2021
Opis
Złożona ścieżka NCBI RefSeq Genes pokazuje ludzkie geny kodujące białka i niekodujące białek, pobrane z kolekcji sekwencji referencyjnych NCBI RNA (RefSeq). Wszystkie podścieżki wykorzystują współrzędne dostarczone przez RefSeq, z wyjątkiem ścieżki UCSC RefSeq, którą UCSC tworzy poprzez rzeczywiste wyrównanie RNA z RefSeq do genomu. To wyrównanie może spowodować sporadyczne różnice między współrzędnymi anotacji dostarczonymi przez UCSC i NCBI. Do analizy RNA-seq zalecamy użycie tabel wyrównanych do NCBI, takich jak RefSeq All lub RefSeq Curated. Zobacz sekcję Metody, aby uzyskać więcej szczegółów na temat tego, jak zostały utworzone różne ścieżki.
Proszę odwiedzić stronę NCBI Feedback for Gene and Reference Sequences (RefSeq), aby zgłosić sugestie, przesłać uzupełnienia i poprawki lub poprosić o pomoc dotyczącą rekordów RefSeq.
Więcej informacji na temat różnych ścieżek genów można znaleźć w naszym FAQ Genes.
Konwencje wyświetlania i konfiguracja
Ta ścieżka jest ścieżką złożoną, która zawiera różne zestawy danych.Aby pokazać tylko wybrany zestaw ścieżek cząstkowych, usuń zaznaczenie pól obok ścieżek, które chcesz ukryć. Uwaga: Nie wszystkie podścieżki są dostępne we wszystkich zespołach.
Możliwe podścieżki zawierają: RefSeq aligned annotations and UCSC alignment of RefSeq annotations
- RefSeq All – wszystkie kuratorowane i przewidywane adnotacje dostarczone przez RefSeq.
- RefSeq Curated – podzbiór RefSeq All, który zawiera tylko te adnotacje, których dostępy zaczynają się od NM, NR, NP lub YP. (NP i YP są używane tylko dla genów kodujących białka w mitochondrium; YP jest używane tylko dla człowieka).
- RefSeq Predicted – podzbiór RefSeq All, który zawiera te adnotacje, których dostępy zaczynają się od XM lub XR.
- RefSeq Other – wszystkie inne adnotacje wyprodukowane przez grupę RefSeq, które nie pasują do wymagań dla włączenia do ścieżek RefSeq Curated lub RefSeq Predicted.
- RefSeq Alignments – wyrównania RefSeq RNA do ludzkiego genomu dostarczone przez grupę RefSeq, zgodnie z konwencjami wyświetlania dla ścieżekPSL.
- RefSeq Diffs – różnice w wyrównaniach między ludzkim genomem referencyjnym (genomami referencyjnymi) a transkryptami RefSeq. (Ścieżka nie jest obecnie dostępna dla każdego zespołu.)
- UCSC RefSeq – adnotacje wygenerowane z UCSC realignment of RNAs with NM and NR accessions to the human genome. Ta ścieżka była wcześniej znana jako ścieżka „RefSeq Genes”.
- RefSeq Select+MANE (podzbiór) – podzbiór RefSeq Curated, transkrypty oznaczone jako RefSeq Select lub MANE Select. Pojedynczy transkrypt Select jest wybierany jako reprezentatywny dla każdego genu kodującego białko. Ta ścieżka zawiera transkrypty skategoryzowane jako MANE, które są dalej uzgodnione jako reprezentatywne zarówno przez NCBI RefSeq i Ensembl/GENCODE, i mają 100% identyczne dopasowanie do transkryptu w anotacji Ensembl. Patrz NCBI RefSeq Select. Zauważ, że zapewniamy oddzielną ścieżkę, MANE (hg38), która zawiera tylko transkrypty MANE.
- RefSeq HGMD (podzbiór) – podzbiór RefSeq Curated, transkrypty opatrzone adnotacją Human Gene Mutation Database. Ta ścieżka jest dostępna tylko dla genomów ludzkich hg19 i hg38. Jest to najbardziej ograniczony podzbiór RefSeq, skierowany do diagnostyki klinicznej.
Ścieżki RefSeq All, RefSeq Curated, RefSeq Predicted, RefSeq HGMD,RefSeq Select/MANE i UCSC RefSeq są zgodne z konwencjami wyświetlania dla ścieżek przewidywań.Kolorowe cieniowanie wskazuje poziom przeglądu, jaki przeszedł rekord RefSeq: przewidywany (jasny), tymczasowy (średni) lub przejrzany (ciemny), jak zdefiniowano przez RefSeq.
Color | Poziom przeglądu |
---|---|
Reviewed: rekord RefSeq został przejrzany przez pracowników NCBI lub przez współpracownika. Proces przeglądu NCBI obejmuje ocenę dostępnych danych sekwencji i literatury. Niektóre rekordy RefSeq mogą zawierać rozszerzone informacje o sekwencji i adnotacjach. | |
Provisional: rekord RefSeq nie został jeszcze poddany indywidualnemu przeglądowi. Wstępne skojarzenie sekwencji z genem zostało ustalone przez współpracowników zewnętrznych lub personel NCBI. | |
Predicted: rekord RefSeq nie był jeszcze przedmiotem indywidualnego przeglądu, a jakiś aspekt rekordu RefSeq jest przewidywany. |
Nazwy pozycji i właściwości wyświetlania kodonów dla cech w ramach tej ścieżki można skonfigurować za pomocą kontrolek pól wyboru na górze strony opisu ścieżki. Aby dostosować ustawienia dla indywidualnej podścieżki, kliknij ikonę klucza obok nazwy ścieżki na liście podścieżek .
- Etykieta: Domyślnie elementy są oznaczone etykietami według nazwy genu. Kliknij odpowiednią opcję Etykieta, aby wyświetlić nazwę akcesji lub identyfikator OMIM zamiast nazwy genu, pokazać wszystkie lub podzbiór tych etykiet, w tym nazwę genu, identyfikator OMIM i nazwy akcesji, lub całkowicie wyłączyć etykietę.
- Kolorowanie kodonów: Ta ścieżka ma opcjonalną funkcję kolorowania kodonów, która pozwala użytkownikom na szybkie sprawdzenie poprawności i porównanie przewidywań genów. Aby wyświetlić kolory kodonów, wybierz opcję kodonów genomowych z menu rozwijanego Koloruj ścieżkę według kodonów. Aby uzyskać więcej informacji o tej funkcji, przejdź do strony Kolorowanie predykcji genów i adnotacji według kodonów.
Ścieżka RefSeq Diffs zawiera pięć różnych typów niezgodności między sekwencją genomu preferencji a sekwencjami transkryptów RefSeq. Pięć typów obszarów różnic jest następujących:
- mismatch – wyrównane, ale niedopasowane bazy, plus HGVS g., aby pokazać zmianę genomu wymaganą do dopasowania transkryptu i HGVS c./n., aby pokazać zmianę transkryptu wymaganą do dopasowania genomu.
- short gap – luki genomowe, które są zbyt małe, aby być intronami (arbitralny punkt odcięcia < 45 bp), najprawdopodobniej warianty insercji/delecji lub błędy, z HGVS g. i c./n. pokazującymi różnice.
- shift gap – pozycje shortGap, których umiejscowienie może być przesunięte w lewo i/lub w prawo na genomie z powodu powtarzającej się sekwencji, z HGVS c./n. zakresem pozycji niejednoznacznego regionu w transkrypcie. Tutaj zastosowano cienkie i grube linie — cienka linia pokazuje zakres sekwencji powtarzalnej, a gruba linia pokazuje najbardziej przesuniętą w prawo lukę.
- double gap – luki genomowe, które są wystarczająco długie, aby być intronami, ale pomijają sekwencję transkryptu (niewidoczne w ustawieniu domyślnym), z HGVS c./n. deletion.
- skipped – sekwencja na początku lub końcu transkryptu, która nie jest wyrównana do genomu (niewidoczna w ustawieniu domyślnym), z HGVS c./n. deletion
Terminologia HGVS (Human Genome Variation Society):g. = sekwencja genomowa ; c. = kodująca sekwencja DNA ; n. = niekodująca sekwencja referencyjna RNA.
Przy zgłaszaniu HGVS z sekwencjami RefSeq, aby upewnić się, że wyniki z artykułów badawczych mogą być jednoznacznie mapowane do genomu, proszę podać wersję anotacji RefSeq wyświetlaną na stronie szczegółów transkryptu w Przeglądarce Genomowej, a także identyfikator transkryptu RefSeq z wersją (np. NM_012309.4, a nie NM_012309).
Metody
Ścieżki zawarte w anotacji RefSeq i ścieżki wyrównania RefSeq RNA zostały utworzone w UCSC przy użyciu danych z projektu NCBI RefSeq. Pliki danych zostały pobrane z RefSeq w formacie GFF i przekonwertowane do formatów tabeli genePred i PSL w celu wyświetlenia w Genome Browser. Informacje na temat potoku anotacji NCBI można znaleźć tutaj.
Ścieżka RefSeq Diffs jest generowana przez UCSC przy użyciu dopasowań RefSeq RNA NCBI.
Ścieżka UCSC RefSeq Genes jest skonstruowana przy użyciu tych samych metod, co poprzednie ścieżki RefSeq Genes.RefSeq RNA zostały dopasowane do ludzkiego genomu przy użyciu BLAT. Te z wyrównaniem mniejszym niż 15% zostały odrzucone. Gdy pojedyncze RNA dopasowywano w wielu miejscach, identyfikowano dopasowanie o największej identyczności baz. Zachowano tylko dopasowania o poziomie identyczności bazowej w granicach 0,1% najlepszego i przynajmniej 96% identyczności bazowej z sekwencją genomową.
Dostęp do danych
Surowe dane dla tych ścieżek mogą być dostępne na wiele sposobów. Mogą być eksplorowane interaktywnie przy użyciu Table Browser lub Data Integrator. Tabele mogą być również dostępne programowo poprzez nasz publiczny serwer MySQL lub pobrane z naszego serweradownloads do lokalnego przetwarzania. Można również uzyskać dostęp do każdej pozycji tabeli RefSeq w formacie JSON poprzez nasz JSON API.
Dane w ścieżkach RefSeq Other i RefSeq Diffs są zorganizowane w formacie pliku BigBed; więcej informacji na temat dostępu do informacji w tym pliku BigBed można znaleźć poniżej. Pozostałe podścieżki są powiązane z tabelami bazy danych w następujący sposób:
format genePred:
- RefSeq All – ncbiRefSeq
- RefSeq Curated – ncbiRefSeqCurated
- RefSeq Predicted – ncbiRefSeqPredicted
- RefSeq HGMD -. ncbiRefSeqHgmd
- RefSeq Select+MANE – ncbiRefSeqSelect
- UCSC RefSeq – refGene
Format PSL:
- RefSeq Alignments – ncbiRefSeqPsl
Pierwszą kolumną każdej z tych tabel jest „bin”. Ta kolumna została zaprojektowana w celu przyspieszenia dostępu do wyświetlania w Genome Browser, ale może być bezpiecznie ignorowana w dalszych analizach. Więcej o systemie indeksowania bin można przeczytać tutaj.
Anotacje w ścieżkach RefSeqOther i RefSeqDiffs są przechowywane w plikach bigBed, które można uzyskać z naszego serwera pobierania tutaj,ncbiRefSeqOther.bb i ncbiRefSeqDiffs.bb.Poszczególne regiony lub cały zestaw anotacji genomowych można uzyskać za pomocą naszego narzędzia BigBedToBed, które można skompilować z kodu źródłowego lub pobrać jako prekompilowane binaria dla swojego systemu z katalogu utilities podlinkowanego poniżej. Na przykład, aby wyodrębnić tylko anotacje w danym regionie, można użyć następującego polecenia:
bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/ncbiRefSeq/ncbiRefSeqOther.bb-chrom=chr16 -start=34990190 -end=36727467 stdout
Można pobrać wersję tabeli RefSeq All w formacie GTF z katalogu GTF downloads.Ścieżki w formacie genePred można również przekonwertować do formatu GTF za pomocą narzędziagenePredToGtf, dostępnego w kataloguutilities na serwerze UCSC downloads. Narzędzie to można uruchomić z wiersza poleceń w następujący sposób:
genePredToGtf hg38 ncbiRefSeqPredicted ncbiRefSeqPredicted.gtf
Uwaga, że używając genePredToGtf w ten sposób uzyskuje się dostęp do naszego publicznego serwera MySQL, dlatego należy skonfigurować hg.conf w sposób opisany na stronie MySQL, do której odnośnik znajduje się na początku rozdziału Dostęp do danych.
Plik zawierający sekwencje RNA w formacie FASTA dla wszystkich pozycji w ścieżkach RefSeq All, RefSeq Curated i RefSeq Predicted można znaleźć na naszym serwerze pobierania tutaj.
W przypadku pytań prosimy o zapoznanie się z archiwami naszej listy dyskusyjnej.
Poprzednie wersje zestawu ścieżek ncbiRefSeq można znaleźć na naszym serwerze pobierania archiwów.
Credits
Ta ścieżka została wyprodukowana w UCSC z danych wygenerowanych przez naukowców z całego świata i kuratorowanych przez projekt NCBI RefSeq.
Kent WJ.BLAT – the BLAST-like alignment tool. Genome Res. 2002 Apr;12(4):656-64.PMID: 11932250; PMC: PMC187518
Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J,Landrum MJ, McGarvey KM et al.RefSeq: an update on mammalian reference sequences.Nucleic Acids Res. 2014 Jan;42(Database issue):D756-63.PMID: 24259432; PMC: PMC3965018
.